Troomes

Publicado: **28 Sep 2020, 20:36**

DESCRIPCION
El conjunto de datos contiene atributos extraídos de sitios web que se pueden utilizar para la clasificación de páginas web como maliciosas o benignas. El conjunto de datos también incluye contenido de página sin procesar, incluido el código JavaScript que se puede usar como datos no estructurados en Deep Learning o para extraer más atributos. Los datos se han recopilado rastreando Internet utilizando MalCrawler. Las etiquetas se han verificado mediante la API de navegación segura de Google.

ATRIBUTOS
Los atributos se han seleccionado en función de su relevancia. Los detalles de los atributos del conjunto de datos son los siguientes:

'url': la URL de la página web (String).

'ip_add': dirección IP de la página web (String).

'geo_loc': la ubicación geográfica donde se aloja la página web (Categorical String {Variable Bucket Size}).

'url_len': la longitud de la URL (Numerical {int16}).

'js_len': longitud del código JavaScript en la página web (Numerical {float64}).

'js_obf_len: longitud del código JavaScript ofuscado (Numerical {float64}).

'tld': el dominio de nivel superior de la página web (Categorical String {Variable Bucket Size}).

'who_is': si la información del dominio QUIÉN ES es competitivo o no (Categorical String {Value- incomplete/complete}).

'https': si el sitio utiliza https o http (Categorical String {Value- yes/no}).

'content': el contenido sin procesar de la página web, incluido el código JavaScript (Text).

'label': la etiqueta de clase para una página web benigna o maliciosa. Se adjunta el código Python para la extracción de los atributos del conjunto de datos enumerados anteriormente. También se adjunta la visualización de este conjunto de datos y su código Python. Esta visualización se puede ver en línea en Kaggle (Categorical String {Value- good/bad}).

DATOS:
12 MB - IPYNB 01- Visualización de dataset.ipynb de páginas web maliciosas y benignas

2 MB - IPYNB 02- Impresión de Jupyter Notebook- Visualización de Dataset.pdf

13 KB - IPYNB 03- Código de muestra para extracción y preprocesamiento de atributos.ipynb

218 MB - Webpages_Classification_test_data.csv.zip - Conjunto de datos de prueba comprimido de 0,364 millones de registros

723 MB - Webpages_Classification_train_data.csv.zip - Conjunto de datos de entrenamiento comprimido de 1,2 millones de registros

FUENTE:
https://data.mendeley.com/datasets/gdx3pkwp47/2
https://www.sciencedirect.com/science/a ... 0920311987

Publicado: **01 Oct 2020, 01:31**

Es interesante como la ayuda de estas bases podría ayudar a detectar las páginas maliciosoas, mediante un modelo de predicción adecuado se podría realizar el análisis y predecir si un página es phishing o no.

Comparto un web que suele ser utilizado por muchos artículos de investigación de phishing: https://www.phishtank.com/

Troomes

Conjunto de datos de páginas web maliciosas y benignas

Conjunto de datos de páginas web maliciosas y benignas

Re: Conjunto de datos de páginas web maliciosas y benignas