Conjunto de datos de páginas web maliciosas y benignas
Publicado: 28 Sep 2020, 20:36
DESCRIPCION
El conjunto de datos contiene atributos extraídos de sitios web que se pueden utilizar para la clasificación de páginas web como maliciosas o benignas. El conjunto de datos también incluye contenido de página sin procesar, incluido el código JavaScript que se puede usar como datos no estructurados en Deep Learning o para extraer más atributos. Los datos se han recopilado rastreando Internet utilizando MalCrawler. Las etiquetas se han verificado mediante la API de navegación segura de Google.
ATRIBUTOS
Los atributos se han seleccionado en función de su relevancia. Los detalles de los atributos del conjunto de datos son los siguientes:
12 MB - IPYNB 01- Visualización de dataset.ipynb de páginas web maliciosas y benignas
2 MB - IPYNB 02- Impresión de Jupyter Notebook- Visualización de Dataset.pdf
13 KB - IPYNB 03- Código de muestra para extracción y preprocesamiento de atributos.ipynb
218 MB - Webpages_Classification_test_data.csv.zip - Conjunto de datos de prueba comprimido de 0,364 millones de registros
723 MB - Webpages_Classification_train_data.csv.zip - Conjunto de datos de entrenamiento comprimido de 1,2 millones de registros
FUENTE:
https://data.mendeley.com/datasets/gdx3pkwp47/2
https://www.sciencedirect.com/science/a ... 0920311987
El conjunto de datos contiene atributos extraídos de sitios web que se pueden utilizar para la clasificación de páginas web como maliciosas o benignas. El conjunto de datos también incluye contenido de página sin procesar, incluido el código JavaScript que se puede usar como datos no estructurados en Deep Learning o para extraer más atributos. Los datos se han recopilado rastreando Internet utilizando MalCrawler. Las etiquetas se han verificado mediante la API de navegación segura de Google.
ATRIBUTOS
Los atributos se han seleccionado en función de su relevancia. Los detalles de los atributos del conjunto de datos son los siguientes:
- 'url': la URL de la página web (String).
- 'ip_add': dirección IP de la página web (String).
- 'geo_loc': la ubicación geográfica donde se aloja la página web (Categorical String {Variable Bucket Size}).
- 'url_len': la longitud de la URL (Numerical {int16}).
- 'js_len': longitud del código JavaScript en la página web (Numerical {float64}).
- 'js_obf_len: longitud del código JavaScript ofuscado (Numerical {float64}).
- 'tld': el dominio de nivel superior de la página web (Categorical String {Variable Bucket Size}).
- 'who_is': si la información del dominio QUIÉN ES es competitivo o no (Categorical String {Value- incomplete/complete}).
- 'https': si el sitio utiliza https o http (Categorical String {Value- yes/no}).
- 'content': el contenido sin procesar de la página web, incluido el código JavaScript (Text).
- 'label': la etiqueta de clase para una página web benigna o maliciosa. Se adjunta el código Python para la extracción de los atributos del conjunto de datos enumerados anteriormente. También se adjunta la visualización de este conjunto de datos y su código Python. Esta visualización se puede ver en línea en Kaggle (Categorical String {Value- good/bad}).
12 MB - IPYNB 01- Visualización de dataset.ipynb de páginas web maliciosas y benignas
2 MB - IPYNB 02- Impresión de Jupyter Notebook- Visualización de Dataset.pdf
13 KB - IPYNB 03- Código de muestra para extracción y preprocesamiento de atributos.ipynb
218 MB - Webpages_Classification_test_data.csv.zip - Conjunto de datos de prueba comprimido de 0,364 millones de registros
723 MB - Webpages_Classification_train_data.csv.zip - Conjunto de datos de entrenamiento comprimido de 1,2 millones de registros
FUENTE:
https://data.mendeley.com/datasets/gdx3pkwp47/2
https://www.sciencedirect.com/science/a ... 0920311987