Troomes

alexander.contreras

1.Resumen

En este post se estudiara el dataset del OSCE en donde se encontraban los datos de las contrataciones de proovedores realizadas por la emergencia sanitaria.También se realizara un clustering para poder agrupar las contrataciones de proveedores con características similares. Se utilizará el método "Elbow Method" para hallar la cantidad de clusters adecuada y el algoritmo K-Means para hallar los clusters.

2.Descripción del Dataset
Dataset original
https://www.datosabiertos.gob.pe/datase ... -organismo
El dataset original está compuesto por un total de 11285 instancias, y presenta los siguientes atributos :

: descripcion_datos.PNG (48.39 KiB) Visto 1414 veces

Data procesada:
Eliminamos data irrelevante como fechas,descripciones y ids.Al final nos quedamos con los siguientes atributos

: data_procesada.png (53.84 KiB) Visto 1414 veces

3.Descripción de los resultados con las técnicas usadas
Utilizamos el Elbow Method para hallar el número de clusters y para ello usaremos los siguientes comandos para obtener el numero de clústeres
df <- scale(ContratacionesOSCE)
fviz_nbclust(df,kmeans,method="wss")+geom_vline(xintercept=3,linetype=2)+labs(subtitle="Elbow method")

luego de ejecutar los comando obtenemos la siguiente grafica

: clusterR.png (32 KiB) Visto 1414 veces

Donde aparece la forma de un codo es 9 aproxiamdamente,por lo que definiremos que el numero de clústeres sea 9
En weka corremos el algoritmo kmenas con k=9 y se tiene el siguiente resultado

: weka_Cluster.png (80.19 KiB) Visto 1414 veces

Podemos observar que las mayorías de instancias están en el cluster #0,1,4,5y 7.También podemos ver con mayor detalle los centroides de los clústeres

: centroid1-3.PNG (20.54 KiB) Visto 1414 veces

: centroide4-6.PNG (20.13 KiB) Visto 1414 veces

: centroide7-9.PNG (21.68 KiB) Visto 1414 veces

4.Conclusiones

Podemos ver que las contrataciones directas encontradas muestran cierta relación con la ubicación geográfica que se halló en el cluster. Asimismo, los montos de dinero más grandes por contratación se encuentran asignados a las ciudades cerca Lima. También se encontró que la mayoría de contrataciones directas están en los cluster 0,1,4,5y 7 y todos estos cluster son lo más cercanos a Lima.

5.Github
https://github.com/dsw555/Contratacione ... -Sanitaria

alexander.contreras

1.Resumen

En este post se creo un modelo de clasificación que permite identificar a un grupo de personas que probablemente cobraran su bono independiente debido a características como lugar de procedencia, ubigeo, personas que viven en su hogar, etc. Con el objetivo de desarrollar el modelo se escogio un dataset de la Plataforma Nacional de Datos abiertos .

2.Descripción del Dataset
Dataset original
https://www.datosabiertos.gob.pe/datase ... mpleo-mtpe

El dataset original está compuesto por un total de 773291 instancias, y presenta los siguientes atributos que corresponden a cod_hogar,ubigeo,de_departamento,de_provincia,de_distrito,personas_hogar,monto,tipo_bono,bono_cobrado,fecha_cobro,entidad_cobro,medio_cobro,fecha_actualizacion y se puede observar a continuación :

: dataset_original.jpg (67.03 KiB) Visto 1545 veces

Seleccionamos los atributos relevantes con InfoGainAttributeEval de weka:

: information_gain_ahorasi.PNG (21.32 KiB) Visto 1529 veces

Eliminanos Monto,Tipo_bono,entidad_cobro ya que no aporta ninguna información.tambien eliminamos medio_cobro y fecha de cobro ya que el objetivo de este modelo es predecir a priori el cobro del bono independiente.

: data_procesada.PNG (13.17 KiB) Visto 1529 veces

Podemos observar que el dataset queda con 7 atributos y 773291 instancias
Para balancear la data hacemos uso del downsampling en ambas clases y nos queda la siguiente distribución:

: data_balanceada.png (5.82 KiB) Visto 1545 veces

La data ha sido balanceada pero las filas están ordenadas según el atributo bono cobrado ,entonces aplicamos el filtro randomize para mezclar aleatoriamente el orden de las instancias

3.Descripción de los resultados con las técnicas usadas
Luego del preprocesamiento, el dataset se sometió a los siguientes modelos:
Árbol de decisión
J48

: J48.PNG (26.08 KiB) Visto 1529 veces

Random Forest

: RandomForest.PNG (25.89 KiB) Visto 1529 veces

SVM

: SVM.PNG (25.83 KiB) Visto 1529 veces

Redes Bayesianas

: Bayesnet.PNG (26.22 KiB) Visto 1529 veces

4.Conclusiones

En base a los resultados podemos concluir que el mejor modelo obtenido es BayesNet con una precisión del 60.4582% y obteniendo 0.628 para la clase "SI" y 0.582 para la clase "NO". Siendo así los resultados obtenidos no son alentadores ,este modelo no es optimo para la clasificación de cobros de bonos independientes

5.Github
https://gitlab.com/hola5480990/Bonos_Independientes/

alexander.contreras

1.Descripcion

Los teléfonos inteligentes se están volviendo indispensables en la vida diaria. Android ha sido el sistema operativo móvil mas popular en los dispositivos móviles. Sin embargo innumerables malwares están ocultos en un gran cantidad de aplicaciones benignas que amenazan seriamente la seguridad de Android. En este post se explicara los modelos de Deep learning de dos trabajos relacionados con la detección de malware, también se evaluara su rendimiento .

En el primer trabajo se presenta DroipDeep , un enfoque de aprendizaje profundo para la detección de malware de Android .DroidDeep primero considera la información estática(los permisos, las llamadas de la API ,etc) luego de esta información se extrae un conjunto de características que posteriormente son introducidas en modelos de aprendizaje profundo para la clasificación .Finalmente ,se coloca las funciones aprendidas en un SVM para detectar el malware de Android.

: arquitectura_droideep.PNG (71.93 KiB) Visto 1307 veces

Fig. 1. Arquitectura DroidDeep

El modelo de Deep learning usado en este trabajo es un Deep Belief Networks(DBN) que es una red neuronal construida a partir de muchas capas de máquinas de Boltzmann restringidas(RBM) como se pueda observar en la siguiente figura

: Modelo de aprendizaje DBN.PNG (58.04 KiB) Visto 1307 veces

Fig. 2. Modelo de aprendizaje profundo construido con DBN

Después de la etapa de Deep Learning, obtenemos las características abstractas de las aplicación de Android y luego las usamos para construir el modelo de clasificación de aplicaciones de Android Para esto se ha aplicado la máquina de vectores de soporte (SVM)

: SVM.PNG (80.08 KiB) Visto 1307 veces

Fig. 3. una ilustración del método SVM. ω es el vector normal y segundo es la distancia
perpendicular al origen

En el segundo trabajo se presenta DroipDetector tiene una metodología parecida también se trata de un enfoque de aprendizaje profundo para la detección de malware de Android .DroidDeep primero considera la información estática(los permisos, las llamadas de la API ,etc.) y dinámica luego de esta información extrae un conjunto de características que posteriormente son introducidas en modelos de aprendizaje profundo para la clasificación DBN .

: droidDetector.PNG (25.9 KiB) Visto 1307 veces

Fig.4. Framework de DroidDetector

Dataset

Para el dataset en el primer primero se consiguió aplicaciones de Google Play y de diferente paginas desconocidas, luego estas aplicaciones se pasaron por diez antivirus para determinar si tienen malware o no. Al final se obtuvo un dataset de 3986 aplicaciones benignas y 3986 muestras de malware .Para el dataset del segundo trabajo se rastreó 20000 aplicaciones Google Playstore que han sido revisadas por 10 antivirus para determinar si tienen malware o no.

2.Resultados

Se logro una precisión de 97.5 % al establecer el número de capas en tres se considera que los modelos tradicionales de aprendizaje automático que tienen menos de tres capas de unidades de cálculo tienen arquitecturas poco profundas. Por lo tanto, se estableció el número de capas para el modelo de aprendizaje profundo de tres a cinco y comparando los resultados de la clasificación para encontrar cuál puede lograr los mejores resultados para entrenar el modelo DBN. Podemos ver que DBN puede lograr un 97,5% de precisión al establecer el número de capa en tres y el número de neuronas tres

: precision.PNG (97.7 KiB) Visto 1307 veces

Tabla de Resultados de clasificación con diferentes construcciones de modelos de Deep Learning

En el segundo trabajo se puede ver que el aprendizaje profundo (DBN) puede lograr una precisión del 96,76% cuando se establece el número de capas en 2 y el número de neuronas en cada capa en 150. Además, podemos ver que la precisión promedio bajo
diferentes construcciones de modelos son mayores que 95%.

: table.PNG (42.44 KiB) Visto 1307 veces

Tabla de Precisiones de clasificación con diferentes construcciones de modelos de aprendizaje profundo.

3.Conclusiones

En estos dos trabajos se presentaron dos métodos de detección de malware ,El primero DroidDeep se extrajo un total de 32247 funciones y tiene resultados buenos que muestran que puede identificar un malware de manera rápida y con una precisión alta
En el segundo trabajo DroidDetecter se extrajeron un total de 192 características y tiene resultados que demuestran que con el Deep Learning puede lograr una precisión superior en diferentes condiciones.

4.Referencias
Su, X., Zhang, D., Li, W., & Zhao, K. (2016, August). A deep learning approach to android malware feature learning and detection. In 2016 IEEE Trustcom/BigDataSE/ISPA (pp. 244-251). IEEE.

Yuan, Z., Lu, Y., & Xue, Y. (2016). Droiddetector: android malware characterization and detection using deep learning. Tsinghua Science and Technology, 21(1), 114-123.

alexander.contreras

1.Descripción

El fuego es uno de los principales desastres del mundo. Un sistema de detección de incendios eficaz y eficiente puede reducir en gran medida las pérdidas económicas y humanas. Este post explicara un sistema de detección de incendios basado en Deep Learning exactamente una modificación a Mobile net V2 .

: Incendios_Cusco.jpg (1.33 MiB) Visto 1276 veces

Los trabajos propuestos utilizan una red convolucional modificada de Mobile net V2 que es adecuada para el uso en dispositivos móviles ya que no involucra una gran capacidad computacional claro esto sin comprometer significativamente la precisión de los datos. Esta red utiliza dos hiperparametros with-multiplier y resolution multiplier que contribuyen a una reducción en el tamaño de la red mejorando su eficiencia.

La red basada en Mobile net V2 es una red convolucional típica ,en este trabajo las primeras capas del modelo se mantiene igual y se elimina las ultimas capas del modelo ,luego se agrega una capa de salida antes de la capa de clasificación final para evitar un ajuste excesivo. Esta capa de abandono fue seguida por una capa de clasificación softmax para las dos clases. De esta manera se ajusta el modelo para las dos clases (de fuego y sin fuego) usando el conjunto de datos de entrenamiento

: Modelo.PNG (31.51 KiB) Visto 1276 veces

Fig. 1: Arquitectura del modelo de aprendizaje profundo utilizado en este trabajo

El dataset elegido es una combinación de cuatro dataset (Foggia,Chino,Sharma,Propio).El dataset de Foggia contiene 6311 fotogramas de fuego y 51489 fotogramas de sin fuego ,para lograr la homogeneidad en este dataset se aumentó el número de fotogramas de fuego con técnicas como rotación, volteo, zoom, etc y se redujo el numero de fotogramas de sin fuego ,luego se agrego una parte del conjunto del dataset de Sharma y el dataset chino .Luego de todos los cambios al dataset al final se contaba con 8481 imágenes de clases de incendio y no incendio

: DATASET.PNG (1.89 MiB) Visto 1276 veces

Fig. 2:Datasets utilizados

2.RESULTADOS

El modelo ha tenido un buen desempeño en diferentes conjunto de datos en el dataset creado a mano se tiene una precisión de 99.17 % con 0% de falsos positivos y 0.80 % de falsos negativos y 0.99 de F-Measure.También se obtuvo una velocidad de fotogramas de 5 fotogramas por segundo con nuestra red entrenada mientras se detectaba el fuego en Raspberry Pi 3B, lo que apunta hacia la viabilidad de nuestra red para aplicaciones de visión integradas y móviles. Esta velocidad de fotogramas es lo suficientemente buena como para detectar incendios mientras se ejecuta en cualquier dispositivo integrado o móvil en tiempo real.

: metrica.PNG (46.95 KiB) Visto 1276 veces

Tabla 1. Comparación con enfoques anteriores en el conjunto de datos (de Foggia). Métodos

: framerate.PNG (29.99 KiB) Visto 1276 veces

Tabla 2. Comparación de la velocidad de fotogramas con DL anteriores . Métodos

3.CONCLUCIONES

En estos trabajos se ha demostrado que es posible aplicar un CNN simple, pero sin sacrificar el rendimiento del modelo. Aun cuando el hardware de bajo coste limita la potencia de calculo los resultados son lo suficientemente buenos exactitud, precisión, medida-f para hacer viable este proyecto. En un futuro se podría mejorar el hardware integrado y también expandir el dataset para poder aumentar la eficiencia y detectar, así como combatir los incendios a campo abierto que son un gran problema para el medio ambiente.

4.REFERENCIAS
[1]Jadon, A., Varshney, A., & Ansari, M. S. (2020). Low-Complexity High-Performance Deep Learning Model for Real-Time Low-Cost Embedded Fire Detection Systems. Procedia Computer Science, 171, 418-426.
[2] Bu, F., & Gharajeh, M. S. (2019). Intelligent and vision-based fire detection systems: A survey. Image and Vision Computing, 91, 103803.

Se encontraron 4 coincidencias

Clusterización de contrataciones directas por el estado de emergencia

Clasificación de la población receptora de bonos independientes

Aplicaciones de Deep Learning en la Ciberseguridad

Detección de incendios usando Deep Learning de alto rendimiento para sistemas integrados de bajo costo