Troomes

gian20132

Actualmente, el desafío que tiene las instituciones gubernamentales de ciudades inteligentes es el de garantizar la seguridad de los habitantes. Para este fin, se pueden diseñar enfoques basados en técnicas de minería de datos y aprendizaje automático que permitan predecir eventos delictivos basados en datos históricos y en el comportamiento identificado.

1.- Introducción
En el artículo presenta la investigación de la comparación entre dos algoritmos de clasificación de datos. El primer algoritmo se basa técnicas de árboles de decisión (conocido como CART), y el segundo algoritmo de tipo ensamble (conocido como AdaBoost), estos algoritmos fueron elegidos con el propósito de comparar el rendimiento y la efectividad de los algoritmos basados en árboles de decisión implementados sobre grandes volúmenes de datos generados por sistemas inteligentes en ambientes reales. Para la implementación, tomaron para etapa de entrenamiento solo el 80% de las instancias del conjunto de datos y en la etapa de evaluación el 20% de los registros del conjunto de datos. Para la validación de la propuesta se utilizaron un conjunto de datos con un tamaño de 6.4 millones de registros, generados por un sistema de información implementado en una ciudad inteligente.La evaluación de los algoritmos de clasificación fue realizada mediante la métrica de precisión, así como validación cruzada.

2.- Métodos
Eliminación Recursiva de Características
El método de eliminación recursiva de características (RFE), funciona mediante un proceso iterativo donde el algoritmo inicialmente selecciona el conjunto de datos completo, el cual va evaluando en cada iteración y removiendo las características una a una.
El método RFE ha demostrado su eficiencia a través de su implementación utilizando diferentes algoritmos de clasificación. Debido a su eficiencia lo escogieron con el propósito de elegir de manera automática los mejores atributos para entrenar los algoritmos de clasificación y mejorar su rendimiento

Algoritmo de Clasificación CART
El algoritmo de árboles de regresión y clasificación permite clasificar instancias utilizando datos categóricos y datos continuos en el tiempo. El algoritmo CART es un método basado en reglas que genera un árbol binario a través de particiones binarias recursivas, dividiendo los datos en subconjuntos de acuerdo con un criterio de división previamente seleccionado. Cada división se basa en una sola variable, algunas variables pueden ser usadas varias veces mientras que otras pueden ser ignoradas.

Algoritmo de Clasificación AdaBoost
El algoritmo Adaboost (Adaptative Boosting) se considera un algoritmo de ensamble, ya que se puede conformar por múltiples algoritmos de clasificación base. En un algoritmo de boosting se asignan pesos a cada ejemplo de entrenamiento, y con ello una serie de 𝑘 clasificadores son iterativamente entrenados. Después de que Mi es entrenado, los pesos son actualizados permitiendo al clasificador subsecuente Mi+1 enfocarse en las instancias que fueron clasificadas erróneamente por Mi .Por lo tanto, una muestra puede ser utilizada más de una vez en los entrenamientos de los clasificadores.

3.- Resultados
Se utilizaron un conjunto de datos de incidentes de un delito o crimen, los cuales fueron colectados en la ciudad de Chicago, USA. El conjunto de datos contiene 6.4 millones de instancias y 22 atributos. En la tabla 1 se muestra la descripción de los atributos, los cuales se conforman por atributos con distintos tipos de datos: carácter, numérico, booleano, o espaciotemporales. Entre los atributos del conjunto de datos se pueden mencionar el distrito, descripción del delito, coordenadas, fecha, código del delito, entre otros.

Imagen

Ejecutan el método de selección de características RFE, con el fin de seleccionar en forma automática los atributos más representativos del conjunto de datos. El método RFE recibe como parámetros el número de características a seleccionar y un algoritmo de clasificación (se implementa CART). De forma iterativa se evaluó el número de atributos en el que el algoritmo CART obtiene la mejor métrica de precisión. En la tabla 2 se muestra las características seleccionadas por el método RFE, en los que se alcanza una mejor precisión.

Imagen

La columna “No. Atributos” representa el valor de K (de 2 hasta 17 atributos), la mejor precisión (0.805) se obtiene con 7 atributos (Block, IUCR, Location Description, Beat, Ward, X coordinate y Location).
En la siguiente figura se puede observar que con un número de atributos igual a 6, la precisión disminuye considerablemente, comparada con un valor de K=7.
Imagen

De acuerdo con el método RFE los 7 atributos seleccionados permitirán predecir la etiqueta de la clase, posibilitando una reducción de la dimensionalidad del conjunto de datos. Entonces, del conjunto de datos original se construye un sub-conjunto de datos que contiene exclusivamente los 7 atributos seleccionados y el total de registros del conjunto de datos original.
Luego, se generan 2 sub-conjuntos de datos para la etapa de entrenamiento(80%) y validación(20%). Los registros o instancias fueron seleccionados aleatoriamente y en forma automática.
En conjunto de datos consideran el atributo Arrest como la clase que permitirá la clasificación de los datos. Esta clase es de tipo binario y posibilita predecir en base a conjunto de atributos sí un individuo será arrestado al cometer un delito.
Los algoritmos para clasificación de datos son CART y AdaBoost, utilizando el mismo conjunto de datos de entrenamiento y validación para los dos clasificadores. Con el fin de evaluar los clasificadores CART y AdaBoost, utilizan la técnica de validación cruzada con un valor de k igual a 10. En la tabla 3 se muestra el promedio para la evaluación de los subconjuntos. Además, de la evalúa la precisión para cada uno de los modelos obtenidos mediante tres entrenamientos, estas tres ejecuciones fueron realizadas con el propósito de calcular un resultado estimado que permita reducir el sesgo de la precisión obtenida con cada uno de los entrenamientos de los modelos utilizando sub-conjuntos aleatorios de datos. Finalmente, presentan el promedio de la precisión obtenida en las tres ejecuciones.

Imagen

4.- Conclusiones
En el enfoque que propone el artículo comprueba que los métodos de selección de características mejoran considerablemente la clasificación de conjuntos de datos, así como la predicción de etiquetas de una clase. La comparación que realizaron con los algoritmos de clasificación CART y AdaBoost permite validar el desempeño del algoritmo con subconjuntos de datos generados a partir de la selección de características recomendadas por el método RFE. Los algoritmos de clasificación de datos fueron evaluados mediante las métricas de precisión y validación cruzada, en los que se observo que el algoritmo CART supera la precisión alcanzada por el algoritmo de ensamble

Referencia:
Edgar Tello Leal, Gerardo Romero Galván, Jonathan Alfonso Mata Torres, Ulises Manuel Ramírez Alcocer. (23/11/2019). A DATA-DRIVEN APPROACH FOR PREDICTING CRIMINAL
EVENTS IN SMART CITIES. Pistas Educativas.Tecnológico Nacional de México en Celaya.

gian20132

En la actualidad las redes sociales acumulan gran cantidad de información. Además las técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada.
Introducción
El paper tiene como meta proporcionar un procedimiento para la clasificación automática multiclase de la información contenida en tweets de usuarios de organismos oficiales y su representación gráfica. Se enfatiza en la necesidad de que la clasificación sea multiclase y en la búsqueda de los métodos de clasificación automática, cuando dos clases no cubran todos los casos existentes en la información; así mismo, se selecciona Twitter, puesto que contiene un gran volumen de textos disponibles, con API abierta para procesarlos. Para el estudio se escogió usuarios de Twitter pertenecientes a organismos oficiales obedece al interés que puedan tener en identificar de qué están hablando los ciudadanos y, concretamente, de qué se están quejando.

La visión global del procedimiento sugerido, que consta de las siguientes fases:

Recopilación de datos a través del api de Twitter (.json)

Etiquetado de una parte de los datos recopilados de forma supervisada (.txt)

Clasificación de forma automática de los datos no etiquetados (svm versus Random Forests)

Visualización geolocalizada 2D y 3D de los tweets etiquetados.

Como se ve en la siguiente figura:

Imagen

PROPUESTA DE CLASIFICACIÓN AUTOMÁTICA MULTICLASE DE TWEETS

La principal contribución propuesta es un clasificador multiclase para el dominio social, que sigue los pasos principales de Minería de Datos, que se irán describiendo en detalle en los siguientes subapartados:

1)Recogida de datos
Se recogieron los tweets de dos formas diferentes a, través de las funciones que proporciona el api Stream de Twitter. Con base en la idea que se planteó -identificar las quejas de los usuarios de México D. F.-, se recopilaron de forma genérica todos los tweets localizados dentro de las coordenadas que cercan la ciudad de México D. F., mediante la opción que nos proporciona la función post statuses/filter, llamada “locations”.
Con este objetivo, se desarrolló un script que se ejecutó de forma continua durante un año, al almacenar los tweets en ficheros con extensión “.json”.

2)Extracción de datos
Se decidió que los únicos campos necesarios iban a ser el texto del tweet, representado por el campo “text”, que contiene una longitud de 140 caracteres alfanuméricos, y la ubicación geográfica del tweet, representada por el campo “coordinates”, que contiene la latitud y longitud de su ubicación. Se tomó esta decisión, de acuerdo al objetivo marcado inicialmente para la recogida y clasificación de tweets geolocalizados, con lo que el campo “coordinates” proporciona la geo-localización del tweet, que servirá para ubicarlo en la visualización, y el campo “text” proporciona la información necesaria para la identificación de quejas.
El texto y la geolocalización de todos los tweets recogidos para cada uno de los usuarios específicos se guardan en un fichero “.txt”, para su posterior clasificación.

3)Aplicación de técnicas de Procesamiento de Lenguaje Natural
Este procesamiento representa el modelo clásico de los sistemas de recuperación, y se caracteriza porque cada documento está descrito por un conjunto de palabras clave denominadas término índice. En este modelo, el procesamiento de los documentos consta de las siguientes etapas:

Preprocesado de los documentos: se eliminan aquellos elementos que se consideran superfluos. Consta de tres fases básicas:

Eliminación de elementos del documento que no son objeto de indexación

Normalización de textos

Lematización de los términos

Parametrización: se hace una cuantificación de las características (es decir, de los términos) de los documentos, mediante la asignación de un peso a cada uno de los términos relevantes de un documento.

4)Métodos de identificación de clases
Con los textos preprocesados, el siguiente paso para poder iniciar el proceso de clasificación es identificar cuáles van a ser las clases bajo las cuales se van a catalogar los tweets. Para eso, se emplearon dos técnicas: k-means y nubes de palabras, que se describen a continuación:

El método k-means tiene como objetivo la partición de un conjunto n en k grupos, en el que cada observación pertenece al grupo más cercano a la media. Una de las aplicaciones de este algoritmo es emplearlo como preprocesamiento para otros algoritmos, por ejemplo, para buscar una configuración inicial.

El método nubes de palabras (wordclouds) permite obtener una representación visual, en forma de nubes de palabras, sobre la frecuencia con la que se repite cada una de las palabras.

5)Clasificación automática multiclase

Se etiquetaron un conjunto de 2000 tweets de un total de 13 944, recogidos de la Policía de forma manual y leído texto por texto. En estos casos, juega un papel importante la objetividad para identificar a qué etiqueta pertenece cada uno de los tweets; por este motivo, el encargado de etiquetarlos debe hacerlo con la mayor objetividad posible.

Posteriormente, para entrenar los clasificadores, los pasos a realizar son:

Dado un conjunto de 2000 tweets etiquetados por completo, se subdivide en dos conjuntos de tweets diferentes: el conjunto de entrenamiento (trainingset), que contiene el 60 % de los tweets seleccionados de forma aleatoria, y el conjunto de testeo (testset) que contiene el restante 40 % de los tweets. El conjunto de entrenamiento abarca las clases etiquetadas, en cambio, en la predicción, el conjunto de testeo no.

Esto se hace para ver qué precisión y cobertura alcanza el clasificador sobre una muestra inicial.

Se aplica el clasificador sobre el conjunto de entrenamiento y, a continuación, una predicción entre el resultado obtenido por el clasificador y el conjunto de testeo.

Mediante una matriz de confusión, en la que cada columna representa el número de predicciones de cada clase y cada fila el número de instancias de la clase real, se visualizan los resultados predichos y se calcula la precisión y la cobertura para cada una de las clases, a fin de obtener, finalmente, una media de la precisión y una media de la cobertura.

Los resultados se muestran en las siguientes figuras:

Comparación de los resultados de los clasificadores sin aplicar la función de pesos
Imagen

Comparación de los resultados de los clasificadores con pesos
Imagen

Como indican las figuras, tanto en el caso de aplicar o no función de pesos, Random Forests obtiene mejores resultados, por lo que fue el clasificador escogido.
La clasificación multiclase al usar clasificadores Support-Vector Machines (svm) multiclase y Random Forests (rf) para 35 000 tweets, para la identificación de quejas. Se obtuvo como resultado:

-Con svm:

-Precisión: entre 55.83 % y 92.26 %

-Cobertura: entre 33.33 % y 76.53 %

-Para rf:

-Precisión: entre 58.46 % y 100 %

-Cobertura: entre 33.33 % y 92.68 %.

Referencia:
Beatriz Hernández-Pajares, Diana Pérez-Marín, Vanessa Frías-Martínez. (01/04/2020). Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter. TecnoLógicas.vol.23

gian20132

El presente articulo plantea una estrategia basada en Machine Learning para tratar con conjuntos de datos no etiquetados utilizando conjuntos aproximados y/o ganancia de información. Propone una estrategia para agrupar los datos utilizando k-medias, considerando cuánta información aporta un atributo (ganancia de información), además de poder seleccionar cuáles atributos son realmente indispensables para clasificar nuevos datos y cuáles son dispensables (conjuntos aproximados), lo cual es muy beneficioso pues permite tomar decisiones en menor tiempo.
Materiales y métodos
Para realizar las pruebas utilizaron conjuntos de datos provenientes de la Universidad de California (UCI) . En el cuadro se muestran más detalles de los mismos:
Imagen

Tomaron conjuntos de datos con atributos de decisión para poder correr los algoritmos excluyendo este atributo y luego comparar los resultados obtenidos con lo que originalmente indicaba dichos atributos. Además, el tener conjuntos de datos para los cuales se conoce el atributo de decisión, permite determinar el número de grupos del algoritmo k-means.
Resultados
Como se aprecia en el cuadro, “k-means clásico – aleatorio – mejor caso” supera a los otros esquemas en su tasa de éxito para Credit Approval (alcanza un 63,80%), para Car Evaluation (obtiene un 41,92%) y para Skin Segmentation (con un 60,61%); solo para el conjunto de datos Chess, el valor obtenido 54,78%, es inferior a cuando se usa ganancia de información (59,73%) y cuando se utilizan conjuntos aproximados (55,48%).

Imagen

CONCLUSIóN
Un aspecto que se podría argumentar es que el cálculo de la entropía, la ganancia de información y los conjuntos aproximados requiere un esfuerzo computacional previo al cálculo del k-means, que el método clásico (sin reducir atributos) se ahorra. Pero ante este argumento hay dos aspectos muy importantes, el primero es que si se cuenta con muchos atributos, la reducción de atributos recuperará el tiempo invertido al calcular el k-means con mucho menos atributos; y el segundo es que se sabe que la reducción de atributos colabora en la reducción del sobreajuste en caso de presentarse

Referencia:
Calvo Valverde, Luis Alexander. (26/09/2015). Estrategia basada en el aprendizaje de máquina para tratar con conjuntos de datos no etiquetados usando conjuntos aproximados y/o ganancia de información . Tecnología en Marcha. Edición especial. Matemática Aplicada.

gian20132

En el artículo se propone un método para detectar valores que se consideran valores atípicos en una base de datos de datos. En específico en el área financiera, en donde mediante la minería de datos se pueden detectar fraudes financieros o encontrar errores producidos por los usuarios.
Utilizan 1180 tuplas(Perfil de clientes con tarjeta de créditos) de un conjunto de datos para el experimento, en donde, deliberadamente se introdujeron valores atípicos.
El método que propone se dividió en tres fases principales:
1. Uso del método estadístico chi-cuadrado para definir una ponderación o peso W que indica la relevancia de la columna del perfil del cliente en comparación con la cantidad de crédito otorgado,
2. Se utilizó el algoritmo de agrupación denominado KNN Global Anomaly (KNN) que calcula la puntuación de los valores atípicos
3. El algoritmo K-Means que es utilizado para separar los valores atípicos de los valores falsos-positivos.
Imagen

El procedimiento fue adecuado para la identificación de valores atípicos, una vez que los parámetros y los filtros están adecuadamente configurados en cada parte del método, en este caso llegó a detectar el 100 % de los valores atípicos.
También se concluye que metodología tiene dos aspectos importantes que lo diferencian de otros métodos:
• Una prueba estadística que otorga relevancia a las columnas
• Dos técnicas de minería de datos que separan las anomalías de los datos normales.

Referencia:
Orellana,Marcos. (19/01/2020). Outlier detection with data mining techniques and statistical methods . Enfoque UTE Revista.
url:https://www.redalyc.org/jatsRepo/5722/5 ... index.html

gian20132

Device Intelligence
La solución determina si un dispositivo, que se ha utilizado, tiene una cantidad alta de actividad en línea, junto con otros factores, para determinar patrones de fraude y recomendar si una transacción necesita ser rechazada, aprobada o alertada. Tal sistema puede ser entrenado usando una lista de fraudes previos (tanto internos como externos) que han ocurrido y que han sido detectados por analistas de fraude.

Algunos de los puntos de datos que dicho sistema puede usar para predecir transacciones fraudulentas incluyen:

• Determinar el comportamiento pasado del dispositivo o cuenta
• Descubrir si un dispositivo es jailbreak / dispositivos rooteados
• Determinar si un dispositivo es una máquina virtual o un emulador
• Definición de riesgos de atributos para un dispositivo
• Confirmación de discrepancias de geolocalización
• Determinación de los desajustes de tipo de dispositivo / SO / resolución de pantalla
• Comprobación de asociación con otros dispositivos y cuentas

La inteligencia de decisiones
Se puede utilizar para reducir los fraudes con tarjetas de crédito.
Crear modelos de aprendizaje profundo para determinar si el tipo de compra, la hora, la ubicación, el costo de compra junto con una variedad de otros puntos de datos como la dirección IP, ID del dispositivo, correo electrónico, número de teléfono, etc. están en línea con las transacciones anteriores del cliente.

Vias de Pago
El aprendizaje automático puede ayudar a los comerciantes y proveedores de servicios de pago a diferenciar entre estafadores y clientes verdaderos. La identidad digital de un cliente se puede determinar mediante el uso de puntos de datos como correo electrónico, teléfono, ubicación, dirección IP, ID del dispositivo, número de pasaporte, etc. Estos datos también se pueden usar para actualizar el perfil del cliente y determinar la confiabilidad del cliente. Esto permitiría a los comerciantes estar al tanto de transacciones fraudulentas como devoluciones de cargo, cuentas falsas, spam, adquisición de cuentas, etc.

Referencias:
Krishna,Krishnan. (18/10/2018). Fraud detection using Artificial Intelligence in payment services and credit cards . IDEAS2IT.COM.
url: https://www.ideas2it.com/blogs/ai-credit-card-fraud/

gian20132

En presente articulo desarrollar una metodología para clasificar y predecir usuarios en plataformas virtuales de educación, partiendo de la interacción de los estudiantes con la plataforma y su desempeño en los evaluaciones.
Se utiliza un algoritmo de aprendizaje automático para clasificar los usuarios según su nivel de conocimiento. Los resultados muestran como el tiempo que un estudiante permanece en la plataforma no está relacionado con pertenecer al grupo de conocimiento alto. Se identificaron tres categorías de usuarios, aplicando la metodología Fuzzy K-means para determinar zonas de transición entre niveles de conocimiento.

1) Perfil Grupo 1: Usuarios con resultados medios en los exámenes que dedican poco tiempo de estudios a las áreas relacionadas con los objetivos globales. Este perfil se rotulará según el conocimiento obtenido como “Nivel Medio”;
2) Perfil Grupo 2: Usuarios con un alto resultado en el examen que dedican un tiempo medio a las áreas de estudio relacionadas con los objetivos globales. Este perfil se rotulará como “Nivel Alto”;
3) Perfil Grupo 3: Usuarios caracterizados por notas bajas en los exámenes, los cuales dedican mucho tiempo a estudiar los contenidos definidos como obligatorios en el AVE. Este perfil se rotulará como “Nivel bajo”

En un ámbito universitario, para un docente es importante conocer como la interacción con un plataforma educativa afecta a un estudiante , para hacer un reajuste para así facilitar el aprendizaje.
Click en el siguiente enlace para mayor información:
https://scielo.conicyt.cl/scielo.php?sc ... 9000100247

Se encontraron 6 coincidencias

Un enfoque basado en datos para predecir eventos delictivos en ciudades inteligentes

Clasificación multiclase y visualización de quejas de organismos oficiales en twitter

Estrategia basada en machine learning para tratar con conjuntos de datos no etiquetados usando conjuntos aproximados

Detección de valores atípicos con técnicas de minería de datos y métodos estadísticos

Detección de fraude utilizando inteligencia artificial en servicios de pago y tarjetas de crédito

Metodología de Aprendizaje Automático para la Clasificación y Predicción de Usuarios en Ambientes Virtuales de Educación