Se encontraron 4 coincidencias

por aldomar
05 Ago 2023, 09:39
Foros: Proyectos en Inteligencia Artificial
Tema: Evaluación del modelo de aprendizaje automático supervisado y no supervisado para predecir promoción de empleados
Respuestas: 0
Vistas: 704

Evaluación del modelo de aprendizaje automático supervisado y no supervisado para predecir promoción de empleados

Evaluación del Modelo de Aprendizaje Automático Supervisado y No Supervisado para Predecir Promoción de Empleados

INTEGRANTES
  • Alicia Rodríguez
  • Aldo Morales
  • Eric Jara
RESUMEN
En este trabajo de investigación se evaluarón modelos de Machine Learning Supervisado y No Supervisado para predecir la promoción de empleados en una agencia de reclutamiento internacional. Los modelos Supervisados (J48, REPTree, Random Forest, MultilayerPerceptron, SMV y BayesNet) y No Supervisado (SimpleKMeans con 2 y 4 agrupaciones, EM y XMeans) se aplicaron a una base de datos de 52,249 registros que incluye información como identificación de empleados, departamento, nivel educativo, género, canal de contratación, edad, duración del servicio, calificación previa, premios, promedio de evaluaciones y la variable objetivo de promoción. Se propone una solución para aplicar el análisis en datos en tiempo real y predecir promociones efectivamente.

INTRODUCCIÓN
Adecco, con sede en Zúrich, Suiza, es una destacada agencia de reclutamiento internacional, formada en 1996 por la fusión de Adia y Ecco. Cuenta con más de 5,000 oficinas en 60 países. El equipo de Recursos Humanos de Adecco almacenó datos del ciclo de promoción 2022, pero la gran cantidad de detalles ha dificultado la comparación y toma de decisiones. Adecco busca mejorar la modalidad de promoción mediante soluciones flexibles de contratación de personal para diversos departamentos y la gestión según las necesidades laborales.

PREPROCESAMIENTO DE DATOS
  • Limpieza de datos: Se eliminaron datos incoherentes, inconsistentes, nulos y vacíos, así como valores atípicos.
  • Integración de datos: Se verificó y ajustó el formato de los datos para que fueran consistentes en tamaño, tipo y estructura.
  • Filtración de datos: Se eliminaron variables no relevantes para el análisis y se convirtieron datos numéricos a nominales para aplicar algoritmos de clasificación.
[

MODELAMIENTO
  • J48: Es uno de los algoritmos de clasificación más importantes que utiliza la recursividad y la regresión para dividir los datos en partes más pequeñas según sus características de los atributos. Construye un árbol de decisión, de acuerdo a las instancias asignados a la variable objetivo.
  • REPTree: Algoritmo de clasificación fundamentado en árboles de clasificación, que utiliza la recursividad. Divide los datos de la misma manera que el algoritmo J48, en subconjuntos más pequeños de acuerdo a sus características, pero la diferencia es el tamaño del árbol y evita el sobreajuste.
  • Random Forest: Algoritmo de clasificación y regresión que combina varios árboles de decisión para mejorar la precisión y robustez del modelo. Utiliza muestras aleatorias del conjunto de entrenamiento y es resistente al sobreajuste.
  • Multilayer Perceptron (Redes Neuronales): Algoritmo de aprendizaje profundo que puede aprender relaciones lineales y no lineales en datos complejos. Requiere gran cantidad de datos y fuerza computacional.
  • Support Vector Machine (SVM): Algoritmo de clasificación y regresión que separa muestras de diferentes clases utilizando hiperplanos en el espacio de características.
  • BayesNet (Redes Bayesianas): Algoritmo de clasificación basado en la teoría de grafos dirigidos para modelar las relaciones probabilísticas entre variables.
  • SimpleKMeans: Algoritmo de agrupación no supervisado que busca estructuras semánticas entre datos y minimiza la suma de los cuadrados de las distancias entre instancias y centroides.
  • EM (Expectation-Maximization): Algoritmo no supervisado que calcula la mejor estimación de agrupaciones basada en parámetros estadísticos de los datos.
CONCLUSIONES
  • La inteligencia artificial es una materia que nos puede ayudar a describir, predecir y dar una predicción de situaciones reales mediante análisis de los datos, así mismo, simula las características que tiene los expertos de un dominio mediante un motor de inferencia para comprender, simular y resolver problemas.
  • Se ha utilizado herramientas de Machine Learning (Weka y R Studio) para el caso de estudio de predicción de “Promoción de Empleados” de la empresa Adecco.
  • En particular se usó los algoritmos de clasificación “J48”, “REPTree”, “Random Forest”, “Multilayer Perceptron”, “Soporte de Máquinas Vectorial SMV” y “BayesNet” y algoritmos de agrupación como “SimpleKMeans” y “EM”.
  • Para el uso de los algoritmos de clasificación se aplicó el preprocesado de datos mediante métodos de sobremuestreo y submuestreo, y balanceo de datos aplicando el filtro “SMOTE”, para tener un modelo de predicción más eficiente en el “TP Rate” de los empleados que son promovidos o no.
  • Aplicado el auto aprendizaje, se logró identificar el mejor algoritmo para el dataset con todo sus filtros y parámetros, obteniendo como resultado el modelo óptimo y eficiente, el cual es “Random Forest”.
  • A través del algoritmo EM de aprendizaje no supervisado se logró calcular el número de clusters óptimo que es 4 y esta fue contrastada con Rstudio aplicando el “Elbow Method”.
  • La variable con mayor importancia de acuerdo al evaluador de atributos “InfoGainAttributeEval” con el método de búsqueda “Ranker” fue elegido el “promedio de evaluación”.
  • Finalmente, el trabajo de investigación fue presentado al equipo de RR.HH de Adecco, lo cual se mostraron satisfechos con los resultados, y el modelo les apoyará mucho a la problemática de la empresa identificando aspectos con mayor importancia para la toma de decisiones con el objetivo de promover al empleado ideal.
DISCUSIONES
  • Este caso de investigación se diferencia a otros estudios por motivo que pone en aplicación 2 de las 3 categorías de aprendizaje automatizado.
  • Además, que la aplicación de los algoritmos es personalizada de acuerdo al caso, que es la promoción de empleados. Por lo pone en juicio, ¿Cuál es la mejor categoría de aprendizaje? Entonces tenemos que recordar a la rama de la matemática llamada Investigación de Operaciones que indica lo siguiente, Taha (2017) “cualquier problema que tenga soluciones óptimas múltiples, tendrá un número infinito de soluciones, con el mismo valor de la función objetiva”.
  • Tomando en cuenta lo mencionado, se puede decir que los trabajos tuvieron factores únicos que le hicieron diferentes al nuestro, por lo consiguiente tuvieron como resultado un algoritmo óptimo diferente a nuestro caso de investigación. Pero se tuvo en cuenta que el estudio es congruente y coherente con la aplicación. Por lo que podemos decir que la estructura del dataset, limpieza, integración y filtrado de datos, y el balanceo de datos fueron realizados de manera deferente a la tipología de los estudios citados en el capítulo del estado del arte.
Archivos adjuntos
Presentación
Paper de la investigación
Dataset WEKA
Dataset RStudio
por aldomar
16 Jun 2023, 21:43
Foros: Proyectos en Inteligencia Artificial
Tema: Análisis de la distribución de estudiantes con discapacidad por región
Respuestas: 0
Vistas: 267

Análisis de la distribución de estudiantes con discapacidad por región

DISTRIBUCIÓN DE ESTUDIANTES CON DISCAPACIDAD POR REGIÓN

Autor: Aldo Omar Morales Carlos
Curso: Tópicos Especiales en Ingeniería de Sistemas I

Datasets
El dataset que se utilizará se ha tomado desde la plataforma del Ministerio de Educación:
Número de estudiantes con discapacidad auditiva, intelectual, visual, motora, TEA, sordoceguera y otras. Incluye EBE y EBR.
Fuente: CENSO ESCOLAR 2015.

Algoritmo no supervisado K-MEANS
Haciendo uso del algoritmo no supervisado K-means vamos agrupar algunos puntos de datos (clustering), donde el objetivo es agrupar observaciones con valores de atributos similares al medir la distancia euclidiana entre puntos.
Para nuestro caso el número de clusters lo definimos en 2.
0: Estudiantes que no tienen discapacidad
1: Estudiantes que si tienen discapacidad

Identificación de variables más importantes
variables más representativas, como se observa en el resultado son:
  • Intelectual
  • Auditiva
  • Motora
  • TEA
Resultado al ejecutar el algoritmo obtenemos:
  • Según la variable “Intelectual” en el cluster 0 se encuentran los estudiantes que no tienen discapacidad.
  • Según la variable “Auditiva” en el cluster 0 se encuentran los estudiantes que no tienen discapacidad.
  • Según la variable “Visual” en el cluster 0 se encuentran los estudiantes que no tienen discapacidad.
El 77% del total de instancias representan a estudiantes que no tienen discapacidad y el 23% de estudiantes sí que tienen discapacidad.
por aldomar
12 May 2023, 19:50
Foros: Inteligencia Artificial
Tema: Sistema Experto para Detectar Anomalías en el Uso de las Tarjetas de Crédito
Respuestas: 0
Vistas: 460

Sistema Experto para Detectar Anomalías en el Uso de las Tarjetas de Crédito

Tópicos Especiales en Ingeniería de Sistemas - Inteligencia Artificial

Definición de roles:
  • Experto: Alicia Rodriguez Carbajal.
  • Área de conocimientos: Aldo Morales Carlos.
  • Usuario: Eric José Jara Palacios.
Definición del problema:
La detección de anomalías en este caso, es ver si tus datos privados de tu tarjeta de crédito han sido vulnerados, por lo consiguiente, tiene un comportamiento extraño, es decir, hay patrones que no se ajustan a un comportamiento normal. El reto sería como detectar si la tarjeta de crédito tiene anomalías.

Objetivos:
  • La definición de la manera más óptima posible, el límite del comportamiento normal y anormal.
  • Disponibilidad de la validación de los datos de una operación.
  • Tener constancia o rastros de una actividad o transacción de la tarjeta de crédito.
  • Crear procedimiento para la observación de acciones malintencionadas de la tarjeta de crédito, para que así se tenga un protocolo operativo.
Implementación en Colab
por aldomar
01 May 2023, 15:11
Foros: Proyectos en Inteligencia Artificial
Tema: Inteligencia artificial en la agricultura del Perú
Respuestas: 0
Vistas: 405

Inteligencia artificial en la agricultura del Perú

Autor: Aldo Omar Morales Carlos

Descripción
La agricultura no es la excepción para aplicar la IA, prueba de ello existe Internet de las cosas (IoT). En la actualidad ya existen equipos que se instalan en el terreno, ofrecen un análisis sobre las condiciones climáticas del lugar al momento de sembrar o fertilizar los cultivos.
Es importante resaltar que el análisis que nos ofrece la IoT sobre el estado del campo es recibido al instante y contiene indicadores como registro de precipitaciones, temperatura, humedad, etc.
El impacto que daría la IA en la agricultura a través de drones aéreos y acuáticos, sensores electrónicos, visuales, olfativos y biológicos. Con toda esta información recopilada se podría crear archivos de análisis de la zona, según lo que se necesite saber. Es posible combinar la información de los sistemas de posición geográfica y de genética.

Conclusión
El sector de la agricultura es una de las áreas donde la IA todavía no logró ganar terreno, sobre todo en Perú, pero con el paso de los años la demanda y la competencia por la calidad de los productos hacen que los productores opten por mejorar y adentrarse al mundo de la IA.

Referencias
https://www.agronet.gov.co/Noticias/Pag ... ltura.aspx
https://increnta.com/insights/inteligen ... ricultura/
https://www.agroptima.com/es/blog/mejor ... ricultura/