Se encontraron 4 coincidencias

por jcosme
05 Ago 2023, 14:41
Foros: Proyectos en Inteligencia Artificial
Tema: Implementación de un Sistema de Predicción de ventas mediante el uso de aprendizaje supervisado para una empresa
Respuestas: 0
Vistas: 1107

Implementación de un Sistema de Predicción de ventas mediante el uso de aprendizaje supervisado para una empresa

Juan Carlos Cosme
UNI – Facultad de Ingeniería Industrial y de Sistemas
Lima, Perú juan.cosme.l@uni.edu.pe

Renato de la Cruz
UNI – Facultad de Ingeniería Industrial y de Sistemas
Lima, Perú rdelacruzm@uni.pe



RESUMEN:
Se trabajó con variables exógenas PBI, Tasas de desempleo, ECC, Inflación, EES para complementar de manera independiente con las variables proporcionado por la empresa obteniendo resultados en diferentes tipos de algoritmos como los son Random Forest, ReepTree, Redes neuronales, SMOREG, Regresión lineal por lo cual se optó el algoritmo Regresión lineal dando como resultado 21 instancias con un margen de error absoluto de 2073.9304 con instancia “1”, por lo que indica que es el algoritmo elegido para las predicciones futuras de las ventas por calzado.
Palabras claves – retail, Random Forest, ReepTree, Redes neuronales, SMOREG

INTRODUCCION
La empresa de calzado cuenta con mas de 30 años en el mercado y dispone diversos tipos de modelos en la línea de calzado para damas tales como ballerinas, stilettos, mocacines, sandalias, zapatillas por lo tanto las marcas más demandadas son Páez, Botero, Fasceni, Jorge Bishof. Teniendo claro la definición de cada tipo de calzado.

• Ballerinas: a estos tipos de calzado se considera por tener puntas agudas y se usa para look casuales.
• Stilettos: son zapatos cerrados de tacón puntilla y se usa para la oficina o para llevar con traje de fiesta.
• Sandalias: es un tipo de calzado con suela resistente atada al pie mediante bandas de material ligero se usa en temporada de verano.
• Zapatillas: es un tipo de calzado ligero y cómodo con suela plana se usa dentro del hogar u en temporada de invierno donde es más demandado.


ESTADO DEL ARTE
• Se han aplicado diversos tipos de algoritmos de aprendizaje supervisado en función al tipo de regresión cuyo valor objetivo es numérico a partir de la información obtenida del dataset proporcionado por la empresa de calzado con periodo entre 2018 y 2023, y se obtuvo diferentes resultados comparando el mejor coeficiente correlativo con un menor margen de error para así tomar la predicción de la venta de calzado para los años posteriores.
Con respecto a:
Random Forest: Este algoritmo de predicción de arboles aleatorios nos proporciona resultados de las ventas mensuales por el tipo de calzado dando resultado 21 instancias con un margen de error absoluto de 1275.6183 con instancia “1”

Imagen
Fig.1 Algoritmo Random Forest

ReepTree: es un tipo de aprendizaje de árboles de decisiones se caracteriza por usar ganancia y varianza nos proporciono resultados adecuado para la toma de decisión dando como resultado 21 instancias con un margen de error absoluto de 12977.128 con instancia “15”
Imagen
Fig.2 Algoritmo ReepTree

Redes neuronales: este modelo nos sirve para obtener funciones adecuadas en diferentes capas ocultas brindando un coeficiente correlativo dando como resultado 21 instancias con un margen de error absoluto de 14247.2762 con instancia “14”
Imagen
Fig.3 Algoritmo Redes Neuronales

SMOREG: este algoritmo es vectores de soporte para la regresión por lo cual nos arrojó como resultado 21 instancias con un margen de error absoluto de 3011.123 con instancia “4”
Imagen
Fig.4 Algoritmo SMOreg

Regresión líneal: este algoritmo utiliza la línea recta de mejor ajuste por lo que también es conocida como línea de regresión teniendo en cuenta que establece la variable dependiente tales calzados, fecha, PBI y etc. dando como resultado 21 instancias con un margen de error absoluto de 2073.9304 con instancia “1”
Imagen
Fig.5 Algoritmo Regresión lineal


De acuerdo al dataset trabajado se ha tenido que depurar variables innecesarias como el contador correlativo, tipos de comprobantes, OP, nombre vendedoras, RUC, razón social y código de barra.


TECNICAS PROPUESTAS

DATA SET
Se tiene en cuenta que el data set es una colección de almacenamiento organizada en filas y columnas por lo que se ha trabajado con 65 registros y 13 variables dependientes y una variable objetiva precio venta para el debido procesamiento con algoritmo supervisados de tipo regresión en machine learning.
Cuadro de variables

Imagen


Imagen
Fig.6 Muestra DataSet

CONCLUSION

• La regresión Lineal muestra un mejor comportamiento, basándose en dos variables, la venta del mes anterior y la Tasa de desempleo.
Imagen


• Se necesita mejores variables económicas para poder realizar una predicción con menor Mean absolute error y Root Mean Squared error.

REFERENCIA

https://estadisticas.bcrp.gob.pe/estadisticas/
https://www.ipsos.com/es-cl/ipsos-cci-i ... nfianza-de
por jcosme
16 Jun 2023, 01:18
Foros: Inteligencia Artificial
Tema: Diagnósticos de Pacientes con Morbilidad por Grupos de Edad – Hospital Nacional arzobispo Loayza - HNAL usando WEKA
Respuestas: 0
Vistas: 363

Diagnósticos de Pacientes con Morbilidad por Grupos de Edad – Hospital Nacional arzobispo Loayza - HNAL usando WEKA

Diagnósticos de Pacientes con Morbilidad por Grupos de Edad – Hospital Nacional arzobispo Loayza - HNAL usando la herramienta WEKA

ALUMNO: Juan Carlos Cosme López

Curso: Tópicos de Ingeniería de sistemas.

RESUMEN:

Se busca predecir o explicar en un modelo de aprendizaje automático. cuantos pacientes por grupo de edad presentan diagnóstico de morbilidad mediante un conjunto de datos del hospital Nacional arzobispo Loayza. De acuerdo a las variables indicadas en el dataset descargado de la página de https://www.datosabiertos.gob.pe/

DESCRIPCION DATASET

La base de nuestro dataset original sin normalizar nace de la url:
https://www.datosabiertos.gob.pe/datase ... rzobispo-1#{}
con variables:

 PERIODO_DIAGNOSTICO
 DEPARTAMENTO
 PROVINCIA
 DISTRITO
 UBIGEO
 FECHA DE CORTE
 SEXO
 GRUPOS_POR_EDAD
 DIAGNOSTICOS_CIE
 CATEGORIA_DIAGNOSTICO
 TOTAL_PACIENTES

De la cuales se depuro´ las variables Periodo_Diagnotico y fecha de corte por las fechas incorrectas y el UBIGEO dato innecesario cuya descarga es de: https://www.datosabiertos.gob.pe/node/13944/download

Con respecto al dataset normalizada es decir data depurada se encuentra en el LINK.
https://unipe-my.sharepoint.com/:x:/g/p ... Q?e=lrzUhe

DESCRIPCION RESULTADOS OBTENIDOS CON TECNICAS

1) Limpieza de DATASET

Imagen

En la imagen se obtiene los valores y datos normalizados mediante la herramienta WEKA

2) Tipo de Problema: Por clasificación

Árbol de decisión: Se uso la opción cross-validation con Folds de 20 (trees j48)
Imagen

En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión

 Por lo cual su Instancia correlativa contiene un valor de 6.3348 % de acierto
 Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.182
 Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 2 son de a = DE 25 A 29 AÑOS
• 2 son de b = MENORES DE 1 AÑO
• 1 son de c = DE 60 A 64 AÑOS
• 1 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 1 son de f = DE 65 AÑOS A MAS
• 2 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 1 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 3 son de m = DE 10 A 14 AÑOS
• 2 son de n = DE 55 A 59 AÑOS
• 5 son de o = DE 40 A 44 AÑOS

Random Forest: Se uso la opción cross-validation con Folds de 20

Imagen

En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión

 Por lo cual su Instancia correlativa contiene un valor de 5.8824% de acierto
 Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
 Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 1 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 1 son de f = DE 65 AÑOS A MAS
• 1 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 2 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 2 son de m = DE 10 A 14 AÑOS
• 1 son de n = DE 55 A 59 AÑOS
• 4 son de o = DE 40 A 44 AÑOS

Redes Neuronales: Se uso la opción cross-validation con Folds de 20

Imagen

En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión

 Por lo cual su Instancia correlativa contiene un valor de 8.7481 % de acierto
 Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
 Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 0 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 0 son de f = DE 65 AÑOS A MAS
• 0 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 0 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 0 son de m = DE 10 A 14 AÑOS
• 0 son de n = DE 55 A 59 AÑOS
• 0 son de o = DE 40 A 44 AÑOS
En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión

 Por lo cual su Instancia correlativa contiene un valor de 8.7481 % de acierto
 Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
 Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 0 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 0 son de f = DE 65 AÑOS A MAS
• 0 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 0 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 0 son de m = DE 10 A 14 AÑOS
• 0 son de n = DE 55 A 59 AÑOS
• 0 son de o = DE 40 A 44 AÑOS

En la imagen se debe de considerar 3 requisitos para un tipo de clasificación
- Instancia correlativa
- TP Rate
- Matrix de confusión

 Por lo cual su Instancia correlativa contiene un valor de 8.7481 % de acierto
 Con respecto al TP Rate de la variable objetivo de grupo de edades por ejemplo de 1 a 4 años tiene un valor de 0.000
 Con respecto a la Matriz de confusión tomando la clasificación de la letra “A” que es “grupo de edades de 1 a 4 años” se observa a continuación:
• 0 son de a = DE 25 A 29 AÑOS
• 0 son de b = MENORES DE 1 AÑO
• 0 son de c = DE 60 A 64 AÑOS
• 0 son de d = DE 35 A 39 AÑOS
• 0 son de e = DE 1 A 4 AÑOS
• 0 son de f = DE 65 AÑOS A MAS
• 0 son de g = DE 45 A 49 AÑOS
• 0 son de h = DE 30 A 34 AÑOS
• 0 son de i = DE 20 A 24 AÑOS
• 0 son de j = DE 50 A 54 AÑOS
• 0 son de k = DE 5 A 9 AÑOS
• 0 son de l = DE 15 A 19 AÑOS
• 0 son de m = DE 10 A 14 AÑOS
• 0 son de n = DE 55 A 59 AÑOS
• 0 son de o = DE 40 A 44 AÑOS

3) DIAGRAMA POR CLASIFICACIÓN

Árbol de decisión:
Imagen

Redes Neuronales:

Imagen

4) Tipo de Problema: Por Clustering (SipleKMeans)

Seleccionar la variable objetivo del dataset y eliminarlo en este caso GRUPO por EDADES para hacer la agrupación: aprendizaje no supervisado.

Imagen

Por lo que quedaría de la siguiente manera:

Imagen

Escogemos SipleKMeans y agregamos 2 clusters

Imagen

En lo cual validamos que existe 2 cluster 0 y 1 de las cuales
• Cero significa 49% probabilidad de pacientes con menor morbilidad
• Uno significa 51% probabilidad de pacientes con mayor morbilidad por lo que se tomaría para un alcance mejor es del 51% mas cercano al 100% de predicción.

Imagen


CONCLUSIÓN:

 El mejor modelo con respecto al tipo de clasificación se observa que el algoritmo que nos da mayor seguridad en aciertos es redes neuronales por tener un alto porcentaje de probabilidad de 8.7481 % Correctly Classified Instances y con respecto a TP Rate nos arroja en base al grupo de edades de 1 a 4 años es de 0.00 quiere decir que en ese rango se tiene una clasificación detallada de paciente sin morbilidad y por último la Confusión Matrix con respecto al grupo de edades de 1 a 4 años simbolizada con la unidad “A” son 0 de “A” = DE 1 A 4 AÑOS.

 Con respecto al modelo de agrupación de aprendizaje no supervisado se observa 2 clusters de las cuales se tomaría para un alcance mejor es del 51% más cercano al 100% de predicción.


https://unipe-my.sharepoint.com/persona ... ments&ga=1

https://www.flipsnack.com/95F76BFF8D6/w ... pos-d.html
por jcosme
06 May 2023, 14:40
Foros: Proyectos en Inteligencia Artificial
Tema: SISTEMA DE DETECCION DE ANOMALIAS EN EL USO DE UNA TARJETA DE CREDITO
Respuestas: 0
Vistas: 341

SISTEMA DE DETECCION DE ANOMALIAS EN EL USO DE UNA TARJETA DE CREDITO

SISTEMA DE DETECCION DE ANOMALIAS EN EL USO DE UNA TARJETA DE CREDITO
Roles:
Usuario:Banco
Expert:Renato
Knowledge Engineer:Juan Carlos
Problema:
Determinar las anomalías en el uso de una tarjeta de crédito

por jcosme
23 Abr 2023, 06:41
Foros: Inteligencia Artificial
Tema: IMPACTO POSITIVO DE LA INTELIGENCIA ARTIFICIAL EN EL SECTOR DE DESASTRES NATURALES EN PERÚ
Respuestas: 0
Vistas: 375

IMPACTO POSITIVO DE LA INTELIGENCIA ARTIFICIAL EN EL SECTOR DE DESASTRES NATURALES EN PERÚ

Título: Impacto positivo de la inteligencia artificial en el sector de desastres naturales en Perú.
Autor: JUAN CARLOS COSME LOPEZ.
Descripción:
La Inteligencia Artificial tiene un impacto positivo por lo que puede organizar las respuestas ante crisis o desastres naturales. Teniendo en cuenta que la IA contribuye con métodos que mejoran la predicción de lluvias, huaicos, epidemias, terremotos o que estimen con una mayor precisión las zonas y poblaciones más vulnerables a través de variables básicas de predicción. En las cuales se aplican en diferentes algoritmos de aprendizaje automático sobre un conjunto de datos tales como: Logistic Regression, Random Forest, Naive Bayes, AdaBoost, MultiLayer Perceptron

Descripción del problema
  • El objetivo es predecir los eventos clasificándolos en base a variables del tipo geográfico, demográfico y de capacidad de respuesta, mediante la aplicación con diferentes algoritmos de machine learning
  • Las predicciones se deben realizar con anticipación la planificación de asignación de recursos, tanto humanos como materiales. La mayoría de estudios se realizan sobre pronósticos, teniendo en cuenta el historial de desastres en el Perú y áreas específicas.
  • Se aplican algoritmos o técnica como: random forest bajo la técnica de uso de árboles de clasificación y regresión.
Estado del arte
  • la IA puede monitorear la respuesta ante una crisis a través del análisis de imágenes satelitales o de drones con visión computacional, por ejemplo, identificar el tipo de ayuda que se necesita en cada zona.
  • Uso de mapa de amenazas múltiples (MAM; también llamado mapa compuesto, de síntesis o de superposición de amenazas) es una herramienta excelente para fomentar la concientización sobre amenazas naturales y para analizar la vulnerabilidad y el riesgo.
  • Instrumentos y técnicas para la evaluación de amenazas naturales tales como Sistemas de información geográfica, sensores remotos en evaluaciones de amenazas naturales. técnicas especiales para el trazado de mapas
  • Predicción de intervenciones de rehabilitación y daños por desastres naturales mediante aprendizaje automático
Modelo de predicción

Uno de los métodos o marcos más populares utilizado por los científicos de datos en la práctica profesional es el algoritmo Random Forest. El cual es considerado uno de los mejores algoritmos de clasificación, capaz de clasificar grandes cantidades de datos con precisión para los destres naturales según muchos expertos.
Por lo que se puede aplicar el algoritmo de Random Forest en problemas de regresión, los cuales cuentan con los siguientes parámetros:
  • Número de árboles (ntree)
  • Numero de variables predictoras elegidas al azar por cada corrida (mtry)
  • Número mínimo de nodos (nodesize)
  • Numero de variables predictoras (p)
Imagen
Figura 1. Comportamiento de los árboles de un bosque de regresión para diferentes mtry.

En la figura 1 se observa el comportamiento de los árboles de regresión para valores de mtry Número de valores que se seleccionarán en cada partición de cada árbol del bosque desde 1 hasta 7 especificadas por color en la parte superior en función a las variables del tipo geográfico, demográfico y de capacidad de respuesta, figura obtenida con la ayuda del software RStudio por medio de la librería “caret”.

Dataset

Imagen
Figura 2. Mapa de Peligros Múltiples

Desastres Naturales - Incidentes años 2008 - 2017

Imagen
Figura 3. Incidentes atendidos del año 2008 al año 2017 , en todo el territorio del Perú, según la clasificación, Departamento, Municipio y centros poblados.

Imagen

Conclusiones

La inteligencia artificial tiene un impacto positivo en los desastres naturales del Perú el estudio se realizó en base a datos abiertos del organismo público centro nacional de estimación, prevención y reducción del riesgo de desastres (sinagerd). estos datos corresponden 2008 al 2017. cuyo propósito general, permite automatizar y agilizar tareas cuya ejecución puede resultar capaz de analizar grandes cantidades de datos en mucho menos tiempo que los seres humanos, permite tomar decisiones fundamentadas con más celeridad.

Referencias
  • Zela, W., Bejarano, G., Paredes, M., Flórez, O., Ávila, C., Calderón, C., . . . Chavez, S. (2021). Estrategia Nacional de Inteligencia Artificial para Perú – ENIA
Mapa de Peligros Múltiples del Perú