Proyectos en Inteligencia Artificial
Ricardo Chung

Ranking Troomes
Mensajes: 1
Registrado: 12 Abr 2024, 06:14

Identification of university student profiles using Machine Learning. Case study of the National University of Engineer

Mensaje por Ricardo Chung » 28 Jul 2024, 02:31

I. INTRODUCTION
A lo largo del tiempo, y más en estos últimos 35 años, las condiciones socio – económicas han ido cambiando en el mundo, con la implantación de un sistema económico neoliberalista que, sobre todo en los países latinoamericanos, ha repercutido negativamente en los sectores de la población más vulnerable. Como consecuencia de ello, la educación se ha masificado y la oferta educativa en instituciones públicas se ha multiplicado grandemente, así como en las instituciones privadas que ha crecido en número como de su población estudiantil. El escenario descrito, abarca a todos los niveles educativos, pero el estudio que presentamos en este proyecto se va a centralizar en el nivel universitario público, propiamente de la Universidad Nacional de Ingeniería.

Los estudios sobre perfiles estudiantiles universitarios están generalmente enmarcados en el campo de la investigación en las ciencias sociales como más adelante detallaremos y está muy vinculado con los condicionantes sociales y políticos del momento, de tal manera que, en su orientación, los cambios producidos en el contexto sociopolítico tienen un importante impacto, donde los países de América Latina, incluyendo al Perú, estuvieron signado, durante varias décadas, por la presencia de gobiernos autoritarios y democracias muy frágiles, mientras que en el ámbito socioeconómico persiste su condición de alta desigualdad.

En el campo de la educación superior, en un principio, prevaleció el modelo latinoamericano de universidad autónoma, popular y democrática, sostenido por el Estado con políticas de libre acceso y de financiamiento, más o menos satisfactorio, y sin rendimiento de cuentas. Posteriormente pasó a ser un modelo de limitaciones en el acceso y en el financiamiento por parte del Estado, a partir del surgimiento de instituciones de educación superior no universitaria y de medidas de evaluación y acreditación institucional. Ello, en conjunto y paralelamente, impulsó el crecimiento exponencial de la educación superior privada. Durante este proceso, no solo se registraron cambios en las instituciones de educación superior, sino también en los actores que hacen vida en ellas, especialmente, los estudiantes.

Algunos de estos cambios son de naturaleza cuantitativa, otros también cualitativa, pero ambos ponen en evidencia la configuración de un nuevo perfil del estudiante de educación superior.

En ese contexto, este trabajo propone identificar un conjunto de perfiles de postulantes e ingresantes a la Universidad Nacional de Ingeniería, sobre la base de datos del 2022, donde la novedad es la utilización de Machine Learning Non supervisad.
.
II. ANTECEDENTES
A. Revisión Bibliográfica
Para el presente Proyecto, se revisaron una serie de artículos y literatura bibliográfica de trabajos previos relacionado con este Proyecto, por ejemplo:
En [1], la autora nos brinda un acercamiento a la importancia de la caracterización de los perfiles integrales del estudiantado en el ámbito universitario, como un recurso que permita la toma de decisiones académicas y administrativas contextualizadas para procurar un mayor bienestar estudiantil y una universidad pública más equitativa e inclusiva, a fin de orientar la discusión.
En [2], sus autores analizaron a los estudiantes matriculados en estudios de Grado en Universidades Presenciales Españolas según diversas variables de clasificación y niveles de desagregación, cuyo principal foco de análisis es el uso de información socioeconómica: estudios y ocupación de los progenitores de los alumnos universitarios. Matriculados, registrados y censados con sus progenitores por el Instituto Nacional de Estadística (INE), mostrando ello, el conocimiento de la realidad universitaria en relación con el estatus y su influencia en itinerarios, hábitos y rendimientos y también para que pueda facilitar la labor de otros investigadores del servicio que brinda el Sistema Integrado de Información Universitaria (SIIU) a los ciudadanos.
En [3], se investigaron las metodologías de enseñanza en el ámbito universitario y su relevancia en el desarrollo de las competencias académicas. cuyos objetivos ahora son explorar perfiles de estudiantes universitarios en función de su orientación motivacional y las estrategias de aprendizaje que utilizan. Se realizó un análisis de clústeres que permite diferenciar dos perfiles de alumnos, que presentan diferencias significativas en los patrones de uso de las estrategias de aprendizaje, en su orientación al aprendizaje y en su rendimiento.

En [4], los autores estudiaron y hallaron una primera aproximación respecto a la percepción que tienen los diversos miembros de la comunidad académica sobre las características del perfil de estudiantes que son recibidos en las universidades chilenas. Se trabajó con una universidad privada y una universidad estatal, ambas ubicadas en una misma región del país. Los resultados obtenidos mostraron que los miembros de las comunidades académicas reconocen la configuración de un nuevo perfil de estudiantes como un resultado de los cambios en el entorno, sin observarse en esta primera etapa grandes diferencias en las características en ambas instituciones.
En [5], sus autores explicaron el estado del arte en cuanto al perfil del estudiante universitario Latinoamérica desde la investigación social con el fin de incorporar al estudiante como objeto de estudio en las políticas educativas gubernamentales incluyendo en escenarios extraordinarios como el caso de la pandemia del Covid 19.
En [6], los autores como el que pretendo hacer, hacen un estudio del perfil de los ingresantes de la Universidad Silva Henríquez de Chile y lo comparan con otras universidades y comprueban que los perfiles varían para cada universidad comparada.
En [7], los autores propusieron un modelado de perfiles de estudiantes utilizando técnicas de aprendizaje automático durante los últimos cuatro años de estudio, analizando las técnicas de aprendizaje automático más utilizadas y más eficientes en el contexto educativo tanto online como presencial, para diferentes objetivos como fracaso, abandono, orientación, rendimiento académico, etc., siendo el árbol de decisión el más utilizado y el más eficiente en la mayoría de los estudios de investigación.
En [8], los autores analizaron a las instituciones de educación superior abrumadas con enormes cantidades de información sobre la matrícula de los estudiantes, el número de cursos completados, los logros en cada curso, los indicadores de desempeño y otros datos cada vez más complejo que hacen muy difícil la toma de decisiones sobre la reforma y reestructuración de los planes de estudio, así como la identificación de perfiles de estudiante.
En [9], los autores utilizando los sistemas de jueces en línea (OJ) produjeron resultados rápidos y evaluaciones objetivas del código desarrollado por los estudiantes que proporcionaron esquemas basados en el aprendizaje de instancias múltiples y formulaciones clásicas de aprendizaje automático, para modelar a los estudiantes y ser capaz de identificar grupos y perfiles de estudiantes propensos a fracasar.

Como puede verse, este estudio de los perfiles universitarios de los estudiantes, se han analizado desde una perspectiva social y con machine Learning, donde se lograron identificar algunos rasgos característicos de dichos estudiantes.

III. IDENTIFICACIÓN DE PERFILES UNIVERSITARIOS MEDIANTE MACHINE LEARNING NON SUPERVISED
En el presente Proyecto se propone la utilización de Machine Learning No Supervisado para identificar perfiles estudiantiles, en nuestro caso de estudio, la Universidad Nacional de Ingeniería, en Lima – Perú.
Para ello, inicialmente, contamos una base de datos de un semestre académico, de postulantes e ingresantes a la universidad, con los datos pertinentes para nuestro estudio. Estos datos deben ser del tipo numérico, sino fuera el caso, entonces los datos categóricos previamente se convertirían a numéricos. Lógicamente, mientras tengamos mayor cantidad de datos mejor. Con dicha base de datos, utilizando el programa R o los mismos algoritmos de Machine Learning Non Supervisad del weka, en la sección o pestaña de clustering, procederemos a hallar el número óptimo de perfiles que pueden identificarse. Finalmente, conocido el número de perfiles procedemos a ejecutar programas y algoritmos de Inteligencia Artificial a fin de identificar los perfiles universitarios de postulantes y/o ingresantes a dicha universidad.
En nuestro caso de estudio, hemos utilizado los Algoritmos del weka, con los parámetros por defecto para obtener el número de clustering, obteniéndose los resultados siguientes:

Con el Algoritmo Expectative Maxim y utilizando sus parámetros por defecto, como puede verse en la Tabla 1:

Tabla 1
ALGORITMO EM con Parámetros por defecto
debug False
displayModelinOldFormat False
doNotCheckCapabilities False
maxIterations 100
maximumNumberOfClusters -1
minLogLikelihoodImptovementCV 1.0E-6
minLogLikelihoodImptovementIterating 1.0E-6
minStdDev 1.0E-6
numClusters -1
numExecutionSlots 1
numFolds 10
numKMeansRuns 10
seed 100

El número de clúster en una primera iteración es 17 y en una segunda iteración y definitiva que nos da es 4, a mostrar en la Tabla 2:
Tabla 2
Clustered Instances
Algoritmo EM - por Defecto
0 66 (5%)
1 595 (48%)
2 469 (38%)
3 118 (9%)


Log likelihood: 30.24911

Con el Algoritmo Canopy, con parámetros por Defecto:
ALGORITMO Canopy con Parámetros por defecto
debug False
doNotCheckCapabilities False
dontReplaceMissingValues False
maxNumCandidateCanopiesToHoldlnMemory 100
minimumCanopyDensity 2.0
numClusters -1
periodicPruning_Rate 1000
seed 1
t1 -1.25
t2 -1.0

El número de Clúster que nos da es 19, resultado adjunto a este informe.

Con el Algoritmo SimpleKMeans, a partir de considerar 4 clúster en adelante se presentan algunas características de perfiles en la UNI, menos de 4 no podemos distinguir estos perfiles claramente:
Resultados SKMeans – 2
ALGORITMO SimpleKMeans con Parámetros por defecto
canopyMaxNumCanopiesToHoldlnMemory 100
canopyPeriodicPruningRate 2.0
canopyT1 -1.25
canopyT2 -1.0
debug False
displayStdDevs False
distanceFunction EuclideanDistance
doNotCheckCapabilities False
dontReplaceMissingValues False
fastDistanceCalc False
initializationMethod Random
maxIterations 500
numClusters 2
numExecutionSlots 1
preserveIntancesOrder False
reduceNumberOfDistanceCalcsViaCanopies False
seed 10

Clustered Instances
Algoritmo SimpleKMeans - por Defecto 2 Clusters
0 487 (39%)
1 761 (61%)

Resultados SKMeans - 3
Clustered Instances
Algoritmo SimpleKMeans - para 3 Clústeres
0 122 (10%)
1 366 (29%)
2 760 (61%)

Resultados SKMeans - 4
Clustered Instances
Algoritmo SimpleKMeans - para 4 Clústeres
0 122 (10%)
1 363 (29%)
2 378 (30%)
3 365 (31%)
Obsérvese que el Cluster 2 anterior se ha particionado en dos para formar los dos últimos Clústeres de esta última tabla.

Resultados SKMeans - 5
Clustered Instances
Algoritmo SimpleKMeans - para 5 Clústeres
0 122 (10%)
1 243 (19%)
2 375 (30%)
3 365 (31%)
4 123 (10%)
Obsérvese que el Cluster 1 anterior, aproximadamente se ha particionado en dos para formar el nuevo Cluster 1 y el último Cluster de esta última tabla.


IV. RESULTADOS DE LA APLICACIÒN DE LOS ALGORITMOS
Ahora, para buscar las características de los perfiles universitarios, se ha procedido a analizar cada uno de los clústeres resultados de estos algoritmos.
En el caso del Algoritmo SimpleKMeans con tres Clústeres podemos decir, observando el archivo resultado correspondiente, adjunto a este informe, que:
• Hay un grupo donde están netamente los varones de 18 años en promedio, preparándose un promedio de 9 meses, mayormente vienen de instituciones educativas privadas, son limeños que se han preparado en el CEPRE UNI o academias no tradicionales, postularon hasta en dos ocasiones para su ingreso a la UNI con ingresos económicos familiares entre 800 y 2000 soles.
• Un grupo de mujeres de 18 años en promedio preparándose en promedio 10 meses igualmente en su mayoría provenientes de instituciones educativas privadas, limeñas que se han preparado en el CEPREUNI o en academias no tradicionales, que postularon hasta en dos ocasiones e ingresos entre 800 y 2000 soles.
• Un tercer grupo donde ya hay postulantes de ambos sexos con más edad que se prepararon por más de 10 meses en academias tradicionales, que al tener ingresos menores a 1500 soles no pudieron prepararse en el CEPRE UNI, provienen de instituciones educativas mayormente públicas que privadas.

En el caso del Algoritmo SimpleKMeans con cuatro Clúster podemos también decir, observando el archivo resultado correspondiente, adjunto a este informe, que:
• Hay un grupo donde están mayormente los varones de 18 años aproximadamente en promedio, preparándose un promedio de 9 meses, mayormente vienen de instituciones educativas privadas, son limeños que se han preparado en el CEPRE UNI o academias no tradicionales, postularon hasta en dos ocasiones para su ingreso a la UNI con ingresos económicos familiares entre 800 y 2000 soles.
• Un grupo de mujeres de 18 años aproximadamente en promedio preparándose en promedio 10 meses igualmente en su mayoría provenientes de instituciones educativas privadas, limeñas que se han preparado en el CEPREUNI o en academias no tradicionales, que postularon hasta en dos ocasiones e ingresos entre 800 y 2000 soles.
• Un tercer grupo donde ya hay postulantes de ambos sexos en proporción similares a la cantidad de ingresantes, que se prepararon por más de 10 meses en academias tradicionales, con edades mayores, provenientes de instituciones educativas públicas, que al tener ingresos menores a 1500 soles no pudieron prepararse en el CEPRE UNI y postularon menos veces en promedio.
• Un cuarto grupo donde ya hay postulantes de ambos sexos en proporción similares a la cantidad de ingresantes, que se prepararon por más de 10 meses en academias tradicionales, con edades mayores, provenientes de instituciones educativas privadas, que al tener ingresos menores a 1500 soles no pudieron prepararse en el CEPRE UNI y postularon menos veces en promedio.

En el caso de los Algoritmos Expectative Maxim y Canopy no nos proporcionaron perfiles estudiantiles universitario pronunciados con números de Clústeres 3 a 6, por ello no se especifican en este informe. Sin embargo, sus archivos resultados, así como sus archivos modelos se adjuntan a este informe para su verificación. También se adjuntan dichos archivos en el Algoritmo SimpleKMeans.

Analizando algunas parejas de atributos, a manera de ejemplo, se eligió el caso de Sexo vs Institución Educativa, observando que mayormente los postulantes hombre son de instituciones públicas y las mujeres provinieron de instituciones privadas. En el caso de Sexo y Edad también se observó que los postulantes hombres son mayores que las mujeres.

V. CONTRIBUCIONES ESPERADAS
La principal contribución del presente proyecto de investigación, es la identificación de perfiles estudiantiles universitarios mediante Algoritmos de Machine
Learning Non Supervisad que ayude a las universidades a tomar decisiones de marketing de la Universidad Nacional de Ingeniería, en cuanto a sus vacantes con criterios técnicos y las aperturas de locales en lugares estratégicos tanto del CEPREUNI como de sucursales de carreras de la universidad en lugares apropiados.


REFERENCES
[1] Irina Sibaja López, “Caracterización de los perfiles estudiantiles universitarios: reflexiones sobre su importancia”, Universidad de Costa Rica, ISSN 1659-3316, Febrero de 2021.
https://revistas.ucr.ac.cr/index.php/es ... 6028/45912
[2] Subdirección General de Actividad Universitaria Investigadora, Información y Seguimiento del Sistema de la Secretaría General de Universidades., “Perfil socio – económico del estudiantado universitario en España”, Ministerio de Ciencia, Innovación y Universidades, Gobierno de España, 2024.
https://cpage.mpr.gob.es/
[3] María José de Dios Pérez, “Perfiles de Estudiantes Universitarios y su Ajuste a las Metodologías de Enseñanza”, International Journal of Developmental and Educational Psychology, vol. 1, núm. 12019, Universidad Camilo José Cela, España, International Journal of Developmental and Educational Psychology, vol. 1, núm. 1, 2019, Universidad Camilo José Cela, España, abril de 2019.
Redalyc: https://www.redalyc.org/ articulo.oa?id=349859739018.
[4] Carmen Araneda Guirriman, Joaquín Gairín Sallán, Liliana Pedraja-Rejas y Emilio Rodríguez-Ponce, “Percepciones sobre el Perfil del Estudiante Universitario en el Contexto de la Educación Superior de masas: Aproximaciones desde Chile”, Interciencia, 0378-1844/14/07/468-08 $ 3.00/0, , Vol. 43 Nº 12 Diciembre de 2018,
https://www.interciencia.net/wp-content ... -43_12.pdf
[5] María Cristina Parra Sandoval, “Perfil del estudiante universitario latinoamericano”, Oficina para América Latina del Instituto Internacional de Planeamiento de la Educación de la UNESCO de la Organización de las Naciones Unidas , Junio 2021,
https://unesdoc.unesco.org/ark:/48223/pf0000378123
[6] Tamara Cortés Seitz, Víctor Birkner Duarte, “Trazando el perfil de ingreso del estudiante universitario: un estudio de caso en la Universidad Silva Henríquez”, Revista INVECOM “Estudios transdisciplinarios en comunicación y sociedad” / ISSN 2739-0063 / www.revistainvecom.org https://revistainvecom.org/index.php/in ... w/2041/176
[7] Touria Hamim; Faouzia Bennabo y Nawal Sael, “Survey of Machine Learning Techniques for Student Profile Modeling”, International Journal of Emerging Technologies in Learning (iJET), Febrero de 2021, https://www.researchgate.net/publicatio ... e_Modeling
[8] Evis Tandrafili; Elinda Kajo Mece; Aleksander Xhuvani y Albàqn Allkoci, “Discovery and evaluation of student's profiles with machine Learning”, http://dx.doi.org/10.1145/2371316.2371350 septiembre de 2012.
[9] Juan Ramon Rico-Juan; Vıctor M. Sanchez-Cartagena; Jose J. Valero-Mas y Antonio Javier Gallego,” Discovery and evaluation of student's profiles with machine learnin”,
[10] Isaac Calduch; Esther Álamo; Júlia Francàs; Nerea Gutiérrez; Mario Valenzuela; “Perfil de los estudiantes recién llegados a la Universidad de Barcelona”, Universitet de Barcelona, España, octubre de 2017.
rachch


Responder