Professional Documents
Culture Documents
Abstract
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
las características del perfil de aprendizaje de los estudiantes en el proceso de admisión (si
los estudiantes; en función de ellas pueden bien la descripción e información de la base
adecuarse las estrategias de enseñanza. Bajo de datos disponible no es muy amplia y pro-
esta premisa y empleando el test propuesto bablemente habrá que adaptarse y sujetar-
por Felder y Soloman [3], fueron encuestados se al contenido con el que se cuenta). Por su
ochenta y nueve estudiantes de la misma fa- parte, las siguientes son algunas premisas
cultad. Así mismo, con el fin de descubrir el que se pueden plantear y responder como
conocimiento implícito en las respuestas, se objetivos del análisis:
siguió el proceso de descubrimiento de cono-
cimiento en bases de datos (KDD-Knowledge- • ¿Qué características cerebrales tienen los
discovery in databases) y, a través de técnicas estudiantes de cada programa?
de minería de datos, pudo caracterizarse un • ¿Existen grupos de estudiantes, no co-
estudiante en el proceso de admisión. nocidos de antemano, con características
similares?
Objetivos del análisis • ¿Existen diferencias significativas en los
resultados obtenidos según las pregun-
Un paso previo al análisis lo constituyó la tas A0, A1, A2 y A3?
fuente de información (base de datos), en • ¿La elección de una carrera profesional
la cual se establecieron los siguientes objeti- depende del entorno o de qué variable?
vos: extracción de búsqueda de relaciones, • ¿Es posible predecir la selección de un
identificación de modelos subyacentes en los programa mediante alguna variable pre-
datos y comprensión del dominio de los mis- viamente conocida?
mos. Lo anterior con el fin de establecer una • ¿Cuáles son las relaciones más significa-
idea clara sobre la caracterización de un estu- tivas entre variables?
diante en el proceso de admisión. Así mismo,
antes de comenzar con el análisis fue elegida Como se observará más adelante, en los resul-
la plataforma de software para aprendizaje tados obtenidos pueden encontrarse relacio-
automático y minería de datos Weka (Waikato nes triviales, conocidas previamente o, inclu-
EnvironmentforKnowledgeAnalysis), la cual está so, no hallarse ninguna significativa; situación
escrita en Java y fue desarrollada en la Uni- que sería relevante para el proceso de inter-
versidad de Waikato [4]. pretación. A continuación dos ejemplos poten-
ciales: a) determinar, después de un análisis
Además, el uso de Weka en el proceso de exhaustivo, que la clase social no condicio-
análisis de datos (KDD) permitirá dirigir la na la escogencia de una carrera profesional; y
búsqueda y el refinamiento de la informa- b) que la prueba de ingreso debe considerar-
ción mediante una interpretación adecuada se homogénea sin importar su estratificación
de los resultados generados. Cabe resaltar social (resultados como los anteriores podrían
que los análisis efectuados no <<emergen>> interpretarse como conclusiones válidas). Por
de los datos, sino que deben ser considerados otra parte, este análisis tiene un enfoque intro-
e interpretados con detenimiento como pri- ductorio e ilustrativo que permite acercarse
mer paso del estudio. a las técnicas disponibles y a su misma ma-
nipulación desde la herramienta Weka, hecho
El objetivo principal de este artículo es rela- que deja abierto —para el investigador— el
cionar los resultados obtenidos en las prue- estudio del dominio de datos a resultados y
bas con las características o los perfiles de conclusiones más elaborados. 55
John Petearson Anzola Anzola
I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O
66 2010-I 668
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
Figura 2. Clase-sexo.
Figura 4. Clase-edad.
77
John Petearson Anzola Anzola
I + D I N V E S T I G A C I Ó N Y D E S A R R O L L O
Edad Valor
Mínimo 16 Los datos estadísticos de la clase-programa
Máximo 27 conforman la tabla 7. Cabe resaltar que se to-
Promedio 21.514 maron de los cuatro periodos académicos:
Desviación Estándar 3.539
Tabla 7. Cantidad de
La figura 5 ilustra el análisis de la clase- estudiantes por programa.
jornada. Esta es una variable categórica:
Nº Programa Cantidad
Figura 5. Clase-Jornada.
1 Producción 272
2 Administración 352
3 Seguridad 320
4 Modas 346
5 Electrónica 325
6 Sistemas 330
7 Diseño gráfico 311
Nº Jornada Cantidad
1 Diurna 1124
2 Nocturna 1131
88
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
de aplicar filtros en nuevos ficheros —que Otro filtro aplicado —antes de implementar
también serán de tipo Attribute-Relation File algunos algoritmos que se detallarán pos-
FormatARFF— para manipulaciones poste- teriormente— es Discretize, el cual transfor-
riores [7]. ma los atributos numéricos seleccionados
en atributos simbólicos con una serie de eti-
Filtros de atributos quetas que resultan tras dividir la amplitud
total del atributo en intervalos. Por ejemplo,
A continuación se indica —entre todas las una vez empleado este filtro, si se dividen
posibilidades implementadas la utilización los intervalos del <<atribute>> cerebro_der en
de filtros para eliminar atributos, discretizar cuatro de igual frecuencia, se obtendrán los
atributos numéricos y añadir nuevos atribu- rangos delimitados por (29.5, 32.5, 35.5), des-
tos con expresiones según por la frecuencia tacando cómo el 31.2 % de los estudiantes
con la que se realizan estas operaciones. desarrolla el cerebro izquierdo.
1010
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
11
11
1212
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
13
13
1414
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
similares, para lo cual se seleccionará el algo- • El grupo con mayor edad fue el 1, que
ritmo SimpleKMeans con un número de clus- perteneció al periodo académico 2008-II.
ters igual a cinco. A continuación, aparecerán Su promedio fue de 23 años.
los cinco grupos de ejemplos más similares
y sus centroides (promedios para atributos En la siguiente figura se describen los resulta-
numéricos y valores más repetidos en cada dos obtenidos por el algoritmo SimpleKMeans
grupo para atributos simbólicos). Por ejem- en Weka.
plo, para tres de los cinco clusters, el progra-
ma más repetido es TP.Administracion y, para En la figura 19 se encuentra ausente el perio-
los otros dos, son TP.Seguridad y TP.Diseno. do académico 2009-II. Por este motivo sólo
En todos los clusters, el periodo de mayor aparecen cuatro grupos.
afluencia de estudiantes fue el 2010-I. El nú-
mero de instancias agrupadas en cada cluster El Algoritmo Esperanza-Maximización (EM)
se observa en la figura 17. se utiliza en estadística para encontrar estima-
dores de máxima verosimilitud de paráme-
La implementación de este algoritmo de tros en modelos probabilísticos que depen-
agrupamiento permitió clasificar los progra- den de variables no observables. Además,
mas más relevantes y sirvió como “filtro” alterna pasos de esperanza (E) donde se com-
puesto que la primera instancia que se obtu- puta la <<esperanza de la verosimilitud>>
vo en los cinco grupos fue: mediante la inclusión de variables latentes
como si fueran observables; y un paso de
• No seleccionó el periodo académico maximización (M), en el que se computan
2009-II. estimadores de máxima verosimilitud de los
• Los periodos académicos en los que se parámetros mediante la maximización de la
agruparon mayor cantidad de hombres verosimilitud esperada de E. Los parámetros
fueron 2008-II y 2009-I. que se encuentran en M se usan para comen-
• El estrato socioeconómico 1 no fue rele- zar el siguiente paso E. De esta forma, el pro-
vante en la agrupación. ceso se repite [12].
15
15
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
17
17
COBWEB [7] es un algoritmo de clustering je- con una sóla instancia; es decir, establece la
rárquico que se caracteriza por utilizar apren- varianza mínima de un atributo.
dizaje incremental; en otras palabras, realiza
las agrupaciones <<instancia a instancia>>. Cut-off: valor empleado para evitar el creci-
Así mismo, durante la ejecución del algorit- miento desmesurado del número de segmen-
mo se forma un árbol (de clasificación) en tos. Indica el grado de mejoría que se debe
el que las hojas representan los segmentos y el producir en la utilidad de categoría para que
nodo-raíz engloba, por completo, el conjunto la instancia sea tenida en cuenta de manera
de datos de entrada. individual.
• Sexo.
Acuity: este parámetro es necesario ya que la
• Estrato.
utilidad de categoría se basa en una estima-
• Programa.
ción de la media y la desviación estándar del
• Cerebro_izq
valor de los atributos. Sin embargo, cuando
• Cerebro_der
se estima la desviación estándar del valor de
• Cerebro_cen
un atributo para un nodo en particular, el re-
sultado es cero (0) si dicho nodo sólo contie- Entonces, el programa arroja los resultados
ne una instancia. Así pues, el parámetro acui- mostrados en la figura 23 y en la visualiza-
ty representa la medida de error de un nodo ción del árbol en la figura 24.
1818
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
19
19
Análisis de cociente triádico para procesos de admisión de estudiantes en la fundación Insutec mediante minería de datos
V Í N C U L O S
JULIO-DICIEMBRE DE 2010
VOLUMEN 7 NÚMERO 2
[10] Garre, M., et. al. (2007), “Comparación [12] Gómez García, J.; PalareaAlbaladejo, J.
de diferentes algoritmos de clustering y Martín Fernández, J.A. (2006). “Méto-
en la estimación de coste en el desarro- dos de Inferencia Estadística con datos fal-
llo de software”, en Revista Española de tantes”, en Estadística española, vol. 48,
Innovación, Calidad e Ingeniería de Soft- pp. 240 -275.
ware, vol. 3, núm. 1, pp. 1885–4486.
[11] Duda, R. Hart, P., “Pattern Classifica-
tion and Scene Analysis”, Wiley & Sons,
1973.
21
21