You are on page 1of 68

APLICATIVO WEB PARA PREDECIR LA DESERCIN

ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

APLICATIVO WEB PARA PREDECIR


DESERCIN
ESTUDIANTIL
EN
UNIVERSIDAD DEL MAGDALENA

ALEX SIERRA RODRIGUEZ

CD.: 2006114061

EDUARD AVENDAO CAMACHO

CD.: 2006114005

UNIVERSIDAD DEL MAGDALENA


FACULTAD DE INGENIERA
PROGRAMA: INGENIERA DE SISTEMAS

LA
LA

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
SANTA MARTA D.T.C.H.
2011

APLICATIVO WEB PARA PREDECIR


DESERCIN
ESTUDIANTIL
EN
UNIVERSIDAD DEL MAGDALENA
ALEX SIERRA RODRIGUEZ

CD.: 2006114061

EDUARD AVENDAO CAMACHO

CD.: 2006114005

Anteproyecto de grado para presentar


al comit de memoria de grado.

Director:
Ing. NESTOR VALVERDE
Msc. En Ingeniera Industrial
CEO RUBIKEY, Intelligence and knowledge

UNIVERSIDAD DEL MAGDALENA


FACULTAD DE INGENIERA

LA
LA

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
PROGRAMA: INGENIERA DE SISTEMAS
SANTA MARTA D.T.C.H
2011

Titulo:
ESTUDIO DE LA DESERCIN ESTUDIANTIL EN LA
UNIVERSIDAD
DEL
MAGDALENA
APLICANDO
REDES
APLICATIVO
WEB
PARA
PREDECIR
LA
DESERCIN
NEURONALES
ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
Investigador : Alex Sierra Rodriguez
C.C.: 1.082.887.982
Correo Electrnico: aleks0729@gmail.com

Telfono:
1859

317

227

Direccin de Correspondencia: Cra 14 # 7 a 64


Investigador: Eduard Avendao Camacho

C.C.: 1.082.847.048

Correo Electrnico: eddo1218@gmail.com

Telfono:
2677

301

410

Direccin de Correspondencia: Cra 32B # 19-40


Lnea de Investigacin: Minera de Datos
Entidad: Universidad del Magdalena
NIT: 891780-111-8
Representante Legal: Ruthber Escorcia Cdula de
Caballero
85.448.878

ciudadana

#:

de: Santa Marta


Direccin: Carrera 32 # 22-08

E-mail:
portal@unimagdalena.edu.c
o

Telfonos: (5) 430-1292

Fax: (5) 430-3621

Ciudad: Santa Marta D.T.C.H

Departamento: Magdalena

Tipo de Entidad: (Seleccione el tipo de entidad)


Universidad Pblica: X

Universidad Privada:

Entidad o Instituto Pblico:

ONG:

Centro de Investigacin Privado:

Centro de Desarrollo Tecnolgico

Centro Empresarial o Gremio:

Empresa:

Tipo de contribuyente (seleccione marcando con una x)


Entidad Estatal: X

Rgimen Comn:

Gran contribuyente

No Contribuyente

Rgimen simplificado

Lugar de Ejecucin del Proyecto:


Ciudad: Santa Marta D.T.C.

Departamento: Magdalena

Duracin del Proyecto (en meses): Siete meses


Tipo de Proyecto:
Investigacin Bsica:
Financiacin
Contingente

Investigacin
Aplicada: X

Solicitada

en

Valor Solicitado a Colciencias:$


Valor Contrapartida:$

modalidad

Desarrollo Tecnolgico
o Experimental:
de

Recuperacin

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

INTRODUCCIN

Hoy por hoy notamos un gran avance en los sistemas informticos,


los datos almacenados crecen de manera acelerada, hace veinte
aos se consideraba un lujo el hecho de contar con un computador
que contara con un Disco Duro (DD) con capacidad de
almacenamiento de un Gigabyte, sin embargo, en la actualidad
contamos con PCs que tienen 512 GB y hasta un Terabyte de
almacenamiento, esto a nivel domstico.
Si analizamos esta situacin a nivel empresarial se podra hablar de
un crecimiento exponencial, una multinacional produce en una
semana ms datos de la que podra leer una persona en toda su
vida. Pero este crecimiento de datos no est acompaado por un
aumento igual en nuestro conocimiento, pues resulta muy difcil
procesar esa Montaa de Informacin, lo que ocasiona que las
organizaciones lleguen a omitir informacin que pudiera ser
relevante para su funcionamiento.
La mayora de las instituciones acadmicas, incluida la Universidad
del Magdalena, No cuentan con sistemas que le permitan la
extraccin de conocimiento de sus bases de datos, para la
identificacin de los focos de los problemas y tomar decisiones para
su correccin oportuna.
Para la solucin de este problema se han creado diversas tcnicas
para el procesamiento de los datos, en este trabajo se utilizar el
proceso de KDD (Descubrimiento de Conocimiento en Bases de
Datos), especficamente las tcnicas de Minera de Datos.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

RESUMEN

La desercin se encuentra entre los problemas ms complejos y


frecuentes que enfrentan las Instituciones de Educacin Superior del
pas y la Universidad del Magdalena no est excluida de ello. Es por esto
que en los ltimos aos esta problemtica ha cobrado importancia y
desde el gobierno central se han impulsado programas que permitan a
las instituciones tomar medidas para el control de esta situacin.

En este trabajo se realizar un estudio de KDD Knowledge Discovery in


Databases (Descubrimiento de conocimientos en bases de datos) que
permita determinar los factores que inciden en la desercin de los
estudiantes del pregrado presencial de la Universidad del Magdalena,
utilizando especficamente tcnicas de minera de datos sobre la base de
datos acadmica Luego de tener el modelo producido por la minera de
datos, se realizar un aplicativo web, que permita predecir la
probabilidad de desercin de los Alumnos de la Unimag en el pregrado
presencial, este proyecto tambin busca promover la investigacin
aplicada con su ejemplo.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

PLANTEAMIENTO DEL PROBLEMA

En el transcurrir del tiempo se ha demostrado que la educacin, el


conocimiento y la academia, como tal, son parte importante en el
desarrollo de una sociedad, y de esto pueden dar fe las grandes
potencias mundiales, que han utilizado estos mecanismos para impulsar
su prosperidad al generar tecnologas vanguardistas, fruto de la
investigacin, que les permiten liderar los diferentes sectores o reas
que potencializan el desarrollo de un pas como son el campo, la
industria, el comercio, la infraestructura vial y de comunicaciones, la
salud, lo militar entre otros. Este desarrollo tecnolgico se debe en gran
parte a los altos niveles de educacin que se alcanza en estos pases, los
cuales destinan gran partes de sus esfuerzos a fortalecer sus sectores
educativos al propiciar el aumento de la cobertura universitaria, la
investigacin y sobre todo a proveer las condiciones necesarias para que
sus profesionales e investigadores, permanezcan en el pas y no tengan
la necesidad de emigrar hacia otras partes del mundo. De esta forma
los profesionales e investigadores se constituyen en un recurso que los
pases deben producir y proteger como cualquier otro.

La desercin es uno de los principales problemas que enfrentan las


instituciones de Educacin Superior, debido a que la complejidad de los
factores involucrados en su determinacin hace difcil la implementacin
de polticas contundentes que disminuyan los ndices de desercin en el
pas. La desercin representa costos de oportunidad para la sociedad y
las instituciones. Un estudiante que abandona la educacin superior,
crea una vacante que pudo ser ocupada por otro alumno que persistiera
en sus estudios. Por consiguiente, esta prdida causa serios problemas
financieros a las instituciones al producir inestabilidad en la fuente de
recurso (Tinto, 89), incumplimiento de metas establecidas, prdidas
financieras y de capital humano. Adicionalmente, desde el punto de
vista macroeconmico, la desercin tiene efectos negativos sobre los

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
niveles de capital humano y la movilidad social (Hanushek, 2000) y por
tanto, sobre el crecimiento y desarrollo econmico.

A pesar de esto, las investigaciones en el pas se han concentrado en


cuantificar el efecto de algunos de los determinantes de la desercin
bajo
escenarios
particulares
y
estticos.
Estos
desconocen
principalmente, la definicin de la desercin en la que deben
involucrarse una serie de factores individuales, socioeconmicos,
institucionales y acadmicos que interactan con las decisiones del
individuo y que cambian a travs del tiempo. De esta manera, las
preguntas relevantes en el estudio de la desercin, no estn slo
relacionadas con la magnitud del efecto de cierta variable explicativa
sobre la decisin del individuo, sino tambin, con el riesgo de desertar a
travs del tiempo de permanencia del alumno en la Universidad y los
factores que inciden sobre la terminacin de dicho riesgo. De esta
manera, el conocimiento sobre los determinantes del riesgo puede
constituir la base para elaborar polticas universitarias eficaces con el
fin de aumentar la retencin estudiantil.

En un estudio realizado en el 2006 por la OCDE (Organizacin para la


Cooperacin y el Desarrollo Econmico), compuesta por 30 Estados,
entre los cuales estn: Espaa, Mxico, Brasil, Chile, Argentina, etc., se
encontr que la desercin de las universidades de los pases miembros
presentaron los siguientes porcentajes:

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Porcentaje de Desercin en la Educacin Superior


60%
50%
40%
30%
20%
10%
0%

Tabla 1. Porcentaje de Desercin en las Universidades, segn estudio de


la OCDE.

En Colombia la produccin de profesionales se ve opacada por


problemas como la cobertura universitaria, que aunque en los ltimos
aos ha experimentado un incremento paulatino pasando del 24,5% en
el 2002 a un 35,5% de cobertura en el 2009 segn las cifras del
Ministerio de Educacin Nacional, an est lejos de ser la ideal para un
pas que busca salir del subdesarrollo. A esta deficiente cobertura
universitaria se agrega otra problemtica que viene afectando el
aumento de profesionales en Colombia, como es el alto porcentaje de
desercin universitaria, que para este ao se sita en 45%; Una cifra
realmente alrmate, si se tiene en cuenta el nmero de estudiantes
universitarios para el ao 2009 que ronda aproximadamente el milln y
medio de estudiantes.

Estos datos de desercin en Colombia son preocupantes, sumndose a


la realidad mundial. La desercin estudiantil en las universidades es un
problema que preocupa a los principales pases.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Estos ndices de desercin en Colombia, son un comn denominador


para todas las universidades tanto privadas como pblicas, en donde la
diferencia es insignificante, tan solo 0,42 puntos mayor en las
universidades privadas, es decir 45,42% en el ao 2009; por lo que
desde un punto de vista tcnico, el nmero de estudiantes desertores es
el mismo en las universidades privadas y pblicas.

La Universidad del Magdalena no es la excepcin a esta regla, en esta


alma mter, la desercin en el ao 2007, por bajo rendimiento
acadmico (FBRA) fue de 1700 estudiantes, sin contar la desercin por
otros factores que en promedio fue de 4,47% para ese mismo ao. Estos
altos ndices, adems de ser un obstculo en el camino para el
incremento del capital humano en el pas, afectan los recursos del
estado y de las universidades, debido al costo de tiempo y dinero que
acarrea cada estudiante.

Con todo estos indicadores de abandono estudiantil universitario en el


pas, es preciso la realizacin de investigaciones que ayuden a conocer
las caractersticas de los estudiantes desertores, con el fin de propiciar
la creacin de polticas, mecanismos o herramientas enfocadas a
mitigar esta problemtica en la Universidad del Magdalena, apoyndose
en las tecnologas de hoy como la informtica, inteligencia artificial y sus
ramas derivadas; por lo que cabe preguntase si

Existen caractersticas en los estudiantes de pregrado presencial,


registrados en las bases de datos de admisiones, que permiten la
elaboracin de un modelo discreto de minera de datos, capaz de
describir los patrones presentes en los estudiantes desertores y
utilizarse como base de conocimiento para el desarrollo de una
aplicacin web, cuya funcionalidad principal sea determinar la
probabilidad que tiene un estudiante de abandonar la Universidad del
Magdalena?

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

OBJETIVOS

OBJETIVO GENERAL
Desarrollar un aplicativo web para el anlisis de datos a partir de un
modelo predictivo, construido gracias a la aplicacin de tcnicas de
minera de datos para predecir la probabilidad de desercin en el
pregrado presencial de la Universidad del Magdalena

OBJETIVOS ESPECFICOS

Constituir una bodega de datos confiable, a travs de la limpieza


de inconsistencias, la resolucin de heterogeneidad y la
transformacin de los datos, para que sirva de estructura bsica
en la aplicacin de herramientas de minera de datos.

Aplicar sobre los datos o sobre un subconjunto de datos


herramientas estadsticas, como el anlisis de regresin, que
determinen la importancia de las variables involucradas, que sern
tenidas en cuenta en la aplicacin de la minera de datos.

Aplicar sobre un conjunto de datos objetivo, de tipo cuantitativo,


un proceso de agrupamiento (clustering) que subdivida el
conjunto de datos, teniendo en cuenta los factores ms relevantes
y logrando
subconjuntos de volumen manejable y con
caractersticas homogneas.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Aplicar sobre cada subconjunto de datos, un proceso de


representacin mediante rboles de decisin con el fin de obtener
algunas reglas o patrones de comportamiento de los factores que
influyen en la desercin estudiantil en la Universidad del
Magdalena.

Evaluar el conjunto de conocimientos encontrados, desde el punto


de vista de su validez, originalidad, utilidad potencial,
entendibilidad y grado de inters, con el fin de plantear
estrategias para el mejoramiento de los procesos de tipo
acadmico en la Universidad del Magdalena.

Analizar los datos generados por la minera de datos y prepararlos


para el aplicativo web.

Disear una interfaz web que alimente al modelo con los datos de
los alumnos.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

JUSTIFICACIN

La preocupacin por el desempeo de los estudiantes de primer ao de


carrera universitaria, que surge de los desfavorables indicadores de
desercin, ha llevado a las Universidades del pas a investigar sobre las
causas que subyacen dicha problemtica. La Universidad del Magdalena,
sede Santa Marta, no es ajena a esta situacin, por lo que es necesario
empezar a buscar soluciones que permitan acabar o disminuir con los
actuales ndices de desercin No obstante, antes de pensar en
soluciones, es indispensable conocer el estado actual de la problemtica
que se est tratando, para poder tener una idea clara, y as atacar la
raz del problema de una forma inteligente y con fundamentos slidos.

El presente estudio, al explorar


la desercin estudiantil en la
Universidad del Magdalena, pretende brindar conocimiento sobre este
tema, el cual puede servir de base para analizar la aplicacin de
polticas administrativas y acadmicas enfocadas a reducir nivel del
problema de desercin en la Universidad del Magdalena.

En este sentido, el siguiente proyecto de investigacin,


aborda el
problema descrito, por medio del anlisis de la informacin de la base
de datos acadmica de la Universidad del Magdalena a travs de
tcnicas de minera de datos. La minera de datos ofrece a la
problemtica planteada, una gran variedad de mtodos estadsticos y
computacionales para investigar la existencia de relaciones y patrones
de comportamiento en los estudiantes de primer ao de carrera
universitaria. Los resultados emergentes pueden sugerir explicaciones
causales capaces de ser verificadas posteriormente o bien pueden
sugerir estrategias de accin para lograr ciertos objetivos de cambio.
Esta investigacin es importante porque aborda una problemtica que
no se ha estudiado en la Universidad del Magdalena, porque es un tema

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
que tienen primero una connotacin social, si se mira desde el lado de
los estudiantes y la importancia que tiene su desarrollo profesional para
la sociedad, segundo una connotacin econmica, debido a que los
estudiantes desertores se pueden tratar como inversiones fallidas de
capital para el estado y para la Universidad, dicho de otra forma, lo
estudiantes que desertan de las universidades representan prdidas
econmicas para las Universidades; y por ltimo porque este tipo de
estudios promueve la investigacin aplicada en este campo de la
Inteligencia Artificial y genera conocimiento til para el apoyo a la toma
de decisiones en el rea acadmica de la Universidad del Magdalena.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

ANTECEDENTES

Se entiende por minera de datos como la bsqueda de patrones en


grandes bases de datos, utilizando mtodos estadsticos y herramientas
informticas. Es ampliamente utilizado en el sector financiero,
telecomunicaciones y empresas de servicios en general. El principal
objetivo de estas metodologas en estos sectores, es hacer las empresas
ms competitivas, empoderndoles la capacidad de pronosticar el
futuro, el comportamiento de sus clientes y prospectos para desarrollar
estrategias para retencin y atraccin de clientes.

La idea de data mining (Minera de datos) no es nueva, ya en los aos


sesenta los estadsticos acuaban trminos similares como data fishing
o data archeology con el objetivo de encontrar correlaciones en bases de
datos con grandes cantidades de informacin y ruido. Sin embargo fue
solo hasta principios de los ochentas cuando Rakesh Agrawal, Gio
Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros
empezaron a consolidar los trminos Data Mining y KDD (Knowledge
database discover), a finales de la dcada existan un par de empresas
dedicadas a esta tecnologa, sin embargo en el nuevo milenio este
nmero ya se acerca a las cien, que ofrecen alrededor de 300
soluciones(Vallejos J., 2006, seccin Minera de Datos Vallejos).

En el pasado se realizaron mltiples estudios sobre el tema de la


desercin acadmica en diferentes niveles de la educacin, analizando
diferentes factores y aplicando gran variedad de ciencias.

Estudios Sociolgicos y Sicolgicos

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
En estos estudios sicolgicos, se haca nfasis principalmente en el
anlisis de los rasgos de la personalidad del individuo, ms
especficamente en los rasgos caractersticos de la personalidad de los
estudiantes que no completan sus estudios, mientras que en los
sociolgicos se enfatizaba en los factores externos al individuo.
Dentro de los estudios de la sicologa, Fishbein y Ajzen (1975)
argumentan que la desercin debe ser concebida como el resultado del
debilitamiento de las intenciones inciales y de la persistencia del
individuo, esto a su vez afectado por el auto concepto del individuo, la
percepcin de dificultad del programa acadmico en el que est inscrito,
metas personales y del apoyo e incentivos que los estudiantes reciben
de su ncleo familiar. Ms recientemente desde la sicologa, Ethingon
(1985) incorpora su teora de conductas del logro, que comprende
otros atributos como la perseverancia, la eleccin y el desempeo;
adems el autor explica como las expectativas personales estn
relacionadas estrechamente con el entorno familiar, y las opiniones de
los padres ante las situaciones adversas. De la misma forma hace
referencia al nivel acadmico previo, como forma de identificar a los
individuos ms propensos a abandonar sus estudios (especialmente en
educacin superior).
En cuanto a los primeros estudios realizados desde la sociologa, Spady
(1970), basado en la teora del suicidio de Durkheim, sugiere que la
desercin es el resultado de la falta de integracin del estudiante a su
entorno de educacin superior, en este estudio se argumenta como la
falta de integracin del individuo trae como consecuencia un bajo
rendimiento acadmico, descontento personal, y falta de compromiso
con la institucin.

Estudios con perspectiva Organizacional


En una segunda generacin de estudios, se da un enfoque ms
organizacional y de interaccin entre los grupos de factores
mencionados anteriormente; es as como adems de los factores del
individuo (Sicolgicos) y el concepto de integracin social (Sociolgicos),
se introducen factores relacionados con la institucin educativa tales
como los servicios que esta presta, las actividades que generan

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
pertenencia, la calidad de la enseanza, la calidad de la docencia, la
disponibilidad de los recursos de la institucin, entre otras variables.
En este grupo de estudios se destacan por ejemplo los realizados por
Tinto (1975) sobre como la integracin y adaptacin del estudiante a la
institucin educativa influyen en su decisin de abandonar sus estudios
sin culminarlos. Su teora denominada Modelo de integracin del
estudiante, en el cual propone que si los beneficios de permanecer en
la institucin son percibidos mayores que los costos personales, el
estudiante no abandona sus estudios.
Siguiendo el modelo de Tinto, Bean (1985) introduce nuevas
caractersticas al modelo, en el que ahora se da una visin ms integral,
contemplando factores como el desempeo acadmico previo (En el
bachillerato), vnculos con la institucin, oportunidades de financiacin,
y por ultimo factores de socializacin como aceptacin y compromiso
con la institucin.
En un estudio ms reciente, el mismo autor (Bean) se rene con Vesper
(1990), y observa que factores no cognitivos y las caractersticas del
individuo tienen un peso muy significativo al analizar la desercin.

Enfoque Econmico
Las primeras investigaciones desde el campo de la economa, hicieron
nfasis en los modelos costo-beneficio, una aproximacin poco profunda
e integral.
En el primer modelo, el individuo compara los beneficios econmicos de
estudiar, con los beneficios de actividades alternativas como trabajar
para decidir si abandona o no sus estudios. En el segundo modelo se
intenta identificar grupos de estudiantes en riesgo de desercin por
factores econmicos, para evitar por medio de subsidios directos evitar
que estos abandonen. En estas primeras investigaciones econmicas,
las variables econmicas son consideradas de control y no factores
determinantes o de riesgo.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
Sin embargo con el tiempo, las investigaciones desde la economa han
tenido una posicin ms fuerte frente a la desercin, estudiando la
interaccin entre los diferentes grupos de factores (individuales,
acadmicos, institucionales y socioeconmicos) inciden en el fenmeno
de la desercin. Es as como en el 2001 Porto, empleando diferentes
indicadores de rendimiento acadmico, junto con caractersticas
individuales de la persona encontrando que una variable fundamental
para explicar el nivel de desercin es el nivel acadmico de los padres: a
mayor educacin de los padres, menor el nivel de riesgo de desercin.

Estudios sobre desercin en Colombia


En Colombia, la mayora de estudios sobre el fenmeno de la desercin
han sido esfuerzos aislados de universidades o programas acadmicos
especficos.
Por ejemplo el estudio de Londoo (2000) para la Universidad
Cooperativa seccional Santa Marta, que cuestiona el supuesto que dice
que la desercin es la seleccin natural del proceso acadmico y trata
de identificar los principales factores no acadmicos asociados al
fenmeno de la desercin, como por ejemplo falta de recursos
econmicos, estudiantes que laboran, o que tenga personas que
dependan de l; en este estudio se concluye que los factores
socioculturales explican en gran parte el fenmeno de la desercin en
esta universidad en especifico.

En el ao 1996 Crdenas, investiga la desercin en los programas de


ingeniera de la Universidad Nacional de Colombia, haciendo nfasis en
el hecho que esta Universidad es pblica, y la desercin implica un
desperdicio de recursos. Encuentra una relacin entre desercin y
calidad de la educacin, en contraste con los estudios anteriores que le
dan ms peso a los factores acadmicos propios del estudiante, y
concluye que mejorar la calidad de la educacin, es un buen mecanismo
para ahorrar recursos del estado.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
Un estudio ms general realizado por Snchez (2002), sobre la equidad
social en el acceso a la educacin y los factores de la permanencia en la
universidad pblica en el pas. El estudio tuvo en cuenta variables nunca
antes estudiadas tales como habilidad acadmica, la edad, el sexo y
otras variables relacionadas con el hogar. Los resultados obtenidos de
este estudio muestran que el acceso a las universidades pblicas
colombianas est determinado por el resultado en las pruebas de estado
ICFES, que a su vez es determinado por condiciones estructurales,
como las caractersticas de la familia del estudiante.

En trminos generales, los estudios realizados en Colombia sobre el


fenmeno de la desercin, contienen estimaciones empricas de
funciones de permanencia, y frecuentemente se focalizan en
instituciones individuales lo que dificulta la generalizacin de los
resultados y conclusiones.

Sistema de Prevencin y Anlisis de la Desercin en Las


Instituciones de Educacin Superior (SPADIES)
Este estudio utiliza un enfoque de Historia de Vida, el cual se centra en
el timing y secuencia de eventos y transiciones propuesto por Elder en
1985. Este enfoque provee un enfoque del cmo se da la desercin de la
educacin superior teniendo en cuenta la historia educativa del
individuo y sus factores individuales, acadmicos, sociales, econmicos
e institucionales desde que el estudiante ingresa a la educacin superior.
Este enfoque es especialmente til para evaluar el impacto y la
temporalidad de las polticas estatales porque permite evaluar no solo si
el programa es efectivo o no, sino tambin en qu momento de la
carrera es ms o menos influyente.

De acuerdo al ICFES (2002), existen dos modelos fundamentales para


estudiar el fenmeno de la desercin un paradigma funcionalista y uno
dialectico. El paradigma funcionalista, presenta un enfoque individualista
donde lo realmente importante son las caractersticas de cada

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
estudiante; por otro lado el paradigma dialectico, enmarca la desercin
dentro de todo el sistema educativo, donde no solo importa el individuo,
sino tambin como este se desenvuelve en el sistema educativo, bajo
este enfoque la educacin debe ser integral, abierta a individuos con
diferentes habilidades, y dispuesta a hacer todo para que los estudiantes
logren sus metas.

De acuerdo a la literatura sobre el tema, SPADIES agrupa los factores en


4 categoras y considera un conjunto de variables para cada una,
dependiendo de la informacin disponible al momento de realizar el
anlisis:

Imagen 1. Determinantes de la desercin estudiantil

SPADIES, aplica sobre estas variables una estrategia estadstica


fundamentada en modelos de duracin, el cual es aplicable cuando se
tiene informacin sobre la duracin en un estado hasta la ocurrencia de
un evento, para este caso la duracin de un estudiante en la universidad

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
hasta su desercin de la misma. La decisin de retirarse de la
universidad depende de la ocurrencia de los factores mencionados
anteriormente, por lo cual se utilizaran para explicar la probabilidad de
la ocurrencia del evento de la desercin.

IDENTIFICACIN DE LAS CARACTERSTICAS DE LA DESERCIN


ESCOLAR SECUNDARIA: MINERA DE DATOS CON UN MODELO DE
RBOL DE DECISIN
Estudio realizado en E.E.U.U. por Veitch, William Robert. La idea de que
todos los estudiantes deben terminar la escuela secundaria ha crecido
en todo el new siglo pasado y sigue siendo un objetivo importante para
todos los niveles educativos en este nuevo siglo. La No finalizacin se ha
relacionado con todo tipo de factores, financiero social y problemas
psicolgicos (vase Kaplan et. al. 1994, por ejemplo). Muchos estudios
han intentado elaborar un proceso que identifique a los estudiantes en
riesgo de abandonar los estudios mediante el uso de diversas
metodologas de investigacin. El propsito de este estudio es investigar
las correlaciones de los alumnos de la escuela secundaria que
abandonan, a travs del uso de minera de datos de fuentes de datos
existentes con rboles de decisin.

Los mtodos de rbol de decisiones estn diseados para filtrar a travs


de un conjunto de variables explicativas y, sucesivamente, dividir un
conjunto de datos en subgrupos con el fin de mejorar la prediccin
(clasificacin) de una variable (dependiente) objetivo. Como tales, estos
mtodos son tiles para los mineros de datos frente a la construccin de
modelos de prediccin cuando es posible que un gran nmero de
variables predictivas y no de la teora tanto o trabajo previo que los
guen. El rbol que se presenta en este proyecto posee una cierta
capacidad para predecir qu estudiantes pueden abandonar la escuela.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
APLICACIN DE TCNICAS DE MINERA DE DATOS PARA PREDECIR
DESERCIN
La desercin escolar es un problema complejo que enfrentan las
Instituciones de Educacin Superior (ANUIES, 2001). Se han hecho una
gran cantidad de esfuerzos para combatir este problema como
programas de tutoras, asesoras, talleres, entre otros, sin lograr mejorar
esta situacin. El caso de la Universidad Tecnolgica de Izcar de
Matamoros es nuestro objeto de estudio para identificar las causas que
motivan la desercin de nuestros estudiantes desde que ingresan.
Mediante tcnicas de minera de datos, podemos encontrar relaciones
entre atributos acadmicos para identificar y predecir la probabilidad de
desercin, previendo los factores que indicen para que deserten,
mejorando la eficiencia terminal y brindndoles una oportunidad de vida
como consecuencia de su permanencia en nuestra Institucin.
Finalizaremos nuestra investigacin proponiendo una herramienta para
el tutor que le permitir predecir la probabilidad de desercin de
cualquier alumno en cualquier momento de su estancia escolar(Valero
S., 2009, Seccin MineriaDesercion, prrafo 1)

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

MARCO TEORICO

INTELIGENCIA DE NEGOCIOS
La Inteligencia de Negocios, BI por sus siglas en Ingls (Business
Intelligence) se puede definir como el proceso de analizar los bienes o
datos acumulados en la empresa y extraer una cierta inteligencia o
conocimiento de ellos. Dentro de la categora de bienes se incluyen las
bases de datos de clientes, informacin de la cadena de suministro,
ventas personales y cualquier actividad de marketing o fuente de
informacin relevante para la empresa (Vallejos J., 2006, seccin Minera
de Datos Vallejos). Figura 2
Figura 2. Utilizacin de los datos por parte de la organizacin.

BI apoya a los tomadores de decisiones con la informacin correcta, en


el momento y lugar correcto, lo que les permite tomar mejores
decisiones de negocios.
La informacin adecuada en el lugar y
momento adecuado incrementa efectividad de cualquier empresa
(Vallejos J., 2006).

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
La tecnologa de BI no es nueva, ha estado presente de varias formas
por lo menos en los ltimos 30 aos, comenzando por generadores de
reportes y sistemas de informacin ejecutiva en los 80s (Goodwin C.,
2003, Technology: Business Intelligence Assault on the data mountain).
Entindase como sinnimos de tecnologa de BI los trminos
aplicaciones, soluciones o software de inteligencia de negocios.
Para comprender mejor el concepto se cita el siguiente ejemplo. Una
franquicia de hoteles a nivel nacional que utiliza aplicaciones de BI para
llevar un registro estadstico del porcentaje promedio de ocupacin del
hotel, as como los das promedio de estancia de cada husped,
considerando las diferencias entre temporadas. Con esta informacin
ellos pueden:
Calcular la rentabilidad de cada hotel en cada temporada del ao.
Determinar quin es su segmento de mercado.
Calcular la participacin de mercado de la franquicia y de cada hotel.
Identificar oportunidades y amenazas.
Estas son slo algunas de las normas en que una empresa u
organizacin se puede beneficiar por la implementacin de software de
BI, hay una gran variedad de aplicaciones o software que brindan a la
empresa la habilidad de analizar de una forma rpida por qu pasan las
cosas y enfocarse a patrones y amenazas.
Componentes de BI
Todas las soluciones de BI tienen funciones parecidas, pero deben de
reunir al menos los siguientes componentes:

Multidimensionalidad.

Data Mining.

Data Warehouse.

5.2.2. DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS


(KDD)

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

En los ltimos aos, ha existido un gran crecimiento en nuestras


capacidades de generar y colectar datos, debido bsicamente al gran
poder de procesamiento de las mquinas como a su bajo costo de
almacenamiento. Sin embargo, dentro de estas enormes masas de datos
existe una gran cantidad de informacin oculta, de gran importancia
estratgica, a la que no se puede acceder por las tcnicas clsicas de
recuperacin de la informacin.
El descubrimiento de esta informacin oculta es posible gracias a la
Minera de Datos (DataMining), que entre otras sofisticadas tcnicas
aplica la inteligencia artificial para encontrar patrones y relaciones
dentro de los datos permitiendo la creacin de modelos, es decir,
representaciones abstractas de la realidad, pero es el descubrimiento
del conocimiento (KDD, por sus siglas en ingls) que se encarga de la
preparacin de los datos y la interpretacin de los resultados obtenidos,
los cuales dan un significado a estos patrones encontrados.
As el valor real de los datos reside en la informacin que se puede
extraer de ellos, informacin que ayude a tomar decisiones o mejorar
nuestra comprensin de los fenmenos que nos rodean. Hoy, ms que
nunca, los mtodos analticos avanzados son el arma secreta de muchos
negocios exitosos.
Empleando mtodos analticos avanzados para la explotacin de datos,
los negocios incrementan sus ganancias, maximizan la eficiencia
operativa, reducen costos y mejoran la satisfaccin del cliente.
KDD, Concepto:

De forma general, los datos son la materia prima bruta. En el momento


que el usuario les atribuye algn significado especial pasan a convertirse
en informacin. Cuando los especialistas elaboran o encuentran un
modelo, haciendo que la interpretacin de la informacin y ese modelo
representen un valor agregado, entonces nos referimos al conocimiento.
En la figura 3 se ilustra la jerarqua que existe en una base de datos
entre datos, informacin y conocimiento. Se observa igualmente el
volumen que presenta en cada nivel y el valor que los responsables de

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
las decisiones le dan en esa jerarqua. El rea interna dentro del
tringulo representa los objetivos que se han propuesto. La separacin
del tringulo representa la estrecha unin entre dato e informacin, no
as entre la informacin y el conocimiento.

Figura 3. Jerarqua del conocimiento


La
capacidad
de generar
y
almacenar
informacin
creci
considerablemente en los ltimos tiempos, se ha estimado que la
cantidad de datos en el mundo almacenados en bases de datos se
duplica cada 20 meses. Es as que hoy las organizaciones tienen gran
cantidad de datos almacenados y organizados, pero a los cuales no les
pueden analizar eficientemente en su totalidad.
Con las sentencias SQL se puede realizar un primer anlisis,
aproximadamente el 80% de la informacin se obtiene con estas
tcnicas. El 20% restante, que la mayora de las veces, contiene la
informacin ms importante, requiere la utilizacin de tcnicas ms
avanzadas.

El Descubrimiento de Conocimiento en Bases de Datos (KDD)


apunta a procesar automticamente grandes cantidades de datos
para encontrar conocimiento til en ellos, de esta manera
permitir al usuario el uso de esta informacin valiosa para su
conveniencia.

El KDD es el Proceso no trivial de identificar patrones vlidos,


novedosos, potencialmente tiles y, en ltima instancia,
comprensibles a partir de los datos.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
El objetivo fundamental del KDD es encontrar conocimiento til, vlido,
relevante y nuevo sobre un fenmeno o actividad mediante algoritmos
eficientes, dadas las crecientes rdenes de magnitud en los datos. Al
mismo tiempo hay un profundo inters por presentar los resultados de
manera visual o al menos de manera que su interpretacin sea muy
clara. Otro aspecto es que la interaccin humano-mquina deber ser
flexible, dinmica y colaboradora.
El resultado de la exploracin deber ser interesante y su calidad no
debe ser afectada por mayores volmenes de datos o por ruido en los
datos. En este sentido, los algoritmos de descubrimiento de informacin
deben ser altamente robustos.
Proceso KDD

El proceso de KDD consiste en usar mtodos de minera de datos


(algoritmos) para extraer (identificar) lo que se considera como
conocimiento de acuerdo a la especificacin de ciertos parmetros
usando una base de datos junto con pre-procesamientos y postprocesamientos. Figura 4 y 5.

Figura 4. Proceso de KDD

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Figura 5. KDD Process

Disear el esquema de un almacn de datos (Data Warehouse):


que consiga unificar de manera operativa toda la informacin
recogida. La figura 6 muestra el flujo de los datos para la
conformacin del Data Warehouse mediante el proceso ETL
(Extraccin, Transformacin y carga de los datos).

Figura 6. Proceso ETL

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Implantacin del almacn de datos: que permita la navegacin y


visualizacin previa de sus datos, para discernir qu aspectos
puede interesar que sean estudiados. Esta es la etapa que puede
llegar a consumir el mayor tiempo.

Seleccin, limpieza y transformacin de los datos que se van a


analizar: la seleccin incluye tanto una criba o fusin horizontal
(filas) como vertical (atributos).La limpieza y pre-procesamiento de
datos se logra diseando una estrategia adecuada para manejar
ruido, valores incompletos, secuencias de tiempo, casos extremos
(si es necesario), etc.

Seleccionar y aplicar el mtodo de minera de datos apropiado:


esto incluye la seleccin de la tarea de descubrimiento a realizar,
por ejemplo, clasificacin, agrupamiento o clustering, regresin,
etc. La seleccin de l o de los algoritmos a utilizar. La
transformacin de los datos al formato requerido por el algoritmo
especfico de minera de datos. Y llevar a cabo el proceso de
minera de datos, se buscan patrones que puedan expresarse
como un modelo o simplemente que expresen dependencias de
los datos, el modelo encontrado depende de su funcin
(clasificacin) y de su forma de representarlo (rboles de decisin,
reglas, etc.), se tiene que especificar un criterio de preferencia
para seleccionar un modelo dentro de un conjunto posible de
modelos, se tiene que especificar la estrategia de bsqueda a
utilizar (normalmente est predeterminada en el algoritmo de
minera).

Evaluacin, interpretacin, transformacin y representacin de los


patrones extrados: Interpretar los resultados y posiblemente
regresar a los pasos anteriores. Esto puede involucrar repetir el
proceso, quizs con otros datos, otros algoritmos, otras metas y
otras estrategias. Este es un paso crucial en donde se requiere
tener conocimiento del dominio. La interpretacin puede

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
beneficiarse de procesos de visualizacin, y sirve tambin para
borrar patrones redundantes o irrelevantes.

Difusin y uso del nuevo conocimiento: Incorporar el conocimiento


descubierto al sistema (normalmente para mejorarlo) lo cual
puede incluir resolver conflictos potenciales con el conocimiento
existente.

El conocimiento se obtiene para realizar acciones, ya sea incorporndolo


dentro de un sistema de desempeo o simplemente para almacenarlo y
reportarlo a las personas interesadas. En este sentido, KDD implica un
proceso interactivo e iterativo involucrando la aplicacin de varios
algoritmos de minera de datos.
Metas de KDD

Las metas del KDD son:

Procesar automticamente grandes cantidades de datos crudos.

Identificar los patrones ms significativos y relevantes.

Presentarlos como conocimiento apropiado para satisfacer las


metas del usuario.

5.2.3. MINERA DE DATOS

DM, por sus siglas en Ingls (Data Mining). Aunque desde un punto de
vista acadmico el trmino data mining es una etapa dentro de un
proceso mayor llamado extraccin de conocimiento en bases de datos,
en el entorno comercial, as como en este trabajo, ambos trminos se
usan de manera indistinta. Lo que en verdad hace el DM es reunir las
ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la
Computacin Grfica, las Bases de Datos y el Procesamiento Masivo,

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
principalmente usando como materia prima las bases
definicin tradicional es la siguiente: Un proceso
identificacin vlida, novedosa, potencialmente til y
patrones comprensibles que se encuentran ocultos en los
y otros, 1996).

de datos. Una
no trivial de
entendible de
datos (Fayyad

El Data Mining es una tecnologa compuesta por etapas que integra


varias reas y que no se debe confundir con un gran software. Durante
el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones
software en cada etapa que pueden ser estadsticas, de visualizacin de
datos o de inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de data mining muy poderosas
que contienen un sinfn de utileras que facilitan el desarrollo de un
proyecto. Sin embargo, casi siempre acaban complementndose con
otra herramienta. La minera de datos es la etapa de descubrimiento en
el proceso de un KDD.

Objetivos De La Minera De Datos

Explorar los datos se encuentran en las profundidades de las


bases de datos, como los almacenes de datos, que algunas veces
contienen informacin almacenada durante varios aos.

En algunos casos, los datos se consolidan en un almacn de datos


y en mercados de datos; en otros, se mantienen en servidores de
Internet e Intranet.

El entorno de la minera de datos suele tener una arquitectura


cliente-servidor.

Las herramientas de la minera de datos ayudan a extraer el


mineral de la informacin enterrado en archivos corporativos o en
registros pblicos, archivados.

Hurgar y sacudir a menudo implica el descubrimiento de


resultados valiosos e inesperados.

Las herramientas de la minera de datos se combinan fcilmente y


pueden analizarse y procesarse rpidamente.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Debido a la gran cantidad de datos, algunas veces resulta


necesario usar procesamiento en paralelo para la minera de
datos.

La minera de datos produce cinco tipos de informacin:


o Asociaciones.
o Secuencias.
o Clasificaciones.
o Agrupamientos.
o Pronsticos.

En la minera de datos, se coleccionan los datos y se espera que de ellos


emerjan hiptesis. Se busca que los datos describan o indiquen por qu
son como son. Luego entonces, se valida esa hiptesis inspirada por los
datos en los datos mismos, ser numricamente significativa, pero
experimentalmente invlida. De ah que la minera de datos debe
presentar un enfoque exploratorio, y no confirmador. Usar la minera de
datos para confirmar las hiptesis formuladas puede ser peligroso, pues
se est haciendo una inferencia poco vlida.
La minera de datos es una tecnologa compuesta por etapas que integra
varias reas y que no se debe confundir con un gran software. Durante
el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones
software en cada etapa que pueden ser estadsticas, de visualizacin de
datos o de inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de minera de datos muy
poderosas que contienen un sinfn de utileras que facilitan el desarrollo
de un proyecto. Sin embargo, casi siempre acaban complementndose
con otra herramienta.
Algoritmos de DM

El algoritmo de minera de datos es el mecanismo que crea un modelo


de minera de datos. Para crear un modelo, un algoritmo analiza primero
un conjunto de datos y luego busca patrones y tendencias especficos. El

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
algoritmo utiliza los resultados de este anlisis para definir los
parmetros del modelo de minera de datos. A continuacin, estos
parmetros se aplican en todo el conjunto de datos para extraer
patrones procesables y estadsticas detalladas.
El modelo de minera de datos que crea un algoritmo puede tomar
diversas formas, incluyendo:

Un conjunto de reglas que describen cmo se agrupan los


productos en una transaccin.

Un rbol de decisin que predice si un cliente determinado


comprar un producto.

Un modelo matemtico que predice las ventas.

Un conjunto de clsteres que describe cmo se relacionan los


casos de un conjunto de datos.

Tipos De Algoritmos De Minera De Datos

o Algoritmos de clasificacin, que predicen una o ms variables


discretas, basndose en otros atributos del conjunto de datos.
o Algoritmos de regresin, que predicen una o ms variables
continuas, como las prdidas o los beneficios, basndose en otros
atributos del conjunto de datos.
o Algoritmos de segmentacin, que dividen los datos en grupos,
o clsteres, de elementos que tienen propiedades similares.
o Algoritmos de asociacin, que buscan correlaciones entre
diferentes atributos de un conjunto de datos. La aplicacin ms
comn de esta clase de algoritmo es la creacin de reglas de
asociacin, que pueden utilizarse en un anlisis de la cesta de
compra.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
o Algoritmos de anlisis de secuencias, que resumen
secuencias o episodios frecuentes en los datos, como un flujo de
rutas Web.

rbol de Decisin

Un rbol de decisin es un modelo de prediccin utilizado en el mbito


de la inteligencia artificial. Dada una base de datos se construyen
diagramas de construcciones lgicas, muy similares a los sistemas de
prediccin basados en reglas, que sirven para representar y categorizar
una serie de condiciones que ocurren de forma sucesiva, para la
resolucin de un problema.
Un rbol de decisin tiene unas entradas las cuales pueden ser un objeto
o una situacin descrita por medio de un conjunto de atributos y a partir
de esto devuelve una respuesta la cual en ltimas es una decisin que
es tomada a partir de las entradas. Los valores que pueden tomar las
entradas y las salidas pueden ser valores discretos o continuos. Se
utilizan ms los valores discretos por simplicidad, cuando se utilizan
valores discretos en las funciones de una aplicacin se denomina
clasificacin y cuando se utilizan los continuos se denomina regresin.
Ejemplo: Diagnosticar que se emplee un farmaco X en una persona con
presin arterial alta figura 7.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Figura 3. rbol de decisin para diagnosticar la administracin de un


frmaco X con que se va a tratar a un paciente.

Se le administrara el frmaco X si:


1. Tiene presin alta, su azcar en la sangre es alto, es alrgico a
antibiticos y No tiene otras alergias.
2. Tiene presin alta, su azcar en la sangre es alto y No es alrgico a los
antibiticos.
3. Tiene presin alta y su azcar en la sangre es bajo.
4. Tiene presin media y su ndice de colesterol es bajo.
5. Tiene presin baja.

NO se le administrara el frmaco X si:


1. Tiene presin alta, su azcar en la sangre es bajo, es alrgico a
antibiticos y Si tiene otras alergias.
2. Tiene presin media y su ndice de colesterol es alto.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

ANLISIS DE CLUSTERIN

Dada una muestra de observaciones en un conjunto grande de variables


cuantitativas, el anlisis de conglomerados es una tcnica para agrupar
a los elementos de la muestra en grupos, denominados conglomerados
(clusters), de tal forma que, respecto a la distribucin de los valores de
las variables, por un lado, cada conglomerado sea lo ms homogneo
posible y, por otro, los conglomerados sean muy distintos entre s.
El principal objetivo del anlisis cluster es dividir un conjunto de objetos
en dos o mas grupos, basndose en la similitud de un conjunto de
variables que los caracterizan. El uso ms tradicional del anlisis cluster
ha sido el exploratorio, es decir, pretendiendo clasificar un conjunto de
objetos. Pero el anlisis cluster tambin puede utilizarse con fines
confirmatorios. Si en base a los fundamentos tericos del problema que
estamos analizando, podemos suponer que existe determinada
estructura que siguen los individuos, sta puede compararse con la que
se deriva del anlisis cluster.
MTODOS DE ANLISIS DE CLUSTER
Hay dos grandes grupos de anlisis de grupo, los JERRQUICOS y los NO
JERRQUICOS. Los mtodos jerrquicos forman los grupos en pasos
sucesivos y pueden analizar en cada paso las distancias entre los grupos
formados. Los mtodos no jerrquicos realizan una sola particin de los
casos iniciales, en M grupos. Este nmero M de grupos se determina a
priori. Los mtodos no jerrquicos los analizaremos en el apartado
Mtodos no jerrquicos, referente a QUICK CLUSTER.

Mtodos jerrquicos
Dentro de los mtodos jerrquicos, podemos distinguir entre mtodos
AGLOMERATIVOS y MTODOS DISOCIATIVOS.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
1. LOS MTODOS AGLOMERATIVOS. Estos mtodos comienzan el
anlisis con tantos grupos como casos y van formando grupos en
pasos sucesivos. En el primer paso, se agrupan los dos casos ms
cercanos; en el paso siguiente, los casos agrupados en el primer
paso se consideran como un grupo ms; se vuelven a calcular las
distancias o similaridades entre los grupos, agrupando los dos ms
prximos, y as sucesivamente, hasta conformar un solo grupo. Los
criterios ms utilizados en la formacin de grupos son los
siguientes:

MTODO DEL PROMEDIO ENTRE GRUPOS (UPGMA). Este mtodo


calcula el promedio de distancias entre todos los casos de los
dos grupos. La distancia que utilizar es elegida por el usuario.
Las ms utilizadas se han definido en el apartado Proximidades
de este captulo. Una vez definida la distancia que utilizar, se
calcula la distancia de cada caso de un grupo con todos los
casos del otro grupo y se calcula el promedio entre todas ellas,
esta operacin se realiza con todos los grupos, asociando en el
paso siguiente a los dos grupos con un valor promedio menor.
MTODO DEL PROMEDIO DENTRO DE GRUPOS. En este caso, se
agrupan de dos en dos los grupos previos, calculando a
continuacin (segn la distancia predefinida) el promedio de las
distancias de todos los miembros del grupo. As se agrupan en
ese paso, de forma definitiva, los dos grupos cuya unin tenga
el promedio menor.

MTODO DE LAS DISTANCIAS MNIMAS. Este mtodo, tambin


conocido como el vecino ms prximo, considera la distancia
entre dos grupos la de los miembros ms prximos.

MTODO DE LAS DISTANCIAS MXIMAS. Este mtodo tambin


es conocido como el vecino ms lejano; considera la distancia
entre dos grupos como la distancia entre los dos casos ms
lejanos.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

MTODO CENTROIDE. Considera la distancia entre dos grupos


como la distancia entre los centroides. MTODO DE LA
MEDIANA. Este mtodo considera la distancia entre dos grupos
la existente entre las medianas de los dos grupos, considerando
todas las variables de forma conjunta.

MTODO DE WARD. Al unir dos grupos, la varianza aumenta. El


mtodo de Ward calcula cul sera la varianza de dos grupos,
en caso de unirlos, uniendo en el paso siguiente aquellos
grupos cuya varianza sea mnima. En caso de tener en cuenta
ms de una variable en lugar de la varianza, se unen los grupos
cuya inercia (suma de la diagonal principal de la matriz de
varianzas y covarianzas) sea mnima.

2. MTODOS DISOCIATIVOS. Estos mtodos comienzan el anlisis con


un solo grupo, formado por todos los casos. En pasos sucesivos, se
van formando grupos hasta terminar en tantos grupos como casos.
Los siete mtodos descritos son los mtodos aglomerativos.
Pueden aplicarse a los mtodos disociativos, teniendo en cuenta
que, en estos ltimos, en el paso siguiente se genera un grupo
nuevo formado con los casos en los que las distancias son
mayores.

Reglas De Asociacin

Los algoritmos de asociacin permiten la bsqueda automtica de reglas


que relacionan conjuntos de atributos entre s. Son algoritmos no
supervisados, en el sentido de que no existen relaciones conocidas a
priori con las que contrastar la validez de los resultados, sino que se

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
evala si esas reglas son estadsticamente significativas. La ventana de
Asociacin (Associate en el Explorer).
Regla de Asociacin A priori:
El principal algoritmo de asociacin implementado en WEKA es el
algoritmo "Apriori". Este algoritmo nicamente puede buscar reglas
entre atributos simblicos, razn por la que se requiere haber
discretizado todos los atributos numricos.
Y para la realizacin del anlisis se debe buscar que reglas tienen mayor
grado de significancia, porque son estas reglas las que nos mostraran la
relacin que existes entre los atributos y nos ayudara a analizar la
informacin.
Como se aplican las Reglas de Asociacin Apriori

Figura 4. Ejemplo De Aplicacin De Reglas

HERRAMIENTAS PARA LA MINERA DE DATOS


WEKA

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Weka es un software programado en Java que est orientado a la


extraccin de conocimientos desde bases de datos con grandes
cantidades de informacin adems es una herramienta de minera de
datos, WEKA es el acrnimo de Waikato Environment for Knowledge
Analysis, es un entorno para experimentacin de anlisis de datos que
permite aplicar, analizar y evaluar las tcnicas ms relevantes de
anlisis de datos, principalmente las provenientes del aprendizaje
automtico, sobre cualquier conjunto de datos del usuario. Para ello
nicamente se requiere que los datos a analizar se almacenen con un
cierto formato, conocido como ARFF (Attribute-Relation File Format).
Existen otras herramientas similares como Oracle Data Miner o
Clementine, pero el hecho de que Weka sea desarrollado bajo licencia
GPL lo ha hecho una alternativa muy interesante.
SPSS

Statistical Package for the Social Sciences (SPSS) es un programa


estadstico informtico muy usado en las ciencias sociales y las
empresas de investigacin de mercado.
Como programa estadstico es muy popular su uso debido a la capacidad
de trabajar con bases de datos de gran tamao. En la versin 12 es de 2
millones de registros y 250.000 variables. Adems, de permitir la
recodificacin de las variables y registros segn las necesidades del
usuario. El programa consiste en un mdulo base y mdulos anexos que
se han ido actualizando constantemente con nuevos procedimientos
estadsticos. Cada uno de estos mdulos se compra por separado.
Mdulos
El sistema de mdulos de SPSS, como los de otros programas (similar al
de algunos lenguajes de programacin) provee toda una serie de
capacidades adicionales a las existentes en el sistema base. Algunos de
los mdulos disponibles son:

Modelos de Regresin

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Modelos Avanzados
o Reduccin de datos: Permite crear variables sintticas a partir
de variables colineales por medio del Anlisis Factorial.
o Clasificacin: Permite realizar agrupaciones de observaciones
o de variables (cluster analysis) mediante tres algoritmos
distintos.
o Pruebas no paramtricas: Permite realizar distintas pruebas
estadsticas especializadas en distribuciones no normales.

Tablas: Permite al usuario dar un formato especial a las salidas de


los datos para su uso posterior. Existe una cierta tendencia dentro
de los usuarios y de los desarrolladores del software por dejar de
lado el sistema original de TABLES para hacer uso ms extensivo de
las llamadas CUSTOM TABLES.

Tendencias

Categoras: Permite realizar anlisis multivariados de variables


normalmente categoras. Tambin se pueden usar variables
mtricas siempre que se realice el proceso de recodificacin
adecuado de las mismas.

Anlisis Conjunto: Permite realizar el anlisis de datos recogidos


para este tipo especifico de pruebas estadsticas.

Mapas: Permite la representacin geogrfica de la informacin


contenida en un fichero (descontinuado para SPSS 16).

Pruebas Exactas: permite realizar pruebas estadsticas en muestras


pequeas.

Anlisis de Valores Perdidos: Regresin


imputaciones sobre los valores ausentes.

Muestras Complejas: permite trabajar para la creacin de muestras


estratificadas, por conglomerados u otros tipos de muestras.

SamplePower (clculo de tamaos muestrales)

simple

basada

en

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

rboles de Clasificacin: Permite formular rboles de clasificacin


y/o decisin con lo cual se puede identificar la conformacin de
grupos y predecir la conducta de sus miembros.

Validacin de Datos: Permite al usuario realizar revisiones lgicas de


la informacin contenida en un fichero.sav. y obtener reportes de los
valores considerados extraos. Es similar al uso de sintaxis o scripts
para realizar revisiones de los ficheros. De la misma forma que
estos mecanismos es posterior a la digitalizacin de los datos.

SPSS Programmability Extension (SPSS 14 en adelante). Permite


utilizar el lenguaje de programacin Python para un mejor control
de diversos procesos dentro del programa que hasta ahora eran
realizados principalmente mediante scripts (con el lenguaje SAX
Basic). Existe tambin la posibilidad de usar las tecnologas .NET de
Microsoft para hacer uso de las libreras del SPSS. Aunque algunos
usuarios han cuestionado sobre la necesidad de incluir otros
lenguajes, la empresa no tiene esto entre sus objetivos inmediatos.

Desde el SPSS/PC hay una versin adjunta denomina SPSS Student que
es un programa completo de la versin correspondiente pero limitada en
su capacidad en cuanto al nmero de registros y variables que puede
procesar. Esta versin es para fines de enseanza del manejo del
programa.

El modelo de referencia CRISP-DM

El modelo de proceso corriente para la minera de datos proporciona una


descripcin del ciclo de vida del proyecto de minera de datos. Este
contiene las fases de un proyecto, sus tareas respectivas, y las
relaciones entre estas tareas. En este nivel de descripcin, no es posible
identificar todas las relaciones. Las relaciones podran existir entre

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
cualquier tarea de minera de datos segn los objetivos, el contexto, y
lo ms importante- el inters del usuario sobre los datos.
El ciclo de vida del proyecto de minera de datos consiste en seis fases,
mostrado en la figura 9. La secuencia de las fases no es rgida.
El movimiento hacia adelante y hacia atrs entre fases diferentes es
siempre requerido. El resultado de cada fase determina que la fase, o la
tarea particular de una fase, tienen que ser realizados despus. Las
flechas indican las ms importantes y frecuentes dependencias entre
fases.

Figura 5. Secuencia de un proyecto de minera de datos

1.

Comprensin del negocio

Tarea Determinar los objetivos de negocio

El primer objetivo del analista de datos para un contexto es


entender, desde una perspectiva de negocio, lo que el cliente
realmente quiere lograr. A menudo el cliente tiene muchos
objetivos que compiten y restricciones que deben ser
correctamente equilibrados. El objetivo del analista debe mostrar
(destapar) factores importantes, en el principio, esto puede influir
en el resultado del proyecto. Una consecuencia posible de la

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
negligencia de este paso es gastar un gran esfuerzo produciendo
respuestas correctas a preguntas incorrectas o erradas.
Tarea Evaluar la situacin

Esta tarea implica la investigacin ms detallada sobre todos los


recursos, restricciones, presunciones, y otros factores que
deberan ser considerados en la determinacin del objetivo de
anlisis de datos y el plan de proyecto. En la tarea anterior, su
objetivo es para ponerse rpidamente al quid de la situacin. Aqu,
usted quiere ampliarse sobre los detalles.

Tarea Determinar los objetivos de la minera de datos

Un objetivo de negocio declara objetivos en la terminologa de


negocio. Un objetivo de minera de datos declara objetivos de
proyecto en trminos tcnicos. Por ejemplo, el objetivo de negocio
podra ser Aumentar catlogos de ventas a clientes existentes.
Un objetivo de minera de datos podran ser Predecir cuantas
baratijas un cliente comprar, obteniendo datos de sus compras
de tres aos pasados, informacin demogrfica (edad, sueldo,
ciudad, etc.), y el precio del artculo.

Tarea Producir el plan del proyecto

Describir el plan intencionado para alcanzar los objetivos de


minera de datos y as alcanzar los objetivos de negocio.

El plan debera especificar los pasos para ser realizados durante el


resto del proyecto, incluyendo la seleccin inicial de herramientas
y tcnicas.

1. Comprensin de los datos


Tarea Recolectar datos iniciales

Adquiera en el proyecto los datos (o el acceso a los datos) listados


en los recursos del proyecto. Esta coleccin inicial incluye carga de
datos, si es necesario para la comprensin de los datos. Por
ejemplo, si usted usa un instrumento especfico para la
comprensin de los datos, esto perfectamente se entiende para

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
abrir sus datos en esta herramienta. Este esfuerzo posiblemente
conduce a los pasos iniciales de preparacin de datos.

Note: si usted adquiere datos de mltiples fuentes, la integracin


es una cuestin adicional, aqu o ms tarde en las fases de
preparacin de datos ms.

Tarea Describir los datos

Examine las propiedades "gruesas" o "superficiales" de los datos e


informe adquiridos en los resultados.

Tarea Explorar los datos

Esta tarea dirige interrogantes de minera de datos usando


preguntas, visualizacin, y tcnicas de reporte. Estos incluyen la
distribucin de atributos claves (por ejemplo, el atributo objetivo
de una tarea de prediccin) relacionados entre pares o pequeos
nmeros de atributos, los resultados de simples agregaciones, las
propiedades de las subpoblaciones significativas, y anlisis
estadsticos simples. Estos anlisis directamente pueden dirigir los
objetivos de minera de datos; ellos tambin pueden contribuir o
refinar la descripcin de datos e informes de calidad, y alimentar
en la transformacin y otros pasos de preparacin de datos
necesarios para anlisis futuros

2. Preparacin de datos
Tarea Seleccin de datos

Decidir que datos sern usados para el anlisis. Los criterios


incluyen la importancia a los objetivos de la minera de datos, la
calidad, y las restricciones tcnicas como lmites sobre el volumen
de datos o los tipos de datos. Note que la seleccin de datos cubre
la seleccin de atributos (columnas) as como la seleccin de
registros (filas) en una tabla.

Tarea Limpiar datos

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Elevar la calidad de los datos al nivel requerido por las tcnicas de


anlisis seleccionadas. Esto puede implicar la seleccin de los
subconjuntos de datos limpios, la insercin de datos por defectos
adecuados, o tcnicas ms ambiciosas tales como la estimacin
de datos faltantes mediante modelado.

Tarea Construir datos

Esta tarea incluye la construccin de operaciones de preparacin


de datos tales como la produccin de atributos derivados o el
ingreso de nuevos registros, o la transformacin de valores para
atributos existentes.

Tarea Integrar datos

Estos son los mtodos por el cual la informacin es combinada de


mltiples tablas o registros para crear nuevos registros o valores.

3. Modelado
Tarea Escoger la tcnica de modelado

Como primer paso en modelado, seleccionar la tcnica de


modelado real que est por ser usado. Aunque usted haya podido
seleccionar una herramienta durante la fase de Comprensin del
negocio, esta tarea se refiere a la tcnica de modelado especfico,
por ejemplo, un rbol decisin construido con C4.5, o la
generacin de red neuronales Back-Propagacin. Si mltiples
tcnicas son aplicadas, se realizan esta tarea separadamente para
cada tcnica.

Tarea Generar la prueba de diseo

Antes de que nosotros en realidad construyamos un modelo,


tenemos que generar un procedimiento o el mecanismo para
probar la calidad y validez del modelo. Por ejemplo, en tareas de
minera de datos supervisados como la clasificacin, esto es
comn usar tasas de errores como medida de calidad para
modelos de minera de datos. Por lo tanto, tpicamente separamos
el conjunto de datos en una serie y en un conjunto de prueba,
construimos el modelo sobre el conjunto de series, y estimamos su
calidad sobre el conjunto de prueba separado.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
Tarea Construir el modelo

Ejecutar la herramienta de modelado sobre el conjunto de datos


preparados para crear uno o ms modelos.

Tarea Evaluar el modelo

El ingeniero de minera de datos interpreta los modelos segn su


conocimiento de dominio, los criterios de xitos de minera de
datos, y el diseo de prueba deseado. El ingeniero de minera de
datos juzga el xito de la aplicacin del modelado y descubre
tcnicas mas tcnicamente; l se pone en contacto con analistas
de negocio y expertos en el dominio luego para hablar de los
resultados de la minera de datos en el contexto de negocio. Por
favor note que esta tarea slo se considera modelos, mientras que
la fase de evaluacin tambin toma en cuenta todos los otros
resultados que fueron producidos en el curso del proyecto.

El ingeniero de minera de datos intenta clasificar los modelos. l


evala los modelos segn los criterios de evaluacin. Tanto como
es posible, l tambin tiene en cuenta objetivos del negocio y
criterios de xito de negocio. En los grandes proyectos de minera
de datos, el ingeniero de minera de datos aplica una sola tcnica
ms de una vez, o genera resultados de minera de datos con
varias tcnicas diferentes. En esta tarea, l tambin compara
todos los resultados segn los criterios de evaluacin.

4. Evaluacin
Tarea Evaluar los resultados

Los pasos de la evaluacin anterior trata con factores como la


exactitud y la generalidad del modelo. Este paso evala el grado al
que el modelo responde (encuentra) los objetivos de negocio y
procura determinar si hay alguna decisin de negocio por el que
este modelo es deficiente. Otra opcin de evaluacin es probar
el/los modelo/s sobre aplicaciones de prueba en la aplicacin real,
si el tiempo y las restricciones de presupuesto lo permiten.

Adems, la evaluacin tambin verifica otros resultados generados


por la minera de datos. Los resultados de la minera de datos

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
implican modelos que necesariamente son relacionados con los
objetivos originales de negocio y todas los otros descubrimientos
que no son relacionados necesariamente con los objetivos
originales de negocio, pero tambin podra revelar desafos
adicionales, informacin, o insinuaciones para futuras direcciones.
Tarea Revisar el proceso

En este punto, los modelos resultantes pasan a ser satisfactorios y


a satisfacer las necesidades de negocio. Ahora es apropiado hacer
una revisin ms cuidadosa de los compromisos de la minera de
datos para determinar si hay cualquier factor importante o tarea
que de algn modo ha sido pasada por alto. Esta revisin tambin
cubre cuestiones de calidad -por ejemplo: Construimos
correctamente el modelo? Usamos slo los atributos que nos
permitieron usar y que estn disponibles para anlisis futuros?

Tarea Determinar los prximos pasos

Segn los resultados de la evaluacin y la revisin de proceso, el


equipo de proyecto decide como proceder. El equipo decide si hay
que terminar este proyecto y tomar medidas sobre el desarrollo si
es apropiado, tanto iniciar ms iteraciones, o comenzar nuevos
proyectos de minera de datos. Esta tarea incluye los anlisis de
recursos restantes y del presupuesto, que puede influir en las
decisiones.

5. Desarrollo
Tarea Desarrollar el plan

De acuerdo al desarrollo de los resultados de minera de datos en


el negocio, esta tarea toma los resultados de la evaluacin y
determina una estrategia para el desarrollo. Si un procedimiento
general ha sido identificado para crear el/los modelo/s relevante/s,
este procedimiento es documentado aqu para el desarrollo
posterior.

Tarea Planear la supervisin y el mantenimiento

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

La supervisin y el mantenimiento son cuestiones importantes si


los resultados de minera de datos son parte del negocio cotidiano
y de su ambiente. La preparacin cuidadosa de una estrategia de
mantenimiento ayuda evitar largos periodos innecesarios de uso
incorrecto de resultados de minera de datos. Para supervisar el
desarrollo de los resultados de la minera de datos, el proyecto
necesita un plan detallado de proceso de supervisin. Este plan
tiene en cuenta el tipo especfico de desarrollo.

Tarea Producir el informe final

En el final del proyecto, el lder del proyecto y su equipo


sobrescribe un informe final. Segn el plan de desarrollo, este
informe puede ser slo un resumen del proyecto y sus
experiencias (si estas an no han sido documentadas como una
actividad en curso) o esto puede ser una presentacin final y
comprensiva de los resultados de minera de datos.

Tarea Revisar el proyecto

Evaluar lo que fue correcto y lo que se equivoc, lo que fue bien


hecho y lo que necesita para ser mejorado.

METODOLOGA
En este proyecto tenemos presente dos grandes fases, una es la minera
de datos y la otra es la aplicacin Web, para la primera se utilizar la
metodologa propuesta por el consorcio CRISP-DM (CRoss-Industry
Standard Process for Data Mining) que lleva el mismo nombre. Esta
metodologa estructura el ciclo de vida de un proyecto en 6 fases figura
6, esta metodologa no es rgida lo que permite modificaciones
dependiendo de los objetivos que se deseen alcanzar y la realidad del
ambiente, es decir, les proporciona libertad a los investigadores,
necesaria para este tipo de proyectos. Despus de la parte de minera,
es decir de la elaboracin del modelo, se realizar la interfaz web que

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
permita cargar los datos de los alumnos para predecir la probabilidad de
desercin.

Figura 6. Metodologa CRISP-DM para el desarrollo de un proyecto de


minera de datos

Anlisis del problema


Llamado tambin Comprensin del negocio, Esta fase inicial se enfoca
en la comprensin de los objetivos de proyecto y exigencias desde una
perspectiva de negocio, luego convirtiendo este conocimiento de los
datos en la definicin de un problema de minera de datos y en un plan
preliminar diseado para alcanzar los objetivos.

Anlisis de los datos

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
La fase de entendimiento de datos comienza con la coleccin de datos
inicial y continua con las actividades que le permiten familiarizar primero
con los datos, identificar los problemas de calidad de datos, descubrir los
primeros conocimientos en los datos, y/o descubrir subconjuntos
interesantes para formar hiptesis en cuanto a la informacin oculta.

Preparacin de los datos


La fase de preparacin de datos cubre todas las actividades necesarias
para construir el conjunto de datos final [los datos que sern provistos
en las herramientas de modelado] de los datos en brutos inciales. Las
tareas de preparacin de datos probablemente van a ser realizadas
muchas veces y no en cualquier orden prescripto. Las tareas incluyen la
seleccin de tablas, registros, y atributos, as como la transformacin y
la limpieza de datos para las herramientas que modelan.

Modelado
En esta fase, varias tcnicas de modelado son seleccionadas y
aplicadas, y sus parmetros son calibrados a valores ptimos.
Tpicamente hay varias tcnicas para el mismo tipo de problema de
minera de datos. Algunas tcnicas tienen requerimientos especficos
sobre la forma de datos. Por lo tanto, volver a la fase de preparacin de
datos es a menudo necesario.

Evaluacin
En esta etapa en el proyecto, usted ha construido un modelo (o
modelos) que parece tener la alta calidad de una perspectiva de anlisis
de datos.
Antes del proceder al despliegue final del modelo, es importante evaluar
a fondo ello y la revisin de los pasos ejecutados para crearlo, para
comparar el modelo correctamente obtenido con los objetivos de
negocio. Un objetivo clave es determinar si hay alguna cuestin
importante de negocio que no ha sido suficientemente considerada. En

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
el final de esta fase, una decisin en el uso de los resultados de minera
de datos debera ser obtenida.
Se comprobarn los resultados del modelo predictivo usando muestras
representativas del universo de datos que se usarn inicialmente, es
decir, se dividir el total en 2 partes y se probarn los resultados
introduciendo la informacin de una de las partes, para verificar que los
datos arrojados por el modelo sean lo ms cercanos posibles a la
realidad, esto para probar hechos ya consumados.

Explotacin
La creacin del modelo no es generalmente el final del proyecto. Incluso
si el objetivo del modelo es de aumentar el conocimiento de los datos, el
conocimiento ganado tendr que ser organizado y presentado en el
modo en el que el cliente pueda usarlo. Ello a menudo implica la
aplicacin de modelos "vivos" dentro de un proceso de toma de
decisiones de una organizacin, por ejemplo, en tiempo real la
personalizacin de pgina Web o la repetida obtencin de bases de
datos de mercadeo. Dependiendo de los requerimientos, la fase de
desarrollo puede ser tan simple como la generacin de un informe o tan
compleja como la realizacin repetida de un proceso cruzado de minera
de datos a travs de la empresa. En muchos casos, es el cliente, no el
analista de datos, quien lleva el paso de desarrollo. Sin embargo, incluso
si el analista realizara el esfuerzo de despliegue, esto es importante para
el cliente para entender de frente que acciones necesita para ser
ejecutadas en orden para hacer uso de los modelos creados actualmente

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

RESULTADOS PRODUCTOS ESPERADO


Generacin de Conocimiento
Resultado/Producto
Esperado
Conjunto de patrones y
caracterstica presentes en
los estudiantes desertores
de la Universidad del
Magdalena, con miras a la
identificacin futura de
grupos
con
estas
tendencias.
Aplicacin Software para
realizar estudios de minera
de datos sobre los datos
acadmicos
de
la
Universidad del Magdalena.

Indicador

Beneficiario

Informe
tcnico, Universidad
del
detallado,
con Magdalena y Sector
observaciones
y Educativo en general.
recomendaciones
sobre el conjunto de
reglas y patrones de
caracterizacin.
Ejecutable, manual de Universidad
usuario
y
manual Magdalena.
tcnico
de
la
aplicacin.

del

Apropiacin Social del Conocimiento


Resultado/Producto
Indicador
Esperado
Presentacin para la alta Ponencias
gerencia administrativa y
acadmica
de
la
Universidad del Magdalena,
enfocada a informar los
resultados
de
la
investigacin
con
sugerencias de acciones a
tomar, para tratar de
mitigar la problemtica de
desercin.

Beneficiario
Universidad
Magdalena

del

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

IMPACTO ESPERADO
Con el desarrollo de este proyecto se espera tener resultados que
tengan impacto directo, principalmente, en las siguientes reas a nivel
de la Universidad del Magdalena:

Nivel Acadmico
Aspecto Econmico
rea Social

Impacto Acadmico:
A nivel acadmico, se espera que los resultados de la investigacin, al
ser tenidos en cuenta por las directivas acadmicas de la Universidad
del Magdalena, permitan la creacin de planes de apoyo a la poblacin
estudiantil en el alto riesgo de desercin, que vallan enfocados al
fortalecimiento de las debilidades de los estudiantes, ayudando as a
elevar los niveles de motivacin que terminara por convertir a alumnos
con pobres rendimiento acadmico en estudiantes con rendimientos
acadmicos dentro de la media, lo que trae consigo el crecimiento del
nivel acadmico en general de la Universidad del Magdalena.

Impacto
Esperado

Conocimiento
sobre
las
caractersticas y
patrones
que
presentan
los
estudiantes
desertores en la

Plazo (aos)
despus de
finalizado el
proyecto: corto
(1-4 ), mediano
(5-9), largo (10 o
ms)
Corto Plazo

Indicador
Verificable

Documentacin
sobre
los
resultados
del
proyecto.

Supuestos

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
Universidad del
Magdalena.
Creacin
de
planes de accin
para
contrarrestar la
desercin
acadmica en la
Universidad del
Magdalena.
Reduccin
de
los ndices de
desercin
estudiantil en la
Universidad del
Magdalena.
Aumento
del
Nivel acadmico
en
la
Universidad del
Magdalena.

Corto Plazo

Mediano Plazo

Mediano Plazo

Reuniones
del
concejo
acadmico
y
administrativo
para tratar el
tema.
Creacin
de
mesas de trabajo.

Las
directivas
administrativas
deben
comprender
la
problemtica de
desercin y tomar
la decisin de
adoptar medidas
para mitigarla.
Tendencias a la Puesta
en
baja
en
las marcha
y
estadsticas
de funcionamiento
desercin.
de los planes de
accin.
Mejora
del
rendimiento
de
estudiantes con
alto riesgo de
estar FBRA.
Mayor nmero de
estudiantes
dentro
de
la
media
acadmica.

Puesta
en
marcha
y
funcionamiento
de los planes de
accin.

Impacto econmico:
Cada estudiante que ingresa a la universidad, representa un gasto para
el estado y para esta, un gasto que en ltimas termina siendo una
inversin a largo plazo, con miras a obtener ms desarrollo en las
distintas regiones del pas. Por eso cada vez que un alumno universitario
abandona la universidad, por las razones que fuesen, ocasiona una

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
prdida de capital, irrecuperable, para el estado y para la institucin,
situacin que termina por ir a favor del detrimento al patrimonio pblico.

Por otro los estudiantes que abandonan la universidad y que no


reanudan los estudios, reducen considerablemente las probabilidades de
encontrar un empleo formal, con las prestaciones legales
correspondientes, lo que ocasiona que el estado reduzca sus
posibilidades de poder recoger ms aportes parafiscales, de salud etc.
As ese alumno que en primera instancia se convertira en una unidad
productiva para el pas, pasa a convertirse en un gasto para el estado;
por ejemplo, ese estudiante desertor, obtiene probabilidades altas de no
encontrar ocupacin, y gracias a eso es posible que deba pertenecer al
rgimen subsidiado de salud, en vez del rgimen contributivo, donde
pertenecera si obtuviera un trabajo formal, dejando as de aportar para
que otras personas que en realidad no contaron con la oportunidad de
estudiar, puedan tener acceso a los servicios de salud.

Se espera que los resultados de este estudio, ayuden a concientizar a


los directivos sobre los niveles de desercin en la Universidad del
Magdalena, incitndolos a la creacin de planes de apoyo para la
poblacin con altos niveles de desercin con miras a bajar estos ndices,
reduciendo as el nmero de estudiantes que abandonan la institucin y
que ocasionan perdidas de capital para el estado y la universidad.

Impacto
Esperado

Disminucin de
prdida
de
inversin
por
parte
de
la

Plazo (aos)
despus de
finalizado el
proyecto: corto
(1-4 ), mediano
(5-9), largo (10 o
ms)
Mediano Plazo

Indicador
Verificable

Supuestos

Bajos ndices de Funcionamiento


desercin
de los Planes de
accin.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
Universidad
Estado.
Aumento
productivo
las regiones

Aporte
desarrollo
Pas.

y
Largo Plazo
de

al
del

Largo Plazo

Mayor nmero de
profesionales
graduados y con
empleos
formales.
Aumento del PIB
nacional,
reduccin de la
pobreza,
generacin
de
tecnologas.

Funcionamiento
de los Planes de
accin a nivel
regional.
Planes de accin
para reduccin de
la desercin a
nivel nacional.

Impacto Social:
El abandono de la universidad por parte de un estudiante, es una
situacin que puede ocasionar muchos problemas desde el punto de
vista social; por una parte, como ya se dijo antes, estos alumnos
desertores y que no optaron por reiniciar sus estudios, reducen
considerablemente sus posibilidades de encontrar un buen empleo, lo
que de alguna forma ayuda a incrementar los altos ndices de pobreza
en el pas, la tasa de empleos informales e incluso los niveles de
delincuencia, debido a la posibilidad de que estos estudiantes desertores
ingresen a las filas de la criminalidad. Por otro lado, los alumnos que
abandonan la institucin tienden a causas problemas dentro de sus
familias, por diferentes razones, estos problemas acompaados por
bajos niveles de autoestima del estudiantado, terminan por causar
tragedias familiares, pues en algunos casos el alumno termina por
acabar con su vida.

Se espera que los resultados de esta investigacin, ayude directa o


indirectamente a evitar que situaciones como las descritas
anteriormente lleguen a ocurrir. El hecho de tener bajos ndices

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
desercin significa tener ciudadanos ms felices, que sern motivo de
orgullo para sus familias, unidades productivas para el estado,
contribuyentes para el beneficio de los ms necesitados, y trabajadores
por el desarrollo del pas.

Impacto
Esperado

Mayor
nmero
de estudiantes
en
la
universidad.

Plazo (aos)
despus de
finalizado el
proyecto: corto
(1-4 ), mediano
(5-9), largo (10 o
ms)
Mediano Plazo

Indicador
Verificable

Supuestos

Bajos ndices de Funcionamiento


desercin
de los planes de
accin.

Presupuesto

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Presupuesto General
Nombre

Subtotal
(Miles)
11520
5697
860
400
2160
210
20847

Salario
Equipos
Software
Revistas/Libros
Cafetera
Otros
Total
Presupuesto Detallado

Salario
Rubros
Salario de
Mineros
Salario del
asesor
Total

Precio por hora


(Miles)
10

Cantidad de
horas
864

Subtotal
(Miles)
8640

20

144

2880
11520

Equipos
Rubros

Precio unitario
(Miles)

Cantidad de
artculos

Subtotal
(Miles)

Equipo de
computo
Total

1899

5697
5697

Software
Rubros

Precio unitario
(Miles)

Cantidad de
artculos

Subtotal
(Miles)

Microsoft Office

860

860

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
2007
Total

860

Revistas/Libros
Rubros

Precio unitario
(Miles)

Cantidad de
artculos

Subtotal

Suscripcin
Biblioteca
Total

400

400
400

Cafetera
Rubros

Refrigerios
Total

Precio unitario
(Miles)

Cantidad

Subtotal
(Miles)

432

2160
2160

Otros
Rubros

Precio unitario
(Miles)

Cantidad de
artculos

Subtotal
(Miles)

Impresora
Fotocopias
Resma tamao
carta
Total

185
10
15

1
100
1

185
10
15
210

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Cronograma
CRONOGRAMA DE ACTIVIDADES

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
DIAGRAMA DE GHANT

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Referencias

Investigacin Sobre Desercin en las Instituciones de Educacin


Superior en Colombia
Consultado: Julio 1 de 2010
Disponible
en:
http://spadies.uniandes.edu.co/spadies2/recursos/CEDE_InformeTecnico.
pdf

La Desercin Estudiantil: reto investigativo y estratgico asumido


de forma integral por la UPN.
Consultado: Julio 4 de 2010
Disponible en:
http://www.mineducacion.gov.co/1621/articles-85600_Archivo_pdf3.pdf
La Metodologa CRISP-DM
Consultado: Julio 12 de 2010
Disponible en: http://www.dataprix.com/la-metodolog%C3%AD-crisp-dm
Mapa Auto-Organizativo de Kohonen
Consultado: Julio 5 de 2010
Disponible
http://geneura.ugr.es/~jmerelo/tutoriales/bioinfo/Kohonen.pdf
El Modelo de Kohonen
Consultado: Julio 5 de 2010
Disponible
http://thales.cica.es/rd/Recursos/rd98/TecInfo/07/capitulo6.html

en:

en:

Introduccin a La Minera de Datos (Tcnicas de Prediccin y


Clasificacin)
Autor: J.T Alcal
Departamento de Mtodos Estadsticos, Universidad de Zaragoza.

Desercin Estudiantil en la Universidad de Ibagu Colombia, Una


Lectura Histrica en Perspectiva Cuantitativa.
Consultado: Julio 12 de 2010

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.
Disponible
http://ciruelo.uninorte.edu.co/pdf/zona_proxima/9/5_Desercion
%20estudiantil.pdf

en:

Aplicaciones Empresariales de Data Mining (Luis Garrido, Ignacio


Latorre)
Consultado: Julio 12 de 2010
Disponible
en:
http://upcommons.upc.edu/revistes/bitstream/2099/4161/4/article.pdf
Data Mining an Overview
Consultado: Julio 12 de 2010
Disponible en: http://www.fas.org/irp/crs/RL31798.pdf
Minera de datos : tcnicas y herramientas / Csar Prez Lpez, autor
colaborador Daniel Santn Gonzlez.-- Madrid : Thomson, 2007.
Data mining : soluciones con Enterprise Miner / Csar Prez Lpez,
Daniel Santn Gonzlez.-- Mxico : Alfaomega : Ra-Ma, 2007.
Ezequiel Uriel Jimnez, Joaqun Alds Manzano.-- Madrid (2005).
Anlisis multivariante aplicado : aplicaciones al marketing,
investigacin de mercados, economa, direccin de empresas y
turismo : Thomson.
lvarez Cceres (2008), Rafael. Estadstica multivariante y no
paramtrica con SPSS: aplicacin a las ciencias de la salud. Espaa:
Ediciones
Daz
de
Santos,
2008.
p
226.
http://site.ebrary.com/lib/bibliotecaunimagsp/Doc?
id=10212356&ppg=226 Copyright 2008. Ediciones Daz de Santos.
All rights reserved.
Veitch, W, (2004), Identifying characteristics of high school dropouts:
data mining with a 4ecisin tree model, California, Estados Unidos.
Shyamala K y Rajagopalan S.P. , (2006), Data Mining Model for a
Better Higher Educational System, Department of Computer Science,
India, ISSN 1812-5638
Hernndez Orallo Jos, Ramrez Quintana Ma. Jos, Ferri, Ramrez
Csar (2004), Introduccin a la minera de datos, Person Educacin,
S.A. Madrid, ISBN: 978-84-205-4091-7
Sergio Valero Orea (2009), Universidad Tecnolgica de Izcar de
Matamoros. Aplicacin de tcnicas de minera de datos para predecir
desercin, Mxico

APLICATIVO WEB PARA PREDECIR LA DESERCIN


ESTUDIANTIL EN LA UNIVERSIDAD DEL MAGDALENA.

Quiroga, E. (2008), Minera de datos en educacin superior aplicada


a un modelo de alerta acadmica, Chile.
Restrepo, M. (2000), Uso de la metodologa Rough Sets para la
identificacin de atributos en una base de datos sobre desercin,
Universidad de La Sabana, Colombia.
Merceron A., Yacef K. (2004), Educational Data Mining: a case of
study, Universidad de Sydney, Australia.
Hernndez J. (2005), Introduccin a la minera de datos, Espaa.
Gonzlez, L (2005), Zombi, una arquitectura para el anlisis de
informacin que integra procesamiento analtico en lnea con minera
de datos, Mxico.
Dataprix,
Metodologa
CRISP-DM
para
minera
de
datos
http://www.dataprix.com/modelo_crisp-dm
Erika Rodallegas Ramos, Areli Torres Gonzlez, Miguel A. Celis-Flores
(2008) Modelo predictivo para la determinacin de causas de
reprobacin mediante minera de datos. Mxico
Sofia J. Vallejos (2006), Minera de Datos, Argentina
Documento
Bsico
DAEDALUS
(2002),
Minera
de
Datos.
http://www.daedalus.es

You might also like