You are on page 1of 22

Fecha de elaboracin: ____Noviembre 2013____

UNIVERSIDAD CENTRAL DEL ECUADOR


FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

ANLISIS DE INTENCIN DE VOTO MEDIANTE HERRAMIENTAS DE MINERA


DE DATOS

Elaborado por:
Andrea Freire
Susana Daz
Fernanda Herrera

Fecha de elaboracin: ____Noviembre 2013____


UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Tabla de Contenido
RESUMEN .............................................................................................................................................. 2
INTRODUCCIN ..................................................................................................................................... 2
1.

DESARROLLO ................................................................................................................................. 2
1.1
RECOPILACIN ................................................................................................................................ 2
1.2
SELECCIN DE LOS DATOS ................................................................................................................. 3
1.2.1 Tamao de la muestra ........................................................................................................... 3
1.3
PRE-PROCESAMIENTO ...................................................................................................................... 6
1.4
MINERA DE DATOS ......................................................................................................................... 9
1.5
INTERPRETACIN Y EVALUACIONES ................................................................................................... 18

Fecha de elaboracin: ____Noviembre 2013____


UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Tabla de Grficas

Grfica 1 Proceso de Minera de Datos ......................................................................................... 2


Grfica 2 Poblacin Total y Electoral............................................................................................. 3
Grfica 3 Distribucin Poltica Espaa........................................................................................... 4
Grfica 4 Localidad Andaluca Espaa ........................................................................................ 4
Grfica 5 Distribucin Poblacional Seleccionada .......................................................................... 5
Grfica 6 Identificacin de la Poblacin ........................................................................................ 5
Grfica 7 Tamao de la muestra ................................................................................................... 6
Grfica 8 Municipios Representativos .......................................................................................... 7
Grfica 9 Agrupamiento de los municipios ms representativos ................................................. 7
Grfica 10 Centroides de los datos elegidos ................................................................................. 9
Grfica 11 Vecinos ms cercanos .................................................................................................. 9
Grfica 12 Distribucin Cuartiles Total de Votantes ................................................................... 10
Grfica 13 Distribucin de Cuartiles Total Censo Electoral ......................................................... 10
Grfica 14 Distribucin Cuartiles Total Votantes ........................................................................ 11
Grfica 15 Distribucin Cuartiles Total Votantes ........................................................................ 11
Grfica 16 Distribucin atributos Generados.............................................................................. 13
Grfica 17 Distribucin EM.......................................................................................................... 15
Grfica 18 Distribucin Cobweb.................................................................................................. 17
Grfica 19 Distribucin nodos ..................................................................................................... 17

Fecha de elaboracin: ____Noviembre 2013____


UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

RESUMEN
La presente monografa muestra un anlisis de intencin del voto;
determinando los parmetros en los que se basan utilizando
herramientas y tcnicas de minera de datos para la toma de
decisiones, determinar cul es el modelo ms ptimo y llegar a
conclusiones que nos permitan optimizar recursos. Se tomarn un
conjunto de datos de los municipios con mayor nmero de votantes
dentro de la comunidad de Espaa; los mismos sern evaluados por
tcnicas no supervisadas (EM, K-Medias, COBWEB). Mediante Weka
que es un programa de cdigo abierto y que nos brinda algoritmos de
aprendizaje tiles para la minera de datos.

Fecha de elaboracin: ____Noviembre 2013____


UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

INTRODUCCIN
El presente documento muestra un anlisis para la intencin del voto; con lo cual, se dispone
de datos reales tomados de Internet de las elecciones para el Congreso de Noviembre del 2011
del Gobierno de Espaa.
Se tomarn los datos ms representativos que determinen la intencin del voto para los
distintos partidos y para cada uno de los municipios de las diferentes comunidades de Espaa;
partiendo de la poblacin electoral y utilizando algoritmos de procesamiento de datos. No
existe una metodologa para saber cules son las dimensiones para predecir o determinar lo
resultados de una eleccin; pero si se puede establecer niveles de comportamiento a partir de
un conjunto de datos.
La evaluacin de los mismos se realizar con WEKA, es una herramienta que permite la
experimentacin de anlisis de datos mediante anlisis y evaluacin de las tcnicas ms
relevantes de anlisis de datos, principalmente provenientes del aprendizaje automtico sobre
cualquier conjunto de datos del usuario. 1
Los datos que se han obtenido son de las elecciones para el Congreso de Noviembre del 2011
para las diferentes comunidades de Espaa; se tomar como referencia para el anlisis las
poblaciones cuyo nmero de votantes sea representativo y de esta manera saber cun
determinante es el nmero de poblacin para estimar la intencin de voto.

Anlisis de datos en WEKA Pruebas de selectividad. GARCA JIMNEZ, Mara Gabriela, Universidad
Carlos III

Fecha de elaboracin: ____Noviembre 2013____


UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

1. DESARROLLO
El estudio que se presenta a continuacin, se realiza a partir de datos histricos para estimar o
predecir los resultados de una eleccin. Una metodologa como tal no existe para determinar
la intencin de voto; se realiza encuestas antes o durante las elecciones para establecer que
candidatos tienden a obtener el mayor nmero de votos.
El proceso a seguir para el anlisis de los datos obtenidos es el siguiente:

Recopilacin

Seleccin de Datos

Preprocesamiento

Minera de Datos

Interpretacin y
Evaluacin

Grfica 1 Proceso de Minera de Datos

1.1 Recopilacin
Partimos de la base de datos de las elecciones para Congreso de Espaa de Noviembre del
2011. A travs de una base de datos obtenido en formato de Excel con extensin (.xls),
organizados y estructurados de acuerdo a la distribucin poltica de Espaa, estos datos son los
siguientes:















Comunidad
Cdigo de provincia
Nombre de provincia
Cdigo de municipio
Nombre de municipio
Poblacin
Nmero de mesas
Total censo electoral
Total votantes
Votos vlidos
Votos a candidaturas
Votos en blanco
Votos nulos
Partidos polticos
 Partido popular
 Partido socialista obrero espaol
 Izquierda unida
 Unin progreso y democracia
 Otros

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

1.2 Seleccin de los Datos


1.2.1 Tamao de la muestra
El total de la poblacin en Espaa para Noviembre del 2011 es de 47.021.031 ciudadanos,
quienes estn aptos para ejercer el voto 34.296.705 ciudadanos.
Total censo
electoral;
34.296.705

Poblacin;
47.021.031

POBLACIN TOTAL Y ELECTORAL


Grfica 2 Poblacin Total y Electoral

Existen en total 8115 registros de todos los municipios de este pas, por lo que tomamos como
tamao de la muestra la comunidad de Andaluca que abarca las provincias de: Almera, Cdiz,
Crdoba, Granada, Jan, Huelva, Mlaga y Sevilla y de estas provincias
provincias los municipios con
mayor nmero de electores que pueden ser determinantes a la hora de definir el o los partidos
ganadores.

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Grfica 3 Distribucin Poltica Espaa

Grfica 4 Localidad Andaluca Espaa

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Poblacin
1400000
1200000
1000000
800000
600000
400000
200000
0

Grfica 5 Distribucin Poblacional Seleccionada

Grfica 6 Identificacin de la Poblacin

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

TAMAO DE LA MUESTRA
[NOMBRE
DE
CATEGORA
]Total
Censo
electoral;

Poblacin;
5.498.812

Grfica 7 Tamao de la muestra

De esta manera queda considerablemente reducida la base de datos y el anlisis que se realice
a esta comunidad servir de base para las dems comunidades.
De igual manera existen numerosos partidos polticos de los cuales solo se destacan pocos que
consideramos los ms representativos
epresentativos del pas.
pas

1.3 Pre-procesamiento
procesamiento
Una vez recolectada la informacin necesaria sobre la cual se va a realizar el anlisis,
anlisis
codificamos el archivo en formato .arff
arff de tipo real o entero y simblico, en cuyo caso se
especifican los valores posibles que puede tomar entre llaves.
El fichero de datos contiene 93 registros de los municipios con mayor nmero de votantes,
adems de los votos vlidos, blancos, nulos total de electores y las votaciones para cada
partido poltico ms representativos dentro de
d la localidad de Andaluca.

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Provincias

Comunidad

Almera

12
Municipios

Cdiz

5 Municipios

Crdoba

9 Municipios

Granada

20
Municipios

Huelva

9 Municipios

Jan

12
Municpios

Mlaga

12
Municipios

Sevilla

12
Municipios

Andaluca

Grfica 8 Municipios Representativos

Cabe recalcar que el hecho de que, de la Provincia de Granada se escojan 20 Municipios no


quiere decir que tiene un nmero de poblacin importante, puesto que se ha tomado el 60%
de los municipios ms representativos de la comunidad de Andaluca.
Mediante la siguiente grfica mostraremos donde se encuentra la mayor distribucin de
poblacin:

Grfica 9 Agrupamiento de los municipios ms representativos

Fecha de elaboracin: ____Noviembre 2013____


UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Existen grupos de ciudades que no se encuentran dentro del rango donde estn la mayora de
ciudades y esto puede influir en el resultado del anlisis.
Procedemos a filtrar los datos que no vamos a utilizar tal como es el nmero de mesas, que
para nuestro anlisis no ser necesario este campo.
Debido a que vamos a trabajar con datos numricos debemos discretizar los datos de tal
manera que los atributos numricos seleccionados se transformen en atributos simblicos,
para optimizar el nmero de cajas y que tenga la misma amplitud con un criterio de
clasificacin de mnimo error en funcin de las etiquetas. Se dividirn en 4 intervalos de la
misma frecuencia y esto nos permitir determinar los cuatro cuartiles de la clasificacin de la
poblacin.

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

1.4 Minera de Datos


Una vez distribuidos los datos como se muestra en la figura procedemos a realizar la minera
de datos en la que se emplearn diferentes tcnicas para la toma de decisiones sobre la
intencin de voto.
De esta manera tenemos los datos agrupados para nuestro anlisis:

Grfica 10 Centroides de los datos elegidos

Grfica 11 Vecinos ms cercanos

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Puede verse una marcada diferencia entre el primer cuartil y el cuarto cuartil, ya que las
poblaciones que son importantes para determinar la intencin de voto son las del primer
cuartil que son 86 poblaciones donde se debe empezar a realizar encuestas o sondeos que en
acontecimientos futuros pueden impactar en los resultados.

Grfica 12 Distribucin Cuartiles Total de Votantes

Realizando una evaluacin entre el total de votantes y el total del censo electoral se determina
que el porcentaje de ausentismo es mnimo.
m

Grfica 13 Distribucin de Cuartiles Total Censo Electoral

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Grfica 14 Distribucin Cuartiles Total Votantes

Grfica 15 Distribucin Cuartiles Total Votantes

Agruparemos las poblaciones con similar nmero de habitantes


habit
en 5 clusters lo resultados son
los siguientes:

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Nos muestra los municipios que ms destacan y el rango de votantes, la cantidad de ciudades
que agrupan, podemos decir que el clster 0 es el que ms ciudades ha agrupado y de dnde
existe la informacin
cin ms destacada para el total de votantes ms representativos.
representativos

Es de inters analizar grficamente como se distribuyen los diferentes valores de los atributos
en los grupos generados.

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Grfica 16 Distribucin atributos Generados

Si tomamos un nmero mayor de clsteres el error cuadrtico medio disminuye


considerablemente:

Este algoritmo precisa nicamente el nmero de categoras similares en las que queremos
dividir el conjunto de datos.
Podemos hacer la una agrupacin entre el nmero de votantes y la distribucin de votos para
cada uno de los partidos ms representativos.
Probamos ahora con el algoritmo EM que proviene de la estadstica y es ms elaborado que el
de K-medias,
medias, este algoritmo es ms
ms apropiado cuando sabemos que los datos tienen una
variabilidad estadstica de modelo conocido.
EM permite buscar el nmero de grupos ms apropiado y esto se interpreta como dejar
dej el
parmetro del nmero de clsteres como un valor a optimizar por el propio
o algoritmo.
Filtramos las instancias al 3% y obtenemos el siguiente resultado indicando los centroides de
cada grupo:

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Agrupando las instancias Provincia, total censo electoral y total votantes tenemos el siguiente
resultado:

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Grfica 17 Distribucin EM

Para el segundo algoritmo de agrupamiento por criterios estadsticos y no de distancias entre


vectores de atributos, predomina el municipio de Sevilla como factor determinante en la
decisin de voto.
Otro algoritmo de agrupamiento
agrupamiento es el agrupamiento simblico o cobweb en weka, tiene la
ventaja de efectuar un anlisis cualitativo que construye categoras jerrquicas para organizar

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

los datos, permite homogeneidad de los valores de los atributos dentro de cada una y al
mismo tiempo
o una separacin entre categoras dadas por los atributos.
Aplicando cobweb con los parmetros por defecto sobre la muestra tenemos el siguiente
resultado:

Fecha de elaboracin: ____Noviembre


Noviembre 2013____
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Grfica 18 Distribucin Cobweb

Hay 2 grupos en un primer nivel (nodos) y el segundo nodo se divide en 3 niveles, y estos
subdividindose en 2 y 3 niveles respectivamente:

Grfica 19 Distribucin nodos

Fecha de elaboracin: ____Noviembre 2013____


UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERA CIENCIAS FSICAS Y MATEMTICAS
ESCUELA DE CIENCIAS

Cada uno de los nodos representa una clase de objeto, esta se basa en medir en cul se tiene
la mayor ganancia en cada categora.
Dependiendo del nmero de instancias y si estas son numricas o simblicas se tomar el
mejor algoritmo de agrupacin par la toma de decisiones.
En este caso el algoritmo EM (expectation maximization) es el mejor algoritmo para
determinar el resultado de intencin de voto, puesto que la mayora de los datos son
numricos y calcula las probabilidades de que cada objeto analizado pertenezca a un clster y
usa esas probabilidades para re-estimar los parmetros de las probabilidades hasta converger.

1.

2.

3.

4.

5.

6.

1.5 Interpretacin y Evaluaciones


Hay un cambio importante en el comportamiento de la intencin de voto ya que en el
bipartidismo o hacia la abstencin se juega un papel importante en las alternativas
polticas. Este cambio va asociado a un cambio de la abstencin y el voto en blanco
que no depende tanto de la relacin de las variables sino que proviene de otros
organismos.
De acuerdo con la investigacin se dice que poco a poco, y de la forma ms visible que
se ha podido sealar mediante datos y grficos estadsticos, los movimientos sociales
van teniendo un impacto en la vida poltica a base de acumular sus ideas en las
personas, de ejercer presin sobre los votantes y con ciudades en donde exista mayor
concentracin de personas.
La intencin del voto se caracteriza por una concentracin en los partidos polticos que
mayor acogida tienen, es decir, tanto para la competencia como de la abstencin y el
voto en blanco (y de los indecisos).
Con la intencin del voto lo que se pretende hacer es que la intervencin de los
ciudadanos sea muy importante ya que quienes hayan participado en ello conocen el
mecanismo democrtico y tienen percepciones o un mayor conocimiento o una mayor
confianza en lo que sera la gestin municipal de sus candidatos.
Con esta herramienta se logra una muy buena solucin sobre las diferentes situaciones
presentadas en la realidad que en este caso se trat el anlisis acerca de la intencin
de voto y que luego de haber obtenido un respectivo resultado se puede tomar
decisiones para el mejoramiento en cuanto al tema se refiere.
Con el anlisis realizado podemos concluir que los Municipios Crdova, Sevilla, Mlaga
y Jan son los sitios en donde se congregan la mayor cantidad de votos, por lo cual es
donde los partidos polticos deberan centrar sus campaas y as obtener ms votos.

You might also like