Professional Documents
Culture Documents
x
_
x
i 1
n
F. Javier Murillo
Aunque existen programas complejos diseados para realizar anlisis estadsticos como el SPSS, el Excel nos permite hacer clculos sencillos de una forma fcil y verstil. Es una herramienta bsica propia del dominio Microsoft que permite manipular datos numricos y alfanumricos dispuestos en forma de tablas (las cuales son una unin de filas y columnas). Aunque es utilizado normalmente en tareas financieras y contables, es extremadamente til para la investigacin emprica, siendo un complemento del SPSS o, incluso un sustituto de ste. Lo habitual en investigacin y, en este caso en investigacin educativa, es que tengamos diferentes informaciones (variables) de distintos sujetos, objetos, aulas.... (unidad de anlisis), por ello lo recomendable es organizarlos en la tabla del Excel segn el siguiente criterio: En las filas colocaremos las informaciones de cada sujeto, programa, centro u otra unidad de anlisis. En las columnas dispondremos las diferentes variables con las que vamos a trabajar.
En esta primera sesin vamos a trabajar con los datos "Datos_excel.xls. Abridlos y analicemos su contenido. Contiene informacin de 100 estudiantes de 5 curso de Educacin Primaria. Concretamente, datos de 8 variables organizadas en columnas: Columna A: Centro. Colegio donde estudian los nios y nias. Variable nominal. Columna B: Gnero. Si el estudiante es nio (1) o nia (2). Variable nominal dicotmica. Columna C: Rendimiento en Matemticas. Sobre 100. Variable de escala, continua. Columna D: Situacin socio-econmica. Variable de escala, continua. Columna E: Estudios de los padres. Promedio de los estudios de los padres. Variable de escala, discreta Columna F: Gusto por las matemticas. Variable ordinal. Columna G: N de habitantes en el municipio. Variable ordinal (categorizada). Columna H: Nmero de hijos en la familia. Variable de escala, discreta.
Asi, podemos encontrar 3 tipos de variables: Variable nominal: Los valores no pueden ser sometidos a ningn criterio de orden. Por ejemplo, gnero o centro donde estudian los nios y nias. Variable ordinal: Puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que la distancia entre ellas sea igual, por ejemplo: poco, regular, mucho. Variable de escala: las alternativas son valores numricos que expresan orden y distancia entre ellos. Pueden ser discretos, si hay un numero limitado de alternativas (por ejemplo, la edad expresada en aos), o continuo, si hay un numero "infinito" de alternativas. Pgina 1
Las herramientas de anlisis de datos incluidas en el Excel incorporan un importante nmero de procedimientos de anlisis estadstico. Entre dichos procedimientos se cuenta con: estadstica descriptiva, correlacin, regresin, anlisis de varianza. La Estadstica Descriptiva es aquella que se va a encargar de analizar y representar los datos para que stos puedan generalizarse a toda la poblacin. Para trabajar con la estadstica descriptiva tendremos que conocer: Medidas de Tendencia Central y Medidas de Variabilidad Hemos ideado este y el resto de captulos siguiendo una lnea de preguntas prcticas que nos ayudarn a comprender la terminologa, su funcionalidad y el estudio prctico de cada uno de los conceptos que vayamos aprendiendo. Comenzaremos aprendiendo a representar los datos de nuestro estudio a travs del clculo de frecuencias, el estudio de las Medidas de Tendencia Central (media, mediana y moda) y Medidas de Variabilidad (varianza, desviacin tpica, rango, correlacin).
Se puede hacer de manera rpida. Para hacer una ordenacin teniendo como criterio varios campos deberemos usar el men de datos.
2. Funciones. Si en una celda de Excel introducimos el signo de igual (=), se abrir la opcin de frmulas. Una frmula puede incluir operadores, referencias a celdas, Pgina 2
Estadstica Descriptiva con Excel valores, funciones y nombres. Los operadores especifican la tarea que se desea realizar con los elementos de la frmula. Entre los aritmticos tenemos: +, -, /, *, %, ^. As, podemos calcular la suma de dos nmeros: introducimos en una celda: =3+2, o la suma de los valores de dos celdas. "=A3+C3". 3. Copiar. Adems de la conocida opcin de "copiar y pegar", el Excel nos permite copiar serie de nmeros. Para ello, cuando pinchamos en una celda, se recuerda la celda, mostrndonos un pequeo cuadrito negro en la esquina inferior derecha. Si lo pinchamos y, manteniendo el botn de la derecha pulsado, lo arrastramos, nos copia lo que contiene la celda, bien sea nmeros o frmulas. 4. Crear series. Utilizando la anterior utilidad de copiar, podemos crear series simplemente con los dos primeros elementos de la misma. Para ello, escribimos en dos celdas contiguas los dos primeros nmeros de la serie, los seleccionamos ambos y arrastramos el cuadrito de la parte inferior izquierda. Algunos ejercicios para entrenar el uso de estas utilidades de Excel:
e.1. Crea una nueva variable al inicio, llmala "Identificacin" y numera los estudiantes del 1 al 1000. e.2. Ordena a los alumnos segn su Rendimiento en Matemticas e.3. Crea una nueva variable en la que se recoja el Rendimiento en Matemticas de los estudiantes en una escala del 0 al 10
Estadstica Descriptiva con Excel la izquierda indica los diferentes tipos o categoras de funciones que existen y el de la derecha indica las funciones de la categora seleccionada. Si se seleccionan Todas aparecern, por orden alfabtico, todas las funciones de Excel. Otra opcin es sealar "Estadsticas", y con un poco de uso nos bastar las "Usadas recientemente". Vemoslo: FIGURA 2. LA FUNCIN "CONTAR SI" DE EXCEL
Como vemos en la imagen anterior, tenemos tambin otra gran variedad de estadsticos a nuestra disposicin. El programa asigna nombres cortos a las funciones por lo que, en el caso de desconocer el nombre exacto de la funcin que busque, puedes recurrir a la opcin de bsqueda o a leer la definicin de las funciones sombreadas que aporta el programa. Profundicemos algo ms en el clculo de frecuencias a partir de la siguiente cuestin.
e.5. Elabora la tabla de frecuencias absolutas y relativas de la variable "Gusto por las Matemticas"
Atendiendo a la pregunta, se nos est pidiendo elaborar cuatro clculos: la frecuencia absoluta, la frecuencia absoluta acumulada, la frecuencia relativa y la frecuencia relativa acumulada. Definmoslos: La frecuencia absoluta es el nmero de veces que aparece un determinado valor en un estudio estadstico. Se representa por ni. La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el nmero total de datos. Se puede expresar en tantos por ciento y se representa por fi.
Pgina 4
Estadstica Descriptiva con Excel La frecuencia absoluta acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por Ni. La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el nmero total de datos. Se puede expresar en tantos por ciento. Se representa por Fi.
Para calcular las frecuencias para la variable Gusto por las Matemticas lo ms cmodo es que elaboremos una tabla de frecuencias. Vemoslo: TABLA 1. FRECUENCIAS ABSOLUTAS, RELATIVAS Y ACUMULADAS
x
i 1
donde Xi representa cada uno de los valores de nuestra variable y n el nmero total de puntuaciones.
Pgina 5
Estadstica Descriptiva con Excel Para poder calcular el rendimiento medio en matemticas deberemos aplicar la funcin Promedio y seleccionar los valores de la variable Rendimiento en Matemticas Vemoslo: FIGURA. 3 CLCULO DE LA MEDIA
Me
6 10 8 2
Una vez comprendido el significado de Mediana con una muestra manejable de datos, realicemos la cuestin que se nos formula. Para ello, al igual que en el ejercicio 3, encontraremos la funcin Mediana entre las opciones que nos ofrece el Programa Excel.
e.9. A quines les gustan ms las matemticas a los chicos o a las chicas?
Para poder responder a esta pregunta deberemos ordenar los datos de nuestra variable Gusto por las matemticas en funcin del gnero de la muestra. Para ello deberemos ayudarnos de la opcin Ordenar de Menor a Mayor de la barra de herramientas de Inicio. Una vez que hemos colocado los datos segn el gnero de la muestra, se nos plantean varias opciones para poder resolver nuestra pregunta. Por un lado, podramos calcular la media de los valores gusto por las matemticas para cada uno de los gneros tal y como lo hemos trabajado en la pregunta 3 de esta unidad. Pero, con el fin de que conozcamos algo ms a fondo las particularidades del Excel, utilizaremos para resolver la pregunta la funcin Subtotales. Esta funcin se encargar de devolvernos un subtotal en una lista o base de datos. Para calcular cada uno de los subtotales el cuadro de dilogo nos pedir que insertemos varios datos: Num_funcin y Ref 1-ref 2: Nm_funcin es un nmero de 1 a 11 (incluye los valores ocultos) o de 101 a 111 (pasa por alto valores ocultos) que indica qu funcin debe utilizarse para calcular los subtotales dentro de una lista.
Pgina 7
Estadstica Descriptiva con Excel Esta es la lista donde encontraremos el nmero de funcin adecuado para cada problema. TABLA. 2. NUMERACIN DE LAS FUNCIONES EN EXCEL
NM_FUNCIN (INCLUYE VALORES OCULTOS) 1 2 3 4 5 6 7 8 9 10 11 NM_FUNCIN (PASA POR ALTO VALORES OCULTOS) 101 102 103 104 105 106 107 108 109 110 111 FUNCIN PROMEDIO CONTAR CONTARA MAX MIN PRODUCTO DESVEST DESVESTP SUMA VAR VARP
Ref1, ref2: son de 1 a 254 rangos o referencias para los cuales desea calcular el subtotal
Pgina 8
s2
( xi x ) 2
i 1
La desviacin tpica es la raz cuadrada de la varianza. Los resultados del clculo de la desviacin tpica siempre sern valores positivos o cero, en el caso de que las puntuaciones sean iguales. Cuanto ms pequeo sea el valor calculado de la desviacin tpica mayor ser la concentracin de datos alrededor de la media. La calculamos a partir de la frmula:
( xi x ) 2
i 1
Una caracterstica que hemos de destacar es que tanto la desviacin tpica como la varianza y la media son ndices muy sensibles a las puntuaciones extremas. Eso quiere decir que contar o no con valores extremos en la muestra de datos influir mucho en el resultado de cada estadstico. Para dar respuesta a la pregunta formulada (calcular varianza y desviacin tpica) deberemos localizar la funcin Varianza y la funcin Desviacin Tpica y aplicarla sobre los valores de la variable Rendimiento en Matemticas. La funcin Varianza el programa la identifica como VAR y a la Desviacin Tpica como DESVEST:
Pgina 9
El rango de nuestra lista lo calcularemos realizando la resta de ambos valores, mnimo y mximo: Rg= 20-6 = 14 Para calcular la cuestin formulada en la pregunta 9, localizaremos la Funcin Rango y la aplicaremos sobre los datos de la variable Rendimiento en Matemticas.
Pgina 10
e.12. Qu Rendimiento tiene el estudiante que est en el percentil 88 (qu deja por debajo de si el 88% de los estudiantes en la variable Rendimiento en Matemticas)?
Para hacerlo, usamos la funcin "PERCENTIL", y en el submen nos pide los datos (la matriz) y la K (el percentil que buscamos). Otra puntuacin de posicin no central son los Cuartiles. En este caso es como dividir Cuartil 1 Corresponde al Percentil 25 Cuartil 2 Corresponde al Percentil 50=Mediana. Cuartil 3 Corresponde al Percentil 75 Cuartil 4 Corresponde al Percentil 100
6. Correlacin
Hasta ahora hemos trabajado con una sola variable de forma simultnea. Ello nos sirve para describir los datos. Un paso ms all es preguntarse hasta qu punto dos variables estn relacionadas, varan conjuntamente. Aunque ese punto lo veremos con ms profundidad en el tema 5 "Correlaciones y Anlisis de Regresin", vamos a hacer una pequea introduccin al mismo.
e.13. Hay relacin entre el rendimiento en matemticas y el gusto en esa materia? Cul es el ndice de correlacin?
El ndice o coeficiente de correlacin es un estadstico que nos informa sobre el sentido y la intensidad de la relacin de dos variables. Esa relacin puede ser lineal, exponencial, polinmica... La ms usual en Investigacin en Ciencias Sociales es la lineal.
Pgina 11
Estadstica Descriptiva con Excel Tenemos diferentes ndices de correlacin, fundamentalmente dependiendo del tipo de variables que estamos usando. Para variables continuas (de intervalo o razn), el ms usual es el llamado Coeficiente de Correlacin de Pearson: es el que usa el Excel. Este ndice toma valores de entre 1 y 1. Son tres las claves que nos van a permitir interpretar el significado de este ndice: Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime a 1. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime a 1. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. FIGURA 6. GRFICOS DE DISPERSIN CON TRES CORRELACIONES DIFERENTES
Correlacin directa Correlacin Inversa Correlacin Nula
rxy
s xy sx s y
Para poder dar respuesta a esta el ejercicio e.1. 10 deberemos calcular el ndice de correlacin, Excel se refiere a l como "COEF DE CORREL".
e.14. Qu variable explica ms el rendimiento en matemticas: la situacin social, los estudios de los padres, el gusto por las matemticas o el nmero de hijos?
Para poder resolver esta cuestin deberemos calcular los ndices de correlacin de cada una de las variables que se sealan y establecer cul de ellas tiene ms puntaje. Los resultados que obtendremos sern:
Pgina 12
Aquella variable que obtenga un mayor coeficiente de correlacin ser aquella que tenga una relacin ms fuerte con la variable de estudio, en este caso Rendimiento en Matemticas.
7. Ejercicios
e.15. Estima el nivel socio-econmico promedio de los estudiantes. e.16. Qu centro educativo tiene los estudiantes con un mayor nivel socio-econmico? e.17. Hay relacin entre nmero de hijos de la familia y nivel socio-econmico? e.18. Cul es el valor del cuartil 3 para la variable Rendimiento en Matemticas? Cmo se interpreta? e.19. Elabora la tabla de frecuencias absoluta, relativa y acumulada de la variable Nmero de la familia, pero slo para las nias. e.20. Elabora un pequeo informe con todos los clculos que se te ocurran sobre la Variable "Gusto por la Matemticas"
Pgina 13