You are on page 1of 14

Estadstica Descriptiva con Excel

x
_

x
i 1

n
F. Javier Murillo

Estadstica Descriptiva con Excel

Aunque existen programas complejos diseados para realizar anlisis estadsticos como el SPSS, el Excel nos permite hacer clculos sencillos de una forma fcil y verstil. Es una herramienta bsica propia del dominio Microsoft que permite manipular datos numricos y alfanumricos dispuestos en forma de tablas (las cuales son una unin de filas y columnas). Aunque es utilizado normalmente en tareas financieras y contables, es extremadamente til para la investigacin emprica, siendo un complemento del SPSS o, incluso un sustituto de ste. Lo habitual en investigacin y, en este caso en investigacin educativa, es que tengamos diferentes informaciones (variables) de distintos sujetos, objetos, aulas.... (unidad de anlisis), por ello lo recomendable es organizarlos en la tabla del Excel segn el siguiente criterio: En las filas colocaremos las informaciones de cada sujeto, programa, centro u otra unidad de anlisis. En las columnas dispondremos las diferentes variables con las que vamos a trabajar.

En esta primera sesin vamos a trabajar con los datos "Datos_excel.xls. Abridlos y analicemos su contenido. Contiene informacin de 100 estudiantes de 5 curso de Educacin Primaria. Concretamente, datos de 8 variables organizadas en columnas: Columna A: Centro. Colegio donde estudian los nios y nias. Variable nominal. Columna B: Gnero. Si el estudiante es nio (1) o nia (2). Variable nominal dicotmica. Columna C: Rendimiento en Matemticas. Sobre 100. Variable de escala, continua. Columna D: Situacin socio-econmica. Variable de escala, continua. Columna E: Estudios de los padres. Promedio de los estudios de los padres. Variable de escala, discreta Columna F: Gusto por las matemticas. Variable ordinal. Columna G: N de habitantes en el municipio. Variable ordinal (categorizada). Columna H: Nmero de hijos en la familia. Variable de escala, discreta.

Asi, podemos encontrar 3 tipos de variables: Variable nominal: Los valores no pueden ser sometidos a ningn criterio de orden. Por ejemplo, gnero o centro donde estudian los nios y nias. Variable ordinal: Puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que la distancia entre ellas sea igual, por ejemplo: poco, regular, mucho. Variable de escala: las alternativas son valores numricos que expresan orden y distancia entre ellos. Pueden ser discretos, si hay un numero limitado de alternativas (por ejemplo, la edad expresada en aos), o continuo, si hay un numero "infinito" de alternativas. Pgina 1

Estadstica Descriptiva con Excel FIGURA 1. ORGANIZACIN DE LOS DATOS EN EXCEL

Las herramientas de anlisis de datos incluidas en el Excel incorporan un importante nmero de procedimientos de anlisis estadstico. Entre dichos procedimientos se cuenta con: estadstica descriptiva, correlacin, regresin, anlisis de varianza. La Estadstica Descriptiva es aquella que se va a encargar de analizar y representar los datos para que stos puedan generalizarse a toda la poblacin. Para trabajar con la estadstica descriptiva tendremos que conocer: Medidas de Tendencia Central y Medidas de Variabilidad Hemos ideado este y el resto de captulos siguiendo una lnea de preguntas prcticas que nos ayudarn a comprender la terminologa, su funcionalidad y el estudio prctico de cada uno de los conceptos que vayamos aprendiendo. Comenzaremos aprendiendo a representar los datos de nuestro estudio a travs del clculo de frecuencias, el estudio de las Medidas de Tendencia Central (media, mediana y moda) y Medidas de Variabilidad (varianza, desviacin tpica, rango, correlacin).

1. Algunas utilidades con Excel


Excel es una potente herramienta con caracterizada por ser sencilla y compleja a la vez. Sin pretender hacer un manual de uso del Excel, es necesario conocer algunas utilidades que nos pueden facilitar el manejo de las estadsticas: 1. Ordenar: Segn el criterio que le indiquemos, nos coloca los registros de la lista.

Se puede hacer de manera rpida. Para hacer una ordenacin teniendo como criterio varios campos deberemos usar el men de datos.
2. Funciones. Si en una celda de Excel introducimos el signo de igual (=), se abrir la opcin de frmulas. Una frmula puede incluir operadores, referencias a celdas, Pgina 2

Estadstica Descriptiva con Excel valores, funciones y nombres. Los operadores especifican la tarea que se desea realizar con los elementos de la frmula. Entre los aritmticos tenemos: +, -, /, *, %, ^. As, podemos calcular la suma de dos nmeros: introducimos en una celda: =3+2, o la suma de los valores de dos celdas. "=A3+C3". 3. Copiar. Adems de la conocida opcin de "copiar y pegar", el Excel nos permite copiar serie de nmeros. Para ello, cuando pinchamos en una celda, se recuerda la celda, mostrndonos un pequeo cuadrito negro en la esquina inferior derecha. Si lo pinchamos y, manteniendo el botn de la derecha pulsado, lo arrastramos, nos copia lo que contiene la celda, bien sea nmeros o frmulas. 4. Crear series. Utilizando la anterior utilidad de copiar, podemos crear series simplemente con los dos primeros elementos de la misma. Para ello, escribimos en dos celdas contiguas los dos primeros nmeros de la serie, los seleccionamos ambos y arrastramos el cuadrito de la parte inferior izquierda. Algunos ejercicios para entrenar el uso de estas utilidades de Excel:

e.1. Crea una nueva variable al inicio, llmala "Identificacin" y numera los estudiantes del 1 al 1000. e.2. Ordena a los alumnos segn su Rendimiento en Matemticas e.3. Crea una nueva variable en la que se recoja el Rendimiento en Matemticas de los estudiantes en una escala del 0 al 10

2. Introduccin a las funciones: las Frecuencias


Como se ha visto, la estadstica descriptiva busca organizar una gran cantidad de datos a partir de sus regularidades y diferencias y, quiz, el estadstico ms sencillo es el de Frecuencias. Para ello es necesario que nuestra variable sea categrica, es decir, que tenga un nmero limitado (e idealmente pequeo) de alternativas. Si la variable no es categrica se puede categorizar, es decir, agrupar en categoras Vamos con un ejercicio:

e.4. Cuntos chicos y cuntas chicas hay en la muestra?


Analizando la pregunta descubrimos que no slo se nos est pidiendo que contemos en funcin de una determinada variable sino que se nos solicita que contemos el nmero de valores que cumple con la condicin del, en este caso, gnero masculino de la muestra. Para poder hacer este tipo de estimaciones utilizaremos la funcin estadstica de Excel Contar Si. Para utilizar el asistente de frmulas nos situamos en la celda donde va a aparecer el resultado, pulsamos el botn y nos aparecer el cuadro de dilogo Pegar funcin. El panel de Pgina 3

Estadstica Descriptiva con Excel la izquierda indica los diferentes tipos o categoras de funciones que existen y el de la derecha indica las funciones de la categora seleccionada. Si se seleccionan Todas aparecern, por orden alfabtico, todas las funciones de Excel. Otra opcin es sealar "Estadsticas", y con un poco de uso nos bastar las "Usadas recientemente". Vemoslo: FIGURA 2. LA FUNCIN "CONTAR SI" DE EXCEL

Como vemos en la imagen anterior, tenemos tambin otra gran variedad de estadsticos a nuestra disposicin. El programa asigna nombres cortos a las funciones por lo que, en el caso de desconocer el nombre exacto de la funcin que busque, puedes recurrir a la opcin de bsqueda o a leer la definicin de las funciones sombreadas que aporta el programa. Profundicemos algo ms en el clculo de frecuencias a partir de la siguiente cuestin.

e.5. Elabora la tabla de frecuencias absolutas y relativas de la variable "Gusto por las Matemticas"
Atendiendo a la pregunta, se nos est pidiendo elaborar cuatro clculos: la frecuencia absoluta, la frecuencia absoluta acumulada, la frecuencia relativa y la frecuencia relativa acumulada. Definmoslos: La frecuencia absoluta es el nmero de veces que aparece un determinado valor en un estudio estadstico. Se representa por ni. La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el nmero total de datos. Se puede expresar en tantos por ciento y se representa por fi.

Pgina 4

Estadstica Descriptiva con Excel La frecuencia absoluta acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por Ni. La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el nmero total de datos. Se puede expresar en tantos por ciento. Se representa por Fi.

Para calcular las frecuencias para la variable Gusto por las Matemticas lo ms cmodo es que elaboremos una tabla de frecuencias. Vemoslo: TABLA 1. FRECUENCIAS ABSOLUTAS, RELATIVAS Y ACUMULADAS

3. Medidas de Tendencia Central: Media, Mediana y Moda


Las Medidas de Tendencia Central o de Centralizacin son estadsticos de posicin interpretados como valores que permiten resumir a un conjunto de datos dispersos. Podra asumirse que estas medidas equivalen a un centro de gravedad que adopta un valor representativo para todo un conjunto de datos predeterminados. Estas medidas son: Media (Promedio Aritmtico), Mediana, Moda

e.6. Cul es el Rendimiento medio de los estudiantes en Matemticas?


Analicemos la pregunta: lo que se nos est pidiendo es atender a la variable rendimiento en matemticas y obtener la Media o Promedio de los valores de la variable. La Media es una Medida de Tendencia Central o de Centralizacin que puede ser definida como la suma de los productos de los valores que toma la variable estadstica multiplicados por su correspondiente frecuencia relativa. La calculamos a partir de la frmula:

x
i 1

donde Xi representa cada uno de los valores de nuestra variable y n el nmero total de puntuaciones.

Pgina 5

Estadstica Descriptiva con Excel Para poder calcular el rendimiento medio en matemticas deberemos aplicar la funcin Promedio y seleccionar los valores de la variable Rendimiento en Matemticas Vemoslo: FIGURA. 3 CLCULO DE LA MEDIA

e.7. Calcula la mediana del rendimiento en matemticas


La Mediana es el valor de la variable estadstica que divide en dos partes iguales a la distribucin de frecuencias, es decir, se trata de un valor tal que la suma de frecuencias de los valores que quedan a su derecha coincide con la suma de las frecuencias de los valores que quedan a su izquierda. Veamos un pequeo ejemplo: Si calculamos la Mediana de una muestra de nmeros impares, por ejemplo: 3, 10, 15, 6 y 2. Lo primero que haremos es colocar en orden de menor a mayor nuestros nmeros: 2, 3, 6, 10, 15. El nmero 6 es la Mediana pues, deja por encima y por debajo 2 nmeros. Si nuestra cantidad de valores fuera par, procederamos igual que en el ejemplo anterior pero la media de los dos nmeros centrales sera el resultado de la Mediana, por ejemplo: Pgina 6

Estadstica Descriptiva con Excel 2, 3, 6, 10, 15, 20

Me

6 10 8 2

Una vez comprendido el significado de Mediana con una muestra manejable de datos, realicemos la cuestin que se nos formula. Para ello, al igual que en el ejercicio 3, encontraremos la funcin Mediana entre las opciones que nos ofrece el Programa Excel.

e.8. Calcula la moda de la variable "estudios de los padres"


La Moda es aquel valor de la variable cuya frecuencia es la ms alta, es decir, el valor que ms se repite. Si son dos las puntuaciones ms altas, la distribucin se llamar bimodal; si son tres, trimodal, etc. Formulemos un ejemplo manejable para comprender la definicin del estadstico: si contamos con una serie de nmeros: 24, 28, 32, 28, 25, 29, 30, 28, 32, 40. Observemos como el valor 28 se repite tres veces, ms que ningn otro valor, por lo que la Moda de estos datos es: Mo=28 Resolvamos ahora la pregunta formulada. Para ello, tal y como hemos hecho anteriormente, localizaremos en el men de Funciones la Funcin Moda y seleccionaremos nuestros datos de la variable Estudios de los padres.

e.9. A quines les gustan ms las matemticas a los chicos o a las chicas?
Para poder responder a esta pregunta deberemos ordenar los datos de nuestra variable Gusto por las matemticas en funcin del gnero de la muestra. Para ello deberemos ayudarnos de la opcin Ordenar de Menor a Mayor de la barra de herramientas de Inicio. Una vez que hemos colocado los datos segn el gnero de la muestra, se nos plantean varias opciones para poder resolver nuestra pregunta. Por un lado, podramos calcular la media de los valores gusto por las matemticas para cada uno de los gneros tal y como lo hemos trabajado en la pregunta 3 de esta unidad. Pero, con el fin de que conozcamos algo ms a fondo las particularidades del Excel, utilizaremos para resolver la pregunta la funcin Subtotales. Esta funcin se encargar de devolvernos un subtotal en una lista o base de datos. Para calcular cada uno de los subtotales el cuadro de dilogo nos pedir que insertemos varios datos: Num_funcin y Ref 1-ref 2: Nm_funcin es un nmero de 1 a 11 (incluye los valores ocultos) o de 101 a 111 (pasa por alto valores ocultos) que indica qu funcin debe utilizarse para calcular los subtotales dentro de una lista.

Pgina 7

Estadstica Descriptiva con Excel Esta es la lista donde encontraremos el nmero de funcin adecuado para cada problema. TABLA. 2. NUMERACIN DE LAS FUNCIONES EN EXCEL
NM_FUNCIN (INCLUYE VALORES OCULTOS) 1 2 3 4 5 6 7 8 9 10 11 NM_FUNCIN (PASA POR ALTO VALORES OCULTOS) 101 102 103 104 105 106 107 108 109 110 111 FUNCIN PROMEDIO CONTAR CONTARA MAX MIN PRODUCTO DESVEST DESVESTP SUMA VAR VARP

Fuente: Manual Microsoft Office Excel

Ref1, ref2: son de 1 a 254 rangos o referencias para los cuales desea calcular el subtotal

Veamos la actividad: FIGURA 1. FUNCIN SUBTOTALES

Pgina 8

Estadstica Descriptiva con Excel

4. Medidas de variabilidad: Varianza, Desviacin tpica y Rango


Las Medidas de Variabilidad o de Dispersin nos muestran valores y grficos de dispersin que permiten evaluar el grado de homogeneidad, dispersin o variabilidad de un conjunto de datos. Estas medidas son: Varianza, Desviacin tpica y Rango, entre otras.

e.10. Calcula la varianza y la desviacin tpica de la variable "rendimiento en matemticas"


Debemos comenzar por la definicin de cada estadstico: La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media de una distribucin estadstica. Nos sirve para medir las diferencias existentes entre los valores individuales de los datos. Los datos con una varianza baja contienen valores idnticos o similares, mientras que los datos con una varianza alta contienen valores que no se asemejan. La calculamos a partir de la frmula:

s2

( xi x ) 2
i 1

La desviacin tpica es la raz cuadrada de la varianza. Los resultados del clculo de la desviacin tpica siempre sern valores positivos o cero, en el caso de que las puntuaciones sean iguales. Cuanto ms pequeo sea el valor calculado de la desviacin tpica mayor ser la concentracin de datos alrededor de la media. La calculamos a partir de la frmula:

( xi x ) 2
i 1

Una caracterstica que hemos de destacar es que tanto la desviacin tpica como la varianza y la media son ndices muy sensibles a las puntuaciones extremas. Eso quiere decir que contar o no con valores extremos en la muestra de datos influir mucho en el resultado de cada estadstico. Para dar respuesta a la pregunta formulada (calcular varianza y desviacin tpica) deberemos localizar la funcin Varianza y la funcin Desviacin Tpica y aplicarla sobre los valores de la variable Rendimiento en Matemticas. La funcin Varianza el programa la identifica como VAR y a la Desviacin Tpica como DESVEST:

Pgina 9

Estadstica Descriptiva con Excel FIGURA 5. FUNCIN VARIANZA Y DESVIACIN TPICA

e.11. Calcula el rango de la variable rendimiento en matemticas


Podemos definir el rango como la diferencia entre el mayor y el menor de los datos de una distribucin estadstica. Veamos un ejemplo para comprender la definicin. Si contamos con una serie de nmeros tal como: 8, 6, 15, 20, 7, 19. Identificamos el valor mnimo y el valor mximo: Min= 6 Max= 20

El rango de nuestra lista lo calcularemos realizando la resta de ambos valores, mnimo y mximo: Rg= 20-6 = 14 Para calcular la cuestin formulada en la pregunta 9, localizaremos la Funcin Rango y la aplicaremos sobre los datos de la variable Rendimiento en Matemticas.

Pgina 10

Estadstica Descriptiva con Excel

5. Puntuaciones de posicin no central: Percentiles y Cuartiles


En diagnstico educativo es muy usual utilizar los percentiles para dar informacin sobre la situacin de un determinado sujeto. Si nos dicen que tenemos una creatividad de 45 nos es difcil interpretar, sin embargo, si nos dicen que en Creatividad estamos en el percentil 87, nos informan que tenemos una alta creatividad. As, entendemos por Percentiles aquel dato de la serie de valores ordenada, que deja por debajo un determinado porcentaje de datos. El percentil 25, por ejemplo, es el valor que deja por debajo de si el 25% de los valores. Lgicamente el percentil 50 es el valor de la Mediana.

e.12. Qu Rendimiento tiene el estudiante que est en el percentil 88 (qu deja por debajo de si el 88% de los estudiantes en la variable Rendimiento en Matemticas)?
Para hacerlo, usamos la funcin "PERCENTIL", y en el submen nos pide los datos (la matriz) y la K (el percentil que buscamos). Otra puntuacin de posicin no central son los Cuartiles. En este caso es como dividir Cuartil 1 Corresponde al Percentil 25 Cuartil 2 Corresponde al Percentil 50=Mediana. Cuartil 3 Corresponde al Percentil 75 Cuartil 4 Corresponde al Percentil 100

La funcin de Excel para su estimacin es "CUARTIL", y su uso igual que el percentil.

6. Correlacin
Hasta ahora hemos trabajado con una sola variable de forma simultnea. Ello nos sirve para describir los datos. Un paso ms all es preguntarse hasta qu punto dos variables estn relacionadas, varan conjuntamente. Aunque ese punto lo veremos con ms profundidad en el tema 5 "Correlaciones y Anlisis de Regresin", vamos a hacer una pequea introduccin al mismo.

e.13. Hay relacin entre el rendimiento en matemticas y el gusto en esa materia? Cul es el ndice de correlacin?
El ndice o coeficiente de correlacin es un estadstico que nos informa sobre el sentido y la intensidad de la relacin de dos variables. Esa relacin puede ser lineal, exponencial, polinmica... La ms usual en Investigacin en Ciencias Sociales es la lineal.

Pgina 11

Estadstica Descriptiva con Excel Tenemos diferentes ndices de correlacin, fundamentalmente dependiendo del tipo de variables que estamos usando. Para variables continuas (de intervalo o razn), el ms usual es el llamado Coeficiente de Correlacin de Pearson: es el que usa el Excel. Este ndice toma valores de entre 1 y 1. Son tres las claves que nos van a permitir interpretar el significado de este ndice: Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime a 1. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime a 1. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. FIGURA 6. GRFICOS DE DISPERSIN CON TRES CORRELACIONES DIFERENTES
Correlacin directa Correlacin Inversa Correlacin Nula

Se expresa mediante la letra rxy, y se calcula con la frmula:

rxy

s xy sx s y

Para poder dar respuesta a esta el ejercicio e.1. 10 deberemos calcular el ndice de correlacin, Excel se refiere a l como "COEF DE CORREL".

e.14. Qu variable explica ms el rendimiento en matemticas: la situacin social, los estudios de los padres, el gusto por las matemticas o el nmero de hijos?
Para poder resolver esta cuestin deberemos calcular los ndices de correlacin de cada una de las variables que se sealan y establecer cul de ellas tiene ms puntaje. Los resultados que obtendremos sern:

Pgina 12

Estadstica Descriptiva con Excel TABLA 1.3. CLCULO DE COEFICIENTES DE CORRELACIN

Aquella variable que obtenga un mayor coeficiente de correlacin ser aquella que tenga una relacin ms fuerte con la variable de estudio, en este caso Rendimiento en Matemticas.

7. Ejercicios

e.15. Estima el nivel socio-econmico promedio de los estudiantes. e.16. Qu centro educativo tiene los estudiantes con un mayor nivel socio-econmico? e.17. Hay relacin entre nmero de hijos de la familia y nivel socio-econmico? e.18. Cul es el valor del cuartil 3 para la variable Rendimiento en Matemticas? Cmo se interpreta? e.19. Elabora la tabla de frecuencias absoluta, relativa y acumulada de la variable Nmero de la familia, pero slo para las nias. e.20. Elabora un pequeo informe con todos los clculos que se te ocurran sobre la Variable "Gusto por la Matemticas"

Pgina 13

You might also like