Professional Documents
Culture Documents
UNIVERSIDAD NACIONAL EXPERIMENTAL SIMN RODRIGUEZ NCLEO: PALO VERDE CTEDRA: Estadstica I
Facilitador:
Pgina 1 de 36
Construccin de la Distribucin de Frecuencias: En tres pasos. ............................................... 9 1.1. Distribucin de Frecuencias y grfica de la variable cualitativa: MARCA ..................... 10 1.2. Distribucin de Frecuencias y grfica de la variable cualitativa: MENCION ................ 11 2. Distribucin de Frecuencias y grfica de variables cuantitativas.................................... 13
Construccin de la Distribucin de Frecuencias: En tres pasos. ............................................. 13 2.1. Distribucin de Frecuencias y grfica de la variable cuantitativa: RPM ........................ 15 2.2. Distribucin de Frecuencias y grfica de la variable cuantitativa: Nota Estad ............. 17 Grfica de las variables cualitativas y cuantitativas. ................................................................. 18 3. Anlisis Numrico para datos brutos, primarios o no agrupados. ..................................... 19 3.1. Medidas de Tendencia Central o de Promedio o de Posicin. ....................................... 20 Media aritmtica (Xa) = (Xi) / n donde significa sumatoria.................................................... 21 Media geomtrica (Xg) = [ (Xi )]1/n donde significa productorio ...................................... 22 Media armnica (Xh) = n / (1/Xi) donde 1/Xi significa reciproco ...................................... 22 Media cuadrtica(Xc) = ( (Xi2) / n) donde significa Raiz Cuadrada ................................. 23 Media ponderada (Xw) = (WiXi) / Wi ........................................................................................... 23 Moda (Mo) No Existe frmula sino un procedimiento y concepto................................................... 24 Mediana (Me) No Existe frmula sino un procedimiento y concepto .............................................. 24
Pgina 2 de 36
Quartiles (Q1 ; Q2 ; Q3) No Existe frmula sino un procedimiento y concepto ................................... 24 Percentiles (P%) No Existe frmula sino un procedimiento y concepto ............................................ 25 Rango Percentil (Rp) No Existe frmula sino un procedimiento y concepto .................................... 25 3.2. Medidas de Dispersin o de Variacin o de Sesgo ....................................................... 26
Rango (R) tambin llamado Amplitud o Recorrido = Mximo - Mnimo.......................................... 26 Rango intercuartlico (RI) = Q3 Q1 ................................................................................................... 27 Desviacin cuartil (DQ) = (Q3 Q1) / 2 .............................................................................................. 27 Desviacin media (DM) = lXi - Xal/ n; ............................................................................................ 27 Desviacin Estndar ()= ( (Xi - Xa )2 / (n-1)) ; ............................................................................ 28 Varianza (V) = 2 = (Xi - Xa )2 /( n-1) .............................................................................................. 28 Coeficiente de variacin (CV) = * 100 / Xa .................................................................................... 28 Coeficiente de desviacin media (CDM) = DM *100 / Xa ................................................................. 29 Coeficiente de desviacin cuartil (CDQ) = (Q3 Q1) * 100 / (Q3 + Q1).............................................. 29 4. Anlisis Numrico para datos procesados, secundarios o agrupados. .............................. 29 4.1. Medidas de Tendencia Central o de Promedio o de Posicin. ....................................... 30 Media aritmtica (Xa) = = (Xifi) / fi ......................................................................................... 31 Moda (Mo) = L + (1* ic/ ( 1 + 2 )) ........................................................................................... 31 Percentiles (P%) = L + ((% *n - fi-1 ) / f% i ) * ic.............................................................................. 32 4.2. Medidas de Dispersin o de Variacin o de Sesgo ....................................................... 33
Rango (R) tambin llamado Amplitud o Recorrido = Mximo - Mnimo ............................. 33 Desviacin Estndar ()= ( (Xi - Xa )2 * fi / (n-1)) ; .............................................................. 33 Coeficiente de variacin (CV) = * 100 / Xa .............................................................................. 34 5. Resumen de los clculos para Datos Primarios y Datos Secundarios. ............................. 34 Conclusion. ........................................................................................................................................ 36
Pgina 3 de 36
Estadstica Descriptiva. Debido a lo extenso y variado del campo cubierto por la Estadstica es difcil proponer una definicin precisa del concepto. No obstante, tcitamente todos los estadsticos estn de acuerdo en clasificar la materia en dos tipos, cuales son, la Estadstica Descriptiva y la Estadstica Inductiva o Inferencial. La Estadstica Descriptiva trata del resumen y descripcin de los datos. Dicho resumen puede ser Tabular, Grafico o Numrico. El anlisis se limita en s mismo a los datos coleccionados y no se realiza inferencia alguna o generalizacin acerca de la totalidad de donde provienen esas observaciones (Poblacin). Si bien la descripcin de los hechos recolectados es a veces en s misma el fin que se propone, en la mayora de los anlisis estadsticos estamos realmente ms al comienzo de la tarea que al trmino de la misma. La estadstica descriptiva no es ms que el trabajo preliminar para la inferencia. Por ejemplo, si un jefe de personal somete a un test de aptitud a un grupo de graduados universitarios recientemente contratados; entre lo que puede hacer con los datos que resultan del test valindose de la estadstica descriptiva, estn los aspectos siguientes: Tabular los datos o clasificarlos de manera que con solo dar un vistazo se pueda tener una imagen general de los mismos; calcular algunos promedios y reconocer algo sobre la aptitud tpica de los empleados; construir tablas, graficas y cuadros para visualizar el comportamiento de los datos o bien convertir los datos brutos en rangos o en percentiles para hacer comparaciones; utilizar el promedio como punto de localizacin y describir la variabilidad o dispersin de los datos. Adems, si despus se obtienen ciertas medidas sobre el rendimiento en el trabajo de estos empleados, se puede tratar de describir la relacin entre los valores obtenidos en el test y dichas mediciones. Y en cuanto se establezca una relacin semejante, se puede predecir el rendimiento de un empleado en su trabajo con base a los resultados obtenidos en el test de aptitud. La Estadstica Inferencial o Inductiva es el proceso de hacer predicciones acerca de un todo o tomar decisiones al basarnos en la informacin recogida en la muestra, por lo tanto la estadstica inferencial se refiere a la rama de la estadstica que trata de los procesos inferenciales, la que a su vez comprende la teora de estimacin y prueba de hiptesis. Al resear las dos facetas de la estadstica, se puede resumir como sigue el significado de estadstica: La Estadstica es la ciencia, pura y aplicada, que crea, desarrolla y aplica tcnicas, de modo que pueda evaluarse la incertidumbre derivada de inferencias inductivas. Las decisiones estadsticas se basan en DATOS que pueden ser numricos o categricos, los primeros corresponden a variables cuantitativas, mientras que los segundos a variables
Pgina 4 de 36
cualitativas; no obstante tambin podemos estudiar situaciones donde estn presentes variables que impliquen aptitudes, actitudes y otras caractersticas, para ello debemos aplicarles una escala de modo que podamos medirlos, evaluarlos, estudiarlos y obtener conclusiones. Los datos pueden contener magnitudes de una variable en fechas sucesivas, tales datos se llaman Series Temporales o Series Cronolgicas. Los datos pueden combinarse simultneamente de manera que el elemento tiempo no interviene, adems este tipo de datos puede contener solo una variable o dos o varias, llamadas respectivamente univariante, bivariante y multivariante. En este momento, es importante distinguir entre una categrica (cualitativa) y una variable numrica (cuantitativa). Variables cualitativas son aquellas que se cuentan, no se miden en la mayora de los casos, forman grupos y representan caractersticas, ejemplos de ellos son: Sexo: dicotmica Estado civil Tipo de vivienda Desempleo o paro Municipios del estado Uso de la Tierra Sector productive Aprobado o aplazados Profesin: Mencin Artculos defectuosos Tamao Grupo familiar Tipo de personal
Variables cuantitativas son aquellas que se pueden medir, son numricas y no forman grupos en la mayora de los casos, ejemplos de ellos son: Ingreso en Bs.F Consumo Edades en aos Los salarios de los obreros Gastos en pasajes Evaluaciones de las pruebas Estatura en metros Peso en Kgs Dimetro en mm Precio Ventas en Bs.F Aos de estudio
La descripcin de una sola variable, para la cual el tiempo no es un factor, supone tres mediciones principales: la distribucin, el promedio y la variacin de la variable.
Pgina 5 de 36
Los clculos del promedio y de la variacin suelen requerir en muchos casos de la distribucin como base, por consiguiente comenzaremos nuestro anlisis formal de los datos de masas con la distribucin de una variable. Desarrollaremos el cuadro de distribucin de frecuencias y los grficos asociados al mismo: Histograma, polgono de frecuencias y la ojiva ascendente; luego calcularemos las medidas de tendencia central y de dispersin y todas las otras.
Desarrollo del curso de Estadstica Descriptiva Con el objeto de facilitar la comprensin del tema, hemos decidido desarrollarlo como Estudio de Casos, para ello nos hemos planteado dos casos a saber: Primer Caso: Adquisicin de una flota de vehculos por Marcas para una empresa privada u organismo gubernamental o empresa del estado. Segundo Caso: Contratacin de participantes de la UNESR por Mencin de parte de una empresa privada u organismo gubernamental o empresa del estado. En ambos casos se ha hecho uso de DATOS, en el primer caso la informacin fue suministrada por los fabricantes de vehculos en sus pginas Web, mientras que en el segundo caso, la informacin fue recabada por encuestas realizadas a los participantes de la UNESR del Ncleo Palo Verde. La informacin y los clculos se presentan en un archivo denominado Anexos del Curso de Estadstica Descriptiva que pueden descargar del Blog: www.stredelcursos.blogspot.com donde aparece con el mismo nombre. El estudio y anlisis lo iremos haciendo para ambos casos en forma simultnea, de manera que se puedan observar las similitudes y las diferencias. Los participantes podrn darse cuenta que desde el punto de vista estadstico, el anlisis es idntico y solo difiere en la aplicacin de los casos.
Pgina 6 de 36
observacin o anlisis. Marca Precio Cilindros Cilindrada Potencia RPM Peso Puestos Cons90 Cualitativa Cuantitativa Cualitativa Cuantitativa Cuantitativa Cuantitativa Cuantitativa Cualitativa Cuantitativa Identifica la Marca Precio del vehculo en Bs.F Numero de cilindros del vehculo Capacidad en centmetros cbicos Potencia en HP Revoluciones por minutos Peso del vehculos en Kgs Numero de puesto incluido el chofer Consumo de gasolina en litros/100 Km a 90 Km/h Cons120 Cuantitativa Consumo de gasolina en litros/100 Km a 120 Km/h Consurb Cuantitativa Consumo de gasolina en litros/100 Km en la ciudad Velocidad Aceleracin Cuantitativa Cuantitativa Velocidad en Km/h Tiempo en segundos en alcanzar 100 Km/h
Variables Planilla
Tipo
Cdula
encuestado, unidad de muestreo o respondiente. Mencin Ingreso Fam Ncleo Fam Edad Aprec Num Cualitativa Cuantitativa Cualitativa Cuantitativa Cualitativa Identifica la Mencin que estudia Ingreso mensual de la familia en Bs.F Nmero de miembros en la familia Edad en aos Aprecio por los nmeros: 1 = Poco; 2 = Medio y 3 = Mucho Prim Eval Cuantitativa o cualitativa Seg Eval Cuantitativa o cualitativa Gnero Municipio Nota Estad Cualitativa Cualitativa Cuantitativa o cualitativa Nota Matem Cuantitativa o cualitativa Empleado Estatura Cualitativa Cuantitativa Nota de la primera evaluacin en la escala del 1 al 20 Nota de la segunda evaluacin en la escala del 1 al 20 Gnero del participante Municipio donde vive Nota de Estadstica en la escala del 1 al 20 Nota de Matemtica en la escala del 1 al 20 Si o no est empleado actualmente Estatura en metros
Anlisis superficial de los datos. En una primera revisin al archivo: Anexos al Curso de Estadstica Descriptiva, encontramos en ambas hojas de datos, variables cualitativas y variables cuantitativas, pero es importante resaltar que hay dos columnas o variables (En lo sucesivo nos referiremos a variables y omitiremos la palabra columna) de datos que no representan ninguna variable. La variable Planilla en ambos archivos solo sirve para chequear la informacin en caso de discrepancias o errores en la transcripcin de los datos, mientras que la variable Modelo en el archivo Vehculos o Cdula en el
Pgina 8 de 36
archivo Participantes tampoco representan variables sino la unidad de muestreo o de observacin del estudio en cuestin y se utiliza con fines de supervisin de la informacin. Quien tenga prctica en el examen de un conjunto de datos podr descubrir, tras un par de minutos y con esfuerzo considerable, la distribucin de los vehculos por Marcas o de los participantes por Menciones, mientras que para una mente no acostumbrada el cuadro anterior carece de significado.
1.
Comenzaremos nuestro estudio, analizando las variables cualitativas, solo que en este caso lo haremos con una de ellas en cada hoja. Utilizaremos la variable MARCA del archivo vehculo y la variable MENCION del archivo Participantes. El curso lo har con las dems. Una distribucin de frecuencias es un cuadro de doble entrada y debe tener la siguiente informacin: Titulo: Es el encabezado del cuadro Columnas: Tres columnas, la primera es denominada clase, la segunda es reservada para la frecuencia absoluta y la tercera y ltima se destina para la frecuencia relativa. Total: Se ubica en la parte inferior del cuadro totalizando las frecuencias Fuente y fecha de emisin: Se ubica en el pie de pgina
El grafico tiene la misma informacin que la distribucin, solo que presentada en forma grafica.
Construccin de la Distribucin de Frecuencias: En tres pasos. Una distribucin de frecuencias de variables categricas o cualitativas muestra el nmero de observaciones, absolutas o relativas, que corresponden a cada una de las clases, por otra parte, es relativamente sencillo construirlo porque no necesitamos preocuparnos por detalles matemticos como los limites de clases, los intervalos de clases, los puntos medios o marcas de clases o el nmero de clases o categoras que han de usarse como sucede cuando la variable es cuantitativa. Las clases deben ser mutuamente excluyentes y exhaustivas o suficientes para contener todos los datos. Sin embargo es muy fcil errar escogiendo clases traslapantes en vez de datos cualitativos. 1er. Paso: Formar las clases Las clases son las diferentes Marcas o Menciones. Estas clases se obtienen de una revisin simple de los datos. 2do. Paso: Hallar las frecuencias absolutas.
Pgina 9 de 36
Las frecuencias absolutas (Cantidad de vehculos o de participantes), se obtiene contando el nmero de veces que aparece cada Marca o Mencin. Los datos son la unidad de muestreo y tambin la unidad informante en algunos casos. Cada dato sobre la marca corresponde a un vehculo y cada dato sobre la mencin corresponde a un participante. 3er) Paso: Calcular las frecuencias relativas porcentuales. La frecuencia relativa porcentual se obtiene dividiendo cada valor de la frecuencia absoluta entre el total y el resultado multiplicarlo por 100 para expresarlo en porcentaje.
ASIA MOTORS CHEVROLET DAIHATSU FORD JEEP KIA LADA LAND ROVER MERCEDES MITSUBISHI NISSAN OPEL SSANGYONG SUZUKI TATA
2,40 0,80 0,80 5,60 8,00 1,60 1,60 12,00 4,80 12,00 15,20 7,20 3,20 15,20 1,60
Pgina 10 de 36
6 4 125
Fuente: Feria del Automvil de Francia, Noviembre 2012 Resumen: Puede observarse que la mayora de los vehculos de la muestra son de la marca Nissan o Suzuki con 19 vehculos cada marca lo que representan entre las dos 30.40 % ; es decir 1 de cada 3 vehculos son de las marcas Nissan o Suzuki.
1.2. Distribucin de Frecuencias y grfica de la variable cualitativa: MENCION Distribucin Muestral de los Participantes por Menciones MENCIONES Nmero de Participantes en unidades 5 19 %
4,00 15,20
Pgina 11 de 36
Educ. Integral Educ. Matemtica Informtica Mercadeo Org y Sistema Rec. Humanos Rec. Mat y Financ TOTAL
16 2 14 24 10 15 20 125
Resumen: Puede observarse que la mayora de los participantes de la muestra estudian Mercadeo o Recursos Materiales y Financieros con 44 participantes que representan el 35,20 % del total. Es preocupante lo que ocurre con las menciones Educacin Ingles y Educacin Matemtica, apenas un 5,60 %
Pgina 12 de 36
Debe resaltarse que podemos utilizar cualquier grfico para informar sobre el comportamiento de la variable en estudio, igualmente puede utilizarse la frecuencia absoluta o la frecuencia relativa en cada grfico pero no ambas porque la escala de medicin de la frecuencia es diferente, es decir la frecuencia absoluta se mide en unidades mientras que la frecuencia relativa se mide en porcentajes. Cuando se presenta un estudio con un nmero de datos relativamente pequeo es decir menos de 300 observaciones, estas distribuciones se hacen manualmente pero es latoso y se genera mucho error y cansancio visual, por ello, recomendamos que se utilice la funcin Contar si de EXCEL o su equivalente en LINUX para realizar el trabajo. Si el nmero de datos de una variable alcanza una cifra de 1200 observaciones o ms, entonces es preferible manejar esa informacin con software estadstico como el SPSS de una versin actualizada, por ejemplo la versin 19 o ms recientes.
2.
Continuamos nuestro estudio, analizando las variables cuantitativas, solo que en este caso lo haremos con una de ellas en cada hoja. Utilizaremos la variable RPM del archivo Vehculo y la variable NOTA ESTAD del archivo Participantes. El curso lo har con las dems. Una distribucin de frecuencias es un cuadro de doble entrada y debe tener la siguiente informacin: Titulo: Es el encabezado del cuadro Columnas: Cinco columnas, la primera es denominada clase, la segunda es reservada para la frecuencia absoluta, la tercera se destina para la frecuencia relativa, la cuarta es usada para reflejar la frecuencia absoluta acumulada y la quinta y ltima para la frecuencia relativa acumulada. Total: Se ubica en la parte inferior del cuadro totalizando las frecuencias absolutas y relativas pero no las acumuladas. Fuente y fecha de emisin: Se ubica en el pie de pgina
El grafico tiene la misma informacin que la distribucin, solo que presentada en forma grafica.
Construccin de la Distribucin de Frecuencias: En tres pasos. Una distribucin de frecuencias de variables cuantitativas muestra el nmero de observaciones, absolutas o relativas, simple o acumuladas, que corresponden a cada una de las clases, por otra parte, necesitamos preocuparnos por detalles matemticos como los limites de clases, los intervalos de clases, los puntos medios o marcas de clases o el nmero de clases o categoras que han de
Pgina 13 de 36
usarse. Las clases deben ser mutuamente excluyentes y exhaustivas o suficientes para contener todos los datos. Sin embargo es muy fcil errar escogiendo clases traslapantes. 1er. Paso: Formar las clases: Cuantas y Cuales y las marcas de clases o punto medio. a.Encontrar los valores mximo y mnimo de los datos: Max y Min y Calcular el rango R = Rango = Max Min N = 1 + 3.3 Log (n) = 1 + 1.43 Ln (n) , donde N es el numero de clases y n el numero de datos. El valor de N se escoge generalmente entre 5 y 12 Calcular el IC = Intervalo de clase = R / N b.Calcular los lmites superiores y lmites inferiores de cada clase. * Lmite superior de cada clase: Al valor Mnimo se le suma el IC y formamos el primer lmite superior de la primera clase, luego a ese resultado le sumamos el IC y obtenemos el segundo lmite superior de la segunda clase y as se hace en forma sucesiva hasta completar el lmite superior de todos los intervalos incluyendo el ltimo que deber ser igual o mayor al Mximo. * Lmite inferior de cada clase: El primer lmite inferior es el Mnimo. Los lmites inferiores sucesivos de cada clase se forma sumndole una decima o centsima al lmite superior del intervalo inmediato anterior para evitar el solapamiento. c.Calcular las marcas de clases. Las Marcas de clases o punto medio de las clases se halla sumando los dos valores: lmite inferior + lmite superior de la clase y el total se divide entre 2; Xi = (Lim Inferior + Lim Superior) / 2 2do. Paso: Hallar las frecuencias absolutas y relativas %. Las frecuencias absolutas (Cantidad de vehculos o de participantes), se obtiene contando el nmero de valores de la variable en estudio que contiene cada intervalo o clase correspondiente. Previamente se va asignando cada valor a la clase a la cual pertenece o es elemento de la misma, es decir pertenece a la clase si se encuentra dentro de los lmites de la clase. La frecuencia relativa porcentual se obtiene dividiendo cada valor de la frecuencia absoluta entre el total y el resultado multiplicarlo por 100 para expresarlo en porcentaje. 3er. Paso: Hallar las frecuencias acumuladas absolutas y acumuladas relativas % . La frecuencia absoluta acumulada se halla sumando la frecuencia absoluta de arriba hacia abajo comenzando con la primera. El valor mximo debe ser igual al total La frecuencia relativa acumulada se halla sumando la frecuencia relativa de arriba hacia abajo comenzando con la primera. El valor mximo debe ser igual a 100
Pgina 14 de 36
Los datos son la unidad de muestreo y tambin la unidad informante en algunos casos. Cada dato sobre las RPM corresponde a un vehculo y cada dato sobre la Nota Estad corresponde a un participante.
Distribucin de los Vehculos en funcin de las revoluciones por minutos RPM Revoluciones Por Minutos (RPM) 3.237,5 3.600,0 3.962,6 4.325,1 4.687,6 5.050,1 5.412,6 5.775,1 6.137,6 6500,1 3599,9 3.962,5 4.325,0 4.687,5 5.050,0 5.412,5 5.775,0 6.137,5 6.500,0 6.862,5 Nmero Revolucin de media vehculos 3418,75 3781,25 4143,80 4506,30 4868,80 5231,30 5593,80 5956,30 6318,80 6681,30 0 9 43 17 13 19 16 6 2 0 7,20 34,40 13,60 10,40 15,20 12,80 4,80 1,60 Nmero acumulado de vehculos 0 9 52 69 82 101 117 123 125 7,20 41,60 55,20 65,60 80,80 93,60 98,40 100,00 Porcentaje acumulado %
Total 125 100,00 Fuente: Feria del Automvil de Francia, Noviembre 2012
Pgina 15 de 36
Pgina 16 de 36
Distribucin de los Participantes en funcin de las Notas de Estadsticas Notas en Estadsticas en la Escala del 1 al 20 -2,8 1,0 4,9 8,7 12,5 16,3 20,1 0,9 4,8 8,6 12,4 16,2 20,0 23,8 Notas medias -0,90 2,90 6,75 10,55 14,35 18,15 21,95 Nmero de participantes 0 25 21 35 21 23 0 20,00 16,80 28,00 16,80 18,40 Nmero acumulado de participantes 0 25 46 81 102 125 20,00 36,80 64,80 81,60 100,00 Porcentaje acumulado %
100
Pgina 17 de 36
Resumen: Puede observarse en relacin a la variable RPM que la mayora de los vehculos (34.4% es decir 43 de 125 chequeados) sus revoluciones oscila entre 3962,6 rpm y 4325 rpm y adicionalmente podemos decir que el 41.60 % es decir 52 de 125 vehculos tiene una revolucin igual o menor a 4325 rpm. Por otra parte, si nos referimos a la variable Notas en Estadsticas podemos decir que el 28% de los participantes (35 de un total de 125) tiene notas entre 8.7 y 12.4 puntos, sin embargo un 35.2% tiene notas por encima de 12.4 puntos y el 8.4% supera la nota de 16.2 puntos, calificados como EXCELENTES. Aclaramos que la escala de nota es del 1 al 20, ambos inclusive. Por otra parte es preocupante que 64.8 % (81 de 125) de los participantes hayan resultados reprobados dado que obtuvieron notas iguales o inferiores a 12.4 puntos en base a 20 mximo.
Grfica de las variables cualitativas y cuantitativas. Como ustedes podrn ver, una imagen expresa ms que 1000 palabras. Hemos presentados los resultados en forma grfica, utilizando para ello varios grficos. En el caso de las variables cualitativas utilizamos el diagrama de barra y el grfico de sectores, mientras que para las variables cuantitativas aplicamos el Histograma cuya presentacin es en forma de barra, el polgono de frecuencia cuya forma es por medio de una curva quebrada y por ltimo aplicamos la ojiva ascendente que es una curva suave. Todos los grficos fueron desarrollados en EXCEL y copiado y pegado en WORD.
Pgina 18 de 36
Cuando se presenta un estudio con un nmero de datos relativamente pequeo es decir menos de 300 observaciones, estas distribuciones se hacen manualmente pero es latoso y se genera mucho error y cansancio visual, por ello, recomendamos que se utilice la funcin Frecuencia de EXCEL o su equivalente en LINUX para realizar el trabajo. Si el nmero de datos de una variable alcanza una cifra de 1200 observaciones o ms, entonces es preferible manejar esa informacin con software estadstico como el SPSS de una versin actualizada, por ejemplo la versin 19 o ms recientes.
3. Anlisis Numrico para datos brutos, primarios o no agrupados. Hemos realizado la recopilacin, la tabulacin y las grficas de los datos, ahora nos centraremos en el anlisis numrico de los mismos, sin embargo es importante distinguir entre datos brutos o primarios o no agrupados y datos procesados o secundarios o agrupados. Los datos brutos o primarios o no agrupados son aquellos que fueron recogidos, recopilados o recolectados y se presentan generalmente en columnas o en filas o en tablas, una muestra de ello, es la informacin presentada en dos hojas de EXCEL denominadas Datos Vehculos y Datos Participantes y lo pueden descargar del Blog: www.stredelcursos.blogspot.com donde aparece con el nombre de Anexos del Curso de Estadstica Descriptiva. Los datos procesados o secundarios o agrupados son aquellos que se presentan en cuadro de distribucin de frecuencias o cuadros resmenes o tablas de contingencias, donde una distribucin de frecuencias de variables cualitativas o cuantitativas muestra el nmero de observaciones, absolutas o relativas, simple o acumuladas, que corresponden a cada una de las clases o variables. Estos tipos de datos lo hemos presentados en los puntos: 1.1 Distribucin Muestral de los Vehculos por Marcas 1.2 Distribucin Muestral de los Participantes por Menciones 2.1 Distribucin de los Vehculos en funcin de las revoluciones por minutos RPM 2.2 Distribucin de los Participantes en funcin de las Notas de Estadsticas La distribucin de frecuencias no solo es un mtodo de organizar los datos; es tambin una medida descriptiva. En realidad, puede considerarse como una serie de estadsticas descriptivas, puesto que cada nmero que indica la densidad de observaciones en una clase es una estadstica descriptiva. Sin embargo, con frecuencia necesitamos una sola estadstica descriptiva que pueda enfocar la atencin ms ntidamente en la naturaleza de los datos que se estn midiendo; el uso de un solo nmero es, sin duda, ms ventajoso que la distribucin de frecuencias.
Pgina 19 de 36
Un nmero usado para describir una serie debe ser representativo de los datos medidos por l, por esta razn, un nmero representativo se considera como una medida. Ms comnmente, es conocido como un Promedio. Los promedios, las desviaciones o las medidas de dispersin basados en sus propiedades matemticas, forman partes de las denominadas medidas descriptivas numricas las cuales se clasifican en Parmetros cuando se calculan a partir de los datos de la poblacin, siendo N el tamao de la poblacin y en Estadsticos cuando se calculan a partir de los datos de una muestra, siendo n el tamao de la muestra. Un promedio, como un valor significativo adoptado para representar la tendencia central de una serie, es una medida muy poderosa. Sin embargo, el uso de un solo valor para describir una distribucin, oculta muchos hechos importantes. La toma de decisiones con frecuencia exige la revelacin de estas caractersticas ocultas de la distribucin, por consiguiente, debemos exponer ahora medidas caractersticas para resumir y describir esas caractersticas ocultas. Casi sin excepcin, las cantidades incluidas en una distribucin siempre difieren del valor central, aunque el grado de desviacin vara de una serie a otra. Adems, poco puede revelarse sobre la dispersin, aunque se computen varios promedios para la serie. As, se necesita una medida del grado de dispersin o variacin con objeto de dar una descripcin ms completa de las principales caractersticas de una distribucin o hacer posible una comparacin efectiva de dos o mas distribuciones. La variacin es, con mucho, la caracterstica ms importante de una distribucin; puede ser la base para la toma de decisiones o una medida para seguir desarrollando la teora y el mtodo estadstico. La variedad no es solo la sal de la vida, sino tambin la esencia de la Estadstica.
3.1. Medidas de Tendencia Central o de Promedio o de Posicin. Desarrollaremos frmulas, procedimientos y clculos para este tipo de datos que como ya lo hemos indicado son aquellos que fueron recogidos, recopilados o recolectados y se presentan generalmente en columnas o en filas o en tablas, puede utilizarse para el clculo, calculadoras que en su funcionamiento incluya el modo SD, computadoras o cualesquiera otros medios dependiendo del nmero de datos que se est manipulando. La informacin sobre las variables y los clculos se presentan en un archivo denominado Anexos del Curso de Estadstica Descriptiva que pueden descargar del Blog: www.stredelcursos.blogspot.com donde aparece con el mismo nombre.
Pgina 20 de 36
Las variables que analizaremos son las mismas que hemos venido usando hasta ahora: MARCA y RPM del archivo Vehculo y MENCION y NOTA ESTAD del archivo Participantes. Debo mencionar que la aplicacin EXCEL o su equivalente CALC en UBUNTU tienen funciones estadsticas que permiten obtener los resultados de forma directa. Se indicar el nombre de la funcin utilizada, si existe. Las medidas que desarrollaremos se presentan a continuacin: Media aritmtica (Xa ) Media geomtrica (Xg) Media armnica (Xh) Media cuadrtica (Xc) Media ponderada (Xw) Moda (Mo) Mediana (Me) Es el valor que ms se repite o es ms frecuente. Valor que divide a la poblacin en dos partes iguales, es decir 50 % por debajo y 50% por encima del mismo Q 1 Valor que divide a la poblacin en dos partes, 25% por debajo y 75% por encima del mismo; Q 2 Valor que divide a la poblacin en dos partes, 50 % por debajo y 50% por encima del mismo y Q 3 Valor que divide a la poblacin en dos partes, 75 % por debajo y 25% por encima del mismo. Valor que divide a la poblacin en dos partes, es decir p% por debajo y (100 p)% por encima del mismo Porcentaje de la poblacin que est por debajo de valor X definido previamente, entendindose que un porcentaje complementario a 100 estar por encima de ese valor. Representan centro de gravedad o punto de equilibrio o regularidad.
Percentiles (P%)
Rango percentil Rp
Pgina 21 de 36
No aplica
No aplica
4670,88
10,3
Media geomtrica (Xg) = [ (Xi )]1/n donde significa productorio Primeramente se debe obtener el logaritmo neperiano de cada valor y sumarse. Ese total se divide entre n que es el tamao de la muestra y finalmente se calcula el exponencial del valor obtenido Xg = eLn(xi)/n Funcion: Media.Geom
No aplica
No aplica
4658,0
8,0
Media armnica (Xh) = n / (1/Xi) donde 1/Xi significa reciproco Primeramente se debe obtener el recproco de cada valor y sumarse. Luego n que es el tamao de la muestra se divide entre ese total obtenido. Media.Armo
No aplica
No aplica
4567,1
4,9
Pgina 22 de 36
Media cuadrtica(Xc) = ( (Xi2) / n) donde significa Raiz Cuadrada Primeramente se debe obtener el cuadrado de cada valor y sumarse. Ese total se divide entre n que es el tamao de la muestra y finalmente se calcula la raz cuadrada. No Existe
No aplica
No aplica
4725,0
11,7
Operacion Sumatoria del WiXi Sumatoria del Wi, donde Wi = RPM Sumatoria del Wi, donde Wi = Nota Estad Media ponderada
MARCA No aplica
MENCION No aplica
RPM 5.980.110
583.860 1285
No aplica
No aplica
4653,78
10,242
Pgina 23 de 36
RPM
MARCA No aplica
MENCION No aplica
RPM
NOTA ESTAD 10
4500
Pgina 24 de 36
NOTA ESTAD 1 7 10 15 20
Percentil 42 80
NOTA ESTAD 9 16
Pgina 25 de 36
RPM
NOTA ESTAD
MARCA
MENCION
4000 5000
12 16
No aplica No aplica
No aplica No aplica
7,25 63,7
60,48 78,22
3.2. Medidas de Dispersin o de Variacin o de Sesgo Rango o Amplitud (R) Rango intercuartlico (RI) Desviacin cuartil (DQ) Desviacin media (DM) Desviacin Estndar () Varianza (V) Representan error o riesgo o calidad. En el caso del Rango representa margen o distancia o error mximo, dado que mide la distancia entre el mximo y el mnimo. La desviacin estndar representa un promedio de las desviaciones y es la ms utilizada seguida del rango
Es el cuadrado de la Desviacin Estndar y es un operador matemtico y estadstico Son medidas relativas y se expresan en porcentajes. Significa que porcentaje de desviacin existe con respecto al valor central o regular.
Coeficiente de variacin (CV) Coeficiente de desviacin media (CDM) Coeficiente de desviacin cuartil (CDQ)
Pgina 26 de 36
MARCA No aplica
MENCION No aplica
RPM 2900
NOTA ESTAD 19
MARCA No aplica
MENCION No aplica
RPM 1200
NOTA ESTAD 8
MARCA No aplica
MENCION No aplica
RPM 600
NOTA ESTAD 4
MARCA No aplica
MENCION No aplica
RPM 619,69
Pgina 27 de 36
MARCA No aplica
MENCION No aplica
RPM 716,04
Varianza (V) =
2 = (Xi - Xa )2 /( n-1)
Var
La varianza es el cuadrado de la Desviacin Estndar (). Se realizan todos los pasos del clculo anterior sin extraer la raz cuadrada.
MARCA No aplica
MENCION No aplica
RPM 512714,54
MARCA No aplica
MENCION No aplica
RPM 15,33 %
Pgina 28 de 36
DM es la desviacion
media aritmtica y el resultado se multiplica por 100 para expresarlo en porcentaje. No Existe
MARCA No aplica
MENCION No aplica
RPM 13,27 %
MARCA No aplica
MENCION No aplica
RPM 13,04 %
Pgina 29 de 36
4.1. Medidas de Tendencia Central o de Promedio o de Posicin. Desarrollaremos frmulas, procedimientos y clculos para este tipo de datos, y puede utilizarse calculadoras que en su funcionamiento incluya el modo SD, computadoras o cualesquiera otros medios. La informacin sobre las variables y los clculos se presentan en un archivo denominado Anexos del Curso de Estadstica Descriptiva que pueden descargar del Blog: www.stredelcvursos.blogspot.com donde aparece con el mismo nombre. Las variables que analizaremos son las mismas que hemos venido usando hasta ahora: MARCA y RPM del archivo Vehculo y MENCION y NOTA ESTAD del archivo Participantes. Debo mencionar que la aplicacin EXCEL o su equivalente CALC en UBUNTU no tienen funciones estadsticas que permiten obtener los resultados de forma directa para este tipo de variables presentada como datos procesados. Todas las medidas que desarrollamos en el punto 3.1. tambin pueden calcularse para datos procesados, pero dado el hecho practico nos centraremos solo en las ms comunes y utilizadas. Las medidas que desarrollaremos se presentan a continuacin: Media aritmtica (Xa ) Representan centro de gravedad o punto de equilibrio o regularidad. Moda (Mo) Percentiles (P%) Es el valor que ms se repite o es ms frecuente. Valor que divide a la poblacin en dos partes, es decir p% por debajo y (100 p)% por encima del mismo. El Percentil 0 es el Mnimo, el Percentil 25 es el Primer Cuartil Q1, el Percentil 50 es el Segundo Cuartil Q2 y es tambin la Mediana Me, el Percentil 75 es el Tercer Cuartil Q3 y finalmente el Percentil 100 es el Mximo.
Pgina 30 de 36
Media aritmtica (Xa) = = (Xifi) / fi donde significa sumatoria, Xi es la marca de clase y fi es la frecuencia absoluta. Se multiplica los valores de Xi por fi , se suman y el resultado se divide entre el nmero de datos.
No aplica
No aplica
4715,10
10,4
Moda (Mo) = L + (1* ic/ ( 1 + 2 )) Donde L es el lmite inferior de la clase modal; 1 es la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase pre modal (desprciese los signos); 2 es la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase pos modal (desprciese los signos); ic es el tamao del intervalo de clase de la clase modal. La clase modal es aquella que tiene mayor frecuencia, la pre modal es la anterior y la pos modal la siguiente. En el caso de las variables cualitativas se halla inspeccionando el cuadro de distribucin de frecuencia y se selecciona de la serie aquel valor o valores que aparezca ms veces que cualquier otro. Puede haber mas de una Moda. Si la variable es cuantitativa se procede como aparece en la frmula arriba presentada y se realizan los clculos como lo indica la notacin.
Pgina 31 de 36
RPM
4167,96
Percentiles (P%) = L + ((% *n - fi-1 ) / f% i ) * ic Donde L es el lmite inferior de la clase percentil; n es el total de observaciones muestrales; fi-1 es la suma de todas las frecuencias acumuladas hasta la clase inmediata anterior a la clase percentil; f%
i
percentil. La clase percentil es aquella donde se acumula el porcentaje dado de datos. El Percentil 0 es el Mnimo, el Percentil 25 es el Primer Cuartil Q1, el Percentil 50 es el Segundo Cuartil Q2 y es tambin la Mediana Me, el Percentil 75 es el Tercer Cuartil Q3 y finalmente el Percentil 100 es el Mximo. Solo es aplicable para variables cuantitativa, se procede como aparece en la frmula arriba presentada y se realizan los clculos como lo indica la notacin.
Percentil
MARCA
MENCION
RPM
NOTA ESTAD
42 80
No aplica No aplica
No aplica No aplica
4335,76 5393,43
9,39 15,85
Pgina 32 de 36
4.2. Medidas de Dispersin o de Variacin o de Sesgo Todas las medidas que desarrollamos en el punto 3.2. tambin pueden calcularse para datos procesados, pero dado el hecho prctico nos centraremos solo en las ms comunes y utilizadas. Las medidas que desarrollaremos se presentan a continuacin: Rango o Amplitud (R) Representan error o riesgo o calidad. En el caso del Rango representa margen o distancia o error mximo, dado que mide la distancia entre el mximo y el mnimo. Desviacin Estndar () Coeficiente de variacin (CV) Representa un promedio de las desviaciones y es la ms utilizada Son medidas relativas y se expresan en porcentajes. Significa que porcentaje de desviacin existe con respecto al valor central o regular.
Rango (R) tambin llamado Amplitud o Recorrido = Mximo - Mnimo Representa margen o distancia o error mximo. Utilizando el cuadro de la distribucin de frecuencia se calcula realizando la diferencia del lmite superior de la ltima clase menos el lmite inferior de la primera clase.
MARCA No aplica
MENCION No aplica
RPM 2900
NOTA ESTAD 19
Desviacin Estndar ()= ( (Xi - Xa )2 * fi / (n-1)) ; El smbolo significa raz cuadrada y la letra se lee sigma; donde significa sumatoria, Xi es la marca de clase, Xa es la media aritmtica y fi es la frecuencia absoluta. Representa error o variacin promedio. Primeramente se debe obtener el cuadrado de las diferencias de cada valor con respecto a la media, luego multiplicarse por la frecuencia fi y sumarse. Ese total se divide entre n -1 donde n es el tamao de la muestra y finalmente al resultado de la divisin se le extrae la raz cuadrada.
Pgina 33 de 36
MARCA No aplica
MENCION No aplica
RPM 664,39
Coeficiente de variacin (CV) = * 100 / Xa Representa el porcentaje de desviacin que tienen los valores con respecto a la media aritmtica. (sigma) es la desviacin estndar y Xa es la media aritmtica. Se divide la desviacin estndar entre la media aritmtica y el resultado se multiplica por 100 para expresarlo en porcentaje.
MARCA No aplica
MENCION No aplica
RPM 14,09 %
Medidas vs Variables
Marca
Mencin Primarios
Media
No aplica
No aplica Si aplica
4670,88
Moda
Si aplica
4000
4167,96
11
10,55
No aplica No aplica
No aplica No aplica
716,04
664,39
5,61
5,23
15,33
14,09
54,62
50
Pgina 34 de 36
(%)
Perc42
No aplica
No aplica No aplica
4400
4335,76
9,39
Perc80
No aplica
5400
5393,43
16
15,85
Pgina 35 de 36
Conclusin.
Puede concluirse despus de analizar por separados los datos primarios y los datos secundarios lo siguiente: Las variables cualitativas solo permite el clculo de la Moda. Pueden calcularse las medidas estadsticas ya sea que se trate de datos primarios o datos secundarios. Hay diferencia en los resultados obtenidos de las medidas para la misma variable. Esa es la regla. Los datos primarios tienen errores de muestreo y ajenos al muestreo, mientras que los secundarios tienen adicional a los anteriores, errores de representatividad como es el caso de las marcas de clase. Los datos primarios son costoso y requiere tiempo para su recoleccin, por otra parte, las empresas no los publican, mientras que los secundarios son de fcil acceso porque las instituciones y empresas si lo hacen, generalmente sin costo alguno o a un bajo costo. Es preferible datos primarios que secundarios pero a falta de pan bueno son tortas, es decir mejor es algo que nada. Finalmente es posible relacionar las variables cualitativas con las cuantitativas. Las cualitativas se utilizan preferiblemente para agrupar caractersticas, mientras que las cuantitativas se usan para determinar Estadsticos o Parmetros, y se relacionan ambos tipos de variables por medio de tablas dinmicas o cuadros de varias entradas. La informacin presentada en este tipo de tabla y los clculos realizados en EXCEL se presentan en un archivo denominado Anexos del Curso de Estadstica Descriptiva que pueden descargar del Blog: www.stredelcursos.blogspot.com donde aparece con el mismo nombre. Espero que sea de utilidad este Curso Elemental de Estadstica Descriptiva.
Pgina 36 de 36