You are on page 1of 128

Facultad de Ciencias del Trabajo

Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales


Francisco lvarez Gonzlez Octubre 2005

CURSO 2005-06 MTODOS ESTADSTICOS APLICADOS A LAS AUDITORAS SOCIOLABORALES

Profesores Francisco lvarez Gonzlez francisco.alvarez@uca.es Prcticas: Mara Jos Snchez Quevedo Carmen Mara Caballero Alvarez Objetivos Introducir al alumno en las aplicaciones estadsticas de las auditoras sociolaborales. Capacitar al alumno para que pueda desarrollar tratamientos estadsticos con datos sociolaborales. Programa 1. Estadstica en auditoria laboral 2. Sntesis de la informacin y anlisis descriptivo 3. Ajuste y Regresin 4. Tablas de contingencia. Asociaciones 5. Distribuciones de probabilidad 6. Muestreo 7. Investigacin en auditora: Estadstica Inferencial 8. Aplicaciones Actividades Clases terico/prcticas impartidas en el Aula 1.2 de la Facultad de Ciencias del Trabajo. Clases prcticas impartidas en el Aula de Informtica de la Facultad de Ciencias del Trabajo. Metodologa La docencia ser terico/prctica, simultaneando para ello la imparticin de conocimientos tericos junto con la resolucin de problemas y aplicaciones prcticas relacionadas con la aplicacin de la estadstica en las auditoras sociolaborales. En las clases prcticas se emplear el aula de informtica de la Facultad y el programa estadstico Statgraphic, as como distintos recursos de internet. Criterios y sistemas La evaluacin constar de una primera parte de preguntas cortas que ser de evaluacin necesario superar para poder presentarse a una segunda parte de problemas. En la nota final se puntuar la primera parte hasta un mximo de cuatro puntos y la segunda parte hasta un mximo de seis puntos. La realizacin de las prcticas en el aula de informtica se valorar a efectos de sumar puntos en la primera parte de la evaluacin. Recursos Fernndez Palacn, F. y otros (2000). Estadstica Descriptiva y Probabilidad. bibliogrficos Servicio de Publicaciones. Universidad de Cdiz. Ramos Romero, H. (1997). Introduccin al Clculo de Probabilidades. Grupo Editorial Universitario. Espejo Miranda, I. y otros (2002). Inferencia Estadstica. Servicio de Publicaciones. Universidad de Cdiz. Pea Snchez de Rivera, D. (1991). Estadstica. Modelos y Mtodos. Alianza Editorial. Abad Montes, F. y otros (2001). Estadstica para las Ciencias Sociales y laborales. Ed. Jos Carlos Urbano Delgado. Alcal, A. (1999). Estadstica para Relaciones Laborales. Editorial Hesprides. Pea, D. y Romo, J. (1997). Introduccin a la Estadstica para las Ciencias Sociales. McGraw-Hill. Mateos Rivas, (1987). Estadstica en Investigacin Social. Ejercicios resueltos. Editorial Paraninfo. Narvaiza, J.L. y otros (1998). Estadstica aplicada a la gestin y a las ciencias sociales. Inferencia Estadstica. Editorial Descle S. A. Materiales Disponibles en: http://www.uca.es/serv/web/FCT/

http://www.uca.es/serv/web/FCT/

TUTORAS Contacto a travs de correo electrnico


francisco.alvarez@uca.es Indicar en Asunto: Tutora

ESTADSTICA DESCRIPTIVA
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez francisco.alvarez@uca.es

Bajo el trmino Estadstica Descriptiva se engloban las tcnicas que nos permitirn realizar un anlisis elemental de las observaciones experimentales observadas. Se subdivide en dos bloques : 1 2 Estadstica primaria : Obtenido un grupo de observaciones experimentales, este apartado nos ensea a ordenarlas adecuadamente, de modo que se ofrezca una informacin lo ms clara posible. Estadstica derivada o secundaria : Con los datos observados realizaremos ciertos clculos, obteniendo as unas medidas. Este bloque temtico nos ensea a interpretarlas.

PROCEDIMIENTO A SEGUIR EN UN ESTUDIO ESTADSTICO.


El proceso seguido en el estudio estadstico de una cierta caracterstica o variable, puede subdividirse en tres pasos sucesivos :

A B C

RECOGIDA DE DATOS : Planteado el test o encuesta oportuno y recogidos los datos que correspondan, el primer anlisis que realizaremos es el del tipo de variable que pretendemos estudiar (Cualitativa o Cuantitativa ; Discreta o Continua). Esto condicionar en gran medida su posterior tratamiento. ORGANIZACIN DE LOS DATOS : Determinado el modo de agrupamiento de las observaciones, procedemos a su recuento, construyendo la tabla de frecuencias. Posteriormente podremos visualizar tales frecuencias de forma grfica con el diagrama estadstico apropiado. ANLISIS FINAL : La obtencin de muy diversas conclusiones respecto de la variable estudiada, se podr realizar con auxilio de los diferentes parmetros estadsticos (de centralizacin , posicin , dispersin , etc.)

VARIABLES ESTADSTICAS. CLASIFICACIN.


El aspecto que deseamos estudiar (edad, sexo, peso, ...) recibe el nombre de VARIABLE ESTADSTICA. A lo largo de esta unidad observaremos, que las tcnicas estadsticas a seguir sern diferentes segn el tipo de variable objeto de estudio. La clasificacin ms tradicional de las variables estadsticas es la siguiente :

CUALITATIVAS
Los valores de las observaciones quedan expresados por caractersticas o atributos. Por ejemplo : Estado civil ; Color preferido ; Nivel de estudios ; Raza ; ... Dentro de ellas podremos subdividirlas en funcin de que puedan ser ordenadas (Nivel de estudios) o no tenga sentido una determinada ordenacin que se establezca (Color preferido, Razas, ...).

CUANTITATIVAS
Los valores de las observaciones son numricos (cuantificables) y, en consecuencia, ordenables. A su vez las variables cuantitativas se subdividen en dos tipos : DISCRETAS : Toman valores concretos (N de hijos : 0, 1, 2, ...) CONTINUAS : Pueden tomar cualquier valor de un cierto intervalo (Peso ; Estatura ; ...).

TABLAS DE FRECUENCIAS.
Si la variable es Cualitativa, observamos los valores diferentes de la misma. Si es Cuantitativa buscaremos los valores mnimo y mximo obtenidos. En funcin del nmero de observaciones, decidiremos si se realiza su estudio de forma individual o agrupando en intervalos.

CONSTRUCCIN DE INTERVALOS :
Teniendo en cuenta la amplitud total de las observaciones (Valor mximo menos valor mnimo observados), tomaremos una decisin sobre el nmero total de intervalos, o bien sobre la amplitud o tamao de los mismos. Estadstica descriptiva (F. lvarez) - 1

EJEMPLO : Supuesto : Valor mximo = 87 , Valor mnimo = 11 .

Luego : AMPLITUD = 87 - 11 = 76.

Si decidimos construir 8 intervalos, la amplitud de cada uno ser de 10 unidades (valor aproximado de 76/8). El primer intervalo no tiene porqu iniciarse en 11 (mnimo); es ms, se aconseja tomar siempre valores "visualmente agradables" (5, 10, 15 ,...). Con esto los intervalos seran : [10,20) [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90] Si partimos de la decisin de que los intervalos tengan 15 unidades de amplitud, simplemente iniciaremos su construccin hasta llegar a un intervalo que contenga al valor mximo observado. [10,25) [25,40) [40,55) [55,70) [70,85) [85,90] Tericamente se establece que el nmero ideal de intervalos debe ser la raz cuadrada del nmero de observaciones disponibles : Para N observaciones : Criterio de Kaiser Criterio de Sturges N de intervalos N de intervalos

N E( 15 ' + 3' 3 .ln( N ) )

(E = parte entera)

NOTACIN
Al establecer dos intervalos consecutivos, por ejemplo de 10 a 20 y de 20 a 30, hemos de decidir si el valor 20 (final de uno e inicio del siguiente) pertenece al primer intervalo o al segundo. Para ello empleamos los smbolos [ y ( . [ o ] el valor situado junto a l pertenece al intervalo ( o ) el valor situado junto a l no pertenece al intervalo

NOTACIONES PARA REPRESENTAR INTERVALOS EXTREMOS REALES


Desde 0 hasta menos de 10 De 10 a menos de 20 De 20 a menos de 30 De 30 a menos de 40 Desde 40 hasta 50 [ 0 , 10 ) [ 10 , 20 ) [ 20 , 30 ) [ 30 , 40 ) [ 40 , 50 ]

EXTREMOS APARENTES 1-4 5-8 9 - 12


Valores : 1, 2, 3 y 4 Valores : 5, 6, 7 y 8 Valores : 9, 10, 11 y 12

[ 0'5 , 4'5 ) [ 4'5 , 8'5 ) [ 8'5 , 12'5 ]

RECUENTO. TABLA DE FRECUENCIAS ABSOLUTAS.


Situados en una tabla los valores de la variable (desde el mnimo al mximo) o los intervalos que los contienen, procedemos a contar las veces que se repiten. Construimos as una tabla como la de la izquierda. En ella podr observarse que, en el supuesto de datos agrupados en intervalos, se ha incluido una columna encabezada por x . Tal valor de x se denomina marca de clase y es el valor central de cada intervalo. Intervalos [ e1 , e2 ) [ e2 , e3 ) ... [ ei , ei+1 ) ... x x1 x2 ... xi ... Recuento /// ///// ///// / ... ///// /// ... n n1 n2 ... ni ... ni = N N n1 n1+n2 ... n1+n2+ ... +ni ...

2 - Estadstica descriptiva (F. lvarez)

FRECUENCIAS.
FRECUENCIA ABSOLUTA (n) : Para datos no agrupados en intervalos, es el nmero de veces que se presenta cada valor de la variable. Si los datos se agrupan en intervalos, es el nmero de observaciones que pertenecen a dicho intervalo. FRECUENCIA ABSOLUTA ACUMULADA (N) : Para un cierto valor de la variable, la frecuencia absoluta acumulada nos da el nmero de observaciones menores o iguales que dicho valor.

OTRAS FRECUENCIAS :
FRECUENCIA RELATIVA (r) : Cociente entre la frecuencia absoluta y el nmero total de observaciones (N). PROPORCIN o PORCENTAJE (p) : Frecuencia relativa multiplicada por 100 (es la expresin de las frecuencias en %). De igual modo que se defini para las frecuencias absolutas, se definen las FRECUENCIAS RELATIVAS ACUMULADAS (R) y los PORCENTAJES ACUMULADOS (P).

TABLA COMPLETA DE FRECUENCIAS :


x x1 x2 ... xi ... EJEMPLO : x 2 3 4 5 6 n 5 10 16 6 3 40 r 0'125 0'250 0'400 0'150 0'075 1 p 12'5 25 40 15 7'5 100 N 5 15 31 37 40 R 0'125 0'375 0'775 0'925 1'000 P 12'5 37'5 77'5 92'5 100 n n1 n2 ... ni ... ni = N r r1 = n1 / N r2 = n2 / N ... ri = ni / N ... ri = 1 p p1 = r1 . 100 p2 = r2 . 100 ... pi = ri . 100 ... pi = 100 N n1 n1+n2 ... n1+n2+ ... +ni ... R r1 r1+r2 ... r1+r2+ ... +ri ... P p1 p1+p2 ... p1+p2+ ... +pi ...

GRFICOS ESTADSTICOS.
La norma que hemos de seguir en la construccin de un grfico estadstico es siempre : "La zona que identifica a cada valor ser proporcional a su frecuencia"

Los diagramas usuales son los que se describen a continuacin.

Diagramas de barras
Para variables cualitativas o cuantitativas no agrupadas en intervalos. FUNDAMENTO : Sobre un eje (normalmente el horizontal) marcamos los valores de la variable, dibujando sobre cada uno de ellos una barra cuya longitud sea proporcional a la frecuencia que se est visualizando. Si la variable representada es cuantitativa, enlazando los extremos de las barras obtendremos el POLGONO DE FRECUENCIAS, denominado PERFIL ORTOGONAL para cualitativas ordenables .

Histogramas
Representativo de las variables agrupadas en intervalos. FUNDAMENTO : Sobre el eje horizontal marcamos los distintos intervalos, dibujando sobre cada uno de ellos un rectngulo cuya rea sea proporcional a la frecuencia que se est visualizando (Si todos los intervalos tienen la misma amplitud, nos bastar con que la altura de los rectngulos sea proporcional a las frecuencias). POLGONOS DE FRECUENCIAS : Si la frecuencia representada no es acumulada, enlazamos los puntos medios de los extremos superiores de los rectngulos. Para frecuencias acumuladas, el polgono de frecuencias se obtiene de la forma indicada en el grfico.

Estadstica descriptiva (F. lvarez) - 3

Diagramas de sectores
Utilizable en cualquier tipo de variable. FUNDAMENTO : Dividimos el crculo en sectores circulares, de modo que la amplitud de cada sector, sea proporcional a la frecuencia. Junto a cada sector, se suele indicar el valor representado. Es aconsejable la expresin de las amplitudes de los sectores en % (porcentajes p ).

Pictogramas
Utilizable en todo tipo de variables, especialmente con las cualitativas. FUNDAMENTO : Es el mismo que se sigue para la construccin de los diagramas de barras y histogramas. La diferencia estriba en que, en lugar de dibujar una barra o un rectngulo, se dibuja una figura que hace referencia al problema objeto de estudio.

Diagramas de reas
Representativo de las variables cuantitativas, equivale a la representacin independiente de los polgonos de frecuencias (descritos en los diagramas de barras y histogramas). FUNDAMENTO : Indica la evolucin de los valores de la variable, consistiendo en la visualizacin del rea encerrada bajo el polgono de frecuencias. Para ello, se conecta dicho polgono con el eje de la variable (el horizontal en el grfico), tanto a la izquierda del primer valor como a la derecha del ltimo.

Los diagramas de barras , histogramas , pictogramas y de reas , admiten la representacin correspondiente a sus frecuencias acumuladas.

MEDIDAS DE CENTRALIZACIN. MEDIA ARITMTICA : ni .xi Es el resultado de dividir la suma de todas las observaciones entre el nmero de ellas. x= N MODA :
Mo = ei +
Es el valor que ms se repite. Ser pues el valor (o valores) cuya frecuencia absoluta sea la ni +1 .ai mayor de las observadas. ni +1 + ni 1 Si los datos se encuentran agrupados en intervalos, obtendremos el intervalo en el que se encuentra la moda (INTERVALO MODAL). Para determinar su valor concreto, aplicamos la expresin de la izquierda. i intervalo donde se encuentra la moda. i-1 intervalo anterior al que contiene la moda. i+1 intervalo siguiente al que contiene la moda. extremo inferior del intervalo en el que se encuentra la moda. amplitud del intervalo en el que est la moda. frecuencia absoluta.

NOTACIONES Los subndices indican :

e a n

MEDIANA :
Supuestas ordenadas las observaciones, MEDIANA es el valor de la variable que est en el centro de las mismas. Deja pues a la mitad (el 50%) de las observaciones por debajo de dicho valor. Para obtener el valor de la mediana, seguimos los pasos siguientes : 1 Calculamos la tabla de frecuencias absolutas acumuladas. 2 La mediana ser el valor de la variable cuya frecuencia absoluta acumulada primero iguale o supere a N/2. Si los datos se encuentran agrupados en intervalos, el punto 2 nos dar el intervalo en el que se encuentra la mediana. Para determinar su valor concreto, aplicamos la expresin de la izquierda.

N N i 1 Me = ei + 2 .ai ni

4 - Estadstica descriptiva (F. lvarez)

NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos reales que esos valores representan, procediendo a aplicar la expresin superior. As, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ... NOTACIONES Los subndices indican : e a n N i intervalo donde se encuentra la mediana. i-1 intervalo anterior al que contiene la mediana. extremo inferior del intervalo en el que se encuentra la mediana. amplitud del intervalo en el que est la mediana. frecuencia absoluta. frecuencia absoluta acumulada.

OTRAS MEDIDAS DE CENTRALIZACIN. MEDIA PONDERADA :


Aplicable cuando a cada valor (Xi) se le asigna un peso (pi) :

MEDIA GEOMTRICA :

MEDIA ARMNICA :
xA =

x G = N x1 . x 2 . ... . x N
Con frecuencias fi para cada xi : (N = fi)
nn n2 xG = N x 1n1 .x2 .....xn

xp =

p .X p
i i

N 1 xi

Con frecuencias fi para cada xi : (N = fi)

xA =

N ni x i

MEDIDAS DE POSICIN.
CONCEPTO : Permiten el clculo del valor de la variable que ocupa una cierta posicin relativa respecto del conjunto total de los valores observados. PERCENTIL DE ORDEN K : Es el valor de la variable que deja por debajo de l el K% de las observaciones.

PROCESO DE CALCULO :
Para obtener el valor del percentil de orden K, seguimos los pasos siguientes : 1 Calculamos la tabla de frecuencias absolutas acumuladas. 2 Obtenemos el LUGAR que ocupa : Lugar = N . K / 100 3 El percentil de orden K ser el valor de la variable cuya frecuencia absoluta acumulada primero iguale o supere a dicho lugar. Si los datos se encuentran agrupados en intervalos, el punto 3 nos dar el intervalo en el que se encuentra el percentil de orden K. Para determinar el valor concreto del percentil, aplicamos la expresin de la izquierda.

k .N N i 1 Pk = ei + 100 .ai ni

NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos reales que esos valores representan, procediendo a aplicar la expresin anterior. As, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ... NOTACIONES Los subndices indican : e a n N i intervalo donde se encuentra el percentil. i-1 intervalo anterior al que contiene el percentil. extremo inferior del intervalo en el que se encuentra el percentil. amplitud del intervalo en el que est el percentil. frecuencia absoluta. frecuencia absoluta acumulada.

PERCENTILES ESPECIALES
MEDIANA CUARTILES DECILES Percentil de orden 50. Percentiles de rdenes 25 (Cuartil 1), 50 (Cuartil 2) y 75 (Cuartil 3). Percentiles de rdenes 10, 20, .... , 90 (Deciles 1, 2, ... , 9).

MEDIDAS DE DISPERSIN. RANGO , RECORRIDO O AMPLITUD TOTAL : R = Mx Mn Con el fin de medir el mayor o menor
grado de separacin de las observaciones, en una primera instancia se define el RANGO (tambin denominado recorrido o amplitud total), como la diferencia existente entre los valores mximo y mnimo observados.

Estadstica descriptiva (F. lvarez) - 5

AMPLITUD SEMI-INTERCUARTLICA :
Q= Q 3 Q1 2
Esta medida de dispersin se basa en medidas de posicin (Cuartiles),.Su empleo tendr sentido en el supuesto de imposibilidad de clculo de la media.

El no tomar en consideracin a la totalidad de las observaciones, hace pensar que esta medida es poco representativa. Por ello se intenta definir las medidas de dispersin, de modo que sean el promedio de las separaciones de cada valor respecto de uno tomado como referencia (la MEDIA). Observando la figura apreciamos que las desviaciones d antes definidas tienen como media cero (las positivas compensan con las negativas), lo cul obliga a subsanar este inconveniente tomndolas en valor absoluto o elevndolas al cuadrado.

DESVIACIN MEDIA :
Dx =

n . x
i

Es la media de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmtica, consideradas en valor absoluto. Sustituyendo la media por la moda o la mediana, definiremos las desviaciones medias respecto de la moda y de la mediana.

VARIANZA :
s =
2 2 i

n .(x =

x)

n .x =
i

2 i

x2

Es la media de los cuadrados de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmtica.

DESVIACIN TPICA :
s = = var ianza =

n .x
i

2 i

x2

Es la raz cuadrada de la varianza. Con ello corregimos el haber tomado cuadrados de separaciones en el clculo de la varianza. Esta medida de dispersin es la ms caracterstica.

COEFICIENTE DE VARIACIN :
CV= x .100 x
Mide la representatividad de la media. Valores extremos del mismo nos llevarn a concluir que la media no es representativa, es decir, existirn valores entre las observaciones que se separan significativamente de las dems. Slo puede ser utilizado cuando los valores de la variable toman valores "normales". Es decir, no son muy elevados ni muy pequeos, ya que una media prxima a cero o muy alta daran valores nulos o infinitos al coeficiente. Si la media es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayora), el coeficiente de variacin permite comparar la dispersin de dos series estadsticas : mayor coeficiente indica menor homogeneidad, o lo que es lo mismo, mayor dispersin o variabilidad.

GRFICO DE VARIABILIDAD :
Basado en los cuartiles, adopta la forma del grfico de la derecha. En l se reflejan los cuartiles 1 y 3 y la mediana, junto a los extremos inferior y superior :

Linf = Q1 3.

Q 3 Q1 = Q1 3. Q ; L sup = Q 3 + 3. Q 2
( Linf , Lsup )

Se consideran observaciones atpicas aquellas que quedan fuera del intervalo :

OTRAS MEDIDAS ESTADSTICAS. COEFICIENTE DE ASIMETRA DE FISHER :


Permite interpretar la forma de la distribucin, respecto a ser o no simtrica. INTERPRETACIN

n .(x
i

x)

As1 =

6 - Estadstica descriptiva (F. lvarez)

Basados en al relacin existente entre media, mediana y moda : se definen dos nuevos coeficientes de asimetra (de Pearson):

x Mo = 3.( x Md )
As3 = 3.( x Md )

As2 =

x Mo

COEFICIENTE DE CURTOSIS :
Recibe tambin el nombre de coeficiente de concentracin central, midiendo el grado de aplastamiento o apuntamiento de la grfica de la distribucin de la variable estadstica. Una mayor concentracin de datos en torno al promedio harn que la forma sea alargad, siendo tanto ms plana (o aplastada) cuanto mayor sea la dispersin de los mismos. INTERPRETACIN Determina la forma de la distribucin, en relacin con su grado de aplastamiento.

n .(x
i

x)

K=

Basados en medidas de posicin, se definen los nuevos coeficientes :

Coeficiente de asimetra de Bowley-Yule, o intercuartlico : Q 2. Me + Q1 Y= 3 Q 3 Q1 Coeficiente absoluto de asimetra:

A=

Q 3 2. Me + Q1

Coeficiente de curtosis de Kelley : Q Q 3 Q1 K= 0'263 con: Q = P90 P10 2

ANLISIS CONJUNTO DE VARIOS GRUPOS.


Si disponemos de k grupos con ni elementos, medias x i , y varianzas S i , podemos obtener : Media conjunta de los k grupos
2

n .x X= n
i i

n .S = n
i i

Varianza conjunta de los k grupos


2 i

, o, con mayor rigor : S

n .S = n
i i

2 i

n .( x X ) + n
i i i

PROPIEDADES DE LAS MEDIDAS ESTADSTICAS. TABLA PARA CLCULOS :


La tabla siguiente nos muestra una disposicin prctica de los clculos necesarios para la obtencin de los parmetros estadsticos usuales: Media , Moda, Mediana , Percentiles , Varianza y Desviacin tpica. Intervalos [ e1 , e2 ) [ e2 , e3 ) ... [ ei , ei+1 ) ... x x1 x2 ... xi ... n n1 n2 ... ni n.x n1 . x1 n2 . x2 ... ni . xi n.x2 (n1 . x1).x1 (n2 . x2).x2 ... (ni . xi).xi N P N1=n1 P1 = (N1 / N) . 100 N2=n1+n2 P2 = (N2 / N) . 100 ... ... NI=n1+n2+ ... Pi = (Ni / N) . 100 +ni ... ... Clculo de percentiles

... ... ... ni ni . xi ni . xi2 N A B Clculo de media y varianza

La media y la varianza seran el resultado de calcular :Clculo de media y varianza

x=

A N

2 =

B x2 N

PROPIEDADES :
A) Si a todos los valores de una variable x les sumamos una cantidad constante, la media queda incrementada en dicha constante, mientras que la desviacin tpica (y la varianza) no vara. Estadstica descriptiva (F. lvarez) - 7

Si multiplicamos todos los valores de una variable x por una constante, la media y la desviacin tpica quedan tambin multiplicadas por dicha constante (la varianza quedar multiplicada por el cuadrado de la constante). EJEMPLO :

B)

CAMBIO DE VARIABLE. TIPIFICACIN.


Haciendo uso de las propiedades de las medidas estadsticas ,podremos facilitar y simplificar los clculos de parmetros estadsticos, realizando un cambio de variable. As, si todos los valores son muy altos, podremos restarles una cantidad (normalmente la Moda) y, si poseen cifras decimales o son mltiplos de un mismo nmero, podremos multiplicarlos o dividirlos por el valor adecuado. Una vez calculados los parmetros estadsticos, en virtud de las propiedades descritas, obtendremos el valor final real de tales parmetros. Mencin especial merecen dos cambios de variables particulares : A) Diferenciales : partiendo de la variable inicial x (puntuaciones directas), si a todos los valores les restamos la media, obtenemos una nueva variable d (puntuaciones diferenciales) cuya media es cero (la desviacin tpica no se modifica). Tipificadas : Si a todos los valores de la variable inicial x les restamos la media y el resultado lo dividimos por la desviacin tpica, obtenemos una nueva variable z (puntuaciones tipificadas) cuya media es cero , teniendo siempre como desviacin tpica la unidad.

B)

Este ltimo cambio de variable recibe el nombre de TIPIFICACIN.

SUMA Y DIFERENCIA DE VARIABLES.


Partiendo de dos variables X , Y, podemos definir las nuevas variables : S=X+Y obtenida sumando cada valor de X con el correspondiente de Y. D=X-Y obtenida restando a cada valor de X el valor correspondiente de Y. Esto supone la existencia de tantas observaciones de X como de Y, as como el emparejamiento de ellas; es decir, a cada valor de X queda asociado un valor de Y. Esto constituir la base de estudio del siguiente tema . Veamos como se comporta la media de las dos nuevas variables S y D definidas.

S = X+Y

En efecto :

S=

( X i + Yi ) = X i + Yi = X i + Yi
N N N N

= X+Y

Anlogamente se verifica que :

D = XY
2

Calculemos la varianza de la suma S :


2 SS

( ( X i + Yi ) S)
N

( ( X i + Yi ) ( X + Y))
N

( ( X i X) + (Yi Y))
N

= N ( X i X) 2 + (Yi Y) 2 + 2. ( X i X).(Yi Y) = S2 + S2 + 2.S = X Y XY N N N


La expresin tambin a :

( ( X i X) 2 + (Yi Y) 2 + 2.( X i X).(Yi Y))

(X i X).(Yi Y)
N

, representada por SXY, recibe el nombre de covarianza, justificndose que es igual

SXY =
Anlogamente se verifica que :

(Xi X).(Yi Y) = Xi .Yi X. Y


N N

2 2 S2 D = S X + SY 2.S XY

Si las variables X , Y son independientes, la covarianza (medida de variacin conjunta) es igual a cero.

8 - Estadstica descriptiva (F. lvarez)

Resumiendo : Medias Dependientes ( SXY 0 )


2 2 SS = S2 X + SY 2 2 S2 D = S X + SY

Varianzas Independientes ( SXY = 0 )


2 2 SS = S2 X + SY 2 2 S2 D = S X + SY

S=X+Y D=X-Y

S = X+Y D = XY

+ 2.S XY 2.S XY

MOMENTOS ORDINARIOS Y CENTRALES


Momento ordinario de orden Se verifica que : k: m1 = 0 m2 = a 2 a 1 2 Algunos parmetros expresarse : estudiados, pueden
2 = x = a1 2 = s 2 x = m2 = a 2 a 1 m3 = a 3 3. a 2 . a1 + 2. a13 m4 m4 m 4 = a 4 4. a 3 . a 1 + 6. a 2 . a 1 2 3. a 1 4 As = m3 = m3 K= 4 3= 3 3 3 2

ak =

n k .x N

Momento central de orden k :

mk =

n k .(x x ) N

m2

m2

MEDIDAS DE CONCENTRACIN.
Estas medidas, de aplicacin econmica fundamentalmente, determinan el nivel de igualdad en el reparto total de las observaciones de la variable. Su determinacin se realizar a partir de la siguiente tabla de clculos : A B C D E N G H

xi
x1 x2 ... xk

ni
n1 n2 ... nk

Ni = ni.
N1 N2 ... Nk

Pi = (Ni.. /N).100
P1 P2 ... Pk (= 100)

ti = ni. xi
t1 t2 ... tk

Ti = ti.
T1 T2 ... Tk

Qi = (Ti.. /T).100
Q1 Q2 ... Qk (= 100)

Pi - Qi
P1 - Q1 P2 - Q2 ... Pk - Qk (= 0)

N = ni.

TP = Pi

T = ni. xi

TD = (Pi Qi)

Siendo : A) Valores de la variable (marca de clase si est agrupada en intervalos). B) Frecuencias absolutas (N = total de observaciones). C) Frecuencias absolutas acumuladas. D) Porcentajes acumulados (totalizando - TP). E) Productos de cada frecuencia por su correspondiente valor (T = suma total de estos productos). F) Productos anteriores acumulados (de igual modo que se realiza con frecuencias). G) Expresin en porcentaje del contenido de la columna anterior. H) Diferencias de los valores de las columnas D y G (totalizando - TD).

MEDIALA :
Su definicin tiene un fundamento similar al de la mediana. Para distribuciones discretas (no agrupadas en intervalos), la mediala es el valor de la variable cuyo Qi primero iguala o supera el 50%. Para distribuciones continuas (agrupadas en intervalos), el intervalo que contiene la mediala es aquel cuyo Qi primero iguala o supera el 50%. De aqu obtenemos el valor de la mediala del modo siguiente :

50 Q i1 Ml = e i + .a Q i Q i1 i

Los subndices indican : i intervalo donde se encuentra la mediala. i-1 intervalo anterior al que contiene la mediala. e extremo inferior del intervalo en el que se encuentra la mediala. a amplitud del intervalo en el que est la mediala.

Estadstica descriptiva (F. lvarez) - 9

CURVA DE LORENZ :
Sobre un rectngulo de 100 unidades de lado, se dibuja la poligonal que resulta de unir los puntos (Pi , Qi). Esta poligonal (curva de Lorenz) determina con la diagonal AB un recinto (sombreado en la figura) que mide el grado de concentracin. Cuando el rea sombreada es muy pequea (la curva de Lorenz se aproxima a la diagonal AB) se presenta una baja concentracin, o lo que es lo mismo, indica uniformidad en el reparto de los valores de la variable. La mayor concentracin se producir cuando la zona sombreada coincide con el tringulo ABC.

NDICE DE CONCENTRACIN DE GINI :


Haciendo uso de la tabla de clculos anterior, necesaria para la obtencin de la curva de Lorenz, definiremos el presente estadstico. Otros, como el ndice de Dalton, el de paridad, etc. , pueden ser empleados con idntica interpretacin a la que tratamos con el de Gini, si bien omitimos su estudio.
k 1

( Pi Q i )
i =1 k 1 i =1

G=

Pi

TD = TP 100

El ndice de Gini (expresin de la izquierda) coincide geomtricamente con el cociente entre el rea sombreada (definida por la curva de Lorenz) y la del tringulo ABC. Concentracin mnima : G = 0 Concentracin mxima : G = 1

10 - Estadstica descriptiva (F. lvarez)

EJERCICIOS RESUELTOS
1
La tabla siguiente nos muestra el resultado de una encuesta entre los alumnos de primer curso, analizando el nmero de suspensos en la primera evaluacin : 0 3 1 3 2 1 3 2 2 4 0 3 4 1 5 2 0 1 2 3 3 0 2 3 3 4 3 1 2 1 0 2 5 1 3 4 2 4 0 2 3 2 5 3 2 4 1 1 4 2 1 3 3 0 4 1 4 3 0 4

Realicemos un estudio estadstico completo. Se trata de una variable cuantitativa discreta. Esto condicionar algunos procesos del clculo estadstico. RECUENTO Y TABLA DE FRECUENCIAS x 0 1 2 3 4 5 recuento ///// /// ///// ///// / ///// ///// /// ///// ///// ///// ///// ///// /// Totales : n 8 11 13 15 10 3 N = 60 r 0'1333 0'1833 0'2167 0'2500 0'1667 0'0500 1'0000 p 13'33 18'33 21'67 25'00 16'67 5'00 100'00 N 8 19 32 47 57 60 R 0'1333 0'3167 0'5333 0'7833 0'9500 1'0000 P 13'33 31'67 53'33 78'33 95'00 100'00

GRFICOS ESTADSTICOS APROPIADOS PARA ESTE TIPO DE VARIABLE DIAGRAMA DE BARRAS : Sobre el valor de cada variable dibujamos una barra con altura igual a la frecuencia que deseamos representar (en este caso las absolutas n ). POLGONO DE FRECUENCIAS : Obtenidos enlazando los extremos superiores de las barras. NOTA :Siendo la variable discreta, no tiene sentido dibujar el polgono de frecuencias.

DIAGRAMAS ACUMULADOS : Construidos como representativos de acumuladas. los las anteriores, son los distintas frecuencias

El ejemplo representa las frecuencias absolutas acumuladas (N). El polgono de frecuencias se construira enlazando los extremos superiores de las barras.

PICTOGRAMAS: Con el mismo principio seguido para la construccin de los diagramas de barras, sustituimos dichas barras por dibujos alusivos a la variable estadstica estudiada. DIAGRAMAS DE SECTORES : Resultan de la divisin de un crculo en sectores cuya amplitud es proporcional a la frecuencia. La amplitud de cada sector ser :

n .360 = r.360 N

Estadstica descriptiva (F. lvarez) - 11

MEDIA, VARIANZA Y DESVIACIN TPICA x 0 1 2 3 4 5 n 8 11 13 15 10 3 N = 60


i i

n.x 0 11 26 45 40 15 137

n.x2 0 11 52 135 160 75 433

Este tipo de tabla facilita los clculos. Media = 137 / 60 = 2,283 Varianza = (433 / 60) - media al cuadrado = 2'005 Desviacin tpica = raz cuadrada de la varianza = 1'416

x=

n .x
N

137 ni .xi2 x 2 = 433 2'2832 = 2'00 sx = sx2 = 2' 005 = 1' 416 2 = 2'283 s x = 60 N 60

MODA = Valor de mayor frecuencia = 3 PERCENTILES Para la determinacin de medidas de posicin (percentiles), podemos seguir dos procedimientos de clculo : 1) Basado en las frecuencias absolutas acumuladas N : Determinamos el lugar que ocupa : L = k.N / 100 El percentil ser el valor cuya frecuencia N primero iguale o supere al lugar L. 2) Basado en porcentajes acumulados P : El percentil ser el valor cuyo porcentaje P primero iguale o supere al orden k del percentil. Apliquemos el primer procedimiento para calcular la mediana y el 9 decil : La mediana (percentil 50) ocupar el lugar : L = 50 . 60 / 100 = 30 El 9 decil (percentil 90) ocupar el lugar : L = 90 . 60 / 100 = 54 x 0 1 2 3 4 5 n 8 11 13 15 10 3 N = 60 N 8 19 32 47 57 60

Mediana = 2 9 decil = 4

Aplicando el segundo procedimiento descrito, determinemos los cuartiles 1 y 3, as como la amplitud semiintercuartlica : x 0 1 2 3 4 5 n 8 11 13 15 10 3 N = 60 r 0'1333 0'1833 0'2167 0'2500 0'1667 0'0500 1'0000 p 13'33 18'33 21'67 25'00 16'67 5'00 100'00 P 13'33 31'67 53'33 78'33 95'00 100'00

Cuartil 1 (percentil 25) = 1 Cuartil 3 (percentil 75) = 3

Amplitud semi-intercuartlica =

Q 3 Q1 3 1 = =1 2 2

12 - Estadstica descriptiva (F. lvarez)

2
Trabajamos ahora con las edades de 50 jvenes de nuestro barrio : 1 24 20 21 11 15 6 25 20 7 12 20 15 8 4 22 10 12 7 10 4 9 1 12 9 18 20 5 20 5 2 11 23 20 10 9 13 14 12 15 20 13 7 11 14 11 13 15 22 15

Como en el ejemplo anterior, realicemos un estudio estadstico completo. Nos encontramos ante una variable estadstica cuantitativa continua. Agruparemos o no las observaciones en intervalos en funcin de los diferentes valores observados. TABLA DE FRECUENCIAS Observado el valor mnimo (1) y mximo (24), decidimos agrupar los datos en intervalos de 5 aos de amplitud, empezando por 0. Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ] recuento ///// ///// ///// ///// ///// ///// / ///// / ///// ///// /// Totales : n 5 10 16 6 13 N = 50 r 0'10 0'20 0'32 0'12 0'26 1'00 p 10 20 32 12 26 100 N 5 15 31 37 50 R 0'10 0'30 0'62 0'74 1'00 P 10 30 62 74 100

GRFICOS ESTADSTICOS HISTOGRAMA : Sobre el valor de cada variable dibujamos una franja con altura igual a la frecuencia que deseamos representar (en este caso las absolutas n ). POLGONO DE FRECUENCIAS : Obtenido enlazando los puntos medios de los extremos superiores de las franjas.

HISTOGRAMAS ACUMULADOS : Construidos como los anteriores, son los representativos de las distintas frecuencias acumuladas. El ejemplo representa las frecuencias absolutas acumuladas ( N ). En este caso, el polgono de frecuencias NO se construira enlazando los puntos medios de los extremos superiores de las franjas, sino como se indica en la figura.

Clculo de Moda, Media, Varianza y Desviacin tpica : Para el clculo de la media y la varianza utilizamos la tabla auxiliar siguiente. En ella se incorpora la columna x , que contiene la marca de clase (valor central) de cada intervalo. La MODA (valor de mayor frecuencia) se encuentra en el intervalo [10 , 15) . Determinemos su valor concreto :

Mo = ei +
Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ]

ni +1 6 .ai = 10 + .5 = 11'875 ni +1 + ni 1 6 + 10
n 5 10 16 6 13 N = 50 x 2'5 7'5 12'5 17'5 22'5 n.x 12'5 75'0 200'0 105'0 292'5 685'0 n.x2 31'25 562'50 2500'00 1837'50 6581'25 11512'50 Estadstica descriptiva (F. lvarez) - 13

n .x x=
i

685 = = 13'7 50

2 x

n .x =
i

2 i

x2 =

2 11512'5 13'7 2 = 42 s x = s x = 42' 56 = 6' 524 50

Utilizando las frecuencias absolutas acumuladas, calculemos el decil 2 y el percentil 62 : Lugar que ocupa el decil 2 (percentil 20) = 20 . 50 / 100 = 10 Lugar que ocupa el percentil 62 = 62 . 50 / 100 = 31 Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ] n 5 10 16 6 13 N = 50 N 5 15 31 37 50 Decil 2 (percentil 20) en [5,10) Percentil 62 en [10,15) Lugar = 10 Lugar = 31

Determinemos sus valores concretos :

20.N 20.50 N i 1 5 100 100 .5 = 7'5 P20 = ei + .ai = 5 + ni 10 62.N 62.50 N i 1 15 100 100 .5 = 15 P62 = ei + .ai = 10 + ni 16
Utilizando los porcentajes acumulados, calculemos el cuartil 1 y la mediana : Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ] n 5 10 16 6 13 N = 50 r 0'10 0'20 0'32 0'12 0'26 1'00 p 10 20 32 12 26 100 P 10 30 62 74 100 Cuartil 1 (percentil 25) en [5,10) Mediana (percentil 50) en [10,15)

Determinemos sus valores concretos :

25.N 25.50 N i 1 5 .5 = 8'75 P25 = ei + 100 .ai = 5 + 100 ni 10 50.N 50.50 N i 1 15 .5 = 13'125 P50 = ei + 100 .ai = 10 + 100 ni 16

14 - Estadstica descriptiva (F. lvarez)

3
x 2 3 4 5 n 6 15 10 9 De la presente distribucin, calculemos : Media, varianza y desviacin tpica. Moda. Mediana, Percentil 82, Cuartiles y amplitud semi-intercuartlica.

La variable establecida puede ser discreta o continua sin agrupar en intervalos. Realicemos los clculos en ambos supuestos. x 2 3 4 5 Media n 6 15 10 9 40 Varianza
i

N 6 21 31 40

P 15 52'5 77'5 100

n.x 12 45 40 45 142

n.x2 24 135 160 225 544

x=

n .x
i

Desviacin tpica
2 i i

142 = 3'55 40

2 =

n .x
N

x2 =

544 3'55 2 = 0'99 40

= 0' 9975 = 0' 99875

Moda 3 Cuartil 1 (percentil 25) 3

Mediana (percentil 50) 3 Cuartil 3 (percentil 75) 4

Percentil 82 5 Rango semi-intercuartlico

Q 3 Q1 4 3 = = 0' 5 2 2

Los valores anteriores, relativos a percentiles, son vlidos si la variable es DISCRETA. En el supuesto de tratarse de una variable CONTINUA (con datos no agrupados), deberamos entender que el valor identifica el intervalo situado a la izquierda en la siguiente tabla : Intervalo [1'5,2'5)... [2'5,3'5)... [3'5,4'5)... [4'5,5'5]... x 2 3 4 5 n 6 15 10 9 40 N 6 21 31 40 P 15 52'5 77'5 100

Los percentiles pedidos se obtendran del modo siguiente : Mediana en [2'5,3'5)

Percentil 82

en [4'5,5'5]

Cuartil 1

en [2'5,3'5)

Cuartil 3

en [3'5,4'5)

50 . 40 6 Me = P50 = 2' 5 + 100 . 1 = 3' 433 15 82. 40 31 P82 = 4' 5 + 100 . 1 = 4' 700 9 25 . 40 6 Q 1 = P25 = 2' 5 + 100 . 1 = 2' 767 15 75 . 40 21 Q 3 = P75 = 3' 5 + 100 . 1 = 3' 400 10

Estadstica descriptiva (F. lvarez) - 15

4
Interv. [10,12) [12,14) [14,16) [16,18) [18,20] Interv. [10,12) [12,14) [14,16) [16,18) [18,20] Media n 5 11 19 21 4 n 5 11 19 21 4 60 De la distribucin de la izquierda, calcular : Media, varianza y desviacin tpica. Moda Mediana, Percentil 59 y Decil 3. Desviacin media. Coeficientes de asimetra y curtosis. a 11 13 15 17 19 Varianza
i

N 5 16 35 56 60

P 8'333 26'667 58'333 93'333 100'000

n.a 55 143 285 357 76 916

n.a2 605 1859 4275 6069 1444 14252

x=

n .a
i

Desviacin tpica
2 i i

N
Moda

916 = 15'2667 2 = 60
en [16,18) en [14,16)

n .a
N

x2 =

14252 15'2667 2 = 4'4 60


Mo = 16 +

= 4' 4622 = 2' 1124

Mediana (percentil 50) Percentil 59

en [16,18)

Decil 3 (percentil 30)

en [14,16)

4 . 2 = 16' 3478 4 + 19 50 . 60 16 Me = P50 = 14 + 100 . 2 = 15' 4737 19 59 . 60 35 P59 = 16 + 100 . 2 = 16' 0381 21 30 . 60 16 D 3 = P30 = 14 + 100 . 2 = 14' 2105 19
Asimetra y Curtosis

Desviacin media

xx
4'2667 2'2667 0'2668 1'7333 3'7333

n. x x
21'3333 24'9333 5'0668 36'4000 14'9333 102'6667

xx
-4'2667 -2'2667 -0'2668 1'7333 3'7333

n.( x x ) 3
-388'3615 -128'1019 -0'3603 109'3618 208'1375 -199'3244

n.( x x ) 4
1657'0090 290'3644 0'0961 189'5604 777'0466 2914'0765

Desviacin media

D=

n . x
i

x
3

Asimetra (-0'3524 < 0) Algo asimtrica hacia la izquierda Curtosis (-0'5608 < 0) Ligeramente aplanada (Platicrtica)

n .(x
i

N
i

x)

102'6667 = 1'7111 60

As1 =

3
i i

- 199'3244 60 = = 0'3524 2'1124 3

n .(x
K=

x)

2914'0765 60 3 = 3 = 0'5608 2'1124 4

16 - Estadstica descriptiva (F. lvarez)

5
La distribucin de las estaturas en centmetros de los alumnos de un centro, expresados en porcentajes, es la siguiente: Estaturas Menos de 150 De 150 a 154 De 155 a 159 De 160 a 164 De 165 a 169 De 170 a 174 De 175 a 179 De 180 y ms a) b) c) d) Porcentajes 0'3 1'6 9'4 20'5 31'5 22'5 10'7 3'5

Siendo abiertos los intervalos primero y el ltimo, qu valores sera razonable considerar para los lmites extremos de esos intervalos ? Si suponemos que en el Centro hay 1200 alumnos, cules seran las frecuencias absolutas? Calcular la estatura media y la desviacin tpica. Entre qu estaturas se encuentra la quinta parte de las estaturas centrales ?.

a) Al referirse a intervalos de 5 cm. de amplitud en los restantes casos, debemos considerar que el primer intervalo es de 145 a menos de 150 y, el ltimo, de 180 a 185. b) Estaturas [145,150) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180) [180,185) c) Estaturas [145,150) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180) [180,185) n 4 19 113 246 378 270 128 42 1200 x 147'5 152'5 157'5 162'5 167'5 172'5 177'5 182'5 n.x 590'0 2897'5 17797'5 39975'0 63315'0 46575'0 22720'0 7665'0 201535'0 n.x2 87025'00 441868'75 2803106'25 6495937'50 10605262'50 8034187'50 4032800'00 1398862'50 33899050'00 p 0'3 1'6 9'4 20'5 31'5 22'5 10'7 3'5 n = p . 1200 / 100 3'6 19'2 112'8 246 378 270 128'4 42 n 4 19 113 246 378 270 128 42 N=1200 P 0'3 1'9 11'3 31'8 63'3 85'8 96'5 100'0 N 4 23 136 382 760 1030 1158 1200

De aqu resulta :

201535 = 167' 95 1200 33899050 2 sx = 167' 95 2 = 42' 006 1200 x=

s x = 42' 006 = 6' 481

d) La quinta parte representa el 20%. Con relacin al centro (50%), cubrirn desde el 40% al 60%. Se nos pide que calculemos los percentiles 40 y 60 de la distribucin de estaturas. La tabla de porcentajes acumulados del apartado b) nos permite deducir que : Los percentiles 40 y 60 se encuentran en el intervalo [165,170) . Sus valores concretos son :

40.N 40.1200 N i 1 382 .5 = 166'963 P40 = ei + 100 .ai = 165 + 100 ni 378 60.N 60.1200 N i 1 382 .5 = 169'471 P60 = ei + 100 .ai = 165 + 100 ni 378
Estadstica descriptiva (F. lvarez) - 17

6
Partiendo de la siguiente distribucin de frecuencias acumuladas, determinar la media, mediana y moda de la siguiente distribucin de edades. Analice la relacin entre ellas. Edad [10,12) [12,14) [14,16) [16,18) [18,20] Calculemos N 4 11 24 34 40 fin de observar en qu medida se verifica la relacin

x Mo = 3.(x Me )

los

parmetros

pedidos,

con

el

Para obtener las frecuencias absolutas, a partir de las acumuladas, aplicamos el concepto que define a estas ltimas. En la prctica, las frecuencias absolutas se obtienen restando la correspondiente acumulada de la anterior. Edad [10,12) [12,14) [14,16) [16,18) [18,20] N 4 11 24 34 40 n 4 7 13 10 6 40 x 11 13 15 17 19 n.x 44 91 195 170 114 614 n.x2 484 1183 2925 2890 2166 9648 La moda se encuentra en [14 , 16). Su valor concreto es :

614 x= = 15' 35 40

Lugar que ocupa la mediana : L = 50 . 40 / 100 = 20 La mediana est en [14,16) :

Me = 14 +

20 11 . 2 = 15' 3846 13

Mo = 14 +

10 . 2 = 15' 1765 10 + 7

Comprobemos la relacin existente entre ellas :

x Mo = 15'35 15'1765 = 0'1735 3.(x Me ) = 3.(15'35 15'3845) = 0'1035

No se verifica la relacin esperada, si bien la diferencia no es muy grande. Esta relacin terica slo se verifica en situaciones ideales y excepcionales (por ejemplo en distribuciones simtricas, donde x = Mo = Me ).

18 - Estadstica descriptiva (F. lvarez)

7
Completar la tabla de frecuencias siguiente : N de suspensos 0 1 2 3 4 N= N de suspensos 0 1 2 3 4 n 3 7 12 8 20 N 3 10 22 30 50 n 3 12 30 50 N 10

coincide con el valor de n para que al acumular resulte N=10 acumulando 12 para que al acumular resulte N=30 ltima acumulada =N=50 y n=20 por diferencia con la anterior

Estadstica descriptiva (F. lvarez) - 19

8
Calcular la amplitud semi-intercuartlica de la distribucin de las edades de 400 nios, representada a la izquierda.

Conocidos los porcentajes y el total de observaciones (N=400), podemos construir la distribucin de frecuencias absolutas : n = p . N / 100 x 2 3 4 5 6 7 p 6 12 12 15 24 31 n 24 48 48 60 96 124 400 P 6 18 30 45 69 100

Primer cuartil (percentil 25)

Tercer cuartil (percentil 75)

La amplitud o rango semi-intercuartlico ser pues :

Q 3 Q1 7 4 = = 1' 5 2 2

20 - Estadstica descriptiva (F. lvarez)

9
Una variable X tiene por media 12 y desviacin tpica 3. Si elevamos todos los valores al cuadrado construimos la nueva variable Y = X2 . Cul es el valor de su media aritmtica ?.

Observemos la expresin de la varianza :

2 sx =

n .x
i =1 i

2 i

x2

La primera parte de la expresin contiene los cuadrados de los valores de la variable X; es decir, los valores definidos como la nueva variable Y.

Con esto :

s =
2 x

n .y
i =1 i

2 2 x 2 s x = y x 2 y = sx + x 2 = 32 + 12 2 = 153

Estadstica descriptiva (F. lvarez) - 21

10
Una variable X tiene como media 8 y varianza 4. Qu transformacin lineal hemos de realizar con ella, para obtener una nueva variable Y que tenga por media 42 y desviacin tpica 10 ?. Se entiende por transformacin lineal a una relacin del tipo : Hemos de calcular los parmetros a y b desconocidos. Y = a + b.X

Haciendo uso de las propiedades de la media y la desviacin tpica, resulta : Y = a +b. X 42 = a + b. 8 Sobre la media s Y = b . s X 10 = b . 2 En relacin con la desviacin tpica La transformacin realizada fue : Y = 2 + 5.X

b = 5 a = 42 5 . 8 = 2

22 - Estadstica descriptiva (F. lvarez)

11
Las calificaciones de un alumno en dos test de conocimientos fueron 5'4 y 41. El primer test dio como media 5 con varianza 2 y, el segundo, media 38 con varianza 12. En qu test obtuvo mejor calificacin con relacin al grupo total de alumnos ?. Nos encontramos con dos distribuciones de calificaciones medidas en distintas escalas. Para poder comparar tendremos que referir ambas series de valores a otras equivalentes entre s (igual media y desviacin tpica). El proceso de tipificacin nos proporciona lo que deseamos (siempre obtendremos una distribucin con media 0 y desviacin tpica 1). Tipificando ambas calificaciones se obtiene : Nota del test 1 : 5' 4

z1 =

5' 4 5

= 0' 283

Nota del test 2 : 41

z1 =

2 41 38

= 0' 866

12

La nota obtenida en el segundo test es superior a la del primero en trminos comparativos.

Estadstica descriptiva (F. lvarez) - 23

12
a) Determinar la frecuencia desconocida, sabiendo que la estatura media es de 1515 cm. b) Calcule la amplitud semi-intercuartlica. c) Moda de la distribucin y coeficiente de asimetra que la utiliza. d) Percentil correspondiente a una estatura de 153 cm.. Explique su significado. e) Entre qu estaturas se encuentran las 25 centrales ?. f) Porcentaje de alumnos que miden ms de 157 cm. a) [140,145) [145,150) [150,155) [155,160) [160,165) b) n 12 35 51 20 7 N=125 N 12 47 98 118 125 Lugar Q1 = 125 . 25 / 100 = 3125 Q1 se encuentra en [145,150) x 1425 1475 1525 1575 1625 n 12 35 51 f 7 105+f n.x 1710 51625 77775 157'5.f 11375 157875+157'5.f La tabla de clculos de la media conduce a : Estatura en cm. [140,145) [145,150) [150,155) [155,160) [160,165) Alumnos 12 35 51 ? 7

1515 ' =

15787'5 + 157'5. f 105 + f

Resolviendo deducimos que : f = 20

[140,145) [145,150) [150,155) [155,160) [160,165)

Q1 = 145 +

' 12 3125 .5 = 147 '75 35

Lugar Q3 = 125 . 75 / 100 = 9375 Q3 se encuentra en [150,155)

Q 3 = 150 +
Luego :

c)

1) x 1425 1475 1525 1575 1625

Q 3 Q1 154 '5833 147 '75 = = 3'4167 2 2 20 Moda en [150,155) : Mo = 150 + .5 = 1518182 ' 35 + 20 Q=
n 12 35 51 20 7 125 n.x 1710 51625 77775 3150 11375 189375 n.x2 243675 76146875 118606875 496125 18484375 287218125 d)

93'75 47 .5 = 154 '5833 51

' 287218125 ' 2 1515 125 s = 5'02 s= As = x Mo = 0'0634 s


125 47 100 .5 = 153 51

153 se encuentra en [150,155)

[140,145) [145,150) [150,155) [155,160) [160,165)

n 12 35 51 20 7 N=125

N 12 47 98 118 125

Pk = 150 +

k.

Resolviendo : k = 6208 62

e)

Lugar = 125 . 40 / 100 = 50 ; en [150,155) :

P40 = 150 + P60 = 150 +


Entre 15029 y 15275

50 47 .5 = 150'29 51 75 47 .5 = 152 '75 51

Lugar = 125 . 60 / 100 = 75 ; en [150,155) :

24 - Estadstica descriptiva (F. lvarez)

f) 157 se encuentra en [155,160)

Pk = 155 +

k.

125 98 100 .5 = 157 20

Resolviendo : k = 848% (porcentaje inferiores a 157) 100% - 848% = 152%

Luego, miden ms de 157 cm. :

Estadstica descriptiva (F. lvarez) - 25

13
Edad 22 a 25 19 a 22 16 a 19 13 a 16 10 a 13 Hombres 7 9 5 11 8 Mujeres 3 5 6 9 2 a) Determine el nmero de hombres con edades comprendidas entre los 11 y 15 aos. b) Cul de los dos grupos de edades est ms disperso ?. c) Con relacin al grupo integrado por los del mismo sexo, quin resulta ms joven, un hombre o una mujer de 20 aos ?.

[10,13) [13,16) [16,19) [19,22) [22,25)

x 115 145 175 205 235

n 8 11 5 9 7 40

N 8 19 24 33 40

Hombre 2 n.x n.x 92 1058 1595 231275 875 153125 1845 378225 1645 386575 688 12550

n 2 9 6 5 3 25

Mujer n.y 23 1305 105 1025 705 4315

n.y2 2645 189225 18375 210125 165675 775225

a)

11 pertenece al intervalo [10,13) :

15 pertenece al intervalo [13,16) : Entre 11 y 15 el 3833-667 = 3166%. b)

Luego hay : 40 . 3166 / 100 = 12664 13 hombres

40 0 100 Pk = 10 + .3 = 11 k = 6'67% 8 40 k. 8 100 Pk = 13 + .3 = 15 k = 38'33% 11 k.

Calculamos las varianzas de ambos grupos :

688 12550 = 17'2 ; s2 17'22 = 17'91 ; sx = 17'91 = 4'232 x = 40 40 7752'25 4315 ' y= = 17'26 ; s2 17'262 = 12'1824 ; sy = 12'1824 = 3'49 y = 25 25 x=
Siendo 1791 > 121824 Grupo hombres ms disperso de forma aboluta Pese a ser las medias prcticamente iguales, debemos emplear el coeficiente de variacin para estudiar la variabilidad relativa de ambos grupos :

CVx =
c)

4'232 3'49 .100 = 24'605% ; CVy = .100 = 20'220% hombres ms disperso 17'2 17'26

Tipificamos 20 en ambos grupos :

Z hombre =

20 17'26 20 17'2 = 0'662 ; Z mujer = = 0'785 12'1824 17'91


Como 0662 < 0785 Hombre ms joven

26 - Estadstica descriptiva (F. lvarez)

14
La tabla siguiente nos muestra las calificaciones de inicio del curso y al finalizar el mismo. Alumno 1 2 3 4 5 Inicio 4 5 1 5 2 Final 6 8 5 9 3 10 alumnos, en un test de clculo matemtico, al 6 3 6 7 2 7 8 1 6 9 1 4 10 3 9

a) Determine la media, desviacin tpica, mediana y moda de las calificaciones al inicio y al final del curso. b) Calcule la media y desviacin tpica del incremento o mejora de la calificacin obtenida. a) Inicio x x
2

4 16

5 25

1 1

5 25

2 4

3 9

2 4

1 1

1 1

3 9

27 95

x=
Ordenando valores : 1 1 1

27 95 = 2'7 ; sx = 2'7 2 = 1487 ' 10 10


2 2 3 3 Moda = 1 9 81 3 9 6 36 7 49 6 36 4 16 9 81 63 433 4 5 5

Mediana = 25 Final y y
2

6 36

8 64

5 25

y=
Ordenando valores : 3 b) Mejora d d
2

63 = 6'3 ; sy = 10
6 6

433 6'32 = 1'9 10


6 7 Moda = 6 8 9 9

Mediana = 6

2 4

3 9

4 16

4 16

1 1

3 9

5 25

5 25

3 9

6 36

36 150

d=
Media de la diferencia :

36 = 3'6 ; sd = 10

150 3'62 = 1428 ' 10


( No es vlido para dispersiones )

d = y x = 6'3 2'7 = 3'6

Estadstica descriptiva (F. lvarez) - 27

15
N Suspensos 0 1 2 3 4 5 a) Alumnos 16 20 14 15 10 5 a) Determine la media, desviacin tpica, coeficiente de variacin, mediana y moda del nmero de suspensos. b) Coeficiente de asimetra de Fisher. c) Puntuacin diferencial y tipificada correspondiente a 2 suspensos.

De la siguiente tabla de clculos obtenemos :

x=

158 = 1975 ' 80

s=

496 1975 ' 2 = 15164 ' 80

CV =

15164 ' .100 = 76'78% 1975 '

Mediana : N/2 = 40 Me = 2

Moda = 1

x 0 1 2 3 4 5

n 16 20 14 15 10 5 80

N 16 36 50 65 75 80

n.x 0 20 28 45 40 25 158

n.x2 0 20 56 135 160 125 496

xx
-1975 -0975 0025 1025 2025 3025

n.( x x ) 3
-1232598 -185372 00002 161534 830377 1384032 957975

b)

n.( x x )
As = N s3

95'7975 = 80 3 = 0'3434 1'5164

Ligeramente asimtrica a la derecha (o positiva)

c)

x=2 ' d = x x = 2 1975 = 0'025 x x 0'025 z= = = 0'016 ' s 15164

28 - Estadstica descriptiva (F. lvarez)

16
Estatura 155-159 150-154 145-149 140-144 135-139 130-134 Nios 4 13 12 A 2 1 La altura en cm. de los nios de 12 aos, examinados durante la ltima semana en la unidad de crecimiento del centro hospitalario Crecebien, viene representada en la tabla de la izquierda. Sabiendo que la altura media de los mismos es 14775 cm., calcular : a) La frecuencia A del tercer intervalo. b) La simetra de la distribucin a partir de la comparacin de media, mediana y moda. c) El percentil correspondiente a un nio que mide 143 m..

x
132 137 142 147 152 157 TOTAL

n
1 2 A 12 13 4 32+A n 1 2 8 12 13 4

n.x
132 274 142.A 1764 1976 628 4774+142.A N 1 3 11 23 36 40

a)

x = 147'75 =

4774 + 142. A 32 + A

Resolviendo la ecuacin anterior obtenemos el valor de A : 14775.(32+A)=4774+142.A 4728+14775.A=4774+142.A 575.A = 46 A = 8

b) Intervalos [1295 , 1345) [1345 , 1395) [1395 , 1445) [1445 , 1495) [1495 , 1545) [1545 , 1595)

Calculemos la mediana y la moda de la distribucin : Moda en [1495 , 1545) :

Mo = 149'5 +
Lugar que ocupa la mediana = 40/2 = 20 Mediana en [1445 , 1495) :

4 .5 = 150'75 4 + 12

Me = 144'5 +

20 11 .5 = 148'25 12

Utilizando los coeficientes de asimetra :

As 2 =

x Mo s

As 3 =

3.( x Me) s

y siendo siempre positiva la desviacin tpica ,concluiremos que la simetra resultar del anlisis del signo del numerador.

x Mo = 147'75 150'75 = 3 < 0

3.( x Me ) = 3.( 147'75 148'25) = 1'5 < 0


Luego es asimtrica izquierda (o negativa). c) La altura 143 m. (= 143 cm.) se encuentra en el intervalo [1395 , 1445) :

k .40 3 0'4. k 3 Pk = 143 = 139'5 + 100 .5 3'5 = .5 8 8

3'5.8 8'6 + 3 = 0'4. k k = = 21'5 5 0'4

Luego corresponde al percentil 215.

Estadstica descriptiva (F. lvarez) - 29

17
X 10-12 7-9 4-6 1-3 n 10 100 60 30 Dada la siguiente distribucin de frecuencias., calcular : a) Media y desviacin tpica. b) Nmero de observaciones comprendidas entre las puntuaciones directas 35 y 95. c) Puntuaciones tpicas de los percentiles 20 y 80.

Ordenamos los intervalos de menor a mayor, expresndolos mediante sus extremos reales. Intervalos [ 05 , 35 ) [ 35 , 65 ) [ 65 , 9,5 ) [ 95 , 125 ] Totales a) b) c) n 30 60 100 10 200 x 2 5 8 11 n.x 60 300 800 110 1270 n.x2 120 1500 6400 1210 9230 N 30 90 190 200

x=

1270 = 6'35 200

s2 =

9230 6'352 = 58275 ' 200

s = 58275 ' = 2'414

De la observacin directa de la tabla se concluye que es 160 (60+100). Percentil 20 : Lugar = 20 x 200 / 100 = 40

40 30 P20 = 35 ' + .3 = 4 60

(Observando N) se encuentra en [ 35 , 65 )

z=

4 6'35 = 0'9735 2'414

Percentil 80 :

Lugar = 80 x 200 / 100 = 160

160 90 P80 = 6'5 + .3 = 8'6 100

(Observando N) se encuentra en [ 65 , 9,5 )

z=

8'6 6'35 = 0'9321 2'414

30 - Estadstica descriptiva (F. lvarez)

18
x 0 1 2 3 n 6 12 21 11 Haciendo uso de coeficientes basados en medidas de posicin, estudie la asimetra y el apuntamiento de la distribucin.

Tales coeficientes son el de asimetra de Yule y el de curtosis de Kelley. Obtengamos los percentiles que intervienen en su clculo a travs de la columna de porcentajes acumulados (P) : x 0 1 2 3 Con ellos : n 6 12 21 11 50 r 012 024 042 022 p 12 24 42 22 P 12 36 78 100 Cuartil 1 : (25%) Cuartil 3 : (75%) Mediana : (50%) Percentil 10 : (10%) Percentil 90 : (90%) 1 2 2 0 3 (asimtrica a la izquierda o negativa)

Y=

Q3 2. Me + Q1 2 2.2 + 1 = = 1 2 1 Q3 Q1 Q 3 Q1 21 Q 2 2 0'263 = 0'263 = 0'0963 K= 0'263 = P90 P10 P90 P10 3 0

(ligeramente platicrtica o aplastada)

Estadstica descriptiva (F. lvarez) - 31

19
Determine las medias aritmtica, geomtrica y armnica de la variable X que toma los valores siguientes : 5 , 1 , 5 , 4 , 8. Media aritmtica : Media geomtrica : Media armnica :

x=

xi
N
N

5 + 1 + 5 + 4 + 8 23 = = 4'6 5 5
1 5

x G = x1 . x 2 . ... . x N = 5 515 . . .4.8 = 5 800 = 800 5 5 N = = = 2'817 xA = 1 1 1 1 1 1 1775 ' 5+1+ 5+ 4 + 8 xi

= 800 0'2 = 3807 '

32 - Estadstica descriptiva (F. lvarez)

20
x 1 2 3 n 3 10 7 20 Determine las medias aritmtica, geomtrica y armnica de la distribucin.

Generalizamos las expresiones correspondientes al figurar frecuencias : Media aritmtica :

x=

n .x
i

3.1 + 10.2 + 7.3 44 = = 2'2 20 20

Media geomtrica :

nn n2 .....x n = 20 13.210.37 = xG = N x1n1 .x 2

= 20 2239488 = 2239488
Media armnica :

20

= 22394880'05 = 2'077

xA =

N ni x i

20 20 = = 1'935 3 10 7 10'333 + + 1 2 3

Estadstica descriptiva (F. lvarez) - 33

21
Con el fin de estudiar la edad media y la dispersin de edades en un centro educativo, el director solicita estos datos a los responsables de los distintos niveles, resultando : 200 alumnos de Primaria con media 11 aos y varianza 25. 140 alumnos de Secundaria con media 146 aos y varianza 2. 165 alumnos de Bachillerato con media 171 aos y varianza 09. Cul es la edad media y la varianza del colectivo total de alumnos del centro ?. Media conjunta de los 3 grupos

X=

n i . xi ni

20011 . + 14014 . '6 + 16517 . '1 70655 ' = = 13'99 200 + 140 + 165 505
2

Varianza conjunta de los 3 grupos S2 =

n i .( x i X) n i .S 2 i + ni ni

200.2'5 + 140.2 + 165.0'9 200.(11 13'99) 2 + 140.(14'6 13'99) 2 + 165.(17'1 13'99) 2 + = 505 505 928'5 3436'0105 ' = + = 1839 + 6'804 = 8'643 505 505 =

34 - Estadstica descriptiva (F. lvarez)

22
De las 10 observaciones de dos variables X , Y, conocemos : X = 114 ; X2 = 1410 ; Y = 34 ; Y2 = 154 ; XY = 398 . Determine la media y varianza de la variable V = X - Y. Calculemos la media y varianza de X, la media y varianza de Y, as como la covarianza.

X=

114 = 114 ' 10

Y=

34 = 3'4 10
SXY = N

S2 X =

1410 114 ' 2 = 1104 ' 10


10

S2 Y =

154 3'4 2 = 384 ' 10

Xi . Yi X. Y = 398 114 ' .3'4 = 104 '


V = X Y = 114 ' 3'4 = 8

Con ello :
2 2 S2 ' + 384 ' 2.104 ' = 12'8 V = S X + S Y 2. S XY = 1104

Estadstica descriptiva (F. lvarez) - 35

23
El estudio de las faltas de asistencia a clase de alumnos de un grupo de 3 de Secundaria produjo los resultados siguientes : Faltas Alumno s 1 4 2 3 3 3 4 2 5 3 6 2 7 1 8 2

Determine la mediala y estudie analtica y grficamente el grado de concentracin de la distribucin. Los clculos de la mediala, ndice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar: xi 1 2 3 4 5 6 7 8 ni 4 3 3 2 3 2 1 2 Ni = ni. 4 7 10 12 15 17 18 20 Pi = (Ni.. /N).100 20 35 50 60 75 85 90 100 ti = ni. xi 4 6 9 8 15 12 7 16 T i = ti . 4 10 19 27 42 54 61 77 Qi = (Ti.. /T).100 5'195 12'987 24'675 35'065 54'545 70'130 79'221 100 Pi - Qi 14'805 22'013 25'325 24'935 20'455 14'870 10'779 0

N = 20

TP = 515

T = 77

TD =133'182

Uniendo el origen del rectngulo (0 , 0) con los sucesivos puntos (Pi , Qi) obtenemos la curva de Lorenz de la derecha. Las sumas TD y TP permiten obtener el ndice de Gini :

G=

TD 133182 ' = = 0'3209 TP 100 515 100

Concluimos la presencia de una cierta concentracin (lo cul tambin se advierte con la grfica).

Mediala = 5 ya que el primer valor que iguala o supera a 50 en la columna Qi es 54'545, el cul corresponde a x = 5.

36 - Estadstica descriptiva (F. lvarez)

24
Un anlisis del pago de impuesto en el sector de hostelera ofreci los resultados siguientes (importes mensuales por 10.000 pesetas) : Importe Empresas [0,2) 2 [2,4) 6 [4,6) 26 [6,8) 40 [8,10) 21 [10,12] 5

Determine la mediala y estudie analtica y grficamente el grado de concentracin de la distribucin. Los clculos de la mediala, ndice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar: xi [0,2) [2,4) [4,6) [6,8) [8,10) [10,12] 1 3 5 7 9 11 ni 2 6 26 40 21 5 Ni = ni. 2 8 34 74 95 100 Pi = (Ni.. /N).100 2 8 34 74 95 100 ti = ni. xi 2 18 130 280 189 55 T i = ti . 2 20 150 430 619 674 Qi = (Ti.. /T).100 0'297 2'967 22'255 63'798 91'840 100 Pi - Qi 1'703 5'033 11'745 10'202 3'160 0

N =100
Con TD y TP obtenemos el ndice de Gini :

TP = 313

T = 674

TD =31'843

G=

TD 31843 ' = = 01495 ' TP 100 313 100

Concluimos que existe una concentracin muy baja (lo cul manifestar tambin la grfica de Lorenz). Uniendo el origen del rectngulo (0 , 0) con los sucesivos puntos (Pi , Qi) obtenemos la curva de Lorenz de la derecha.

Mediala en el intervalo [6 , 8) ya que el primer valor que iguala o supera a 50 en la columna Qi es 63'798, el cul corresponde al intervalo indicado. De aqu :

Ml = e i +

50 Q i1 50 22'255 .a i = 6 + .2 = 7'3357 Q i Q i1 63'798 22'255

Estadstica descriptiva (F. lvarez) - 37

25
x 0 1 2 3 4 f 2 8 10 3 1 Haciendo uso del clculo de momentos ordinarios de rdenes 1 al 4, determine el valor de la media, varianza, asimetra y curtosis de la distribucin de la izquierda.

Tabla de clculo de momentos ordinarios :

a1 x
0 1 2 3 4 Totales :

a2 n.x
0 8 40 27 16 91
2

a3 n.x
3

a4 n.x4
0 8 160 243 256 667

n
2 8 10 3 1 24

n.x
0 8 20 9 4 41

0 8 80 81 64 233

Orden 1 2 3 4

ak =

k n k n.x .x = N N 41 = 17083 ' a1 = 24 91 a2 = = 3'7917 24 233 a3 = = 9'7083 24 667 a4 = = 27'7917 24

mk
m1 = 0
2 m2 = a 2 a12 = 3'7917 17083 ' = 0'8734

m3 = a 3 3. a 2 . a1 + 2. a13 = ... = 0'2468 m4 = a 4 4. a 3 . a1 + 6. a 2 . a12 3. a14 = ... = 2'2954

Con los momentos calculados : Media Varianza Coeficiente de asimetra

Coeficiente de curtosis

= x = a1 = 17083 ' 2 2 = sx = m2 = 0'8734 m3 0'2468 As = 3 = 3 = 0'3024 0'8734 m2 2'2954 m 3 = 0'0091 K = 42 3 = m2 0'87342

) (

38 - Estadstica descriptiva (F. lvarez)

26
Haciendo uso del coeficiente de variacin, compare la dispersin o variabilidad relativa de las dos variables descritas en cada uno de los apartados siguientes : a) El peso medio de los toros de una ganadera es de 410 kg. con desviacin tpica de 1 kg. y, el peso medio de los perros de una granja es de 8 kg. con igual desviacin tpica. b) Dos fbricas producen tornillos con igual longitud media (50 mm.), siendo la desviacin tpica de la primera de 2 mm. y de 12 mm. la de la segunda. a)

CVT = CVA =

1 .100 = 0'2439% 410 2 .100 = 4% 50

1 CVP = .100 = 12'5% 8 12 .100 = 24% 50

El

peso

de

los

perros

tiene

mayor

variabilidad b)

CVB =

Los de la 2 tienen mayor variabilidad

Estadstica descriptiva (F. lvarez) - 39

27
X 0-6 7-13 14-20 21-27 28-34 nA 4 6 9 12 9 nB 4 7 9 8 2 La tabla muestra la comprensin lectora (X) de dos grupos de sujetos educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la puntuacin X=19 se considera una comprensin lectora buena, calcular : a) El porcentaje de personas en cada grupo con una buena comprensin lectora. b) Cul de los dos grupos presenta mayor variabilidad ? (Razone adecuadamente su respuesta).

Expresamos los intervalos con extremos reales, obteniendo la tabla de clculos de percentiles, media y varianza de ambos grupos.

x
[-0'5,6'5) [6'5,13'5) [13'5,20'5) [20'5,27'5) [27'5,34'5] a) 3 10 17 24 31

nA
4 6 9 12 9 40

NA
4 10 19 31 40

nA.x
12 60 153 288 279 792

nA.x2
36 600 2601 6912 8649 18798

nB
4 7 9 8 2 30

NB
4 11 20 28 30

nB.x
12 70 153 192 62 489

nB.x2
36 700 2601 4608 1922 9867

Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta ser su diferencia hasta 100. El valor 19 se encuentra en el intervalo [13'5,20'5) : En el grupo A :

k.40 10 Pk = 19 = 135 ' + 100 .7 9


En el grupo B :

k = 42'68

Luego el 57'32% (100 - 42'68) tienen buena comprensin lectora en el grupo A.

k.30 11 Pk = 19 = 135 ' + 100 .7 9


b)

k = 60'24

Luego el 39'76% (100 - 60'24) tienen buena comprensin lectora en el grupo B. Mayor variabilidad la presentar aquel grupo que posea mayor dispersin entre sus valores. Con mayor rigor, si la media es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayora), es el coeficiente de variacin el ms adecuado para medir la variabilidad relativa entre dos series estadsticas (mayor coeficiente indica menor homogeneidad; un menor valor indicar menor dispersin o variabilidad). Si comparamos mediante las varianzas :

XA =

792 18798 489 9867 2 = 19'8 ; S A = 19'82 = 77'91 ; X B = = 16'3 ; S 2 16'32 = 63'21 B = 40 40 30 30

el grupo A presenta una mayor variabilidad. Si comparamos mediante los coeficientes de variacin :

CVA =

SA 77'91 .100 = .100 = 44'58% XA 19'8

CVB =

SB 63'21 .100 = .100 = 48'78% XB 16'3

luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra de lo obtenido comparando varianzas.

40 - Estadstica descriptiva (F. lvarez)

28
X 0-6 7-13 14-20 21-27 28-34 nA 4 6 9 12 9 nB 4 7 9 8 2 La tabla muestra la comprensin lectora (X) de dos grupos de sujetos educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la puntuacin X=19 se considera una comprensin lectora buena, calcular : a) El porcentaje de personas en cada grupo con una buena comprensin lectora. b) Cul de los dos grupos presenta mayor variabilidad ? (Razone adecuadamente su respuesta).

Expresamos los intervalos con extremos reales, obteniendo la tabla de clculos de percentiles, media y varianza de ambos grupos.

x
[-0'5,6'5) [6'5,13'5) [13'5,20'5) [20'5,27'5) [27'5,34'5] a) 3 10 17 24 31

nA
4 6 9 12 9 40

NA
4 10 19 31 40

nA.x
12 60 153 288 279 792

nA.x2
36 600 2601 6912 8649 18798

nB
4 7 9 8 2 30

NB
4 11 20 28 30

nB.x
12 70 153 192 62 489

nB.x2
36 700 2601 4608 1922 9867

Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta ser su diferencia hasta 100. El valor 19 se encuentra en el intervalo [13'5,20'5) : En el grupo A :

k.40 10 Pk = 19 = 135 ' + 100 .7 9


En el grupo B :

k = 42'68

Luego el 57'32% (100 - 42'68) tienen buena comprensin lectora en el grupo A.

k.30 11 Pk = 19 = 135 ' + 100 .7 9


b)

k = 60'24

Luego el 39'76% (100 - 60'24) tienen buena comprensin lectora en el grupo B. Mayor variabilidad la presentar aquel grupo que posea mayor dispersin entre sus valores. Con mayor rigor, si la media es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayora), es el coeficiente de variacin el ms adecuado para medir la variabilidad relativa entre dos series estadsticas (mayor coeficiente indica menor homogeneidad; un menor valor indicar menor dispersin o variabilidad). Si comparamos mediante las varianzas :

XA =

792 18798 489 9867 2 = 19'8 ; S A = 19'82 = 77'91 ; X B = = 16'3 ; S 2 16'32 = 63'21 B = 40 40 30 30

el grupo A presenta una mayor variabilidad. Si comparamos mediante los coeficientes de variacin :

CVA =

SA 77'91 .100 = .100 = 44'58% XA 19'8

CVB =

SB 63'21 .100 = .100 = 48'78% XB 16'3

luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra de lo obtenido comparando varianzas.

Estadstica descriptiva (F. lvarez) - 41

EJERCICIOS PROPUESTOS
1
Las edades de los alumnos que asisten a clase de repaso en una academia son las siguientes. 14 19 16 16 18 a) b) c) d) 16 15 15 16 18 16 15 16 15 16 19 16 18 16 18 17 17 14 17 17 17 14 15 15 17 15 15 14 17 17 17 16 17 14 17 17 17 13 16 15 15 16 18 16 16

Construir la tabla completa de frecuencias. Calcular la moda. Determinar su media aritmtica, varianza y desviacin tpica. Obtener el valor de la mediana, del percentil 29 y de la amplitud semi-intercuartlica.

2
La tabla siguiente contiene los pesos en kg. de los alumnos de un curso. 40 51'5 44 50 43 57 40 45 58 43 45 43'5 48 44 50 45'5 47 56 50'5 53 41'5 44 49'5 59 40'5 50 41 39 43 50'5 55 40 47 46 58 38 52 42 51 39'5

a) Agrupar los valores en intervalos de 5 kg. de amplitud, comenzando por 35 kg., realizando un recuento de los mismos y confeccionando la tabla completa de frecuencias b) Calcular la moda de dicha distribucin de pesos. c) Determinar su media aritmtica, varianza y desviacin tpica. d) Obtener el valor de la mediana, y del 8 decil.

3
Sea la siguiente distribucin de frecuencias: x 1 2 3 4 n 10 15 12 8

a) Calcular la media de esta distribucin. b) Si se suma a los valores de xi la cantidad A, qu relacin guarda la media de la nueva distribucin con la de la anterior ?. Generalizar este resultado y demostrar que si en una distribucin de frecuencias de media m, se sustituyen los valores xi por xi + A, manteniendo las frecuencias, la media m' de la nueva distribucin verifica : m'= A + m c) Utilizando la igualdad obtenida, cmo podra calcularse ms fcilmente la media de la distribucin siguiente ? x 2752 2754 2756 2758 n 36 54 24 18

4
Una serie familias se han clasificado por su nmero de hijos, resultando : N de hijos N de familias 0 11 1 13 2 20 3 25 4 14 5 10 6 4 7 2 8 1

Se pide: a) Calcular la tabla completa de frecuencias. b) Representaciones grficas. c) Calcular la media, mediana y moda. d) Hallar el recorrido, varianza y desviacin tpica.

42 - Estadstica descriptiva (F. lvarez)

5
Ordenar las cuatro distribuciones siguientes de mayor a menor dispersin.

6
Los precios de una chaqueta en once establecimientos fueron (en pts.): 5000 5200 5300 5600 6000 6400 6500 7200 Calcular la desviacin media respecto de la mediana y respecto de la media. 7300 8400 9000

7
Si en una distribucin de frecuencias duplicamos las amplitudes de los intervalos, qu suceder, aproximadamente, con los valores de las frecuencias ?.

8
Represente el histograma correspondiente a la siguiente distribucin de edades de los trabajadores de una fbrica. Edades de 20 a menos de 25 de 25 a menos de 35 de 35 a menos de 45 de 45 hasta 65 N de trab. 15 20 48 24

9
Ponga un ejemplo sencillo de una distribucin de frecuencias simtrica. Calcule su moda, media y mediana, verificando que los tres parmetros coinciden.

10
A la izquierda se muestra el grfico representativo de las frecuencias absolutas acumuladas de la distribucin de edades de 40 individuos. a) Obtenga su media, mediana y moda. b) Cuntos tienen edades inferiores a cinco aos y medio ?

Estadstica descriptiva (F. lvarez) - 43

11
Una variable X tiene como media 21 y varianza 9. Si se obtiene una nueva variable Y multiplicando los elementos de X por 4 y restndoles 8 unidades, cul es el valor del coeficiente de variacin de Y ?.

12
Una variable X toma los valores : 2 5 5 6 7 Realizada una transformacin lineal con ella, se gener una nueva variable de la que conocemos que su media era 15 y que la puntuacin X=2 se transform en Y=13. Calcule las cuatro puntuaciones Y desconocidas.

13
X 0 1 2 3 4 5 n 3 9 13 25 16 14 Estudie la simetra y el apuntamiento (curtosis) de la distribucin de la izquierda.

NOTA : Obtenga los distintos coeficientes conocidos. Compare los resultados.

14
Nota 9 - 10 7-8 5-6 3-4 1-2 Alumnos 2 0 4 14 12 La tabla de la izquierda nos muestra la distribucin de calificaciones de los 32 alumnos de un curso. a) Determine su media, mediana y moda. b) Qu porcentaje de observaciones tienen nota inferior a 162 ?. c) Entre qu valores se encuentra el 70% de las notas centrales ? d) Obtenga el coeficiente de variacin y la amplitud semi-intercuartlica.

15
Nota [0 , 1) [1 , 2) [2 , 3) [3 , 4) [4 , 5) [5 , 6) [6 , 7) [7 , 8] n N 1 1 5 11 6 19 De la distribucin de notas de 20 alumnos, calcular : a) Frecuencias absolutas simples (f) y acumuladas (F) que faltan en la tabla. b) Coeficiente de variacin. c) Porcentaje de alumnos con notas inferiores a 2'6. d) Entre qu notas se encuentra el 10% de las calificaciones centrales ?. e) Momentos ordinarios y centrales hasta el 4 orden. f) Coeficientes de asimetra y curtosis, utilizando los momentos calculados en e).

16
Con el fin de estudiar la distribucin de fallos en una pieza de tela, se realiz un recuento de los contenidos en cada metro. Los resultados fueron los siguientes : Fallos N de metros 0 25 1 8 2 4 3 1 4 1 5 1 6 2 7 1 8 3 9 4

a) Estudie el grado de concentracin de la distribucin de fallos a lo largo de la pieza de tela. b) Calcule su media y su mediala.

17
La tabla siguiente muestra los fallos cometidos por alumnos en la realizacin de un test de 120 items. Errores Alumnos [0 , 10) 25 [10 , 20) 20 [20 , 30) 22 [30 , 40) 16 [40 , 50) 29 [50 , 60) 24 [60 , 70) 38 [70 , 80) 26

a) Estudie el grado de concentracin de la distribucin de preguntas con respuesta errnea. b) Calcule su mediala.

44 - Estadstica descriptiva (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
a) x 13 14 15 16 17 18 19 n 1 5 10 14 13 5 2 r 0'02 0'10 0'20 0'28 0'26 0'10 0'04 p 2 10 20 28 26 10 4 N 1 6 16 30 43 48 50 R 0'02 0'12 0'32 0'60 0'86 0'96 1'00 P 2 12 32 60 86 96 100

b) c) d)

Mo = 16 x = 16'12 ; s2 = 1'7856 ; s = 1'3363 Me = 16 ; P29 = 15 ; Q = 1 Intervalo [35,40) [40,45) [45,50) [50,55) [55,60] n 3 14 8 9 6 r 0'075 0'350 0'200 0'225 0'150 p 7'5 35'0 20'0 22'5 15'0 N 3 17 25 34 40 R 0'075 0'425 0'625 0'850 1'000 P 7'5 42'5 62'5 85'0 100'0

2
a)

b) c) d)

Mo = 43'636 x = 47'625 ; s2 = 36'859 ; s = 6'071 Me = 46'875 ; D8 = 53'889

3
a) b) c)

x = 2'4 2'4 + A
Realizando el cambio : y =

x 2754 2
N 11 13 20 25 14 10 4 2 1 11 24 44 69 83 93 97 99 100 R 0'11 0'24 0'44 0'69 0'83 0'93 0'97 0'99 1'00 P 11 24 44 69 83 93 97 99 100
5 10%

4
a) x 0 1 2 3 4 5 6 7 8 n 11 13 20 25 14 10 4 2 1 r 0'11 0'13 0'20 0'25 0'14 0'10 0'04 0'02 0'01 p

b)

25 20 15 10 5 0 0 1 2 3 4 5 6 7 8
3 25% 4 14%

6 7 4% 8 2% 1%

0 11%

1 13%

2 20%

c) d)

x = 2'8 ; Me = 3 ; Mo = 3 R = 8 ; s2 = 3'14 ; s = 1'772


Estadstica descriptiva (F. lvarez) - 45

5
A , D , C , B.

6 7

D Me = D x = 870

Se dividen por dos.

8
Las alturas deben ser proporcionales al rea. Dividimos las frecuencias segn sea la amplitud del intervalo. Alturas : 15 10 (20/2) 24 (48/2) 6 (24/4)

9
x 0 1 2 3 4 n 2 8 20 8 2 40

= Me = Mo = 2

10
a) b)

x = 4'7 ; Me = 5 ; Mo = 6
20

11
CV = 15'789

12
15 , 15 , 15'667 , 16'333

13
As =

n .(x
i

x)

As1 =
simtrica).

x Mo

= - 0'299561

ligeramente asimtrica a la izquierda

= 0'036786

ligeramente asimtrica a la derecha (prcticamente

As2 =

3.( x Md )

= - 0'110357

ligeramente asimtrica a la izquierda

Los coeficientes basados en la moda y la mediana hacen uso de una relacin terica entre los parmetros de centralizacin. Generalmente no conducen a la misma conclusin, salvo distribuciones claramente asimtricas. 46 - Estadstica descriptiva (F. lvarez)

n .(x
i

x)

K=

3 = - 0'620240

ligeramente aplastada (mesocrtica)

14
a) c) 3375 ; 30714 ; 3 13 y 51 b) d) 21% 60'9707% ; 11905

15
a) b) c) d) e) f) n = 1, 0, 4, 3, 3, 6, 2, 1 N = 1, 1, 5, 8, 11, 17, 19, 20 38'6364 17 4'333 y 5 a1 = 4'4 ; a2 = 22'25 ; a3 = 121'7 ; a4 = 703'0625 m1 = 0 ; m2 = 0 ; 2'89 ; m3 = -1'6320 ; m4 = 21'2737 A = -0'3322 ; K = -0'4529

16
ndice de Gini = 0'6567 Media = 2'14 ; Mediala = 8

17
ndice de Gini = 0'394 Mediala = 60'5263

Puede que sus resultados no coincidan exactamente con los ofrecidos. Todo depende del nmero de cifras decimales

que emplee en sus clculos. Estadstica descriptiva (F. lvarez) - 47

REGRESIN Y CORRELACIN
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez francisco.alvarez@uca.es

DISTRIBUCIONES BIVARIANTES
El estudio de la relacin existente entre dos variables X e Y conduce a la consideracin simultnea de ambas variables estadsticas. Tal distribucin de las dos variables se denomina bivariante. La presentacin de los datos experimentalmente observados puede hacerse : a) Mediante los pares (Xi , Yi) : b) Tabla simple de frecuencias : X X1 X2 .... Xn Y Y1 Y2 .... Yn n n1 n2 .... nn X (X1 , Y1) , (X2 , Y2) , (X3 , Y3) , ... c) Tabla de frecuencias de doble entrada : Y1 n11 n21 .... nn1 Y2 n12 n22 .... nn2 Y .... .... .... .... .... Ym n1m n2m .... nnm

X1 X2 .... Xn

Distribuciones marginales :
Son las obtenidas de la distribucin bivariante, al considerar de forma independiente cada una de las dos variables. De ellas obtendremos los parmetros de centralizacin y dispersin caractersticos : media y desviacin tpica.

X , s2 X

, sX

, Y , s2 Y

, sY

Covarianza :
Este ndice de variacin conjunta de X e Y se define como :

s XY =

n .(X
i i

X )( . Yi Y )

s XY =

N nij .(X i X ).(Y j Y )


i j

n . X .Y
i i i

n .X .Y
ij i i j

X .Y
j

para tablas simples de frecuencias

X .Y

para tablas de frecuencias de doble

entrada. Si sXY = 0 expresar que las variables X e Y son independientes.

RECTAS DE REGRESIN
Representando los pares de observaciones (X,Y) como puntos en un plano cartesiano, obtenemos el denominado diagrama de dispersin o nube de puntos. Por recta de regresin o de ajuste entendemos la recta que ms se aproxima a los puntos representativos de las observaciones (X,Y). El mtodo de los mnimos cuadrados proporciona un sistema de obtencin de tales rectas, estableciendo que sea mnima la suma de los cuadrados de las separaciones existentes entre cada punto y la recta.

Segn se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen, respectivamente, las rectas de regresin de Y sobre X y de X sobre Y.

Regresin y correlacin (F. lvarez) - 1

RECTA DE REGRESIN DE Y SOBRE X Y' = a + b.X


a = ordenada en el origen b = coeficiente de regresin de Y sobre X = pendiente de la recta de regresin = tangente del ngulo que forma con el eje horizontal. Y' = predicciones de Y para el valor X observado.

Los coeficientes a y b de la recta de regresin de Y sobre X se obtienen resolviendo el sistema :

a.N a. f . X
el cul tiene como solucin :

+ b. n. X
s XY s2 X

b. n. X

= =

n.Y n.X .Y

b=

a = Y b. X

RECTA DE REGRESIN DE X SOBRE Y X' = a' + b'.Y


a' = ordenada en el origen b' = coeficiente de regresin de X sobre Y = pendiente de la recta de regresin. X' = predicciones de X para el valor Y observado.

Los coeficientes a' y b' de la recta de regresin de X sobre Y se obtienen igualmente al resolver :

a'.N a '. f .Y
o directamente :

+ b'. n.Y + b'. n.Y 2

= =

n. X n.X .Y

b' =

s XY 2 sY

a ' = X b'. Y

Otro procedimiento de clculo simplificado permite obtener los coeficientes de regresin del siguiente modo :

b=

N . X .Y ( X )( . Y ) N . X 2 ( X )
2

b' =

N . X .Y ( X )( . Y ) N . Y 2 ( Y )
2

Si utilizamos puntuaciones diferenciales : x = X X y = Y Y , las rectas de regresin pierden el trmino independiente (ordenadas en el origen a y a' ) al ser las medias nulas, siendo su expresin : y' = b.x x' = b'.y

COEFICIENTE DE CORRELACIN DE PEARSON


La recta de regresin es la que pasa ms cerca de las observaciones, pero no nos indica si pasa muy cerca o no de ellas. Hemos de definir una medida del grado de asociacin o relacin entre ambas variables, lo cul, en trminos de recta de ajuste, indicar la bondad de la misma. Tal coeficiente se denomina coeficiente de correlacin, definido por Pearson del siguiente modo :

r = b . b' =

s XY sX . sY

ya que : r =

b . b' =

s XY s XY . 2 = 2 sX sY

2 s XY s = XY 2 2 sX . sY sX . sY

Segn las expresiones finales obtenidas para b y b', podemos tambin calcularlo como :

r=
La expresin

[N . X

. Y ) N . X .Y ( X )(
2 2

( X ) . N . Y 2 ( Y )
sX sY r = b'. sY sX

][

conduce a las siguientes relaciones (sin ms que multiplicar y dividir por sX o por sY ) :
r = b.

De aqu resulta que, si se trabaja con puntuaciones tipificadas (las desviaciones tpicas son iguales a 1) : r = b = b' y las rectas de regresin son : z'Y = r.z'X ; z'X = r.z'Y El coeficiente de correlacin toma siempre valores comprendidos entre -1 y 1 : -1 r 1

2 - Regresin y correlacin (F. lvarez)

Interpretacin :
r prximo a 0 prximo a 1 prximo a -1 Asociacin de las variables Variables independientes o no relacionadas linealmente Variables relacionadas directamente (cuando una aumenta la otra tambin) Variables relacionadas inversamente (cuando una aumenta la otra disminuye) Bondad del ajuste Mala recta de ajuste. No pasa cerca de las observaciones. Buena recta de ajuste. Creciente (pendientes b y b' positivas) Buena recta de ajuste. Decreciente (pendientes b y b' negativas)

CURVA DE REGRESIN DE LA MEDIA


Este mtodo es aplicable cuando una de las dos variables (o las dos) contiene un bajo nmero de valores distintos.

Curva de regresin de la media de Y condicionada a X :


El procedimiento consiste en sustituir todos los pares de observaciones que tienen el mismo valor de X por un nico par que tiene por componentes dicho valor de X y la media de los valores de Y. De igual modo puede establecerse la curva de regresin de la media de X condicionada a Y. As, por ejemplo, la figura muestra los pares siguientes: X=1 : (1,1) , (1,3) sustituidos por el par (1,2) , al ser 2 la media de 1 y 3. X=2 : (2,1) , (2,4) , (2,5) sustituidos por el par (2,3'33) , al ser 3'33 la media de 1, 4 y 5. ... etc ... Con los pares (1,2) , (2,3'33), ... obtenemos la recta de regresin por el procedimiento ya descrito.

Razn de correlacin :

2 = 1

2 ni .s y 1 . 2 i N sY

Toma valores comprendidos entre 0 y 1 y siempre verifica que 2 r2 (r=coef. de correlacin lineal). La relacin entre las variables X , Y ser de tipo lineal, cuanto ms 2 2 prximo sea a r .

OTROS PROCEDIMIENTOS DE CLCULO DEL COEFICIENTE DE CORRELACIN r Coeficiente de correlacin (phi) :


El siguiente procedimiento se puede utilizar cuando las dos variables X e Y son dicotmicas. Y X 1 0 1 a c 0 b d Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento representado en la tabla de la izquierda. El coeficiente de correlacin toma el valor :

ad bc (a + b )( . c + d )( . a + c )( . b+ d)

Coeficiente de correlacin biserial puntual rbp :


El siguiente procedimiento se puede utilizar cuando una variable es continua y la otra dicotmica. Supuesta X continua :

rbp =

X1 X0 . p. q sX

Siendo :

X1 X0 sX
p q=1-p

la media de los valores de X que se corresponden con un 1 en Y. la media de los valores de X que se corresponden con un 0 en Y. la desviacin tpica de X (considerados sus valores globalmente). la proporcin de unos en Y. la proporcin de ceros en Y.

Coeficiente de correlacin por rangos de Spearman :


El siguiente procedimiento se puede utilizar cuando las dos variables son ordinales (reordenaciones de una serie de elementos).

= 1

6. d 2

N. N 2 1

Siendo d las diferencias entre los valores de X e Y. Regresin y correlacin (F. lvarez) - 3

Los coeficientes de correlacin anteriores no son ms que una adaptacin del coeficiente de correlacin de Pearson para tipos especiales de variables. En consecuencia, su valor coincide con el que habramos obtenido siguiendo el procedimiento de Pearson (r); por ello, su interpretacin es la establecida para r .

OTROS COEFICIENTES DE CORRELACIN NO BASADOS EN EL PEARSON Coeficiente de correlacin tetracrica:


Puede utilizarse cuando ambas variables son continuas , pero ambas pueden dicotomizarse artificialmente. Y X 1 0 1 a c 0 b d Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento que se representa en la tabla de la izquierda.

A) Mtodo abreviado (aproximado) :


1 Calculamos los productos : a.d y b.c. 2 Si a.d > b.c , calculamos el cociente : C = a.d / b.c (el coeficiente de correlacin ser positivo) 3 Si a.d < b.c , calculamos el cociente : C = b.c / a.d (el coeficiente de correlacin ser negativo) 4 Consultando la tabla de clculo del coeficiente de correlacin tetracrico, localizamos el cociente C en el intervalo que lo contiene (con extremos A y B). A su derecha encontramos el coeficiente de correlacin tetracrico (rt), como un valor numrico (n) ms R. De aqu :

rt = n + R
B) Mtodo exacto :

con : R =

CA 100 . ( B A )

El coeficiente de correlacin tetracrico rt ser el resultado de resolver la siguiente ecuacin :

rt + z. z'.

rt 2 r3 r4 a. d b. c + ( z 2 1) . ( z' 2 1) . t + ( z 3 3z) . ( z' 3 3z') . t + ... = 2 2! 3! 4! n . f ( z). f ( z' )

Como es lgico, la mayor exactitud en el clculo rt , se obtiene al considerar un mayor nmero de sumandos del desarrollo en serie anterior. Esta dificultad aconseja seguir el mtodo abreviado descrito anteriormente. En la ecuacin que permite calcular rt : z valor de la curva normal tipificada N(0,1), que deja a su derecha un rea m, igual a la menor de las cantidades (a+c)/n o (b+d)/n. z' valor de la curva normal tipificada N(0,1), que deja a su derecha un rea m, igual a la menor de las cantidades (a+b)/n o (c+d)/n. f(z) y f(z') ordenadas de la curva normal, correspondientes a los valores z y z' anteriores. Tabuladas para cada m.

Coeficiente de correlacin biserial rb :


Puede utilizarse cuando ambas variables son continuas , pero una de ellas puede dicotomizarse artificialmente. Supuesta X continua y Y dicotomizada (valores 1 y 0) , el coeficiente de correlacin biserial se calcula del modo siguiente :

X X0 p. q rb = 1 . sX f ( z)
La ordenada f(z) :

Siendo :

X1 X0 sX

la media de los valores de X que se corresponden con un 1 en Y. la media de los valores de X que se corresponden con un 0 en Y. la desviacin tpica de X (considerados sus valores globalmente).

p la proporcin de unos en Y. q=1-p la proporcin de ceros en Y. z el valor normal tipificado (N(0,1)) que deja a su derecha (o a su izquierda) el
rea p.

f(z)

la ordenada correspondiente a z en la curva normal. NOTA : Los clculos de z y f(z) no es preciso realizarlos ya que, para cada valor de la probabilidad p (o q indistintamente), se encuentran tabulados los valores de p.q/f(z).

4 - Regresin y correlacin (F. lvarez)

Coeficiente de correlacin (tau) de Kendall :


Como el de rangos de Spearman, este coeficiente es aplicable cuando las dos variables son ordinales (reordenaciones de una serie de elementos). Procedimiento de clculo : a) Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden ascendente. b) Comparamos cada valor de Y con los Yi siguientes, contando una permanencia si Y < Yi y una inversin si Y > Yi.

Np Ni n.( n 1) 2

Siendo : n el nmero de pares de valores (X , Y) Np el nmero total de "permanencias" Ni el nmero total de "inversiones"

Utilizacin e interpretacin de los coeficientes estudiados en este epgrafe:


Los coeficientes tetracrico y biserial parten de variables continuas que pueden dicotomizarse (ambas o slo una). Para su aplicacin rigurosa es necesario que : 1. la distribucin de la variable o variables consideradas continuas debe ser "normal". 2. la relacin que suponemos existe entre ambas variables es de tipo "lineal". Sus valores no tienen porqu coincidir con el del coeficiente de correlacin de Pearson, si bien verifican las mismas propiedades que ste. Es decir : Los coeficientes tetracrico y toman valores comprendidos entre -1 y 1 : -1 coeficiente 1. El coeficiente biserial puede ser mayor que 1 y menor que -1. En valor absoluto, ser mayor que el biserial puntual. Valores prximos a cero implican falta de relacin entre las variables (independencia).

FUENTES DE VARIANZA EN LA CORRELACIN


Expresemos la desviacin de Y respecto de su media como :

(Y Y ')

(Y Y ) = (Y Y ') + (Y 'Y )
2 2

(Y 'Y )

es el error cometido en la prediccin. Representa la porcin de informacin no asociada a X. representa, en consecuencia, la informacin asociada a X.

En trminos de varianzas :

(Y Y )

(Y Y ) = (Y Y ') + (Y 'Y ) (Y Y ') +


2
2

(Y 'Y )

Varianza total

Varianza no explicada por X (varianza de los errores o residual)

Varianza explicada por X

Dividiendo los sumandos anteriores por la varianza de Y obtendremos la proporcin de varianza de Y no explicada y explicada por la variable X. La manipulacin de esta operacin conduce a las expresiones y definiciones siguientes :

(Y Y ) (Y Y )

2 2

Varianza de las predicciones Y' =

s =
2 Y'

(Y Y ') + (Y 'Y ) =1= (Y Y ) (Y Y ) (Y 'Y )


2 2 2

2 2

(Y Y ') = (Y Y )

+ r2

N
s2 Y' = r2 s2 Y

Proporcin de varianza de las predicciones Y' =

Proporcin de varianza explicada por X = r2 = Coeficiente de determinacin ( R2 ) Proporcin de varianza no explicada por X = 1 - r2

Varianza de los errores o residual =

s =s
2 e

2 Y .X

(Y Y ') =
N

(Y Y ) . (Y Y ') = N (Y Y )
2

2 = sY . 1 r 2

La raz cuadrada de la varianza residual se denomina error tpico de la prediccin : s Y . X = s Y . 1 r 2 IMPORTANTE : Observe los diferentes significados e interpretaciones de r2. Regresin y correlacin (F. lvarez) - 5

FORMULARIO - RESUMEN DEL TEMA

f.x x=
N

s2 x

f.x2 = x2 N

f.y y=
N

s2 y

f.y2 = y2 N

sxy =

f . x. y x. y
N s2 x a = y b. x
sxy

Recta de regresin de y sobre x (puntuaciones directas)

y' = a + b. x Predicciones : y ' = y

a. N + b. f . x a. f . x + b. f . x 2 b'. f . y
2

= =

f.y f . x. y f.x f . x. y

b=

sxy

Recta de regresin de x sobre y (puntuaciones directas)

x' = a '+ b'. y Predicciones : x ' = x

a '. f . y + b'. f . y

a '. N

= =

s2 y a ' = x b'. y

b' =

Coeficiente de correlacin (de Pearson y equivalentes) :


Pearson Ph Biserial puntual Rangos de Spearman

r = b. b' =

sxy
=

sx . sy sy s r = b. x = b'. sx sy

ad bc ( a + b).( c + d ).( a + c).( b + d )

rbp =

x1 x0 . p. q sx

6. d 2 = 1 N. ( N 2 1)

Coeficiente de correlacin no basados en el de Pearson :


Tetracrico Biserial Tau de Kendall (Tabulado)

rt = n + R
Puntuaciones directas (x,y)

CA con : R = 100 . ( B A )

X X0 p. q rb = 1 . sX f ( z)

Np Ni n.( n 1) 2

Puntuaciones diferenciales (d x

Puntuaciones tipificadas

= x x , dy = y y)

y' = a + b. x

d x = 0 , d y = 0 , sdx = s x , sdy = s y , sdxdy = s xy


(a = 0 ; b se mantiene)

xx y y , zy = zx = sx sy zx = 0 , zy = 0

szx = 1 , szy = 1 , szxzy =


(a = 0 ; b = r)

sxy sx . s y

=r

r=

sxy sx . sy

d y ' = b. d x

z y ' = r. z x
2 2 s2 y = se + s y '

Relacin fundamental : Varianza de y = = Varianza residual (de errores) + Varianza de las predicciones. Varianza de las predicciones : Proporcin de varianza explicada o asociada a la regresin, o proporcin de varianza de las predicciones, o coeficiente de determinacin :
6 - Regresin y correlacin (F. lvarez)

s2 y'

( y ' y ) 2 =
N

s2 y' s2 y

= r2

Varianza de los errores (o residual) :


2 se

s2 y.x

( y y') 2 2 = = s .( 1 r 2 )
N
y

Error tpico de la prediccin (raz de la varianza de los errores): Proporcin de varianza no explicada o no asociada a la regresin, o proporcin de varianza de los errores :

s y.x = s y . 1 r 2
2 se = 1 r2 s2 y

Signo de b = signo de b = signo de r = signo de la covarianza r = 0 absoluta independencia r = 1 o r = -1 absoluta dependencia (directa o inversa)

-1 r 1 0 r2 1

Regresin y correlacin (F. lvarez) - 7

EJERCICIOS RESUELTOS
1
La tabla siguiente contiene los resultados de las calificaciones en Matemticas (X) y Lengua (Y) de un grupo de 40 alumnos de Secundaria. X 3 3 5 6 6 6 7 8 Y 4 5 5 6 7 8 7 8 n 3 5 12 4 5 3 6 2 a) b) c) d) e) Obtenga la recta de regresin de Y sobre X. Obtenga la recta de regresin de X sobre Y. Calcule e interprete el coeficiente de correlacin lineal. Obtenga el error tpico de la prediccin. Qu proporcin de varianza de Y no queda explicada por X ?.

Tabla de clculos :
X 3 3 5 6 6 6 7 8 Y 4 5 5 6 7 8 7 8 n 3 5 12 4 5 3 6 2 40 n.X 9 15 60 24 30 18 42 16 214 n.Y 12 25 60 24 35 24 42 16 238 n.X2 27 45 300 144 180 108 294 128 1226 n.Y2 48 125 300 144 245 192 294 128 1476 n.X.Y 36 75 300 144 210 144 294 128 1331

a)

Recta de regresin de Y sobre X.


X=

b=

N . X .Y ( X )( . Y ) N . X ( X )
2 2

214 = 5' 35 40

Y=

238 = 5' 95 40

40.1331 214.238 2308 = = 0'71 Recta de regresin de Y sobre X : 3244 40.1226 214 2
Y' = 2'1436 + 0'7115.X

a = Y b . X = 5' 95 0' 7115 . 5' 35 = 2' 1436

b)

Recta de regresin de X sobre Y. N . X .Y ( X )( . Y ) 40.1331 214.238 2308 b' = = = = 0'96 2 Recta de regresin de X sobre Y : 2396 40.1476 238 2 N . Y 2 ( Y )
X' = -0'3815 + 0'9633.Y

a ' = X b ' . Y = 5' 35 0' 9633 . 5' 95 = 0' 3815

c)

Coeficiente de correlacin de Pearson.


Conocidos los coeficientes de regresin puede calcularse como :

r = b . b' = 0' 7115 . 0' 9633 = 0' 8279


Existe una elevada relacin entre las calificaciones en Matemticas y Lengua. Dicha relacin es positiva (directa); es decir, alumnos con altas calificaciones en Matemticas se corresponden con altas calificaciones en Lengua, y a la inversa. Podemos afirmar que las rectas de regresin obtenidas son buenas rectas de ajuste. Es decir, expresan con una elevada aproximacin la relacin matemtica (lineal) existente entre las calificaciones en Matemticas y Lengua.

d)

Error tpico de la prediccin.


Calculada la varianza de Y :

s Y.X
8 - Regresin y correlacin (F. lvarez)

1476 Y2 = 5' 95 2 = 1' 4975 N 40 = s Y . 1 r 2 = 1' 4975 . 1 0' 8279 2 = 0' 6864 s =
2 Y i

f .Y
i

2 i

e)

Proporcin de varianza no explicada por X.


La proporciona : 1 - r2 = 1 - 0'82792 = 0'3146. Es decir el 31'46%.

2
De la distribucin bivariante siguiente : 0 0 0 8 Y 1 1 9 0 2 5 0 0

2 4 6

a) b) c) d) e)

Obtenga la recta de regresin de Y sobre X. Obtenga la recta de regresin de X sobre Y. Calcule e interprete el coeficiente de correlacin lineal. Calcule su varianza residual. Calcule e interprete el coeficiente de determinacin.

Obtenemos las distribuciones marginales de X y de Y totalizando las frecuencias en filas y columnas : 0 0 0 8 8 n.X2 24 144 288 456 Y 1 1 9 0 10 2 5 0 0 5 Y 0 1 2 6 9 8 23 n 8 10 5 23 n.Y 0 10 10 20 n.Y2 0 10 20 30

2 4 6

X 2 4 6

n 6 9 8 23

n.X 12 36 48 96

La suma de los productos de X por Y hemos de obtenerla directamente de la tabla proporcionada :

X .Y = n .X .Y
ij i i j

0.2.0 + 1.2.1 + 5.2.2 + 0.4.0 + 9.4.1 + 0.4.2 + 8.6.0 + 0.6.1 + 0.6.2 = 58

Como puede observarse, slo realizamos los productos correspondientes a frecuencias y valores de variables no nulos. X . Y = 1.2.1 + 5.2.2 + 9.4.1 = 58

Utilicemos las medias y varianzas de X e Y, as como la covarianza, en los clculos solicitados.

X=

96 = 4' 1739 23

Y=

Covarianza =

s XY =

n . X .Y
ij i i j

20 = 0' 8696 23

s2 X =
j

456 4' 1739 2 = 2' 4045 23

2 sY =

30 0' 8696 2 = 0' 5482 23

X .Y =

X .Y X .Y = 58 4'1739.0'8696 = 1'1078
N 23

a)

Recta de regresin de Y sobre X :


b= s XY 1' 1078 = = 0' 4607 2' 4045 s2 X a = Y b . X = 0' 8696 ( 0' 4607 ). 4' 1739 = 2' 7925

Y' = 2'7925 - 0'4607 . X b) Recta de regresin de X sobre Y :


b' = s XY 1' 1078 = = 2' 0207 0' 5482 s2 Y a ' = X b'. Y = 4' 1739 ( 2' 0207 ). 0' 8696 = 5' 9310

X' = 5'9310 - 2'0207 . Y c) Coeficiente de correlacin : Utilizando la expresin r = b.b' = ( 0'4607 )( . 2'0207 ) = 0'9648
Calculado como r = podemos tener duda en cuanto

al signo del coeficiente de correlacin. Este signo es el de b y b', ya que es el que proporciona la covarianza.

s XY = sX . sY

1' 1078

= 0' 9648 no se plantear tal dificultad.

2' 4045 . 0' 5486


Regresin y correlacin (F. lvarez) - 9

d)

Varianza residual : 2 2 2 2 se2 = sY = 0'5482. 1 ( 0'9648) = 0'0379 . X = sY . 1 r

e)

Coeficiente de determinacin :
Es el cuadrado del coeficiente de correlacin, representando la proporcin de varianza explicada por la variable X (en el ajuste de Y sobre X).

R 2 = r 2 = ( 0'9648) = 0'9309
2

La variable X explica el 93'09% de la varianza de Y. Slo el 6'91% no es atribuible a X.

3
De la siguiente distribucin bivariante : [0,1) 1 3 1 Y [1,2) 2 6 2 [2,3] 1 3 1

2 3 4

a) b) c) d) e)

Calcule e interprete el valor de la covarianza. Obtenga la recta de regresin de Y sobre X. Obtenga la recta de regresin de X sobre Y. Calcule el coeficiente de correlacin lineal y el de determinacin. De la varianza total de Y , determine la proporcin atribuible a la variable X.

Totalizando filas y columnas obtendremos las distribuciones marginales de X e Y : 0'5 1 3 1 5 n.X2 16 108 64 188 Y 1'5 2 6 2 10 2'5 1 3 1 5 Y 0'5 1'5 2'5

2 3 4

4 12 4 20 n 5 10 5 20 n.Y 2'5 15 12'5 30 n.Y2 1'25 22'5 31'25 55

X 2 3 4

n 4 12 4 20
ij i j

n.X 8 36 16 60

X .Y = n .X .Y
i j

1.2.0'5 + 2.2.1'5 + 1.2.2'5 + 3.3.0'5 + 6.3.1'5 + 3.3.2'5 + 1.4.0'5 + 2.4.1'5 + 1.4.2'5 = 90

a)

Covarianza :
X=

Covarianza =

s XY =

n . X .Y
ij i i j

60 =3 20

Y=

30 = 1' 5 20

X .Y =

X .Y X .Y = 90 3.1'5 = 4'5 4'5 = 0


N 20

Interpretacin :
Las variables son independientes. Siendo nula la covarianza, tambin los sern los coeficientes de regresin, el coeficiente de correlacin y el de determinacin, dado que en sus clculos interviene la covarianza en el numerador. Al ser nulos los coeficientes de regresin, a coincidir con la media de Y y a' con la de X.

b)

Recta de regresin de Y sobre X :


b= s XY 0 = 2 =0 2 sX sX
s XY 0 = 2 =0 2 sY sY

a = Y b . X = 1' 5 0 . 3 = 1' 5

Y' = 1'5

c)

Recta de regresin de X sobre Y :


b' = a ' = X b' . Y = 3 0 . 1' 5 = 3

X' = 3

10 - Regresin y correlacin (F. lvarez)

d)

Coeficiente de correlacin y de determinacin :


Como se indic en el apartado a), al ser nula la covarianza, ambos coeficientes tambin lo son :

r = b . b' = 0 . 0 = 0

r=

s XY 0 = =0 sX . sY sX . sY

R 2 = r2 = 0

e)

Proporcin de varianza explicada por X :


Proporcin de varianza explicada por X = r2 = Coeficiente de determinacin = 0

4
Se desea estudiar la relacin entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo del alumno que lo realiza. Los resultados observados fueron : Test 1 1 2 2 3 4 4 5 5 Sexo Varn Hembra Varn Hembra Varn Hembra Varn Hembra Varn N de alumnos 3 1 2 4 3 5 1 1 2

a) Mida el grado de asociacin existente entre las dos variables mediante el coeficiente ms adecuado. b) Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el apartado anterior.

a)

Siendo dicotmica la segunda variable, calcularemos el coeficiente de correlacin biserial puntual : Denominando Y a la variable sexo (asignamos : 1=Hombre ; 0=Mujer) y X a la variable puntuacin en el test, procederemos a los clculos necesarios para su obtencin. Ello nos conduce a calcular las medias de los valores de X que se corresponden con un 1 y con un 0 en Y (X1 y X0) de forma separada, as como la desviacin tpica de X. Las siguientes tablas facilitan nuestras operaciones : X 1 1 2 2 3 4 4 5 5 Y 1 0 1 0 1 0 1 0 1 n 3 1 2 4 3 5 1 1 2 N= 22 n.X 3 1 4 8 9 20 4 5 10 64 n.X2 3 1 8 16 27 80 16 25 50 226 X1 1 2 3 4 5 n 3 2 3 1 2 11 p n.X1 3 4 9 4 10 30 X0 1 2 4 5 n 1 4 5 1 11 q n.X0 1 8 20 5 34

30 34 11 11 X0 = p= = 0' 5 q= = 0' 5 = 1 p = 2' 7273 = 3' 0909 11 11 22 22 226 64 2' 90912 = 1' 8099 s X = 1' 8099 = 1' 3453 X= = 2' 9091 s2 X = 22 22 X X0 2' 7273 3' 0909 Con esto : rbp = 1 . p. q = . 0' 5 . 0' 5 = 0' 1351 sX 1' 3453 X1 =

b)

Coeficiente de correlacin de Pearson :


El propsito de este apartado no es otro que comprobar que efectivamente coinciden los coeficientes de correlacin de Pearson y biserial puntual. Calculemos la media y desviacin tpica de Y, as como la covarianza:

Regresin y correlacin (F. lvarez) - 11

X
1 1 2 2 3 4 4 5 5

Y
1 0 1 0 1 0 1 0 1

f
3 1 2 4 3 5 1 1 2 22

f.Y
3 0 2 0 3 0 1 0 2 11

f.Y2
3 0 2 0 3 0 1 0 2 11

f.X.Y
3 0 4 0 9 0 4 0 10 30

Y=
s XY

11 11 0' 5 2 = 0' 25 s Y = 0' 25 = 0' 5 = 0' 5 s 2 Y = 22 22 0' 0909 30 = 2' 9091. 0' 5 = 0' 0909 r= = 0' 1351 22 1' 3453. 0' 5

5
La siguiente tabla nos muestra la distribucin por sexo de un grupo de 167 personas, indicando si fuman o no. Hombre Mujer Fuma 85 10 No fuma 12 60

a) Calcule el coeficiente de ms adecuado para medir el grado de asociacin existente entre el sexo y el ser o no fumador. b) Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el apartado anterior.

a) Las dos variables son dicotmicas. El coeficiente especfico para esta situacin es el coeficiente de correlacin (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y X 1 (Hombre) 0 (Mujer) 1 (Fuma) a = 85 c = 10 95 0 (No fuma) b = 12 d = 60 72 97 70

=
b)

(a + b )( . c + d )( . a + c )( . b + d)
Y 1 0 1 0 n 85 12 10 60 167 n.X 85 12 0 0 97

ad bc

85.60 12.10 97.70.95.72


n.X2 85 12 0 0 97

= 0'7307

Coeficiente de correlacin de Pearson :


X 1 1 0 0 n.Y 85 0 10 0 95 n.Y2 85 0 10 0 95 n.X.Y 85 0 0 0 85

97 97 = 0' 5808 s2 0' 5808 2 = 0' 2435 s X = 0' 2435 = 0' 4934 X = 167 167 95 95 Y= = 0' 5689 s2 0' 5689 2 = 0' 2453 s Y = 0' 2453 = 0' 4952 Y = 167 167 85 0' 1786 s XY = 0' 5808 . 0' 5689 = 0' 1786 r= = 0' 7307 167 0' 4934 . 0' 4952 X=
Coincidente con el calculado en el apartado anterior, como era de esperar.

12 - Regresin y correlacin (F. lvarez)

6
Doce atletas (A, B, C, ..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso. Las clasificaciones en dichas pruebas fueron : 100 metros : A,B,C,D,E,F,G,H,I,J,K,L Peso : K,I,J,L,G,H,F,D,E,B,C,A a) Determine la relacin existente entre las dos clasificaciones en las pruebas descritas, mediante el coeficiente ms adecuado. b) Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el apartado anterior. Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de correlacin por el mtodo de los rangos de Spearman.

a)

Coeficiente de correlacin : 6. d 2 6.552 = 1 = 1 = 0'9301 2 N. N 1 12. 12 2 1

(Ver tabla siguiente)

A continuacin se ofrecen las tablas auxiliares de clculos de y r , calculados para comprobar que coinciden. X 1 2 3 4 5 6 7 8 9 10 11 12 78 Para el clculo de Y d 11 -10 9 -7 10 -7 12 -8 7 -2 8 -2 6 1 4 4 5 4 2 8 3 8 1 11 78 0 d2 100 49 49 64 4 4 1 16 16 64 64 121 552 X 1 2 3 4 5 6 7 8 9 10 11 12 78 Para el clculo de r Y X2 Y2 11 1 121 9 4 81 10 9 100 12 16 144 7 25 49 8 36 64 6 49 36 4 64 16 5 81 25 2 100 4 3 121 9 1 144 1 78 650 650 X.Y 11 18 30 48 35 48 42 32 45 20 33 12 374

b)

Coeficiente de correlacin de Pearson :


650 78 = 6' 5 s2 6' 5 2 = 11' 9167 s X = 11' 9167 = 3' 4521 X = 12 12 650 78 Y= = 6' 5 s 2 6' 5 2 = 11' 9167 s Y = 11' 9167 = 3' 4521 Y = 12 12 11' 0833 374 s XY = 6' 5 . 6' 5 = 11' 0833 r= = 0' 9301 12 3' 4521. 3' 4521 X=
En efecto coinciden los coeficientes de correlacin obtenidos por los dos mtodos. Su alto valor negativo (prximo a -1) nos indica que existe una fuerte relacin entre las dos clasificaciones en las pruebas atlticas, quedando mejor clasificados en una los peor clasificados en la otra.

7
De los archivos de la Direccin provincial de Trfico se han seleccionado los expedientes de 64 conductores, realizando el siguiente recuento en funcin del sexo (M = mujer ; H = hombre) y el nmero de multas impuestas durante el ltimo ao. Sexo N de multas en el ltimo ao 1 2 3 4 5 6 M 9 7 6 1 1 0 H 0 0 2 9 11 18

Qu conclusin puede deducirse acerca de la relacin existente entre sexo y nmero de denuncias ?. Utilice para ello el ndice de asociacin ms apropiado. Al ser dicotmica la variable sexo, obtendremos el coeficiente de correlacin biserial puntual : Regresin y correlacin (F. lvarez) - 13

Y M=1 X 1 2 3 4 5 6 9 7 6 1 1 0 24 H=0 0 0 2 9 11 18 40 n 9 7 8 10 12 18 N=64 n.X 9 14 24 40 60 108 255 n.X2 9 28 72 160 300 648 1217

Y=1 n.X1 9 14 18 4 5 0 50

Y=0 n.X0 0 0 6 36 55 108 205

50 205 24 40 = 2' 0833 = 5' 125 X0 = p= = 0' 375 q = = 0' 625 = 1 p 24 40 64 64 1217 255 X= = 3' 9844 s2 3' 9844 2 = 3' 1404 s X = 3' 1404 = 1' 7721 X = 64 64 X X0 2' 0833 5' 125 Con esto : rbp = 1 . p. q = . 0' 375 . 0' 625 = 0' 831 sX 1' 7721 X1 =
Es decir existe una fuerte relacin, de sentido inverso, entre ambas variables. Algo que poda advertirse al analizar el recuento de las observaciones.

8
Para analizar si existe o no relacin entre las calificaciones en materias cientficas y las del rea literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada rea). Clasificados por orden de puntuacin result : Alumno P. Cientfica P. Literaria 1 3 3 2 6 5 3 7 7 4 1 4 5 2 1 6 8 8 7 5 2 8 4 6

Utilizando el ndice adecuado establezca el grado de relacin que existe entre las calificaciones de dichas reas de conocimiento. Calcularemos el coeficiente de correlacin (rangos de Spearman) al presentarse dos variables ordinales (dos reordenaciones de los 8 alumnos). Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba cientfica y en la literaria . Ordenadas las primeras, calculemos sus diferencias : X 1 2 3 4 5 6 7 8 Y 4 1 3 6 2 5 7 8 d -3 1 0 -2 3 1 0 0 d2 9 1 0 4 9 1 0 0 24

Con ello :

= 1

6. d 2

N. N 1
2

= 1

6.24 = 0'7143 8. 8 2 1

Es decir, existe una alta relacin entre las calificaciones. Generalmente un alumno con altas calificaciones en el rea cientfica tendr altas calificaciones en el rea de conocimientos literarios.

14 - Regresin y correlacin (F. lvarez)

9
Un grupo de COU integran 17 alumnos de Ciencias y 14 de Letras. De ellos repiten curso 16 de Ciencias y slo 2 de Letras. Calcule el coeficiente de correlacin ms adecuado para medir el grado de asociacin existente entre las variables descritas. Se trata de analizar la relacin que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo. Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos : Y X 1 (Ciencias) 0 (Letras) 1 (Repite) a = 16 c=2 18 0 (No repite) b=1 d = 12 13 17 14

ad bc 16.12 1.2 = = 0'8051 alta relacin entre las variables. (a + b )( . c + d )( . a + c )( . b+d) 17.14.18.13

10
Se somete a 10 alumnos a dos test diferentes encaminados a medir su percepcin visual. Los resultados fueron los siguientes : Test A Test B 3 4 4 5 5 5 5 6 6 7 7 8 8 8 9 10 10 11 12 14

a) Obtenga las ecuaciones de las rectas de regresin del test A sobre el B, en puntuaciones directas, diferenciales y tpicas. b) Determine la proporcin de varianza residual que se presenta en dicho ajuste. Denominando Y a las puntuaciones en el test A (variable dependiente en el ajuste) y X a las correspondientes al text B, procedemos a realizar los clculos necesarios : X 3 4 5 5 6 7 8 9 10 12 69 Y 4 5 5 6 7 8 8 10 11 14 78 X2 9 16 25 25 36 49 64 81 100 144 549 Y2 16 25 25 36 49 64 64 100 121 196 696 X.Y 12 20 25 30 42 56 64 90 110 168 617

b=

. Y ) 10.617 69.78 N . X .Y ( X )( = = 1'0809 2 10.549 69 2 N . X 2 ( X )

a = Y b. X =

Y b . X = 78 1' 0809 . 69 = 0' 3416


N N 10 10
2 2

r=

[N . X

. Y ) N . X .Y ( X )(
2 2

( X ) . N . Y ( Y )

][

(10.549 69 )( . 10.696 78 )
2 2

10.617 69.78

= 0'9861

a)

Rectas de regresin :
1.- En puntuaciones directas : 2.- En puntuaciones diferenciales : 3.- En puntuaciones tipificadas: Y' = a + b . X y' = b . x zy' = r .zx Y' = 0'3416 + 1'0809 . X y' = 1'0809 . x zy' = 0'9861 .zx

b)

Proporcin de varianza residual :


Cuando se habla de proporcin siempre se refiere al cociente entre la varianza total de Y; es decir, a la proporcin de varianza de Y que representa la varianza solicitada. Regresin y correlacin (F. lvarez) - 15

Siendo la varianza de los errores (residual) :

s s

2 Y .X 2 Y

s .1 r 2 sY
2 Y

2 2 2 se2 = sY . X = sY . 1 r
2

) = 1 r

= 1 0'98612 = 0'0277

Slo representa un 2'77% de la varianza del test A (Y), siendo la proporcin de varianza no explicada por el test B (X).

11
A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) , (1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7) a) b) c) Calcule la ecuacin de la recta de regresin de Y sobre X. Represente grficamente el diagrama de dispersin y la recta de regresin. Calcule e interprete el coeficiente de correlacin.

Clculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) : X 1 2 3 4 5 15 Y 4 5 5 6 7 27 X2 1 4 9 16 25 55 Y2 16 25 25 36 49 151
2 sY =

X.Y 4 10 15 24 35 88

X=

15 =3 5

s2 X =

55 32 = 2 5

Y=

27 = 5' 4 5

151 5' 4 2 = 1' 04 5


Y = 3'3 + 0'7 . X

s XY =

88 3. 5' 4 = 1' 4 5

a) b)

b=

1' 4 = 0' 7 2

a = 5' 4 0' 7. 3 = 3' 3


Y = 3'3 Y = 6'8 (0 , 3'3) (5 , 6'8)

Para X = 0 Para X = 5

Enlazando los dos puntos anteriores obtenemos la grfica de la recta.

Observe que el punto que tiene por coordenadas las medias de X e Y (3 , 5'4) , es un punto contenido en la recta de regresin. Apreciamos la proximidad de los puntos a la recta de ajuste, as como que dicha recta es creciente (r > 0).

c)

r=

1' 4 2 . 1' 04

= 0' 9707

Elevada relacin entre las variables y de signo positivo. La recta de regresin es una buena funcin de ajuste, siendo creciente (r > 0). Para representar grficamente la recta de regresin, localizamos dos puntos cualesquiera de ella : Y = 3'3 + 0'7 . X

16 - Regresin y correlacin (F. lvarez)

12
La recta de regresin de Y sobre X, calculada en el estudio de la relacin existente entre dos variables, tiene por ecuacin Y' = 5'4 - 0'9 . X , siendo la varianza de la variable dependiente Y igual a 1'84. Si la distribucin de las predicciones de Y tiene como media 3'6 y varianza 1'619936, a) calcule la media y varianza de X b) determine la ecuacin de la recta de regresin de X sobre Y c) obtenga el valor del coeficiente de correlacin. Iniciamos aqu una serie de ejemplos que requieren para su resolucin el empleo de las diferentes relaciones funcionales (frmulas para entendernos) tratadas en el tema. Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores conocidos. Tal vez as podamos obtener los que nos pida el problema. 1.2.3.-

s XY Y ' = 5'4 0'9. X (a = Y b. X )5'4 = Y + 0'9. X b = s 2 = 0'9 X


s2 s Y = 1' 84 = 1' 3565 Y = 1' 84 Y' = Y = 3'6 s2 Y' = 1' 619936 5' 4 = Y + 0' 9 . X 5' 4 = 3' 6 + 0' 9 . X X= 5' 4 3' 6 =2 0' 9

Siendo 3'6 la media de Y, la expresin de a nos permite obtener la media de X :

La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresin b necesitamos conocer antes la covarianza o el coeficiente de correlacin). Partiendo, por ejemplo, de la proporcin de varianza explicada (hace referencia a la varianza de las predicciones) :

r2 =

s2 1' 619936 Y' = = 0' 8804 2 1' 84 sY

r = 0' 8804 = 0' 9383

El coeficiente de correlacin ser negativo, ya que lo es el coeficiente de regresin b (b = -0'9), luego : r = 0'9383 . La expresin r = b .

r = b.

sX sY

sX nos permitir calcular la desviacin tpica de X : sY sX 0' 9383. 1' 3565 2 0' 9383 = 0' 9 . sX = = 1' 4142 s X = 1' 4142 2 = 2 1' 3565 0' 9 a ' = X b' . Y = 2 ( 0' 9783 ). 3' 6 = 5' 5217

Finalmente, calculemos la recta de ajuste de X sobre Y :

b' =

s s XY 1' 4142 = r . X = 0' 9383. = 0' 9783 2 sY 1' 3565 sY

Su ecuacin es : X' = 5'5217 - 0'9783 . Y

13
La recta de regresin de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la proporcin de varianza no explicada por X del 25'58%. a) Calcule los coeficientes de correlacin y de determinacin. b) Siendo X = 5, qu pronstico diferencial corresponde a una puntuacin directa X = 4 ?.

a)

Los coeficientes de correlacin y de determinacin se obtienen directamente de la proporcin de varianza no explicada : 1 - r2 = 0'2558 r2 = 1 - 0'2558 = 0'7442 Luego : Coeficiente de determinacin : Coeficiente de correlacin : R2 = r2 = 0'7442

r = 0' 7442 = 0' 8627

Para determinar si el coeficiente de correlacin es positivo o negativo se pueden seguir distintos procedimientos. Uno podra consistir en dibujar la recta de regresin (enlazando los dos puntos conocidos) observando si es creciente (b > 0 y r > 0) o decreciente (b < 0 y r < 0). As resulta que es creciente y, por tanto, r = 0'8627.

b)

Determinemos la recta de regresin en puntuaciones directas y diferenciales : Si la recta de regresin Y' = a + b.X pasa por (0'5,0) y (0,-0'4) , significa que : - para X = 0'5 Y' = 0 : 0 = a + b.0'5 - para X = 0 Y' = -0'4 : -0'4 = a + b.0 -0'4 = a 0 = -0'4 + b.0'5 b = 0'4 / 0'5 = 0'8 Regresin y correlacin (F. lvarez) - 17

La recta de regresin es : en puntuaciones directas : en puntuaciones diferenciales :

Y' = -0'4 + 0'8 . X y' = 0'8 . x

A la puntuacin directa X = 4 , le corresponde una puntuacin diferencial : x = X X = 4 5 = 1 luego el pronstico diferencial correspondiente es : y' = 0'8 . x = 0'8 . (-1) y' = -0'8 NOTA : Calculado b = 0'8 > 0, concluiremos que el coeficiente de correlacin es tambin positivo (r = 0'8627), tal como se dedujo en el apartado a).

14
A las puntuaciones directas 2 y 6 de la variable X le corresponden predicciones 3'2 y 7'2 respectivamente. Si la proporcin de varianza asociada a X es del 70'42% y los valores de la variable dependiente Y son: 1 , 3 , 5 , 6 y 11 a) obtenga las ecuaciones de las dos rectas de regresin b) calcule el coeficiente de correlacin c) un pronstico tipificado 1'1868 , a qu puntuacin directa de X corresponde ?.

a)
En la recta de regresin de Y sobre X : Y' = a + b.X - Para X = 2 , Y' = 3'2 : 3'2 = a + 2.b - Para X = 6 , Y' = 7'2 : 7'2 = a + 6.b Resolviendo el sistema obtenemos : a = 1'2 b = 1

Y' = 1'2 + X

Para el clculo de la recta de regresin de X sobre Y no disponemos de elementos suficientes de momento.

b)
Con los valores conocidos de Y calculamos su media, varianza y desviacin tpica :

Y=

Si la proporcin de varianza asociada es del 70'42%, deducimos que : r2 = 0'7042 y, siendo b = 1 > 0 , el coeficiente de correlacin r tambin ser positivo. Es decir :

1 + 3 + 5 + 6 + 11 = 5' 2 5

s2 Y =

12 + 3 2 + 5 2 + 6 2 + 112 5' 2 2 = 11' 36 5 r = + 0' 7042 = 0' 8392

s Y = 11' 36 = 3' 3705

De la recta de regresin de Y sobre X deducimos (para las medias) :

Y ' = Y = 1' 2 + X

X = Y 1' 2 = 5' 2 1' 2 = 4

La desviacin tpica de X la podemos obtener ahora de la relacin :

r = b.

sX sY

sX =

r . s Y 0' 8392. 3' 3705 = = 2' 8284 1 b

2 = 2' 8284 2 = 8 sX

a bis)
Estamos en condiciones de calcular la recta de regresin de X sobre Y : s r . s X 0' 8392. 2' 8284 r = b'. Y b' = = = 0' 7042 a = X 0' 7042. Y = 4 0' 7042. 5' 2 = 0' 3380 3' 3705 sX sY La recta de regresin de X sobre Y tiene por ecuacin : X' = 0'3380 + 0'7042 . Y

c)

z Y' = 0' 8392. z X La recta de regresin de Y sobre X en puntuaciones tpicas es : z Y' = r . z X Para el pronstico tipificado 1'1868 deduciremos el valor tipificado de X. Teniendo en cuenta el proceso de tipificacin, deduciremos la puntuacin directa de X z Y' = 1' 1868 zX = 1' 1868 X X X4 = 1' 4142 = = 0' 8392 sX 2' 8284 X = 1' 4142. 2' 8284 + 4 = 8

15
En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron dicotomizadas por la Mediana formndose dos categoras: altos (A) y bajos (B). Los resultados son los siguientes : Sujeto X Y 1 B 5 2 A 3 3 B 3 4 A 0 5 A 1 6 B 3 7 B 2 8 A 0 9 A 1 10 B 2

Elija y calcule el ndice de correlacin adecuado para medir la relacin existente entre X e Y. 18 - Regresin y correlacin (F. lvarez)

X
0 1 2 3 4 5

nA nA.X nB nB.X X
2 2 0 1 0 0 0 2 0 3 0 0 0 0 2 2 0 1 0 0 4 6 0 5 0 1 2 3 4 5

n
2 2 2 3 0 1

n.X n.X2
0 2 4 9 0 5 0 2 8 27 0 25

5
XA =

15

10

20

62

5 15 20 62 = 1; XB = = 3 ; X = = 2 ; SX = 2 2 = 1483 ' 5 5 10 10
rbp = XA X B 1 3 5 5 . p. q = . . = 0'674 SX 1483 ' 10 10

Cierta relacin entre las variables, de signo inverso. A mayor puntuacin en la prueba Y menor nivel en X.

16
La puntuacin estimada de la variable Y para un valor 0 de la variable X es 05454, siendo la varianza de esta variable 165. Sabiendo que el porcentaje de varianza de la variable Y no asociada a la variacin de X es 4545% y que la varianza del error es 0318297, hallar : a) la correlacin de Pearson entre X e Y. b) la ecuacin de regresin para pronosticar Y a partir de X. c) la varianza de las puntuaciones pronosticadas. Datos :

Y' = a + b. X 0'5454 = a + b.0 a = 0'5454 ; S 2 X = 16'5 ;


a) b)

S2 e S2 y

= 1 r 2 = 0'04545 ; S 2 e = 0'318297

1 - r2 = 004545 r2 = 1 - 004545 = 095455 r = 0977 a = 05454

0'318297 = 0'04545 S 2 Y = 7'003 S Y = 2'646 S2 Y S r.S Y 0'977.2'646 r = b. X b = = = 0'6364 Y' = 0'5454 + 0'6364. X SY SX 16'5
c)
2 2 S2 Y = S e + S Y' 2 2 2 SY ' = S Y S e = 7 '003 0'318297 = 6'684703

17
Las puntuaciones estimadas de la variable Y para los valores 3 y 5 de la variable X son 24545 y 37272 respectivamente. El coeficiente de correlacin entre X e Y es 0977, y la varianza de la variable X es 165. Con estos datos calcular : a) la ecuacin de la recta de regresin. b) la varianza de las puntuaciones pronosticadas. c) la proporcin de varianza de la variable Y no asociada a la variacin de X. Datos :

2'4545 = a + 3. b Y' = a + b. X 3'7272 = a + 5. b


a = 054545
2 2 s2 y ' = r . sy

r = 0'977

S2 X = 16'5
Y = 054545 + 063635.X

a) b)

Resolviendo el sistema anterior :

b = 063635

r2 =

s2 y' s2 y

r = b.
c)

SX 16'5 2 2 2 0'977 = 0'63635. = 0'6364 SY = 2'656594 SY ' = 0'977 .2'656594 = 6'7366 SY SY


(45471%) Regresin y correlacin (F. lvarez) - 19

1 - r2 = 1 - 09772 = 0045471

18
Las puntuaciones directas obtenidas por 5 sujetos en la escala LKS (Escala de Lucas) y las obtenidas por esos mismos sujetos en el factor C (Control Social) del PSI son las que figura en la tabla final. a) Encuentre la puntuacin pronosticada en LKS de un sujeto cuya puntuacin directa en C es 15. b) Encuentre la parte de la varianza de LKS asociada a la variacin de C. c) Interprete el resultado obtenido al calcular el estadstico que expresa la relacin entre LKS y C. Sujetos LKS C Y = LKS X=C X 8 16 14 20 12 70 Y 49 40 43 31 37 200 X2 64 256 196 400 144 1060 Y2 2401 1600 1849 961 1369 8180 X.Y 392 640 602 620 444 2698 A 49 8 B 40 16 C 43 14 D 31 20 E 37 12

70 200 1060 = 14 ; Y = = 40 ; S 2 14 2 = 16 ; S X = 4 X = 5 5 5 8180 2698 S2 40 2 = 36 ; S Y = 6 ; S XY = 14.40 = 20'4 Y = 5 5 X=


b = -204 / 16 = -1275 a) Y = 5785 - 1275.X = 5785 - 1275 . 15 = 38725 b) r = -204 / 4 . 6 = -085 r2 = 07225 (7225%) a = 40 - (.1275).14 = 5785

c) Alta relacin entre las dos pruebas (r=-085) y de signo inverso. Es decir, un sujeto con alta puntuacin en LKS tendr baja puntuacin en C

19
La empresa de publicidad VENDEBIEN quiere saber si la aceptacin o rechazo dependen del sexo. Para ello se encuesta a 200 personas de las cules el 50% son mujeres; 40 hombres rechazan el producto mientras que 30 mujeres lo aceptan. Elija y calcule el ndice de correlacin adecuado para interpretar estos datos. H a=60 c=40 M b=30 d=70

Aceptan Rechazan

60.70 30.40 ad bc = = 0'3015 ( a + b).( c + d ).( a + c).( b + d ) 90110 . .100.100

Escasa relacin entre la aceptacin y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.

20
La ecuacin de la recta de regresin que permite pronosticar las calificaciones en Psicologa Matemtica II (Y) a partir de las calificaciones en Psicologa Matemtica I (X) es la siguiente : Y = 08.X - 025 Sabiendo que Sx a) rxy b) la varianza de las puntuaciones pronosticadas. c) la proporcin de varianza error cometida al pronosticar, utilizando la recta de regresin anterior.

= (4/5).Sy ; Sy = 3 , X , Y.

y que

X Y = 1'74 , calcule :

20 - Regresin y correlacin (F. lvarez)

Datos :

Y' = 0'8. X 0'25 ; S X =

4 . S ; S = 3 ; X Y = 1'74 5 Y Y

a)

b = 0'8 2'4 S 4 r = b. X = 0'8. = 0'64 S X = .3 = 2'4 3 SY 5 a = Y b. X 0'25 = Y 0'8. X X = 7'45 ' X Y = 174 Y = 5'71

b) c)

r =
2

s2 y' s2 y

2 2 2 2 s2 y ' = r . sy = 0' 64 .3 = 3' 6864

1 - r2 = 1 - 0'642 = 0'5904 (59'04%)

21
La recta de regresin de Y sobre X, que permite el pronstico en el rendimiento en un trabajo manual a partir de las puntuaciones en un test de destreza manual, corta al eje de ordenadas en Y = 8 y al de abscisas en X = -4, en puntuaciones directas. a) Calcule la ecuacin de la recta de regresin anterior en puntuaciones directas. b) Represente grficamente la recta de regresin anterior. c) Calcule el coeficiente de correlacin entre X e Y sabiendo que la varianza de los errores es la cuarta parte de la varianza de Y. a) Para X = 0 , Y = 8 y, para X = -4, Y = 0 b)

8=a a = 8 Y' = a + b. X Y' = 8 + 2. X b = 2 0 = a 4. b

c)

1 2 S2 .S e = 4 Y

2 2 Se = S2 Y .(1 r )

1 2 .S Y 3 4 r2 = 1 2 = 1 2 = 4 SY SY S2 e

r = 0'866

22
Estudiando la relacin entre las variables X e Y se obtuvieron los siguientes datos :

X = 119 , Y = 1'30 , S x = 10 , SY = 0'55 , rxy = 0'70 , n = 10


a) Elena C. obtuvo una puntuacin de 130 en X. Estime su puntuacin en Y. b) Se estim la puntuacin 128 en la variable Y para Gonzalo S.. Cul fue su puntuacin en la variable X ?. c) Determinar el valor de

Sy.x

y la desviacin tpica de las puntuaciones pronosticadas (Sy).

a)

b = r.

sy sx

= 0'7.

0'55 = 0'0385 ; a = 130 ' 0'0385x119 = 3'2815 Y' = 3'2815 + 0'0385. X 10

Y' = 3'2815 + 0'0385130 . = 1'7235


b) 128 = -32815+00385.X X = 11848

c)

S Y.X = S Y . 1 r 2 = 0'55. 1 0'7 2 = 0'3928


2 2 S2 ' = 01482 ' S Y' = 0'385 Y ' = S Y S Y.X = 0'3025 01543

Regresin y correlacin (F. lvarez) - 21

23
La siguiente grfica muestra las calificaciones obtenidas por dos grupos de alumnos que han estudiado con dos mtodos de enseanza distintos (A y B). Elija, calcule e interprete el coeficiente de correlacin ms adecuado para estudiar la relacin entre el mtodo de enseanza y las calificaciones.

XA
2 4 6 8

XB
2 4 5 6 9 10 36 4 16 5 25 6 36 9 81 10 100 56 382

20

X X2

2 4

4 16

6 36

8 64

2 4

Biserial puntual (rbp). Una cuantitativa (calificacin) y la otra dicotmica (mtodo).

XA =

20 36 56 = 5 ; XB = = 6; X = = 5'6 ; S X = 4 6 10
rbp =

382 5'6 2 = 2'61 10

XA X B 5 6 4 6 . p. q = . . = 0187 ' SX 2'61 10 10


r2 = 0035 (35%)

Existe una relacin muy baja (del 35%) entre el mtodo seguido y las calificaciones. De aceptarse la relacin diramos que los alumnos que siguen el mtodo B obtienen mejores resultados (signo negativo de r).

24
Sabemos que las puntuaciones diferenciales pronosticadas (y) son cinco veces las puntuaciones diferenciales de la variable X, y que la proporcin de varianza asociada entre X e Y es igual a 025. Calcular : a) La pendiente de la recta de regresin de Y sobre X en puntuaciones directas y diferenciales. b) La pendiente de la recta de regresin de Y sobre X en puntuaciones tpicas. c) La pendiente de la recta de regresin de X sobre Y en puntuaciones directas.

Datos : a) b) c) b=5

y = 5x
r2 = 025 r = 05

r =
2

s2 y' s2 y

= 0'25

b.b = r2 5.b = 025 b = 025 / 5 = 005

25
Para un grupo de 100 sujetos y en dos variables X e Y, disponemos de los siguientes datos : xy=480 ; x2=400 ; y2=Y=900. Sabiendo adems que X e Y son dos variables cuantitativas que mantienen una relacin lineal y que, lgicamente, x = y = 0 a) Cunto valdr el coeficiente de correlacin de Pearson entre X e Y ?. b) Cunto valdr la desviacin tpica de los errores cometidos al pronosticar Y a partir de X ?. c) Qu puntuacin directa pronosticaremos en Y a un sujeto que ha obtenido una puntuacin x=-2 ?. Se sigue en el enunciado la notacin usual de representacin de puntuaciones directas (mayscula) y diferenciales (minscula). Recordemos que : 22 - Regresin y correlacin (F. lvarez)

f i .( X i X).( Yi Y) f i . X i . Yi
S XY =
i

En puntuaciones directas

En puntuaciones diferenciales

fi . xi . y i
i

f i . ( X i X)
S2 X =
a)
i

=
2

fi . X2 i
=
i

X. Y

S XY =

N fi . x2 i
i

X2

S2 X =

Para puntuaciones diferenciales :

s xy =

xy = 480 = 4'8
n 100

sx =

x2
n

400 =2 100

sy =

y2
n

900 =3 100

r = 48 / 2'3 = 08 b) c)

se = s y.x = s y . 1 r 2 = 3. 1 0'8 2 = 18 '


En puntuaciones diferenciales : y = b.x , con b = r . Para x = -2 : y = 12 . (-2) = -24 Como :

sy

3 = 0'8. = 12 ' sx 2

y' = Y' Y Y' = y'+ Y = y'+

Y = 2'4 + 900 = 2'4 + 9 = 6'6


N 100

26
La empresa de publicidad VENDEBIEN quiere saber si existe relacin entre la duracin de un anuncio en T.V. y la aceptacin o rechazo del mismo. Los resultados de la encuesta se incluyen en la siguiente tabla. Elija y calcule el ndice de correlacin adecuado para interpretar estos datos. Duracin 5-9 10 - 14 15 - 19 20 - 24 25 - 29 Aceptacin 3 4 4 1 0 Rechazo 0 1 2 3 2

X
5-9 10-14 15-19 20-24 25-29 7 12 17 22 27

nA nA.X nR nR.X X
3 4 4 1 0 21 48 68 22 0 0 1 2 3 2 0 12 34 66 54 7 12 17 22 27

n
3 5 6 4 2

n.X
21 60 102 88 54

n.X2
147 720 1734 1936 1458

12
XA =

159

166

20

325

5995

5995 325 166 159 = 13'25 ; X R = = 20'75 ; X = = 16'25 ; S X = 16'252 = 5'974 20 20 8 12 X XR 13'25 20'75 12 8 rbp = A . p. q = = 0'615 . . SX 5'974 20 20

Cierta relacin entre las variables, de signo inverso. A mayor duracin mayor rechazo.

27
El gabinete de estudios sobre Malestar Social desea conocer si existe relacin entre la consumicin de drogas y la comisin de delitos sobre la propiedad. Para ello se selecciona una muestra y se comprueba que 50 individuos han consumido algn tipo de droga y a la vez han estado implicados en delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que la muestra constaba de 500 individuos, qu conclusin obtendr el gabinete de estudios ?. (Elija, calcule e interprete el coeficiente de correlacin adecuado).

Regresin y correlacin (F. lvarez) - 23

Delito SI Delito NO

Droga SI a=50 c=150

Droga NO b=50 d=250

ad bc 50.250 50150 . = = 0144 ' (a + b).(c + d ).( a + c).( b + d ) 100.400.200.300

Escasa relacin entre consumo de drogas y comisin de delitos. De aceptarla, la mayor comisin de delitos se produce en consumidores de drogas.

28
Un grupo de hombres y mujeres responde a una prueba (X). Los datos obtenidos aparecen en la siguiente tabla. Elija razonadamente, calcule e interprete el coeficiente de correlacin adecuado, para estudiar la relacin entre las puntuaciones de la prueba y la variable sexo. X 11 - 13 8 - 10 5-7 2-4 Mujeres 8 6 5 1 Hombres 3 5 6 6

X nM nM.X nH nH.X X
2-4 5-7 8-10 11-13 3 6 9 12 1 5 6 8 3 30 54 96 6 6 5 3 18 36 45 36 3 6 9 12

n
7 11 11 11

n.X
21 66 99 132

n.X2
63 396 891 1584

20
XM =

183

20

135

40

318

2934

2934 318 135 183 = 9'15 ; X H = = 6'75 ; X = = 7'95 ; S X = 7'952 = 3186 ' 40 40 20 20
rbp = XM XH 9'15 6'75 20 20 . p. q = . . = 0'377 SX 3186 ' 40 40

Muy dbil relacin entre las variables, de signo directo. De aceptarse, la mayor calificacin se produce en mujeres.

29
Elija el coeficiente de correlacin ms apropiado entre las variables puntuaciones en un test de inteligencia (X), y prejuicio antiprotestante (Y), teniendo en cuenta el cuadro adjunto. En este cuadro, fA significa frecuencia con alto prejuicio y fB frecuencia con bajo. Calcule el coeficiente de correlacin elegido y comente brevemente el resultado obtenido. 9 - 11 6-8 3-5 0-2 Y fA 40 40 0 0 fB 0 0 10 10

X
0-2 3-5 6-8 9-11 1 4 7 10

nA nA.X nB nB.X X
0 0 40 40 0 0 280 400 10 10 0 0 10 40 0 0 1 4 7 10

n
10 10 40 40

n.X
10 40 280 400

n.X2
10 160 1960 4000

80
XA =

680

20

50

100

730

6130

6130 730 50 680 = 8'5 ; X B = = 2'5 ; X = = 7'3 ; S X = 7'32 = 2'83 100 100 20 80
rbp = XA X B 8'5 2'5 80 20 . p. q = . . = 0'848 SX 2'83 100 100

Elevada relacin entre las variables, de signo directo. A mayor puntuacin en el test mayor prejuicio antiprotestante.

24 - Regresin y correlacin (F. lvarez)

30
Estudiando la relacin entre las variables X e Y se obtuvieron los siguientes datos :

X = 50 , Y = 6 , S x = 6 , S Y = 2 , rxy = 0'8 , n = 5
a) Qu puntuacin directa en Y pronosticaremos a un sujeto que obtuvo una puntuacin directa en X de 52 ?.) b) Cunto valen

S2 y'

S y.x

?.

a)

b = r.

2 = 0'8. = 0'267 ; a = 6 0'267 x50 = 7'35 sx 6 Y' = 7'35 + 0'267. X Y' = 7'35 + 0'267 x52 = 6'534
2 2 2 SY ' = 2'56 ' = S Y S Y.X = 4 144

sy

b)

S Y.X = S Y . 1 r 2 = 2. 1 0'8 2 = 12 '

31
Estudiando una muestra de 50 alumnos de BUP se observ que una proporcin de 010 estaba compuesta por alumnos hijos nicos. De los 50 alumnos, una proporcin de 06 coman en el Colegio. Si sabemos que una proporcin de 004, con respecto al total, son hijos nicos que no comen en el Colegio. Existe una relacin entre ser hijo nico o no y comer o no en el Colegio ?. Halle el coeficiente de correlacin que corresponda e interprete el resultado. nico SI a=3 c=2 nico NO b=27 d=18

Comen SI Comen NO

ad bc 318 . 27.2 =0 = (a + b).(c + d ).(a + c).( b + d ) 30.20.5.45

Las variables son independientes. No existe ningn tipo de relacin entre ser hijo nico y comer en el colegio.

32
La desviacin tpica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2. Tambin conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo que el ndice de asociacin entre las variables ansiedad y sexo es igual a +1, y que el nmero de varones es superior al de mujeres : a) Qu coeficiente de correlacin habr sido utilizado ?. b) Interprete el valor del coeficiente de correlacin. c) Calcule la proporcin de varones que componen nuestra muestra. a) b) Biserial puntual (rbp). Una cuantitativa y la otra dicotmica. Relacin perfecta. Los varones presentan altas puntuaciones en ansiedad y las mujeres bajas.

rbp =
c)

xv xm 10 5 2 . p. q = 1 = . p. q p. q = = 0'4 p. q = 016 ' 2 5 sx 1 1 0'64 1 0'6 p = 0'8 = = 2 2 p = 0'2

' p p 2 = 016 ' p 2 p + 016 ' =0p= p.(1 p) = 016

La solucin es 08 al indicar que hay ms varones que mujeres.

33
0 X 1 2 3 [0,10) 0 0 5 3 Y [10,20) 1 5 18 2 [20,30) 0 20 6 1 [30,40] 16 3 0 0 Con la presente distribucin bivariante obtenga : a) recta de regresin de la media de Y condicionada a X b) coeficiente de correlacin de la media de Y condicionada a X c) recta de regresin de Y sobre X d) coeficiente de correlacin lineal (de Y sobre X) e) razn de correlacin.

Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el significado de la razn de correlacin calculada. Regresin y correlacin (F. lvarez) - 25

a) b) Para cada valor de la variable X, determinamos la media de los correspondientes valores de Y. Obtendremos tambin las varianzas de cada valor Y para calcular posteriormente la razn de correlacin (apartado e). [0,10) [10,20) [20,30) [30,40] X=0 y f f.y f.y2 5 0 0 0 [0,10) X=1 y f f.y f.y2 5 0 0 0 [0,10) X=2 y f f.y f.y2 5 5 25 125 [0,10) X=3 y f f.y f.y
2

15 1 15 225 [10,20) 15 5 75 1125 [10,20) 15 18 270 4050 [10,20) 15 2 30 450

25 0 0 0 [20,30) 25 20 500 12500 [20,30) 25 6 150 3750 [20,30) 25 1 25 625 X 0 1 2 3


( )

35 16 560 1960 [30,40] 35 3 105 3675 [30,40] 35 0 0 0 [30,40] 35 0 0 0 Y (*) 33'8 24'3 15'3 11'7 n 17 28 29 6

= 17 = 575 = 2185

= 28 = 680 = 17300

= 29 = 445 = 7925

5 3 15 75

=6 = 70 = 1150

Con las tablas de clculos anteriores obtenemos : X=0 X=1 X=2 X=3

y 1 = 33'8 y 2 = 24 '3 y 3 = 15'3 y 4 = 11'7

s2 y1 2 sy 2 s2 y3 s2 y4

= 22 '1453 = 28'0612 = 37 '8121 = 55'5556

* Medias de cada Y condicionado a X

Con esta distribucin procedemos a calcular la recta de regresin y el coeficiente de correlacin (omitimos la tabla de clculos) : n.X n.X2 n.Y n.Y2 n.X.Y c) d) = = = = = 104 198 1768'9 43565'15 1778'4 Media de X = 1'3 Varianza de X = 0'785 Media de Y = 22'11 Varianza de Y = 55'657 Covarianza = -6'5146 Recta de regresin de la media de Y condicionada a X Y' = 32'8998 - 8'2989.X Coeficiente de correlacin de la media de Y condicionada a X 2 r = -0'9856 (r = 0'9714)

X
0 0 0 0 1 1 1 1 2 2 2 2 3 3 3 3

Y
5 15 25 35 5 15 25 35 5 15 25 35 5 15 25 35

n
0 1 0 16 0 5 20 3 5 18 6 0 3 2 1 0

n.X
0 0 0 0 0 5 20 3 10 36 12 0 9 6 3 0

n.X
0 0 0 0 0 5 20 3 20 72 24 0 27 18 9 0

n.Y
0 15 0 560 0 75 500 105 25 270 150 0 15 30 25 0

n.Y
0 225 0 19600 0 1125 12500 3675 125 4050 3750 0 75 450 625 0

n.X.Y
0 0 0 0 0 75 500 105 50 540 300 0 45 90 75 0

80

104

198

1770

46200

1780

26 - Regresin y correlacin (F. lvarez)

Media de X = 1'3 Varianza de X = 0'785 Media de Y = 22'125 Varianza de Y = 87'9844 Covarianza = -6'5125 e) Razn de correlacin :

Recta de regresin de Y sobre X Y' = 32'91 - 8'2962.X Coeficiente de correlacin lineal 2 r = -0'7836 (r = 0'6141)

ni .s y 1 1 17.22'1453 + 28.28'0612 + 29.37'8121 + 6.55'5556 = 1 . 2 i = 1 . = 0'6317 N 80 87'9844 sY


2

Conclusiones : Comprobamos que 2 toma un valor comprendido entre 0 y 1 y verifica que 2 r2 (0'6317 0'6141). Al ser muy prximo 2 a r2, concluimos que la relacin entre las variables X , Y es de tipo lineal. Esta ltima conclusin habramos deducido al comprobar que las rectas de ajuste de Y sobre X y la de la media de Y condicionada a X prcticamente coinciden : Y' = 32'91 - 8'2962.X Y' = 32'8998 - 8'2989.X La sustitucin de las observaciones Yi por su promedio, ha permitido aumentar el valor del coeficiente de correlacin : r = -0'7836 r = -0'9856 incrementando as la proporcin de varianza explicada por el ajuste : 2 r2 = 0'9714 (97'14%) r = 0'6141 (61'41%)

34
De un grupo de COU, integrado `por 40 alumnos, conocemos sus calificaciones finales en Matemticas y en Filosofa. El nmero de aprobados en ambas ascendi a 15, suspendiendo 12 las dos materias, mientras que slo aprob Matemticas el 10% de los alumnos. a) Calcule el coeficiente de correlacin ms adecuado para medir el grado de asociacin existente entre las variables descritas. b) Asumiendo que las calificaciones en Matemticas y en Filosofa se distribuyen normalmente, determine otro coeficiente que estudie el nivel de asociacin y no est basado en el concepto de correlacin de Pearson Se trata de analizar la relacin que puede existir entre las calificaciones en las dos materias. a) Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos : Y - Filosofa 1 (Aprueban) 0 (Suspenden) a = 15 b=4 c=9 d = 12 24 16

X Matemticas

1 (Aprueban) 0 (Suspenden)

19 21

(a + b )( . c + d )( . a + c )( . b + d)

ad bc

15.12 4.9 19.21.24.16

= 0'3679 baja relacin entre las variables.

El aprobar o suspender una materia no condiciona el resultado final en la otra. b) Siendo las dos variables dicotmicas (normalmente distribuidas inicialmente), calculamos el coeficiente de correlacin tetracrica (rt). 1 Calculamos los productos : a.d = 15 . 12 = 180 y b.c = 4 . 9 = 36. 2 Como a.d > b.c , calculamos el cociente : C = a.d / b.c = 180 / 36 = 5 (rt ser positivo) 3 Consultamos la tabla XXV, para el clculo del coeficiente de correlacin tetracrico, localizando el cociente C=5 en el intervalo (A,B) = (4'8305 , 5'0075), al cul corresponde un coeficiente 0'56 + R. De aqu :

R=
NOTA :

CA 5 4'8305 = = 0'00958rt = 0'56 + R = 0'56 + 0'00958 = 0'56958 100.(B A) 100.(5'0075 4'8305)

Generalmente se verifica que el coeficiente de correlacin tetracrica y el coeficiente verifican la relacin : Regresin y correlacin (F. lvarez) - 27

rt 1'5 . (con mayor rigor para valores del coeficiente tetracrico, menores o iguales a 0'5).
En nuestro caso : 1'5 . = 1'5 . 0'3679 = 0'55185 rt Esto permite tener una referencia sobre el intervalo (-1 , 1), a la hora de interpretar el valor obtenido con el coeficiente de correlacin tetracrica. Calculando el valor aproximado de , podremos medir el grado de asociacin :

rt 0'56958 = = 0'37972 15 ' 15 '

baja relacin entre las variables

35
Con el fin de estudiar si existe o no relacin entre las calificaciones en Matemticas y en Filosofa de COU, seleccionamos seis alumnos. Clasificados por orden de puntuacin final en cada materia result : Alumno Matemticas Filosofa 1 3 3 2 6 5 3 4 6 4 1 4 5 2 1 6 5 2

a) Utilizando el ndice adecuado, basado en el concepto de correlacin de Pearson, establezca el grado de relacin que existe entre las calificaciones de las dos asignaturas. b) Resuelva lo solicitado en el apartado anterior mediante un ndice que no est basado en el concepto de correlacin de Pearson a) Calcularemos el coeficiente de correlacin (rangos de Spearman) al presentarse dos variables ordinales (dos reordenaciones de los 8 alumnos). Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemticas y en Filosofa. Ordenando las primeras (X), calculamos sus diferencias con las segundas : X 1 2 3 4 5 6 Y 4 1 3 6 2 5 d -3 1 0 -2 3 1 d2 9 1 0 4 9 1 24

Con ello :

= 1

N. ( N 2 1)

6. d 2

= 1

6. ( 6 2 1)

6 . 24

= 0'3143

Es decir, apenas existe relacin entre las calificaciones. b) Procede ahora el clculo del coeficiente de correlacin (tau) de Kendall : Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden ascendente y comparamos cada valor de Y con los Yi siguientes, contando una permanencia (P) si Y < Yi y una inversin (I) si Y > Yi. : X 1 2 3 4 5 6 Y 4 1 3 6 2 5

(4,1) I (4,3) I (4,6) P (4,2) I (4,5) P

(1,3) P (1,6) P (1,2) P (1,5) P

(3,6) P (3,2) I (3,5) P

(2,5) P

En total hemos encontrado 8 permanencias (P) y 4 inversiones (I). Con ello :

Es decir, como ocurri con el coeficiente , existe una escasa relacin entre las calificaciones en Matemticas y Filosofa.

Np Ni 84 4 = = = 0'2667 n.( n 1) 6.(6 1) 15 2 2

28 - Regresin y correlacin (F. lvarez)

36
Con el fin de estudiar si existe o no relacin entre las calificaciones en Matemticas y en Filosofa de COU, seleccionamos 30 alumnos analizando la puntuacin final en cada materia . Teniendo en cuenta que se nos proporcion en Filosofa solamente si el alumno aprob (A) o suspendi, establezca el grado de relacin que existe entre las calificaciones en dichas materias. Y Filosofa A S 2 1 5 0 10 2 4 0 3 1 1 1

X Matemticas

2 3 4 5 6 8

a) utilizando el ndice adecuado, basado en el concepto de correlacin de Pearson. b) mediante un ndice que no est basado en el concepto de correlacin de Pearson. a) Al ser dicotmica la 2 variable, obtendremos el coeficiente de correlacin biserial puntual : Y A=1 X 2 3 4 5 6 8 2 5 10 4 3 1 25 S=0 1 0 2 0 1 1 5 n 3 5 12 4 4 2 N=30 n.X 6 15 48 20 24 16 129 n.X2 12 45 192 100 144 128 621 Y=1 n.X1 4 15 40 20 18 8 105 Y=0 n.X0 2 0 8 0 6 8 24

105 = 4'2 25 129 X= = 4'3 30 X1 =


Con esto :

5 24 25 q= = 0167 ' = 4'8 p= = 0'833 30 5 30 621 4'32 = 2'21 s X = 2'21 = 1487 ' s2 X = 30 X0 =
rbp = X1 X 0 4'2 4'8 . p. q = . 0'833.0167 ' ' = 01505 1487 ' sX

Es decir apenas existe relacin entre ambas variables. b) Calculemos ahora el coeficiente de correlacin biserial rb : Tomando el menor de los valores de p y q : min (p,q) = min (0'833 , 0'167) = 0'167 obtenemos el valor tabulado del cociente Con esto :

p. q (Tabla XXIII), que resulta ser igual a 0'55609 . f ( z) X1 X 0 p. q 4'2 4'8 rb = = . .0'55609 = 0'2244 1487 ' sX f ( z)

Aunque no coincide su valor con el coeficiente de correlacin biserial puntual, tambin podemos concluir que apenas existe relacin entre ambas variables.

37
Hemos encontrado, utilizando el criterio de mnimos cuadrados, que las rectas de regresin de Y sobre X en puntuaciones directas y tpicas son, respectivamente :

Y' = 1'2 . X + 4

zy' = 0'8 . zx

Sabiendo que : X = 5 , Y = 10 , S X = 2 , S Y = 3 , calcular : a) La varianza de las puntuaciones pronosticadas en Y. b) La recta de regresin de Y sobre X, en puntuaciones directas, si sumamos 5 a todos los valores de X. c) La recta de regresin de Y sobre X, en puntuaciones directas, si sumamos 3 a todos los valores de Y y multiplicamos por 2 todos los valores de X. Regresin y correlacin (F. lvarez) - 29

La recta de ajuste en puntuaciones tpicas nos proporciona el coeficiente de correlacin : r = 0'8 En consecuencia, sobra del enunciado el conocer una de las dos desviaciones tpicas. Conocido r = 0'8 ; b = 1'2 y una de las desviaciones tpicas (de X o de Y), la otra la habramos calculado a partir de la relacin :

r = b.
r=
a)

SX SY

Su conocimiento permite obtener la covarianza (cuyo clculo tampoco resulta imprescindible) :

S XY S X . SY
2

S XY = r. S X . SY = 0'8.2.3 = 4'8

Varianza de los pronsticos : SY'

Obtenida de la relacin que proporciona la proporcin de varianza explicada por el ajuste : S2 Y' 2 2 2 2 = r 2 S2 Y ' = S Y . r = 3 .0'8 = 5'76 S2 Y
b) Si a los valores de X les sumamos 5, la nueva media se incrementa en 5, pero las medidas de dispersin se mantienen inalterables. Resulta as : X = 5 + 5 = 10 , Y = 10 , S X = 2 , SY = 3, S XY = 4' 8 Luego : c) Si a los valores de Y les sumamos 3, la nueva media se incrementa en 3, pero las medidas de dispersin se mantienen inalterables. Si los valores de X los multiplicamos por 2, la nueva media se multiplica por 2, y las medidas de dispersin tambin (la varianza por el cuadrado). Resulta as : X = 5 . 2 = 10 , Y = 10 + 3 = 13 , S X = 2 . 2 = 4 , SY = 3, S XY = 4' 8. 2 = 9'6 Luego :

b=

S XY = 1'2 S2 X

a = Y b. X = 10 12 ' . 10 = 2 Y' = 2 + 12 ' .X

b=

S XY S2 X

2. S XY 2 = . b = 0'6 4 2 2 . S2 X

a = Y b. X = 13 0'6 . 10 = 7 Y' = 7 + 0'6. X

38
Se desea estudiar si existe relacin entre `padecer diabetes y ceguera en la tercera edad. Para ello se analiza una muestra de 1000 personas del INSERSO encontrndose que de todas ellas un 50% presentan simultneamente diabetes y ceguera, el 40% no presentan ninguna de ambas deficiencias y el resto presentan en la misma medida slo una u otra deficiencia. Con estos datos elija, calcule e interprete el coeficiente de correlacin adecuado a dicho estudio. Se trata de analizar la relacin que puede existir entre las dos enfermedades. Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) . Padecen ambas 50% de 1000 500 No padecen ninguna 40% de 1000 400 Padecen slo diabetes La mitad de los 100 restantes 50 Padecen slo ceguera La mitad de los 100 restantes 50 Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos : Y - Ceguera 1 (Padece) 0 (No padece) a = 500 b = 50 c = 50 d = 400 550 450

X Diabetes

1 (Padece) 0 (No padece)

550 450

ad bc

( a + b) .( c + d).( a + c) .( b + d)

500.400 50.50 = 0'798 550.450.550.450

alta relacin entre las variables.

El padecer o no una dolencia condiciona el padecer la otra.

30 - Regresin y correlacin (F. lvarez)

EJERCICIOS PROPUESTOS
1
X
4 4 5 6 6 6

Y
0 1 2 2 3 4

n
3 5 6 2 8 1

De la presente distribucin conjunta de las dos variables (X,Y) : b) b) c) Obtener la recta de regresin de Y sobre X en puntuaciones diferenciales. Obtener la recta de regresin de X sobre Y en puntuaciones tpicas.. Calcular e interpretar la proporcin de varianza residual.

2
Y 0 1 2 2 3 0 0 4 1 6 2 6 0 4 4 8 0 0 5 X De la presente distribucin conjunta de las variables (X,Y) : a) Obtener la recta de regresin de Y sobre X. b) Calcular e interpretar el coeficiente de determinacin. c) Calcular su varianza residual.

3
De los 10 pares de valores que se representan en el diagrama de dispersin de la izquierda, a) Calcular la recta de regresin de Y sobre X. b) Calcular e interpretar el coeficiente de correlacin lineal c) Determinar la proporcin de varianza asociada a X. d) Calcular la media y varianza de las predicciones Y'. .

4
Y 3 4 5 0 0 3 5 1 1 7 2 5 15 1 3 12 2 0 X De la presente distribucin conjunta de las variables (X,Y) : a) Calcular la frecuencia que falta sabiendo que la media de X es igual a 4. b) Obtener la recta de regresin de Y sobre X en puntuaciones diferenciales. c) Calcular la proporcin de varianza residual.

5
Edad [10,15) [10,15) [10,15) [15,20) [15,20) [20,25] [20,25] Hermanos 0 1 2 1 2 1 2

n
3 5 9 5 10 3 5

De la distribucin de edades y nmero de hermanos de 40 jvenes : a) c) Obtener las rectas de regresin en puntuaciones directas, diferenciales y tipificadas. Calcular e interpretar el coeficiente de correlacin lineal.

6
Las siguientes distribuciones bivariantes pretenden estudiar el grado de relacin existente entre las variables : a) Puntuacin en un test de agresividad y sexo. b) Clasificacin (de mayor a menor) segn la nota media obtenida en las asignaturas del curso y en una prueba tendente a determinar su coeficiente intelectual. c) Ser bebedor y ser fumador. Determine y calcule en cada caso el ndice adecuado que permite medir el grado de relacin entre las variables descritas.

Regresin y correlacin (F. lvarez) - 31

(I)

Puntos test [ 0,10) [10,20) [20,30) [30,40) [40,50) [50,60)

Sexo Hombre Mujer 0 2 5 3 11 9 20 22 14 9 6 6

(II) Alumno Nota media C.I. 1 2 3 (III) Beben S No 2 4 4 3 5 6 4 1 1 5 6 5 6 3 2

Fuman S No 4 31 41 14

7
La proporcin de varianza residual, en un ajuste de Y sobre X, es del 22'12%. a) Determine dicha recta de ajuste sabiendo que a una puntuacin directa X=2 corresponde una prediccin 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3). b) Calcule el coeficiente de correlacin. c) Qu pronstico diferencial corresponde a una puntuacin directa X=5, si X = 0 ?.

8
En el estudio de la relacin lineal existente entre dos variables X e Y se observ que eran independientes. Sabiendo que sus respectivas medias son iguales a 2 y 1, y que tienen por varianzas 0'1538 y 0'6154, a) calcule las ecuaciones de las dos rectas de regresin b) determine el error tpico de la prediccin.

9
De los clculos realizados para estudiar la relacin existente entre las variables X e Y, se conoce que : - la recta de ajuste de Y sobre X pasa por el punto (2,2) - las media de X es igual a 1 y la de Y vale 4 - la varianza de la variable dependiente es igual a 2'2857, y la de las predicciones es 1'9047. A la vista de estos datos, calcule : a) Ecuaciones de las dos rectas de regresin en puntuaciones directas, diferenciales y tpicas. b) Proporcin de varianza no asociada a X.

10
Determinar las ecuaciones en puntuaciones diferenciales de las rectas de regresin correspondientes a la distribucin bivariante (X,Y), sabiendo que las varianzas de ambas variables son 4 y 9 respectivamente y que existe una relacin lineal perfecta y directa entre ellas.

11
En el estudio de la relacin lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas 0 y 2 de X le corresponden unos pronsticos respectivos 33243 y 77567. Sabiendo que la proporcin de varianza asociada al ajuste es del 9465% y que la variable dependiente tiene por media 82 y varianza 1536, calcular : a) Ecuacin de la recta de ajuste. b) Coeficiente de correlacin. c) Media y varianza de la variable X. d) Varianza residual y de las predicciones.

12
Analizamos las edades de 8 personas que acuden a un examen para la obtencin del carnet de conducir. Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 aos, determine el coeficiente ms adecuado para medir el grado de relacin de la edad con la superacin o no del examen.

13
Para los siguientes pares de valores de las variables X e Y : (12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 65) , (14 , 2) , (11, 85) , (12, 3) , (14 , 15) , (10, 9) , ( 11, 7) calcular la proporcin de varianza que explica el ajuste de Y sobre X.

14
X Y f 0 -6 3 1 -2 6 1 -1 11 1 1 16 2 3 3 3 8 1 3 9 4 5 12 2 Determine la varianza de los errores y de las predicciones, correspondientes al ajuste de Y sobre X en la distribucin anterior.

32 - Regresin y correlacin (F. lvarez)

15
En un grupo de 10 alumnos se han obtenido las calificaciones en Anatoma, separando el ejercicio terico del prctico. El profesor encargado orden tales calificaciones de mayor a menor puntuacin, encontrando los resultados siguientes : Alumno Clasificacin teora Clasificacin prctica 1 6 6 2 2 10 3 7 4 4 10 3 5 4 9 6 1 7 7 8 2 8 5 5 9 9 1 10 3 8

Elija y calcule el ndice de correlacin adecuado para medir si existe relacin o no entre las calificaciones en las dos partes del examen.

16
Para los valores 0 y 2 de la variable X se obtuvieron unos pronsticos de la variable dependiente iguales a 68617 y 140531 respectivamente. Sabiendo que la proporcin de varianza de la variable Y no asociada a la variacin de X es del 1732%, y la varianza de la variable independiente es 29375, calcular : a) la ecuacin de la recta de regresin de Y sobre X. b) la varianza de las puntuaciones pronosticadas y la varianza residual. c) el coeficiente de correlacin entre X e Y

17
Y 0 1 2 1 6 0 2 2 8 7 0 3 3 10 5 4 0 1 8 5 1 0 6 X Con la presente distribucin bivariante obtenga : a) recta de regresin de la media de Y condicionada a X b) coeficiente de correlacin de la media de Y condicionada a X c) recta de regresin de Y sobre X d) coeficiente de correlacin lineal (de Y sobre X)

e) razn de correlacin. f) Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el significado de la razn de correlacin calculada.

18
Determine y calcule en cada uno de los siguioentes supuestos, el ndice adecuado (no basado en el concepto de correlacin de Pearson) que permita medir el grado de asociacin entre las variables X e Y. (I) X -2 -1 0 1 2 0 6 4 2 0 1 Y 1 1 4 6 5 8 (II) (ordinales) X Y A C B F C D D E E A F B

(III) X 1 0 1 2 50

Y 0 40 8

Regresin y correlacin (F. lvarez) - 33

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
X = 5'12
a) b = 1'133 b) r = 0'909 c) 1 - r2 = 0'1737

s2 X = 0'7456

Y = 1'96

s2 Y = 1'1584

s XY = 0'8448

y' = 1'133 . x zy' = 0'909 . zx La proporcin de varianza no explicada por X supone el 17'37% de la de Y.

2
X = 1'28
a) a = 2'6871 b) R2 = r2 = 0'5711 c) s 2 = 1'5097 Y.X

s2 X = 0'5216

Y = 5'2

s2 Y = 3'52

s XY = 1'024

Y' = 2'6871 + 1'9632 . X b = 1'9632 Representa la proporcin de varianza de Y explicada por X (el 57'11%)

3
X = 5'5
a) a = 1'9333 b) r = 0'8188 c) R2 = r2 = 0'6704 d) Y ' = Y = 405

s2 X = 8'25

Y = 4'05

s2 Y = 1'8225

s XY = 3'175

Y' = 1'9333 + 0'3848 . X b = 0'3848 Elevada relacin entre las variables (de tipo directo)

s2 Y' = 1'2218

4
X =4
a) f = 12 b) b = -0'9167 c) 1 - r2 = 0'4813

s2 X = 0'5714
y' = -0'9167 . x

Y = 1'6508

s2 Y = 0'9257

s XY = -0'5238

5
X = 16'375 s2 X = 14'3594 Y = 1'525 s2 Y = 0'3994 s XY = 0'4656
a = 0'994 b = 0'0324 a' = 14'597 b' = 1'1659 r = 0'1944 y' = 0'0324 . x zy' = 0'1944 . zx a) Y' = 0'994 + 0'0324 . X X' = 14'597 + 1'1659 . Y x' = 1'1659 .y zx' = 0'1944 . zy Las variables no estn relacionadas linealmente (son independientes) b) r = 0'1944

6
(I) (II) (III) Coeficiente biserial puntual Coeficiente de los rangos de Spearman Coeficiente

rbp = 0'0389
= 0'8857 = - 0'6154

7
a) Y = 0'3 + 0'9 . X b) r = 0'8825 c) y' = 4'5

8
a) Y' = 1 X' = 2 b) sY.X = sY = 0'7845

9
a) Y' = 6 - 2 . X X' = 2'6667 - 0'4167 . Y b) 1 - r2 = 0'1667 y' = -2 . x x' = -0'4167 .y zy' = -0'9129 . zx zx' = -0'9129 . zy

10
y' = 1'5 . x x' = 0'6667 . y

34 - Regresin y correlacin (F. lvarez)

11
a) b) c) d) Y = 33243 + 22162.X 09729 22, 296 08216, 145384

12
rbp = 056

13
08331 (o bien el 8331%)

14
19543 ; 155069

15
= -08667

16
a) b) c) Y = 68617 + 35957 . X 3998 y 796 09093

17
a) b) c) d) e) YM = 1'9317 + 0'9049 . X rM = 0'9924 Y = 1'9268 + 0'8862 . X r = 0'6067 2 = 03749 (prximo a r2 = 0'3681)

18
(I) (II) (III) Coeficiente biserial Coeficiente de Kendall Coeficiente tetracrico

rb = - 0'7250
= - 0'3333

rt = - 0'7744

Regresin y correlacin (F. lvarez) - 35

Clculo del coeficiente de correlacin biserial


La tabla proporciona, para el menor de los valores p y q, la cantidad :

p.q f ( z)
0'009 0'36738 0'40233 0'42579 0'44406 0'45922 0'47228 0'48379 0'49411 0'50346 0'51202 0'51990 0'52721 0'53400 0'54034 0'54629 0'55186 0'55711 0'56205 0'56671 0'57111 0'57527 0'57920 0'58292 0'58643 0'58975 0'59289 0'59585 0'59865 0'60129 0'60377 0'60611 0'60830 0'61035 0'61226 0'61405 0'61570 0'61724 0'61865 0'61993 0'62111 0'62216 0'62310 0'62393 0'62465 0'62525 0'62575 0'62614 0'62642 0'62659 0'62666

min(p,q)
0'00 0'01 0'02 0'03 0'04 0'05 0'06 0'07 0'08 0'09 0'10 0'11 0'12 0'13 0'14 0'15 0'16 0'17 0'18 0'19 0'20 0'21 0'22 0'23 0'24 0'25 0'26 0'27 0'28 0'29 0'30 0'31 0'32 0'33 0'34 0'35 0'36 0'37 0'38 0'39 0'40 0'41 0'42 0'43 0'44 0'45 0'46 0'47 0'48 0'49 0'50

0'000 0'37186 0'40502 0'42781 0'44569 0'46061 0'47349 0'48487 0'49508 0'50435 0'51284 0'52066 0'52791 0'53465 0'54096 0'54686 0'55240 0'55762 0'56253 0'56716 0'57154 0'57568 0'57958 0'58328 0'58677 0'59007 0'59319 0'59614 0'59892 0'60154 0'60401 0'60633 0'60851 0'61055 0'61245 0'61422 0'61586 0'61738 0'61878 0'62006 0'62122 0'62226 0'62319 0'62401 0'62471 0'62531 0'62579 0'62617 0'62644 0'62660 0'62666

0'001 0'29788 0'37603 0'40762 0'42977 0'44729 0'46198 0'47469 0'48594 0'49605 0'50523 0'51365 0'52141 0'52860 0'53530 0'54156 0'54743 0'55294 0'55812 0'56301 0'56761 0'57196 0'57608 0'57996 0'58364 0'58711 0'59039 0'59350 0'59643 0'59919 0'60180 0'60425 0'60656 0'60872 0'61074 0'61263 0'61439 0'61602 0'61753 0'61891 0'62018 0'62133 0'62236 0'62328 0'62408 0'62478 0'62536 0'62584 0'62620 0'62646 0'62661

0'002 0'31576 0'37994 0'41014 0'43169 0'44887 0'46333 0'47587 0'48700 0'49701 0'50611 0'51445 0'52215 0'52929 0'53595 0'54217 0'54800 0'55347 0'55862 0'56348 0'56806 0'57239 0'57647 0'58034 0'58399 0'58745 0'59071 0'59380 0'59671 0'59946 0'60205 0'60449 0'60678 0'60893 0'61094 0'61281 0'61456 0'61618 0'61767 0'61904 0'62030 0'62143 0'62245 0'62336 0'62416 0'62484 0'62541 0'62588 0'62623 0'62648 0'62662

0'003 0'32772 0'38363 0'41257 0'43357 0'45042 0'46466 0'47704 0'48804 0'49795 0'50697 0'51525 0'52289 0'52998 0'53659 0'54277 0'54856 0'55400 0'55912 0'56395 0'56850 0'57281 0'57687 0'58071 0'58435 0'58778 0'59103 0'59410 0'59699 0'59973 0'60230 0'60472 0'60700 0'60913 0'61113 0'61299 0'61473 0'61633 0'61781 0'61917 0'62042 0'62154 0'62255 0'62345 0'62423 0'62490 0'62547 0'62592 0'62626 0'62650 0'62663

0'004 0'33699 0'38712 0'41493 0'43540 0'45195 0'46597 0'47820 0'48908 0'49889 0'50783 0'51604 0'52362 0'53066 0'53723 0'54336 0'54912 0'55453 0'55962 0'56442 0'56895 0'57322 0'57726 0'58109 0'58470 0'58811 0'59134 0'59439 0'59727 0'59999 0'60255 0'60496 0'60722 0'60934 0'61132 0'61317 0'61489 0'61649 0'61796 0'61930 0'62053 0'62165 0'62264 0'62353 0'62430 0'62496 0'62552 0'62596 0'62629 0'62652 0'62664

0'005 0'34469 0'39044 0'41722 0'43720 0'45345 0'46726 0'47934 0'49011 0'49982 0'50868 0'51682 0'52435 0'53134 0'53786 0'54396 0'54967 0'55505 0'56011 0'56488 0'56938 0'57364 0'57766 0'58146 0'58505 0'58845 0'59166 0'59469 0'59755 0'60025 0'60280 0'60519 0'60744 0'60954 0'61151 0'61335 0'61506 0'61664 0'61810 0'61943 0'62065 0'62175 0'62274 0'62361 0'62437 0'62502 0'62556 0'62600 0'62632 0'62654 0'62664

0'006 0'35133 0'39360 0'41945 0'43897 0'45492 0'46854 0'48047 0'49112 0'50074 0'50953 0'51760 0'52507 0'53201 0'53849 0'54454 0'55023 0'55557 0'56060 0'56534 0'56982 0'57405 0'57805 0'58182 0'58540 0'58878 0'59197 0'59498 0'59783 0'60051 0'60304 0'60542 0'60765 0'60975 0'61170 0'61353 0'61522 0'61679 0'61824 0'61956 0'62077 0'62186 0'62283 0'62369 0'62444 0'62508 0'62561 0'62603 0'62635 0'62655 0'62665

0'007 0'35722 0'39663 0'42162 0'44069 0'45638 0'46980 0'48159 0'49213 0'50166 0'51036 0'51838 0'52579 0'53268 0'53911 0'54513 0'55078 0'55609 0'56109 0'56580 0'57025 0'57446 0'57843 0'58219 0'58574 0'58910 0'59228 0'59528 0'59811 0'60077 0'60329 0'60565 0'60787 0'60995 0'61189 0'61370 0'61538 0'61694 0'61837 0'61969 0'62088 0'62196 0'62292 0'62377 0'62451 0'62514 0'62566 0'62607 0'62637 0'62657 0'62665

0'008 0'36253 0'39954 0'42373 0'44239 0'45781 0'47105 0'48270 0'49312 0'50256 0'51120 0'51914 0'52650 0'53334 0'53973 0'54571 0'55132 0'55660 0'56157 0'56626 0'57069 0'57487 0'57882 0'58256 0'58609 0'58943 0'59258 0'59557 0'59838 0'60103 0'60353 0'60588 0'60808 0'61015 0'61208 0'61388 0'61554 0'61709 0'61851 0'61981 0'62099 0'62206 0'62301 0'62385 0'62458 0'62520 0'62571 0'62611 0'62640 0'62658 0'62665

36 - Regresin y correlacin (F. lvarez)

PROBABILIDAD
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez francisco.alvarez@uca.es

REPASO DE COMBINATORIA
VARIACIONES ORDINARIAS Caractersticas : No se pueden repetir los elementos El orden de colocacin de los elementos tiene influencia. VARIACIONES CON REPETICIN Caractersticas : Se pueden repetir los elementos El orden de colocacin de los elementos tiene influencia. COMBINACIONES ORDINARIAS Caractersticas : No se pueden repetir los elementos El orden de colocacin de los elementos no influye. NOTA : Factorial de un nmero n = n! = n.(n-1).(n-2). ... . 2 . 1 5! = 5.4.3.2.1 = 120 0! = 1 Nmero : Nmero :

Vn, p =

n! (n p )!

Nmero :

VRn, p = n p

n n! Cn, p = p = p!.(n p )!

SUCESOS ALEATORIOS
EXPERIENCIA ALEATORIA es aquella que no est sometida a una ley concreta. Su ocurrencia slo depende del azar. ESPACIO MUESTRAL (E) es el conjunto de las posibles ocurrencias (sucesos elementales) de una experiencia aleatoria. SUCESO ALEATORIO es cualquier subconjunto o parte del espacio muestral. OPERACIONES : UNIN DE SUCESOS AB AoB INTERSECCIN DE SUCESOS AB AyB SUCESO CONTRARIO A no A SUCESOS ESPECIALES : SUCESO SEGURO E siempre se verifica SUCESO IMPOSIBLE nunca se verifica SUCESOS COMPATIBLES AB tienen algo en comn SUCESOS INCOMPATIBLES AB= no tienen nada en comn EJEMPLO : Lanzar un dado es una experiencia aleatoria (nunca podremos asegurar el valor que se obtiene al lanzarlo). El conjunto de las posibles ejecuciones constituye el espacio muestral E = { 1, 2, 3, 4, 5, 6 } . A B = { 2 , 3 , 4, 6 } A = { salga cifra par } = { 2 , 4 , 6 } AB={6} B = { ser mltiplo de 3 } = { 3 , 6 } A = { salga cifra impar } = { 1 , 3 , 5 } C = { ser mltiplo de 5 } = { 5 } A y B son compatibles A B = { 3 } A y C son incompatibles A C =

PROBABILIDAD
DEFINICIN : Probabilidad es una ley que asocia a cada suceso un valor numrico, sometida a las siguientes condiciones : 1 La probabilidad siempre estar comprendida entre 0 y 1 : 0 Pr(A) 1 2 La probabilidad del suceso seguro es igual a 1 : Pr(E) = 1 3 Axioma de probabilidades totales : Si dos sucesos A y B son incompatibles ( A B = ) , se verifica que Pr(A B) = Pr(A) + Pr(B) PROPIEDADES ELEMENTALES : I. Pr (A) = 1 - Pr( A ) II. La probabilidad del suceso imposible es igual a 0 :

Pr() = 0 Probabilidad (F. lvarez) - 1

REGLA DE LAPLACE : La probabilidad de un suceso es el cociente entre el nmero de situaciones en que puede presentarse dicho suceso y el nmero total de situaciones posibles. TEOREMA DE PROBABILIDADES TOTALES : Pr(A B) = Pr(A) + Pr(B) - Pr(A B) Generalizando :

Pr( A 1 A 2 A 3 ... ) =
As, por ejemplo : Pr(ABCD) =

Pr( A ) Pr( A
i

Aj ) +

Pr( A

A j A k ) ...

Pr(A) + Pr(B) + Pr(C) + Pr(D) - Pr(AB) - Pr(AC) - Pr(AD) - Pr(BC) - Pr(BD) - Pr(CD) + + Pr (ABC) + Pr (ABD) + Pr(ACD) + Pr(BCD) - Pr(ABCD) PROBABILIDAD CONDICIONADA. TEOREMA DE PROBABILIDADES COMPUESTAS : B/A = suceso B condicionado al A ( ocurrir B habiendo ocurrido A ).

Pr( B / A ) =
Generalizando :

Pr( A B ) Pr( A )

Pr( A B ) = Pr( A ).Pr( B / A )

Pr( A 1 A 2 A 3 ... ) = Pr( A 1 ).Pr( A 2 / A 1 ).Pr( A 3 / A 1 A 2 ). ...

TEOREMA DE BAYES : Sean n causas independientes Ai con probabilidades Pr(Ai) conocidas y sea B un suceso que puede presentarse en cada una de ellas, siendo conocidas las probabilidades Pr(B/Ai). Se verifica entonces que :

Pr( A k / B ) =

Pr( A k ).Pr( B / A k )

Pr( A ).Pr( B / A )
i i i=1

2 - Probabilidad (F. lvarez)

EJERCICIOS RESUELTOS
1
Al extraer al azar una ficha del juego del domin, calcular la probabilidad de que sume un nmero de puntos mltiplo de 3. En situaciones como la presente nos vemos obligados a desarrollar el espacio muestral, contando, posteriormente, las situaciones que se ajustan al problema (casos favorables).

Probabilidad mltiplo de 3 0'32143

de sumar = 9 / 28 =

2
Al lanzar al aire cuatro monedas, calcular la probabilidad de obtener al menos dos caras. En este caso podramos contar las distintas situaciones, si bien puede efectuarse un desarrollo previo del espacio muestral : CCCC CCC+ CC++ C+++ ++++ CC+C C+C+ +C++ C+CC C++C ++C+ +CCC +CC+ +++C Se obtienen 4 caras Se obtienen 3 caras y 1 cruz Se obtienen 2 caras y 2 cruces Se obtienen 1 cara y 3 cruces Se obtienen 4 cruces

+C+C

++CC

Del total de 16 situaciones posibles, en 11 de ellas se obtienen al menos dos caras. As : Pr = 11/16 = 0'6875 Sin proceder al desarrollo de todas las posibilidades : a) Situaciones posibles : VR2,4 = 24 = 16 b) Se obtienen cuatro caras en 1 solo caso Se obtienen tres caras en C4,3 = 4 casos Se obtienen tres caras en C4,2 = 6 casos

3
Una caja contiene seis bolas blancas, tres rojas y dos negras. Al extraer simultneamente dos bolas de ella, calcular la probabilidad de que sean : a) las dos blancas b) las dos del mismo color

6 2 15 = Pr(a ) = = 0'2727 11 55 2

6 3 2 2 + 2 + 2 19 = Pr(b) = = 0'3453 55 11 2

4
Una caja contiene seis bolas blancas (B), tres rojas (R) y dos negras (N). Al extraer sucesivamente dos bolas de ella, calcular la probabilidad de que sean de distinto color: a) supuesta la extraccin con devolucin de la bola extrada b) supuesta la extraccin sin devolucin de la bola extrada Las posibles situaciones que se ajustan al problema son : BR , BN , RB , RN , NB , NR a)

Pr =

6 3 6 2 3 6 3 2 2 6 2 3 72 . + . + . + . + . + . = = 0' 595 11 11 11 11 11 11 11 11 11 11 11 11 121


Probabilidad (F. lvarez) - 3

b)

Pr =

6 3 6 2 3 6 3 2 2 6 2 3 72 . + . + . + . + . + . = = 0' 6545 11 10 11 10 11 10 11 10 11 10 11 10 110

5
La siguiente tabla nos muestra la distribucin del alumnado de un Centro en funcin del curso y del sexo. Hombre Mujer Seleccionado un alumno al azar, calcular la probabilidad 1 15 25 a) de que sea mujer o estudie 2 2 10 30 b) de que no estudie 1 y sea hombre 3 25 45 c) de que sea mujer sabiendo que no es de 2 a) b) c)

Pr =

110 = 0' 733 150

Pr =

35 = 0' 233 150

Pr =

70 = 0' 6364 110

6
Al extraer simultneamente tres cartas de la baraja espaola, calcular la probabilidad de que : a) todas sean de oros b) al menos dos sean figuras c) sean del mismo palo d) sean de distinto palo e) no sean del mismo palo

a) Las tres de oros :

10 3 Pr =

40 3

120 = 0'0121 9880

b) Dos figuras o tres figuras :

12 28 12 2 . 1 + 3 Pr =

40 3
o

2068 = 0'2093 9880

c)

Las

tres

de

oros

de

copas

de

espadas

de

bastos

10 10 10 10 3 + 3 + 3 + 3 Pr =

40 3

480 = 0'0486 9880

Antes de efectuar lo solicitado en los apartados d) y e) , veamos su diferencia. Ser de distinto palo significa que, por ejemplo, una sea de oros, otra de espadas y otra de bastos. No ser del mismo palo se presenta cuando, por ejemplo, dos son de oros y la otra de copas. El apartado d) se verifica al obtener : oro-copa-espada ; oro-copa-basto ; oro-espada-basto ; copa-espada-basto. El apartado e) es aconsejable resolverlo a partir del suceso contrario (ser del mismo palo).

d)

10 10 10 . . 1 1 1 = 4000 = 0'4049 Pr = 4. 40 9880 3


Pr = 1 - Pr(ser del mismo palo) = 1 - 0'0486 = 0'9514

e)

4 - Probabilidad (F. lvarez)

7
Una rata se mueve libremente por los compartimentos dibujados en el esquema de la izquierda. Supuesto que parte inicialmente del identificado con el nmero 1, calcular : a) probabilidad de que alcance el compartimento 4, despus de realizar tres desplazamientos. b) probabilidad de que alcance un compartimento par despus de realizar tres desplazamientos, sabiendo que el primer desplazamiento lo hace al compartimento 2.

a)

Desplazamientos posibles 1-2 ; 2-5 ; 5-4 1-2 ; 2-1 ; 1-4 1-4 ; 4-5 ; 5-4 1-4 ; 4-1 ; 1-4

Probabilidad

Total

1 1 1 . . 3 4 4 1 1 2 . . 3 4 3 2 1 1 . . 3 3 4 2 2 2 . . 3 3 3

1 1 1 1 1 2 2 1 1 2 2 2 . . + . . + . . + . . 3 4 4 3 4 3 3 3 4 3 3 3

Pr = 0'4282

b) Si observamos las distintas posibilidades, siempre se acaba en un compartimento par. La probabilidad es pues igual a 1. Si no se advierte tal circunstancia, el problema se traduce en alcanzar un compartimento par, partiendo del 2, en dos desplazamientos. Desplazamientos 2-1 ; 1-2 2-3 ; 3-2 2-5 ; 5-2 2-1 ; 1-4 2-3 ; 3-6 2-5 ; 5-4 2-5 ; 5-6

Pr =

1 1 2 2 1 1 1 2 2 2 1 1 1 2 4 + 12 + 3 + 8 + 12 + 3 + 6 48 . + . + . + . + . + . + . = = =1 4 3 4 4 4 4 4 3 4 4 4 4 4 4 48 48

8
La tabla nos muestra la distribucin final del alumnado de Bachillerato. a) Hallar la probabilidad de que un alumno no apruebe todas las asignaturas o sea en la actualidad de 2 de BUP. Si un cierto alumno debe repetir curso, calcule la probabilidad de que actualmente sea de 2 de

b) BUP. c) Preguntamos a los tres primeros alumnos que salen del Centro. Hallar la probabilidad de que sean del mismo curso. a)

Pr =

140 = 0' 667 210

b)

Pr =

18 = 0' 4186 43

Probabilidad (F. lvarez) - 5

Por las caractersticas del enunciado, puede pensarse en una aplicacin del Teorema de Bayes. Resuelto por este mtodo, el suceso B es repetir curso y los sucesos A1 , A2 y A3 , ser de 1, de 2 y de 3 respectivamente. La probabilidad se calculara :

70 210 15 Pr( B / A 1 ) = 70 Pr( A 1 ) =

70 70 Pr( A 3 ) = 210 210 18 10 Pr( B / A 2 ) = Pr( B / A 3 ) = 70 70 70 18 . 18 210 70 Pr( A 3 / B ) = = = 0' 4186 70 15 70 18 70 10 43 . + . + . 210 70 210 70 210 70 Pr( A 2 ) =

c)

Probabilidad de ser los tres de 1 o de 2 o de 3 :

Pr =

70 69 68 70 69 68 70 69 68 70 69 68 . . + . . + . . = 3. . . = 0' 1079 210 209 208 210 209 208 210 209 208 210 209 208

9
Una experiencia consiste en lanzar una bola por el laberinto inclinado de la figura. Hallar la probabilidad de que : a) b) c) la bola no salga por B . la bola salga por C , sabiendo que pas por la bifurcacin 2 . la bola pase por la bifurcacin 3 .

Indicamos a-b el paso desde el nudo o bifurcacin a a la b. a) Determinemos la probabilidad del suceso contrario (salir por B). Esto se produce si la bola realiza el recorrido ( 1-2 ; 2-4 ; 4-B ) o bien el ( 1-2 ; 2-5 ; 5-B ). La probabilidad pedida es :

1 1 1 1 1 1 Pr( B ) = 1 Pr( B) = 1 . . + . . = 0'75 2 2 2 2 2 2


b) El camino recorrido ser ( 2-5 ; 5-C ). La probabilidad pedida es :

Pr =
c)

1 1 . = 0' 25 2 2 1 = 0' 5 2

Al salir de 1, la bola puede pasar por 2 o por 3. La probabilidad pedida es :

Pr =

10
Una fbrica funciona las 24 horas del da con tres turnos de 30 trabajadores cada uno. En el primer turno el 40 % son mujeres; en el segundo hay 18 mujeres y, en el tercero, slo el 10 % son mujeres. a) Seleccionadas al azar dos fichas de empleados de la fbrica (de forma simultnea), determine la probabilidad de que pertenezcan a trabajadores del mismo turno. b) Tomamos una ficha al azar y corresponde a una mujer. Calcule la probabilidad de que sea la de una de las que trabajan en el turno 3. Detallemos previamente el nmero de mujeres y hombres de cada turno, sabiendo que en total hay 30 : Turno 1 Turno 2 Turno 3 12 18 3 Mujeres 18 12 27 Hombres a) Probabilidad de ser ambos del turno 1 o del 2 o del 3 :

6 - Probabilidad (F. lvarez)

30 30 30 2 + 2 + 2 Pr =

1305 = = 0'3259 90 4005 2

b)

Nos encontramos en este caso en una aplicacin del Teorema de Bayes. El suceso B que conocemos se ha presentado es B = ser mujer. Tal suceso se puede dar o puede proceder del primer turno (A1), del 2 (A2) o del 3 (A3).

Pr( A 1 ) = Pr( A 2 ) = Pr( A 3 ) =

Pr( B / A 1 ) =

12 30

30 1 = 90 3 18 Pr( B / A 2 ) = 30

La probabilidad pedida es :

3 30 1 3 . 3 3 30 = = 0' 0909 Pr( A 3 / B ) = 1 12 1 18 1 3 33 + . + . . 3 30 3 30 3 30 Pr( B / A 3 ) =

11
Disponemos de tres urnas con la distribucin de bolas blancas y rojas indicada en el grfico de la izquierda. a) Extrada una bola de una de las urnas, hallar la probabilidad de que sea blanca. b) Extrada una bola de una de las urnas result ser blanca, hallar la probabilidad de que proceda de la 2 urna. a) La pregunta es preciso detallarla con mayor precisin. Se trata de elegir la 1 urna y extraer bola blanca o seleccionar la 2 y extraer bola blanca o seleccionar la 3 y extraer bola blanca. Con esto, la probabilidad pedida ser :

Pr =
b)

1 2 1 4 1 3 9 . + . + . = = 0' 6 3 5 3 5 3 5 15

Aplicacin del Teorema de Bayes. El suceso B que conocemos se ha presentado es B = ser blanca. Tal suceso se puede dar o puede proceder de la primera urna (A1), de la 2 (A2) o de la 3 (A3).

Pr( A 1 ) = Pr( A 2 ) = Pr( A 3 ) = Pr( B / A 1 ) = 2 5

1 3

Pr( B / A 2 ) =

4 5

La probabilidad pedida es :

3 5 1 4 . 4 3 5 = = 0' 444 Pr( A 2 / B ) = 1 2 1 4 1 3 9 . + . + . 3 5 3 5 3 5 Pr( B / A 3 ) =

Sera correcto, en este caso, resolver el problema en base al conocimiento simple de que la bola extrada es blanca. La probabilidad de que proceda de la 2 urna (teniendo en cuenta que hay 2 bolas blancas en la 1, 4 en la 2 y 3 en la 3) sera igualmente:

Pr( A 2 / B ) =

4 4 = = 0' 444 2+ 4+ 3 9

12
Un arquero acierta en el centro de una diana en 7 de cada 10 lanzamientos. Calcule la probabilidad de dar en el centro de la diana si dispara 6 flechas. Al realizar los 6 disparos puede que d en el centro de la diana 1, 2, ... , 6 veces. Se trata de calcular la probabilidad de dar en el centro de la diana alguna vez. Es decir, lo contrario de no dar en ninguna ocasin. La probabilidad de dar en el centro de la diana, en cada disparo, es 7/10 = 0'7. La de no dar : 3/10=0'3.

3 3 3 3 3 3 Pr(dar algunavez) = 1 Pr(nodar ) = 1 . . . . . = 1 0'36 = 0'999271 10 10 10 10 10 10

Probabilidad (F. lvarez) - 7

13
En las pruebas de acceso a la Universidad, el 45% son alumnos de la opcin A, el 10% de la B, el 30% de la C y el resto de la opcin D. Se sabe que aprueban el 80% de los alumnos de la opcin A, la mitad de los que cursaron las opciones C y D y el 60% de los de la opcin B. Si un cierto alumno aprob la prueba, calcule la probabilidad de haber cursado la opcin C. Ejemplo clsico de aplicacin del Teorema de Bayes. El suceso B que conocemos se ha presentado es B = aprobar la prueba. Tal suceso se puede dar o puede proceder de la opcin A (A1), de la B (A2), de la C (A3) o de la D (A4).

Pr( A 1 ) = 0' 45 Pr( A 2 ) = 0' 10 Pr( A 3 ) = 0' 30 Pr( A 4 ) = 0' 15 Pr( B / A 1 ) = 0' 80 Pr( B / A 2 ) = 0' 60 Pr( B / A 3 ) = 0' 50 Pr( B / A 4 ) = 0' 50

La probabilidad pedida es :

Pr( A 3 / B ) =

0' 30 . 0' 50 0' 15 = = 0' 23256 0' 45 . 0' 80 + 0' 10 . 0' 60 + 0' 30 . 0' 50 + 0' 15 . 0' 50 0' 645

14
En un examen de Psicologa Matemtica I se les proponen a los alumnos tres problemas (A, B y C), de los que han de elegir uno. La mitad de los alumnos eligen el problema A, y de stos aprueban el 60%. El 30% eligen el B, suspendiendo el 25%. Por ltimo, entre los que eligen el C aprueban el 30%. a) Considerando a todos los alumnos, cul es la probabilidad de aprobar el examen ?. b) Sabiendo que un alumno ha aprobado, cul es la probabilidad de que haya elegido el problema A ?. c) Sabiendo que un alumno suspendi, cul es la probabilidad de que haya elegido el problema C ?. El problema puede resolverse siguiendo dos procedimientos: 1.- Utilizando propiedades del clculo de probabilidades (especialmente el Teorema de Bayes). 2.- Aplicando el puro y simple sentido comn. Para ello es aconsejable exponer de forma clara los datos del problema: A Aprueban Suspenden TOTAL 60% de 50 40% de 50 50% 30 20 50 75% de 30 25% de 30 30% B 225 75 30 30% de 20 70% de 20 20% C 6 14 20

Mtodo 1 :
a) 030 = b) Pr(aprobar) = Pr(elegir A y aprobar o elegir B y aprobar o elegir C y aprobar) = 050 . 060 + 030 . 075 + 020 . = 0585. Teorema de Bayes :

Pr( A / aprobado ) =

Pr( A ).Pr( aprobado / A ) = Pr( A ).Pr( aprobado / A ) + Pr( B ).Pr( aprobado / B ) + Pr( C).Pr( aprobado / C) 0'50.0'60 0'30 = = 0'5128 = 0'50.0'60 + 0'30.0'75 + 0'20.0'30 0'585
Teorema de Bayes :

c)

Pr( C / suspenso ) =

Pr( C). Pr( suspenso / C) = Pr( A ). Pr( suspenso / A ) + Pr( B ). Pr( suspenso / B ) + Pr( C). Pr( suspenso / C) 0'20.0'70 0'14 = = 0'3373 = 0'50.0'40 + 0'30.0'25 + 0'20.0'70 0'415
Pr(aprobar) = (30+225+6) / 100 = 585 / 100 = 0585. Observando slo los aprobados (en total 585) : Pr(A/aprob) = 30 / 585 = 05128 Observando slo los suspensos (en total 415) : Pr(C/suspendi) = 14 / 415 = 03373

Mtodo 2 :
a) b) c)

15
La E.M.T. de Madrid dispone de 8 lneas de autobuses para ir de la ciudad al campus universitario. Calcular de cuntas formas puede un estudiante hacer el viaje de ida y vuelta, si : a) Los autobuses de ida y vuelta pueden ser de la misma o diferente lnea. b) Los autobuses de ida y vuelta han de ser de diferente lnea. c) Los autobuses de ida y vuelta han de ser de la misma lnea. a) b) 8x8 = 64 (por cada lnea de ida puede tomar las ocho de vuelta) 8x7 = 56 (por cada lnea de ida puede tomar lslo siete de vuelta)

8 - Probabilidad (F. lvarez)

c)

8 (las ocho lneas)

16
Sabemos que de cada 10000 mujeres 25 sufren de daltonismo y 5 de cada 100 hombres tambin tienen la misma anomala. Suponiendo que existe igual nmero de hombres que de mujeres, y que elegimos aleatoriamente de sta una persona, cul es la probabilidad de que sea varn, supuesto que sufre daltonismo ?. Hombre 500 9500 Mujer 25 9975 Trabajamos sobre 10000 individuos Prob = 500 / 525 = 09524

Daltnico No daltnico

17
En un experimento de condicionamiento se sita a una rata en el centro de un laberinto como el de la figura. En cada uno de los ensayos la rata elige siempre uno de los tres caminos (A, B, C) con igual probabilidad (P(A)=P(B)=P(C)=1/3). El suelo de cada uno de estos tres caminos es una rejilla elctrica que dispensa una descarga (D) de 5V a la rata, una vez que lo ha pisado, con distinta probabilidad : para A, para B y 0 para C. En un determinado ensayo la rata no recibi la descarga elctrica. Cul es la probabilidad de que haya elegido el camino A ?. Y el B ?. Y el C ? Teorema de Bayes. (B = NO recibir descarga) P(A1) = P(A) = 1/3 P(A2) = P(B) = 1/3 P(A3) = P(C) = 1/3

P(B/A1) = 1/4 P(B/A2) = 3/4 P(B/A3) = 1

1 1 . 3 4 = 0125 P(A1 / B) = ' 1 1 1 3 1 . + . + .1 3 4 3 4 3

1 3 . 3 4 = 0'375 P(A 2 / B) = 1 1 1 3 1 . + . + .1 3 4 3 4 3

1 .1 3 = 0'5 P(A 3 / B) = 1 1 1 3 1 . + . + .1 3 4 3 4 3
Puede resolverse sin necesidad de aplicar el Teorema de Bayes. Sobre un total de 300 salidas o movimientos de la rata, el problema plantea que sale 100 veces por cada camino (probabilidad = 1/3) recibe descarga : 75 veces en A (3/4 de 100) ; 25 veces en B (1/4 de 100) ; 0 veces en C Camino A Camino B Camino C Luego : Descarga SI 75 25 0 100 Descarga NO 25 75 100 200 100 100 100

Pr(Camino A / NO descarga) = 25 / 200 = 0'125 Pr(Camino B / NO descarga) = 75 / 200 = 0'375 Pr(Camino C / NO descarga) = 100 / 200 = 0'5

18
Disponemos de dos mtodos A y B para ensear una cierta habilidad tcnica. El 20% de los enseados con el mtodo A y el 10% de los enseados con el mtodo B no aprenden la mencionada habilidad. No obstante, el mtodo B es ms caro y se aplica slo al 30% de las personas, mientras que el A se aplica al 70%. Una persona ha aprendido la habilidad, cul es la probabilidad de que haya seguido el mtodo A ?. A 56 14 70 B 27 3 30 Trabajamos sobre 100 individuos Prob = 56 / (56+27) = 06747

Aprende No aprende

Probabilidad (F. lvarez) - 9

19
Cierto profesor tiene por costumbre guardar todos los calcetines (limpios)en un cajn y cada maana elige consecutivamente al azar tres de ellos. Slo tiene tres colores de calcetines: grises (G), azules (A) y blancos (B). Si en las tres primeras extracciones los tres calcetines son de diferente color, decide no ponrselos y se calza unas sandalias. Una maana cualquiera tiene en el cajn 8 calcetines grises, 4 azules y 6 blancos. a) Cul es el espacio muestral de que dispone ese profesor esa maana ?. b) Cul es la probabilidad de que esa maana salga a la calle con sandalias ?. c) Es igual la probabilidad de que saque dos calcetines grises y uno azul que la de que saque dos grises y uno blanco ?. Calcule ambas probabilidades. a) b) c) E = { (GGG) , (GGA) , (GGB) , (GAA) , (GAB) , (GBB) , (AAA) , (AAB) , (ABB) , (BBB) }

8 4 5 . . = 0'1961 18 17 16 8 7 4 Pr(2G y 1A) = Pr(GGA o GAG o AGG) = 3. . . = 0'1373 18 17 16 8 7 6 Pr(2G y 1B) = Pr(GGB o GBG o BGG) = 3. . . = 0'2059 18 17 16
Pr(GAB o GBA o AGB o ABG o BAG o BGA) = 6.

20
Un profesor indeciso dispone de 5 problemas, de los que utilizar slo dos, para elaborar un examen. Los tres primeros corresponden a la primera parte y los dos siguientes a la segunda. Tampoco tiene muy claro si dejar utilizar o no material didctico a sus alumnos. Para resolver sus dudas utiliza una urna que contiene tres bolas rojas, numeradas del 1 al 3, y dos blancas, numeradas con 4 y 5. Extrae al azar, y sin reposicin, dos bolas. a) Cul es la probabilidad de que los ejercicios sean de distinta parte ?. b) Si los alumnos slo pueden utilizar material cuando las bolas sean del mismo color, cul es la probabilidad de que puedan utilizarlo ?. a) b) Pr(RB o BR) = 3/5 x 2/4 + 2/5 x 3/4 = 06 Pr(RR o BB) = 3/5 x 2/4 + 2/5 x 1/4 = 04 (o bien, utilizando el apartado anterior : 1 - 06 = 04)

21
De los 50 alumnos matriculados en un determinado Centro Asociado en la asignatura de Psicologa Matemtica, 30 son varones. Para participar en un experimento de percepcin visual, seleccionamos sin reposicin a dos de ellos. Calcular, justificando adecuadamente su respuesta, la probabilidad de que : a) Los dos sean varones. b) Los dos sean del mismo sexo. c) Al menos uno sea mujer. NOTA : Representamos el trmino "y" por el smbolo interseccin () y el trmino "o" por el de la unin (). a) La extraccin sin reposicin modifica el grupo en las extracciones sucesivas.

Pr( V1 V2 ) = Pr( V1 y V2 ) = Pr( V1 ).Pr( V2 / V1 ) =


b) Pueden ser los dos varones o las dos mujeres :

30 29 . = 0'355102 50 49
30 29 20 19 . + . = 0'510204 50 49 50 49

Pr ( ( V1 V2 ) ( M 1 M 2 ) ) = Pr ( V1 V2 ) + Pr( M1 M 2 ) =
c) Pueden ser un varn y una mujer o las dos mujeres :

Pr( ( V1 M 2 ) ( M1 V2 ) ( M1 M 2 )) = Pr( V1 M 2 ) + Pr( M1 V2 ) + Pr( M1 M 2 ) = 30 20 20 30 20 19 . + . + . = 0'6449 50 49 50 49 50 49

10 - Probabilidad (F. lvarez)

EJERCICIOS PROPUESTOS
1
Sabiendo que Pr(B)=2.Pr(A) , Pr(AB)=0'8 y Pr(AB)=0'1, calcule : Pr(A) , Pr(B) , Pr(A') , Pr(B-A) y Pr(A-B)

2
Al extraer dos cartas simultneamente de una baraja espaola, calcule la probabilidad de que : a) las dos sean del mismo palo b) ambas sean figuras c) alguna sea de oros.

3
Disponemos de cuatro cajas con la siguiente composicin de bolas blancas y negras : la 1 contiene 3 bolas de cada color la 2 y la 4 contienen 5 bolas blancas y 2 negras la 3 est constituida por 1 bola blanca y 2 negras. a) Seleccionada una urna al azar, hallar la probabilidad de extraer una bola blanca de ella. b) Se extrajo una bola de una de las urnas que result ser blanca. Calcule la probabilidad de haberla extrado de la 4 urna.

4
La siguiente tabla muestra la distribucin de los trabajadores de una empresa segn su estado civil y el ser o no fumadores. Solteros Casados Viudos a) b) c) d) e) Fuman 14 8 6 No fuman 16 35 1

Seleccionados 3 trabajadores al azar, determine la probabilidad de que todos fumen. Calcule la probabilidad de que un trabajador de la empresa est casado o fume. Calcule la probabilidad de que un trabajador de la empresa no est casado o fume. Si un cierto trabajador fuma, qu probabilidad tiene de ser soltero ?. Si un trabajador es viudo, calcule la probabilidad de que no sea fumador.

5
Una urna contiene tres bolas con las letras A , A y N. Otra contiene las letras A , A , A , N y N. Seleccionamos tres bolas sucesivamente y con devolucin. Qu urna ofrece mayor probabilidad de obtener la palabra ANA?.

6
Un alumno slo estudi uno de los cuatro temas de un examen. Si el examen consta de diez preguntas, calcule la probabilidad de que pueda contestar a alguna de ellas.

7
Hombres Mujeres 1 34 42 2 21 50 3 40 15 4 12 14 5 21 8

La tabla anterior nos muestra la distribucin por sexo de los alumnos de los 5 cursos de una Carrera. Seleccionados al azar dos alumnos, calcule la probabilidad de que : a) sean del mismo curso. b) alguno sea de 1 c) los dos sean hombres o estudien 3.

8
De un grupo de alumnos, la mitad son de primero, la quinta parte de 3 y el resto de 2. De los de 1, la cuarta parte son repetidores y, de los otros cursos, la mitad repiten. Si un cierto alumno es repetidor, calcule la probabilidad de que sea de 2 curso. Probabilidad (F. lvarez) - 11

9
Una urna contiene 5 bolas blancas, 3 rojas y 2 negras. a) Seleccionado un grupo de tres bolas, determine la probabilidad de que ninguna sea negra. b) Seleccionadas sucesivamente y sin reposicin tres bolas, determine la probabilidad de que sean del mismo color. c) Seleccionadas sucesivamente y con reposicin tres bolas, determine la probabilidad de que alguna sea negra.

10
De los 80 alumnos de tres grupos de COU de un centro, la mitad pertenecen al grupo A y el 15% al C. Sabiendo que aprueban el curso el 40% de los alumnos del grupo A, 8 alumnos del grupo B y la tercera parte de los del C, determine la probabilidad de que : a) un alumno de COU suspenda. b) un cierto alumno pertenezca al grupo B, sabiendo que aprob.

11
Una caja contiene 6 bolas blancas, 2 negras y 4 rojas. a) Si tomamos dos bolas simultneamente de la caja, calcule la probabilidad de que sean del mismo color. b) Al tomar sucesivamente y sin reposicin tres bolas de la caja, hallar la probabilidad de que todas sean blancas, sabiendo que ninguna es negra.

12
En relacin con la opcin cursada por los alumnos de COU, el 25% se matricul en la A, el 35% en la B, coincidiendo los matriculados en las opciones C y D. Finalizado el curso, aprobaron : la mitad de los alumnos de la opcin A y C, el 60% de la B y slo un 20% de los de la opcin D. a) Si un alumno seleccionado aprob, calcule la probabilidad de ser de la opcin C. b) Calcule la probabilidad de que un alumno suspenda, sabiendo que no pertenece a la opcin A.

12 - Probabilidad (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
Pr(A) = 0'3 Pr(B) = 0'6 Pr(A') = 0'7 Pr(B-A) = 0'5 Pr(A-B) = 0'2

2
a) 0'2308 b) 0'0846 c) 0'4423

3
a) 0'5655 b) 0'3158

4
a) b) c) d) e) 0'0399 0'7875 0'5625 0'5 0'1429

5
La primera (0'1481) ms que la segunda (0'144)

6
0'9437

7
a) 0'2295 b) 0'5048 c) 0'2685

8
0'4

9
a) 0'4667 b) 0'0917 c) 0'488

10
a) 0'65 b) 0'2857

11
a) 0'3333 b) 0'1666

12
a) b) 0'2105 05333

Probabilidad (F. lvarez) - 13

VARIABLES ALEATORIAS
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez francisco.alvarez@uca.es

VARIABLES ALEATORIAS UNIDIMENSIONALES


Variable aleatoria, asociada a una experiencia aleatoria, es la ley que hace corresponder a cada suceso aleatorio un valor numrico. As, por ejemplo, la expresin "lanzamos tres monedas observando el nmero de caras que se obtienen" est definiendo la variable aleatoria que permite asociar al suceso Cara-Cruz-Cara el valor 2 (dos caras). Como en el caso de las variables estadsticas, las variables aleatorias pueden ser discretas o continuas. Nos centraremos en el estudio de las primeras.

FUNCIN DE DENSIDAD O LEY DE PROBABILIDAD


Es el conjunto de los valores de la variable aleatoria X y sus probabilidades respectivas f(x) = Pr(X=x). Para el caso discreto se suele adoptar la forma de representacin siguiente : X f(X) x1 p1 x2 p2 x3 p3 .... .... xi pi .... .... xn pn

Ante la equivalencia entre frecuencias relativas y probabilidades, se verifica que :

p
i=1

=1

FUNCIN DE DISTRIBUCIN
Del mismo modo que se definan las frecuencias acumuladas, denominamos funcin de distribucin a : F(x) = Pr(Xx)

MOMENTOS. ESPERANZA MATEMTICA, VARIANZA, ASIMETRA Y CURTOSIS


Momento ordinario de orden k : Momento central de orden k : En particular : Esperanza matemtica : Es el momento ordinario de orden 1 (1) , equivalente a la media aritmtica.

k = p i . x ik
i =1

k = p i . ( x i E ( X) )
i =1

E ( X) = 1 = p i . x i
i =1

Varianza : Es el momento central de 2 orden.


2 2 V( X) = 2 = p i . ( x i E ( X) ) = p i . x 2 i E ( X) = 2 1 2 i =1 i =1 n n

Desviacin tpica : Es la raz cuadrada de la varianza.

D ( X) = V( X )
Coeficiente de asimetra : (similar a lo estudiado en el anlisis descriptivo de una variable)

A ( X) =

[ D( X)] 3
4 3

Coeficiente de curtosis : (similar a lo estudiado en el anlisis descriptivo de una variable)

K( X) =

[ D( X)] 4

Expresin de algunos momentos centrales en funcin de momentos ordinarios :

1 = 0 2 = 2 12

3 = 3 3. 1 . 2 + 2. 13 4 = 4 4. 1 . 3 + 6. 12 . 2 3. 14
Variables aleatorias (F. lvarez) - 1

OTRAS MEDIDAS DE CENTRALIZACIN


Moda : es el valor de la variable aleatoria que posee probabilidad mxima. Mediana : es el valor Md de la variable aleatoria para el cul : F(Md) 0'5 y 1 - F(Md) < 0'5 (siendo F la funcin de distribucin)

PROPIEDADES
E(X + Y) = E(X) + E(Y) E(.X) = .E(X) , para cualquier nmero . Si las dos variables son independientes , se verifica que : E(X . Y) = E(X) . E(Y) V(X + Y) = V(X) + V(Y)

TEOREMA DE TCHEBYCHEV
Establece la probabilidad mxima de que la variable aleatoria tome valores en los alrededores de la esperanza matemtica (media de la distribucin). Teorema : Para toda variable aleatoria X para la que existe su esperanza y su varianza, se verifica que, para cualquier valor numrico positivo k :

Pr( X E ( X ) < k ) < 1


Grficamente :

V( X) k2

La probabilidad de que cualquier valor de la variable X pertenezca al intervalo sombreado es inferior a :

V( X) k2

2 - Variables aleatorias (F. lvarez)

EJERCICIOS RESUELTOS
1
Lanzadas cuatro monedas, consideremos el nmero de cruces obtenidas. Calcular, de la variable aleatoria as definida : a) Ley de probabilidad b) Funcin de distribucin c) Esperanza matemtica y varianza d) Mediana y moda de la distribucin e) Determine la probabilidad de obtener ms de 1 y menos de 3 caras. Compruebe el teorema de Tchebychev. CCCC CCC+ CC++ C+++ ++++ Se obtienen 0 cruces Se obtienen 3 caras y 1 cruz Se obtienen 2 caras y 2 cruces Se obtienen 1 cara y 3 cruces Se obtienen 4 cruces

CC+C C+C+ +C++

C+CC C++C ++C+

+CCC +CC+ +++C

+C+C

++CC

Ley de probabilidad o funcin de densidad : X f(x)=Pr(X=x) Funcin de distribucin : X f(x)=Pr(X=x) F(x)=Pr(Xx) Ms correctamente se expresar : 0 1/16 1/16 1 4/16 5/16 2 6/16 11/16 3 4/16 15/16 4 1/16 16/16 = 1 0 1/16 1 4/16 2 6/16 3 4/16 4 1/16

0 1 16 5 F ( x) = 16 11 16 15 16 1

para x < 0 para0 x < 1 para1 x < 2 para 2 x < 3 para3 x < 4 para x 4
Funcin de distribucin

Grficamente : Ley de probabilidad

Para el clculo de la esperanza matemtica y la varianza de una variable aleatoria discreta, se aconseja construir la siguiente tabla auxiliar : X P P.X P.X2 E(X) = 1 = 2 0 1/16 0 0 1 4/16 4/16 4/16 2 6/16 12/16 24/16 3 4/16 12/16 36/16 4 1/16 4/16 16/16 Totales 1 32/16 = 2 80/16 = 5

1 2 De aqu :

V(X) = 2 - 12 = 5 - 4 = 1 Variables aleatorias (F. lvarez) - 3

Definida la desviacin tpica como la raz cuadrada de la varianza : D(X) = 1 Observando la ley de probabilidad o funcin de densidad, deducimos que : Moda = 2 (al tener X=2 la mayor probabilidad (6/16) ) Observando la funcin de distribucin, deducimos que : Mediana = 2 (al ser X=2 el valor para el que F(X) (=11/16) primero iguala o supera a 0'5) Comprobemos el teorema de Tchebychev para el caso reseado : Pr (1 < X < 3) = Pr(X=2) = 6/16 = 0'375 Siendo E(X) = 2 , la esperanza se encuentra en el centro del intervalo definido (1 , 3), luego su amplitud es k=2. Recordando que V(X) =1, tenemos :

Pr ( X E ( X ) < 2) < 1
La probabilidad calculada es en efecto inferior a 0'75.

1 = 0'75 22

2
En la extraccin simultnea de tres bolas de una urna que contiene 6 bolas blancas y cuatro negras, observamos el nmero de bolas blancas extradas. De la variable aleatoria as definida, calcular : a) ley de probabilidad b) funcin de distribucin c) esperanza matemtica , varianza y desviacin tpica. d) mediana y moda de la distribucin.

4 3 4 Pr(0blancas y3ne gras ) = = = 0'033 10 120 3 6 4 2 . 1 = 15.4 = 0'5 Pr(2blancas y1ne gra ) = 120 10 3
Ley de probabilidad o funcin de densidad : X Prob. Funcin de distribucin : F(x) = 0 0'033 1 0'3 0 0'033 0'333 0'833 1

6 4 1 . 2 = 6.6 = 0'3 Pr(1blanca y 2ne gras ) = 120 10 3 6 3 20 Pr(3blancas y0ne gras ) = = = 0'167 10 120 3

Una vez calculadas las probabilidades de las distintas situaciones posibles, obtenemos :

2 0'5 x<0 0x<1 1x<2 2x<3 x3

3 0'167

Esperanza matemtica , varianza y desviacin tpica : X Prob. = P P.X P.X2 0 0'033 0 0 1 0'3 0'3 0'3 2 0'5 1 2 3 0'167 0'5 1'5 Totales 1'8 3'8

E( X) = 1'8
Mediana y Moda :

V( X) = 3' 8 - 1' 8 2 = 0'56

D( X) =

0' 56 = 0'748

Observando la funcin de distribucin, deducimos que : Mediana = 2 (al ser X=2 el valor para el que F(X) (= 0'8333) primero iguala o supera a 0'5) Observando la ley de probabilidad o funcin de densidad, deducimos que : Moda = 2 (al tener X=2 la mayor probabilidad (0'5) )

4 - Variables aleatorias (F. lvarez)

3
Complete la ley de probabilidad siguiente, sabiendo que su esperanza matemtica es igual a 1'8 : X Prob. 0 0'2 1 a 2 b 3 0'3

De una parte, sabiendo que se verifica que

p
i=1 n

= 1 , resulta : 0'2 + a + b + 0' 3 = 1 a + b = 0'5

Conocida la esperanza matemtica : E ( X ) =

p .x
i i=1

= 0 . 0' 2 + 1. a + 2. b + 3. 0' 3 = 1' 8 a + 2.b = 0'9

Resolviendo el sistema obtenemos los valores de a y b : a + b = 0'5 a = 0'5 - b a + 2.b = 0'9 0'5 - b + 2.b = 0'9 b = 0'4 a = 0'1

4
Calcular la esperanza matemtica, varianza, asimetra y curtosis de la variable aleatoria que tiene como funcin de distribucin : 0 0'2 0'55 0'85 1 x<2 2x<4 4x<6 6x<8 x8

F(x) =

La ley de probabilidad o funcin de densidad ser : x p Clculo de momentos : 1 2 3 4 Luego : esperanza matemtica : p.x p.x2 p.x3 p.x4 0'4 0'8 1'6 3'2 1'4 5'6 22'4 89'6 1'8 10'8 64'8 388'8 1'2 9'6 76'8 614'4 1 = 4'8 () 2 = 26'8 () 3 = 165'6 () 4 = 1096 () 2 0'2 4 0'35 6 0'3 8 0'15

E( X) = p i . x i = 1 = 4'8
i =1

varianza :

V( X) = 2 = 2 12 = 26'8 4'8 2 = 3'76


coeficiente de asimetra :

( D( X) =

3'76 = 19391 ' )

3 = 3 3. 1 . 2 + 2.13 = 165'6 3.4'8.26'8 + 2.4'8 3 = 0'8640 3 0'8640 A ( X) = ' 3 = 3 = 01185 ' ( D( x)) 19391
coeficiente de curtosis :

4 = 4 4. 1. 3 + 6. 12 . 2 3. 14 = 1096 4.4'8165 . '6 + 6.4'82 .26'8 3.4'84 = 28'7872 28'7872 4 K( X) = 4 3= 4 3 = 0'9638 19391 ' ( D( x ) )

5
Realizada una apuesta de 100 pts., un jugador extrae una bola de una caja que contiene 2 bolas blancas, 3 rojas y 5 negras. Si la bola extrada es negra pierde lo apostado y finaliza el juego; si es roja recibe lo apostado y deja de jugar, y finalmente, si es blanca, cobra 200 pts. si al lanzar una moneda obtiene cruz y 400 pts. si sale cara. Si el jugador participa en 12 ocasiones en dicho juego, qu beneficio o prdida tendr ?. Las situaciones posibles son : Variables aleatorias (F. lvarez) - 5

Extrae bola negra Extrae bola roja Extrae bola blanca y cruz Extrae bola blanca y cara

Beneficio -100 pts. 100 - 100 = 0 pts. 200 - 100 = 100 pts. 400 - 100 = 300 pts.

Probabilidad (5/10) 0'5 (3/10) 0'3 (2/10).(1/2) 0'1 (2/10).(1/2) 0'1

La esperanza matemtica de la variable aleatoria "beneficio en el juego" , nos indica lo que cabe esperar que ocurra en cada jugada. Una cantidad negativa se interpreta como la prdida media que el jugador tendr en cada jugada. Si la esperanza es positiva indicar que el jugador, promediando jugadas, ganar dicha cantidad. En ambos casos se dice que el juego no es equitativo o que es injusto. Cuando la esperanza matemtica del beneficio en un juego es igual a cero, diremos que dicho juego es equitativo o justo. En nuestro caso : E(X) = -100.0'5 + 0.0'3 + 100.0'1 + 300.0'1 = -10 pts.

Realizadas 12 jugadas, lo ms probable (lo esperado) es que haya perdido 120 pts. [12 . (-10) ] .

6
Lanzando dos dados y sumando los puntos obtenidos, los premios que ofrece el juego son los siguientes : - Devolucin de lo apostado : si la suma es inferior a 4 o superior a 10. - Doble de lo apostado : si se obtiene 5 o 9. - Cuatro veces lo apostado : si la suma de puntos es 7 Analice si el juego es equitativo o no. Anlisis de las situaciones posibles : 1-1 1-2 1-3 1-4 1-5 1-6 2 3 4 5 6 7 2-1 2-2 2-3 2-4 2-5 2-6 3 4 5 6 7 8 3-1 3-2 3-3 3-4 3-5 3-6 4 5 6 7 8 9 4-1 4-2 4-3 4-4 4-5 4-6 5 6 7 8 9 10 5-1 5-2 5-3 5-4 5-5 5-6 6 7 8 9 10 11 6-1 6-2 6-3 6-4 6-5 6-6 7 8 9 10 11 12

Al apostar x pts., los beneficios o prdidas son : Situaciones Devolucin de lo apostado Doble de lo apostado Cuatro veces lo apostado Prdida de lo apostado Determinemos su esperanza matemtica : 2, 3, 11, 12 5,9 7 4, 6, 8, 10 N de veces 6 8 6 16 36 Beneficio 0 x 3x -x Probabilidad 6/36 8/36 6/36 16/36

E( X) = 0.

6 8 6 16 8x +18x - 16x 10 + x. + 3x . x. = = .x 36 36 36 36 36 36

Siendo la esperanza matemtica positiva, el juego siempre dar beneficio al jugador . No es equitativo, siendo desfavorable para la banca. Parece claro que el dueo del local de juego no tiene vista comercial o no sabe estadstica.

6 - Variables aleatorias (F. lvarez)

EJERCICIOS PROPUESTOS
1
Determine la funcin de distribucin, esperanza matemtica, varianza y desviacin tpica de las variables aleatorias definidas por las siguientes funciones de densidad : a) x f(x) x f(x) 1 0'1 -2 0'05 2 0'25 0 A 3 0'05 2 0'15 4 A 4 0'3 6 0'2 5 0'3 8 2.A

b)

2
Determine la ley de probabilidad, esperanza matemtica, mediana, moda, varianza, desviacin tpica, asimetra y curtosis de la variable aleatoria que tiene como funcin de distribucin : 0 0'15 0'35 0'35 0'7 1 si si si si si si x<1 1x<2 2x<3 3x<4 4x<5 x5

F(x) =

3
Determine la ley de probabilidad, funcin de distribucin, esperanza matemtica, varianza y desviacin tpica de la variable aleatoria definida por el nmero de bolas blancas resultantes de la extraccin de dos bolas de una urna, que contiene 3 bolas blancas y dos negras, y una bola de otra urna, que posee 5 bolas de cada color.

4
La participacin en un juego nos lleva a lanzar una moneda y un dado. Si sale cara al lanzar la moneda perdemos lo apostado. Si sale cruz, recibimos el doble de la apuesta si el nmero del dado es mltiplo de 3, tres veces la apuesta si sale 5 y, lo apostado, en el resto de los casos. Si un jugador participa 20 veces en el juego, apostando 1000 pts. en cada ocasin, qu beneficio obtendr con mayor probabilidad ?.

Variables aleatorias (F. lvarez) - 7

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
a) F(x) = 0 0'1 0'35 0'4 0'7 1 0 0'05 0'2 0'35 0'5 0'7 1 si si si si si si si si si si si si si x<1 1x<2 2x<3 3x<4 4x<5 x5 x < -2 -2 x < 0 0x<2 2x<4 4x<6 6x<8 x8 E(X) = 3'45 V(X) = 1'9475 D(X) = 1'3955

b) F(x) =

E(X) = 4'4 V(X) = 10'24 D(X) = 3'2

2
x f(x) 1 0'15 2 0'2 3 0 4 0'35 5 0'3 E(X) = 3'45 V(X) = 2'1475 D(X) = 1'4654 Moda = Mediana = 4 Asimetra = A(X) = -0'5212 Curtosis = K(X) = -1'254

3
Urna 1 0 blancas 0 blancas 1 blanca 1 blanca 1 blancas 1 blancas Urna 2 0 blancas 1 blanca 0 blancas 1 blanca 0 blancas 1 blanca 0 0'05 0'4 0'85 1 Prob. 0'1.0'5 = 0'05 0'1.0'5 = 0'05 0'6.0'5 = 0'30 0'6.0'5 = 0'30 0'3.0'5 = 0'15 0'3.0'5 = 0'15 si si si si si x<0 0x<1 1x<2 2x<3 x3 Total 0 blancas 1 blanca 1 blanca 2 blancas 2 blancas 3 blancas x f(x) 0 0'05 1 0'35 2 0'45 3 0'15

F(x) =

E(X) = 1'7 V(X) = 0'61 D(X) = 1'7

4
Beneficio : X P = Probabilidad E(X) = -167 -1000 0'5 0 0'25 1000 0'167 2000 0'083 En 20 jugadas perder 3340 pts.

8 - Variables aleatorias (F. lvarez)

DISTRIBUCIN NORMAL
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez francisco.alvarez@uca.es

CURVA NORMAL
Gran nmero de distribuciones tienen la forma de una campana; es decir, alejndonos de la media, a derecha e izquierda, el nmero de observaciones decrece de forma similar. Esto genera una curva simtrica. Se estudi su ecuacin, resultando en funcin de la media y desviacin tpica de la distribucin. Ante las infinitas posibles medias y desviaciones, nos encontramos con una infinidad de posibles distribuciones normales pero, el proceso de tipificacin, permite reducirlas a una nica con media 0 y desviacin tpica 1. Tal distribucin se denomina normal tipificada y se representa N(0,1). En trminos de probabilidad, definimos igualmente la variable aleatoria normal, como aquella que tiene por grfica de su funcin de densidad la representada a la izquierda. El rea bajo la curva ser igual a la unidad y, con este criterio se confeccionaron tablas estadsticas que calculan el rea para un cierto intervalo de valores de la variable.

Recordemos pues que la curva normal : a) es simtrica respecto a la media b) se establece que el rea bajo su grfica es igual a 1.

Consecuencia de ello es , por ejemplo, que el rea a la derecha de la media (o a la izquierda es 0'5) y que el rea desde la media a un valor -v coincide con el rea desde la media a v.

TIPIFICACIN. MANEJO DE TABLAS


Se ha indicado que los valores de las reas bajo la curva normal se encuentran tabulados con referencia a la distribucin normal tipificada N(0,1). Por ello, nos veremos obligados a tipificar previamente cualquier otro tipo de distribucin normal que deseemos estudiar. Recordemos el procedimiento de tipificacin :

x N (x , s x ) z =
Suelen utilizarse dos tipos de tablas : I) Proporcionan el rea a la izquierda de un valor.

xx N(0,1) sx

II) Ofrecen el rea comprendida entre la media (0) y un valor.

En los dos casos, la tabla fija en la primera columna el valor de z con una cifra decimal y, la segunda cifra decimal de z condiciona la columna que ha de seleccionarse. En el cruce encontramos el rea buscada.

Distribucin normal (F. lvarez) - 1

EJERCICIOS RESUELTOS
1
Haciendo uso de la tabla que proporciona reas a la izquierda de cada valor z de la distribucin normal tipificada, calcular las probabilidades (reas) siguientes : a) Pr(z<1'35) b) Pr(z<-0'338) c) Pr(z>2'1) d) Pr(z>-1) e) Pr(-1'39<z-0'44) f) Pr(-1'52z0'897) Observe que, en el clculo de reas (probabilidades) en variables continuas, Pr(xa) equivale a Pr(x<a). Tendremos que referir los clculos a probabilidades del tipo Pr(z < a) , estando expresado el valor a con dos cifras decimales : a) Pr(z<1'35) = 0'91149

b)

Pr(z<-0'338) Pr(z<-0'34) = 0'36693

c)

Pr(z>2'1) Pr(z>2'10) = 1 - 0'98214 = 0'01786

d)

Pr(z>-1) Pr(z>-1'00) = 1 - 0'15866 = 0'84134

e)

Pr(-1'39<z-0'44) =

- = 0'32997 - 0'08226 = 0'24771

f)

Pr(-1'52z0'897) Pr(-1'52z0'90) = =

- = 0'81594 - 0'06426 = 0'75168

2
Haciendo uso de la tabla que proporciona reas entre cada valor z y la media 0 de la distribucin normal tipificada, calcular las probabilidades (reas) siguientes : a) Pr(z0'22) b) Pr(z<-1'8) c) Pr(z>1'0092) d) Pr(z>-1'61) e) Pr(-2'06<z<-0'24) f) Pr(-0'02z1'7)

2 - Distribucin normal (F. lvarez)

En este caso, tendremos que establecer probabilidades del tipo Pr(0 < z < a) , estando expresado el valor a con dos cifras decimales : a) Pr(z0'22) = 0'5 + 0'08706 = 0'58706

b)

Pr(z<-1'8) Pr(z<-1'80) = Pr(z>1'80) = = 0'5 - 0'46407 = 0'03593

c)

Pr(z>1'0092) Pr(z>1'01) = 0'5 - 0'34375 = 0'15625

d)

Pr(z>-1'61) Pr(z<1'61) = = 0'5 + 0'44630 = 0'94630

e)

Pr(-2'06<z-0'24) = Pr(0'24<z<2'06) = - = = 0'48030 - 0'09483 = 0'38547

f)

Pr(-0'02z1'70) = = Pr(-0'02<z<0) + Pr(0<z<1'70) = = Pr(0<z<0'02) + Pr(0<z<1'70) = = + = = 0'00798 + 0'45543 = 0'46341

3
Para la distribucin normal tipificada, calcular : a) Percentil 21 b) Cuartil 3 c) Valores centrales entre los que quedan comprendidas la cuarta parte de las observaciones. a) Hemos de calcular el valor de z que deja a su izquierda un rea igual a 0'21 (el 21% del rea total [= 1]) . Si consultamos las tablas que dan el rea a la izquierda, encontramos como valor ms prximo al rea 0'21 , el rea 0'20897 que corresponde a la puntuacin : z = -0'81

Distribucin normal (F. lvarez) - 3

Utilizando las tablas de reas comprendidas entre 0 y z, el razonamiento a seguir ser : El rea a la izquierda igual a 0'21 corresponde a un valor negativo (-z) al ser menor que 0'5. Entre dicho valor z y la media (0) hay un rea igual a 0'29 (0'5-0'21). Consultando las tablas encontramos el valor ms prximo a 0'29 para la puntuacin z = 0'81 (rea = 0'29103 ). El percentil 21 es pues : z = -0'81. b) Procediendo como en a) , hemos de calcular el valor de z que deja a su izquierda un rea igual a 0'75. Dicho valor es : z = 0'67 (rea = 0'74857)

c)

La mitad de la cuarta parte (25%) es el 12'5%. Son los valores que dejan un 12'5% de las observaciones a la izquierda de la media (0) y otro 12'5% a su derecha. En trminos de reas a la izquierda, son los valores que dejan un rea de ese tipo igual a 0'375 (0'5-0'125) y 0'625 (05+0125) respectivamente. Consultando las tablas encontramos : z = -0'32 (rea = 0'37448) z = 0'32 (rea = 0'62552) Por la simetra de la distribucin, bastara con calcular uno de tales valores, ya que el otro es su opuesto.

4
Las calificaciones de los 500 aspirantes presentados a un examen para contratacin laboral, se distribuye normalmente con media 6'5 y varianza 4. a) Calcule la probabilidad de que un aspirante obtenga ms de 8 puntos. b) Determine la proporcin de aspirantes con calificaciones inferiores a 5 puntos. c) Cuntos aspirantes obtuvieron calificaciones comprendidas entre 5 y 7'5 puntos ?. Nos encontramos ante una distribucin normal a)

N 6'5, 4 = N(6'5,2)
Tipificamos el valor 8 : z =

8 6' 5 = 0' 75 2
0'22663

La probabilidad pedida es el rea a la derecha de z = 0'75. Consultando las tablas obtenemos :

b)

Tipificamos el valor 5 : z =

5 6' 5 = 0' 75 2

Calculemos el rea (probabilidad) a la izquierda de z = -0'75. Consultando las tablas obtenemos : 0'22663 En trminos de porcentajes ser 0'22663 x 100 : el 22'663 %

4 - Distribucin normal (F. lvarez)

c)

Tipificamos los valores 5 y 7'5 :

z=

5 6' 5 = 0' 75 2

z=

7' 5 6' 5 = 0' 5 2

El rea comprendida entre ambos es , consultando las tablas : Pr(5 < X < 7'5) = Pr(-0'75 < z < 0'5) = 0'46483 Multiplicando la probabilidad por el total de aspirantes, obtenemos el nmero de ellos que tienen calificaciones comprendidas entre 5 y 7'5 puntos : 0'46483 x 500 = 232'415 232 aspirantes

5
Slo 24 de los 200 alumnos de un Centro miden menos de 150 cm. . Si la estatura media de dichos alumnos es de 164 cm., cul es su varianza ?. Siendo 24 / 200 = 0'12 , sabemos que el 12% de los alumnos tienen estaturas inferiores a 150. Consultando las tablas de la distribucin normal tipificada, obtenemos el valor z que deja a su izquierda un rea 0'12. Dicho valor es : z = -1'175 (para z = -1'17 encontramos 0'12100 y para z = -1'18 encontramos 0'11900). Luego : z =

x x sx

1' 175 =

150 164 sx

sx =

14 2 = 11' 915 s x = 11' 915 2 = 141' 965 1' 175

6
El percentil 70 de una distribucin normal es igual a 88, siendo 0'27 la probabilidad de que la variable tenga un valor inferior a 60. A qu distribucin normal nos estamos refiriendo ? . Se nos pide determinar la media y desviacin tpica de una distribucin normal que verifica las condiciones del enunciado. Grficamente : Consultando las tablas obtenemos : a) Valor de z que deja a su izquierda un rea igual a 0'70 : z = 0'52 (valor ms prximo 0'69847) b) Valor de z que deja a su izquierda un rea igual a 0'27 z = -0'61 (valor ms prximo 0'27093)

Con esto :

x x sx x x z= sx z=

0' 52 =

88 x x = 88 0' 52. s x sx 60 x 0' 61 = x = 60 + 0' 61. s x sx

Resolviendo el sistema determinaremos los valores de la media y la desviacin tpica :

x = 88 0'52.s x 88 0'52.s x = 60 + 0'61.s x 1'13.s x = 28s x = 24'78 x = 60 + 0'61.s x

x = 88 0'52.s x = 88 0'52.24'78 = 75'11


Se trata de una distribucin N(75'11 , 24'78).

Distribucin normal (F. lvarez) - 5

7
Las puntuaciones de un examen se distribuyen normalmente con media 15 puntos. La puntuacin A ha sido superada por un 23% de los alumnos. La puntuacin B est situada a 5 puntos diferenciales por debajo de la media. Entre B y la media se encuentra el 30% de los alumnos. Calcular : a) La desviacin tpica de las notas. b) Las puntuaciones directas de A y B. c) El porcentaje de alumnos entre A y B. a) La puntucin B=10, deja a su izquierda un rea 020. Consultando las tablas obtenemos un valor z = -084. De aqu :

z = 0'84 =

10 15 5 = s = 5 /(0'85) = 5'95 s s

b) La puntucin A, deja a su izquierda un rea 077 (1-023). Consultando las tablas obtenemos un valor z = 074. De aqu :

z = 0'74 =

A 15 A = 0'74 .5'95 + 15 = 20 '21 5'95


(El valor B=10 ya se determin)

c)

Observando la figura resulta un rea 057 (030+027); es decir, el 57%.

8
Las puntuaciones de 1000 personas en un determinado test se distribuyen normalmente. Sea X1 la puntuacin directa que supera el 8413% de la distribucin y X2 la puntuacin directa que es superada por el 8413% de la distribucin. Sabiendo que X1 - X2 = 20, calcular : a) Nmero de observaciones comprendidas entre las puntuaciones tpicas 15 y -02. b) La desviacin tpica de la distribucin. c) La amplitud semi-intercuartl. a) Directamente de la tabla N(0,1) : Pr (-02 < z < 15) = = 093319 - 042074= 051245 Hay 1000 x 051245 = 51245 512 observaciones.

b)

x = x 2 + 10 x = x1 10

Tablas : z = 1 deja a su izquierda un rea 08413 :

z =1=

x1 x x1 ( x1 10) 10 = = s s s s = 10

6 - Distribucin normal (F. lvarez)

c)

Q1 x Q 1 = x 6'7 10 Q x 0'67 = 3 Q 3 = x + 6'7 10 0'67 =


Q= Q 3 Q 1 ( x + 6'7) ( x 6'7) = = 2 2 13'4 = = 6'7 2

La amplitud semi-intercuartil es :

9
En un estudio realizado sobre los ingresos familiares en los que los dos cnyuges trabajan, se ha observado que el salario mensual, en miles de pesetas, de las mujeres (X) se distribuye normalmente con media 100, en tanto que el de los hombres (Y) tiene la siguiente transformacin Y = X + 20. Sabiendo adems que el 15% de los hombres no superan el percentil 75 de las mujeres, se pide : a) Representar grficamente el enunciado del problema. b) El salario medio de los hombres. c) La desviacin tpica del salario de los hombres y de las mujeres. a) Si la media de las mujeres es 100, la de los hombres queda definida por la relacin Y = X+20, luego es 120. Dicha transformacin (al no multiplicar o dividir por ningn valor) no modifica las desviaciones tpicas. En consecuencia, las desviaciones de la distribucin de mujeres y hombres coinciden. En la distribucin correspondiente a las mujeres el valor que tipificado (Zm) deja a su izquierda un rea 0'75 (75%) coincide con el de la de los hombres (Zh) que tipificado deja a su izquierda un rea 0'15 (no supera el valor anterior). Estas conclusiones se muestran a la derecha. b) Ya se justific anteriormente que la media de la distribucin de ingresos de los hombres es 120 (en miles de pesetas). c) Con la tabla de la distribucin normal determinamos los valores Zm y Zh , y recordando que coinciden Xm y

Xh :

X m 100 X m = 0'67.S + 100 S X 120 X m 120 Z h = 104 ' = h = X m = 104 ' .S + 120 S S 0'67.S + 100 = 104 ' .S + 120 171 ' . S = 20 S = 11696 ' Z m = 0'67 =

Luego las desviaciones tpicas coinciden y valen 11'696 (miles de pesetas).

Distribucin normal (F. lvarez) - 7

EJERCICIOS PROPUESTOS
1
Haciendo uso de la tabla que proporciona reas a la izquierda de cada valor z de la distribucin normal tipificada, calcular las probabilidades (reas) siguientes : a) Pr(z<0'1052) b) Pr(z<-2) c) Pr(z2'1009) d) Pr(z>-0'1) e) Pr(0'31z2'084) f) Pr(-0'5<z2'07)

2
Haciendo uso de la tabla que proporciona reas entre cada valor z y la media 0 de la distribucin normal tipificada, calcular las probabilidades (reas) siguientes : a) Pr(z2'32) b) Pr(z-0'38) c) Pr(z>2'2) d) Pr(z>-0'876) e) Pr(-3'02z0'499) f) Pr(0'51z1'83)

3
Para la distribucin normal tipificada, calcular : a) 6 decil b) Cuartil 1 c) Valores centrales entre los que queda comprendido el 40% de las observaciones.

4
Analizadas 240 determinaciones de colesterol en sangre, se observ que se distribuan normalmente con media 100 y desviacin tpica 20. a) Calcule la probabilidad de que una determinacin sea inferior a 94. b) Qu proporcin de determinaciones tienen valores comprendidos entre 105 y 130 ?. c) Cuntas determinaciones fueron superiores a 138 ?.

5
El percentil 60 de una distribucin normal de varianza 80 es igual a 72. Cul es su media ?. Si el nmero de individuos que la integran es 850, cuantos tienen entre 50 y 80 puntos ?.

6
Determine la media y la desviacin tpica de las puntuaciones de un test de agresividad que se aplic a 120 individuos, sabiendo que 30 alcanzaron menos de 40 puntos y que el 60% obtuvieron puntuaciones comprendidas entre 40 y 90 puntos.

7
Los 460 alumnos de un centro tienen 156 cm. de estatura media con una varianza de 81 cm. a) Determine el porcentaje de alumnos que miden ms de 160 cm. b) Cuntos alumnos miden entre 140 y 150 cm. ?

8
La desviacin tpica de la distribucin de estaturas de los 200 alumnos de un centro es igual a 4 cm. Si 42 miden menos de 150 cm., determine el promedio de la distribucin.

9
Las edades de un grupo de 320 individuos tienen como media 24 y desviacin tpica 5. Cuantos tendrn menos de 27 aos?.

10
El 80% de los integrantes de un grupo de personas tienen menos de 30 aos. Sabiendo que la edad media del grupo es de 24 aos, calcule su desviacin tpica.

11
312 de los 1200 tornillos producidos durante una hora en una factora miden ms de 1128 cm.. Sabiendo que el primer decil de la distribucin es igual a 744, calcule su media y su desviacin tpica.

12
Aplicado un test a 80 individuos, se obtuvo un promedio de 28 puntos. a) Sabiendo que el percentil 40 de la distribucin es igual a 25'466 puntos, determine su desviacin tpica. b) Cuntos poseen calificacin entre 25 y 30 puntos ?.

8 - Distribucin normal (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
a) d) 0'54380 0'53983 b) e) 0'02275 0'35952 c) f) 0'01786 0'67223

2
a) d) 0'98983 0'81075 b) e) 0'35197 0'69015 c) f) 0'01390 0'27141

3
a) Decil 6 = 0'25 b) Cuartil 1 = -0'67 c) Entre -0'52 y 0'52 .

4
a) 0'38209 b) 32'053% c) 7 determinaciones

5
Media = 69'76 730 individuos.

6
Media = 59'59 Desviacin tpica = 29'24

7
a) 32997% b) 98 alumnos (983894)

8
Media = 15324

9
232

10
Desviacin tpica = 7143

11
Media = 10 Desviacin tpica = 2

12
a) b) 10 15'772 16

Distribucin normal (F. lvarez) - 9

TABLA I (A)
DISTRIBUCIN NORMAL TIPIFICADA

N(0 , 1)

La tabla proporciona, para cada valor de z, el rea que queda a su izquierda.

z -4'4 -4'3 -4'2 -4'1 -4'0 -3'9 -3'8 -3'7 -3'6 -3'5 -3'4 -3'3 -3'2 -3'1 -3'0 -2'9 -2'8 -2'7 -2'6 -2'5 -2'4 -2'3 -2'2 -2'1 -2'0 -1'9 -1'8 -1'7 -1'6 -1'5 -1'4 -1'3 -1'2 -1'1 -1'0 -0'9 -0'8 -0'7 -0'6 -0'5 -0'4 -0'3 -0'2 -0'1 -0'0

0'00
0'00001 0'00001 0'00001 0'00002 0'00003 0'00005 0'00007 0'00011 0'00016 0'00023 0'00034 0'00049 0'00069 0'00097 0'00135 0'00187 0'00256 0'00347 0'00466 0'00621 0'00820 0'01072 0'01390 0'01786 0'02275 0'02872 0'03593 0'04457 0'05480 0'06681 0'08076 0'09680 0'11507 0'13567 0'15866 0'18406 0'21186 0'24196 0'27425 0'30854 0'34446 0'38209 0'42074 0'46017 0'50000

0'01
0'00001 0'00001 0'00001 0'00002 0'00003 0'00005 0'00007 0'00010 0'00015 0'00023 0'00033 0'00047 0'00067 0'00094 0'00131 0'00181 0'00248 0'00336 0'00453 0'00604 0'00798 0'01044 0'01355 0'01743 0'02222 0'02807 0'03515 0'04363 0'05370 0'06552 0'07927 0'09510 0'11314 0'13350 0'15625 0'18141 0'20897 0'23885 0'27093 0'30503 0'34090 0'37828 0'41683 0'45620 0'49601

0'02
0'00001 0'00001 0'00001 0'00002 0'00003 0'00004 0'00007 0'00010 0'00015 0'00022 0'00032 0'00045 0'00064 0'00091 0'00127 0'00175 0'00240 0'00326 0'00440 0'00587 0'00776 0'01017 0'01321 0'01700 0'02169 0'02743 0'03438 0'04272 0'05262 0'06426 0'07780 0'09342 0'11123 0'13136 0'15386 0'17879 0'20611 0'23576 0'26763 0'30153 0'33724 0'37448 0'41294 0'45234 0'49202

0'03
0'00000 0'00001 0'00001 0'00002 0'00003 0'00004 0'00006 0'00010 0'00014 0'00021 0'00030 0'00044 0'00062 0'00088 0'00123 0'00169 0'00233 0'00317 0'00427 0'00570 0'00755 0'00990 0'01287 0'01659 0'02118 0'02680 0'03362 0'04182 0'05155 0'06301 0'07636 0'09176 0'10935 0'12924 0'15150 0'17619 0'20327 0'23270 0'26435 0'29806 0'33360 0'37070 0'40905 0'44828 0'48803

0'04
0'00000 0'00001 0'00001 0'00002 0'00003 0'00004 0'00006 0'00009 0'00014 0'00020 0'00029 0'00042 0'00060 0'00085 0'00119 0'00164 0'00226 0'00307 0'00415 0'00554 0'00734 0'00964 0'01255 0'01618 0'02068 0'02619 0'03288 0'04093 0'05050 0'06178 0'07493 0'09012 0'10749 0'12714 0'14917 0'17361 0'20045 0'22965 0'26109 0'29550 0'32997 0'36693 0'40517 0'44433 0'48405

0'05
0'00000 0'00001 0'00001 0'00002 0'00003 0'00004 0'00006 0'00009 0'00013 0'00019 0'00028 0'00041 0'00058 0'00082 0'00115 0'00159 0'00219 0'00298 0'00402 0'00539 0'00714 0'00939 0'01222 0'01578 0'02018 0'02559 0'03216 0'04006 0'04947 0'06057 0'07353 0'08851 0'10565 0'12507 0'14687 0'17106 0'19766 0'22663 0'25785 0'29116 0'32636 0'36317 0'40129 0'44038 0'48006

0'06
0'00000 0'00001 0'00001 0'00002 0'00002 0'00004 0'00006 0'00009 0'00013 0'00019 0'00027 0'00039 0'00056 0'00079 0'00111 0'00154 0'00212 0'00289 0'00391 0'00523 0'00695 0'00914 0'01191 0'01539 0'01970 0'02500 0'03144 0'03920 0'04846 0'05938 0'07214 0'08692 0'10383 0'12302 0'14457 0'16853 0'19489 0'22363 0'25463 0'28774 0'32276 0'35942 0'39743 0'43644 0'47608

0'07
0'00000 0'00001 0'00001 0'00002 0'00002 0'00004 0'00005 0'00008 0'00012 0'00018 0'00026 0'00038 0'00054 0'00077 0'00107 0'00149 0'00205 0'00280 0'00379 0'00508 0'00676 0'00889 0'01160 0'01500 0'01923 0'02442 0'03074 0'03836 0'04746 0'05821 0'07078 0'08534 0'10204 0'12100 0'14231 0'16602 0'19215 0'22065 0'25143 0'28434 0'31918 0'35569 0'39358 0'43251 0'47210

0'08
0'00000 0'00001 0'00001 0'00002 0'00002 0'00003 0'00005 0'00008 0'00012 0'00017 0'00025 0'00036 0'00052 0'00074 0'00104 0'00144 0'00199 0'00272 0'00368 0'00494 0'00657 0'00866 0'01130 0'01463 0'01876 0'02385 0'03005 0'03754 0'04648 0'05705 0'06944 0'08379 0'10027 0'11900 0'14007 0'16354 0'18925 0'21770 0'24825 0'28096 0'31561 0'35197 0'38974 0'42858 0'46812

0'09
0'00000 0'00001 0'00001 0'00001 0'00002 0'00003 0'00005 0'00008 0'00011 0'00017 0'00024 0'00035 0'00050 0'00071 0'00101 0'00139 0'00193 0'00264 0'00357 0'00480 0'00639 0'00842 0'01101 0'01426 0'01831 0'02330 0'02938 0'03673 0'04551 0'05592 0'06811 0'08226 0'09853 0'11702 0'13786 0'16109 0'18673 0'21476 0'24510 0'27760 0'31207 0'34827 0'38591 0'42465 0'46414

10 - Distribucin normal (F. lvarez)

TABLA I (B)
DISTRIBUCIN NORMAL TIPIFICADA

N(0 , 1)

La tabla proporciona, para cada valor de z, el rea que queda a su izquierda.

z 0'0 0'1 0'2 0'3 0'4 0'5 0'6 0'7 0'8 0'9 1'0 1'1 1'2 1'3 1'4 1'5 1'6 1'7 1'8 1'9 2'0 2'1 2'2 2'3 2'4 2'5 2'6 2'7 2'8 2'9 3'0 3'1 3'2 3'3 3'4 3'5 3'6 3'7 3'8 3'9 4'0 4'1 4'2 4'3 4'4

0'00
0'50000 0'53983 0'57926 0'61791 0'65554 0'69146 0'72575 0'75804 0'78814 0'81594 0'84134 0'86433 0'88493 0'90320 0'91924 0'93319 0'94520 0'95543 0'96407 0'97128 0'97725 0'98214 0'98610 0'98928 0'99180 0'99379 0'99534 0'99653 0'99744 0'99813 0'99865 0'99903 0'99931 0'99951 0'99966 0'99977 0'99984 0'99989 0'99993 0'99995 0'99997 0'99998 0'99999 0'99999 0'99999

0'01
0'50399 0'54380 0'58317 0'62172 0'65910 0'69497 0'72907 0'76115 0'79103 0'81859 0'84375 0'86650 0'88686 0'90490 0'92073 0'93448 0'94630 0'95637 0'96485 0'97193 0'97778 0'98257 0'98645 0'98956 0'99202 0'99396 0'99547 0'99664 0'99752 0'99819 0'99869 0'99906 0'99933 0'99953 0'99967 0'99977 0'99985 0'99990 0'99993 0'99995 0'99997 0'99998 0'99999 0'99999 0'99999

0'02
0'50798 0'54766 0'58706 0'62552 0'66276 0'69847 0'73237 0'76424 0'79389 0'82121 0'84614 0'86864 0'88877 0'90658 0'92220 0'93574 0'94738 0'95728 0'96562 0'97257 0'97831 0'98300 0'98679 0'98983 0'99224 0'99413 0'99560 0'99674 0'99760 0'99825 0'99873 0'99909 0'99936 0'99955 0'99968 0'99978 0'99985 0'99990 0'99993 0'99996 0'99997 0'99998 0'99999 0'99999 0'99999

0'03
0'51197 0'55172 0'59095 0'62930 0'66640 0'70194 0'73565 0'76730 0'79673 0'82381 0'84850 0'87076 0'89065 0'90824 0'92364 0'93699 0'94845 0'95818 0'96638 0'97320 0'97882 0'98341 0'98713 0'99010 0'99245 0'99430 0'99573 0'99683 0'99767 0'99831 0'99877 0'99912 0'99938 0'99956 0'99970 0'99979 0'99986 0'99990 0'99994 0'99996 0'99997 0'99998 0'99999 0'99999 1'00000

0'04
0'51595 0'55567 0'59483 0'63307 0'67003 0'70450 0'73891 0'77035 0'79955 0'82639 0'85083 0'87286 0'89251 0'90988 0'92507 0'93822 0'94950 0'95907 0'96712 0'97381 0'97932 0'98382 0'98745 0'99036 0'99266 0'99446 0'99585 0'99693 0'99774 0'99836 0'99881 0'99915 0'99940 0'99958 0'99971 0'99980 0'99986 0'99991 0'99994 0'99996 0'99997 0'99998 0'99999 0'99999 1'00000

0'05
0'51994 0'55962 0'59871 0'63683 0'67364 0'70884 0'74215 0'77337 0'80234 0'82894 0'85313 0'87493 0'89435 0'91149 0'92647 0'93943 0'95053 0'95994 0'96784 0'97441 0'97982 0'98422 0'98778 0'99061 0'99286 0'99461 0'99598 0'99702 0'99781 0'99841 0'99885 0'99918 0'99942 0'99959 0'99972 0'99981 0'99987 0'99991 0'99994 0'99996 0'99997 0'99998 0'99999 0'99999 1'00000

0'06
0'52392 0'56356 0'60257 0'64058 0'67724 0'71226 0'74537 0'77637 0'80511 0'83147 0'85543 0'87698 0'89617 0'91308 0'92786 0'94062 0'95154 0'96080 0'96856 0'97500 0'98030 0'98461 0'98809 0'99086 0'99305 0'99477 0'99609 0'99711 0'99788 0'99846 0'99889 0'99921 0'99944 0'99961 0'99973 0'99981 0'99987 0'99991 0'99994 0'99996 0'99998 0'99998 0'99999 0'99999 1'00000

0'07
0'52790 0'56749 0'60642 0'64431 0'68082 0'71566 0'74857 0'77935 0'80785 0'83398 0'85769 0'87900 0'89796 0'91466 0'92922 0'94179 0'95254 0'96164 0'96926 0'97558 0'98077 0'98500 0'98840 0'99111 0'99324 0'99492 0'99621 0'99720 0'99795 0'99851 0'99893 0'99923 0'99946 0'99962 0'99974 0'99982 0'99988 0'99992 0'99995 0'99996 0'99998 0'99998 0'99999 0'99999 1'00000

0'08
0'53188 0'57142 0'61026 0'64803 0'68439 0'71904 0'75175 0'78230 0'81075 0'83646 0'85993 0'88100 0'89973 0'91621 0'93056 0'94295 0'95352 0'96246 0'96995 0'97615 0'98124 0'98537 0'98870 0'99134 0'99343 0'99506 0'99632 0'99728 0'99801 0'99856 0'99896 0'99926 0'99948 0'99964 0'99975 0'99983 0'99988 0'99992 0'99995 0'99997 0'99998 0'99999 0'99999 0'99999 1'00000

0'09
0'53586 0'57535 0'61409 0'65173 0'68793 0'72240 0'75490 0'78524 0'81327 0'83891 0'86214 0'88298 0'90147 0'91774 0'93189 0'94408 0'95449 0'96327 0'97062 0'97670 0'98169 0'98574 0'98899 0'99158 0'99361 0'99520 0'99643 0'99736 0'99807 0'99861 0'99899 0'99929 0'99950 0'99965 0'99976 0'99983 0'99989 0'99992 0'99995 0'99997 0'99998 0'99999 0'99999 0'99999 1'00000

Distribucin normal (F. lvarez) - 11

TABLA II
DISTRIBUCIN NORMAL TIPIFICADA

N(0 , 1)

La tabla proporciona el rea que queda comprendida entre 0 y z.

z 0'0 0'1 0'2 0'3 0'4 0'5 0'6 0'7 0'8 0'9 1'0 1'1 1'2 1'3 1'4 1'5 1'6 1'7 1'8 1'9 2'0 2'1 2'2 2'3 2'4 2'5 2'6 2'7 2'8 2'9 3'0 3'1 3'2 3'3 3'4 3'5 3'6 3'7 3'8 3'9 4'0 4'1 4'2 4'3 4'4

0'00
000000 003983 007926 011791 015554 019146 022575 025804 028814 031594 034134 036433 038493 040320 041924 043319 044520 045543 046407 047128 047725 048214 048610 048928 049180 049379 049534 049653 049744 049813 049865 049903 049931 049951 049966 049977 049984 049989 049993 049995 049997 049998 049999 049999 049999

0'01
000399 004380 008317 012172 015910 019497 022907 026115 029103 031859 034375 036650 038686 040490 042073 043448 044630 045637 046485 047193 047778 048257 048645 048956 049202 049396 049547 049664 049752 049819 049869 049906 049933 049953 049967 049977 049985 049990 049993 049995 049997 049998 049999 049999 049999

0'02
000798 004766 008706 012552 016276 019847 023237 026424 029389 032121 034614 036864 038877 040658 042220 043574 044738 045728 046562 047257 047831 048300 048679 048983 049224 049413 049560 049674 049760 049825 049873 049909 049936 049955 049968 049978 049985 049990 049993 049996 049997 049998 049999 049999 049999

0'03
001197 005172 009095 012930 016640 020194 023565 026730 029673 032381 034850 037076 039065 040824 042364 043699 044845 045818 046638 047320 047882 048341 048713 049010 049245 049430 049573 049683 049767 049831 049877 049912 049938 049956 049970 049979 049986 049990 049994 049996 049997 049998 049999 049999 050000

0'04
001595 005567 009483 013307 017003 020450 023891 027035 029955 032639 035083 037286 039251 040988 042507 043822 044950 045907 046712 047381 047932 048382 048745 049036 049266 049446 049585 049693 049774 049836 049881 049915 049940 049958 049971 049980 049986 049991 049994 049996 049997 049998 049999 049999 050000

0'05
001994 005962 009871 013683 017364 020884 024215 027337 030234 032894 035313 037493 039435 041149 042647 043943 045053 045994 046784 047441 047982 048422 048778 049061 049286 049461 049598 049702 049781 049841 049885 049918 049942 049959 049972 049981 049987 049991 049994 049996 049997 049998 049999 049999 050000

0'06
002392 006356 010257 014058 017724 021226 024537 027637 030511 033147 035543 037698 039617 041308 042786 044062 045154 046080 046856 047500 048030 048461 048809 049086 049305 049477 049609 049711 049788 049846 049889 049921 049944 049961 049973 049981 049987 049991 049994 049996 049998 049998 049999 049999 050000

0'07
002790 006749 010642 014431 018082 021566 024857 027935 030785 033398 035769 037900 039796 041466 042922 044179 045254 046164 046926 047558 048077 048500 048840 049111 049324 049492 049621 049720 049795 049851 049893 049923 049946 049962 049974 049982 049988 049992 049995 049996 049998 049998 049999 049999 050000

0'08
003188 007142 011026 014803 018439 021904 025175 028230 031075 033646 035993 038100 039973 041621 043056 044295 045352 046246 046995 047615 048124 048537 048870 049134 049343 049506 049632 049728 049801 049856 049896 049926 049948 049964 049975 049983 049988 049992 049995 049997 049998 049999 049999 049999 050000

0'09
003586 007535 011409 015173 018793 022240 025490 028524 031327 033891 036214 038298 040147 041774 043189 044408 045449 046327 047062 047670 048169 048574 048899 049158 049361 049520 049643 049736 049807 049861 049899 049929 049950 049965 049976 049983 049989 049992 049995 049997 049998 049999 049999 049999 050000

12 - Distribucin normal (F. lvarez)

Series cronolgicas
Componentes:
Tendencia Variacin estacional Variacin cclica Variacin accidental Evolucin general de la serie Variaciones regulares en funcin de la estacin del ao Variaciones peridicas (anuales o en perodos de pocos aos) Pequeas variaciones (ruidos) que no afectan a las anteriores. No se suelen tener en cuenta.

Determinacin de la tendencia:
Suavizado: Clculo de medias mviles (3, 5, elementos) Funcin de ajuste Estimacin o prediccin: intervalo utilizando el error tpico

Variaciones cclicas. ndice estacional:


ndice estacional = (Valor medio estacin) / (Valor medio global) Porcentaje de variacin = (ndice estacional 1) x 100 (%) Ao 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
700 600 500 400 300 200 100 0

Valor 70 105 140 300 290 350 360 320 330 400 620 500 600

Media mvil (3) 105 181,7 243,3 313,3 333,3 343,3 336,7 350 450 506,7 573,3

Media mvil (5)


700

181 237 288 324 330 352 406 434 490

600 500 400 300 200 100 0

600 500 400 300 200 100 0

Ao 1990 1991 1992 1993 1994 Media nd. Estacional % variacin


19000 17000 15000 13000 11000 9000 7000 5000

Primavera 8190 8606 9552 9412 10289 9210 0,900 -10%

Verano 18247 19541 19670 18911 19394 19153 1,872 +87,2%

Otoo 6369 6961 7167 7220 7573 7058 0,700 -30%

Invierno 5520 5022 5616 5721 5675 5511 0,538 -46,2%

Media 9581 10033 10501 10316 10734 10233

Nmeros ndices
ndice simple: Cociente entre el valor actual y el tomado como base. Opcionalmente se puede multiplicar por 100.

Ii =

xi .100 x0

Variacin simple: Cociente entre la diferencia del valor actual y el tomado como base y ste ltimo. Opcionalmente se puede multiplicar por 100.

I i =

xi x 0 .100 = I i 100 x0
2000 135 100 0 2001 150 111,11 11,11

ndice simple Variacin simple o ndice [p, I] y cantidad o peso [q, ]) ndice compuesto no ponderado: ndice compuesto ponderado:

Ao Precio Base 2000 Base 2000

2002 200 148,15 48,15

2003 240 177,78 77,78

ndices compuestos: Aplicables a series cronolgicas sobre las que se toman varias mediciones (generalmente valor

I CNP =
I CP =
IL IP

ndice de Laspeyres:

ndice de Paasche:

p .q = p .q p .q = p .q
i
ij i0 ij i0

n I i .i
i0 i0

en variaciones: I CNP = en variaciones: I CP =

n I i .i
i

ij ij

1990 1991 1992 CNP (1992) CP (1992) L (1992, base 1990) P (1992, base 1990)

A p 80 85 90

q 10 15 17

B p 82 85 95

q 20 20 25

C p 80 85 92

q 50 60 50

CNP 80,67 85,00 92,33

CP 80,50 85,00 92,45

L 1,0000 1,0559 1,1491

P 1,0000 1,0569 1,1478

90 + 95 + 92 = 92,33 3 90.17 + 95.25 + 92.50 = 92,45 17 + 25 + 50 90.10 + 95.20 + 92.50 = 1,1491 80.10 + 82.20 + 80.50 90.17 + 95.25 + 92.50 = 1,1478 80.17 + 82.25 + 80.50

Lectura recomendada:
Estadstica para Relaciones Laborales. ngel Alcal. Hesprides Tema 9: Tema 10: Tema 11: El ndice de precios al consumo (9.6) y Otros indicadores econmicos y sociales (9.7). Estadsticas laborales. Otras estadsticas de inters.

Mtodos Estadsticos Aplicados a las Auditorias Sociolaborales

MODELO DE EXMEN
APELLIDOS NOMBRE
1. En el proceso de seleccin de personal, se somete a los aspirantes a dos pruebas con diferente grado de dificultad, cumplimentando adems un cuestionario con sus datos personales. El sexo de cada candidato es una variable: a) cualitativa ordenable b) discreta c) dicotmica d) cuantitativa continua 2. En la prueba realizada en el proceso de seleccin de personal, las mujeres obtienen una calificacin media de 6 puntos, siendo de 6,4 la obtenida por los hombres. Sabiendo que ambas series tienen la misma desviacin tpica, cul de las dos series de calificaciones es ms dispersa?: a) La de las mujeres b) La de los hombres c) Es necesario conocer el valor de la desviacin tpica d) Ambas son igualmente dispersas 3. En el proceso de negociacin salarial se decide incrementar en un 3% el salario de todos los trabajadores de la empresa. En la nueva serie de retribuciones: a) La coeficiente de correlacin disminuye b) La media se mantiene constante c) La varianza se mantiene inalterada d) El coeficiente de variacin no sufre modificacin 4. En la prueba realizada en el proceso de seleccin de personal, las mujeres obtienen una calificacin media de 6 puntos con varianza 4, siendo de 5,8 la media obtenida por los hombres con desviacin tpica 1,6. Si Una mujer obtiene 7 puntos y un hombre 66, cul de los dos tiene una mejor puntuacin relativa dentro del colectivo determinado por el sexo?: a) Hemos de conocer la media y la varianza conjunta b) La mujer tiene una mejor puntuacin relativa c) El hombre tiene una mejor puntuacin relativa d) Ambos tienen la misma calificacin relativa 5. Una fbrica funciona las 24 horas del da con tres turnos de 30 trabajadores cada uno. En el primer turno el 60 % son mujeres; en el segundo hay 12 mujeres y, en el tercero, slo el 20 % son mujeres. Seleccionada una mujer, la probabilidad de que trabaje en el segundo turno es: a) 1/3 b) 040 c) 065 d) del 50% 6. En un proceso de seleccin se ofrece a los participantes tres ejercicios alternativos. Cada aspirante elige siempre uno de los tres ejercicios (A, B, C) con igual probabilidad (P(A)=P(B)=P(C)=1/3). El ndice de dificultad de cada uno de estos tres ejercicios es variable, siendo 5 si elige el A, 2 si selecciona B y 1 si realiza el C. Un determinado participante realiz una prueba con un ndice de dificultad inferior a 3. Cul es la probabilidad de que haya elegido el ejercicio A?: a) 1 b) 1/2 c) 1/3 d) 0 7. Finalizada la prueba anterior, preguntamos sobre el ejercicio elegido a los dos primeros aspirantes que salen del recinto. Cul es la probabilidad de ambos realizaran el supuesto A?: a) 1/4 b) 1/3 c) 1/9 d) 1

Firma

8. Para conocer el nivel de relacin existente entre el tipo de contrato (temporal o fijo) y el nmero de hijos de los trabajadores de una empresa, podemos utilizar el: a) Coeficiente de Spearman b) Coeficiente (phi) c) Coeficiente de exceso de Fisher d) Coeficiente biserial puntual 9. En el estudio de la relacin existente entre los pares de valores observados de dos variables X e Y, se sabe que sus varianzas respectivas son iguales a 25 y 16, siendo 20 el valor de su covarianza. Con ello podemos afirmar que: a) Los datos son errneos b) El coeficiente de determinacin es del 5% c) El coeficiente de variacin de la segunda es mayor d) Las variables X e Y estn perfectamente correlacionadas 10. Indique cul de las siguientes afirmaciones sobre el IPC (ndice de precios al consumo) es correcta: a) Es un ndice simple basado en los precios de una serie de productos. b) Es un ndice compuesto del tipo Laspeyres. c) Es un ndice compuesto del tipo Paasche. d) Es la pendiente de la serie cronolgica de periodicidad mensual.

Las contestaciones dadas fuera de la siguiente tabla se considerarn invlidas. Calificacin: - Respuesta correcta: + 15 puntos - Respuesta incorrecta: - 05 puntos - Sin respuesta: No punta A la calificacin obtenida se sumar la de las prcticas (025 por prctica con un mximo de 25 puntos). El examen se aprueba con una calificacin final superior o igual a 75 puntos.

1 a b c d X

2 X

5 X

10

X X X X X X X

Mtodos Estadsticos Aplicados a las Auditorias Sociolaborales

MODELO DE EXMEN
APELLIDOS NOMBRE Firma

1.
Edad [10,12) [12,14) [14,16) [16,18) [18,20] Personas 5 11 19 21 4 De la distribucin de edades de la izquierda, calcule: 1) Media y desviacin tpica. 2) Moda y Coeficiente de variacin. 3) Entre qu edades se encuentra el 30% de las observaciones centrales?

2.
De la siguiente distribucin bivariante: [0,2) 1 2 4 Hijos [2,4) 7 2 [4,6] 3 1

Categora

1 2 3

(Tcnico) (Mando intermedio) (Directivo)

1) Obtenga la ecuacin de la recta de ajuste a dicha distribucin. 2) Calcule e interprete el valor del coeficiente de correlacin lineal. 3) De la varianza total del nmero de hijos, determine la proporcin que no es atribuible a la categora.

3.
Los resultados de una encuesta de satisfaccin en el desempeo de la actividad laboral, sometidos a la consideracin de 420 trabajadores, se distribuyen normalmente con media 4'5 y varianza 4. 1) Calcule la probabilidad de que un trabajador cuantifique su grado de satisfaccin con ms de 55 puntos. 2) Cuntos trabajadores otorgaron calificaciones comprendidas entre 3 y 7 puntos?.

Puntuacin de cada apartado: 075 puntos (Total 6 puntos)

1. 1. 2. 3. Media Desviacin tpica Moda Coef. Variacin P(35) P(65) 15,27 2,11 16,35 13,84 14,53 16,38

2. 1. 2. 3. 3. 1. 2. z = 05 p = 1 069146 = 030854 z1 = -075 ; z2 = 075 p1 = 022663 ; p2 = 077337 N = 420 x 054674 = 229,63 (230) b = -1,16 a = 5,14 o bien: b = -027 a = 2,83 r = -05606 (3142%) interpretacin 1 r2 = 06858 (6858%)

You might also like