You are on page 1of 128

Facultad de Ciencias del Trabajo

Mtodos Estadsticos Aplicados


a las Auditoras Sociolaborales
Francisco lvarez Gonzlez
Octubre 2005

CURSO 2005-06
MTODOS ESTADSTICOS APLICADOS A LAS AUDITORAS SOCIOLABORALES

Profesores Francisco lvarez Gonzlez


francisco.alvarez@uca.es
Prcticas:
Mara Jos Snchez Quevedo
Carmen Mara Caballero Alvarez
Objetivos Introducir al alumno en las aplicaciones estadsticas de las auditoras
sociolaborales.
Capacitar al alumno para que pueda desarrollar tratamientos estadsticos
con datos sociolaborales.
Programa 1. Estadstica en auditoria laboral
2. Sntesis de la informacin y anlisis descriptivo
3. Ajuste y Regresin 4. Tablas de contingencia. Asociaciones
5. Distribuciones de probabilidad
6. Muestreo
7. Investigacin en auditora: Estadstica Inferencial
8. Aplicaciones
Actividades Clases terico/prcticas impartidas en el Aula 1.2 de la Facultad de Ciencias
del Trabajo.
Clases prcticas impartidas en el Aula de Informtica de la Facultad de
Ciencias del Trabajo.
Metodologa La docencia ser terico/prctica, simultaneando para ello la imparticin de
conocimientos tericos junto con la resolucin de problemas y aplicaciones
prcticas relacionadas con la aplicacin de la estadstica en las auditoras
sociolaborales.
En las clases prcticas se emplear el aula de informtica de la Facultad y el
programa estadstico Statgraphic, as como distintos recursos de internet.
Criterios y sistemas La evaluacin constar de una primera parte de preguntas cortas que ser
de evaluacin necesario superar para poder presentarse a una segunda parte de problemas.
En la nota final se puntuar la primera parte hasta un mximo de cuatro puntos
y la segunda parte hasta un mximo de seis puntos. La realizacin de las
prcticas en el aula de informtica se valorar a efectos de sumar puntos en la
primera parte de la evaluacin.
Recursos Fernndez Palacn, F. y otros (2000). Estadstica Descriptiva y Probabilidad.
bibliogrficos Servicio de Publicaciones. Universidad de Cdiz.
Ramos Romero, H. (1997). Introduccin al Clculo de Probabilidades. Grupo
Editorial Universitario.
Espejo Miranda, I. y otros (2002). Inferencia Estadstica. Servicio de
Publicaciones. Universidad de Cdiz.
Pea Snchez de Rivera, D. (1991). Estadstica. Modelos y Mtodos. Alianza
Editorial.
Abad Montes, F. y otros (2001). Estadstica para las Ciencias Sociales y
laborales. Ed. Jos Carlos Urbano Delgado.
Alcal, A. (1999). Estadstica para Relaciones Laborales. Editorial
Hesprides.
Pea, D. y Romo, J. (1997). Introduccin a la Estadstica para las Ciencias
Sociales. McGraw-Hill.
Mateos Rivas, (1987). Estadstica en Investigacin Social. Ejercicios
resueltos. Editorial Paraninfo.
Narvaiza, J.L. y otros (1998). Estadstica aplicada a la gestin y a las
ciencias sociales. Inferencia Estadstica. Editorial Descle S. A.
Materiales Disponibles en:
http://www.uca.es/serv/web/FCT/

http://www.uca.es/serv/web/FCT/

TUTORAS
Contacto a travs de correo electrnico
francisco.alvarez@uca.es
Indicar en Asunto: Tutora

ESTADSTICA DESCRIPTIVA
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez
francisco.alvarez@uca.es

Bajo el trmino Estadstica Descriptiva se engloban las tcnicas que nos permitirn realizar un anlisis elemental de las
observaciones experimentales observadas.
Se subdivide en dos bloques :
1
2

Estadstica primaria : Obtenido un grupo de observaciones experimentales, este apartado nos ensea a
ordenarlas adecuadamente, de modo que se ofrezca una informacin lo ms clara posible.
Estadstica derivada o secundaria : Con los datos observados realizaremos ciertos clculos, obteniendo as
unas medidas. Este bloque temtico nos ensea a interpretarlas.

PROCEDIMIENTO A SEGUIR EN UN ESTUDIO ESTADSTICO.


El proceso seguido en el estudio estadstico de una cierta caracterstica o variable, puede subdividirse en tres
pasos sucesivos :

RECOGIDA DE DATOS :
Planteado el test o encuesta oportuno y recogidos los datos que correspondan, el primer anlisis que
realizaremos es el del tipo de variable que pretendemos estudiar (Cualitativa o Cuantitativa ; Discreta o
Continua). Esto condicionar en gran medida su posterior tratamiento.

ORGANIZACIN DE LOS DATOS :


Determinado el modo de agrupamiento de las observaciones, procedemos a su recuento,
construyendo la tabla de frecuencias. Posteriormente podremos visualizar tales frecuencias de forma
grfica con el diagrama estadstico apropiado.

ANLISIS FINAL :
La obtencin de muy diversas conclusiones respecto de la variable estudiada, se podr realizar con
auxilio de los diferentes parmetros estadsticos (de centralizacin , posicin , dispersin , etc.)

VARIABLES ESTADSTICAS. CLASIFICACIN.


El aspecto que deseamos estudiar (edad, sexo, peso, ...) recibe el nombre de VARIABLE ESTADSTICA. A lo largo de
esta unidad observaremos, que las tcnicas estadsticas a seguir sern diferentes segn el tipo de variable objeto de
estudio.
La clasificacin ms tradicional de las variables estadsticas es la siguiente :

CUALITATIVAS
Los valores de las observaciones quedan expresados por caractersticas o atributos.
Por ejemplo : Estado civil ; Color preferido ; Nivel de estudios ; Raza ; ...
Dentro de ellas podremos subdividirlas en funcin de que puedan ser ordenadas (Nivel de estudios) o no tenga
sentido una determinada ordenacin que se establezca (Color preferido, Razas, ...).

CUANTITATIVAS
Los valores de las observaciones son numricos (cuantificables) y, en consecuencia, ordenables.
A su vez las variables cuantitativas se subdividen en dos tipos :
DISCRETAS :
Toman valores concretos (N de hijos : 0, 1, 2, ...)
CONTINUAS :
Pueden tomar cualquier valor de un cierto intervalo (Peso ; Estatura ; ...).

TABLAS DE FRECUENCIAS.
Si la variable es Cualitativa, observamos los valores diferentes de la misma.
Si es Cuantitativa buscaremos los valores mnimo y mximo obtenidos. En funcin del nmero de observaciones,
decidiremos si se realiza su estudio de forma individual o agrupando en intervalos.

CONSTRUCCIN DE INTERVALOS :
Teniendo en cuenta la amplitud total de las observaciones (Valor mximo menos valor mnimo observados),
tomaremos una decisin sobre el nmero total de intervalos, o bien sobre la amplitud o tamao de los mismos.
Estadstica descriptiva (F. lvarez) - 1

EJEMPLO :
Supuesto : Valor mximo = 87 , Valor mnimo = 11 .

Luego : AMPLITUD = 87 - 11 = 76.

Si decidimos construir 8 intervalos, la amplitud de cada uno ser de 10 unidades (valor aproximado de
76/8). El primer intervalo no tiene porqu iniciarse en 11 (mnimo); es ms, se aconseja tomar siempre
valores "visualmente agradables" (5, 10, 15 ,...).
Con esto los intervalos seran :
[10,20) [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90]
Si partimos de la decisin de que los intervalos tengan 15 unidades de amplitud, simplemente
iniciaremos su construccin hasta llegar a un intervalo que contenga al valor mximo observado.
[10,25) [25,40) [40,55) [55,70) [70,85) [85,90]
Tericamente se establece que el nmero ideal de intervalos debe ser la raz cuadrada del nmero de observaciones
disponibles :
Para N observaciones :

Criterio de Kaiser

N de intervalos

Criterio de Sturges

N de intervalos

N
E( 15
' + 3' 3.ln( N ) )

(E = parte entera)

NOTACIN
Al establecer dos intervalos consecutivos, por ejemplo de 10 a 20 y de 20 a 30, hemos de decidir si el valor 20
(final de uno e inicio del siguiente) pertenece al primer intervalo o al segundo. Para ello empleamos los
smbolos [ y ( .
[ o ]
el valor situado junto a l pertenece al intervalo
( o )
el valor situado junto a l no pertenece al intervalo

NOTACIONES PARA REPRESENTAR INTERVALOS


EXTREMOS REALES
Desde 0 hasta menos de 10
De 10 a menos de 20
De 20 a menos de 30
De 30 a menos de 40
Desde 40 hasta 50

[ 0 , 10 )
[ 10 , 20 )
[ 20 , 30 )
[ 30 , 40 )
[ 40 , 50 ]

EXTREMOS APARENTES
Valores : 1, 2, 3 y 4

1-4
5-8
9 - 12

Valores : 5, 6, 7 y 8
Valores : 9, 10, 11 y 12

[ 0'5 , 4'5 )
[ 4'5 , 8'5 )
[ 8'5 , 12'5 ]

RECUENTO. TABLA DE FRECUENCIAS ABSOLUTAS.


Situados en una tabla los valores de la variable (desde el mnimo al mximo) o los intervalos que los contienen,
procedemos a contar las veces que se repiten. Construimos as una tabla como la de la izquierda. En ella podr
observarse que, en el supuesto de datos agrupados en intervalos, se ha incluido una columna encabezada por x . Tal
valor de x se denomina marca de clase y es el valor central de cada intervalo.
Intervalos
[ e1 , e2 )
[ e2 , e3 )
...
[ ei , ei+1 )
...

2 - Estadstica descriptiva (F. lvarez)

x
x1
x2
...
xi
...

Recuento
///
///// ///// /
...
///// ///
...

n
n1
n2
...
ni
...
ni = N

N
n1
n1+n2
...
n1+n2+ ... +ni
...

FRECUENCIAS.
FRECUENCIA ABSOLUTA (n) :
Para datos no agrupados en intervalos, es el nmero de veces que se presenta cada valor de la variable.
Si los datos se agrupan en intervalos, es el nmero de observaciones que pertenecen a dicho intervalo.
FRECUENCIA ABSOLUTA ACUMULADA (N) :
Para un cierto valor de la variable, la frecuencia absoluta acumulada nos da el nmero de observaciones
menores o iguales que dicho valor.

OTRAS FRECUENCIAS :
FRECUENCIA RELATIVA (r) :
Cociente entre la frecuencia absoluta y el nmero total de observaciones (N).
PROPORCIN o PORCENTAJE (p) :
Frecuencia relativa multiplicada por 100 (es la expresin de las frecuencias en %).
De igual modo que se defini para las frecuencias absolutas, se definen las FRECUENCIAS RELATIVAS
ACUMULADAS (R) y los PORCENTAJES ACUMULADOS (P).

TABLA COMPLETA DE FRECUENCIAS :


x
x1
x2
...
xi
...

n
n1
n2
...
ni
...
ni = N

r
r1 = n1 / N
r2 = n2 / N
...
ri = ni / N
...
ri = 1

p
p1 = r1 . 100
p2 = r2 . 100
...
pi = ri . 100
...
pi = 100

N
n1
n1+n2
...
n1+n2+ ... +ni
...

R
r1
r1+r2
...
r1+r2+ ... +ri
...

P
p1
p1+p2
...
p1+p2+ ... +pi
...

n
5
10
16
6
3
40

r
0'125
0'250
0'400
0'150
0'075
1

p
12'5
25
40
15
7'5
100

N
5
15
31
37
40

R
0'125
0'375
0'775
0'925
1'000

P
12'5
37'5
77'5
92'5
100

EJEMPLO :
x
2
3
4
5
6

GRFICOS ESTADSTICOS.
La norma que hemos de seguir en la construccin de un grfico estadstico es siempre : "La zona que identifica a cada
valor ser proporcional a su frecuencia"

Los diagramas usuales son los que se describen a continuacin.

Diagramas de barras
Para variables cualitativas o cuantitativas no agrupadas en intervalos.
FUNDAMENTO : Sobre un eje (normalmente el horizontal) marcamos los
valores de la variable, dibujando sobre cada uno de ellos una barra cuya
longitud sea proporcional a la frecuencia que se est visualizando.
Si la variable representada es cuantitativa, enlazando los extremos de las
barras obtendremos el POLGONO DE FRECUENCIAS, denominado
PERFIL ORTOGONAL para cualitativas ordenables .

Histogramas
Representativo de las variables agrupadas en intervalos.
FUNDAMENTO : Sobre el eje horizontal marcamos los distintos
intervalos, dibujando sobre cada uno de ellos un rectngulo cuya rea
sea proporcional a la frecuencia que se est visualizando (Si todos los
intervalos tienen la misma amplitud, nos bastar con que la altura de los
rectngulos sea proporcional a las frecuencias).
POLGONOS DE FRECUENCIAS :
Si la frecuencia representada no es acumulada, enlazamos los puntos
medios de los extremos superiores de los rectngulos.
Para frecuencias acumuladas, el polgono de frecuencias se obtiene de
la forma indicada en el grfico.

Estadstica descriptiva (F. lvarez) - 3

Diagramas de sectores
Utilizable en cualquier tipo de variable.
FUNDAMENTO : Dividimos el crculo en sectores circulares, de modo
que la amplitud de cada sector, sea proporcional a la frecuencia. Junto a
cada sector, se suele indicar el valor representado. Es aconsejable la
expresin de las amplitudes de los sectores en % (porcentajes p ).

Pictogramas
Utilizable en todo tipo de variables, especialmente con las cualitativas.
FUNDAMENTO : Es el mismo que se sigue para la construccin de los
diagramas de barras y histogramas. La diferencia estriba en que, en
lugar de dibujar una barra o un rectngulo, se dibuja una figura que hace
referencia al problema objeto de estudio.

Diagramas de reas
Representativo de las variables cuantitativas, equivale a la representacin
independiente de los polgonos de frecuencias (descritos en los
diagramas de barras y histogramas).
FUNDAMENTO : Indica la evolucin de los valores de la variable,
consistiendo en la visualizacin del rea encerrada bajo el polgono de
frecuencias. Para ello, se conecta dicho polgono con el eje de la variable
(el horizontal en el grfico), tanto a la izquierda del primer valor como a la
derecha del ltimo.

Los diagramas de barras , histogramas , pictogramas y de reas , admiten la representacin correspondiente a sus
frecuencias acumuladas.

MEDIDAS DE CENTRALIZACIN.
MEDIA ARITMTICA :
ni .xi Es el resultado de dividir la suma de todas las observaciones entre el nmero de ellas.
x=
N
MODA :
Mo = ei +

Es el valor que ms se repite. Ser pues el valor (o valores) cuya frecuencia absoluta sea la
ni +1
.ai mayor de las observadas.
ni +1 + ni 1

Si los datos se encuentran agrupados en intervalos, obtendremos el intervalo en el que se


encuentra la moda (INTERVALO MODAL). Para determinar su valor concreto, aplicamos la
expresin de la izquierda.

NOTACIONES
Los subndices indican :

e
a
n

i
intervalo donde se encuentra la moda.
i-1
intervalo anterior al que contiene la moda.
i+1
intervalo siguiente al que contiene la moda.
extremo inferior del intervalo en el que se encuentra la moda.
amplitud del intervalo en el que est la moda.
frecuencia absoluta.

MEDIANA :
Supuestas ordenadas las observaciones, MEDIANA es el valor de la variable que est en
el centro de las mismas. Deja pues a la mitad (el 50%) de las observaciones por debajo de
dicho valor.

N
N i 1
Me = ei + 2
.ai
ni

Para obtener el valor de la mediana, seguimos los pasos siguientes :


1 Calculamos la tabla de frecuencias absolutas acumuladas.
2 La mediana ser el valor de la variable cuya frecuencia absoluta acumulada primero
iguale o supere a N/2.
Si los datos se encuentran agrupados en intervalos, el punto 2 nos dar el intervalo en el
que se encuentra la mediana. Para determinar su valor concreto, aplicamos la expresin
de la izquierda.

4 - Estadstica descriptiva (F. lvarez)

NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos
reales que esos valores representan, procediendo a aplicar la expresin superior.
As, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ...
NOTACIONES
Los subndices indican :

i
intervalo donde se encuentra la mediana.
i-1
intervalo anterior al que contiene la mediana.
extremo inferior del intervalo en el que se encuentra la mediana.
amplitud del intervalo en el que est la mediana.
frecuencia absoluta.
frecuencia absoluta acumulada.

e
a
n
N

OTRAS MEDIDAS DE CENTRALIZACIN.


MEDIA PONDERADA :

MEDIA GEOMTRICA :

Aplicable cuando a cada valor


(Xi) se le asigna un peso (pi) :

x G = N x1 . x 2 . ... . x N

xp =

p .X
p
i

MEDIA ARMNICA :
xA =

Con frecuencias fi para cada xi : (N = fi)

xG = N x 1n1 .x2n2 .....xnnn

N
1

xi

Con frecuencias fi para cada xi : (N = fi)

xA =

N
n
xi
i

MEDIDAS DE POSICIN.
CONCEPTO : Permiten el clculo del valor de la variable que ocupa una cierta posicin relativa respecto del conjunto
total de los valores observados.
PERCENTIL DE ORDEN K : Es el valor de la variable que deja por debajo de l el K% de las observaciones.

PROCESO DE CALCULO :

k .N
N i 1
Pk = ei + 100
.ai
ni

Para obtener el valor del percentil de orden K, seguimos los pasos siguientes :
1 Calculamos la tabla de frecuencias absolutas acumuladas.
2 Obtenemos el LUGAR que ocupa :
Lugar = N . K / 100
3 El percentil de orden K ser el valor de la variable cuya frecuencia absoluta
acumulada primero iguale o supere a dicho lugar.
Si los datos se encuentran agrupados en intervalos, el punto 3 nos dar el intervalo en
el que se encuentra el percentil de orden K. Para determinar el valor concreto del
percentil, aplicamos la expresin de la izquierda.

NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos
reales que esos valores representan, procediendo a aplicar la expresin anterior.
As, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ...
NOTACIONES

Los subndices indican :


e
a
n
N

i
intervalo donde se encuentra el percentil.
i-1
intervalo anterior al que contiene el percentil.
extremo inferior del intervalo en el que se encuentra el percentil.
amplitud del intervalo en el que est el percentil.
frecuencia absoluta.
frecuencia absoluta acumulada.

PERCENTILES ESPECIALES
MEDIANA
CUARTILES
DECILES

Percentil de orden 50.


Percentiles de rdenes 25 (Cuartil 1), 50 (Cuartil 2) y 75 (Cuartil 3).
Percentiles de rdenes 10, 20, .... , 90 (Deciles 1, 2, ... , 9).

MEDIDAS DE DISPERSIN.
RANGO , RECORRIDO O AMPLITUD TOTAL :
R = Mx Mn Con el fin de medir el mayor o menor

grado de separacin de las observaciones, en una


primera instancia se define el RANGO (tambin denominado recorrido o amplitud total), como la
diferencia existente entre los valores mximo y mnimo observados.

Estadstica descriptiva (F. lvarez) - 5

AMPLITUD SEMI-INTERCUARTLICA :
Q=

Q 3 Q1
2

Esta medida de dispersin se basa en medidas de posicin (Cuartiles),.Su empleo tendr


sentido en el supuesto de imposibilidad de clculo de la media.

El no tomar en consideracin a la totalidad de las observaciones, hace pensar que esta medida es poco representativa.
Por ello se intenta definir las medidas de dispersin, de modo que sean el promedio de las separaciones de cada valor
respecto de uno tomado como referencia (la MEDIA).
Observando la figura apreciamos que las desviaciones d antes definidas tienen
como media cero (las positivas compensan con las negativas), lo cul obliga a
subsanar este inconveniente tomndolas en valor absoluto o elevndolas al
cuadrado.

DESVIACIN MEDIA :
Dx =

n . x
i

Es la media de las desviaciones o separaciones de cada una de las observaciones,


respecto a la media aritmtica, consideradas en valor absoluto. Sustituyendo la media por la
moda o la mediana, definiremos las desviaciones medias respecto de la moda y de la
mediana.

VARIANZA :
s =
2

n .(x
=
i

x)

n .x
=
i

2
i

x2

Es la media de los cuadrados de las desviaciones o separaciones


de cada una de las observaciones, respecto a la media aritmtica.

DESVIACIN TPICA :
s = = var ianza =

n .x
i

2
i

x2

Es la raz cuadrada de la varianza. Con ello corregimos el haber


tomado cuadrados de separaciones en el clculo de la varianza.
Esta medida de dispersin es la ms caracterstica.

COEFICIENTE DE VARIACIN :
CV=

x
.100
x

Mide la representatividad de la media. Valores extremos del mismo nos llevarn a concluir que la
media no es representativa, es decir, existirn valores entre las observaciones que se separan
significativamente de las dems.
Slo puede ser utilizado cuando los valores de la variable toman valores "normales". Es decir, no
son muy elevados ni muy pequeos, ya que una media prxima a cero o muy alta daran valores
nulos o infinitos al coeficiente.
Si la media es representativa de las observaciones (no existen valores extremos exageradamente
distanciados de la mayora), el coeficiente de variacin permite comparar la dispersin de dos
series estadsticas : mayor coeficiente indica menor homogeneidad, o lo que es lo mismo,
mayor dispersin o variabilidad.

GRFICO DE VARIABILIDAD :
Basado en los cuartiles, adopta la forma del grfico de la derecha. En l se
reflejan los cuartiles 1 y 3 y la mediana, junto a los extremos inferior y superior :

Linf = Q1 3.

Q 3 Q1
= Q1 3. Q ; L sup = Q 3 + 3. Q
2

Se consideran observaciones atpicas aquellas que quedan fuera del intervalo :

( Linf , Lsup )

OTRAS MEDIDAS ESTADSTICAS.


COEFICIENTE DE ASIMETRA DE FISHER :
Permite interpretar la forma de la distribucin, respecto a ser o no simtrica.

n .(x
i

As1 =

x)

6 - Estadstica descriptiva (F. lvarez)

INTERPRETACIN

x Mo = 3.( x Md )

Basados en al relacin existente entre media, mediana y moda :


se definen dos nuevos coeficientes de asimetra (de Pearson):

As2 =

x Mo

As3 =

3.( x Md )

COEFICIENTE DE CURTOSIS :
Recibe tambin el nombre de coeficiente de concentracin central, midiendo el grado de aplastamiento o
apuntamiento de la grfica de la distribucin de la variable estadstica. Una mayor concentracin de datos en torno al
promedio harn que la forma sea alargad, siendo tanto ms plana (o aplastada) cuanto mayor sea la dispersin de los
mismos.
INTERPRETACIN
Determina
la
forma
de
la
distribucin, en relacin con su
grado de aplastamiento.

n .(x
i

x)

K=

Basados en medidas de posicin, se definen los nuevos coeficientes :

Coeficiente de asimetra de Bowley-Yule, o intercuartlico :


Q 2. Me + Q1
Y= 3
Q 3 Q1
Coeficiente absoluto de asimetra:

A=

Coeficiente de curtosis de Kelley :

Q
Q 3 Q1
K=
0'263
con: Q =

P90 P10
2

Q 3 2. Me + Q1

ANLISIS CONJUNTO DE VARIOS GRUPOS.


2

Si disponemos de k grupos con ni elementos, medias x i , y varianzas S i , podemos obtener :


Media conjunta de los k grupos

n .x
X=
n
i

n .S
=
n
i

Varianza conjunta de los k grupos


2
i

, o, con mayor rigor : S

n .S
=
n
i

2
i

n .( x X )
+
n
i

PROPIEDADES DE LAS MEDIDAS ESTADSTICAS.


TABLA PARA CLCULOS :
La tabla siguiente nos muestra una disposicin prctica de los clculos necesarios para la obtencin de los parmetros
estadsticos usuales: Media , Moda, Mediana , Percentiles , Varianza y Desviacin tpica.
n.x
n1 . x1
n2 . x2
...
ni . xi

n.x2
(n1 . x1).x1
(n2 . x2).x2
...
(ni . xi).xi

Intervalos
[ e1 , e2 )
[ e2 , e3 )
...
[ ei , ei+1 )

x
x1
x2
...
xi

n
n1
n2
...
ni

...

...

...
...
...
ni
ni . xi
ni . xi2
N
A
B
Clculo de media y varianza

N
P
N1=n1
P1 = (N1 / N) . 100
N2=n1+n2
P2 = (N2 / N) . 100
...
...
NI=n1+n2+ ...
Pi = (Ni / N) . 100
+ni
...
...
Clculo de percentiles

La media y la varianza seran el resultado de calcular :Clculo de media y varianza

x=

A
N

2 =

B
x2
N

PROPIEDADES :
A)

Si a todos los valores de una variable x les sumamos una cantidad constante, la media queda incrementada en
dicha constante, mientras que la desviacin tpica (y la varianza) no vara.
Estadstica descriptiva (F. lvarez) - 7

B)

Si multiplicamos todos los valores de una variable x por una constante, la media y la desviacin tpica quedan
tambin multiplicadas por dicha constante (la varianza quedar multiplicada por el cuadrado de la constante).
EJEMPLO :

CAMBIO DE VARIABLE. TIPIFICACIN.


Haciendo uso de las propiedades de las medidas estadsticas ,podremos facilitar y simplificar los clculos de parmetros
estadsticos, realizando un cambio de variable.
As, si todos los valores son muy altos, podremos restarles una cantidad (normalmente la Moda) y, si poseen cifras
decimales o son mltiplos de un mismo nmero, podremos multiplicarlos o dividirlos por el valor adecuado.
Una vez calculados los parmetros estadsticos, en virtud de las propiedades descritas, obtendremos el valor final real
de tales parmetros.
Mencin especial merecen dos cambios de variables particulares :
A)

Diferenciales : partiendo de la variable inicial x (puntuaciones directas), si a todos los valores les restamos la
media, obtenemos una nueva variable d (puntuaciones diferenciales) cuya media es cero (la desviacin tpica no
se modifica).

B)

Tipificadas : Si a todos los valores de la variable inicial x les restamos la media y el resultado lo dividimos por
la desviacin tpica, obtenemos una nueva variable z (puntuaciones tipificadas) cuya media es cero , teniendo
siempre como desviacin tpica la unidad.

Este ltimo cambio de variable recibe el nombre de TIPIFICACIN.

SUMA Y DIFERENCIA DE VARIABLES.


Partiendo de dos variables X , Y, podemos definir las nuevas variables :
S=X+Y
obtenida sumando cada valor de X con el correspondiente de Y.
D=X-Y
obtenida restando a cada valor de X el valor correspondiente de Y.
Esto supone la existencia de tantas observaciones de X como de Y, as como el emparejamiento de ellas; es decir, a
cada valor de X queda asociado un valor de Y. Esto constituir la base de estudio del siguiente tema .
Veamos como se comporta la media de las dos nuevas variables S y D definidas.

S = X+Y

S=

En efecto :

( X i + Yi ) = X i + Yi = X i + Yi
N

Calculemos la varianza de la suma S :

( ( X i + Yi ) S)
N

= X+Y

D = XY

Anlogamente se verifica que :

SS2

( ( X i + Yi ) ( X + Y))

( ( X i X) + (Yi Y))
N

( ( X i X) 2 + (Yi Y) 2 + 2.( X i X).(Yi Y))

=
N
( X i X) 2 + (Yi Y) 2 + 2. ( X i X).(Yi Y) = S2 + S2 + 2.S
=
X
Y
XY
N
N
N
La expresin

(X i X).(Yi Y)
N

, representada por SXY, recibe el nombre de covarianza, justificndose que es igual

tambin a :

SXY =
Anlogamente se verifica que :

(Xi X).(Yi Y) = Xi .Yi X. Y


N

S2D = S2X + SY2 2.SXY

Si las variables X , Y son independientes, la covarianza (medida de variacin conjunta) es igual a cero.

8 - Estadstica descriptiva (F. lvarez)

Varianzas

Resumiendo
:
Dependientes ( SXY 0 )

Medias

S = X+Y
D = XY

S=X+Y
D=X-Y

SS2 = S 2X + S Y2
S2D = S2X + SY2

Independientes ( SXY = 0 )

+ 2.S XY
2.S XY

SS2 = S 2X + S Y2
S 2D = S 2X + S Y2

MOMENTOS ORDINARIOS Y CENTRALES


Momento ordinario de orden Se verifica que :
k:
m1 = 0
m2 = a 2 a 1 2

ak =

n k
.x
N

Momento central de orden k :

mk =

Algunos parmetros
expresarse :

estudiados,

pueden

= x = a1
2 = s 2x = m2 = a 2 a 1 2
m3 = a 3 3. a 2 . a1 + 2. a13
m4
m4
m 4 = a 4 4. a 3 . a 1 + 6. a 2 . a 1 2 3. a 1 4 As = m3 = m3
K= 4 3=
3
3
3
2

n
k
.(x x )
N

m2

m2

MEDIDAS DE CONCENTRACIN.
Estas medidas, de aplicacin econmica fundamentalmente, determinan el nivel de igualdad en el reparto total de las
observaciones de la variable.
Su determinacin se realizar a partir de la siguiente tabla de clculos :
A

xi

ni

Ni =
ni.

Pi = (Ni.. /N).100

ti = ni. xi

Ti = ti.

Qi = (Ti.. /T).100

Pi - Qi

x1

n1

N1

P1

t1

T1

Q1

P1 - Q1

x2

n2

N2

P2

t2

T2

Q2

P2 - Q2

...

...

...

...

...

...

...

...

xk

nk

Nk

Pk (= 100)

tk

Tk

Qk (= 100)

Pk - Qk (= 0)

TP = Pi

T = ni. xi

N = ni.

TD = (Pi Qi)

Siendo :
A) Valores de la variable (marca de clase si est agrupada en intervalos).
B) Frecuencias absolutas (N = total de observaciones).
C) Frecuencias absolutas acumuladas.
D) Porcentajes acumulados (totalizando - TP).
E) Productos de cada frecuencia por su correspondiente valor (T = suma total de estos productos).
F) Productos anteriores acumulados (de igual modo que se realiza con frecuencias).
G) Expresin en porcentaje del contenido de la columna anterior.
H) Diferencias de los valores de las columnas D y G (totalizando - TD).

MEDIALA :
Su definicin tiene un fundamento similar al de la mediana.

Para distribuciones discretas (no agrupadas en intervalos), la mediala es el valor de la variable cuyo Qi
primero iguala o supera el 50%.
Para distribuciones continuas (agrupadas en intervalos), el intervalo que contiene la mediala es aquel
cuyo Qi primero iguala o supera el 50%. De aqu obtenemos el valor de la mediala del modo siguiente :

50 Q i1
Ml = e i +
.a
Q i Q i1 i

Los subndices indican :


i
intervalo donde se encuentra la mediala.
i-1
intervalo anterior al que contiene la mediala.
e
extremo inferior del intervalo en el que se encuentra la
mediala.
a
amplitud del intervalo en el que est la mediala.

Estadstica descriptiva (F. lvarez) - 9

CURVA DE LORENZ :
Sobre un rectngulo de 100 unidades de lado, se dibuja la
poligonal que resulta de unir los puntos (Pi , Qi).
Esta poligonal (curva de Lorenz) determina con la diagonal AB
un recinto (sombreado en la figura) que mide el grado de
concentracin.
Cuando el rea sombreada es muy pequea (la curva de
Lorenz se aproxima a la diagonal AB) se presenta una baja
concentracin, o lo que es lo mismo, indica uniformidad en el
reparto de los valores de la variable.
La mayor concentracin se producir cuando la zona
sombreada coincide con el tringulo ABC.

NDICE DE CONCENTRACIN DE GINI :


Haciendo uso de la tabla de clculos anterior, necesaria para la obtencin de la curva de Lorenz, definiremos el
presente estadstico. Otros, como el ndice de Dalton, el de paridad, etc. , pueden ser empleados con idntica
interpretacin a la que tratamos con el de Gini, si bien omitimos su estudio.
k 1

( Pi Q i )

G=

i =1

k 1

Pi

TD
=
TP 100

i =1

10 - Estadstica descriptiva (F. lvarez)

El ndice de Gini (expresin de la izquierda) coincide geomtricamente con


el cociente entre el rea sombreada (definida por la curva de Lorenz) y la
del tringulo ABC.
Concentracin mnima : G = 0
Concentracin mxima : G = 1

EJERCICIOS RESUELTOS
1
La tabla siguiente nos muestra el resultado de una encuesta entre los alumnos de primer curso,
analizando el nmero de suspensos en la primera evaluacin :
0
3
1
3

2
1
3
2

2
4
0
3

4
1
5
2

0
1
2
3

3
0
2
3

3
4
3
1

2
1
0
2

5
1
3
4

2
4
0
2

3
2
5
3

2
4
1
1

4
2
1
3

3
0
4
1

4
3
0
4

Realicemos un estudio estadstico completo.


Se trata de una variable cuantitativa discreta. Esto condicionar algunos procesos del clculo estadstico.
RECUENTO Y TABLA DE FRECUENCIAS
x
0
1
2
3
4
5

recuento
///// ///
///// ///// /
///// ///// ///
///// ///// /////
///// /////
///
Totales :

n
8
11
13
15
10
3
N = 60

r
0'1333
0'1833
0'2167
0'2500
0'1667
0'0500
1'0000

p
13'33
18'33
21'67
25'00
16'67
5'00
100'00

N
8
19
32
47
57
60

R
0'1333
0'3167
0'5333
0'7833
0'9500
1'0000

P
13'33
31'67
53'33
78'33
95'00
100'00

GRFICOS ESTADSTICOS APROPIADOS PARA ESTE TIPO DE VARIABLE


DIAGRAMA DE BARRAS :
Sobre el valor de cada variable dibujamos una barra
con altura igual a la frecuencia que deseamos
representar (en este caso las absolutas n ).
POLGONO DE FRECUENCIAS :
Obtenidos enlazando los extremos superiores de las
barras.
NOTA :Siendo la variable discreta, no tiene sentido
dibujar el polgono de frecuencias.

DIAGRAMAS ACUMULADOS :
Construidos
como
representativos
de
acumuladas.

los
las

anteriores,
son
los
distintas
frecuencias

El ejemplo representa las frecuencias absolutas


acumuladas (N).
El polgono de frecuencias se construira enlazando
los extremos superiores de las barras.

PICTOGRAMAS:
Con el mismo principio seguido para la construccin de los diagramas de barras, sustituimos dichas barras por dibujos
alusivos a la variable estadstica estudiada.
DIAGRAMAS DE SECTORES :
Resultan de la divisin de un crculo en sectores cuya amplitud es proporcional a la frecuencia.
La amplitud de cada sector ser :

n
.360 = r.360
N

Estadstica descriptiva (F. lvarez) - 11

MEDIA, VARIANZA Y DESVIACIN TPICA


x
0
1
2
3
4
5

x=

n .x
i

n.x2

n.x

8
11
13
15
10
3
N = 60

0
11
26
45
40
15
137

Este tipo de tabla facilita los clculos.

0
11
52
135
160
75
433

Media = 137 / 60 = 2,283


Varianza = (433 / 60) - media al cuadrado = 2'005
Desviacin tpica = raz cuadrada de la varianza = 1'416

137
ni .xi2 x 2 = 433 2'2832 = 2'00 sx = sx2 = 2' 005 = 1' 416
= 2'283 s x2 =
60
N
60

MODA = Valor de mayor frecuencia = 3


PERCENTILES
Para la determinacin de medidas de posicin (percentiles), podemos seguir dos procedimientos de clculo :
1) Basado en las frecuencias absolutas acumuladas N :
Determinamos el lugar que ocupa : L = k.N / 100
El percentil ser el valor cuya frecuencia N primero iguale o supere al lugar L.
2) Basado en porcentajes acumulados P :
El percentil ser el valor cuyo porcentaje P primero iguale o supere al orden k del percentil.
Apliquemos el primer procedimiento para calcular la mediana y el 9 decil :
La mediana (percentil 50) ocupar el lugar :
L = 50 . 60 / 100 = 30
El 9 decil (percentil 90) ocupar el lugar :
L = 90 . 60 / 100 = 54
x
0
1
2
3
4
5

N
8
19
32
47
57
60

8
11
13
15
10
3
N = 60

Mediana = 2
9 decil = 4

Aplicando el segundo procedimiento descrito, determinemos los cuartiles 1 y 3, as como la amplitud semiintercuartlica :
x
0
1
2
3
4
5

n
8
11
13
15
10
3
N = 60

r
0'1333
0'1833
0'2167
0'2500
0'1667
0'0500
1'0000

p
13'33
18'33
21'67
25'00
16'67
5'00
100'00

P
13'33
31'67
53'33
78'33
95'00
100'00

Amplitud semi-intercuartlica =

12 - Estadstica descriptiva (F. lvarez)

Cuartil 1 (percentil 25) = 1


Cuartil 3 (percentil 75) = 3

Q 3 Q1 3 1
=
=1
2
2

2
Trabajamos ahora con las edades de 50 jvenes de nuestro barrio :
1
24
20
21

11
15
6
25

20
7
12
20

15
8
4
22

10
12
7
10

4
9
1

12
9
18

20
5
20

5
2
11

23
20
10

9
13
14

12
15
20

13
7
11

14
11
13

15
22
15

Como en el ejemplo anterior, realicemos un estudio estadstico completo.


Nos encontramos ante una variable estadstica cuantitativa continua. Agruparemos o no las observaciones en intervalos
en funcin de los diferentes valores observados.
TABLA DE FRECUENCIAS
Observado el valor mnimo (1) y mximo (24), decidimos agrupar los datos en intervalos de 5 aos de amplitud,
empezando por 0.
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]

recuento
/////
///// /////
///// ///// ///// /
///// /
///// ///// ///
Totales :

5
10
16
6
13
N = 50

p
0'10
0'20
0'32
0'12
0'26
1'00

N
10
20
32
12
26
100

R
5
15
31
37
50

P
0'10
0'30
0'62
0'74
1'00

10
30
62
74
100

GRFICOS ESTADSTICOS
HISTOGRAMA :
Sobre el valor de cada variable dibujamos una franja con
altura igual a la frecuencia que deseamos representar (en
este caso las absolutas n ).
POLGONO DE FRECUENCIAS :
Obtenido enlazando los puntos medios de los extremos
superiores de las franjas.

HISTOGRAMAS ACUMULADOS :
Construidos como los anteriores, son los representativos de
las distintas frecuencias acumuladas.
El ejemplo representa las frecuencias absolutas acumuladas (
N ).
En este caso, el polgono de frecuencias NO se construira
enlazando los puntos medios de los extremos superiores de
las franjas, sino como se indica en la figura.

Clculo de Moda, Media, Varianza y Desviacin tpica :


Para el clculo de la media y la varianza utilizamos la tabla auxiliar siguiente. En ella se incorpora la columna x ,
que contiene la marca de clase (valor central) de cada intervalo.
La MODA (valor de mayor frecuencia) se encuentra en el intervalo [10 , 15) . Determinemos su valor concreto :

Mo = ei +
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]

ni +1
6
.ai = 10 +
.5 = 11'875
ni +1 + ni 1
6 + 10
n
5
10
16
6
13
N = 50

x
2'5
7'5
12'5
17'5
22'5

n.x
12'5
75'0
200'0
105'0
292'5
685'0

n.x2
31'25
562'50
2500'00
1837'50
6581'25
11512'50
Estadstica descriptiva (F. lvarez) - 13

n .x
x=
i

685
=
= 13'7
50

2
x

n .x
=
i

2
i

x2 =

2
11512'5
13'7 2 = 42 s x = s x = 42' 56 = 6' 524
50

Utilizando las frecuencias absolutas acumuladas, calculemos el decil 2 y el percentil 62 :


Lugar que ocupa el decil 2 (percentil 20) = 20 . 50 / 100 = 10
Lugar que ocupa el percentil 62 = 62 . 50 / 100 = 31
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]

N
5
15
31
37
50

5
10
16
6
13
N = 50

Decil 2 (percentil 20) en [5,10)


Percentil 62 en [10,15)

Lugar = 10
Lugar = 31

Determinemos sus valores concretos :

20.N
20.50
N i 1
5
100
100
.5 = 7'5
P20 = ei +
.ai = 5 +
ni
10
62.N
62.50
N i 1
15
100
100
.5 = 15
P62 = ei +
.ai = 10 +
ni
16
Utilizando los porcentajes acumulados, calculemos el cuartil 1 y la mediana :
Intervalos
[ 0, 5)
[ 5, 10 )
[ 10 , 15 )
[ 15 , 20 )
[ 20 , 25 ]

5
10
16
6
13
N = 50

p
0'10
0'20
0'32
0'12
0'26
1'00

P
10
20
32
12
26
100

10
30
62
74
100

Cuartil 1 (percentil 25) en [5,10)


Mediana (percentil 50) en [10,15)

Determinemos sus valores concretos :

25.N
25.50
N i 1
5
.5 = 8'75
P25 = ei + 100
.ai = 5 + 100
ni
10
50.N
50.50
N i 1
15
.5 = 13'125
P50 = ei + 100
.ai = 10 + 100
ni
16

14 - Estadstica descriptiva (F. lvarez)

3
x
2
3
4
5

n
6
15
10
9

De la presente distribucin, calculemos :


Media, varianza y desviacin tpica.
Moda.
Mediana, Percentil 82, Cuartiles y amplitud semi-intercuartlica.

La variable establecida puede ser discreta o continua sin agrupar en intervalos. Realicemos los clculos en ambos
supuestos.
x
2
3
4
5

n
6
15
10
9
40

Media

x=

n .x
i

N
6
21
31
40

P
15
52'5
77'5
100

Desviacin tpica

Varianza
i

142
= 3'55
40

2 =

Moda

n .x
i

2
i

x2 =

544
3'55 2 = 0'99
40

Mediana (percentil 50)


3
Cuartil 3 (percentil 75)

3
Cuartil 1 (percentil 25)

n.x2
24
135
160
225
544

n.x
12
45
40
45
142

= 0' 9975 = 0' 99875

Percentil 82
5
Rango semi-intercuartlico

Q 3 Q1 4 3
=
= 0' 5
2
2

Los valores anteriores, relativos a percentiles, son vlidos si la variable es DISCRETA. En el supuesto de tratarse de
una variable CONTINUA (con datos no agrupados), deberamos entender que el valor identifica el intervalo situado a la
izquierda en la siguiente tabla :
Intervalo
[1'5,2'5)...
[2'5,3'5)...
[3'5,4'5)...
[4'5,5'5]...

x
2
3
4
5

n
6
15
10
9
40

N
6
21
31
40

P
15
52'5
77'5
100

Los percentiles pedidos se obtendran del modo siguiente :


Mediana

en [2'5,3'5)

Percentil 82

en [4'5,5'5]

Cuartil 1

en [2'5,3'5)

Cuartil 3

en [3'5,4'5)

50 . 40
6
Me = P50 = 2' 5 + 100
. 1 = 3' 433
15
82. 40
31
P82 = 4' 5 + 100
. 1 = 4' 700
9
25 . 40
6
Q 1 = P25 = 2' 5 + 100
. 1 = 2' 767
15
75 . 40
21
Q 3 = P75 = 3' 5 + 100
. 1 = 3' 400
10

Estadstica descriptiva (F. lvarez) - 15

4
Interv.
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]
Interv.
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]

n
5
11
19
21
4

De la distribucin de la izquierda, calcular :


Media, varianza y desviacin tpica.
Moda
Mediana, Percentil 59 y Decil 3.
Desviacin media.
Coeficientes de asimetra y curtosis.

n
5
11
19
21
4
60

a
11
13
15
17
19

Media

x=

n .a
i

N
5
16
35
56
60

P
8'333
26'667
58'333
93'333
100'000

Desviacin tpica

Varianza
i

916
= 15'2667 2 =
60

Moda

en [16,18)

Mediana
(percentil 50)

en [14,16)

Percentil 59

en [16,18)

Decil 3
(percentil 30)

en [14,16)

Desviacin
media

n .a
i

4'2667
2'2667
0'2668
1'7333
3'7333

21'3333
24'9333
5'0668
36'4000
14'9333
102'6667

x2 =

14252
15'2667 2 = 4'4
60

Asimetra y
Curtosis

xx
-4'2667
-2'2667
-0'2668
1'7333
3'7333

Desviacin media

16 - Estadstica descriptiva (F. lvarez)

= 4' 4622 = 2' 1124

4
. 2 = 16' 3478
4 + 19
50 . 60
16
Me = P50 = 14 + 100
. 2 = 15' 4737
19
59 . 60
35
P59 = 16 + 100
. 2 = 16' 0381
21
30 . 60
16
D 3 = P30 = 14 + 100
. 2 = 14' 2105
19

n. x x

Curtosis
(-0'5608 < 0)
Ligeramente aplanada
(Platicrtica)

Mo = 16 +

xx

Asimetra
(-0'3524 < 0)
Algo asimtrica
hacia la izquierda

n.a2
605
1859
4275
6069
1444
14252

n.a
55
143
285
357
76
916

D=

n . x
i

x)

As1 =

n .(x
i

n .(x

K=

x)

n.( x x ) 3

n.( x x ) 4

-388'3615
-128'1019
-0'3603
109'3618
208'1375
-199'3244

102'6667
= 1'7111
60

- 199'3244
60
=
= 0'3524
2'1124 3

2914'0765
60
3 =
3 = 0'5608
2'1124 4

1657'0090
290'3644
0'0961
189'5604
777'0466
2914'0765

5
La distribucin de las estaturas en centmetros de los alumnos de un centro, expresados en
porcentajes, es la siguiente:
Estaturas
Menos de 150
De 150 a 154
De 155 a 159
De 160 a 164
De 165 a 169
De 170 a 174
De 175 a 179
De 180 y ms
a)
b)
c)
d)

Porcentajes
0'3
1'6
9'4
20'5
31'5
22'5
10'7
3'5

Siendo abiertos los intervalos primero y el ltimo, qu valores sera razonable considerar para
los lmites extremos de esos intervalos ?
Si suponemos que en el Centro hay 1200 alumnos, cules seran las frecuencias absolutas?
Calcular la estatura media y la desviacin tpica.
Entre qu estaturas se encuentra la quinta parte de las estaturas centrales ?.

a)
Al referirse a intervalos de 5 cm. de amplitud en los restantes casos, debemos considerar que el primer intervalo es de
145 a menos de 150 y, el ltimo, de 180 a 185.
b)
Estaturas
[145,150)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180)
[180,185)

p
0'3
1'6
9'4
20'5
31'5
22'5
10'7
3'5

n = p . 1200 / 100
3'6
19'2
112'8
246
378
270
128'4
42

P
0'3
1'9
11'3
31'8
63'3
85'8
96'5
100'0

4
19
113
246
378
270
128
42
N=1200

N
4
23
136
382
760
1030
1158
1200

c)
Estaturas
[145,150)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180)
[180,185)

De aqu resulta :

n
4
19
113
246
378
270
128
42
1200

x
147'5
152'5
157'5
162'5
167'5
172'5
177'5
182'5

n.x
590'0
2897'5
17797'5
39975'0
63315'0
46575'0
22720'0
7665'0
201535'0

201535
= 167' 95
1200
33899050
s x2 =
167' 95 2 = 42' 006
1200

n.x2
87025'00
441868'75
2803106'25
6495937'50
10605262'50
8034187'50
4032800'00
1398862'50
33899050'00

x=

s x = 42' 006 = 6' 481

d)
La quinta parte representa el 20%. Con relacin al centro (50%), cubrirn desde el 40% al 60%.
Se nos pide que calculemos los percentiles 40 y 60 de la distribucin de estaturas.
La tabla de porcentajes acumulados del apartado b) nos permite deducir que :
Los percentiles 40 y 60 se encuentran en el intervalo [165,170) .
Sus valores concretos son :

40.N
40.1200
N i 1
382
.5 = 166'963
P40 = ei + 100
.ai = 165 + 100
ni
378
60.N
60.1200
N i 1
382
.5 = 169'471
P60 = ei + 100
.ai = 165 + 100
ni
378
Estadstica descriptiva (F. lvarez) - 17

6
Partiendo de la siguiente distribucin de frecuencias acumuladas, determinar la media, mediana y moda
de la siguiente distribucin de edades. Analice la relacin entre ellas.
Edad
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]
Calculemos

los

parmetros

pedidos,

x Mo = 3.(x Me )

con

el

N
4
11
24
34
40
fin

de

observar

en

qu

medida

se

verifica

la

relacin

Para obtener las frecuencias absolutas, a partir de las acumuladas, aplicamos el concepto que define a estas ltimas.
En la prctica, las frecuencias absolutas se obtienen restando la correspondiente acumulada de la anterior.
Edad
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]

614
x=
= 15' 35
40

N
4
11
24
34
40

n
4
7
13
10
6
40

x
11
13
15
17
19

n.x
44
91
195
170
114
614

Lugar que ocupa la mediana :


L = 50 . 40 / 100 = 20
La mediana est en [14,16) :

Me = 14 +

20 11
. 2 = 15' 3846
13

n.x2
484
1183
2925
2890
2166
9648
La moda se encuentra en [14 , 16). Su
valor concreto es :

Mo = 14 +

10
. 2 = 15' 1765
10 + 7

Comprobemos la relacin existente entre ellas :

x Mo = 15'35 15'1765 = 0'1735


3.(x Me ) = 3.(15'35 15'3845) = 0'1035

No se verifica la relacin esperada, si bien la diferencia no es muy grande.


Esta relacin terica slo se verifica en situaciones ideales y excepcionales (por ejemplo en distribuciones
simtricas, donde x = Mo = Me ).

18 - Estadstica descriptiva (F. lvarez)

7
Completar la tabla de frecuencias siguiente :
N de suspensos
0
1
2
3
4
N=
N de suspensos
0
1
2
3
4

n
3
7
12
8
20

N
3
10
22
30
50

n
3

N
10

12
30
50

coincide con el valor de n


para que al acumular resulte N=10
acumulando 12
para que al acumular resulte N=30
ltima acumulada =N=50 y n=20 por diferencia con la anterior

Estadstica descriptiva (F. lvarez) - 19

8
Calcular la amplitud semi-intercuartlica de la distribucin
de las edades de 400 nios, representada a la izquierda.

Conocidos los porcentajes y el total de observaciones (N=400), podemos construir la distribucin de frecuencias
absolutas :
n = p . N / 100
x
2
3
4
5
6
7

p
6
12
12
15
24
31

n
24
48
48
60
96
124
400

La amplitud o rango semi-intercuartlico ser pues :

20 - Estadstica descriptiva (F. lvarez)

P
6
18
30
45
69
100

Primer cuartil (percentil 25)

Tercer cuartil (percentil 75)

Q 3 Q1 7 4
=
= 1' 5
2
2

9
Una variable X tiene por media 12 y desviacin tpica 3. Si elevamos todos los valores al cuadrado
construimos la nueva variable Y = X2 . Cul es el valor de su media aritmtica ?.
n

Observemos la expresin de la varianza :

s x2 =

n .x
i =1

2
i

x2

La primera parte de la expresin contiene los cuadrados de los valores de la variable X; es decir, los valores definidos
como la nueva variable Y.
n

Con esto :

s =
2
x

n .y
i =1

x 2 s x2 = y x 2 y = s x2 + x 2 = 32 + 12 2 = 153

Estadstica descriptiva (F. lvarez) - 21

10
Una variable X tiene como media 8 y varianza 4. Qu transformacin lineal hemos de realizar con ella,
para obtener una nueva variable Y que tenga por media 42 y desviacin tpica 10 ?.
Se entiende por transformacin lineal a una relacin del tipo :
Hemos de calcular los parmetros a y b desconocidos.

Y = a + b.X

Haciendo uso de las propiedades de la media y la desviacin tpica, resulta :


Y = a +b. X 42 = a + b. 8
Sobre la media
s Y = b . s X 10 = b . 2
En relacin con la desviacin tpica
La transformacin realizada fue :

22 - Estadstica descriptiva (F. lvarez)

Y = 2 + 5.X

b = 5 a = 42 5 . 8 = 2

11
Las calificaciones de un alumno en dos test de conocimientos fueron 5'4 y 41. El primer test dio como
media 5 con varianza 2 y, el segundo, media 38 con varianza 12.
En qu test obtuvo mejor calificacin con relacin al grupo total de alumnos ?.
Nos encontramos con dos distribuciones de calificaciones medidas en distintas escalas. Para poder comparar
tendremos que referir ambas series de valores a otras equivalentes entre s (igual media y desviacin tpica).
El proceso de tipificacin nos proporciona lo que deseamos (siempre obtendremos una distribucin con media 0 y
desviacin tpica 1).
Tipificando ambas calificaciones se obtiene :
Nota del test 1 : 5' 4

Nota del test 2 : 41

z1 =

z1 =

5' 4 5

2
41 38

= 0' 283

= 0' 866

12

La nota obtenida en el segundo test es superior a la del primero en trminos comparativos.

Estadstica descriptiva (F. lvarez) - 23

12
Estatura en cm.
[140,145)
[145,150)
[150,155)
[155,160)
[160,165)

Alumnos
12
35
51
?
7

a) Determinar la frecuencia desconocida, sabiendo que la


estatura media es de 1515 cm.
b) Calcule la amplitud semi-intercuartlica.
c) Moda de la distribucin y coeficiente de asimetra que la
utiliza.
d) Percentil correspondiente a una estatura de 153 cm..
Explique su significado.
e) Entre qu estaturas se encuentran las 25 centrales ?.
f) Porcentaje de alumnos que miden ms de 157 cm.
a)
x
1425
1475
1525
1575
1625

[140,145)
[145,150)
[150,155)
[155,160)
[160,165)

n
12
35
51
f
7
105+f

n.x
1710
51625
77775
157'5.f
11375
157875+157'5.f

La tabla de clculos de la media


conduce a :

1515
' =

15787'5 + 157'5. f
105 + f

Resolviendo deducimos que : f = 20

b)
n
12
35
51
20
7
N=125

[140,145)
[145,150)
[150,155)
[155,160)
[160,165)

N
12
47
98
118
125

Lugar Q1 = 125 . 25 / 100 = 3125


Q1 se encuentra en [145,150)

Q1 = 145 +

Lugar Q3 = 125 . 75 / 100 = 9375


Q3 se encuentra en [150,155)

Q 3 = 150 +

1)
x
1425
1475
1525
1575
1625

n
12
35
51
20
7
125

Q=

n.x
1710
51625
77775
3150
11375
189375

n.x2
243675
76146875
118606875
496125
18484375
287218125

'
287218125
' 2
1515
125
s = 5'02
s=

As =
d)

[140,145)
[145,150)
[150,155)
[155,160)
[160,165)

93'75 47
.5 = 154 '5833
51

Q 3 Q1 154 '5833 147 '75


=
= 3'4167
2
2
20
Moda en [150,155) : Mo = 150 +
.5 = 1518182
'
35 + 20
Luego :

c)

' 12
3125
.5 = 147 '75
35

n
12
35
51
20
7
N=125

e)

N
12
47
98
118
125

x Mo
= 0'0634
s

153 se encuentra en [150,155)

Pk = 150 +

k.

Resolviendo : k = 6208 62

Lugar = 125 . 40 / 100 = 50 ; en [150,155) :

P40 = 150 +

50 47
.5 = 150'29
51

Lugar = 125 . 60 / 100 = 75 ; en [150,155) :

P60 = 150 +
Entre 15029 y 15275

24 - Estadstica descriptiva (F. lvarez)

125
47
100
.5 = 153
51

75 47
.5 = 152 '75
51

f) 157 se encuentra en [155,160)

Pk = 155 +

k.

125
98
100
.5 = 157
20

Resolviendo : k = 848% (porcentaje inferiores a 157)

Luego, miden ms de 157 cm. :

100% - 848% = 152%

Estadstica descriptiva (F. lvarez) - 25

13
Edad
22 a 25
19 a 22
16 a 19
13 a 16
10 a 13

[10,13)
[13,16)
[16,19)
[19,22)
[22,25)

Hombres
7
9
5
11
8

x
115
145
175
205
235

n
8
11
5
9
7
40

Mujeres
3
5
6
9
2

N
8
19
24
33
40

a) Determine el nmero de hombres con edades


comprendidas entre los 11 y 15 aos.
b) Cul de los dos grupos de edades est ms disperso ?.
c) Con relacin al grupo integrado por los del mismo sexo,
quin resulta ms joven, un hombre o una mujer de 20
aos ?.

Hombre
2
n.x
n.x
92
1058
1595
231275
875
153125
1845
378225
1645
386575
688
12550

n
2
9
6
5
3
25

Mujer
n.y
23
1305
105
1025
705
4315

n.y2
2645
189225
18375
210125
165675
775225

40
0
100
Pk = 10 +
.3 = 11 k = 6'67%
8
40
k.
8
100
Pk = 13 +
.3 = 15 k = 38'33%
11
k.

a)

11 pertenece al intervalo [10,13) :

15 pertenece al intervalo [13,16) :


Entre 11 y 15 el 3833-667 = 3166%.
b)

Luego hay : 40 . 3166 / 100 = 12664 13 hombres

Calculamos las varianzas de ambos grupos :

688
12550
= 17'2 ; s2x =
17'22 = 17'91 ; sx = 17'91 = 4'232
40
40
7752'25
4315
'
y=
= 17'26 ; s2y =
17'262 = 12'1824 ; sy = 12'1824 = 3'49
25
25
x=

Siendo 1791 > 121824 Grupo hombres ms disperso de forma aboluta


Pese a ser las medias prcticamente iguales, debemos emplear el coeficiente de variacin para estudiar la
variabilidad relativa de ambos grupos :

CVx =
c)

4'232
3'49
.100 = 24'605% ; CVy =
.100 = 20'220% hombres ms disperso
17'2
17'26

Tipificamos 20 en ambos grupos :

Z hombre =

20 17'26
20 17'2
= 0'662 ; Z mujer =
= 0'785
12'1824
17'91
Como 0662 < 0785 Hombre ms joven

26 - Estadstica descriptiva (F. lvarez)

14
La tabla siguiente nos muestra las calificaciones de
inicio del curso y al finalizar el mismo.
Alumno 1 2 3 4 5
Inicio
4 5 1 5 2
Final
6 8 5 9 3

10 alumnos, en un test de clculo matemtico, al


6
3
6

7
2
7

8
1
6

9
1
4

10
3
9

a) Determine la media, desviacin tpica, mediana y moda de las calificaciones al inicio y al final del
curso.
b) Calcule la media y desviacin tpica del incremento o mejora de la calificacin obtenida.
a)
Inicio

x
2

27

16

25

25

95

27
95
= 2'7 ; sx =
2'7 2 = 1487
'
10
10

x=
Ordenando valores :
1

Mediana = 25
Final

y
2

Moda = 1

63

36

64

25

81

36

49

36

16

81

433

y=

63
= 6'3 ; sy =
10

433
6'32 = 1'9
10

Ordenando valores :
3

Mediana = 6

Moda = 6

b)
Mejora

36

16

16

25

25

36

150

d=
Media de la diferencia :

36
= 3'6 ; sd =
10

150
3'62 = 1428
'
10

d = y x = 6'3 2'7 = 3'6

( No es vlido para dispersiones )

Estadstica descriptiva (F. lvarez) - 27

15
N Suspensos
0
1
2
3
4
5
a)

Alumnos
16
20
14
15
10
5

a) Determine la media, desviacin tpica, coeficiente de variacin,


mediana y moda del nmero de suspensos.
b) Coeficiente de asimetra de Fisher.
c) Puntuacin diferencial y tipificada correspondiente a 2 suspensos.

De la siguiente tabla de clculos obtenemos :

x=

158
= 1975
'
80

s=

496
1975
' 2 = 15164
'
80

Mediana : N/2 = 40 Me = 2

b)

n.( x x )
As =

N
s3

CV =

15164
'
.100 = 76'78%
1975
'

Moda = 1

n.x

n.x2

xx

n.( x x ) 3

0
1
2
3
4
5

16
20
14
15
10
5
80

16
36
50
65
75
80

0
20
28
45
40
25
158

0
20
56
135
160
125
496

-1975
-0975
0025
1025
2025
3025

-1232598
-185372
00002
161534
830377
1384032
957975

95'7975
= 80 3 = 0'3434
1'5164

c)

28 - Estadstica descriptiva (F. lvarez)

Ligeramente asimtrica a la derecha (o positiva)

x=2
'
d = x x = 2 1975
= 0'025
x x
0'025
z=
=
= 0'016
'
s
15164

16
Estatura
155-159
150-154
145-149
140-144
135-139
130-134

Nios
4
13
12
A
2
1

n.x

132
137
142
147
152
157
TOTAL

1
2
A
12
13
4
32+A

132
274
142.A
1764
1976
628
4774+142.A

La altura en cm. de los nios de 12 aos, examinados durante la ltima


semana en la unidad de crecimiento del centro hospitalario
Crecebien, viene representada en la tabla de la izquierda. Sabiendo
que la altura media de los mismos es 14775 cm., calcular :
a) La frecuencia A del tercer intervalo.
b) La simetra de la distribucin a partir de la comparacin de media,
mediana y moda.
c) El percentil correspondiente a un nio que mide 143 m..

a)

n
1
2
8
12
13
4

4774 + 142. A
32 + A

Resolviendo la ecuacin anterior obtenemos el valor de A :


14775.(32+A)=4774+142.A
4728+14775.A=4774+142.A
575.A = 46 A = 8

b)
Intervalos
[1295 , 1345)
[1345 , 1395)
[1395 , 1445)
[1445 , 1495)
[1495 , 1545)
[1545 , 1595)

x = 147'75 =

N
1
3
11
23
36
40

Calculemos la mediana y la moda de la distribucin :


Moda en [1495 , 1545) :

Mo = 149'5 +

4
.5 = 150'75
4 + 12

Lugar que ocupa la mediana = 40/2 = 20


Mediana en [1445 , 1495) :

Utilizando los coeficientes de asimetra :

As 2 =

x Mo
s

Me = 144'5 +

As 3 =

20 11
.5 = 148'25
12

3.( x Me)
s

y siendo siempre positiva la desviacin tpica ,concluiremos que la simetra resultar del anlisis del signo del
numerador.

x Mo = 147'75 150'75 = 3 < 0

3.( x Me ) = 3.( 147'75 148'25) = 1'5 < 0


Luego es asimtrica izquierda (o negativa).
c)

La altura 143 m. (= 143 cm.) se encuentra en el intervalo [1395 , 1445) :

k .40
3
0'4. k 3
Pk = 143 = 139'5 + 100
.5 3'5 =
.5
8
8

3'5.8
8'6
+ 3 = 0'4. k k =
= 21'5
5
0'4

Luego corresponde al percentil 215.

Estadstica descriptiva (F. lvarez) - 29

17
X
10-12
7-9
4-6
1-3

n
10
100
60
30

Dada la siguiente distribucin de frecuencias., calcular :


a) Media y desviacin tpica.
b) Nmero de observaciones comprendidas entre las puntuaciones
directas 35 y 95.
c) Puntuaciones tpicas de los percentiles 20 y 80.

Ordenamos los intervalos de menor a mayor, expresndolos mediante sus extremos reales.
Intervalos
[ 05 , 35 )
[ 35 , 65 )
[ 65 , 9,5 )
[ 95 , 125 ]
Totales

n
30
60
100
10
200

1270
= 6'35
200

n.x2
120
1500
6400
1210
9230

n.x
60
300
800
110
1270

9230
6'352 = 58275
'
200

a)

x=

b)

De la observacin directa de la tabla se concluye que es 160 (60+100).

c)

Percentil 20 :

Percentil 80 :

s2 =

x
2
5
8
11

Lugar = 20 x 200 / 100 = 40

40 30
P20 = 35
' +
.3 = 4
60

Lugar = 80 x 200 / 100 = 160

160 90
P80 = 6'5 +
.3 = 8'6
100

30 - Estadstica descriptiva (F. lvarez)

s = 58275
'
= 2'414

(Observando N) se encuentra en [ 35 , 65 )

z=

4 6'35
= 0'9735
2'414

(Observando N) se encuentra en [ 65 , 9,5 )

z=

8'6 6'35
= 0'9321
2'414

N
30
90
190
200

18
x
0
1
2
3

n
6
12
21
11

Haciendo uso de coeficientes basados en medidas de posicin, estudie la asimetra y el


apuntamiento de la distribucin.

Tales coeficientes son el de asimetra de Yule y el de curtosis de Kelley.


Obtengamos los percentiles que intervienen en su clculo a travs de la columna de porcentajes acumulados (P) :
x
0
1
2
3

n
6
12
21
11
50

r
012
024
042
022

p
12
24
42
22

P
12
36
78
100

Cuartil 1 : (25%)
Cuartil 3 : (75%)
Mediana : (50%)

1
2
2

Percentil 10 : (10%)
Percentil 90 : (90%)

0
3

Con ellos :

Q3 2. Me + Q1 2 2.2 + 1
=
= 1
2 1
Q3 Q1
Q 3 Q1
21
Q
2
2
0'263 =
0'263 = 0'0963
K=
0'263 =
P90 P10
P90 P10
3 0

Y=

(asimtrica a la izquierda o negativa)

(ligeramente platicrtica o aplastada)

Estadstica descriptiva (F. lvarez) - 31

19
Determine las medias aritmtica, geomtrica y armnica de la variable X que toma los valores
siguientes :
5 , 1 , 5 , 4 , 8.

x=

Media aritmtica :
Media geomtrica :
Media armnica :

xi
N

5 + 1 + 5 + 4 + 8 23
=
= 4'6
5
5

x G = x1 . x 2 . ... . x N = 5 515
. . .4.8 = 5 800 = 800
5
5
N
=
=
= 2'817
xA =
1 1 1 1 1 1 1775
'
x 5 + 1 + 5 + 4 + 8
i

32 - Estadstica descriptiva (F. lvarez)

1
5

= 800 0'2 = 3807


'

20
x
1
2
3

n
3
10
7
20

Determine las medias aritmtica, geomtrica y armnica de la distribucin.

Generalizamos las expresiones correspondientes al figurar frecuencias :


Media aritmtica :

Media geomtrica :

x=

n .x
i

3.1 + 10.2 + 7.3 44


=
= 2'2
20
20

xG = N x1n1 .x 2n2 .....x nnn = 20 13.210.37 =


= 20 2239488 = 2239488

Media armnica :

xA =

N
n
xi
i

20

= 22394880'05 = 2'077

20
20
=
= 1'935
3 10 7 10'333
+
+
1 2 3

Estadstica descriptiva (F. lvarez) - 33

21
Con el fin de estudiar la edad media y la dispersin de edades en un centro educativo, el director
solicita estos datos a los responsables de los distintos niveles, resultando :
200 alumnos de Primaria con media 11 aos y varianza 25.
140 alumnos de Secundaria con media 146 aos y varianza 2.
165 alumnos de Bachillerato con media 171 aos y varianza 09.
Cul es la edad media y la varianza del colectivo total de alumnos del centro ?.
Media conjunta
de los 3 grupos

X=

Varianza conjunta
de los 3 grupos
S2 =

n i . xi
ni

20011
. + 14014
. '6 + 16517
. '1 70655
'
=
= 13'99
200 + 140 + 165
505

n i .S2i + n i .( x i X)
ni
ni

200.2'5 + 140.2 + 165.0'9 200.(11 13'99) 2 + 140.(14'6 13'99) 2 + 165.(17'1 13'99) 2


+
=
505
505
928'5 3436'0105
'
=
+
= 1839
+ 6'804 = 8'643
505
505
=

34 - Estadstica descriptiva (F. lvarez)

22
De las 10 observaciones de dos variables X , Y, conocemos :
X = 114 ; X2 = 1410 ; Y = 34 ; Y2 = 154 ; XY = 398 .
Determine la media y varianza de la variable V = X - Y.
Calculemos la media y varianza de X, la media y varianza de Y, as como la covarianza.

X=

114
= 114
'
10

Y=

34
= 3'4
10
SXY =

S2X =

1410
114
' 2 = 1104
'
10

S2Y =

154
3'4 2 = 384
'
10

Xi . Yi X. Y = 398 114' .3'4 = 104


'
N

10

Con ello :

V = X Y = 114
' 3'4 = 8
S 2V = S 2X + S Y2 2.S XY = 1104
' + 384
' 2.104
' = 12'8

Estadstica descriptiva (F. lvarez) - 35

23
El estudio de las faltas de asistencia a clase de alumnos de un grupo de 3 de Secundaria produjo los
resultados siguientes :
Faltas
Alumno
s

1
4

2
3

3
3

4
2

5
3

6
2

7
1

8
2

Determine la mediala y estudie analtica y grficamente el grado de concentracin de la distribucin.


Los clculos de la mediala, ndice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar:
xi

ni

Ni = ni.

Pi = (Ni.. /N).100

ti = ni. xi

20

5'195

14'805

35

10

12'987

22'013

10

50

19

24'675

25'325

12

60

27

35'065

24'935

15

75

15

42

54'545

20'455

17

85

12

54

70'130

14'870

18

90

61

79'221

10'779

20

100

16

77

100

TP = 515

T = 77

N = 20

Uniendo el origen del rectngulo (0 , 0) con los sucesivos


puntos (Pi , Qi) obtenemos la curva de Lorenz de la
derecha.
Las sumas TD y TP permiten obtener el ndice de Gini :

G=

TD
133182
'
=
= 0'3209
TP 100 515 100

Concluimos la presencia de una cierta concentracin (lo


cul tambin se advierte con la grfica).

Mediala = 5
ya que el primer valor que iguala o supera a 50 en la
columna Qi es 54'545, el cul corresponde a x = 5.

36 - Estadstica descriptiva (F. lvarez)

T i = ti .

Qi = (Ti.. /T).100

Pi - Qi

TD =133'182

24
Un anlisis del pago de impuesto en el sector de hostelera ofreci los resultados siguientes (importes
mensuales por 10.000 pesetas) :
Importe
Empresas

[0,2)
2

[2,4)
6

[4,6)
26

[6,8)
40

[8,10)
21

[10,12]
5

Determine la mediala y estudie analtica y grficamente el grado de concentracin de la distribucin.


Los clculos de la mediala, ndice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar:

[0,2)
[2,4)
[4,6)
[6,8)
[8,10)
[10,12]

xi

ni

1
3
5
7
9
11

2
6
26
40
21
5

Ni = ni.
2
8
34
74
95
100

Pi = (Ni.. /N).100

ti = ni. xi

2
8
34
74
95
100

2
18
130
280
189
55

TP = 313

T = 674

N =100

T i = ti .
2
20
150
430
619
674

Qi = (Ti.. /T).100

Pi - Qi

0'297
2'967
22'255
63'798
91'840
100

1'703
5'033
11'745
10'202
3'160
0

TD =31'843

Con TD y TP obtenemos el ndice de Gini :

G=

TD
31843
'
=
= 01495
'
TP 100 313 100

Concluimos que existe una concentracin muy baja (lo cul manifestar tambin la grfica de Lorenz).
Uniendo el origen del rectngulo (0 , 0) con los sucesivos puntos
(Pi , Qi) obtenemos la curva de Lorenz de la derecha.

Mediala en el intervalo [6 , 8)
ya que el primer valor que iguala o supera a 50 en la columna Qi
es 63'798, el cul corresponde al intervalo indicado.
De aqu :

Ml = e i +

50 Q i1
50 22'255
.a i = 6 +
.2 = 7'3357
Q i Q i1
63'798 22'255

Estadstica descriptiva (F. lvarez) - 37

25
x

0
1
2
3
4

2
8
10
3
1

Haciendo uso del clculo de momentos ordinarios de rdenes 1 al 4, determine


el valor de
la media, varianza, asimetra y curtosis de la distribucin de la izquierda.

Tabla de clculo de momentos ordinarios :

a1

Orden
1
2
3
4

a2

a3
2

a4
3

n.x4
0
8
160
243
256
667

n.x

n.x

n.x

0
1
2
3
4
Totales :

2
8
10
3
1
24

0
8
20
9
4
41

0
8
40
27
16
91

0
8
80
81
64
233

k
n k n.x
.x =
N
N
41
= 17083
'
a1 =
24
91
a2 =
= 3'7917
24
233
a3 =
= 9'7083
24
667
a4 =
= 27'7917
24

ak =

mk
m1 = 0
2
m2 = a 2 a12 = 3'7917 17083
'
= 0'8734

m3 = a 3 3. a 2 . a1 + 2. a13 = ... = 0'2468


m4 = a 4 4. a 3 . a1 + 6. a 2 . a12 3. a14 = ... = 2'2954

Con los momentos calculados :


Media
Varianza
Coeficiente de asimetra

Coeficiente de curtosis

38 - Estadstica descriptiva (F. lvarez)

= x = a1 = 17083
'
2
2
= sx = m2 = 0'8734
m3
0'2468
As =
3 =
3 = 0'3024
0'8734
m2
2'2954
m
3 = 0'0091
K = 42 3 =
m2
0'87342

) (

26
Haciendo uso del coeficiente de variacin, compare la dispersin o variabilidad relativa de las dos
variables descritas en cada uno de los apartados siguientes :
a) El peso medio de los toros de una ganadera es de 410 kg. con desviacin tpica de 1 kg. y, el peso
medio de los perros de una granja es de 8 kg. con igual desviacin tpica.
b) Dos fbricas producen tornillos con igual longitud media (50 mm.), siendo la desviacin tpica de la
primera de 2 mm. y de 12 mm. la de la segunda.
a)

CVT =

1
.100 = 0'2439%
410

1
CVP = .100 = 12'5%
8

El

peso

de

los

perros

tiene

mayor

variabilidad
b)

CVA =

2
.100 = 4%
50

CVB =

12
.100 = 24%
50

Los de la 2 tienen mayor variabilidad

Estadstica descriptiva (F. lvarez) - 39

27
X
0-6
7-13
14-20
21-27
28-34

nA
4
6
9
12
9

nB
4
7
9
8
2

La tabla muestra la comprensin lectora (X) de dos grupos de sujetos


educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la
puntuacin X=19 se considera una comprensin lectora buena, calcular :
a) El porcentaje de personas en cada grupo con una buena comprensin
lectora.
b) Cul de los dos grupos presenta mayor variabilidad ? (Razone
adecuadamente su respuesta).

Expresamos los intervalos con extremos reales, obteniendo la tabla de clculos de percentiles, media y
varianza de ambos grupos.

[-0'5,6'5)
[6'5,13'5)
[13'5,20'5)
[20'5,27'5)
[27'5,34'5]

nA

NA

nA.x

nA.x2

nB

NB

nB.x

nB.x2

3
10
17
24
31

4
6
9
12
9
40

4
10
19
31
40

12
60
153
288
279
792

36
600
2601
6912
8649
18798

4
7
9
8
2
30

4
11
20
28
30

12
70
153
192
62
489

36
700
2601
4608
1922
9867

a)
Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen
menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta
ser su diferencia hasta 100.
El valor 19 se encuentra en el intervalo [13'5,20'5) :
En el grupo A :

k.40
10
Pk = 19 = 135
' + 100
.7
9

k = 42'68

Luego el 57'32% (100 - 42'68) tienen buena comprensin lectora en el grupo A.


En el grupo B :

k.30
11
Pk = 19 = 135
' + 100
.7
9

k = 60'24

Luego el 39'76% (100 - 60'24) tienen buena comprensin lectora en el grupo B.


b)
Mayor variabilidad la presentar aquel grupo que posea mayor dispersin entre sus valores. Con
mayor rigor, si la media es representativa de las observaciones (no existen valores extremos
exageradamente distanciados de la mayora), es el coeficiente de variacin el ms adecuado para
medir la variabilidad relativa entre dos series estadsticas (mayor coeficiente indica menor
homogeneidad; un menor valor indicar menor dispersin o variabilidad).
Si comparamos mediante las varianzas :

XA =

792
18798
489
9867
= 19'8 ; S A2 =
19'82 = 77'91 ; X B =
= 16'3 ; S 2B =
16'32 = 63'21
40
40
30
30

el grupo A presenta una mayor variabilidad.


Si comparamos mediante los coeficientes de variacin :

CVA =

SA
77'91
.100 =
.100 = 44'58%
XA
19'8

CVB =

SB
63'21
.100 =
.100 = 48'78%
XB
16'3

luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra
de lo obtenido comparando varianzas.

40 - Estadstica descriptiva (F. lvarez)

28
X
0-6
7-13
14-20
21-27
28-34

nA
4
6
9
12
9

nB
4
7
9
8
2

La tabla muestra la comprensin lectora (X) de dos grupos de sujetos


educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la
puntuacin X=19 se considera una comprensin lectora buena, calcular :
a) El porcentaje de personas en cada grupo con una buena comprensin
lectora.
b) Cul de los dos grupos presenta mayor variabilidad ? (Razone
adecuadamente su respuesta).

Expresamos los intervalos con extremos reales, obteniendo la tabla de clculos de percentiles, media y
varianza de ambos grupos.

[-0'5,6'5)
[6'5,13'5)
[13'5,20'5)
[20'5,27'5)
[27'5,34'5]

nA

NA

nA.x

nA.x2

nB

NB

nB.x

nB.x2

3
10
17
24
31

4
6
9
12
9
40

4
10
19
31
40

12
60
153
288
279
792

36
600
2601
6912
8649
18798

4
7
9
8
2
30

4
11
20
28
30

12
70
153
192
62
489

36
700
2601
4608
1922
9867

a)
Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen
menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta
ser su diferencia hasta 100.
El valor 19 se encuentra en el intervalo [13'5,20'5) :
En el grupo A :

k.40
10
Pk = 19 = 135
' + 100
.7
9

k = 42'68

Luego el 57'32% (100 - 42'68) tienen buena comprensin lectora en el grupo A.


En el grupo B :

k.30
11
Pk = 19 = 135
' + 100
.7
9

k = 60'24

Luego el 39'76% (100 - 60'24) tienen buena comprensin lectora en el grupo B.


b)
Mayor variabilidad la presentar aquel grupo que posea mayor dispersin entre sus valores. Con
mayor rigor, si la media es representativa de las observaciones (no existen valores extremos
exageradamente distanciados de la mayora), es el coeficiente de variacin el ms adecuado para
medir la variabilidad relativa entre dos series estadsticas (mayor coeficiente indica menor
homogeneidad; un menor valor indicar menor dispersin o variabilidad).
Si comparamos mediante las varianzas :

XA =

792
18798
489
9867
= 19'8 ; S A2 =
19'82 = 77'91 ; X B =
= 16'3 ; S 2B =
16'32 = 63'21
40
40
30
30

el grupo A presenta una mayor variabilidad.


Si comparamos mediante los coeficientes de variacin :

CVA =

SA
77'91
.100 =
.100 = 44'58%
XA
19'8

CVB =

SB
63'21
.100 =
.100 = 48'78%
XB
16'3

luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra
de lo obtenido comparando varianzas.

Estadstica descriptiva (F. lvarez) - 41

EJERCICIOS PROPUESTOS
1
Las edades de los alumnos que asisten a clase de repaso en una academia son las siguientes.
14
19
16
16
18
a)
b)
c)
d)

16
15
15
16
18

16
15
16
15
16

19
16
18
16
18

17
17
14
17
17

17
14
15
15
17

15
15
14
17
17

17
16
17
14
17

17
17
13
16
15

15
16
18
16
16

Construir la tabla completa de frecuencias.


Calcular la moda.
Determinar su media aritmtica, varianza y desviacin tpica.
Obtener el valor de la mediana, del percentil 29 y de la amplitud semi-intercuartlica.

2
La tabla siguiente contiene los pesos en kg. de los alumnos de un curso.
40
51'5
44
50

43
57
40
45

58
43
45
43'5

48
44
50
45'5

47
56
50'5
53

41'5
44
49'5
59

40'5
50
41
39

43
50'5
55
40

47
46
58
38

52
42
51
39'5

a) Agrupar los valores en intervalos de 5 kg. de amplitud, comenzando por 35 kg., realizando un recuento de
los mismos y confeccionando la tabla completa de frecuencias
b) Calcular la moda de dicha distribucin de pesos.
c) Determinar su media aritmtica, varianza y desviacin tpica.
d) Obtener el valor de la mediana, y del 8 decil.

3
Sea la siguiente distribucin de frecuencias:

x
1
2
3
4

n
10
15
12
8

a) Calcular la media de esta distribucin.


b) Si se suma a los valores de xi la cantidad A, qu relacin guarda la media de la nueva distribucin con la
de la anterior ?. Generalizar este resultado y demostrar que si en una distribucin de frecuencias de media
m, se sustituyen los valores xi por xi + A, manteniendo las frecuencias, la media m' de la nueva distribucin
verifica :
m'= A + m
c) Utilizando la igualdad obtenida, cmo podra calcularse ms fcilmente la media de la distribucin
siguiente ?
x
2752
2754
2756
2758

n
36
54
24
18

4
Una serie familias se han clasificado por su nmero de hijos, resultando :
N de hijos
N de familias

0
11

1
13

2
20

3
25

Se pide:
a)
Calcular la tabla completa de frecuencias.
b)
Representaciones grficas.
c)
Calcular la media, mediana y moda.
d)
Hallar el recorrido, varianza y desviacin tpica.

42 - Estadstica descriptiva (F. lvarez)

4
14

5
10

6
4

7
2

8
1

5
Ordenar las cuatro distribuciones siguientes de mayor a menor dispersin.

6
Los precios de una chaqueta en once establecimientos fueron (en pts.):
5000
5200
5300
5600
6000
6400
6500
7200
Calcular la desviacin media respecto de la mediana y respecto de la media.

7300

8400

9000

7
Si en una distribucin de frecuencias duplicamos las amplitudes de los intervalos, qu suceder,
aproximadamente, con los valores de las frecuencias ?.

8
Represente el histograma correspondiente a la siguiente distribucin de edades de los trabajadores de una
fbrica.
Edades
de 20 a menos de 25
de 25 a menos de 35
de 35 a menos de 45
de 45 hasta 65

N de trab.
15
20
48
24

9
Ponga un ejemplo sencillo de una distribucin de frecuencias simtrica. Calcule su moda, media y mediana,
verificando que los tres parmetros coinciden.

10
A la izquierda se muestra el grfico representativo de las
frecuencias absolutas acumuladas de la distribucin de
edades de 40 individuos.
a)
Obtenga su media, mediana y moda.
b)
Cuntos tienen edades inferiores a cinco aos y
medio ?

Estadstica descriptiva (F. lvarez) - 43

11
Una variable X tiene como media 21 y varianza 9. Si se obtiene una nueva variable Y multiplicando los
elementos de X por 4 y restndoles 8 unidades, cul es el valor del coeficiente de variacin de Y ?.

12
Una variable X toma los valores :
2
5
5
6
7
Realizada una transformacin lineal con ella, se gener una nueva variable de la que conocemos que su media
era 15 y que la puntuacin X=2 se transform en Y=13.
Calcule las cuatro puntuaciones Y desconocidas.

13
X
0
1
2
3
4
5

n
3
9
13
25
16
14

Estudie la simetra y el apuntamiento (curtosis) de la distribucin de la izquierda.

NOTA :
Obtenga los distintos coeficientes conocidos. Compare los resultados.

14
Nota
9 - 10
7-8
5-6
3-4
1-2

Alumnos
2
0
4
14
12

La tabla de la izquierda nos muestra la distribucin de calificaciones de los 32


alumnos de un curso.
a) Determine su media, mediana y moda.
b) Qu porcentaje de observaciones tienen nota inferior a 162 ?.
c) Entre qu valores se encuentra el 70% de las notas centrales ?
d) Obtenga el coeficiente de variacin y la amplitud semi-intercuartlica.

15
Nota
[0 , 1)
[1 , 2)
[2 , 3)
[3 , 4)
[4 , 5)
[5 , 6)
[6 , 7)
[7 , 8]

N
1
1
5

De la distribucin de notas de 20 alumnos, calcular :


a)
Frecuencias absolutas simples (f) y acumuladas (F) que faltan en la tabla.
b)
Coeficiente de variacin.
c)
Porcentaje de alumnos con notas inferiores a 2'6.
d)
Entre qu notas se encuentra el 10% de las calificaciones centrales ?.
e)
Momentos ordinarios y centrales hasta el 4 orden.
f)
Coeficientes de asimetra y curtosis, utilizando los momentos calculados en e).

3
11
6
19

16
Con el fin de estudiar la distribucin de fallos en una pieza de tela, se realiz un recuento de los contenidos en
cada metro. Los resultados fueron los siguientes :
Fallos
N de metros

0
25

1
8

2
4

3
1

4
1

5
1

6
2

7
1

8
3

9
4

a) Estudie el grado de concentracin de la distribucin de fallos a lo largo de la pieza de tela.


b) Calcule su media y su mediala.

17
La tabla siguiente muestra los fallos cometidos por alumnos en la realizacin de un test de 120 items.
Errores
Alumnos

[0 , 10)
25

[10 , 20)
20

[20 , 30)
22

[30 , 40)
16

[40 , 50)
29

[50 , 60)
24

[60 , 70)
38

[70 , 80)
26

a) Estudie el grado de concentracin de la distribucin de preguntas con respuesta errnea.


b) Calcule su mediala.

44 - Estadstica descriptiva (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
a)

b)
c)
d)

x
13
14
15
16
17
18
19

r
0'02
0'10
0'20
0'28
0'26
0'10
0'04

1
5
10
14
13
5
2

N
2
10
20
28
26
10
4

R
0'02
0'12
0'32
0'60
0'86
0'96
1'00

1
6
16
30
43
48
50

P
2
12
32
60
86
96
100

Mo = 16
x = 16'12 ; s2 = 1'7856 ; s = 1'3363
Me = 16 ; P29 = 15 ; Q = 1

2
a)

Intervalo
[35,40)
[40,45)
[45,50)
[50,55)
[55,60]

r
0'075
0'350
0'200
0'225
0'150

3
14
8
9
6

7'5
35'0
20'0
22'5
15'0

3
17
25
34
40

b)
c)
d)

Mo = 43'636
x = 47'625 ; s2 = 36'859 ; s = 6'071
Me = 46'875 ; D8 = 53'889

a)
b)

x = 2'4
2'4 + A

c)

Realizando el cambio : y =

a)

x
0
1
2
3
4
5
6
7
8

R
0'075
0'425
0'625
0'850
1'000

P
7'5
42'5
62'5
85'0
100'0

3
x 2754
2

4
n

r
0'11
0'13
0'20
0'25
0'14
0'10
0'04
0'02
0'01

11
13
20
25
14
10
4
2
1

N
11
13
20
25
14
10
4
2
1

11
24
44
69
83
93
97
99
100

R
0'11
0'24
0'44
0'69
0'83
0'93
0'97
0'99
1'00

P
11
24
44
69
83
93
97
99
100

b)

25
4
14%

20

5
10%

6
7
4% 8
2%
1%

0
11%

15
10
3
25%

5
0
0

c)
d)

1
13%

2
20%

x = 2'8 ; Me = 3 ; Mo = 3
R = 8 ; s2 = 3'14 ; s = 1'772
Estadstica descriptiva (F. lvarez) - 45

5
A , D , C , B.

D Me = D x = 870

7
Se dividen por dos.

8
Las alturas deben ser proporcionales al rea. Dividimos las frecuencias segn sea la amplitud del intervalo.
Alturas : 15
10 (20/2)
24 (48/2)
6 (24/4)

9
x
0
1
2
3
4

n
2
8
20
8
2
40

= Me = Mo = 2

10
x = 4'7 ; Me = 5 ; Mo = 6

a)
b)

20

11
CV = 15'789

12
15 , 15 , 15'667 , 16'333

13

n .(x
i

As =
As1 =
simtrica).

As2 =

x)

= - 0'299561

x Mo

= 0'036786

3.( x Md )

= - 0'110357

ligeramente asimtrica a la izquierda

ligeramente asimtrica a la derecha (prcticamente

ligeramente asimtrica a la izquierda

Los coeficientes basados en la moda y la mediana hacen uso de una relacin terica entre los
parmetros de centralizacin. Generalmente no conducen a la misma conclusin, salvo distribuciones
claramente asimtricas.
46 - Estadstica descriptiva (F. lvarez)

n .(x
i

K=

x)

3 = - 0'620240

ligeramente aplastada (mesocrtica)

14
a)
c)

3375 ; 30714 ; 3
13 y 51

b)
d)

a)

n = 1, 0, 4, 3, 3, 6, 2, 1
N = 1, 1, 5, 8, 11, 17, 19, 20
38'6364
17
4'333 y 5
a1 = 4'4 ; a2 = 22'25 ; a3 = 121'7 ; a4 = 703'0625
m1 = 0 ; m2 = 0 ; 2'89 ; m3 = -1'6320 ; m4 = 21'2737
A = -0'3322 ; K = -0'4529

21%
60'9707% ; 11905

15
b)
c)
d)
e)
f)

16
ndice de Gini = 0'6567
Media = 2'14 ; Mediala = 8

17
ndice de Gini = 0'394
Mediala = 60'5263

Puede que sus resultados no coincidan exactamente con los ofrecidos. Todo depende del nmero de cifras decimales

que emplee en sus clculos.


Estadstica descriptiva (F. lvarez) - 47

REGRESIN Y CORRELACIN
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez
francisco.alvarez@uca.es

DISTRIBUCIONES BIVARIANTES
El estudio de la relacin existente entre dos variables X e Y conduce a la consideracin simultnea de ambas variables
estadsticas. Tal distribucin de las dos variables se denomina bivariante.
La presentacin de los datos experimentalmente observados puede hacerse :
a) Mediante los pares (Xi , Yi) :

(X1 , Y1) , (X2 , Y2) , (X3 , Y3) , ...


c) Tabla de frecuencias de doble entrada :

b) Tabla simple de frecuencias :


X
X1
X2

Y
Y1
Y2

n
n1
n2

....

....

....

Xn

Yn

nn

Y2
n12
n22
....

....

....

n21
....

....

n2m
....

Xn

nn1

nn2

....

nnm

X1
X2

Y
....

Y1
n11

....

Ym
n1m

Distribuciones marginales :
Son las obtenidas de la distribucin bivariante, al considerar de forma independiente cada una de las dos
variables.
De ellas obtendremos los parmetros de centralizacin y dispersin caractersticos : media y desviacin tpica.

X , s 2X

, Y , s 2Y

, sX

, sY

Covarianza :
Este ndice de variacin conjunta de X e Y se define como :

s XY =

s XY =

n .(X
i

X )(
. Yi Y )

n . X .Y

N
nij .(X i X ).(Y j Y )
i

X .Y

n .X .Y
ij

para tablas simples de frecuencias


j

X .Y

para tablas de frecuencias de doble

entrada.
Si sXY = 0 expresar que las variables X e Y son independientes.

RECTAS DE REGRESIN
Representando los pares de observaciones (X,Y) como
puntos en un plano cartesiano, obtenemos el denominado
diagrama de dispersin o nube de puntos.
Por recta de regresin o de ajuste entendemos la recta que
ms se aproxima a los puntos representativos de las
observaciones (X,Y).
El mtodo de los mnimos cuadrados proporciona un sistema
de obtencin de tales rectas, estableciendo que sea mnima
la suma de los cuadrados de las separaciones existentes
entre cada punto y la recta.

Segn se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen,
respectivamente, las rectas de regresin de Y sobre X y de X sobre Y.

Regresin y correlacin (F. lvarez) - 1

RECTA DE REGRESIN DE Y SOBRE X


Y' = a + b.X

a = ordenada en el origen
b = coeficiente de regresin de Y sobre X = pendiente de la recta de regresin = tangente del
ngulo que forma con el eje horizontal.
Y' = predicciones de Y para el valor X observado.

Los coeficientes a y b de la recta de regresin de Y sobre X se obtienen resolviendo el sistema :

a. f . X

+ b. n. X
s XY
s 2X

b=

el cul tiene como solucin :

b. n. X

a.N

n.Y
n.X .Y

=
=

a = Y b. X

RECTA DE REGRESIN DE X SOBRE Y


X' = a' + b'.Y

a' = ordenada en el origen


b' = coeficiente de regresin de X sobre Y = pendiente de la recta de regresin.
X' = predicciones de X para el valor Y observado.

Los coeficientes a' y b' de la recta de regresin de X sobre Y se obtienen igualmente al resolver :

+ b'. n.Y
+ b'. n.Y 2

a'.N
a '. f .Y
b' =

o directamente :

s XY
s Y2

n. X
n.X .Y

=
=

a ' = X b'. Y

Otro procedimiento de clculo simplificado permite obtener los coeficientes de regresin del siguiente modo :

b=

N . X .Y ( X )(
. Y )

b' =

N . X 2 ( X )

N . X .Y ( X )(
. Y )
N . Y 2 ( Y )

Si utilizamos puntuaciones diferenciales : x = X X


y = Y Y ,
las rectas de regresin pierden el trmino independiente (ordenadas en el origen a y a' ) al ser las medias nulas, siendo
su expresin :
y' = b.x
x' = b'.y

COEFICIENTE DE CORRELACIN DE PEARSON


La recta de regresin es la que pasa ms cerca de las observaciones, pero no nos indica si pasa muy cerca o no de
ellas.
Hemos de definir una medida del grado de asociacin o relacin entre ambas variables, lo cul, en trminos de recta de
ajuste, indicar la bondad de la misma.
Tal coeficiente se denomina coeficiente de correlacin, definido por Pearson del siguiente modo :

r = b . b' =

s XY
sX . sY

ya que : r =

b . b' =

s XY s XY
.
=
s X2 s Y2

2
s XY
s
= XY
2
2
sX . sY
sX . sY

Segn las expresiones finales obtenidas para b y b', podemos tambin calcularlo como :

r=
La expresin

. Y )
N . X .Y ( X )(

[N . X

][

( X ) . N . Y 2 ( Y )
2

n conduce a las siguientes relaciones (sin ms que multiplicar y dividir por sX o por sY ) :
r = b.

sX
sY

r = b'.

sY
sX

De aqu resulta que, si se trabaja con puntuaciones tipificadas (las desviaciones tpicas son iguales a 1) :
r = b = b' y las rectas de regresin son : z'Y = r.z'X ; z'X = r.z'Y
El coeficiente de correlacin toma siempre valores comprendidos entre -1 y 1 : -1 r 1

2 - Regresin y correlacin (F. lvarez)

Interpretacin :
r
prximo a 0
prximo a 1
prximo a -1

Asociacin de las variables


Variables independientes o no relacionadas
linealmente
Variables relacionadas directamente (cuando una
aumenta la otra tambin)
Variables relacionadas inversamente (cuando una
aumenta la otra disminuye)

Bondad del ajuste


Mala recta de ajuste. No pasa cerca de las
observaciones.
Buena recta de ajuste. Creciente (pendientes b
y b' positivas)
Buena recta de ajuste. Decreciente (pendientes
b y b' negativas)

CURVA DE REGRESIN DE LA MEDIA


Este mtodo es aplicable cuando una de las dos variables (o las dos) contiene un bajo
nmero de valores distintos.

Curva de regresin de la media de Y condicionada a X :


El procedimiento consiste en sustituir todos los pares de observaciones que tienen el
mismo valor de X por un nico par que tiene por componentes dicho valor de X y la
media de los valores de Y.
De igual modo puede establecerse la curva de regresin de la media de X condicionada a
Y.
As, por ejemplo, la figura muestra los pares siguientes:
X=1 : (1,1) , (1,3)
sustituidos por el par (1,2) , al ser 2 la media de 1 y 3.
X=2 : (2,1) , (2,4) , (2,5) sustituidos por el par (2,3'33) , al ser 3'33 la media de 1, 4 y 5.
... etc ...
Con los pares (1,2) , (2,3'33), ... obtenemos la recta de regresin por el procedimiento ya
descrito.

Razn de correlacin :

2 = 1

ni .s y2
1
. 2 i
N
sY

Toma valores comprendidos entre 0 y 1 y siempre verifica que 2 r2 (r=coef. de


correlacin lineal). La relacin entre las variables X , Y ser de tipo lineal, cuanto ms
2
2
prximo sea a r .

OTROS PROCEDIMIENTOS DE CLCULO DEL COEFICIENTE DE CORRELACIN r


Coeficiente de correlacin (phi) :
El siguiente procedimiento se puede utilizar cuando las dos variables X e Y son dicotmicas.
Y
X

1
a
c

1
0

Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento


representado en la tabla de la izquierda.
El coeficiente de correlacin toma el valor :

0
b
d

ad bc
(a + b )(. c + d )(. a + c )(. b + d )

Coeficiente de correlacin biserial puntual rbp :


El siguiente procedimiento se puede utilizar cuando una variable es continua y la otra dicotmica. Supuesta X
continua :

rbp =

X1 X0
. p. q
sX

Siendo :

X1
X0
sX
p
q=1-p

la media de los valores de X que se corresponden con un 1 en Y.


la media de los valores de X que se corresponden con un 0 en Y.
la desviacin tpica de X (considerados sus valores globalmente).
la proporcin de unos en Y.
la proporcin de ceros en Y.

Coeficiente de correlacin por rangos de Spearman :


El siguiente procedimiento se puede utilizar cuando las dos variables son ordinales (reordenaciones de una serie de
elementos).

= 1

6. d 2

N. N 2 1

Siendo d las diferencias entre los valores de X e Y.


Regresin y correlacin (F. lvarez) - 3

Los coeficientes de correlacin anteriores no son ms que una adaptacin del coeficiente de correlacin de Pearson
para tipos especiales de variables. En consecuencia, su valor coincide con el que habramos obtenido siguiendo el
procedimiento de Pearson (r); por ello, su interpretacin es la establecida para r .

OTROS COEFICIENTES DE CORRELACIN NO BASADOS EN EL PEARSON


Coeficiente de correlacin tetracrica:
Puede utilizarse cuando ambas variables son continuas , pero ambas pueden dicotomizarse artificialmente.
Y
X

1
0

1
a
c

Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento que se


representa en la tabla de la izquierda.

0
b
d

A) Mtodo abreviado (aproximado) :


1 Calculamos los productos : a.d y b.c.
2 Si a.d > b.c , calculamos el cociente :
C = a.d / b.c (el coeficiente de correlacin ser
positivo)
3 Si a.d < b.c , calculamos el cociente :
C = b.c / a.d (el coeficiente de correlacin ser
negativo)
4 Consultando la tabla de clculo del coeficiente de correlacin tetracrico, localizamos el cociente C en el
intervalo que lo contiene (con extremos A y B). A su derecha encontramos el coeficiente de correlacin
tetracrico (rt), como un valor numrico (n) ms R. De aqu :

rt = n + R

con : R =

CA
100 . ( B A )

B) Mtodo exacto :
El coeficiente de correlacin tetracrico rt ser el resultado de resolver la siguiente ecuacin :

rt + z. z'.

rt 2
r3
r4
a. d b. c
+ ( z 2 1) . ( z' 2 1) . t + ( z 3 3z) . ( z' 3 3z') . t + ... = 2
2!
3!
4!
n . f ( z). f ( z' )

Como es lgico, la mayor exactitud en el clculo rt , se obtiene al considerar un mayor nmero de sumandos
del desarrollo en serie anterior. Esta dificultad aconseja seguir el mtodo abreviado descrito anteriormente.
En la ecuacin que permite calcular rt :
z
valor de la curva normal tipificada N(0,1), que deja a su derecha un rea m, igual a la menor de las
cantidades (a+c)/n o (b+d)/n.
z'
valor de la curva normal tipificada N(0,1), que deja a su derecha un rea m, igual a la menor de las
cantidades (a+b)/n o (c+d)/n.
f(z) y f(z')
ordenadas de la curva normal, correspondientes a los valores z y z' anteriores. Tabuladas
para cada m.

Coeficiente de correlacin biserial rb :


Puede utilizarse cuando ambas variables son continuas , pero una de ellas puede dicotomizarse artificialmente.
Supuesta X continua y Y dicotomizada (valores 1 y 0) , el coeficiente de correlacin biserial se calcula del modo
siguiente :

X X0 p. q
rb = 1
.
sX
f ( z)
La ordenada f(z) :

Siendo :

X1
X0
sX

la media de los valores de X que se corresponden con un 1 en Y.


la media de los valores de X que se corresponden con un 0 en Y.
la desviacin tpica de X (considerados sus valores globalmente).

p
la proporcin de unos en Y.
q=1-p la proporcin de ceros en Y.
z
el valor normal tipificado (N(0,1)) que deja a su derecha (o a su izquierda) el
rea p.

f(z)

la ordenada correspondiente a z en la curva normal.


NOTA :
Los clculos de z y f(z) no es preciso realizarlos ya que, para cada
valor de la probabilidad p (o q indistintamente), se encuentran
tabulados los valores de p.q/f(z).

4 - Regresin y correlacin (F. lvarez)

Coeficiente de correlacin (tau) de Kendall :


Como el de rangos de Spearman, este coeficiente es aplicable cuando las dos variables son ordinales
(reordenaciones de una serie de elementos).
Procedimiento de clculo :
a) Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden
ascendente.
b) Comparamos cada valor de Y con los Yi siguientes, contando una permanencia si Y < Yi y una inversin si Y > Yi.

Np Ni
n.( n 1)
2

Siendo :
n el nmero de pares de valores (X , Y)
Np el nmero total de "permanencias"
Ni el nmero total de "inversiones"

Utilizacin e interpretacin de los coeficientes estudiados en este epgrafe:


Los coeficientes tetracrico y biserial parten de variables continuas que pueden dicotomizarse (ambas o slo
una).
Para su aplicacin rigurosa es necesario que :
1. la distribucin de la variable o variables consideradas continuas debe ser "normal".
2. la relacin que suponemos existe entre ambas variables es de tipo "lineal".
Sus valores no tienen porqu coincidir con el del coeficiente de correlacin de Pearson, si bien verifican las
mismas propiedades que ste. Es decir :
Los coeficientes tetracrico y toman valores comprendidos entre -1 y 1 : -1 coeficiente 1.
El coeficiente biserial puede ser mayor que 1 y menor que -1. En valor absoluto, ser mayor que el biserial
puntual.
Valores prximos a cero implican falta de relacin entre las variables (independencia).

FUENTES DE VARIANZA EN LA CORRELACIN


Expresemos la desviacin de Y respecto de su media como :

(Y Y ')

(Y 'Y )

(Y Y ) = (Y Y ') + (Y 'Y )

es el error cometido en la prediccin. Representa la porcin de informacin no asociada a X.


representa, en consecuencia, la informacin asociada a X.

(Y Y ) = (Y Y ') + (Y 'Y )
(Y Y ')
+
2

En trminos de varianzas :

(Y Y )

(Y 'Y )

Varianza total

Varianza no explicada por X


(varianza de los errores o residual)

Varianza explicada por X

Dividiendo los sumandos anteriores por la varianza de Y obtendremos la proporcin de varianza de Y no explicada y
explicada por la variable X. La manipulacin de esta operacin conduce a las expresiones y definiciones siguientes :

(Y Y )
(Y Y )

2
2

(Y Y ') + (Y 'Y )
=1=
(Y Y ) (Y Y )
(Y 'Y )
2

(Y Y ')
=
(Y Y )

+ r2

Varianza de las predicciones Y' =

s =
2
Y'

Proporcin de varianza de las predicciones Y' =

s 2Y'
= r2
s 2Y

Proporcin de varianza explicada por X = r2 = Coeficiente de determinacin ( R2 )


Proporcin de varianza no explicada por X = 1 - r2

(Y Y ')
=

Varianza de los errores o residual =

s =s
2
e

2
Y .X

(Y Y ) . (Y Y ')
=
N
(Y Y )
2

= sY2 . 1 r 2

La raz cuadrada de la varianza residual se denomina error tpico de la prediccin : s Y . X = s Y . 1 r 2


IMPORTANTE : Observe los diferentes significados e interpretaciones de r2.
Regresin y correlacin (F. lvarez) - 5

FORMULARIO - RESUMEN DEL TEMA

f.x
x=
N

s 2x

f.x2

=
x2

f.y
y=
N

Recta de regresin de y
sobre x
(puntuaciones directas)

x' = a '+ b'. y


Predicciones : x ' = x

a '. N

sxy =

a. N
+ b. f . x
a. f . x + b. f . x 2

y' = a + b. x
Predicciones : y ' = y

Recta de regresin de x
sobre y
(puntuaciones directas)

f.y2

=
y2

s 2y

=
=

b'. f . y

a '. f . y + b'. f . y

f . x. y x. y
N

f . y
f . x. y

b=

sxy

s2x
a = y b. x

f . x
f . x. y

b' =

sxy

s2y
a ' = x b'. y

Coeficiente de correlacin (de Pearson y equivalentes) :


Pearson

r = b. b' =

Ph

sxy

sx . sy
sy
s
r = b. x = b'.
sx
sy

Biserial puntual

ad bc
( a + b).( c + d ).( a + c).( b + d )

rbp =

x1 x0
. p. q
sx

Rangos de Spearman

6. d 2
= 1
N. ( N 2 1)

Coeficiente de correlacin no basados en el de Pearson :

rt = n + R
Puntuaciones
directas
(x,y)

y' = a + b. x

Tetracrico

Biserial

(Tabulado)

X X0 p. q
rb = 1
.
sX
f ( z)

CA
con : R =
100 . ( B A )

Puntuaciones diferenciales
(d x

= x x , dy = y y)

d x = 0 , d y = 0 , sdx = s x , sdy = s y , sdxdy = s xy


(a = 0 ; b se mantiene)

Tau de Kendall

Np Ni
n.( n 1)
2

Puntuaciones tipificadas

xx
y y
, zy =
zx =

sx
sy

zx = 0 , zy = 0

szx = 1 , szy = 1 , szxzy =


(a = 0 ; b = r)

r=

sxy
sx . sy

d y ' = b. d x

Relacin fundamental :
Varianza de y =
= Varianza residual (de errores) + Varianza de las
predicciones.
Varianza de las predicciones :

z y ' = r. z x

s2y = se2 + s2y '


s2y'

Proporcin de varianza explicada o asociada a la


regresin,
o proporcin de varianza de las predicciones,
o coeficiente de determinacin :
6 - Regresin y correlacin (F. lvarez)

( y ' y ) 2

=
N

s2y '
s2y

= r2

sxy
sx . s y

=r

Varianza de los errores (o residual) :

se2

Error tpico de la prediccin (raz de la varianza de los


errores):
Proporcin de varianza no explicada o no asociada a la
regresin,
o proporcin de varianza de los errores :

s2y.x

( y y') 2 2

=
= s .( 1 r 2 )
N

s y.x = s y . 1 r 2

se2
= 1 r2
s2y

Signo de b = signo de b = signo de r = signo de la


covarianza
r = 0 absoluta independencia
r = 1 o r = -1 absoluta dependencia (directa o
inversa)

-1 r 1
0 r2 1

Regresin y correlacin (F. lvarez) - 7

EJERCICIOS RESUELTOS
1
La tabla siguiente contiene los resultados de las calificaciones en Matemticas (X) y Lengua (Y) de un
grupo de 40 alumnos de Secundaria.
X
3
3
5
6
6
6
7
8

Y
4
5
5
6
7
8
7
8

n
3
5
12
4
5
3
6
2

a)
b)
c)
d)
e)

Obtenga la recta de regresin de Y sobre X.


Obtenga la recta de regresin de X sobre Y.
Calcule e interprete el coeficiente de correlacin lineal.
Obtenga el error tpico de la prediccin.
Qu proporcin de varianza de Y no queda explicada por X ?.

Tabla de clculos :
X
3
3
5
6
6
6
7
8

a)

Y
4
5
5
6
7
8
7
8

n
3
5
12
4
5
3
6
2
40

n.Y
12
25
60
24
35
24
42
16
238

n.X2
27
45
300
144
180
108
294
128
1226

Y=

238
= 5' 95
40

n.Y2
48
125
300
144
245
192
294
128
1476

n.X.Y
36
75
300
144
210
144
294
128
1331

Recta de regresin de Y sobre X.


X=

b=

n.X
9
15
60
24
30
18
42
16
214

N . X .Y ( X )(
. Y )
N . X ( X )
2

214
= 5' 35
40

40.1331 214.238 2308


=
= 0'71
Recta de regresin de Y sobre X :
3244
40.1226 214 2
Y' = 2'1436 + 0'7115.X

a = Y b . X = 5' 95 0' 7115 . 5' 35 = 2' 1436

b)

Recta de regresin de X sobre Y.


N . X .Y ( X )(
. Y ) 40.1331 214.238 2308
b' =
=
=
= 0'96
2
Recta de regresin de X sobre Y :
2396
40.1476 238 2
N . Y 2 ( Y )
X' = -0'3815 + 0'9633.Y

a ' = X b ' . Y = 5' 35 0' 9633 . 5' 95 = 0' 3815

c)

Coeficiente de correlacin de Pearson.


Conocidos los coeficientes de regresin puede calcularse como :

r = b . b' = 0' 7115 . 0' 9633 = 0' 8279


Existe una elevada relacin entre las calificaciones en Matemticas y Lengua. Dicha relacin es positiva
(directa); es decir, alumnos con altas calificaciones en Matemticas se corresponden con altas calificaciones en
Lengua, y a la inversa.
Podemos afirmar que las rectas de regresin obtenidas son buenas rectas de ajuste. Es decir, expresan con
una elevada aproximacin la relacin matemtica (lineal) existente entre las calificaciones en Matemticas y
Lengua.

d)

Error tpico de la prediccin.

f .Y
i

Calculada la varianza de Y :

s Y.X
8 - Regresin y correlacin (F. lvarez)

2
i

1476
Y2 =
5' 95 2 = 1' 4975
N
40
= s Y . 1 r 2 = 1' 4975 . 1 0' 8279 2 = 0' 6864
s =
2
Y

e)

Proporcin de varianza no explicada por X.


La proporciona : 1 - r2 = 1 - 0'82792 = 0'3146. Es decir el 31'46%.

2
De la distribucin bivariante siguiente :

a)
b)
c)
d)
e)

Y
1
1
9
0

0
0
0
8

2
4
6

2
5
0
0

Obtenga la recta de regresin de Y sobre X.


Obtenga la recta de regresin de X sobre Y.
Calcule e interprete el coeficiente de correlacin lineal.
Calcule su varianza residual.
Calcule e interprete el coeficiente de determinacin.

Obtenemos las distribuciones marginales de X y de Y totalizando las frecuencias en filas y columnas :

X
2
4
6

n
6
9
8
23

Y
1
1
9
0
10

0
0
0
8
8

2
4
6

n.X2
24
144
288
456

n.X
12
36
48
96

2
5
0
0
5
Y
0
1
2

6
9
8
23
n
8
10
5
23

n.Y
0
10
10
20

n.Y2
0
10
20
30

La suma de los productos de X por Y hemos de obtenerla directamente de la tabla proporcionada :

X .Y = n .X .Y
ij

0.2.0 + 1.2.1 + 5.2.2 + 0.4.0 + 9.4.1 + 0.4.2 + 8.6.0 + 0.6.1 + 0.6.2 = 58

Como puede observarse, slo realizamos los productos correspondientes a frecuencias y valores de variables no nulos.
X . Y = 1.2.1 + 5.2.2 + 9.4.1 = 58

Utilicemos las medias y varianzas de X e Y, as como la covarianza, en los clculos solicitados.

X=

96
= 4' 1739
23

20
= 0' 8696
23

Y=

n . X .Y
ij

Covarianza =

a)

s XY =

s 2X =

X .Y =

456
4' 1739 2 = 2' 4045
23

s Y2 =

30
0' 8696 2 = 0' 5482
23

X .Y X .Y = 58 4'1739.0'8696 = 1'1078
N

23

Recta de regresin de Y sobre X :


b=

s XY 1' 1078
=
= 0' 4607
2' 4045
s 2X

a = Y b . X = 0' 8696 ( 0' 4607 ). 4' 1739 = 2' 7925

Y' = 2'7925 - 0'4607 . X


b)

Recta de regresin de X sobre Y :


b' =

s XY 1' 1078
=
= 2' 0207
0' 5482
s 2Y

a ' = X b'. Y = 4' 1739 ( 2' 0207 ). 0' 8696 = 5' 9310

X' = 5'9310 - 2'0207 . Y


c)

Coeficiente de correlacin :
Utilizando la expresin r = b.b' = ( 0'4607 )(
. 2'0207 ) = 0'9648

podemos tener duda en cuanto

al signo del coeficiente de correlacin. Este signo es el de b y b', ya que es el que proporciona la covarianza.
Calculado como r =

s XY
=
sX . sY

1' 1078

= 0' 9648 no se plantear tal dificultad.

2' 4045 . 0' 5486


Regresin y correlacin (F. lvarez) - 9

d)

Varianza residual :
2
se2 = sY2. X = sY2 . 1 r 2 = 0'5482. 1 ( 0'9648) = 0'0379

e)

Coeficiente de determinacin :

Es el cuadrado del coeficiente de correlacin, representando la proporcin de varianza explicada por la variable
X (en el ajuste de Y sobre X).

R 2 = r 2 = ( 0'9648) = 0'9309
2

La variable X explica el 93'09% de la varianza de Y. Slo el 6'91% no es atribuible a X.

3
De la siguiente distribucin bivariante :

a)
b)
c)
d)
e)

[0,1)
1
3
1

2
3
4

Y
[1,2)
2
6
2

[2,3]
1
3
1

Calcule e interprete el valor de la covarianza.


Obtenga la recta de regresin de Y sobre X.
Obtenga la recta de regresin de X sobre Y.
Calcule el coeficiente de correlacin lineal y el de determinacin.
De la varianza total de Y , determine la proporcin atribuible a la variable X.

Totalizando filas y columnas obtendremos las distribuciones marginales de X e Y :

X
2
3
4

n
4
12
4
20

X .Y = n .X .Y
ij

a)

2
3
4

n.X2
16
108
64
188

n.X
8
36
16
60
j

Y
1'5
2
6
2
10

0'5
1
3
1
5

2'5
1
3
1
5
Y
0'5
1'5
2'5

4
12
4
20
n
5
10
5
20

n.Y
2'5
15
12'5
30

n.Y2
1'25
22'5
31'25
55

1.2.0'5 + 2.2.1'5 + 1.2.2'5 + 3.3.0'5 + 6.3.1'5 + 3.3.2'5 + 1.4.0'5 + 2.4.1'5 + 1.4.2'5 = 90

Covarianza :
X=

n . X .Y
ij

Covarianza =

s XY =

60
=3
20

X .Y =

Y=

30
= 1' 5
20

X .Y X .Y = 90 3.1'5 = 4'5 4'5 = 0


N

20

Interpretacin :
Las variables son independientes.
Siendo nula la covarianza, tambin los sern los coeficientes de regresin, el coeficiente de correlacin
y el de determinacin, dado que en sus clculos interviene la covarianza en el numerador.
Al ser nulos los coeficientes de regresin, a coincidir con la media de Y y a' con la de X.

b)

Recta de regresin de Y sobre X :


b=

c)

s XY
0
= 2 =0
2
sX
sX

a = Y b . X = 1' 5 0 . 3 = 1' 5

Y' = 1'5

X' = 3

Recta de regresin de X sobre Y :


b' =

s XY
0
= 2 =0
2
sY
sY

a ' = X b' . Y = 3 0 . 1' 5 = 3

10 - Regresin y correlacin (F. lvarez)

d)

Coeficiente de correlacin y de determinacin :


Como se indic en el apartado a), al ser nula la covarianza, ambos coeficientes tambin lo son :

r = b . b' = 0 . 0 = 0

e)

r=

s XY
0
=
=0
sX . sY sX . sY

R 2 = r2 = 0

Proporcin de varianza explicada por X :


Proporcin de varianza explicada por X = r2 = Coeficiente de determinacin = 0

4
Se desea estudiar la relacin entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo
del alumno que lo realiza. Los resultados observados fueron :
Test
1
1
2
2
3
4
4
5
5

Sexo
Varn
Hembra
Varn
Hembra
Varn
Hembra
Varn
Hembra
Varn

N de alumnos
3
1
2
4
3
5
1
1
2

a)
Mida el grado de asociacin existente entre las dos variables mediante el coeficiente ms
adecuado.
b)
Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el
apartado anterior.

a)

Siendo dicotmica la segunda variable, calcularemos el coeficiente de correlacin biserial puntual :


Denominando Y a la variable sexo (asignamos : 1=Hombre ; 0=Mujer) y X a la variable puntuacin en el test,
procederemos a los clculos necesarios para su obtencin. Ello nos conduce a calcular las medias de los
valores de X que se corresponden con un 1 y con un 0 en Y (X1 y X0) de forma separada, as como la
desviacin tpica de X.
Las siguientes tablas facilitan nuestras operaciones :
X
1
1
2
2
3
4
4
5
5

Y
1
0
1
0
1
0
1
0
1

n
3
1
2
4
3
5
1
1
2
N= 22

n.X
3
1
4
8
9
20
4
5
10
64

n.X2
3
1
8
16
27
80
16
25
50
226

X1
1
2
3
4
5

n
3
2
3
1
2
11
p

n.X1
3
4
9
4
10
30

X0
1
2
4
5

n
1
4
5
1
11
q

n.X0
1
8
20
5
34

30
34
11
11
X0 =
p=
= 0' 5
q=
= 0' 5 = 1 p
= 2' 7273
= 3' 0909
11
11
22
22
226
64
2' 90912 = 1' 8099 s X = 1' 8099 = 1' 3453
X=
= 2' 9091
s 2X =
22
22
X X0
2' 7273 3' 0909
Con esto : rbp = 1
. p. q =
. 0' 5 . 0' 5 = 0' 1351
sX
1' 3453
X1 =

b)

Coeficiente de correlacin de Pearson :


El propsito de este apartado no es otro que comprobar que efectivamente coinciden los coeficientes de
correlacin de Pearson y biserial puntual. Calculemos la media y desviacin tpica de Y, as como la covarianza:

Regresin y correlacin (F. lvarez) - 11

Y=
s XY

f.Y

f.Y2

f.X.Y

1
1
2
2
3
4
4
5
5

1
0
1
0
1
0
1
0
1

3
1
2
4
3
5
1
1
2
22

3
0
2
0
3
0
1
0
2
11

3
0
2
0
3
0
1
0
2
11

3
0
4
0
9
0
4
0
10
30

11
11
0' 5 2 = 0' 25 s Y = 0' 25 = 0' 5
= 0' 5 s 2Y =
22
22
0' 0909
30
=
2' 9091. 0' 5 = 0' 0909
r=
= 0' 1351
22
1' 3453. 0' 5

5
La siguiente tabla nos muestra la distribucin por sexo de un grupo de 167 personas, indicando si
fuman o no.
Fuma
85
10

Hombre
Mujer

No fuma
12
60

a) Calcule el coeficiente de ms adecuado para medir el grado de asociacin existente entre el sexo y
el ser o no fumador.
b) Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el apartado
anterior.

a)
Las dos variables son dicotmicas. El coeficiente especfico para esta situacin es el coeficiente de
correlacin (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X

=
b)

1 (Fuma)
a = 85
c = 10
95

1 (Hombre)
0 (Mujer)

ad bc

(a + b )(. c + d )(. a + c )(. b + d )

0 (No fuma)
b = 12
d = 60
72

85.60 12.10
97.70.95.72

97
70

= 0'7307

Coeficiente de correlacin de Pearson :


X
1
1
0
0

Y
1
0
1
0

n
85
12
10
60
167

n.X
85
12
0
0
97

n.Y
85
0
10
0
95

n.X2
85
12
0
0
97

n.Y2
85
0
10
0
95

n.X.Y
85
0
0
0
85

97
97
= 0' 5808
s 2X =
0' 5808 2 = 0' 2435 s X = 0' 2435 = 0' 4934
167
167
95
95
Y=
= 0' 5689
s 2Y =
0' 5689 2 = 0' 2453 s Y = 0' 2453 = 0' 4952
167
167
85
0' 1786
s XY =
0' 5808 . 0' 5689 = 0' 1786
r=
= 0' 7307
167
0' 4934 . 0' 4952
X=

Coincidente con el calculado en el apartado anterior, como era de esperar.

12 - Regresin y correlacin (F. lvarez)

6
Doce atletas (A, B, C, ..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso.
Las clasificaciones en dichas pruebas fueron :
100 metros :
A,B,C,D,E,F,G,H,I,J,K,L
Peso :
K,I,J,L,G,H,F,D,E,B,C,A
a)
Determine la relacin existente entre las dos clasificaciones en las pruebas descritas, mediante
el coeficiente ms adecuado.
b)
Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el
apartado anterior.
Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de
correlacin por el mtodo de los rangos de Spearman.

a)

Coeficiente de correlacin :
6. d 2
6.552
= 1
= 1
= 0'9301
2
N. N 1
12. 12 2 1

(Ver tabla siguiente)

A continuacin se ofrecen las tablas auxiliares de clculos de y r , calculados para comprobar que coinciden.
X
1
2
3
4
5
6
7
8
9
10
11
12
78

b)

Para el clculo de
Y
d
11
-10
9
-7
10
-7
12
-8
7
-2
8
-2
6
1
4
4
5
4
2
8
3
8
1
11
78
0

d2
100
49
49
64
4
4
1
16
16
64
64
121
552

X
1
2
3
4
5
6
7
8
9
10
11
12
78

Para el clculo de r
Y
X2
Y2
11
1
121
9
4
81
10
9
100
12
16
144
7
25
49
8
36
64
6
49
36
4
64
16
5
81
25
2
100
4
3
121
9
1
144
1
78
650
650

X.Y
11
18
30
48
35
48
42
32
45
20
33
12
374

Coeficiente de correlacin de Pearson :


650
78
= 6' 5
s 2X =
6' 5 2 = 11' 9167 s X = 11' 9167 = 3' 4521
12
12
650
78
Y=
= 6' 5 s 2Y =
6' 5 2 = 11' 9167 s Y = 11' 9167 = 3' 4521
12
12
11' 0833
374
s XY =
6' 5 . 6' 5 = 11' 0833
r=
= 0' 9301
12
3' 4521. 3' 4521
X=

En efecto coinciden los coeficientes de correlacin obtenidos por los dos mtodos.
Su alto valor negativo (prximo a -1) nos indica que existe una fuerte relacin entre las dos clasificaciones en
las pruebas atlticas, quedando mejor clasificados en una los peor clasificados en la otra.

7
De los archivos de la Direccin provincial de Trfico se han seleccionado los expedientes de 64
conductores, realizando el siguiente recuento en funcin del sexo (M = mujer ; H = hombre) y el nmero
de multas impuestas durante el ltimo ao.
Sexo
N de multas
en el ltimo ao

1
2
3
4
5
6

M
9
7
6
1
1
0

H
0
0
2
9
11
18

Qu conclusin puede deducirse acerca de la relacin existente entre sexo y nmero de denuncias ?.
Utilice para ello el ndice de asociacin ms apropiado.
Al ser dicotmica la variable sexo, obtendremos el coeficiente de correlacin biserial puntual :
Regresin y correlacin (F. lvarez) - 13

Y
X

1
2
3
4
5
6

M=1

H=0

n.X

n.X2

Y=1
n.X1

Y=0
n.X0

9
7
6
1
1
0
24

0
0
2
9
11
18
40

9
7
8
10
12
18
N=64

9
14
24
40
60
108
255

9
28
72
160
300
648
1217

9
14
18
4
5
0
50

0
0
6
36
55
108
205

50
205
24
40
= 2' 0833
= 5' 125
X0 =
p=
= 0' 375 q =
= 0' 625 = 1 p
24
40
64
64
1217
255
X=
= 3' 9844
s 2X =
3' 9844 2 = 3' 1404 s X = 3' 1404 = 1' 7721
64
64
X X0
2' 0833 5' 125
Con esto : rbp = 1
. p. q =
. 0' 375 . 0' 625 = 0' 831
sX
1' 7721
X1 =

Es decir existe una fuerte relacin, de sentido inverso, entre ambas variables. Algo que poda advertirse al
analizar el recuento de las observaciones.

8
Para analizar si existe o no relacin entre las calificaciones en materias cientficas y las del rea
literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada rea).
Clasificados por orden de puntuacin result :
Alumno
P. Cientfica
P. Literaria

1
3
3

2
6
5

3
7
7

4
1
4

5
2
1

6
8
8

7
5
2

8
4
6

Utilizando el ndice adecuado establezca el grado de relacin que existe entre las calificaciones de
dichas reas de conocimiento.
Calcularemos el coeficiente de correlacin (rangos de Spearman) al presentarse dos variables ordinales (dos
reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba cientfica y en la
literaria . Ordenadas las primeras, calculemos sus diferencias :
X
1
2
3
4
5
6
7
8

Con ello :

= 1

6. d 2

Y
4
1
3
6
2
5
7
8

N. N 1
2

= 1

d
-3
1
0
-2
3
1
0
0

d2
9
1
0
4
9
1
0
0
24

6.24
= 0'7143
8. 8 2 1

Es decir, existe una alta relacin entre las calificaciones. Generalmente un alumno con altas calificaciones en el
rea cientfica tendr altas calificaciones en el rea de conocimientos literarios.

14 - Regresin y correlacin (F. lvarez)

9
Un grupo de COU integran 17 alumnos de Ciencias y 14 de Letras. De ellos repiten curso 16 de Ciencias
y slo 2 de Letras. Calcule el coeficiente de correlacin ms adecuado para medir el grado de
asociacin existente entre las variables descritas.
Se trata de analizar la relacin que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo.
Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X

1 (Repite)
a = 16
c=2
18

1 (Ciencias)
0 (Letras)

0 (No repite)
b=1
d = 12
13

17
14

ad bc
16.12 1.2
=
= 0'8051 alta relacin entre las variables.
(a + b )(. c + d )(. a + c )(. b + d ) 17.14.18.13

10
Se somete a 10 alumnos a dos test diferentes encaminados a medir su percepcin visual. Los
resultados fueron los siguientes :
Test A
Test B

3
4

4
5

5
5

5
6

6
7

7
8

8
8

9
10

10
11

12
14

a) Obtenga las ecuaciones de las rectas de regresin del test A sobre el B, en puntuaciones directas,
diferenciales y tpicas.
b) Determine la proporcin de varianza residual que se presenta en dicho ajuste.
Denominando Y a las puntuaciones en el test A (variable dependiente en el ajuste) y X a las correspondientes al text B,
procedemos a realizar los clculos necesarios :
X
3
4
5
5
6
7
8
9
10
12
69

b=

a)

b)

[N . X

X.Y
12
20
25
30
42
56
64
90
110
168
617

Y b . X = 78 1' 0809 . 69 = 0' 3416


N

. Y )
N . X .Y ( X )(
2

Y2
16
25
25
36
49
64
64
100
121
196
696

. Y ) 10.617 69.78
N . X .Y ( X )(
=
= 1'0809
2
10.549 69 2
N . X 2 ( X )

a = Y b. X =

r=

X2
9
16
25
25
36
49
64
81
100
144
549

Y
4
5
5
6
7
8
8
10
11
14
78

][

10

( X ) . N . Y ( Y )
2

10

10.617 69.78

(10.549 69 )(. 10.696 78 )


2

= 0'9861

Rectas de regresin :
1.- En puntuaciones directas :

Y' = a + b . X

Y' = 0'3416 + 1'0809 . X

2.- En puntuaciones diferenciales :

y' = b . x

y' = 1'0809 . x

3.- En puntuaciones tipificadas:

zy' = r .zx

zy' = 0'9861 .zx

Proporcin de varianza residual :


Cuando se habla de proporcin siempre se refiere al cociente entre la varianza total de Y; es decir, a la
proporcin de varianza de Y que representa la varianza solicitada.
Regresin y correlacin (F. lvarez) - 15

2
Y .X
2
Y

s
s

s .1 r
sY2
2
Y

se2 = sY2. X = sY2 . 1 r 2

Siendo la varianza de los errores (residual) :


2

) = 1 r

= 1 0'98612 = 0'0277

Slo representa un 2'77% de la varianza del test A (Y), siendo la proporcin de varianza no explicada por el test
B (X).

11
A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) ,
(1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7)
a)
b)
c)

Calcule la ecuacin de la recta de regresin de Y sobre X.


Represente grficamente el diagrama de dispersin y la recta de regresin.
Calcule e interprete el coeficiente de correlacin.

Clculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) :
X
1
2
3
4
5
15

X=

a)

15
=3
5

b=

s 2X =

1' 4
= 0' 7
2

55
32 = 2
5

Y
4
5
5
6
7
27

Y=

X2
1
4
9
16
25
55

27
= 5' 4
5

Y2
16
25
25
36
49
151

s Y2 =

X.Y
4
10
15
24
35
88

151
5' 4 2 = 1' 04
5

a = 5' 4 0' 7. 3 = 3' 3

s XY =

88
3. 5' 4 = 1' 4
5

Y = 3'3 + 0'7 . X

b)
Para X = 0
Para X = 5

Y = 3'3
Y = 6'8

(0 , 3'3)
(5 , 6'8)

Enlazando los dos puntos anteriores obtenemos la grfica de la recta.

Observe que el punto que tiene por coordenadas las medias


de X e Y (3 , 5'4) , es un punto contenido en la recta de
regresin.
Apreciamos la proximidad de los puntos a la recta de ajuste,
as como que dicha recta es creciente (r > 0).

c)

r=

1' 4

= 0' 9707

2 . 1' 04
Elevada relacin entre las variables y de signo positivo.
La recta de regresin es una buena funcin de ajuste, siendo creciente (r > 0).
Para representar grficamente la recta de regresin, localizamos dos puntos cualesquiera de ella :
Y = 3'3 + 0'7 . X

16 - Regresin y correlacin (F. lvarez)

12
La recta de regresin de Y sobre X, calculada en el estudio de la relacin existente entre dos variables,
tiene por ecuacin Y' = 5'4 - 0'9 . X , siendo la varianza de la variable dependiente Y igual a 1'84.
Si la distribucin de las predicciones de Y tiene como media 3'6 y varianza 1'619936,
a)
calcule la media y varianza de X
b)
determine la ecuacin de la recta de regresin de X sobre Y
c)
obtenga el valor del coeficiente de correlacin.
Iniciamos aqu una serie de ejemplos que requieren para su resolucin el empleo de las diferentes relaciones
funcionales (frmulas para entendernos) tratadas en el tema.
Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores
conocidos. Tal vez as podamos obtener los que nos pida el problema.
1.2.3.-

s
Y ' = 5'4 0'9. X (a = Y b. X )5'4 = Y + 0'9. X b = XY
= 0'9
2
sX

s 2Y = 1' 84
s Y = 1' 84 = 1' 3565
Y' = Y = 3'6
s 2Y' = 1' 619936

Siendo 3'6 la media de Y, la expresin de a nos permite obtener la media de X :

5' 4 = Y + 0' 9 . X

5' 4 = 3' 6 + 0' 9 . X

X=

5' 4 3' 6
=2
0' 9

La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresin b necesitamos
conocer antes la covarianza o el coeficiente de correlacin).
Partiendo, por ejemplo, de la proporcin de varianza explicada (hace referencia a la varianza de las predicciones) :

r2 =

s 2Y' 1' 619936


=
= 0' 8804
1' 84
s 2Y

r = 0' 8804 = 0' 9383

El coeficiente de correlacin ser negativo, ya que lo es el coeficiente de regresin b (b = -0'9), luego : r = 0'9383 .

sX
nos permitir calcular la desviacin tpica de X :
sY
sX
0' 9383. 1' 3565
0' 9383 = 0' 9 .
sX =
= 1' 4142 s X2 = 1' 4142 2 = 2
1' 3565
0' 9

La expresin r = b .

r = b.

sX
sY

Finalmente, calculemos la recta de ajuste de X sobre Y :

b' =

s
s XY
1' 4142
= r . X = 0' 9383.
= 0' 9783
sY
1' 3565
s Y2

a ' = X b' . Y = 2 ( 0' 9783 ). 3' 6 = 5' 5217

Su ecuacin es :
X' = 5'5217 - 0'9783 . Y

13
La recta de regresin de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la
proporcin de varianza no explicada por X del 25'58%.
a)
Calcule los coeficientes de correlacin y de determinacin.
b)
Siendo X = 5, qu pronstico diferencial corresponde a una puntuacin directa X = 4 ?.

a)

Los coeficientes de correlacin y de determinacin se obtienen directamente de la proporcin de varianza no


explicada :
1 - r2 = 0'2558 r2 = 1 - 0'2558 = 0'7442
Luego :
Coeficiente de determinacin :

R2 = r2 = 0'7442

Coeficiente de correlacin :

r = 0' 7442 = 0' 8627

Para determinar si el coeficiente de correlacin es positivo o negativo se pueden seguir distintos


procedimientos. Uno podra consistir en dibujar la recta de regresin (enlazando los dos puntos
conocidos) observando si es creciente (b > 0 y r > 0) o decreciente (b < 0 y r < 0). As resulta que
es creciente y, por tanto, r = 0'8627.

b)

Determinemos la recta de regresin en puntuaciones directas y diferenciales :


Si la recta de regresin Y' = a + b.X pasa por (0'5,0) y (0,-0'4) , significa que :
- para X = 0'5 Y' = 0 :
0 = a + b.0'5
- para X = 0 Y' = -0'4 :
-0'4 = a + b.0
-0'4 = a 0 = -0'4 + b.0'5 b = 0'4 / 0'5 = 0'8
Regresin y correlacin (F. lvarez) - 17

La recta de regresin es :
en puntuaciones directas :
en puntuaciones diferenciales :

Y' = -0'4 + 0'8 . X


y' = 0'8 . x

A la puntuacin directa X = 4 , le corresponde una puntuacin diferencial : x = X X = 4 5 = 1


luego el pronstico diferencial correspondiente es :
y' = 0'8 . x = 0'8 . (-1) y' = -0'8
NOTA :
Calculado b = 0'8 > 0, concluiremos que el coeficiente de correlacin es tambin positivo (r = 0'8627), tal como
se dedujo en el apartado a).

14
A las puntuaciones directas 2 y 6 de la variable X le corresponden predicciones 3'2 y 7'2
respectivamente.
Si la proporcin de varianza asociada a X es del 70'42% y los valores de la variable dependiente Y son:
1 , 3 , 5 , 6 y 11
a)
obtenga las ecuaciones de las dos rectas de regresin
b)
calcule el coeficiente de correlacin
c)
un pronstico tipificado 1'1868 , a qu puntuacin directa de X corresponde ?.

a)
En la recta de regresin de Y sobre X :
Y' = a + b.X
- Para X = 2 , Y' = 3'2 :
3'2 = a + 2.b
- Para X = 6 , Y' = 7'2 :
7'2 = a + 6.b
Resolviendo el sistema obtenemos :
a = 1'2 b = 1

Y' = 1'2 + X

Para el clculo de la recta de regresin de X sobre Y no disponemos de elementos suficientes de momento.

b)
Con los valores conocidos de Y calculamos su media, varianza y desviacin tpica :

Y=

1 + 3 + 5 + 6 + 11
= 5' 2
5

s 2Y =

12 + 3 2 + 5 2 + 6 2 + 112
5' 2 2 = 11' 36
5

s Y = 11' 36 = 3' 3705

Si la proporcin de varianza asociada es del 70'42%, deducimos que : r2 = 0'7042 y, siendo b = 1 > 0 , el
coeficiente de correlacin r tambin ser positivo. Es decir :

r = + 0' 7042 = 0' 8392


De la recta de regresin de Y sobre X deducimos (para las medias) :

Y ' = Y = 1' 2 + X

X = Y 1' 2 = 5' 2 1' 2 = 4

La desviacin tpica de X la podemos obtener ahora de la relacin :

r = b.

sX
sY

sX =

r . s Y 0' 8392. 3' 3705


=
= 2' 8284
1
b

s X2 = 2' 8284 2 = 8

a bis)
Estamos en condiciones de calcular la recta de regresin de X sobre Y :
s
r . s X 0' 8392. 2' 8284
r = b'. Y

b' =
=
= 0' 7042

a = X 0' 7042. Y = 4 0' 7042. 5' 2 = 0' 3380


3' 3705
sX
sY
La recta de regresin de X sobre Y tiene por ecuacin :
X' = 0'3380 + 0'7042 . Y

c)

z Y' = 0' 8392. z X


La recta de regresin de Y sobre X en puntuaciones tpicas es : z Y' = r . z X
Para el pronstico tipificado 1'1868 deduciremos el valor tipificado de X. Teniendo en cuenta el proceso de
tipificacin, deduciremos la puntuacin directa de X
z Y' = 1' 1868

zX =

1' 1868
X X
X4
= 1' 4142 =
=
0' 8392
sX
2' 8284

X = 1' 4142. 2' 8284 + 4 = 8

15
En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron
dicotomizadas por la Mediana formndose dos categoras: altos (A) y bajos (B). Los resultados son los
siguientes :
Sujeto
X
Y

1
B
5

2
A
3

3
B
3

4
A
0

5
A
1

6
B
3

7
B
2

8
A
0

9
A
1

10
B
2

Elija y calcule el ndice de correlacin adecuado para medir la relacin existente entre X e Y.
18 - Regresin y correlacin (F. lvarez)

nA nA.X nB nB.X X

0
1
2
3
4
5

XA =

2
2
0
1
0
0

0
2
0
3
0
0

0
0
2
2
0
1

0
0
4
6
0
5

15

0
1
2
3
4
5

n.X n.X2

2
2
2
3
0
1

0
2
4
9
0
5

0
2
8
27
0
25

10

20

62

5
15
20
62
= 1; XB = = 3 ; X =
= 2 ; SX =
2 2 = 1483
'
5
5
10
10
rbp =

XA X B
1 3
5 5
. p. q =
.
. = 0'674
SX
1483
'
10 10

Cierta relacin entre las variables, de signo inverso. A mayor puntuacin en la prueba Y menor nivel en X.

16
La puntuacin estimada de la variable Y para un valor 0 de la variable X es 05454, siendo la varianza de
esta variable 165. Sabiendo que el porcentaje de varianza de la variable Y no asociada a la variacin de
X es 4545% y que la varianza del error es 0318297, hallar :
a) la correlacin de Pearson entre X e Y.
b) la ecuacin de regresin para pronosticar Y a partir de X.
c) la varianza de las puntuaciones pronosticadas.
Datos

Y' = a + b. X 0'5454 = a + b.0 a = 0'5454 ; S 2X = 16'5 ;

S 2e
S 2y

a)

1 - r2 = 004545 r2 = 1 - 004545 = 095455 r = 0977

b)

a = 05454

= 1 r 2 = 0'04545 ; S 2e = 0'318297

0'318297
= 0'04545 S 2Y = 7'003 S Y = 2'646
S 2Y
S
r.S Y 0'977.2'646
r = b. X b =
=
= 0'6364
Y' = 0'5454 + 0'6364. X
SY
SX
16'5

S 2Y = S e2 + S Y2 '

c)

S Y2 ' = S Y2 S e2 = 7'003 0'318297 = 6'684703

17
Las puntuaciones estimadas de la variable Y para los valores 3 y 5 de la variable X son 24545 y 37272
respectivamente. El coeficiente de correlacin entre X e Y es 0977, y la varianza de la variable X es 165.
Con estos datos calcular :
a) la ecuacin de la recta de regresin.
b) la varianza de las puntuaciones pronosticadas.
c) la proporcin de varianza de la variable Y no asociada a la variacin de X.
Datos :

2'4545 = a + 3. b
Y' = a + b. X
3'7272 = a + 5. b

a)

Resolviendo el sistema anterior :

b)

r2 =

r = b.
c)

s2y '
s2y

a = 054545

r = 0'977

b = 063635

S2X = 16'5
Y = 054545 + 063635.X

s2y ' = r 2 . s2y

SX
16'5
0'977 = 0'63635.
= 0'6364 SY = 2'656594 SY2 ' = 0'977 2 .2'656594 2 = 6'7366
SY
SY

1 - r2 = 1 - 09772 = 0045471

(45471%)
Regresin y correlacin (F. lvarez) - 19

18
Las puntuaciones directas obtenidas por 5 sujetos en la escala LKS (Escala de Lucas) y las obtenidas
por esos mismos sujetos en el factor C (Control Social) del PSI son las que figura en la tabla final.
a) Encuentre la puntuacin pronosticada en LKS de un sujeto cuya puntuacin directa en C es
15.
b) Encuentre la parte de la varianza de LKS asociada a la variacin de C.
c) Interprete el resultado obtenido al calcular el estadstico que expresa la relacin entre LKS y
C.
Sujetos
LKS
C
Y = LKS

A
49
8

B
40
16

C
43
14

D
31
20

E
37
12

X=C
X
8
16
14
20
12
70

Y
49
40
43
31
37
200

X2
64
256
196
400
144
1060

Y2
2401
1600
1849
961
1369
8180

X.Y
392
640
602
620
444
2698

70
200
1060
= 14 ; Y =
= 40 ; S 2X =
14 2 = 16 ; S X = 4
5
5
5
8180
2698
S 2Y =
40 2 = 36 ; S Y = 6 ; S XY =
14.40 = 20'4
5
5
X=

b = -204 / 16 = -1275

a = 40 - (.1275).14 = 5785

a)
Y = 5785 - 1275.X = 5785 - 1275 . 15 = 38725
b)

r = -204 / 4 . 6 = -085 r2 = 07225 (7225%)

c) Alta relacin entre las dos pruebas (r=-085) y de signo inverso. Es decir, un sujeto con alta puntuacin en LKS
tendr baja puntuacin en C

19
La empresa de publicidad VENDEBIEN quiere saber si la aceptacin o rechazo dependen del sexo.
Para ello se encuesta a 200 personas de las cules el 50% son mujeres; 40 hombres rechazan el
producto mientras que 30 mujeres lo aceptan.
Elija y calcule el ndice de correlacin adecuado para interpretar estos datos.

Aceptan
Rechazan

H
a=60
c=40

M
b=30
d=70

60.70 30.40
ad bc
=
= 0'3015
( a + b).( c + d ).( a + c).( b + d )
90110
. .100.100

Escasa relacin entre la aceptacin y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.

20
La ecuacin de la recta de regresin que permite pronosticar las calificaciones en Psicologa
Matemtica II (Y) a partir de las calificaciones en Psicologa Matemtica I (X) es la siguiente : Y = 08.X
- 025
Sabiendo que Sx

= (4/5).Sy ; Sy = 3
, X , Y.

y que

X Y = 1'74 , calcule :

a) rxy
b) la varianza de las puntuaciones pronosticadas.
c) la proporcin de varianza error cometida al pronosticar, utilizando la recta de regresin
anterior.

20 - Regresin y correlacin (F. lvarez)

Datos :

Y' = 0'8. X 0'25 ; S X =

4
. S ; S = 3 ; X Y = 1'74
5 Y Y

a)

b = 0'8
2'4
S
4
r = b. X = 0'8.
= 0'64
S X = .3 = 2'4
3
SY

5
a = Y b. X 0'25 = Y 0'8. X X = 7'45

'
X Y = 174
Y = 5'71

b)

r =

c)

1 - r2 = 1 - 0'642 = 0'5904 (59'04%)

s2y '
s2y

s2y ' = r 2 . s2y = 0'64 2 .32 = 3'6864

21
La recta de regresin de Y sobre X, que permite el pronstico en el rendimiento en un trabajo manual a
partir de las puntuaciones en un test de destreza manual, corta al eje de ordenadas en Y = 8 y al de
abscisas en X = -4, en puntuaciones directas.
a) Calcule la ecuacin de la recta de regresin anterior en puntuaciones directas.
b) Represente grficamente la recta de regresin anterior.
c) Calcule el coeficiente de correlacin entre X e Y sabiendo que la varianza de los errores es la
cuarta parte de la varianza de Y.
b)

a)
Para X = 0 , Y = 8 y, para X = -4, Y = 0

8=a
a = 8
Y' = a + b. X

Y' = 8 + 2. X
b = 2
0 = a 4. b

c)

1
S 2e = .S 2Y
4

S e2 = S 2Y . ( 1 r 2 )

1 2
.S Y 3
4
r2 = 1 2 = 1 2 =
4
SY
SY
S 2e

r = 0'866

22
Estudiando la relacin entre las variables X e Y se obtuvieron los siguientes datos :

X = 119 , Y = 1'30 , S x = 10 , SY = 0'55 , rxy = 0'70 , n = 10


a) Elena C. obtuvo una puntuacin de 130 en X. Estime su puntuacin en Y.
b) Se estim la puntuacin 128 en la variable Y para Gonzalo S.. Cul fue su puntuacin en la
variable X ?.
c) Determinar el valor de

a)

b = r.

sy
sx

= 0'7.

Sy.x

y la desviacin tpica de las puntuaciones pronosticadas (Sy).

0'55
= 0'0385 ; a = 130
' 0'0385x119 = 3'2815 Y' = 3'2815 + 0'0385. X
10

Y' = 3'2815 + 0'0385130


.
= 1'7235
b)

c)

128 = -32815+00385.X X = 11848

S Y.X = S Y . 1 r 2 = 0'55. 1 0'7 2 = 0'3928


S 2Y' = S Y2 S Y2 .X = 0'3025 01543
'
= 01482
'
S Y' = 0'385

Regresin y correlacin (F. lvarez) - 21

23
La siguiente grfica muestra las calificaciones obtenidas
por dos grupos de alumnos que han estudiado con dos
mtodos de enseanza distintos (A y B). Elija, calcule e
interprete el coeficiente de correlacin ms adecuado para
estudiar la relacin entre el mtodo de enseanza y las
calificaciones.

XA

XB

2
4
6
8

2
4
5
6
9
10
36

20

X
X2

10

56

16

36

64

16

25

36

81

100

382

Biserial puntual (rbp). Una cuantitativa (calificacin) y la otra dicotmica (mtodo).

XA =

20
36
56
= 5 ; XB =
= 6; X =
= 5'6 ; S X =
4
6
10
rbp =

382
5'6 2 = 2'61
10

XA X B
5 6 4 6
. p. q =
.
. = 0187
'
SX
2'61 10 10
r2 = 0035 (35%)

Existe una relacin muy baja (del 35%) entre el mtodo seguido y las calificaciones. De aceptarse la relacin
diramos que los alumnos que siguen el mtodo B obtienen mejores resultados (signo negativo de r).

24
Sabemos que las puntuaciones diferenciales pronosticadas (y) son cinco veces las puntuaciones
diferenciales de la variable X, y que la proporcin de varianza asociada entre X e Y es igual a 025.
Calcular :
a) La pendiente de la recta de regresin de Y sobre X en puntuaciones directas y diferenciales.
b) La pendiente de la recta de regresin de Y sobre X en puntuaciones tpicas.
c) La pendiente de la recta de regresin de X sobre Y en puntuaciones directas.

y = 5x

Datos :

r =
2

s2y '
s2y

= 0'25

a)

b=5

b)

r2 = 025 r = 05

c)

b.b = r2 5.b = 025 b = 025 / 5 = 005

25
Para un grupo de 100 sujetos y en dos variables X e Y, disponemos de los siguientes datos :
xy=480 ; x2=400 ; y2=Y=900.
Sabiendo adems que X e Y son dos variables cuantitativas que mantienen una relacin lineal y que,
lgicamente,
x = y = 0
a) Cunto valdr el coeficiente de correlacin de Pearson entre X e Y ?.
b) Cunto valdr la desviacin tpica de los errores cometidos al pronosticar Y a partir de X ?.
c) Qu puntuacin directa pronosticaremos en Y a un sujeto que ha obtenido una puntuacin x=-2 ?.
Se sigue en el enunciado la notacin usual de representacin de puntuaciones directas (mayscula) y diferenciales
(minscula).
Recordemos que :
22 - Regresin y correlacin (F. lvarez)

En puntuaciones directas

En puntuaciones diferenciales

fi . xi . y i

f i .( X i X).( Yi Y) f i . X i . Yi
S XY =

f i . ( X i X)
S 2X =
a)

Para puntuaciones diferenciales :

s xy =

xy = 480 = 4'8
n

sx =

100

f i . X 2i

S XY =

X. Y

S 2X =

X2

x2
n

400
=2
100

sy =

y2
n

N
f i . x 2i
i

900
=3
100

r = 48 / 2'3 = 08
b)

se = s y.x = s y . 1 r 2 = 3. 1 0'8 2 = 18
'

c)

En puntuaciones diferenciales : y = b.x , con b = r .


Para x = -2 : y = 12 . (-2) = -24
Como :

y' = Y' Y Y' = y'+ Y = y'+

sy

3
= 0'8. = 12
'
sx
2

Y = 2'4 + 900 = 2'4 + 9 = 6'6


N

100

26
La empresa de publicidad VENDEBIEN quiere
saber si existe relacin entre la duracin de un
anuncio en T.V. y la aceptacin o rechazo del
mismo. Los resultados de la encuesta se
incluyen en la siguiente tabla.
Elija y calcule el ndice de correlacin
adecuado para interpretar estos datos.

Duracin
5-9
10 - 14
15 - 19
20 - 24
25 - 29

n.X

n.X2

3
5
6
4
2

21
60
102
88
54

147
720
1734
1936
1458

20

325

5995

5-9
10-14
15-19
20-24
25-29

XA =

7
12
17
22
27

nA nA.X nR nR.X X
3
4
4
1
0

21
48
68
22
0

0
1
2
3
2

0
12
34
66
54

12

159

166

7
12
17
22
27

Aceptacin
3
4
4
1
0

Rechazo
0
1
2
3
2

5995
325
166
159
= 13'25 ; X R =
= 20'75 ; X =
= 16'25 ; S X =
16'252 = 5'974
20
20
8
12
X XR
13'25 20'75 12 8
rbp = A
. p. q =
= 0'615
.
.
SX
5'974
20 20

Cierta relacin entre las variables, de signo inverso. A mayor duracin mayor rechazo.

27
El gabinete de estudios sobre Malestar Social desea conocer si existe relacin entre la consumicin
de drogas y la comisin de delitos sobre la propiedad. Para ello se selecciona una muestra y se
comprueba que 50 individuos han consumido algn tipo de droga y a la vez han estado implicados en
delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la
propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que
la muestra constaba de 500 individuos, qu conclusin obtendr el gabinete de estudios ?. (Elija,
calcule e interprete el coeficiente de correlacin adecuado).

Regresin y correlacin (F. lvarez) - 23

Droga SI
a=50
c=150

Delito SI
Delito NO

Droga NO
b=50
d=250

ad bc
50.250 50150
.
=
= 0144
'
(a + b).(c + d ).( a + c).( b + d )
100.400.200.300

Escasa relacin entre consumo de drogas y comisin de delitos. De aceptarla, la mayor comisin de delitos se
produce en consumidores de drogas.

28
Un grupo de hombres y mujeres responde a una
prueba (X). Los datos obtenidos aparecen en la
siguiente tabla.
Elija razonadamente, calcule e interprete el
coeficiente de correlacin adecuado, para estudiar
la relacin entre las puntuaciones de la prueba y la
variable sexo.

2-4
5-7
8-10
11-13

XM =

Mujeres
8
6
5
1

X
11 - 13
8 - 10
5-7
2-4

X nM nM.X nH nH.X X

n.X

n.X2

3
6
9
12

7
11
11
11

21
66
99
132

63
396
891
1584

40

318

2934

1
5
6
8

3
30
54
96

6
6
5
3

18
36
45
36

20

183

20

135

3
6
9
12

Hombres
3
5
6
6

2934
318
135
183
= 9'15 ; X H =
= 6'75 ; X =
= 7'95 ; S X =
7'952 = 3186
'
40
40
20
20
rbp =

XM XH
9'15 6'75 20 20
. p. q =
.
.
= 0'377
SX
3186
'
40 40

Muy dbil relacin entre las variables, de signo directo. De aceptarse, la mayor calificacin se produce en
mujeres.

29
Elija el coeficiente de correlacin ms apropiado
entre las variables puntuaciones en un test de
inteligencia (X), y prejuicio antiprotestante (Y),
teniendo en cuenta el cuadro adjunto.
En este cuadro, fA significa frecuencia con alto
prejuicio y fB frecuencia con bajo. Calcule el
coeficiente de correlacin elegido y comente
brevemente el resultado obtenido.

0-2
3-5
6-8
9-11

XA =

9 - 11
6-8
3-5
0-2

nA nA.X nB nB.X X

n.X

n.X2

1
4
7
10

0
0
40
40

0
0
280
400

10
10
0
0

10
40
0
0

10
10
40
40

10
40
280
400

10
160
1960
4000

80

680

20

50

100

730

6130

1
4
7
10

Y
fA
40
40
0
0

fB
0
0
10
10

6130
730
50
680
= 8'5 ; X B =
= 2'5 ; X =
= 7'3 ; S X =
7'32 = 2'83
100
100
20
80
rbp =

XA X B
8'5 2'5 80 20
. p. q =
.
.
= 0'848
SX
2'83
100 100

Elevada relacin entre las variables, de signo directo. A mayor puntuacin en el test mayor prejuicio
antiprotestante.

24 - Regresin y correlacin (F. lvarez)

30
Estudiando la relacin entre las variables X e Y se obtuvieron los siguientes datos :

X = 50 , Y = 6 , S x = 6 , S Y = 2 , rxy = 0'8 , n = 5
a) Qu puntuacin directa en Y pronosticaremos a un sujeto que obtuvo una puntuacin directa en X
de 52 ?.)
b) Cunto valen

S y.x

?.

sy

2
= 0'8. = 0'267 ; a = 6 0'267 x50 = 7'35
sx
6
Y' = 7'35 + 0'267. X Y' = 7'35 + 0'267 x52 = 6'534

b = r.

a)

S 2y'

S Y.X = S Y . 1 r 2 = 2. 1 0'8 2 = 12
'

b)

S Y2 ' = S Y2 S Y2 .X = 4 144
' = 2'56

31
Estudiando una muestra de 50 alumnos de BUP se observ que una proporcin de 010 estaba
compuesta por alumnos hijos nicos. De los 50 alumnos, una proporcin de 06 coman en el Colegio.
Si sabemos que una proporcin de 004, con respecto al total, son hijos nicos que no comen en el
Colegio. Existe una relacin entre ser hijo nico o no y comer o no en el Colegio ?. Halle el coeficiente
de correlacin que corresponda e interprete el resultado.

Comen SI
Comen NO

nico SI
a=3
c=2

nico NO
b=27
d=18

ad bc
318
. 27.2
=0
=
(a + b).(c + d ).(a + c).( b + d )
30.20.5.45

Las variables son independientes. No existe ningn tipo de relacin entre ser hijo nico y comer en el colegio.

32
La desviacin tpica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2.
Tambin conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo
que el ndice de asociacin entre las variables ansiedad y sexo es igual a +1, y que el nmero de
varones es superior al de mujeres :
a) Qu coeficiente de correlacin habr sido utilizado ?.
b) Interprete el valor del coeficiente de correlacin.
c) Calcule la proporcin de varones que componen nuestra muestra.
a)

Biserial puntual (rbp). Una cuantitativa y la otra dicotmica.

b)

Relacin perfecta. Los varones presentan altas puntuaciones en ansiedad y las mujeres bajas.

rbp =
c)

xv xm
10 5
2
. p. q = 1 =
. p. q p. q = = 0'4 p. q = 016
'
2
5
sx

' p p 2 = 016
' p 2 p + 016
' =0p=
p.(1 p) = 016

1 1 0'64 1 0'6 p = 0'8


=
=
2
2
p = 0'2

La solucin es 08 al indicar que hay ms varones que mujeres.

33
0
X 1
2
3

[0,10)
0
0
5
3

Y
[10,20)
1
5
18
2

[20,30)
0
20
6
1

[30,40]
16
3
0
0

Con la presente distribucin bivariante obtenga :


a) recta de regresin de la media de Y condicionada a X
b) coeficiente de correlacin de la media de Y condicionada a X
c) recta de regresin de Y sobre X
d) coeficiente de correlacin lineal (de Y sobre X)
e) razn de correlacin.

Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razn de correlacin calculada.
Regresin y correlacin (F. lvarez) - 25

a) b)
Para cada valor de la variable X, determinamos la media de los correspondientes valores de Y. Obtendremos
tambin las varianzas de cada valor Y para calcular posteriormente la razn de correlacin (apartado e).
[0,10)
[10,20)
[20,30)
[30,40]
X=0

X=1

X=2

X=3

y
f

5
0

15
1

25
0

f.y
f.y2

35
16

15

560

= 575

225

1960

= 2185

= 17

[0,10)

[10,20)

[20,30)

[30,40]

y
f

5
0

15
5

25
20

35
3

f.y

75

500

105

= 680

f.y2

1125

12500

3675

= 17300

[0,10)

[10,20)

[20,30)

[30,40]

5
5

15
18

25
6

35
0

= 29

y
f

= 28

f.y

25

270

150

= 445

f.y2

125

4050

3750

= 7925

[0,10)

[10,20)

[20,30)

[30,40]

5
3

15
2

25
1

35
0

=6

f.y

15

30

25

= 70

75

450

625

= 1150

y
f
f.y

Con las tablas de clculos anteriores obtenemos :

Y (*)

X=0

y 1 = 33'8

= 22 '1453

33'8

17

X=1

y 2 = 24 '3

= 28'0612

24'3

28

X=2

y 3 = 15'3

= 37 '8121

15'3

29

X=3

y 4 = 11'7

11'7

s 2y1
s 2y 2
s 2y 3
s 2y 4

= 55'5556
( )

* Medias de cada Y condicionado a X

Con esta distribucin procedemos a calcular la recta de regresin y el coeficiente de correlacin (omitimos la tabla de
clculos) :
n.X
n.X2
n.Y
n.Y2
n.X.Y

=
=
=
=
=

104
198
1768'9
43565'15
1778'4

Media de X = 1'3
Varianza de X = 0'785
Media de Y = 22'11
Varianza de Y = 55'657
Covarianza = -6'5146

Recta de regresin de la media de Y condicionada a X


Y' = 32'8998 - 8'2989.X
Coeficiente de correlacin de la media de Y condicionada a X
2
r = -0'9856 (r = 0'9714)

c) d)

0
0
0
0
1
1
1
1
2
2
2
2
3
3
3
3

5
15
25
35
5
15
25
35
5
15
25
35
5
15
25
35

26 - Regresin y correlacin (F. lvarez)

n.X

n.X

n.Y

n.Y

n.X.Y

0
1
0
16
0
5
20
3
5
18
6
0
3
2
1
0

0
0
0
0
0
5
20
3
10
36
12
0
9
6
3
0

0
0
0
0
0
5
20
3
20
72
24
0
27
18
9
0

0
15
0
560
0
75
500
105
25
270
150
0
15
30
25
0

0
225
0
19600
0
1125
12500
3675
125
4050
3750
0
75
450
625
0

0
0
0
0
0
75
500
105
50
540
300
0
45
90
75
0

80

104

198

1770

46200

1780

Media de X = 1'3
Varianza de X = 0'785
Media de Y = 22'125
Varianza de Y = 87'9844
Covarianza = -6'5125

Recta de regresin de Y sobre X


Y' = 32'91 - 8'2962.X
Coeficiente de correlacin lineal
2
r = -0'7836 (r = 0'6141)

e)
Razn de correlacin :
2

ni .s y
1
1 17.22'1453 + 28.28'0612 + 29.37'8121 + 6.55'5556
= 1 . 2 i = 1 .
= 0'6317
N
80
87'9844
sY
2

Conclusiones :

Comprobamos que 2 toma un valor comprendido entre 0 y 1 y verifica que 2 r2 (0'6317 0'6141).
Al ser muy prximo 2 a r2, concluimos que la relacin entre las variables X , Y es de tipo lineal.

Esta ltima conclusin habramos deducido al comprobar que las rectas de ajuste de Y sobre X y la de la
media de Y condicionada a X prcticamente coinciden :
Y' = 32'91 - 8'2962.X
Y' = 32'8998 - 8'2989.X

La sustitucin de las observaciones Yi por su promedio, ha permitido aumentar el valor del coeficiente de
correlacin :
r = -0'7836
r = -0'9856
incrementando as la proporcin de varianza explicada por el ajuste :
2
r2 = 0'9714 (97'14%)
r = 0'6141 (61'41%)

34
De un grupo de COU, integrado `por 40 alumnos, conocemos sus calificaciones finales en Matemticas
y en Filosofa. El nmero de aprobados en ambas ascendi a 15, suspendiendo 12 las dos materias,
mientras que slo aprob Matemticas el 10% de los alumnos.
a) Calcule el coeficiente de correlacin ms adecuado para medir el grado de asociacin existente
entre las variables descritas.
b) Asumiendo que las calificaciones en Matemticas y en Filosofa se distribuyen normalmente,
determine otro coeficiente que estudie el nivel de asociacin y no est basado en el concepto de
correlacin de Pearson
Se trata de analizar la relacin que puede existir entre las calificaciones en las dos materias.
a)
Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :

X
Matemticas

ad bc

1 (Aprueban)
0 (Suspenden)

(a + b )(. c + d )(. a + c )(. b + d )

Y - Filosofa
1 (Aprueban)
0 (Suspenden)
a = 15
b=4
c=9
d = 12
24
16

15.12 4.9
19.21.24.16

19
21

= 0'3679 baja relacin entre las variables.

El aprobar o suspender una materia no condiciona el resultado final en la otra.


b)
Siendo las dos variables dicotmicas (normalmente distribuidas inicialmente), calculamos el coeficiente de
correlacin tetracrica (rt).
1 Calculamos los productos : a.d = 15 . 12 = 180 y b.c = 4 . 9 = 36.
2 Como a.d > b.c , calculamos el cociente :
C = a.d / b.c = 180 / 36 = 5
(rt ser positivo)
3 Consultamos la tabla XXV, para el clculo del coeficiente de correlacin tetracrico, localizando el cociente
C=5 en el intervalo (A,B) = (4'8305 , 5'0075), al cul corresponde un coeficiente 0'56 + R.
De aqu :

R=

CA
5 4'8305
=
= 0'00958rt = 0'56 + R = 0'56 + 0'00958 = 0'56958
100.(B A) 100.(5'0075 4'8305)

NOTA :
Generalmente se verifica que el coeficiente de correlacin tetracrica y el coeficiente verifican la
relacin :
Regresin y correlacin (F. lvarez) - 27

rt 1'5 .
(con mayor rigor para valores del coeficiente tetracrico, menores o iguales a 0'5).
En nuestro caso : 1'5 . = 1'5 . 0'3679 = 0'55185 rt
Esto permite tener una referencia sobre el intervalo (-1 , 1), a la hora de interpretar el valor obtenido
con el coeficiente de correlacin tetracrica. Calculando el valor aproximado de , podremos medir el
grado de asociacin :

rt 0'56958
=
= 0'37972
15
'
15
'

baja relacin entre las variables

35
Con el fin de estudiar si existe o no relacin entre las calificaciones en Matemticas y en Filosofa de
COU, seleccionamos seis alumnos. Clasificados por orden de puntuacin final en cada materia result :
Alumno
Matemticas
Filosofa

1
3
3

2
6
5

3
4
6

4
1
4

5
2
1

6
5
2

a) Utilizando el ndice adecuado, basado en el concepto de correlacin de Pearson, establezca el grado


de relacin que existe entre las calificaciones de las dos asignaturas.
b) Resuelva lo solicitado en el apartado anterior mediante un ndice que no est basado en el concepto
de correlacin de Pearson
a)
Calcularemos el coeficiente de correlacin (rangos de Spearman) al presentarse dos variables ordinales
(dos reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemticas y
en Filosofa.
Ordenando las primeras (X), calculamos sus diferencias con las segundas :
X
1
2
3
4
5
6

= 1

Con ello :

Y
4
1
3
6
2
5

d
-3
1
0
-2
3
1

6. d 2

N. ( N 2 1)

= 1

6 . 24

d2
9
1
0
4
9
1
24

6. ( 6 2 1)

= 0'3143

Es decir, apenas existe relacin entre las calificaciones.


b)
Procede ahora el clculo del coeficiente de correlacin (tau) de Kendall :
Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden
ascendente y comparamos cada valor de Y con los Yi siguientes, contando una permanencia (P) si Y < Yi y
una inversin (I) si Y > Yi. :
X
1
2
3
4
5
6

Y
4
1
3
6
2
5

(4,1) I
(4,3) I
(4,6) P
(4,2) I
(4,5) P

(1,3) P
(1,6) P
(1,2) P
(1,5) P

(3,6) P
(3,2) I
(3,5) P

(2,5) P

En total hemos encontrado 8 permanencias (P) y 4 inversiones (I). Con ello :

Np Ni
84
4
=
=
= 0'2667
n.( n 1) 6.(6 1) 15
2
2

Es decir, como ocurri con el coeficiente , existe una escasa relacin entre las calificaciones en Matemticas y
Filosofa.

28 - Regresin y correlacin (F. lvarez)

36
Con el fin de estudiar si existe o no relacin entre las calificaciones en Matemticas y en Filosofa de
COU, seleccionamos 30 alumnos analizando la puntuacin final en cada materia . Teniendo en cuenta
que se nos proporcion en Filosofa solamente si el alumno aprob (A) o suspendi, establezca el
grado de relacin que existe entre las calificaciones en dichas materias.

2
3
4
5
6
8

X
Matemticas

Y
Filosofa
A
S
2
1
5
0
10
2
4
0
3
1
1
1

a) utilizando el ndice adecuado, basado en el concepto de correlacin de Pearson.


b) mediante un ndice que no est basado en el concepto de correlacin de Pearson.
a)
Al ser dicotmica la 2 variable, obtendremos el coeficiente de correlacin biserial puntual :
Y
X

2
3
4
5
6
8

S=0

n.X

n.X2

Y=1
n.X1

2
5
10
4
3
1
25

1
0
2
0
1
1
5

3
5
12
4
4
2
N=30

6
15
48
20
24
16
129

12
45
192
100
144
128
621

4
15
40
20
18
8
105

Y=0
n.X0
2
0
8
0
6
8
24

5
24
25
q=
= 0167
'
= 4'8
p=
= 0'833
30
5
30
621
4'32 = 2'21 s X = 2'21 = 1487
'
s2X =
30

105
= 4'2
25
129
X=
= 4'3
30

X0 =

X1 =

Con esto :

A=1

rbp =

X1 X 0
4'2 4'8
. p. q =
. 0'833.0167
'
'
= 01505
1487
'
sX

Es decir apenas existe relacin entre ambas variables.


b)
Calculemos ahora el coeficiente de correlacin biserial rb :
Tomando el menor de los valores de p y q :
min (p,q) = min (0'833 , 0'167) = 0'167

p. q
(Tabla XXIII), que resulta ser igual a 0'55609 .
f ( z)
X1 X 0 p. q 4'2 4'8
rb =
=
.
.0'55609 = 0'2244
1487
'
sX
f ( z)

obtenemos el valor tabulado del cociente


Con esto :

Aunque no coincide su valor con el coeficiente de correlacin biserial puntual, tambin podemos concluir que
apenas existe relacin entre ambas variables.

37
Hemos encontrado, utilizando el criterio de mnimos cuadrados, que las rectas de regresin de Y sobre
X en puntuaciones directas y tpicas son, respectivamente :

Y' = 1'2 . X + 4

zy' = 0'8 . zx

Sabiendo que : X = 5 , Y = 10 , S X = 2 , S Y = 3 , calcular :


a) La varianza de las puntuaciones pronosticadas en Y.
b) La recta de regresin de Y sobre X, en puntuaciones directas, si sumamos 5 a todos los valores de
X.
c) La recta de regresin de Y sobre X, en puntuaciones directas, si sumamos 3 a todos los valores de Y
y multiplicamos por 2 todos los valores de X.
Regresin y correlacin (F. lvarez) - 29

La recta de ajuste en puntuaciones tpicas nos proporciona el coeficiente de correlacin : r = 0'8


En consecuencia, sobra del enunciado el conocer una de las dos desviaciones tpicas. Conocido r = 0'8 ; b =
1'2 y una de las desviaciones tpicas (de X o de Y), la otra la habramos calculado a partir de la relacin :

r = b.

SX
SY

Su conocimiento permite obtener la covarianza (cuyo clculo tampoco resulta imprescindible) :

r=
a)

S XY
S X . SY

S XY = r. S X . SY = 0'8.2.3 = 4'8

Varianza de los pronsticos : SY'

Obtenida de la relacin que proporciona la proporcin de varianza explicada por el


ajuste :
S 2Y '
= r 2 S 2Y ' = S Y2 . r 2 = 32 .0'8 2 = 5'76
S 2Y
b)
Si a los valores de X les sumamos 5, la nueva media se incrementa en 5, pero las medidas de
dispersin se mantienen inalterables.
Resulta as :
X = 5 + 5 = 10 , Y = 10 , S X = 2 , SY = 3, S XY = 4' 8

b=

Luego :

S XY
= 1'2
S2X

a = Y b. X = 10 12
' . 10 = 2 Y' = 2 + 12
' .X

c)
Si a los valores de Y les sumamos 3, la nueva media se incrementa en 3, pero las medidas de
dispersin se mantienen inalterables.
Si los valores de X los multiplicamos por 2, la nueva media se multiplica por 2, y las medidas de
dispersin tambin (la varianza por el cuadrado).
Resulta as :
X = 5 . 2 = 10 , Y = 10 + 3 = 13 , S X = 2 . 2 = 4 , SY = 3, S XY = 4' 8. 2 = 9'6
Luego :

b=

S XY
S2X

2. S XY 2
= . b = 0'6
2 2 . S2X 4

a = Y b. X = 13 0'6 . 10 = 7 Y' = 7 + 0'6. X

38
Se desea estudiar si existe relacin entre `padecer diabetes y ceguera en la tercera edad. Para ello se
analiza una muestra de 1000 personas del INSERSO encontrndose que de todas ellas un 50%
presentan simultneamente diabetes y ceguera, el 40% no presentan ninguna de ambas deficiencias y
el resto presentan en la misma medida slo una u otra deficiencia. Con estos datos elija, calcule e
interprete el coeficiente de correlacin adecuado a dicho estudio.
Se trata de analizar la relacin que puede existir entre las dos enfermedades.
Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) .
Padecen ambas
50% de 1000
500
No padecen ninguna 40% de 1000
400
Padecen slo diabetes La mitad de los 100 restantes
50
Padecen slo ceguera La mitad de los 100 restantes
50
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :

X
Diabetes

1 (Padece)
0 (No padece)

ad bc

( a + b) .( c + d).( a + c) .( b + d)

Y - Ceguera
1 (Padece)
0 (No padece)
a = 500
b = 50
c = 50
d = 400
550
450

500.400 50.50
= 0'798
550.450.550.450

550
450

alta relacin entre las variables.

El padecer o no una dolencia condiciona el padecer la otra.

30 - Regresin y correlacin (F. lvarez)

EJERCICIOS PROPUESTOS
1
X

4
4
5
6
6
6

0
1
2
2
3
4

3
5
6
2
8
1

0
1
2

2
3
0
0

De la presente distribucin conjunta de las dos variables (X,Y) :


b)
b)
c)

Obtener la recta de regresin de Y sobre X en puntuaciones diferenciales.


Obtener la recta de regresin de X sobre Y en puntuaciones tpicas..
Calcular e interpretar la proporcin de varianza residual.

2
Y

4
1
6
2

6
0
4
4

8
0
0
5

De la presente distribucin conjunta de las variables (X,Y) :


a)
Obtener la recta de regresin de Y sobre X.
b)
Calcular e interpretar el coeficiente de determinacin.
c)
Calcular su varianza residual.

3
De los 10 pares de valores que se representan en el
diagrama de dispersin de la izquierda,
a) Calcular la recta de regresin de Y sobre X.
b) Calcular e interpretar el coeficiente de correlacin
lineal
c) Determinar la proporcin de varianza asociada a X.
d) Calcular la media y varianza de las predicciones Y'.
.

4
Y

3
4
5

0
0
3
5

1
1
7

2
5
15
1

3
12
2
0

De la presente distribucin conjunta de las variables (X,Y) :


a)
Calcular la frecuencia que falta sabiendo que la media de X es igual a 4.
b)
Obtener la recta de regresin de Y sobre X en
puntuaciones diferenciales.
c)
Calcular la proporcin de varianza residual.

5
Edad

Hermanos

[10,15)
[10,15)
[10,15)
[15,20)
[15,20)
[20,25]
[20,25]

0
1
2
1
2
1
2

3
5
9
5
10
3
5

De la distribucin de edades y nmero de hermanos de 40 jvenes :


a)
c)

Obtener las rectas de regresin en puntuaciones directas,


diferenciales y tipificadas.
Calcular e interpretar el coeficiente de correlacin lineal.

6
Las siguientes distribuciones bivariantes pretenden estudiar el grado de relacin existente entre las variables :
a) Puntuacin en un test de agresividad y sexo.
b) Clasificacin (de mayor a menor) segn la nota media obtenida en las asignaturas del curso y en una
prueba tendente a determinar su coeficiente intelectual.
c) Ser bebedor y ser fumador.
Determine y calcule en cada caso el ndice adecuado que permite medir el grado de relacin entre las variables
descritas.

Regresin y correlacin (F. lvarez) - 31

(I)

Puntos
test
[ 0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)

Sexo
Hombre
Mujer
0
2
5
3
11
9
20
22
14
9
6
6

(II)
Alumno
Nota media
C.I.

1
2
3

2
4
4

3
5
6

4
1
1

S
No

Fuman
S
No
4
31
41
14

(III)
Beben

5
6
5

6
3
2

7
La proporcin de varianza residual, en un ajuste de Y sobre X, es del 22'12%.
a)
Determine dicha recta de ajuste sabiendo que a una puntuacin directa X=2 corresponde una
prediccin 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3).
b)
Calcule el coeficiente de correlacin.
c)
Qu pronstico diferencial corresponde a una puntuacin directa X=5, si X = 0 ?.

8
En el estudio de la relacin lineal existente entre dos variables X e Y se observ que eran independientes.
Sabiendo que sus respectivas medias son iguales a 2 y 1, y que tienen por varianzas 0'1538 y 0'6154,
a)
calcule las ecuaciones de las dos rectas de regresin
b)
determine el error tpico de la prediccin.

9
De los clculos realizados para estudiar la relacin existente entre las variables X e Y, se conoce que :
- la recta de ajuste de Y sobre X pasa por el punto (2,2)
- las media de X es igual a 1 y la de Y vale 4
- la varianza de la variable dependiente es igual a 2'2857, y la de las predicciones es 1'9047.
A la vista de estos datos, calcule :
a)
Ecuaciones de las dos rectas de regresin en puntuaciones directas, diferenciales y tpicas.
b)
Proporcin de varianza no asociada a X.

10
Determinar las ecuaciones en puntuaciones diferenciales de las rectas de regresin correspondientes a la
distribucin bivariante (X,Y), sabiendo que las varianzas de ambas variables son 4 y 9 respectivamente y que
existe una relacin lineal perfecta y directa entre ellas.

11
En el estudio de la relacin lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas
0 y 2 de X le corresponden unos pronsticos respectivos 33243 y 77567. Sabiendo que la proporcin de
varianza asociada al ajuste es del 9465% y que la variable dependiente tiene por media 82 y varianza 1536,
calcular :
a) Ecuacin de la recta de ajuste.
b) Coeficiente de correlacin.
c) Media y varianza de la variable X.
d) Varianza residual y de las predicciones.

12
Analizamos las edades de 8 personas que acuden a un examen para la obtencin del carnet de conducir.
Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 aos,
determine el coeficiente ms adecuado para medir el grado de relacin de la edad con la superacin o no del
examen.

13
Para los siguientes pares de valores de las variables X e Y :
(12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 65) , (14 , 2) , (11, 85) , (12, 3) , (14 , 15) , (10, 9) , ( 11, 7)
calcular la proporcin de varianza que explica el ajuste de Y sobre X.

14
X
Y
f

0
-6
3

1
-2
6

1
-1
11

1
1
16

32 - Regresin y correlacin (F. lvarez)

2
3
3

3
8
1

3
9
4

5
12
2

Determine la varianza de los errores y de las


predicciones, correspondientes al ajuste de Y
sobre X en la distribucin anterior.

15
En un grupo de 10 alumnos se han obtenido las calificaciones en Anatoma, separando el ejercicio terico del
prctico. El profesor encargado orden tales calificaciones de mayor a menor puntuacin, encontrando los
resultados siguientes :
Alumno
Clasificacin teora
Clasificacin prctica

1
6
6

2
2
10

3
7
4

4
10
3

5
4
9

6
1
7

7
8
2

8
5
5

9
9
1

10
3
8

Elija y calcule el ndice de correlacin adecuado para medir si existe relacin o no entre las calificaciones en las
dos partes del examen.

16
Para los valores 0 y 2 de la variable X se obtuvieron unos pronsticos de la variable dependiente iguales a
68617 y 140531 respectivamente.
Sabiendo que la proporcin de varianza de la variable Y no asociada a la variacin de X es del 1732%, y la
varianza de la variable independiente es 29375, calcular :
a) la ecuacin de la recta de regresin de Y sobre X.
b) la varianza de las puntuaciones pronosticadas y la varianza residual.
c) el coeficiente de correlacin entre X e Y

17
Y

0
1
2

1
6
0
2

2
8
7
0

3
3
10
5

4
0
1
8

5
1
0
6

Con la presente distribucin bivariante obtenga :


a) recta de regresin de la media de Y condicionada a X
b) coeficiente de correlacin de la media de Y condicionada a X
c) recta de regresin de Y sobre X
d) coeficiente de correlacin lineal (de Y sobre X)

e) razn de correlacin.
f) Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razn de correlacin calculada.

18
Determine y calcule en cada uno de los siguioentes supuestos, el ndice adecuado (no basado en el concepto
de correlacin de Pearson) que permita medir el grado de asociacin entre las variables X e Y.
(I)

Y
X
-2
-1
0
1
2

0
6
4
2
0
1

1
1
4
6
5
8

(II) (ordinales)
X
Y

A
C

B
F

C
D

D
E

1
0

1
2
50

(III)

E
A

F
B

Y
X

0
40
8

Regresin y correlacin (F. lvarez) - 33

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
s 2X = 0'7456

X = 5'12
a) b = 1'133
b) r = 0'909
c) 1 - r2 = 0'1737

s 2Y = 1'1584

Y = 1'96

s XY = 0'8448

y' = 1'133 . x
zy' = 0'909 . zx
La proporcin de varianza no explicada por X supone el 17'37% de la de Y.

2
s 2X = 0'5216

X = 1'28
a) a = 2'6871
b) R2 = r2 = 0'5711
c) s 2 = 1'5097
Y.X

s 2Y = 3'52

Y = 5'2

s XY = 1'024

Y' = 2'6871 + 1'9632 . X


b = 1'9632
Representa la proporcin de varianza de Y explicada por X (el 57'11%)

3
s 2X = 8'25

X = 5'5
a) a = 1'9333
b) r = 0'8188
c) R2 = r2 = 0'6704
d)
Y ' = Y = 405

s 2Y = 1'8225

Y = 4'05

s XY = 3'175

Y' = 1'9333 + 0'3848 . X


b = 0'3848
Elevada relacin entre las variables (de tipo directo)

s 2Y' = 1'2218

4
s 2X = 0'5714

X =4
a) f = 12
b) b = -0'9167
c) 1 - r2 = 0'4813

y' = -0'9167 . x

X = 16'375

s 2X = 14'3594

Y = 1'6508

s 2Y = 0'9257

s XY = -0'5238

Y = 1'525

s 2Y = 0'3994

s XY = 0'4656

5
a = 0'994
b = 0'0324
a' = 14'597
b' = 1'1659
r = 0'1944
y' = 0'0324 . x
zy' = 0'1944 . zx
a) Y' = 0'994 + 0'0324 . X
X' = 14'597 + 1'1659 . Y
x' = 1'1659 .y
zx' = 0'1944 . zy
Las variables no estn relacionadas linealmente (son independientes)
b) r = 0'1944

6
(I)

Coeficiente biserial puntual

rbp = 0'0389

(II)

Coeficiente de los rangos de Spearman

= 0'8857

(III)

Coeficiente

= - 0'6154

7
a)

Y = 0'3 + 0'9 . X

a)

Y' = 1

b)

r = 0'8825

b)

sY.X = sY = 0'7845

c)

y' = 4'5

8
X' = 2

9
a) Y' = 6 - 2 . X
X' = 2'6667 - 0'4167 . Y
b) 1 - r2 = 0'1667

10
y' = 1'5 . x

x' = 0'6667 . y

34 - Regresin y correlacin (F. lvarez)

y' = -2 . x
x' = -0'4167 .y

zy' = -0'9129 . zx
zx' = -0'9129 . zy

11
a)
b)
c)
d)

Y = 33243 + 22162.X
09729
22, 296
08216, 145384

12
rbp = 056

13
08331

(o bien el 8331%)

14
19543 ; 155069

15
= -08667

16
a)
b)
c)

Y = 68617 + 35957 . X
3998 y 796
09093

a)
b)
c)
d)
e)

YM = 1'9317 + 0'9049 . X
rM = 0'9924
Y = 1'9268 + 0'8862 . X
r = 0'6067
2 = 03749 (prximo a r2 = 0'3681)

17

18
(I)

Coeficiente biserial

rb = - 0'7250

(II)

Coeficiente de Kendall

= - 0'3333

(III)

Coeficiente tetracrico

rt = - 0'7744

Regresin y correlacin (F. lvarez) - 35

Clculo del coeficiente de correlacin biserial


La tabla proporciona, para el menor de los valores p y q, la cantidad :

min(p,q)
0'00
0'01
0'02
0'03
0'04
0'05
0'06
0'07
0'08
0'09
0'10
0'11
0'12
0'13
0'14
0'15
0'16
0'17
0'18
0'19
0'20
0'21
0'22
0'23
0'24
0'25
0'26
0'27
0'28
0'29
0'30
0'31
0'32
0'33
0'34
0'35
0'36
0'37
0'38
0'39
0'40
0'41
0'42
0'43
0'44
0'45
0'46
0'47
0'48
0'49
0'50

0'000
0'37186
0'40502
0'42781
0'44569
0'46061
0'47349
0'48487
0'49508
0'50435
0'51284
0'52066
0'52791
0'53465
0'54096
0'54686
0'55240
0'55762
0'56253
0'56716
0'57154
0'57568
0'57958
0'58328
0'58677
0'59007
0'59319
0'59614
0'59892
0'60154
0'60401
0'60633
0'60851
0'61055
0'61245
0'61422
0'61586
0'61738
0'61878
0'62006
0'62122
0'62226
0'62319
0'62401
0'62471
0'62531
0'62579
0'62617
0'62644
0'62660
0'62666

p.q
f ( z)

0'001

0'002

0'003

0'004

0'005

0'006

0'007

0'008

0'009

0'29788
0'37603
0'40762
0'42977
0'44729
0'46198
0'47469
0'48594
0'49605
0'50523
0'51365
0'52141
0'52860
0'53530
0'54156
0'54743
0'55294
0'55812
0'56301
0'56761
0'57196
0'57608
0'57996
0'58364
0'58711
0'59039
0'59350
0'59643
0'59919
0'60180
0'60425
0'60656
0'60872
0'61074
0'61263
0'61439
0'61602
0'61753
0'61891
0'62018
0'62133
0'62236
0'62328
0'62408
0'62478
0'62536
0'62584
0'62620
0'62646
0'62661

0'31576
0'37994
0'41014
0'43169
0'44887
0'46333
0'47587
0'48700
0'49701
0'50611
0'51445
0'52215
0'52929
0'53595
0'54217
0'54800
0'55347
0'55862
0'56348
0'56806
0'57239
0'57647
0'58034
0'58399
0'58745
0'59071
0'59380
0'59671
0'59946
0'60205
0'60449
0'60678
0'60893
0'61094
0'61281
0'61456
0'61618
0'61767
0'61904
0'62030
0'62143
0'62245
0'62336
0'62416
0'62484
0'62541
0'62588
0'62623
0'62648
0'62662

0'32772
0'38363
0'41257
0'43357
0'45042
0'46466
0'47704
0'48804
0'49795
0'50697
0'51525
0'52289
0'52998
0'53659
0'54277
0'54856
0'55400
0'55912
0'56395
0'56850
0'57281
0'57687
0'58071
0'58435
0'58778
0'59103
0'59410
0'59699
0'59973
0'60230
0'60472
0'60700
0'60913
0'61113
0'61299
0'61473
0'61633
0'61781
0'61917
0'62042
0'62154
0'62255
0'62345
0'62423
0'62490
0'62547
0'62592
0'62626
0'62650
0'62663

0'33699
0'38712
0'41493
0'43540
0'45195
0'46597
0'47820
0'48908
0'49889
0'50783
0'51604
0'52362
0'53066
0'53723
0'54336
0'54912
0'55453
0'55962
0'56442
0'56895
0'57322
0'57726
0'58109
0'58470
0'58811
0'59134
0'59439
0'59727
0'59999
0'60255
0'60496
0'60722
0'60934
0'61132
0'61317
0'61489
0'61649
0'61796
0'61930
0'62053
0'62165
0'62264
0'62353
0'62430
0'62496
0'62552
0'62596
0'62629
0'62652
0'62664

0'34469
0'39044
0'41722
0'43720
0'45345
0'46726
0'47934
0'49011
0'49982
0'50868
0'51682
0'52435
0'53134
0'53786
0'54396
0'54967
0'55505
0'56011
0'56488
0'56938
0'57364
0'57766
0'58146
0'58505
0'58845
0'59166
0'59469
0'59755
0'60025
0'60280
0'60519
0'60744
0'60954
0'61151
0'61335
0'61506
0'61664
0'61810
0'61943
0'62065
0'62175
0'62274
0'62361
0'62437
0'62502
0'62556
0'62600
0'62632
0'62654
0'62664

0'35133
0'39360
0'41945
0'43897
0'45492
0'46854
0'48047
0'49112
0'50074
0'50953
0'51760
0'52507
0'53201
0'53849
0'54454
0'55023
0'55557
0'56060
0'56534
0'56982
0'57405
0'57805
0'58182
0'58540
0'58878
0'59197
0'59498
0'59783
0'60051
0'60304
0'60542
0'60765
0'60975
0'61170
0'61353
0'61522
0'61679
0'61824
0'61956
0'62077
0'62186
0'62283
0'62369
0'62444
0'62508
0'62561
0'62603
0'62635
0'62655
0'62665

0'35722
0'39663
0'42162
0'44069
0'45638
0'46980
0'48159
0'49213
0'50166
0'51036
0'51838
0'52579
0'53268
0'53911
0'54513
0'55078
0'55609
0'56109
0'56580
0'57025
0'57446
0'57843
0'58219
0'58574
0'58910
0'59228
0'59528
0'59811
0'60077
0'60329
0'60565
0'60787
0'60995
0'61189
0'61370
0'61538
0'61694
0'61837
0'61969
0'62088
0'62196
0'62292
0'62377
0'62451
0'62514
0'62566
0'62607
0'62637
0'62657
0'62665

0'36253
0'39954
0'42373
0'44239
0'45781
0'47105
0'48270
0'49312
0'50256
0'51120
0'51914
0'52650
0'53334
0'53973
0'54571
0'55132
0'55660
0'56157
0'56626
0'57069
0'57487
0'57882
0'58256
0'58609
0'58943
0'59258
0'59557
0'59838
0'60103
0'60353
0'60588
0'60808
0'61015
0'61208
0'61388
0'61554
0'61709
0'61851
0'61981
0'62099
0'62206
0'62301
0'62385
0'62458
0'62520
0'62571
0'62611
0'62640
0'62658
0'62665

0'36738
0'40233
0'42579
0'44406
0'45922
0'47228
0'48379
0'49411
0'50346
0'51202
0'51990
0'52721
0'53400
0'54034
0'54629
0'55186
0'55711
0'56205
0'56671
0'57111
0'57527
0'57920
0'58292
0'58643
0'58975
0'59289
0'59585
0'59865
0'60129
0'60377
0'60611
0'60830
0'61035
0'61226
0'61405
0'61570
0'61724
0'61865
0'61993
0'62111
0'62216
0'62310
0'62393
0'62465
0'62525
0'62575
0'62614
0'62642
0'62659
0'62666

36 - Regresin y correlacin (F. lvarez)

PROBABILIDAD
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez
francisco.alvarez@uca.es

REPASO DE COMBINATORIA
VARIACIONES ORDINARIAS
Caractersticas :
No se pueden repetir los elementos
El orden de colocacin de los elementos tiene influencia.
VARIACIONES CON REPETICIN
Caractersticas :

Vn, p =

Nmero :

VRn, p = n p

Nmero :

n
n!
Cn, p = =
p p!.(n p )!

Se pueden repetir los elementos


El orden de colocacin de los elementos tiene influencia.
COMBINACIONES ORDINARIAS
Caractersticas :
No se pueden repetir los elementos
El orden de colocacin de los elementos no influye.

n!
(n p )!

Nmero :

NOTA : Factorial de un nmero n = n! = n.(n-1).(n-2). ... . 2 . 1


5! = 5.4.3.2.1 = 120
0! = 1

SUCESOS ALEATORIOS
EXPERIENCIA ALEATORIA es aquella que no est sometida a una ley concreta. Su ocurrencia slo depende del azar.
ESPACIO MUESTRAL (E) es el conjunto de las posibles ocurrencias (sucesos elementales) de una experiencia
aleatoria.
SUCESO ALEATORIO es cualquier subconjunto o parte del espacio muestral.
OPERACIONES :
UNIN DE SUCESOS
AB
AoB
INTERSECCIN DE SUCESOS
AB
AyB
SUCESO CONTRARIO
A
no A
SUCESOS ESPECIALES :
SUCESO SEGURO
E
siempre se verifica
SUCESO IMPOSIBLE

nunca se verifica
SUCESOS COMPATIBLES
AB
tienen algo en comn
SUCESOS INCOMPATIBLES
AB=
no tienen nada en comn
EJEMPLO :
Lanzar un dado es una experiencia aleatoria (nunca podremos asegurar el valor que se obtiene al lanzarlo). El conjunto
de las posibles ejecuciones constituye el espacio muestral E = { 1, 2, 3, 4, 5, 6 } .
A B = { 2 , 3 , 4, 6 }
A = { salga cifra par } = { 2 , 4 , 6 }
AB={6}
B = { ser mltiplo de 3 } = { 3 , 6 }
A = { salga cifra impar } = { 1 , 3 , 5 }
C = { ser mltiplo de 5 } = { 5 }
A y B son compatibles A B = { 3 }
A y C son incompatibles A C =

PROBABILIDAD
DEFINICIN :
Probabilidad es una ley que asocia a cada suceso un valor numrico, sometida a las siguientes condiciones :
1
La probabilidad siempre estar comprendida entre 0 y 1 :
0 Pr(A) 1
2
La probabilidad del suceso seguro es igual a 1 :
Pr(E) = 1
3
Axioma de probabilidades totales :
Si dos sucesos A y B son incompatibles ( A B = ) , se verifica que Pr(A B) = Pr(A) + Pr(B)
PROPIEDADES ELEMENTALES :
I.
Pr (A) = 1 - Pr( A )
II.
La probabilidad del suceso imposible es igual a 0 :

Pr() = 0
Probabilidad (F. lvarez) - 1

REGLA DE LAPLACE :
La probabilidad de un suceso es el cociente entre el nmero de situaciones en que puede presentarse dicho
suceso y el nmero total de situaciones posibles.
TEOREMA DE PROBABILIDADES TOTALES :
Pr(A B) = Pr(A) + Pr(B) - Pr(A B)
Generalizando :

Pr( A 1 A 2 A 3 ... ) =

Pr( A ) Pr( A
i

Aj ) +

Pr( A

A j A k ) ...

As, por ejemplo :


Pr(ABCD) =
Pr(A) + Pr(B) + Pr(C) + Pr(D) - Pr(AB) - Pr(AC) - Pr(AD) - Pr(BC) - Pr(BD) - Pr(CD) +
+ Pr (ABC) + Pr (ABD) + Pr(ACD) + Pr(BCD) - Pr(ABCD)
PROBABILIDAD CONDICIONADA. TEOREMA DE PROBABILIDADES COMPUESTAS :
B/A = suceso B condicionado al A ( ocurrir B habiendo ocurrido A ).

Pr( B / A ) =
Generalizando :

Pr( A B )
Pr( A )

Pr( A B ) = Pr( A ).Pr( B / A )

Pr( A 1 A 2 A 3 ... ) = Pr( A 1 ).Pr( A 2 / A 1 ).Pr( A 3 / A 1 A 2 ). ...

TEOREMA DE BAYES :
Sean n causas independientes Ai con probabilidades
Pr(Ai) conocidas y sea B un suceso que puede
presentarse en cada una de ellas, siendo conocidas las
probabilidades Pr(B/Ai).
Se verifica entonces que :

Pr( A k / B ) =

Pr( A k ).Pr( B / A k )
n

Pr( A ).Pr( B / A )
i

i=1

2 - Probabilidad (F. lvarez)

EJERCICIOS RESUELTOS
1
Al extraer al azar una ficha del juego del domin, calcular la probabilidad de que sume un nmero de
puntos mltiplo de 3.
En situaciones como la presente nos vemos obligados a desarrollar el espacio muestral, contando, posteriormente, las
situaciones que se ajustan al problema (casos favorables).

Probabilidad
mltiplo de 3
0'32143

de
sumar
= 9 / 28 =

2
Al lanzar al aire cuatro monedas, calcular la probabilidad de obtener al menos dos caras.
En este caso podramos contar las distintas situaciones, si bien puede efectuarse un desarrollo previo del espacio
muestral :
CCCC
CCC+
CC++
C+++
++++

CC+C
C+C+
+C++

C+CC
C++C
++C+

+CCC
+CC+
+++C

+C+C

++CC

Se obtienen 4 caras
Se obtienen 3 caras y 1 cruz
Se obtienen 2 caras y 2 cruces
Se obtienen 1 cara y 3 cruces
Se obtienen 4 cruces

Del total de 16 situaciones posibles, en 11 de ellas se obtienen al menos dos caras. As : Pr = 11/16 = 0'6875
Sin proceder al desarrollo de todas las posibilidades :
a)
Situaciones posibles : VR2,4 = 24 = 16
b)
Se obtienen cuatro caras en 1 solo caso
Se obtienen tres caras en C4,3 = 4 casos
Se obtienen tres caras en C4,2 = 6 casos

3
Una caja contiene seis bolas blancas, tres rojas y dos negras. Al extraer simultneamente dos bolas de
ella, calcular la probabilidad de que sean :
a)
las dos blancas
b)
las dos del mismo color

6

2
15
Pr(a ) = =
= 0'2727
11 55

2

6 3 2
+ +
2
2
2
19
Pr(b) = =
= 0'3453
55
11

2

4
Una caja contiene seis bolas blancas (B), tres rojas (R) y dos negras (N). Al extraer sucesivamente dos
bolas de ella, calcular la probabilidad de que sean de distinto color:
a)
supuesta la extraccin con devolucin de la bola extrada
b)
supuesta la extraccin sin devolucin de la bola extrada
Las posibles situaciones que se ajustan al problema son : BR , BN , RB , RN , NB , NR
a)

Pr =

6 3
6 2
3 6
3 2
2 6
2 3
72
. + . + . + . + . + . =
= 0' 595
11 11 11 11 11 11 11 11 11 11 11 11 121
Probabilidad (F. lvarez) - 3

b)

Pr =

6 3
6 2
3 6
3 2
2 6
2 3
72
. + . + . + . + . + .
=
= 0' 6545
11 10 11 10 11 10 11 10 11 10 11 10 110

5
La siguiente tabla nos muestra la distribucin del alumnado de un Centro en funcin del curso y del
sexo.
Hombre
Mujer
Seleccionado un alumno al azar, calcular la probabilidad
1
15
25
a) de que sea mujer o estudie 2
2
10
30
b) de que no estudie 1 y sea hombre
3
25
45
c) de que sea mujer sabiendo que no es de 2
b)

a)

Pr =

c)

110
= 0' 733
150

Pr =

35
= 0' 233
150

Pr =

70
= 0' 6364
110

6
Al extraer simultneamente tres cartas de la baraja espaola, calcular la probabilidad de que :
a)
todas sean de oros
b)
al menos dos sean figuras
c)
sean del mismo palo
d)
sean de distinto palo
e)
no sean del mismo palo

a) Las tres de oros :

10

3
Pr =

b) Dos figuras o tres figuras :

12 28 12
. +
2
1
3
Pr =

c)

Las

tres

de

oros

10 10 10 10
+ + +
3
3
3
3
Pr =

40

3

de

40

3

120
= 0'0121
9880

40

3

copas

2068
= 0'2093
9880

de

espadas

de

bastos

480
= 0'0486
9880

Antes de efectuar lo solicitado en los apartados d) y e) , veamos su diferencia. Ser de distinto palo significa que,
por ejemplo, una sea de oros, otra de espadas y otra de bastos. No ser del mismo palo se presenta cuando, por
ejemplo, dos son de oros y la otra de copas.
El apartado d) se verifica al obtener :
oro-copa-espada ; oro-copa-basto ; oro-espada-basto ; copa-espada-basto.
El apartado e) es aconsejable resolverlo a partir del suceso contrario (ser del mismo palo).

d)

10 10 10

. .

1 1 1

= 4000 = 0'4049

Pr = 4.
40 9880

e)

Pr = 1 - Pr(ser del mismo palo) = 1 - 0'0486 = 0'9514

4 - Probabilidad (F. lvarez)

7
Una rata se mueve libremente por los compartimentos dibujados en
el esquema de la izquierda. Supuesto que parte inicialmente del
identificado con el nmero 1, calcular :
a)
probabilidad de que alcance el compartimento 4, despus
de realizar tres desplazamientos.
b)
probabilidad de que alcance un compartimento par
despus de realizar tres desplazamientos, sabiendo que el primer
desplazamiento lo hace al compartimento 2.

a)

Desplazamientos posibles

Probabilidad

1 1 1
. .
3 4 4
1 1 2
. .
3 4 3
2 1 1
. .
3 3 4
2 2 2
. .
3 3 3

1-2 ; 2-5 ; 5-4


1-2 ; 2-1 ; 1-4
1-4 ; 4-5 ; 5-4
1-4 ; 4-1 ; 1-4

Total

1 1 1 1 1 2 2 1 1 2 2 2
. . + . . + . . + . .
3 4 4 3 4 3 3 3 4 3 3 3

Pr = 0'4282

b)
Si observamos las distintas posibilidades, siempre se acaba en un compartimento par. La probabilidad es pues
igual a 1.
Si no se advierte tal circunstancia, el problema se traduce en alcanzar un compartimento par, partiendo del 2,
en dos desplazamientos.
Desplazamientos
2-1 ; 1-2
2-3 ; 3-2
2-5 ; 5-2
2-1 ; 1-4
2-3 ; 3-6
2-5 ; 5-4
2-5 ; 5-6

Pr =

1 1 2 2 1 1 1 2 2 2 1 1 1 2 4 + 12 + 3 + 8 + 12 + 3 + 6 48
. + . + . + . + . + . + . =
=
=1
4 3 4 4 4 4 4 3 4 4 4 4 4 4
48
48

8
La tabla nos muestra la distribucin final del
alumnado de Bachillerato.
a)
Hallar la probabilidad de que un
alumno no apruebe todas las asignaturas o sea
en la actualidad de 2 de BUP.
Si un cierto alumno debe repetir curso, calcule la probabilidad de que actualmente sea de 2 de

b)
BUP.
c)
Preguntamos a los tres primeros alumnos que salen del Centro. Hallar la probabilidad de que
sean del mismo curso.
a)

Pr =

140
= 0' 667
210

b)

Pr =

18
= 0' 4186
43

Probabilidad (F. lvarez) - 5

Por las caractersticas del enunciado, puede


pensarse en una aplicacin del Teorema de Bayes.
Resuelto por este mtodo, el suceso B es repetir
curso y los sucesos A1 , A2 y A3 , ser de 1, de 2
y de 3 respectivamente.
La probabilidad se calculara :

70
210
15
Pr( B / A 1 ) =
70

70
70
Pr( A 3 ) =
210
210
18
10
Pr( B / A 2 ) =
Pr( B / A 3 ) =
70
70
70 18
.
18
210 70
Pr( A 3 / B ) =
=
= 0' 4186
70 15 70 18 70 10 43
. +
. +
.
210 70 210 70 210 70

Pr( A 1 ) =

c)

Pr( A 2 ) =

Probabilidad de ser los tres de 1 o de 2 o de 3 :

Pr =

70 69 68
70 69 68
70 69 68
70 69 68
.
.
+
.
.
+
.
.
= 3.
.
.
= 0' 1079
210 209 208 210 209 208 210 209 208
210 209 208

9
Una experiencia consiste en lanzar una bola por el laberinto inclinado de la figura.
Hallar la probabilidad de que :
a)
b)
c)

la bola no salga por B .


la bola salga por C , sabiendo que pas por la bifurcacin 2 .
la bola pase por la bifurcacin 3 .

Indicamos a-b el paso desde el nudo o bifurcacin a a la b.


a)

Determinemos la probabilidad del suceso contrario (salir por B). Esto se produce si la bola realiza el recorrido
( 1-2 ; 2-4 ; 4-B ) o bien el ( 1-2 ; 2-5 ; 5-B ). La probabilidad pedida es :

1 1 1 1 1 1
Pr( B ) = 1 Pr( B) = 1 . . + . . = 0'75
2 2 2 2 2 2
b)

El camino recorrido ser ( 2-5 ; 5-C ). La probabilidad pedida es :

Pr =
c)

1 1
. = 0' 25
2 2

Al salir de 1, la bola puede pasar por 2 o por 3. La probabilidad pedida es :

Pr =

1
= 0' 5
2

10
Una fbrica funciona las 24 horas del da con tres turnos de 30 trabajadores cada uno. En el primer
turno el 40 % son mujeres; en el segundo hay 18 mujeres y, en el tercero, slo el 10 % son mujeres.
a)
Seleccionadas al azar dos fichas de empleados de la fbrica (de forma simultnea), determine
la probabilidad de que pertenezcan a trabajadores del mismo turno.
b)
Tomamos una ficha al azar y corresponde a una mujer. Calcule la probabilidad de que sea la de
una de las que trabajan en el turno 3.
Detallemos previamente el nmero de mujeres y hombres de cada turno, sabiendo que en total hay 30 :
Turno 1
Turno 2
Turno 3
12
18
3
Mujeres
18
12
27
Hombres
a)

Probabilidad de ser ambos del turno 1 o del 2 o del 3 :

6 - Probabilidad (F. lvarez)

30 30 30
+ +
2
2
2
Pr =

1305
=
= 0'3259
90
4005

2

b)

Nos encontramos en este caso en una aplicacin del Teorema de Bayes.


El suceso B que conocemos se ha presentado es B = ser mujer. Tal suceso se puede dar o puede proceder
del primer turno (A1), del 2 (A2) o del 3 (A3).

30 1
=
90 3
18
Pr( B / A 2 ) =
30

Pr( A 1 ) = Pr( A 2 ) = Pr( A 3 ) =

Pr( B / A 1 ) =

12
30

3
30
1 3
.
3
3 30
=
= 0' 0909
Pr( A 3 / B ) =
1 12 1 18 1 3
33
+ .
+ .
.
3 30 3 30 3 30

La probabilidad pedida es :

Pr( B / A 3 ) =

11
Disponemos de tres urnas con la distribucin de bolas
blancas y rojas indicada en el grfico de la izquierda.
a) Extrada una bola de una de las urnas, hallar la probabilidad de que sea blanca.
b) Extrada una bola de una de las urnas result ser blanca, hallar la probabilidad de que proceda de la 2
urna.
a)
La pregunta es preciso detallarla con mayor precisin. Se trata de elegir la 1 urna y extraer bola blanca o
seleccionar la 2 y extraer bola blanca o seleccionar la 3 y extraer bola blanca. Con esto, la probabilidad pedida ser :

Pr =

1 2 1 4 1 3 9
. + . + . =
= 0' 6
3 5 3 5 3 5 15

b)

Aplicacin del Teorema de Bayes.


El suceso B que conocemos se ha presentado es B = ser blanca. Tal suceso se puede dar o puede proceder
de la primera urna (A1), de la 2 (A2) o de la 3 (A3).

Pr( A 1 ) = Pr( A 2 ) = Pr( A 3 ) =


Pr( B / A 1 ) =

2
5

1
3

Pr( B / A 2 ) =

La probabilidad pedida es :

4
5

3
5
1 4
.
4
3 5
= = 0' 444
Pr( A 2 / B ) =
1 2 1 4 1 3 9
. + . + .
3 5 3 5 3 5
Pr( B / A 3 ) =

Sera correcto, en este caso, resolver el problema en base al conocimiento simple de que la bola extrada es
blanca.
La probabilidad de que proceda de la 2 urna (teniendo en cuenta que hay 2 bolas blancas en la 1, 4 en la 2 y
3 en la 3) sera igualmente:

Pr( A 2 / B ) =

4
4
= = 0' 444
2+ 4+ 3 9

12
Un arquero acierta en el centro de una diana en 7 de cada 10 lanzamientos. Calcule la probabilidad de
dar en el centro de la diana si dispara 6 flechas.
Al realizar los 6 disparos puede que d en el centro de la diana 1, 2, ... , 6 veces. Se trata de calcular la probabilidad de
dar en el centro de la diana alguna vez. Es decir, lo contrario de no dar en ninguna ocasin.
La probabilidad de dar en el centro de la diana, en cada disparo, es 7/10 = 0'7. La de no dar : 3/10=0'3.

3 3 3 3 3 3
Pr(dar algunavez) = 1 Pr(nodar ) = 1 . . . . . = 1 0'36 = 0'999271
10 10 10 10 10 10

Probabilidad (F. lvarez) - 7

13
En las pruebas de acceso a la Universidad, el 45% son alumnos de la opcin A, el 10% de la B, el 30%
de la C y el resto de la opcin D. Se sabe que aprueban el 80% de los alumnos de la opcin A, la mitad
de los que cursaron las opciones C y D y el 60% de los de la opcin B.
Si un cierto alumno aprob la prueba, calcule la probabilidad de haber cursado la opcin C.
Ejemplo clsico de aplicacin del Teorema de Bayes.
El suceso B que conocemos se ha presentado es B = aprobar la prueba. Tal suceso se puede dar o puede proceder
de la opcin A (A1), de la B (A2), de la C (A3) o de la D (A4).

Pr( A 1 ) = 0' 45
Pr( A 2 ) = 0' 10
Pr( A 3 ) = 0' 30
Pr( A 4 ) = 0' 15
Pr( B / A 1 ) = 0' 80
Pr( B / A 2 ) = 0' 60
Pr( B / A 3 ) = 0' 50
Pr( B / A 4 ) = 0' 50

La probabilidad pedida es :

Pr( A 3 / B ) =

0' 30 . 0' 50
0' 15
=
= 0' 23256
0' 45 . 0' 80 + 0' 10 . 0' 60 + 0' 30 . 0' 50 + 0' 15 . 0' 50 0' 645

14
En un examen de Psicologa Matemtica I se les proponen a los alumnos tres problemas (A, B y C), de
los que han de elegir uno. La mitad de los alumnos eligen el problema A, y de stos aprueban el 60%. El
30% eligen el B, suspendiendo el 25%. Por ltimo, entre los que eligen el C aprueban el 30%.
a) Considerando a todos los alumnos, cul es la probabilidad de aprobar el examen ?.
b) Sabiendo que un alumno ha aprobado, cul es la probabilidad de que haya elegido el problema A
?.
c) Sabiendo que un alumno suspendi, cul es la probabilidad de que haya elegido el problema C ?.
El problema puede resolverse siguiendo dos procedimientos:
1.- Utilizando propiedades del clculo de probabilidades (especialmente el Teorema de Bayes).
2.- Aplicando el puro y simple sentido comn. Para ello es aconsejable exponer de forma clara los datos del
problema:
A
Aprueban
Suspenden
TOTAL

60% de 50
40% de 50
50%

B
30
20
50

75% de 30
25% de 30
30%

C
225
75
30

30% de 20
70% de 20
20%

6
14
20

Mtodo 1 :
a)
030 =
b)

Pr(aprobar) = Pr(elegir A y aprobar o elegir B y aprobar o elegir C y aprobar) = 050 . 060 + 030 . 075 + 020 .
= 0585.
Teorema de Bayes :

Pr( A ).Pr( aprobado / A )


=
Pr( A ).Pr( aprobado / A ) + Pr( B ).Pr( aprobado / B ) + Pr( C).Pr( aprobado / C)
0'50.0'60
0'30
=
= 0'5128
=
0'50.0'60 + 0'30.0'75 + 0'20.0'30 0'585

Pr( A / aprobado ) =

c)

Teorema de Bayes :

Pr( C). Pr( suspenso / C)


=
Pr( A ). Pr( suspenso / A ) + Pr( B ). Pr( suspenso / B ) + Pr( C). Pr( suspenso / C)
0'20.0'70
0'14
=
= 0'3373
=
0'50.0'40 + 0'30.0'25 + 0'20.0'70 0'415

Pr( C / suspenso ) =

Mtodo 2 :
a)
b)
c)

Pr(aprobar) = (30+225+6) / 100 = 585 / 100 = 0585.


Observando slo los aprobados (en total 585) :
Pr(A/aprob) = 30 / 585 = 05128
Observando slo los suspensos (en total 415) :
Pr(C/suspendi) = 14 / 415 = 03373

15
La E.M.T. de Madrid dispone de 8 lneas de autobuses para ir de la ciudad al campus universitario.
Calcular de cuntas formas puede un estudiante hacer el viaje de ida y vuelta, si :
a) Los autobuses de ida y vuelta pueden ser de la misma o diferente lnea.
b) Los autobuses de ida y vuelta han de ser de diferente lnea.
c) Los autobuses de ida y vuelta han de ser de la misma lnea.
a)
b)

8x8 = 64 (por cada lnea de ida puede tomar las ocho de vuelta)
8x7 = 56 (por cada lnea de ida puede tomar lslo siete de vuelta)

8 - Probabilidad (F. lvarez)

c)

8 (las ocho lneas)

16
Sabemos que de cada 10000 mujeres 25 sufren de daltonismo y 5 de cada 100 hombres tambin tienen
la misma anomala. Suponiendo que existe igual nmero de hombres que de mujeres, y que elegimos
aleatoriamente de sta una persona, cul es la probabilidad de que sea varn, supuesto que sufre
daltonismo ?.

Daltnico
No daltnico

Hombre
500
9500

Mujer
25
9975

Trabajamos sobre 10000 individuos


Prob = 500 / 525 = 09524

17
En un experimento de condicionamiento se sita a una rata en el centro de un
laberinto como el de la figura. En cada uno de los ensayos la rata elige
siempre uno de los tres caminos (A, B, C) con igual probabilidad
(P(A)=P(B)=P(C)=1/3). El suelo de cada uno de estos tres caminos es una
rejilla elctrica que dispensa una descarga (D) de 5V a la rata, una vez que lo
ha pisado, con distinta probabilidad : para A, para B y 0 para C.
En un determinado ensayo la rata no recibi la descarga elctrica. Cul es la
probabilidad de que haya elegido el camino A ?. Y el B ?. Y el C ?
Teorema de Bayes. (B = NO recibir descarga)
P(A1) = P(A) = 1/3
P(A2) = P(B) = 1/3
P(A3) = P(C) = 1/3

1 1
.
3 4
= 0125
P(A1 / B) =
'
1 1 1 3 1
. + . + .1
3 4 3 4 3

P(B/A1) = 1/4
P(B/A2) = 3/4
P(B/A3) = 1

1 3
.
3 4
= 0'375
P(A 2 / B) =
1 1 1 3 1
. + . + .1
3 4 3 4 3

1
.1
3
= 0'5
P(A 3 / B) =
1 1 1 3 1
. + . + .1
3 4 3 4 3
Puede resolverse sin necesidad de aplicar el Teorema de Bayes. Sobre un total de 300 salidas o movimientos
de la rata, el problema plantea que
sale 100 veces por cada camino (probabilidad = 1/3)
recibe descarga : 75 veces en A (3/4 de 100) ; 25 veces en B (1/4 de 100) ; 0 veces en C
Descarga SI
75
25
0
100

Camino A
Camino B
Camino C
Luego :

Descarga NO
25
75
100
200

100
100
100

Pr(Camino A / NO descarga) = 25 / 200 = 0'125


Pr(Camino B / NO descarga) = 75 / 200 = 0'375
Pr(Camino C / NO descarga) = 100 / 200 = 0'5

18
Disponemos de dos mtodos A y B para ensear una cierta habilidad tcnica. El 20% de los enseados
con el mtodo A y el 10% de los enseados con el mtodo B no aprenden la mencionada habilidad. No
obstante, el mtodo B es ms caro y se aplica slo al 30% de las personas, mientras que el A se aplica
al 70%.
Una persona ha aprendido la habilidad, cul es la probabilidad de que haya seguido el mtodo A ?.

Aprende
No aprende

A
56
14
70

B
27
3
30

Trabajamos sobre 100 individuos


Prob = 56 / (56+27) = 06747

Probabilidad (F. lvarez) - 9

19
Cierto profesor tiene por costumbre guardar todos los calcetines (limpios)en un cajn y cada maana
elige consecutivamente al azar tres de ellos. Slo tiene tres colores de calcetines: grises (G), azules (A)
y blancos (B). Si en las tres primeras extracciones los tres calcetines son de diferente color, decide no
ponrselos y se calza unas sandalias. Una maana cualquiera tiene en el cajn 8 calcetines grises, 4
azules y 6 blancos.
a) Cul es el espacio muestral de que dispone ese profesor esa maana ?.
b) Cul es la probabilidad de que esa maana salga a la calle con sandalias ?.
c) Es igual la probabilidad de que saque dos calcetines grises y uno azul que la de que saque dos
grises y uno blanco ?. Calcule ambas probabilidades.
a)
b)
c)

E = { (GGG) , (GGA) , (GGB) , (GAA) , (GAB) , (GBB) , (AAA) , (AAB) , (ABB) , (BBB) }

8 4 5
. . = 0'1961
18 17 16
8 7 4
Pr(2G y 1A) = Pr(GGA o GAG o AGG) = 3. .
. = 0'1373
18 17 16
8 7 6
Pr(2G y 1B) = Pr(GGB o GBG o BGG) = 3. .
. = 0'2059
18 17 16
Pr(GAB o GBA o AGB o ABG o BAG o BGA) = 6.

20
Un profesor indeciso dispone de 5 problemas, de los que utilizar slo dos, para elaborar un examen.
Los tres primeros corresponden a la primera parte y los dos siguientes a la segunda. Tampoco tiene
muy claro si dejar utilizar o no material didctico a sus alumnos. Para resolver sus dudas utiliza una
urna que contiene tres bolas rojas, numeradas del 1 al 3, y dos blancas, numeradas con 4 y 5. Extrae al
azar, y sin reposicin, dos bolas.
a) Cul es la probabilidad de que los ejercicios sean de distinta parte ?.
b) Si los alumnos slo pueden utilizar material cuando las bolas sean del mismo color, cul es la
probabilidad de que puedan utilizarlo ?.
a)
b)

Pr(RB o BR) = 3/5 x 2/4 + 2/5 x 3/4 = 06


Pr(RR o BB) = 3/5 x 2/4 + 2/5 x 1/4 = 04
(o bien, utilizando el apartado anterior : 1 - 06 = 04)

21
De los 50 alumnos matriculados en un determinado Centro Asociado en la asignatura de Psicologa
Matemtica, 30 son varones. Para participar en un experimento de percepcin visual, seleccionamos sin
reposicin a dos de ellos. Calcular, justificando adecuadamente su respuesta, la probabilidad de que :
a) Los dos sean varones.
b) Los dos sean del mismo sexo.
c) Al menos uno sea mujer.
NOTA : Representamos el trmino "y" por el smbolo interseccin () y el trmino "o" por el de la unin ().
a)

La extraccin sin reposicin modifica el grupo en las extracciones sucesivas.

Pr( V1 V2 ) = Pr( V1 y V2 ) = Pr( V1 ).Pr( V2 / V1 ) =


b)

30 29
. = 0'355102
50 49

Pueden ser los dos varones o las dos mujeres :

Pr ( ( V1 V2 ) ( M 1 M 2 ) ) = Pr ( V1 V2 ) + Pr( M1 M 2 ) =
c)

Pueden ser un varn y una mujer o las dos mujeres :

30 29 20 19
. + . = 0'510204
50 49 50 49

Pr( ( V1 M 2 ) ( M1 V2 ) ( M1 M 2 )) = Pr( V1 M 2 ) + Pr( M1 V2 ) + Pr( M1 M 2 ) =

30 20 20 30 20 19
. + . + . = 0'6449
50 49 50 49 50 49

10 - Probabilidad (F. lvarez)

EJERCICIOS PROPUESTOS
1
Sabiendo que Pr(B)=2.Pr(A) , Pr(AB)=0'8 y Pr(AB)=0'1, calcule :
Pr(A) , Pr(B) , Pr(A') , Pr(B-A) y Pr(A-B)

2
Al extraer dos cartas simultneamente de una baraja espaola, calcule la probabilidad de que :
a)
las dos sean del mismo palo
b)
ambas sean figuras
c)
alguna sea de oros.

3
Disponemos de cuatro cajas con la siguiente composicin de bolas blancas y negras :
la 1 contiene 3 bolas de cada color
la 2 y la 4 contienen 5 bolas blancas y 2 negras
la 3 est constituida por 1 bola blanca y 2 negras.
a) Seleccionada una urna al azar, hallar la probabilidad de extraer una bola blanca de ella.
b) Se extrajo una bola de una de las urnas que result ser blanca. Calcule la probabilidad de haberla extrado
de la 4 urna.

4
La siguiente tabla muestra la distribucin de los trabajadores de una empresa segn su estado civil y el ser o no
fumadores.
Fuman
14
8
6

Solteros
Casados
Viudos
a)
b)
c)
d)
e)

No fuman
16
35
1

Seleccionados 3 trabajadores al azar, determine la probabilidad de que todos fumen.


Calcule la probabilidad de que un trabajador de la empresa est casado o fume.
Calcule la probabilidad de que un trabajador de la empresa no est casado o fume.
Si un cierto trabajador fuma, qu probabilidad tiene de ser soltero ?.
Si un trabajador es viudo, calcule la probabilidad de que no sea fumador.

5
Una urna contiene tres bolas con las letras A , A y N. Otra contiene las letras A , A , A , N y N.
Seleccionamos tres bolas sucesivamente y con devolucin. Qu urna ofrece mayor probabilidad de obtener la
palabra ANA?.

6
Un alumno slo estudi uno de los cuatro temas de un examen. Si el examen consta de diez preguntas, calcule
la probabilidad de que pueda contestar a alguna de ellas.

7
Hombres
Mujeres

1
34
42

2
21
50

3
40
15

4
12
14

5
21
8

La tabla anterior nos muestra la distribucin por sexo de los alumnos de los 5 cursos de una Carrera.
Seleccionados al azar dos alumnos, calcule la probabilidad de que :
a) sean del mismo curso.
b) alguno sea de 1
c) los dos sean hombres o estudien 3.

8
De un grupo de alumnos, la mitad son de primero, la quinta parte de 3 y el resto de 2. De los de 1, la cuarta
parte son repetidores y, de los otros cursos, la mitad repiten.
Si un cierto alumno es repetidor, calcule la probabilidad de que sea de 2 curso.
Probabilidad (F. lvarez) - 11

9
Una urna contiene 5 bolas blancas, 3 rojas y 2 negras.
a)
Seleccionado un grupo de tres bolas, determine la probabilidad de que ninguna sea negra.
b)
Seleccionadas sucesivamente y sin reposicin tres bolas, determine la probabilidad de que sean del
mismo color.
c)
Seleccionadas sucesivamente y con reposicin tres bolas, determine la probabilidad de que alguna
sea negra.

10
De los 80 alumnos de tres grupos de COU de un centro, la mitad pertenecen al grupo A y el 15% al C.
Sabiendo que aprueban el curso el 40% de los alumnos del grupo A, 8 alumnos del grupo B y la tercera parte
de los del C, determine la probabilidad de que :
a) un alumno de COU suspenda.
b) un cierto alumno pertenezca al grupo B, sabiendo que aprob.

11
Una caja contiene 6 bolas blancas, 2 negras y 4 rojas.
a) Si tomamos dos bolas simultneamente de la caja, calcule la probabilidad de que sean del mismo color.
b) Al tomar sucesivamente y sin reposicin tres bolas de la caja, hallar la probabilidad de que todas sean
blancas, sabiendo que ninguna es negra.

12
En relacin con la opcin cursada por los alumnos de COU, el 25% se matricul en la A, el 35% en la B,
coincidiendo los matriculados en las opciones C y D.
Finalizado el curso, aprobaron : la mitad de los alumnos de la opcin A y C, el 60% de la B y slo un 20% de los
de la opcin D.
a) Si un alumno seleccionado aprob, calcule la probabilidad de ser de la opcin C.
b) Calcule la probabilidad de que un alumno suspenda, sabiendo que no pertenece a la opcin A.

12 - Probabilidad (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
Pr(A) = 0'3
Pr(B) = 0'6
Pr(A') = 0'7
Pr(B-A) = 0'5
Pr(A-B) = 0'2

2
a) 0'2308
b) 0'0846
c) 0'4423

3
a) 0'5655
b) 0'3158

4
a)
b)
c)
d)
e)

0'0399
0'7875
0'5625
0'5
0'1429

5
La primera (0'1481) ms que la segunda (0'144)

6
0'9437

7
a) 0'2295
b) 0'5048
c) 0'2685

8
0'4

9
a) 0'4667
b) 0'0917
c) 0'488

10
a) 0'65
b) 0'2857

11
a) 0'3333
b) 0'1666

12
a)
b)

0'2105
05333

Probabilidad (F. lvarez) - 13

VARIABLES ALEATORIAS
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez
francisco.alvarez@uca.es

VARIABLES ALEATORIAS UNIDIMENSIONALES


Variable aleatoria, asociada a una experiencia aleatoria, es la ley que hace corresponder a cada suceso
aleatorio un valor numrico.
As, por ejemplo, la expresin "lanzamos tres monedas observando el nmero de caras que se obtienen"
est definiendo la variable aleatoria que permite asociar al suceso Cara-Cruz-Cara el valor 2 (dos caras).
Como en el caso de las variables estadsticas, las variables aleatorias pueden ser discretas o continuas. Nos
centraremos en el estudio de las primeras.

FUNCIN DE DENSIDAD O LEY DE PROBABILIDAD


Es el conjunto de los valores de la variable aleatoria X y sus probabilidades respectivas f(x) = Pr(X=x).
Para el caso discreto se suele adoptar la forma de representacin siguiente :
X

x1

x2

x3

f(X)

p1

p2

p3

....
....

xi

....

xn

pi

....

pn
n

Ante la equivalencia entre frecuencias relativas y probabilidades, se verifica que :

=1

i=1

FUNCIN DE DISTRIBUCIN
Del mismo modo que se definan las frecuencias acumuladas, denominamos funcin de distribucin a :
F(x) = Pr(Xx)

MOMENTOS. ESPERANZA MATEMTICA, VARIANZA, ASIMETRA Y CURTOSIS


n

Momento ordinario de orden k :

k = p i . x ik
i =1

k = p i . ( x i E ( X) )

Momento central de orden k :

i =1

En particular :
Esperanza matemtica : Es el momento ordinario de orden 1 (1) , equivalente a la media aritmtica.
n

E ( X) = 1 = p i . x i
i =1

Varianza : Es el momento central de 2 orden.


n

V( X) = 2 = p i . ( x i E ( X)) = p i . x 2i E ( X) 2 = 2 12
2

i =1

i =1

Desviacin tpica : Es la raz cuadrada de la varianza.

D ( X) = V( X )
Coeficiente de asimetra : (similar a lo estudiado en el anlisis descriptivo de una variable)

A ( X) =

[ D( X)] 3

Coeficiente de curtosis : (similar a lo estudiado en el anlisis descriptivo de una variable)

K( X) =

[ D( X)] 4

Expresin de algunos momentos centrales en funcin de momentos ordinarios :

1 = 0
2 = 2

3 = 3 3. 1 . 2 + 2. 13
12

4 = 4 4. 1 . 3 + 6. 12 . 2 3. 14
Variables aleatorias (F. lvarez) - 1

OTRAS MEDIDAS DE CENTRALIZACIN


Moda : es el valor de la variable aleatoria que posee probabilidad mxima.
Mediana : es el valor Md de la variable aleatoria para el cul :
F(Md) 0'5 y 1 - F(Md) < 0'5 (siendo F la funcin de distribucin)

PROPIEDADES

E(X + Y) = E(X) + E(Y)


E(.X) = .E(X) , para cualquier nmero .
Si las dos variables son independientes , se verifica que :
E(X . Y) = E(X) . E(Y)
V(X + Y) = V(X) + V(Y)

TEOREMA DE TCHEBYCHEV
Establece la probabilidad mxima de que la variable aleatoria tome valores en los alrededores de la esperanza
matemtica (media de la distribucin).
Teorema :
Para toda variable aleatoria X para la que existe su esperanza y su varianza, se verifica que, para
cualquier valor numrico positivo k :

Pr( X E ( X ) < k ) < 1

V( X)
k2

Grficamente :
La probabilidad de que cualquier valor de la
variable X pertenezca al intervalo sombreado
es inferior a :

2 - Variables aleatorias (F. lvarez)

V( X)
k2

EJERCICIOS RESUELTOS
1
Lanzadas cuatro monedas, consideremos el nmero de cruces obtenidas. Calcular, de la variable
aleatoria as definida :
a)
Ley de probabilidad
b)
Funcin de distribucin
c)
Esperanza matemtica y varianza
d)
Mediana y moda de la distribucin
e)
Determine la probabilidad de obtener ms de 1 y menos de 3 caras. Compruebe el teorema de
Tchebychev.
CCCC
CCC+
CC++
C+++
++++

CC+C
C+C+
+C++

C+CC
C++C
++C+

+CCC
+CC+
+++C

+C+C

Se obtienen 0 cruces
Se obtienen 3 caras y 1 cruz
Se obtienen 2 caras y 2 cruces
Se obtienen 1 cara y 3 cruces
Se obtienen 4 cruces

++CC

Ley de probabilidad o funcin de densidad :


X
f(x)=Pr(X=x)

0
1/16

1
4/16

2
6/16

3
4/16

4
1/16

0
1/16
1/16

1
4/16
5/16

2
6/16
11/16

3
4/16
15/16

4
1/16
16/16 = 1

Funcin de distribucin :
X
f(x)=Pr(X=x)
F(x)=Pr(Xx)

0
1
16
5

F ( x) = 16
11
16
15
16
1

Ms correctamente se expresar :

para x < 0
para0 x < 1
para1 x < 2
para 2 x < 3
para3 x < 4
para x 4

Grficamente :
Funcin de distribucin

Ley de probabilidad

Para el clculo de la esperanza matemtica y la varianza de una variable aleatoria discreta, se aconseja construir la
siguiente tabla auxiliar :

1
2
De aqu :

X
P
P.X
P.X2
E(X) = 1 = 2

0
1/16
0
0

1
4/16
4/16
4/16

2
6/16
12/16
24/16

3
4/16
12/16
36/16

4
1/16
4/16
16/16

Totales
1
32/16 = 2
80/16 = 5

V(X) = 2 - 12 = 5 - 4 = 1
Variables aleatorias (F. lvarez) - 3

Definida la desviacin tpica como la raz cuadrada de la varianza :


D(X) = 1
Observando la ley de probabilidad o funcin de densidad, deducimos que :
Moda = 2 (al tener X=2 la mayor probabilidad (6/16) )
Observando la funcin de distribucin, deducimos que :
Mediana = 2 (al ser X=2 el valor para el que F(X) (=11/16) primero iguala o supera a 0'5)
Comprobemos el teorema de Tchebychev para el caso reseado :

Pr (1 < X < 3) = Pr(X=2) = 6/16 = 0'375


Siendo E(X) = 2 , la esperanza se encuentra en el centro del intervalo definido (1 , 3), luego su amplitud es k=2.
Recordando que V(X) =1, tenemos :

Pr ( X E ( X ) < 2) < 1

1
= 0'75
22

La probabilidad calculada es en efecto inferior a 0'75.

2
En la extraccin simultnea de tres bolas de una urna que contiene 6 bolas
blancas y cuatro negras, observamos el nmero de bolas blancas extradas.
De la variable aleatoria as definida, calcular :
a)
ley de probabilidad
b)
funcin de distribucin
c)
esperanza matemtica , varianza y desviacin tpica.
d)
mediana y moda de la distribucin.

4

3
4
Pr(0blancas y3ne gras ) = =
= 0'033
10 120

3

6 4
.
1 2
6.6
Pr(1blanca y 2ne gras ) = =
= 0'3
120
10

3

6 4
.
2 1
15.4
Pr(2blancas y1ne gra ) = =
= 0'5
120
10

3

6

3
20
Pr(3blancas y0ne gras ) = =
= 0'167
10 120

3

Una vez calculadas las probabilidades de las distintas situaciones posibles, obtenemos :
Ley de probabilidad o funcin de densidad :
X
Prob.

0
0'033

1
0'3

F(x) =

0
0'033
0'333
0'833
1

Funcin de distribucin :

2
0'5

3
0'167

x<0
0x<1
1x<2
2x<3
x3

Esperanza matemtica , varianza y desviacin tpica :


X
Prob. = P
P.X
P.X2

E( X) = 1'8

0
0'033
0
0

1
0'3
0'3
0'3

2
0'5
1
2

V( X) = 3' 8 - 1' 8 2 = 0'56

3
0'167
0'5
1'5

D( X) =

Totales
1'8
3'8

0' 56 = 0'748

Mediana y Moda :
Observando la funcin de distribucin, deducimos que :
Mediana = 2 (al ser X=2 el valor para el que F(X) (= 0'8333) primero iguala o supera a 0'5)
Observando la ley de probabilidad o funcin de densidad, deducimos que :
Moda = 2 (al tener X=2 la mayor probabilidad (0'5) )

4 - Variables aleatorias (F. lvarez)

3
Complete la ley de probabilidad siguiente, sabiendo que su esperanza matemtica es igual a 1'8 :
X
Prob.

0
0'2

1
a
n

De una parte, sabiendo que se verifica que

2
b

3
0'3

= 1 , resulta : 0'2 + a + b + 0' 3 = 1 a + b = 0'5

i=1

Conocida la esperanza matemtica : E ( X ) =

p .x
i

= 0 . 0' 2 + 1. a + 2. b + 3. 0' 3 = 1' 8 a + 2.b = 0'9

i=1

Resolviendo el sistema obtenemos los valores de a y b :


a + b = 0'5
a = 0'5 - b
a + 2.b = 0'9
0'5 - b + 2.b = 0'9 b = 0'4 a = 0'1

4
Calcular la esperanza matemtica, varianza, asimetra y curtosis de la variable aleatoria que tiene como
funcin de distribucin :

F(x) =

0
0'2
0'55
0'85
1

x<2
2x<4
4x<6
6x<8
x8

La ley de probabilidad o funcin de densidad ser :


x
p

2
0'2

4
0'35

6
0'3

8
0'15

p.x
p.x2
p.x3
p.x4

0'4
0'8
1'6
3'2

1'4
5'6
22'4
89'6

1'8
10'8
64'8
388'8

1'2
9'6
76'8
614'4

Clculo de momentos :
1
2
3
4

1 = 4'8 ()
2 = 26'8 ()
3 = 165'6 ()
4 = 1096 ()

Luego :

esperanza matemtica :
n

E( X) = p i . x i = 1 = 4'8
i =1

varianza :

V( X) = 2 = 2 12 = 26'8 4'8 2 = 3'76

( D( X) =

3'76 = 19391
'
)

coeficiente de asimetra :

3 = 3 3. 1 . 2 + 2.13 = 165'6 3.4'8.26'8 + 2.4'8 3 = 0'8640


3
0'8640
A ( X) =
'
3 =
3 = 01185
'
( D( x)) 19391

coeficiente de curtosis :

4 = 4 4. 1. 3 + 6. 12 . 2 3. 14 = 1096 4.4'8165
. '6 + 6.4'82 .26'8 3.4'84 = 28'7872
28'7872
4
K( X) =
4 3=
4 3 = 0'9638
19391
'
( D( x ) )

5
Realizada una apuesta de 100 pts., un jugador extrae una bola de una caja que contiene 2 bolas
blancas, 3 rojas y 5 negras. Si la bola extrada es negra pierde lo apostado y finaliza el juego; si es roja
recibe lo apostado y deja de jugar, y finalmente, si es blanca, cobra 200 pts. si al lanzar una moneda
obtiene cruz y 400 pts. si sale cara.
Si el jugador participa en 12 ocasiones en dicho juego, qu beneficio o prdida tendr ?.
Las situaciones posibles son :
Variables aleatorias (F. lvarez) - 5

Beneficio
-100 pts.
100 - 100 =
0 pts.
200 - 100 =
100 pts.
400 - 100 =
300 pts.

Extrae bola negra


Extrae bola roja
Extrae bola blanca y cruz
Extrae bola blanca y cara

Probabilidad
(5/10)
0'5
(3/10)
0'3
(2/10).(1/2)
0'1
(2/10).(1/2)
0'1

La esperanza matemtica de la variable aleatoria "beneficio en el juego" , nos indica lo que cabe esperar que
ocurra en cada jugada.
Una cantidad negativa se interpreta como la prdida media que el jugador tendr en cada jugada. Si la
esperanza es positiva indicar que el jugador, promediando jugadas, ganar dicha cantidad. En ambos casos
se dice que el juego no es equitativo o que es injusto.
Cuando la esperanza matemtica del beneficio en un juego es igual a cero, diremos que dicho juego es
equitativo o justo.
En nuestro caso :

E(X) = -100.0'5 + 0.0'3 + 100.0'1 + 300.0'1 = -10 pts.

Realizadas 12 jugadas, lo ms probable (lo esperado) es que haya perdido 120 pts. [12 . (-10) ] .

6
Lanzando dos dados y sumando los puntos obtenidos, los premios que ofrece el juego son los
siguientes :
- Devolucin de lo apostado :
si la suma es inferior a 4 o superior a 10.
- Doble de lo apostado :
si se obtiene 5 o 9.
- Cuatro veces lo apostado :
si la suma de puntos es 7
Analice si el juego es equitativo o no.
Anlisis de las situaciones posibles :
1-1
1-2
1-3
1-4
1-5
1-6

2
3
4
5
6
7

2-1
2-2
2-3
2-4
2-5
2-6

3
4
5
6
7
8

3-1
3-2
3-3
3-4
3-5
3-6

4
5
6
7
8
9

4-1
4-2
4-3
4-4
4-5
4-6

5
6
7
8
9
10

5-1
5-2
5-3
5-4
5-5
5-6

6
7
8
9
10
11

6-1
6-2
6-3
6-4
6-5
6-6

7
8
9
10
11
12

Al apostar x pts., los beneficios o prdidas son :


Situaciones
Devolucin de lo apostado
Doble de lo apostado
Cuatro veces lo apostado
Prdida de lo apostado

2, 3, 11, 12
5,9
7
4, 6, 8, 10

N de veces
6
8
6
16
36

Beneficio
0
x
3x
-x

Probabilidad
6/36
8/36
6/36
16/36

Determinemos su esperanza matemtica :

E( X) = 0.

6
8
6
16 8x +18x - 16x 10
+ x.
+ 3x .
x.
=
=
.x
36
36
36
36
36
36

Siendo la esperanza matemtica positiva, el juego siempre dar beneficio al jugador . No es equitativo, siendo
desfavorable para la banca.
Parece claro que el dueo del local de juego no tiene vista comercial o no sabe estadstica.

6 - Variables aleatorias (F. lvarez)

EJERCICIOS PROPUESTOS
1
Determine la funcin de distribucin, esperanza matemtica, varianza y desviacin tpica de las variables
aleatorias definidas por las siguientes funciones de densidad :
a)

x
f(x)

1
0'1

2
0'25

b)

x
f(x)

-2
0'05

0
A

3
0'05

4
0'3

2
0'15

4
A

5
0'3
6
0'2

8
2.A

2
Determine la ley de probabilidad, esperanza matemtica, mediana, moda, varianza, desviacin tpica, asimetra
y curtosis de la variable aleatoria que tiene como funcin de distribucin :

F(x) =

0
0'15
0'35
0'35
0'7
1

si
si
si
si
si
si

x<1
1x<2
2x<3
3x<4
4x<5
x5

3
Determine la ley de probabilidad, funcin de distribucin, esperanza matemtica, varianza y desviacin tpica de
la variable aleatoria definida por el nmero de bolas blancas resultantes de la extraccin de dos bolas de una
urna, que contiene 3 bolas blancas y dos negras, y una bola de otra urna, que posee 5 bolas de cada color.

4
La participacin en un juego nos lleva a lanzar una moneda y un dado. Si sale cara al lanzar la moneda
perdemos lo apostado. Si sale cruz, recibimos el doble de la apuesta si el nmero del dado es mltiplo de 3,
tres veces la apuesta si sale 5 y, lo apostado, en el resto de los casos.
Si un jugador participa 20 veces en el juego, apostando 1000 pts. en cada ocasin, qu beneficio obtendr
con mayor probabilidad ?.

Variables aleatorias (F. lvarez) - 7

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
a)
F(x) =

b)
F(x) =

0
0'1
0'35
0'4
0'7
1

si
si
si
si
si
si

x<1
1x<2
2x<3
3x<4
4x<5
x5

0
0'05
0'2
0'35
0'5
0'7
1

si
si
si
si
si
si
si

x < -2
-2 x < 0
0x<2
2x<4
4x<6
6x<8
x8

E(X) = 3'45
V(X) = 1'9475
D(X) = 1'3955

E(X) = 4'4
V(X) = 10'24
D(X) = 3'2

2
x
f(x)

1
0'15

2
0'2

3
0

4
0'35

5
0'3

E(X) = 3'45
V(X) = 2'1475
D(X) = 1'4654
Moda = Mediana = 4
Asimetra = A(X) = -0'5212
Curtosis = K(X) = -1'254

3
Urna 1
0 blancas
0 blancas
1 blanca
1 blanca
1 blancas
1 blancas

F(x) =

Urna 2
0 blancas
1 blanca
0 blancas
1 blanca
0 blancas
1 blanca
0
0'05
0'4
0'85
1

Prob.
0'1.0'5 = 0'05
0'1.0'5 = 0'05
0'6.0'5 = 0'30
0'6.0'5 = 0'30
0'3.0'5 = 0'15
0'3.0'5 = 0'15
si
si
si
si
si

Total
0 blancas
1 blanca
1 blanca
2 blancas
2 blancas
3 blancas

x<0
0x<1
1x<2
2x<3
x3

x
f(x)

0
0'05

E(X) = 1'7
V(X) = 0'61
D(X) = 1'7

4
Beneficio : X
P = Probabilidad
E(X) = -167

-1000
0'5

En 20 jugadas perder 3340 pts.

8 - Variables aleatorias (F. lvarez)

0
0'25

1000
0'167

2000
0'083

1
0'35

2
0'45

3
0'15

DISTRIBUCIN NORMAL
Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales
Francisco lvarez Gonzlez
francisco.alvarez@uca.es

CURVA NORMAL
Gran nmero de distribuciones tienen la forma de una campana; es decir, alejndonos de la media, a derecha e
izquierda, el nmero de observaciones decrece de forma similar. Esto genera una curva simtrica.
Se estudi su ecuacin, resultando en funcin de la media y desviacin tpica de la distribucin.
Ante las infinitas posibles medias y desviaciones, nos encontramos con una infinidad de posibles distribuciones
normales pero, el proceso de tipificacin, permite reducirlas a una nica con media 0 y desviacin tpica 1. Tal
distribucin se denomina normal tipificada y se representa N(0,1).
En trminos de probabilidad, definimos igualmente la variable
aleatoria normal, como aquella que tiene por grfica de su
funcin de densidad la representada a la izquierda.
El rea bajo la curva ser igual a la unidad y, con este criterio se
confeccionaron tablas estadsticas que calculan el rea para un
cierto intervalo de valores de la variable.

Recordemos pues que la curva normal :


a) es simtrica respecto a la media
b) se establece que el rea bajo su grfica es igual a 1.

Consecuencia de ello es , por ejemplo, que el rea a la derecha


de la media (o a la izquierda es 0'5) y que el rea desde la media
a un valor -v coincide con el rea desde la media a v.

TIPIFICACIN. MANEJO DE TABLAS


Se ha indicado que los valores de las reas bajo la curva normal se encuentran tabulados con referencia a la
distribucin normal tipificada N(0,1).
Por ello, nos veremos obligados a tipificar previamente cualquier otro tipo de distribucin normal que deseemos
estudiar. Recordemos el procedimiento de tipificacin :

x N (x , s x ) z =

xx
N(0,1)
sx

Suelen utilizarse dos tipos de tablas :


I) Proporcionan el rea a la izquierda de un valor.

II) Ofrecen el rea comprendida entre la media (0)


y un valor.

En los dos casos, la tabla fija en la primera columna el valor de z con una cifra decimal y, la segunda cifra
decimal de z condiciona la columna que ha de seleccionarse. En el cruce encontramos el rea buscada.

Distribucin normal (F. lvarez) - 1

EJERCICIOS RESUELTOS
1
Haciendo uso de la tabla que proporciona reas a la izquierda de cada valor z de la distribucin normal
tipificada, calcular las probabilidades (reas) siguientes :
a)
Pr(z<1'35)
b)
Pr(z<-0'338)
c)
Pr(z>2'1)
d)
Pr(z>-1)
e)
Pr(-1'39<z-0'44)
f)
Pr(-1'52z0'897)
Observe que, en el clculo de reas (probabilidades) en variables continuas, Pr(xa) equivale a Pr(x<a).
Tendremos que referir los clculos a probabilidades del tipo Pr(z < a) , estando expresado el valor a con dos cifras
decimales :
a)

Pr(z<1'35) = 0'91149

b)

Pr(z<-0'338) Pr(z<-0'34) = 0'36693

c)

Pr(z>2'1) Pr(z>2'10) = 1 - 0'98214 = 0'01786

d)

Pr(z>-1) Pr(z>-1'00) = 1 - 0'15866 = 0'84134

e)

Pr(-1'39<z-0'44) = n

f)

Pr(-1'52z0'897) Pr(-1'52z0'90) =
=n

- o = 0'32997 - 0'08226 = 0'24771

- o = 0'81594 - 0'06426 = 0'75168

2
Haciendo uso de la tabla que proporciona reas entre cada valor z y la media 0 de la distribucin normal
tipificada, calcular las probabilidades (reas) siguientes :
a)
Pr(z0'22)
b)
Pr(z<-1'8)
c)
Pr(z>1'0092)
d)
Pr(z>-1'61)
e)
Pr(-2'06<z<-0'24)
f)
Pr(-0'02z1'7)

2 - Distribucin normal (F. lvarez)

En este caso, tendremos que establecer probabilidades del tipo Pr(0 < z < a) , estando expresado el valor a con dos
cifras decimales :
a)

b)

c)

Pr(z0'22) = 0'5 + 0'08706 = 0'58706

Pr(z<-1'8) Pr(z<-1'80) = Pr(z>1'80) =


= 0'5 - 0'46407 = 0'03593

Pr(z>1'0092) Pr(z>1'01) = 0'5 - 0'34375 = 0'15625

d)

Pr(z>-1'61) Pr(z<1'61) =
= 0'5 + 0'44630 = 0'94630

e)

Pr(-2'06<z-0'24) = Pr(0'24<z<2'06)
=n - o=
= 0'48030 - 0'09483 = 0'38547

f)

Pr(-0'02z1'70) =
= Pr(-0'02<z<0) + Pr(0<z<1'70) =
= Pr(0<z<0'02) + Pr(0<z<1'70) =
=n + o=
= 0'00798 + 0'45543 = 0'46341

3
Para la distribucin normal tipificada, calcular :
a) Percentil 21
b) Cuartil 3
c) Valores centrales entre los que quedan comprendidas la cuarta parte de las observaciones.
a)

Hemos de calcular el valor de z que deja a su izquierda un rea igual


a 0'21 (el 21% del rea total [= 1]) .
Si consultamos las tablas que dan el rea a la izquierda,
encontramos como valor ms prximo al rea 0'21 , el rea 0'20897
que corresponde a la puntuacin :
z = -0'81

Distribucin normal (F. lvarez) - 3

Utilizando las tablas de reas comprendidas


entre 0 y z, el razonamiento a seguir ser :
El rea a la izquierda igual a 0'21 corresponde
a un valor negativo (-z) al ser menor que 0'5.
Entre dicho valor z y la media (0) hay un rea
igual a 0'29 (0'5-0'21).
Consultando las tablas encontramos el valor
ms prximo a 0'29 para la puntuacin z = 0'81
(rea = 0'29103 ).
El percentil 21 es pues : z = -0'81.
Procediendo como en a) , hemos de calcular el valor de z que deja a
su izquierda un rea igual a 0'75.

b)

Dicho valor es : z = 0'67

(rea = 0'74857)

La mitad de la cuarta parte (25%) es el 12'5%.


Son los valores que dejan un 12'5% de las
observaciones a la izquierda de la media (0) y
otro 12'5% a su derecha.
En trminos de reas a la izquierda, son los
valores que dejan un rea de ese tipo igual a
0'375
(0'5-0'125)
y
0'625
(05+0125)
respectivamente.
Consultando las tablas encontramos :
z = -0'32 (rea = 0'37448)
z = 0'32 (rea = 0'62552)

c)

Por la simetra de la distribucin, bastara con


calcular uno de tales valores, ya que el otro es
su opuesto.

4
Las calificaciones de los 500 aspirantes presentados a un examen para contratacin laboral, se
distribuye normalmente con media 6'5 y varianza 4.
a) Calcule la probabilidad de que un aspirante obtenga ms de 8 puntos.
b) Determine la proporcin de aspirantes con calificaciones inferiores a 5 puntos.
c) Cuntos aspirantes obtuvieron calificaciones comprendidas entre 5 y 7'5 puntos ?.
Nos encontramos ante una distribucin normal
a)

N 6'5, 4 = N(6'5,2)
Tipificamos el valor 8 : z =

8 6' 5
= 0' 75
2

La probabilidad pedida es el rea a la derecha de z = 0'75.


Consultando las tablas obtenemos :

b)

Tipificamos el valor 5 : z =

0'22663

5 6' 5
= 0' 75
2

Calculemos el rea (probabilidad) a la izquierda de z = -0'75.


Consultando las tablas obtenemos : 0'22663
En trminos de porcentajes ser 0'22663 x 100 :
el 22'663 %

4 - Distribucin normal (F. lvarez)

Tipificamos los valores 5 y 7'5 :

c)

z=

5 6' 5
= 0' 75
2

z=

7' 5 6' 5
= 0' 5
2

El rea comprendida entre ambos es , consultando las tablas :


Pr(5 < X < 7'5) = Pr(-0'75 < z < 0'5) = 0'46483
Multiplicando la probabilidad por el total de aspirantes,
obtenemos el nmero de ellos que tienen calificaciones
comprendidas entre 5 y 7'5 puntos :
0'46483 x 500 = 232'415 232 aspirantes

5
Slo 24 de los 200 alumnos de un Centro miden menos de 150 cm. . Si la estatura media de dichos
alumnos es de 164 cm., cul es su varianza ?.
Siendo 24 / 200 = 0'12 , sabemos que el 12% de los alumnos tienen estaturas inferiores a 150.
Consultando las tablas de la distribucin normal tipificada, obtenemos el valor z
que deja a su izquierda un rea 0'12.
Dicho valor es : z = -1'175
(para z = -1'17 encontramos 0'12100 y para z = -1'18 encontramos 0'11900).
Luego : z =

x x
sx

1' 175 =

150 164
sx

sx =

14
= 11' 915 s x2 = 11' 915 2 = 141' 965
1' 175

6
El percentil 70 de una distribucin normal es igual a 88, siendo 0'27 la probabilidad de que la variable
tenga un valor inferior a 60. A qu distribucin normal nos estamos refiriendo ? .
Se nos pide determinar la media y desviacin tpica de una distribucin normal que verifica las condiciones del
enunciado.
Grficamente :
Consultando las tablas obtenemos :
a) Valor de z que deja a su izquierda un rea igual a 0'70 :
z = 0'52 (valor ms prximo 0'69847)
b) Valor de z que deja a su izquierda un rea igual a 0'27
z = -0'61 (valor ms prximo 0'27093)

Con esto :

x x
sx
x x
z=
sx
z=

88 x
x = 88 0' 52. s x
sx
60 x
0' 61 =
x = 60 + 0' 61. s x
sx

0' 52 =

Resolviendo el sistema determinaremos los valores de la media y la desviacin tpica :

x = 88 0'52.s x
88 0'52.s x = 60 + 0'61.s x 1'13.s x = 28s x = 24'78
x = 60 + 0'61.s x

x = 88 0'52.s x = 88 0'52.24'78 = 75'11


Se trata de una distribucin N(75'11 , 24'78).

Distribucin normal (F. lvarez) - 5

7
Las puntuaciones de un examen se distribuyen normalmente con media 15 puntos. La puntuacin A ha
sido superada por un 23% de los alumnos. La puntuacin B est situada a 5 puntos diferenciales por
debajo de la media. Entre B y la media se encuentra el 30% de los alumnos. Calcular :
a) La desviacin tpica de las notas.
b) Las puntuaciones directas de A y B.
c) El porcentaje de alumnos entre A y B.
a)
La puntucin B=10, deja a su izquierda un rea 020. Consultando
las tablas obtenemos un valor z = -084. De aqu :

z = 0'84 =

10 15 5
=
s = 5 /(0'85) = 5'95
s
s

b)
La puntucin A, deja a su izquierda un rea 077 (1-023).
Consultando las tablas obtenemos un valor z = 074. De aqu :

z = 0'74 =

A 15
A = 0'74 .5'95 + 15 = 20 '21
5'95
(El valor B=10 ya se determin)

c)

Observando la figura resulta un rea 057 (030+027); es decir, el 57%.

8
Las puntuaciones de 1000 personas en un determinado test se distribuyen normalmente. Sea X1 la
puntuacin directa que supera el 8413% de la distribucin y X2 la puntuacin directa que es superada
por el 8413% de la distribucin. Sabiendo que X1 - X2 = 20, calcular :
a) Nmero de observaciones comprendidas entre las puntuaciones tpicas 15 y -02.
b) La desviacin tpica de la distribucin.
c) La amplitud semi-intercuartl.
a)
Directamente de la tabla N(0,1) :
Pr (-02 < z < 15) =
= 093319 - 042074= 051245
Hay 1000 x 051245 = 51245 512 observaciones.

b)

x = x 2 + 10

x = x1 10

Tablas : z = 1 deja a su izquierda un rea 08413 :

x1 x x1 ( x1 10) 10
=
=
s
s
s
s = 10

z =1=

6 - Distribucin normal (F. lvarez)

c)

Q1 x
Q 1 = x 6'7
10
Q x
0'67 = 3
Q 3 = x + 6'7
10
0'67 =

La amplitud semi-intercuartil es :

Q 3 Q 1 ( x + 6'7) ( x 6'7)
=
=
2
2
13'4
=
= 6'7
2

Q=

9
En un estudio realizado sobre los ingresos familiares en los que los dos cnyuges trabajan, se ha
observado que el salario mensual, en miles de pesetas, de las mujeres (X) se distribuye normalmente
con media 100, en tanto que el de los hombres (Y) tiene la siguiente transformacin Y = X + 20.
Sabiendo adems que el 15% de los hombres no superan el percentil 75 de las mujeres, se pide :
a) Representar grficamente el enunciado del problema.
b) El salario medio de los hombres.
c) La desviacin tpica del salario de los hombres y de las mujeres.
a) Si la media de las mujeres es 100, la de los hombres queda
definida por la relacin Y = X+20, luego es 120.
Dicha transformacin (al no multiplicar o dividir por ningn
valor) no modifica las desviaciones tpicas. En consecuencia,
las desviaciones de la distribucin de mujeres y hombres
coinciden.
En la distribucin correspondiente a las mujeres el valor que
tipificado (Zm) deja a su izquierda un rea 0'75 (75%)
coincide con el de la de los hombres (Zh) que tipificado deja
a su izquierda un rea 0'15 (no supera el valor anterior).
Estas conclusiones se muestran a la derecha.
b) Ya se justific anteriormente que la media de la distribucin de ingresos de los hombres es 120 (en miles de
pesetas).
c) Con la tabla de la distribucin normal determinamos los valores Zm y Zh , y recordando que coinciden Xm y

Xh :

X m 100
X m = 0'67.S + 100
S

X 120 X m 120
Z h = 104
' = h
=
X m = 104
' .S + 120
S
S
0'67.S + 100 = 104
' .S + 120 171
' . S = 20 S = 11696
'
Z m = 0'67 =

Luego las desviaciones tpicas coinciden y valen 11'696 (miles de pesetas).

Distribucin normal (F. lvarez) - 7

EJERCICIOS PROPUESTOS
1
Haciendo uso de la tabla que proporciona reas a la izquierda de cada valor z de la distribucin normal
tipificada, calcular las probabilidades (reas) siguientes :
a)
Pr(z<0'1052)
b)
Pr(z<-2)
c)
Pr(z2'1009)
d)
Pr(z>-0'1)
e)
Pr(0'31z2'084)
f)
Pr(-0'5<z2'07)

2
Haciendo uso de la tabla que proporciona reas entre cada valor z y la media 0 de la distribucin normal
tipificada, calcular las probabilidades (reas) siguientes :
a)
Pr(z2'32)
b)
Pr(z-0'38)
c)
Pr(z>2'2)
d)
Pr(z>-0'876)
e)
Pr(-3'02z0'499)
f)
Pr(0'51z1'83)

3
Para la distribucin normal tipificada, calcular :
a) 6 decil
b) Cuartil 1
c) Valores centrales entre los que queda comprendido el 40% de las observaciones.

4
Analizadas 240 determinaciones de colesterol en sangre, se observ que se distribuan normalmente con
media 100 y desviacin tpica 20.
a) Calcule la probabilidad de que una determinacin sea inferior a 94.
b) Qu proporcin de determinaciones tienen valores comprendidos entre 105 y 130 ?.
c) Cuntas determinaciones fueron superiores a 138 ?.

5
El percentil 60 de una distribucin normal de varianza 80 es igual a 72. Cul es su media ?.
Si el nmero de individuos que la integran es 850, cuantos tienen entre 50 y 80 puntos ?.

6
Determine la media y la desviacin tpica de las puntuaciones de un test de agresividad que se aplic a 120
individuos, sabiendo que 30 alcanzaron menos de 40 puntos y que el 60% obtuvieron puntuaciones
comprendidas entre 40 y 90 puntos.

7
Los 460 alumnos de un centro tienen 156 cm. de estatura media con una varianza de 81 cm.
a) Determine el porcentaje de alumnos que miden ms de 160 cm.
b) Cuntos alumnos miden entre 140 y 150 cm. ?

8
La desviacin tpica de la distribucin de estaturas de los 200 alumnos de un centro es igual a 4 cm. Si 42
miden menos de 150 cm., determine el promedio de la distribucin.

9
Las edades de un grupo de 320 individuos tienen como media 24 y desviacin tpica 5. Cuantos tendrn
menos de 27 aos?.

10
El 80% de los integrantes de un grupo de personas tienen menos de 30 aos. Sabiendo que la edad media del
grupo es de 24 aos, calcule su desviacin tpica.

11
312 de los 1200 tornillos producidos durante una hora en una factora miden ms de 1128 cm.. Sabiendo que
el primer decil de la distribucin es igual a 744, calcule su media y su desviacin tpica.

12
Aplicado un test a 80 individuos, se obtuvo un promedio de 28 puntos.
a) Sabiendo que el percentil 40 de la distribucin es igual a 25'466 puntos, determine su desviacin
tpica.
b) Cuntos poseen calificacin entre 25 y 30 puntos ?.

8 - Distribucin normal (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
a)
d)

0'54380
0'53983

b)
e)

0'02275
0'35952

c)
f)

0'01786
0'67223

a)
d)

0'98983
0'81075

b)
e)

0'35197
0'69015

c)
f)

0'01390
0'27141

2
3
a) Decil 6 = 0'25
b) Cuartil 1 = -0'67
c) Entre -0'52 y 0'52 .

4
a) 0'38209
b) 32'053%
c) 7 determinaciones

5
Media = 69'76
730 individuos.

6
Media = 59'59
Desviacin tpica = 29'24

7
a) 32997%
b) 98 alumnos (983894)

8
Media = 15324

9
232

10
Desviacin tpica = 7143

11
Media = 10
Desviacin tpica = 2

12
a)
b)

10
15'772 16

Distribucin normal (F. lvarez) - 9

TABLA I (A)
DISTRIBUCIN NORMAL TIPIFICADA

N(0 , 1)

La tabla proporciona, para cada valor de z, el rea que queda a su izquierda.

z
-4'4
-4'3
-4'2
-4'1
-4'0
-3'9
-3'8
-3'7
-3'6
-3'5
-3'4
-3'3
-3'2
-3'1
-3'0
-2'9
-2'8
-2'7
-2'6
-2'5
-2'4
-2'3
-2'2
-2'1
-2'0
-1'9
-1'8
-1'7
-1'6
-1'5
-1'4
-1'3
-1'2
-1'1
-1'0
-0'9
-0'8
-0'7
-0'6
-0'5
-0'4
-0'3
-0'2
-0'1
-0'0

0'00

0'01

0'02

0'03

0'04

0'05

0'06

0'07

0'08

0'09

0'00001
0'00001
0'00001
0'00002
0'00003

0'00001
0'00001
0'00001
0'00002
0'00003

0'00001
0'00001
0'00001
0'00002
0'00003

0'00000
0'00001
0'00001
0'00002
0'00003

0'00000
0'00001
0'00001
0'00002
0'00003

0'00000
0'00001
0'00001
0'00002
0'00003

0'00000
0'00001
0'00001
0'00002
0'00002

0'00000
0'00001
0'00001
0'00002
0'00002

0'00000
0'00001
0'00001
0'00002
0'00002

0'00000
0'00001
0'00001
0'00001
0'00002

0'00005
0'00007
0'00011
0'00016
0'00023

0'00005
0'00007
0'00010
0'00015
0'00023

0'00004
0'00007
0'00010
0'00015
0'00022

0'00004
0'00006
0'00010
0'00014
0'00021

0'00004
0'00006
0'00009
0'00014
0'00020

0'00004
0'00006
0'00009
0'00013
0'00019

0'00004
0'00006
0'00009
0'00013
0'00019

0'00004
0'00005
0'00008
0'00012
0'00018

0'00003
0'00005
0'00008
0'00012
0'00017

0'00003
0'00005
0'00008
0'00011
0'00017

0'00034
0'00049
0'00069
0'00097
0'00135

0'00033
0'00047
0'00067
0'00094
0'00131

0'00032
0'00045
0'00064
0'00091
0'00127

0'00030
0'00044
0'00062
0'00088
0'00123

0'00029
0'00042
0'00060
0'00085
0'00119

0'00028
0'00041
0'00058
0'00082
0'00115

0'00027
0'00039
0'00056
0'00079
0'00111

0'00026
0'00038
0'00054
0'00077
0'00107

0'00025
0'00036
0'00052
0'00074
0'00104

0'00024
0'00035
0'00050
0'00071
0'00101

0'00187
0'00256
0'00347
0'00466
0'00621

0'00181
0'00248
0'00336
0'00453
0'00604

0'00175
0'00240
0'00326
0'00440
0'00587

0'00169
0'00233
0'00317
0'00427
0'00570

0'00164
0'00226
0'00307
0'00415
0'00554

0'00159
0'00219
0'00298
0'00402
0'00539

0'00154
0'00212
0'00289
0'00391
0'00523

0'00149
0'00205
0'00280
0'00379
0'00508

0'00144
0'00199
0'00272
0'00368
0'00494

0'00139
0'00193
0'00264
0'00357
0'00480

0'00820
0'01072
0'01390
0'01786
0'02275

0'00798
0'01044
0'01355
0'01743
0'02222

0'00776
0'01017
0'01321
0'01700
0'02169

0'00755
0'00990
0'01287
0'01659
0'02118

0'00734
0'00964
0'01255
0'01618
0'02068

0'00714
0'00939
0'01222
0'01578
0'02018

0'00695
0'00914
0'01191
0'01539
0'01970

0'00676
0'00889
0'01160
0'01500
0'01923

0'00657
0'00866
0'01130
0'01463
0'01876

0'00639
0'00842
0'01101
0'01426
0'01831

0'02872
0'03593
0'04457
0'05480
0'06681

0'02807
0'03515
0'04363
0'05370
0'06552

0'02743
0'03438
0'04272
0'05262
0'06426

0'02680
0'03362
0'04182
0'05155
0'06301

0'02619
0'03288
0'04093
0'05050
0'06178

0'02559
0'03216
0'04006
0'04947
0'06057

0'02500
0'03144
0'03920
0'04846
0'05938

0'02442
0'03074
0'03836
0'04746
0'05821

0'02385
0'03005
0'03754
0'04648
0'05705

0'02330
0'02938
0'03673
0'04551
0'05592

0'08076
0'09680
0'11507
0'13567
0'15866

0'07927
0'09510
0'11314
0'13350
0'15625

0'07780
0'09342
0'11123
0'13136
0'15386

0'07636
0'09176
0'10935
0'12924
0'15150

0'07493
0'09012
0'10749
0'12714
0'14917

0'07353
0'08851
0'10565
0'12507
0'14687

0'07214
0'08692
0'10383
0'12302
0'14457

0'07078
0'08534
0'10204
0'12100
0'14231

0'06944
0'08379
0'10027
0'11900
0'14007

0'06811
0'08226
0'09853
0'11702
0'13786

0'18406
0'21186
0'24196
0'27425
0'30854

0'18141
0'20897
0'23885
0'27093
0'30503

0'17879
0'20611
0'23576
0'26763
0'30153

0'17619
0'20327
0'23270
0'26435
0'29806

0'17361
0'20045
0'22965
0'26109
0'29550

0'17106
0'19766
0'22663
0'25785
0'29116

0'16853
0'19489
0'22363
0'25463
0'28774

0'16602
0'19215
0'22065
0'25143
0'28434

0'16354
0'18925
0'21770
0'24825
0'28096

0'16109
0'18673
0'21476
0'24510
0'27760

0'34446
0'38209
0'42074
0'46017
0'50000

0'34090
0'37828
0'41683
0'45620
0'49601

0'33724
0'37448
0'41294
0'45234
0'49202

0'33360
0'37070
0'40905
0'44828
0'48803

0'32997
0'36693
0'40517
0'44433
0'48405

0'32636
0'36317
0'40129
0'44038
0'48006

0'32276
0'35942
0'39743
0'43644
0'47608

0'31918
0'35569
0'39358
0'43251
0'47210

0'31561
0'35197
0'38974
0'42858
0'46812

0'31207
0'34827
0'38591
0'42465
0'46414

10 - Distribucin normal (F. lvarez)

TABLA I (B)
DISTRIBUCIN NORMAL TIPIFICADA

N(0 , 1)

La tabla proporciona, para cada valor de z, el rea que queda a su izquierda.

z
0'0
0'1
0'2
0'3
0'4
0'5
0'6
0'7
0'8
0'9
1'0
1'1
1'2
1'3
1'4
1'5
1'6
1'7
1'8
1'9
2'0
2'1
2'2
2'3
2'4
2'5
2'6
2'7
2'8
2'9
3'0
3'1
3'2
3'3
3'4
3'5
3'6
3'7
3'8
3'9
4'0
4'1
4'2
4'3
4'4

0'00

0'01

0'02

0'03

0'04

0'05

0'06

0'07

0'08

0'09

0'50000
0'53983
0'57926
0'61791
0'65554

0'50399
0'54380
0'58317
0'62172
0'65910

0'50798
0'54766
0'58706
0'62552
0'66276

0'51197
0'55172
0'59095
0'62930
0'66640

0'51595
0'55567
0'59483
0'63307
0'67003

0'51994
0'55962
0'59871
0'63683
0'67364

0'52392
0'56356
0'60257
0'64058
0'67724

0'52790
0'56749
0'60642
0'64431
0'68082

0'53188
0'57142
0'61026
0'64803
0'68439

0'53586
0'57535
0'61409
0'65173
0'68793

0'69146
0'72575
0'75804
0'78814
0'81594

0'69497
0'72907
0'76115
0'79103
0'81859

0'69847
0'73237
0'76424
0'79389
0'82121

0'70194
0'73565
0'76730
0'79673
0'82381

0'70450
0'73891
0'77035
0'79955
0'82639

0'70884
0'74215
0'77337
0'80234
0'82894

0'71226
0'74537
0'77637
0'80511
0'83147

0'71566
0'74857
0'77935
0'80785
0'83398

0'71904
0'75175
0'78230
0'81075
0'83646

0'72240
0'75490
0'78524
0'81327
0'83891

0'84134
0'86433
0'88493
0'90320
0'91924

0'84375
0'86650
0'88686
0'90490
0'92073

0'84614
0'86864
0'88877
0'90658
0'92220

0'84850
0'87076
0'89065
0'90824
0'92364

0'85083
0'87286
0'89251
0'90988
0'92507

0'85313
0'87493
0'89435
0'91149
0'92647

0'85543
0'87698
0'89617
0'91308
0'92786

0'85769
0'87900
0'89796
0'91466
0'92922

0'85993
0'88100
0'89973
0'91621
0'93056

0'86214
0'88298
0'90147
0'91774
0'93189

0'93319
0'94520
0'95543
0'96407
0'97128

0'93448
0'94630
0'95637
0'96485
0'97193

0'93574
0'94738
0'95728
0'96562
0'97257

0'93699
0'94845
0'95818
0'96638
0'97320

0'93822
0'94950
0'95907
0'96712
0'97381

0'93943
0'95053
0'95994
0'96784
0'97441

0'94062
0'95154
0'96080
0'96856
0'97500

0'94179
0'95254
0'96164
0'96926
0'97558

0'94295
0'95352
0'96246
0'96995
0'97615

0'94408
0'95449
0'96327
0'97062
0'97670

0'97725
0'98214
0'98610
0'98928
0'99180

0'97778
0'98257
0'98645
0'98956
0'99202

0'97831
0'98300
0'98679
0'98983
0'99224

0'97882
0'98341
0'98713
0'99010
0'99245

0'97932
0'98382
0'98745
0'99036
0'99266

0'97982
0'98422
0'98778
0'99061
0'99286

0'98030
0'98461
0'98809
0'99086
0'99305

0'98077
0'98500
0'98840
0'99111
0'99324

0'98124
0'98537
0'98870
0'99134
0'99343

0'98169
0'98574
0'98899
0'99158
0'99361

0'99379
0'99534
0'99653
0'99744
0'99813

0'99396
0'99547
0'99664
0'99752
0'99819

0'99413
0'99560
0'99674
0'99760
0'99825

0'99430
0'99573
0'99683
0'99767
0'99831

0'99446
0'99585
0'99693
0'99774
0'99836

0'99461
0'99598
0'99702
0'99781
0'99841

0'99477
0'99609
0'99711
0'99788
0'99846

0'99492
0'99621
0'99720
0'99795
0'99851

0'99506
0'99632
0'99728
0'99801
0'99856

0'99520
0'99643
0'99736
0'99807
0'99861

0'99865
0'99903
0'99931
0'99951
0'99966

0'99869
0'99906
0'99933
0'99953
0'99967

0'99873
0'99909
0'99936
0'99955
0'99968

0'99877
0'99912
0'99938
0'99956
0'99970

0'99881
0'99915
0'99940
0'99958
0'99971

0'99885
0'99918
0'99942
0'99959
0'99972

0'99889
0'99921
0'99944
0'99961
0'99973

0'99893
0'99923
0'99946
0'99962
0'99974

0'99896
0'99926
0'99948
0'99964
0'99975

0'99899
0'99929
0'99950
0'99965
0'99976

0'99977
0'99984
0'99989
0'99993
0'99995

0'99977
0'99985
0'99990
0'99993
0'99995

0'99978
0'99985
0'99990
0'99993
0'99996

0'99979
0'99986
0'99990
0'99994
0'99996

0'99980
0'99986
0'99991
0'99994
0'99996

0'99981
0'99987
0'99991
0'99994
0'99996

0'99981
0'99987
0'99991
0'99994
0'99996

0'99982
0'99988
0'99992
0'99995
0'99996

0'99983
0'99988
0'99992
0'99995
0'99997

0'99983
0'99989
0'99992
0'99995
0'99997

0'99997
0'99998
0'99999
0'99999
0'99999

0'99997
0'99998
0'99999
0'99999
0'99999

0'99997
0'99998
0'99999
0'99999
0'99999

0'99997
0'99998
0'99999
0'99999
1'00000

0'99997
0'99998
0'99999
0'99999
1'00000

0'99997
0'99998
0'99999
0'99999
1'00000

0'99998
0'99998
0'99999
0'99999
1'00000

0'99998
0'99998
0'99999
0'99999
1'00000

0'99998
0'99999
0'99999
0'99999
1'00000

0'99998
0'99999
0'99999
0'99999
1'00000

Distribucin normal (F. lvarez) - 11

TABLA II
DISTRIBUCIN NORMAL TIPIFICADA

N(0 , 1)

La tabla proporciona el rea que queda comprendida entre 0 y z.

z
0'0
0'1
0'2
0'3
0'4
0'5
0'6
0'7
0'8
0'9
1'0
1'1
1'2
1'3
1'4
1'5
1'6
1'7
1'8
1'9
2'0
2'1
2'2
2'3
2'4
2'5
2'6
2'7
2'8
2'9
3'0
3'1
3'2
3'3
3'4
3'5
3'6
3'7
3'8
3'9
4'0
4'1
4'2
4'3
4'4

0'00

0'01

0'02

0'03

0'04

0'05

0'06

0'07

0'08

0'09

000000
003983
007926
011791
015554

000399
004380
008317
012172
015910

000798
004766
008706
012552
016276

001197
005172
009095
012930
016640

001595
005567
009483
013307
017003

001994
005962
009871
013683
017364

002392
006356
010257
014058
017724

002790
006749
010642
014431
018082

003188
007142
011026
014803
018439

003586
007535
011409
015173
018793

019146
022575
025804
028814
031594

019497
022907
026115
029103
031859

019847
023237
026424
029389
032121

020194
023565
026730
029673
032381

020450
023891
027035
029955
032639

020884
024215
027337
030234
032894

021226
024537
027637
030511
033147

021566
024857
027935
030785
033398

021904
025175
028230
031075
033646

022240
025490
028524
031327
033891

034134
036433
038493
040320
041924

034375
036650
038686
040490
042073

034614
036864
038877
040658
042220

034850
037076
039065
040824
042364

035083
037286
039251
040988
042507

035313
037493
039435
041149
042647

035543
037698
039617
041308
042786

035769
037900
039796
041466
042922

035993
038100
039973
041621
043056

036214
038298
040147
041774
043189

043319
044520
045543
046407
047128

043448
044630
045637
046485
047193

043574
044738
045728
046562
047257

043699
044845
045818
046638
047320

043822
044950
045907
046712
047381

043943
045053
045994
046784
047441

044062
045154
046080
046856
047500

044179
045254
046164
046926
047558

044295
045352
046246
046995
047615

044408
045449
046327
047062
047670

047725
048214
048610
048928
049180

047778
048257
048645
048956
049202

047831
048300
048679
048983
049224

047882
048341
048713
049010
049245

047932
048382
048745
049036
049266

047982
048422
048778
049061
049286

048030
048461
048809
049086
049305

048077
048500
048840
049111
049324

048124
048537
048870
049134
049343

048169
048574
048899
049158
049361

049379
049534
049653
049744
049813

049396
049547
049664
049752
049819

049413
049560
049674
049760
049825

049430
049573
049683
049767
049831

049446
049585
049693
049774
049836

049461
049598
049702
049781
049841

049477
049609
049711
049788
049846

049492
049621
049720
049795
049851

049506
049632
049728
049801
049856

049520
049643
049736
049807
049861

049865
049903
049931
049951
049966

049869
049906
049933
049953
049967

049873
049909
049936
049955
049968

049877
049912
049938
049956
049970

049881
049915
049940
049958
049971

049885
049918
049942
049959
049972

049889
049921
049944
049961
049973

049893
049923
049946
049962
049974

049896
049926
049948
049964
049975

049899
049929
049950
049965
049976

049977
049984
049989
049993
049995

049977
049985
049990
049993
049995

049978
049985
049990
049993
049996

049979
049986
049990
049994
049996

049980
049986
049991
049994
049996

049981
049987
049991
049994
049996

049981
049987
049991
049994
049996

049982
049988
049992
049995
049996

049983
049988
049992
049995
049997

049983
049989
049992
049995
049997

049997
049998
049999
049999
049999

049997
049998
049999
049999
049999

049997
049998
049999
049999
049999

049997
049998
049999
049999
050000

049997
049998
049999
049999
050000

049997
049998
049999
049999
050000

049998
049998
049999
049999
050000

049998
049998
049999
049999
050000

049998
049999
049999
049999
050000

049998
049999
049999
049999
050000

12 - Distribucin normal (F. lvarez)

Series cronolgicas
Componentes:
Tendencia
Variacin estacional
Variacin cclica
Variacin accidental

Evolucin general de la serie


Variaciones regulares en funcin de la estacin del ao
Variaciones peridicas (anuales o en perodos de pocos aos)
Pequeas variaciones (ruidos) que no afectan a las anteriores. No se suelen tener
en cuenta.

Determinacin de la tendencia:
Suavizado: Clculo de medias mviles (3, 5, elementos)
Funcin de ajuste
Estimacin o prediccin: intervalo utilizando el error tpico

Variaciones cclicas. ndice estacional:


ndice estacional = (Valor medio estacin) / (Valor medio global)
Porcentaje de variacin = (ndice estacional 1) x 100 (%)
Ao
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002

Valor
70
105
140
300
290
350
360
320
330
400
620
500
600

Media mvil (3)

Media mvil (5)

105
181,7
243,3
313,3
333,3
343,3
336,7
350
450
506,7
573,3

181
237
288
324
330
352
406
434
490

700
600
500
400
300
200
100
0

700

600

600

500

500

400

400

300

300

200

200
100

100

Ao
1990
1991
1992
1993
1994
Media
nd. Estacional
% variacin
19000
17000
15000
13000
11000
9000
7000
5000

Primavera
8190
8606
9552
9412
10289
9210
0,900
-10%

Verano
18247
19541
19670
18911
19394
19153
1,872
+87,2%

Otoo
6369
6961
7167
7220
7573
7058
0,700
-30%

Invierno
5520
5022
5616
5721
5675
5511
0,538
-46,2%

Media
9581
10033
10501
10316
10734
10233

Nmeros ndices
ndice simple: Cociente entre el valor actual y el tomado como base. Opcionalmente se puede multiplicar por 100.

Ii =

xi
.100
x0

Variacin simple: Cociente entre la diferencia del valor actual y el tomado como base y ste ltimo. Opcionalmente se
puede multiplicar por 100.

I i =

ndice simple
Variacin simple

xi x 0
.100 = I i 100
x0

Ao
Precio
Base 2000
Base 2000

2000
135
100
0

2001
150
111,11
11,11

2002
200
148,15
48,15

2003
240
177,78
77,78

ndices compuestos: Aplicables a series cronolgicas sobre las que se toman varias mediciones (generalmente valor
o ndice [p, I] y cantidad o peso [q, ])
ndice compuesto no ponderado:

I CNP =

ndice compuesto ponderado:

I CP =

en variaciones: I CNP =

n
I i .i

p .q
=
p .q
p .q
=
p .q

en variaciones: I CP =

IL

ndice de Laspeyres:

IP

ndice de Paasche:

1990
1991
1992
CNP (1992)
CP (1992)
L (1992, base 1990)
P (1992, base 1990)

A
p
80
85
90

q
10
15
17

B
p
82
85
95

q
20
20
25

C
p
80
85
92

ij

i0

i0

i0

ij

ij

i0

ij

q
50
60
50

CNP
80,67
85,00
92,33

CP
80,50
85,00
92,45

L
1,0000
1,0559
1,1491

I i .i

P
1,0000
1,0569
1,1478

90 + 95 + 92
= 92,33
3
90.17 + 95.25 + 92.50
= 92,45
17 + 25 + 50
90.10 + 95.20 + 92.50
= 1,1491
80.10 + 82.20 + 80.50
90.17 + 95.25 + 92.50
= 1,1478
80.17 + 82.25 + 80.50

Lectura recomendada:
Estadstica para Relaciones Laborales. ngel Alcal. Hesprides
Tema 9:
Tema 10:
Tema 11:

El ndice de precios al consumo (9.6) y Otros indicadores econmicos y sociales (9.7).


Estadsticas laborales.
Otras estadsticas de inters.

Mtodos Estadsticos Aplicados


a las Auditorias Sociolaborales

MODELO DE EXMEN
APELLIDOS

Firma

NOMBRE
1. En el proceso de seleccin de personal, se somete a los aspirantes a dos pruebas con diferente
grado de dificultad, cumplimentando adems un cuestionario con sus datos personales. El sexo de cada
candidato es una variable:
a) cualitativa ordenable
b) discreta
c) dicotmica
d) cuantitativa continua
2. En la prueba realizada en el proceso de seleccin de personal, las mujeres obtienen una calificacin
media de 6 puntos, siendo de 6,4 la obtenida por los hombres. Sabiendo que ambas series tienen la
misma desviacin tpica, cul de las dos series de calificaciones es ms dispersa?:
a) La de las mujeres
b) La de los hombres
c) Es necesario conocer el valor de la desviacin tpica
d) Ambas son igualmente dispersas
3. En el proceso de negociacin salarial se decide incrementar en un 3% el salario de todos los
trabajadores de la empresa. En la nueva serie de retribuciones:
a) La coeficiente de correlacin disminuye
b) La media se mantiene constante
c) La varianza se mantiene inalterada
d) El coeficiente de variacin no sufre modificacin
4. En la prueba realizada en el proceso de seleccin de personal, las mujeres obtienen una calificacin
media de 6 puntos con varianza 4, siendo de 5,8 la media obtenida por los hombres con desviacin
tpica 1,6. Si Una mujer obtiene 7 puntos y un hombre 66, cul de los dos tiene una mejor puntuacin
relativa dentro del colectivo determinado por el sexo?:
a) Hemos de conocer la media y la varianza conjunta
b) La mujer tiene una mejor puntuacin relativa
c) El hombre tiene una mejor puntuacin relativa
d) Ambos tienen la misma calificacin relativa
5. Una fbrica funciona las 24 horas del da con tres turnos de 30 trabajadores cada uno. En el primer
turno el 60 % son mujeres; en el segundo hay 12 mujeres y, en el tercero, slo el 20 % son mujeres.
Seleccionada una mujer, la probabilidad de que trabaje en el segundo turno es:
a)
1/3
b)
040
c)
065
d)
del 50%
6. En un proceso de seleccin se ofrece a los participantes tres ejercicios alternativos. Cada aspirante
elige siempre uno de los tres ejercicios (A, B, C) con igual probabilidad (P(A)=P(B)=P(C)=1/3). El ndice
de dificultad de cada uno de estos tres ejercicios es variable, siendo 5 si elige el A, 2 si selecciona B y 1
si realiza el C.
Un determinado participante realiz una prueba con un ndice de dificultad inferior a 3. Cul es la
probabilidad de que haya elegido el ejercicio A?:
a) 1
b) 1/2
c) 1/3
d) 0
7. Finalizada la prueba anterior, preguntamos sobre el ejercicio elegido a los dos primeros aspirantes
que salen del recinto. Cul es la probabilidad de ambos realizaran el supuesto A?:
a) 1/4
b) 1/3
c) 1/9
d) 1

8. Para conocer el nivel de relacin existente entre el tipo de contrato (temporal o fijo) y el nmero de
hijos de los trabajadores de una empresa, podemos utilizar el:
a) Coeficiente de Spearman
b) Coeficiente (phi)
c) Coeficiente de exceso de Fisher
d) Coeficiente biserial puntual
9. En el estudio de la relacin existente entre los pares de valores observados de dos variables X e Y,
se sabe que sus varianzas respectivas son iguales a 25 y 16, siendo 20 el valor de su covarianza. Con
ello podemos afirmar que:
a) Los datos son errneos
b) El coeficiente de determinacin es del 5%
c) El coeficiente de variacin de la segunda es mayor
d) Las variables X e Y estn perfectamente correlacionadas
10. Indique cul de las siguientes afirmaciones sobre el IPC (ndice de precios al consumo) es correcta:
a) Es un ndice simple basado en los precios de una serie de productos.
b) Es un ndice compuesto del tipo Laspeyres.
c) Es un ndice compuesto del tipo Paasche.
d) Es la pendiente de la serie cronolgica de periodicidad mensual.

1
a

Las contestaciones dadas fuera de la siguiente tabla se considerarn invlidas.


Calificacin:
- Respuesta correcta:
+ 15 puntos
- Respuesta incorrecta: - 05 puntos
- Sin respuesta:
No punta
A la calificacin obtenida se sumar la de las prcticas (025 por prctica con un mximo
de 25 puntos).
El examen se aprueba con una calificacin final superior o igual a 75 puntos.

b
c
d

10

X
X

X
X

Mtodos Estadsticos Aplicados


a las Auditorias Sociolaborales

MODELO DE EXMEN
APELLIDOS

Firma

NOMBRE

1.
Edad
[10,12)
[12,14)
[14,16)
[16,18)
[18,20]

Personas
5
11
19
21
4

De la distribucin de edades de la izquierda, calcule:


1) Media y desviacin tpica.
2) Moda y Coeficiente de variacin.
3) Entre qu edades se encuentra el 30% de las
observaciones centrales?

2.
De la siguiente distribucin bivariante:

Categora

1
2
3

(Tcnico)
(Mando intermedio)
(Directivo)

[0,2)
1
2
4

Hijos
[2,4)
7
2

[4,6]
3
1

1) Obtenga la ecuacin de la recta de ajuste a dicha distribucin.


2) Calcule e interprete el valor del coeficiente de correlacin lineal.
3) De la varianza total del nmero de hijos, determine la proporcin que no es atribuible a la
categora.

3.
Los resultados de una encuesta de satisfaccin en el desempeo de la actividad laboral, sometidos
a la consideracin de 420 trabajadores, se distribuyen normalmente con media 4'5 y varianza 4.
1) Calcule la probabilidad de que un trabajador cuantifique su grado de satisfaccin con ms de
55 puntos.
2) Cuntos trabajadores otorgaron calificaciones comprendidas entre 3 y 7 puntos?.

Puntuacin de cada apartado: 075 puntos (Total 6 puntos)

1.
1.
2.
3.

Media
Desviacin tpica
Moda
Coef. Variacin
P(35)
P(65)

15,27
2,11
16,35
13,84
14,53
16,38

2.
1.
2.
3.

b = -1,16
a = 5,14
o bien:
b = -027
a = 2,83
r = -05606 (3142%)
interpretacin
1 r2 = 06858 (6858%)

3.
1.
2.

z = 05
p = 1 069146 = 030854
z1 = -075 ; z2 = 075
p1 = 022663 ; p2 = 077337
N = 420 x 054674 = 229,63 (230)

You might also like