You are on page 1of 17

Botella

Captulo 1: Conceptos generales


La estadstica actual no slo es un conjunto de tcnicas para resumir y transmitir informacin
cuantitativa, sino que sirve tambin, y fundamentalmente, para hacer inferencias, generalizaciones y
extrapolaciones de un conjunto relativamente pequeo de datos a un conjunto mayor. Estas dos
grandes funciones de la estadstica (descripcin y realizacin de inferencias) reflejan la propia
historia del desarrollo de esta ciencia. La estadstica actual es el producto del encuentro de dos
ramas distintas del saber, la antigua estadstica y el clculo de probabilidades. Lo que posibilit el
clculo de probabilidades fue el desarrollo de mtodos para extrapolar las conclusiones a entidades
no observadas. Es decir, proporcion el instrumento adecuado para poder hacer inferencias acerca
de grandes cantidades de observaciones potenciales a partir de unas pocas observaciones reales.
Clsicamente la estadstica se ha dividido en dos partes, la estadstica descriptiva y la
estadstica inferencial. Para hacer un estudio inferencial primero hay que hacer un estudio
descriptivo de los datos. Es decir, un estudio descriptivo se agota en la descripcin, mientras que
uno inferencial comienza por la descripcin y luego aborda la inferencia. Mientras que la estadstica
descriptiva puede abordarse sin conocimientos tcnicos previos, aparte del lgebra elemental, para
el estudio de la estadstica inferencial hay que adquirir nociones bsicas de probabilidad.

Estadstica: Ciencia que se ocupa de la ordenacin y anlisis de datos procedentes de


muestras, y de la realizacin de inferencias acerca de las poblaciones de las que
stas proceden.
Distincin entre estadstica terica y estadstica aplicada: La primera se dedica al estudio de
los mtodos formalmente vlidos para la realizacin de inferencias. La segunda se dedica a la
aplicacin de esos mtodos y modelos de actuacin a campos reales. Cualquier trabajo en el que se
aplica la estadstica se refiere a un conjunto de entidades, conocido con el nombre de poblacin.

Se llama poblacin estadstica al conjunto de todos los elementos que cumplen una o
varias caractersticas o propiedades.
A los elementos que componen una poblacin se les denomina entidades estadsticas o
individuos (pueden ser personas, animales, objetos o nmeros). Dependiendo del nmero de
elementos que la compongan, la poblacin puede ser finita o infinita. La mayor parte de las
poblaciones con las que solemos trabajar son finitas, pero tan numerosas que a la hora de hacer
inferencias acerca de ellas se pueden considerar infinitas a efectos prcticos. Cuando un
investigador aborda un trabajo emprico debe definir claramente la poblacin sobre la cual se
interesa. La poblacin ha de ser el marco o conjunto de referencia sobre el cual van a recaer las
conclusiones e interpretaciones, y stas no pueden exceder ese marco. El hecho de que las
poblaciones sean muy numerosas, suele hacer inaccesible la descripcin de propiedades. De ah que
se trabaje fundamentalmente con muestras.

Una muestra es un subconjunto de los elementos de una poblacin.


La muestra nos va a ofrecer una serie de datos que podemos ordenar, simplificar y describir. Pero el
objetivo fundamental es el poder describir la poblacin de partida mediante lo que podamos
encontrar en la muestra. Y para poder extraer esas conclusiones lo ms importante es que las
muestras de observaciones sean representativas. Existe todo un campo de la estadstica, llamado
muestreo, dedicado a estudiar los procedimientos de extraccin de muestras encaminados a
maximizar la representatividad de las mismas. Por ello un primer objetivo de la estadstica
descriptiva consiste en conseguir resmenes de los datos en ndices compactos y de gran calidad
informativa. Las poblaciones pueden caracterizarse a partir de unas constantes denominadas
parmetros. Como normalmente los parmetros son desconocidos, una de las tareas de la
estadstica es la de hacer conjeturas lo ms acertada posibles acerca de esas cantidades. Para ello
se utilizan cantidades anlogas obtenidas en las muestras, que se denominan estadsticos.

Un parmetro es una propiedad descriptiva de una poblacin.


Un estadstico es una propiedad descriptiva de una muestra.

Los parmetros y estadsticos no slo son medias, sino que pueden ser otros tipos de cantidades,
como porcentajes. En la prctica no ser preciso estar repitiendo el experimento; bastar con
obtener una nica muestra y, por lo tanto, a partir de ella tratar de estimar el parmetro. Para ello es
fundamental que la muestra sea representativa de la poblacin y que el estadstico calculado rena
la informacin necesaria y suficiente para que a partir de l podamos decir algo acerca de la
verdadera eficacia del tratamiento. Desde un punto de vista simblico, conviene indicar, para
distinguirlos, que los parmetros se suelen representar por letras griegas mientras que los
estadsticos se suelen simbolizar por letras latinas. En la primera fase de una investigacin se
obtienen los estadsticos, y en la segunda se utilizan los valores obtenidos para hacer inferencias
acerca de los parmetros.
Cuando estudiamos las entidades que conforman una poblacin nos interesamos por algunas de las
propiedades de sus elementos, y esas propiedades adoptan distintas variedades.

Una caracterstica es una propiedad o cualidad de un individuo.


Una modalidad es cada una de las maneras como se presenta una caracterstica.

MEDICIN
La estadstica no realiza sus funciones directamente sobre las modalidades observadas, sino que
stas se representan por nmeros, y la estadstica realiza sus funciones sobre esos nmeros.

Se llama medicin al proceso de atribuir nmeros a las caractersticas.


La asignacin de nmeros a las caractersticas se hace siguiendo unas reglas; del estudio de los
modelos mediante los cuales conocemos las reglas para una correcta atribucin de los nmeros se
ocupa la Teora de la medida. El objetivo de la medicin de una caracterstica es conectar un
sistema relacional emprico y un sistema relacional numrico, de tal forma que las relaciones entre
las entidades se reflejen en las relaciones entre los nmeros que los simbolizan. Slo si se consigue
este objetivo ocurrir que de las relaciones entre los nmeros podrn hacerse inferencias vlidas
acerca de las relaciones entre las entidades.
La medicin estudia las condiciones de construccin de representaciones numricas, y los modelos
desarrollados para la medicin se llaman escalas.
Se utiliza una clase por cada una de las modalidades que adopta la caracterstica que se est
estudiando. Las clases son mutuamente exclusivas y exhaustivas, es decir, cada observacin es
incluida en una y slo una clase. Se tiene un conjunto de objetos cuya caracterstica nos interesa
para su estudio. sta adopta un nmero k de modalidades distintas; representamos por m a la
modalidad del objeto.
CUALITATIVAS O NOMINALES: Asignamos nmeros a los objetos en funcin de la modalidad que
presentan en esa caracterstica; representamos por n al nmero asignado al objeto. Al tipo de
medicin que cumple con estas condiciones se la llama escalamiento cualitativo o nominal, y al
conjunto de clases que las integran se le llama escala nominal. Podran tambin utilizarse otros
smbolos, como letras, palabras, etc, puesto que los nmeros asignados no se van a utilizar como
tales, sino como simples cdigos de identificacin. La clave de estas escalas de medida es que slo
informan de la igualdad o desigualdad de los individuos en una caracterstica, pero no de posibles
ordenaciones de las mismas (no puede decirse que las mujeres tengan mas sexo que los hombres).
Un concepto ntimamente ligado al concepto de escala, y que de hecho las caracteriza, es el de
transformacin admisible, que hace referencia al problema de la unidad de medida. De un
conjunto de valores correctamente atribuidos se puede pasar a otro tambin correctamente atribuido
mediante una transformacin admisible.
ORDINALES: Supongamos que contamos de nuevo con un conjunto de objetos que difieren en una
caracterstica que cada uno posee en una cierta cantidad. De nuevo el proceso de medicin debe
consistir en la aplicacin de una regla de asignacin de nmeros a las diferentes cantidades, pero
ahora de tal forma que los nmeros asignados a los objetos reflejen esos distintos grados en los que
se presenta la caracterstica. A aquellas escalas de medida que cumplen estas caractersticas se les
llama escalas ordinales. Dos objetos con el mismo nmero asignado podemos concluir que
presentan la misma modalidad (en este caso tienen la misma cantidad de esa propiedad), pero de
dos objetos a los que se han asignado nmeros diferentes no slo puede decirse que son diferentes

en esa caracterstica, sino que pueden establecerse relaciones del tipo mayor que o menor que;
puede decirse cul de esos objetos presenta una mayor magnitud de esa caracterstica. Dicho de
otro modo, los objetos pueden ordenarse, y de ah es que proviene el nombre de la escala.
Tambin este tipo de escala permite hacer transformaciones admisibles (que cumplan la condicin
de ser transformaciones crecientes). El problema de este tipo de escala es que, aunque nos informa
de que un objeto presenta la caracterstica en cuestin en una mayor magnitud que otro objeto, no
nos dice en cuanto ms.
INTERVALARES: Para poder extraer conclusiones ms precisas, como la de en cunto ms presenta
la caracterstica un objeto sobre otro, hay que contar con una unidad de medida, y para ello hay que
pasar al siguiente tipo de escala, escala de intervalo. Esta unidad de medida y su origen son
arbitrarios. La principal limitacin de este tipo de escalas es que, aunque cuenta con una unidad de
medida, no tiene un cero absoluto. Es decir, el nmero cero no representa realmente la ausencia de
esa caracterstica (ejemplo: la temperatura).
DE RAZN: En la siguiente escala, escala de razn, cumple la funcin de preservar el significado
del valor cero, de forma que siempre represente la ausencia de esa caracterstica. La consecuencia
fundamental de la presencia de un origen absoluto, y no arbitrario, es que a dems de poder extraer
conclusiones acerca de la igualdad o desigualdad de diferencias, tambin puede hablarse de
desigualdad o igualdad de razones.
Tipo

Informacin deducible

Nominal

Relaciones igual que o


distinto que
Relaciones mayor que o
igual que
Igualdad o desigualdad de
diferencias
Igualdad o desigualdad de
razones

Ordinal
Intervalo
Razn

Transformacin
admisible
Aplicaciones inyectivas
Funciones crecientes
A + b x (b > 0)
B x (b > 0)

Ejemplos
Sexo, estado civil,
diagnstico clnico
Dureza, nivel
socioeconmico
Temp., calendario,
inteligencia
Longitud, peso

VARIABLES: CLASIFICACIN Y NOTACIN


En el proceso de medicin se asignan nmeros a los objetos segn unas reglas, y el conjunto de
valores numricos atribuidos a las modalidades de una caracterstica constituyen lo que llamamos
variable estadstica.

Una variable es una representacin numrica de una caracterstica.


Hay veces que una caracterstica tiene una nica modalidad, en ese caso todas las entidades
estudiadas adoptaran el mismo valor numrico, y decimos que se trata de una constante.
Las variables pueden clasificarse de varias formas. Las variables cuantitativas (sean de intervalo
o razn) pueden a su vez clasificarse en variables discretas y variables continuas, en funcin
del nmero de valores asumibles por ellas. Una variable discreta es aquella que adopta valores
aislados. Por tanto, fijados dos consecutivos, no puede tomar ninguno intermedio (no hay que
confundirlos con los valores enteros, ya que nada tiene que ver una cosa con la otra). En las
variables continuas entre dos valores cualesquiera, por prximos que sean, siempre pueden
encontrarse valores intermedios. Las variables estadsticas se simbolizan por letras maysculas
latinas, y generalmente con un subndice, para distinguirlas de las constantes. El subndice sirve
para indicar, adems, la posicin que ocupa un determinado valor en el conjunto de valores de la
variable (nada tiene que ver con la magnitud del valor al que se est refiriendo, sino simplemente al
lugar que dicho valor ocupa dentro de una serie de valores). El smbolo Xi se dice que es el trmino
general y representa a cualquier valor de la serie.
--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 2: Organizacin y representacin de datos


Luego de obtener un conjunto de valores tomados en una o varias variables hay que empezar por
inspeccionar los datos. Cuando la cantidad de nmeros recolectados es demasiado grande, se hace
difcil hacer una inspeccin directa que sea realmente comprensiva. Por eso el primer paso suele
consistir en reorganizar los datos. Un instrumento para conseguir esa ordenacin es la denominada
distribucin de frecuencias, y a partir de ella es frecuente tambin construir representaciones
grficas.

DISTRIBUCIN DE FRECUENCIAS
La distribucin de frecuencias es un instrumento diseado para cumplir tres funciones: a)
proporcionar una reorganizacin y ordenacin racional de los datos recogidos, b) ofrecer la
informacin necesaria para hacer representaciones grficas y c) facilitar los clculos necesarios para
obtener los estadsticos muestrales. Representaremos por X a la variable con la que trabajamos, y
que puede adoptar distintos valores (X1, X2, X3) pero cada uno de ellos puede aparecer repetido
ms de una vez en los n elementos que componen la muestra.

Se llama frecuencia absoluta de un valor Xp, y se simboliza por np, al nmero de


veces que se repite el valor Xi en la muestra.
Se llama frecuencia relativa de un valor xp y se simboliza por pp al cociente entre
la frecuencia absoluta de ese valor y el tamao de la muestra.
Se llama frecuencia absoluta acumulada de un valor xp y se simboliza por px al
cociente entre su frecuencia absoluta acumulada y el tamao de la muestra.
A veces las frecuencias relativas, ya sean simples o acumuladas, se expresan en trminos
porcentuales. En esos casos suelen representarse con maysculas; par obtenerlas basta con
multiplicar por 100 las frecuencias relativas. Construimos la distribucin de frecuencias siguiendo los
pasos descritos:
a) Se ponen los valores que toma la variable en la primera columna de abajo hacia arriba.
b) Para la columna de frecuencias absolutas contamos el nmero de veces que se repite
cada valor. La suma de ellos es igual al tamao de la muestra.
c) Para la columna de frecuencias relativas dividimos cada frecuencia absoluta por n. Las
suma de ellas debe dar 1 (o en algunos casos dar por ejemplo 0,98 o 1,02, que tambin
se acepta como correcto).
d) Para obtener las frecuencias absolutas acumuladas sumamos para cada valor su
frecuencia absoluta ms la absoluta acumulada del valor anterior. Su suma debe dar
tambin n.
e) Para las frecuencias relativas acumuladas dividimos cada frecuencia absoluta
acumulada por n. La frecuencia relativa de valor mayor debe ser igual a 1.
En muestras en donde se tienen muchsimos valores que toma la variable, suele aplicarse lo que se
denomina una agrupacin en intervalos, y que consiste en formar grupos de valores
consecutivos, llamados intervalos, y poner uno de estos grupos en cada fila, en lugar de poner cada
valor individual por separado. A continuacin se calculan las frecuencias absolutas conjuntas de los
valores incluidos en el intervalo haciendo lo mismo despus con las frecuencias relativas, las
absolutas acumuladas y las relativas acumuladas. En las distribuciones de frecuencias con valores
agrupados en intervalos aparecen algunos elementos nuevos:

Se llama intervalo a cada uno de los grupos de valores que ocupan una fila en
una determinada distribucin de frecuencias.
Se llaman lmites aparentes o informados de un intervalo a los valores mayor y
menor que puede adoptar la variable dentro de ese intervalo mencionado.
Se llaman lmites exactos de un intervalo a los valores mximo y mnimo que
estn incluidos en dicho intervalo.

Se llama punto medio de un intervalo a la suma de sus lmites exactos partido


por dos.
Se llama amplitud de un intervalo a la diferencia entre su lmite exacto superior y
su lmite exacto inferior. Se representa por la letra I.
Hay tres reglas y algunas directrices para hacer una distribucin de frecuencias:
a) El intervalo superior debe incluir al mayor valor observado.
b) El intervalo inferior debe incluir al menor valor observado.
c) Cada intervalo debe incluir el mismo nmero de valores.
Pero al ser muchas las agrupaciones diferentes que se pueden realizar, para decidir entre ellas hay
que tener presentes algunas directrices basadas en dos guas principales: a) dado que el objetivo de
una distribucin es conseguir una ordenacin manejable que ayude a comprender el significado de
los datos, no es conveniente que el nmero de intervalos sea demasiado grande, b) el nmero
apropiado de intervalos debe ser tal que, simultneamente, con ella se consiga una agrupacin
operativa y que cumpla los objetivos para los que ha sido diseada la distribucin, pero sin
distorsionar los valores con el error de agrupamiento.
Hay casos en los que hacer un nmero de intervalos siguiente las directrices que acabamos de
plantear distorsionarn demasiado los datos. Para evitar eso se utilizan lo que se denomina
intervalos abiertos, en los cuales no se pone lmite inferior del intervalo que incluye los valores
menores, el lmite superior del intervalo que incluye los valores mayores, o no se pone ninguno de
estos dos. Y otro de los problemas que aparecen es el llamado problema de los bordes (se
soluciona incluyendo en la distribucin de frecuencias ciertos valores).

REPRESENTACIONES GRFICAS
A partir de las distribuciones de frecuencias se pueden construir representaciones grficas. La
funcin de stas es dar informaciones globales mediante un solo golpe de vista.
a) Diagrama de rectngulos: Se utiliza para variables nominales u ordinales. Para hacer
un diagrama de rectngulos se colocan en el eje de abscisas las modalidades (o los
nmeros que las representan), y en el eje de ordenadas las frecuencias (puede ser
absolutas o relativas simples o acumuladas). Sobre cada modalidad se levanta un
rectngulo cuya altura es la frecuencia correspondiente.
b) Perfil octogonal: Se utiliza mucho en informes psicopedaggicos o de rendimiento. Se
colocan puntos en cada posicin y se unen mediante lneas rectas.
c) Pictograma: Son representaciones en forma de crculos en los que stos son divididos
en secciones cuya superficie es proporcional a la frecuencia de la modalidad
correspondiente.
d) Diagrama de barras: Se utiliza en variables cuantitativas discretas. En el eje de
abscisas se colocan los distintos valores de la variable y en el eje de ordenadas las
frecuencias. Sobre cada valor de la variable se traza una lnea o barra perpendicular
cuya altura debe ser igual a la frecuencia.
e) Histograma: Se utiliza para variables cuantitativas continuas con datos agrupados en
intervalos. En el eje de abscisas se colocan los lmites exactos de los intervalos, y en el
eje de ordenadas las frecuencias. Sobre cada intervalo se levanta un rectngulo cuya
altura sea igual a la frecuencia correspondiente.
f)

Polgono de frecuencias: Para variables discretas, el polgono es la figura que


resulta de unir los extremos superiores de las que hubieran sido las barras.

g) Diagrama de barras acumuladas: Se utiliza en variables discretas. En el eje de


abscisas se colocan los valores de la variable y en el de ordenadas las frecuencias
acumuladas, absolutas o relativas. Sobre cada valor se traza una perpendicular cuya
longitud sea igual a la frecuencia acumulada. Desde el extremo superior de cada una
de estas barras se traza una lnea horizontal que se une con la barra situada a su

derecha.
h) Polgono de frecuencias acumuladas: Se utiliza en variables continuas. El eje de
abscisas se construye igual que en los histogramas, pero en el de ordenadas se
incluyen las frecuencias acumuladas, ya sean absolutas o relativas. Sobre cada lmite
se levanta una perpendicular cuya longitud sea idntica a la frecuencia acumulada y se
une con los extremos superiores de dichas perpendiculares.
i)

Otros dibujos: Muchas veces se utilizan otras representaciones, en las que se


incluyen los objetos de los que se estn haciendo recuentos de frecuencias, a algn
smbolo que los identifique de forma muy expresiva.

Convenciones sobre las representaciones grficas: Aunque las representaciones grficas de


los datos incluidos de una distribucin de frecuencias pueden realizarse de muy distintas formas,
vamos a establecer algunas convenciones para unificar criterios, as como a sugerir algunas
directrices:
a) En el eje de abscisas colocamos los valores de la variable, y en el de ordenadas las
frecuencias (cualquiera)
b) La interseccin de los dos ejes es el origen (de izquierda a derecha y de arriba abajo, in
crescendo)
c) Si el valor mnimo del deje de abscisas fuera excesivamente grande, se debe cortar la
lnea
d) Conviene incluir en cada grfico toda la informacin posible para evitar ambigedades
y facilitar su interpretacin a otras personas o a nosotros mismos al cabo de un tiempo
e) Cuando en un mismo grfico se representan dos o ms grupos simultneamente, y
stos son de tamaos considerablemente distintos, se deben utilizar frecuencias
relativas
Tendenciosidad en las representaciones grficas: Las representaciones grficas pueden
utlizarse de manera tendenciosa para inducir impresiones engaosas e interesadas. Un primer
mtodo consiste en recortar el eje de ordenadas, eliminando los menores valores de frecuencias con
la excusa de que no hay ninguna observacin que los adopte. Esto tiene como consecuencia que
pequeas diferencias parezcan mayores. Un segundo tipo de distorsin se produce cuando se
utilizan figuras representativas de aquello que se est midiendo. Estas figuras suelen hacerse
proporcionando sus alturas a las frecuencias correspondientes. Sin embargo, el incremento de la
altura conlleva tambin un incremento en la anchura. Como consecuencia de ello, la superficie de las
figuras no guarda relacin con las frecuencias observadas, dando la impresin de que la diferencia
es mayor que la real.
PROPIEDADES
Los conjuntos de datos de variables cuantitativas obtenidos en muestras, y que hemos organizado
mediante distribuciones de frecuencias, tienen algunas caractersticas. Son cuatro:
a) Tendencia central: Se refiere a la magnitud general de las observaciones hechas.
Esta magnitud general puede cuantificarse mediante unos ndices conocidos como
ndices de tendencia central o promedios y que reciben ese nombre porque pretenden
ser sntesis de los valores de la variable.
b) Variabilidad: Esta propiedad se refiere al grado de concentracin de las observaciones
en torno al promedio. Una distribucin ser homognea o poco variable si los datos
difieren poco entre si, y por tanto, se agolpan en trono a su promedio. Ser
heterognea o muy variable si los datos se dispersan mucho con respecto al promedio.
Esta propiedad es independiente de la anterior, es decir, dos grupos que tengan
distinta variabilidad pueden tener tendencias centrales muy distintas o similares.
c) Asimetra o sesgo: Esta propiedad se refiere, por tanto, al grado en que los datos
tienden a concentrarse en los valores centrales, en los valores inferiores al promedio, o
en los valores superiores a ste. Existe simetra perfecta cuando en caso de doblar la
representacin grfica por una vertical trazada sobre la media, las dos mitades se

superponen perfectamente.
d) Curtosis: Se refiere al grado de apuntamiento de la distribucin. Si es muy apuntada,
se llama leptocrtica, y si es muy aplastada, se llama platicrtica. Generalmente el
grado de curtosis de una distribucin se compara con un modelo de distribucin
llamado distribucin normal, y que respecto a la curtosis se llama distribucin
mesocrtica, pues est entre los dos tipos de curtosis existentes.
--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 3: Medidas de posicin


Que una persona saque 35 en un test de inteligencia no nos da ningn parmetro de si es bueno o
malo. Normalmente lo que nos interesa es poder hacer una valoracin de las puntuaciones, y esto
slo puede hacerse en trminos relativos, y con respecto a un grupo de referencia. Para hacer estas
valoraciones relativas se pueden utilizar las llamadas medidas de tendencia central, que son
ndices diseados especialmente para revelar la situacin de una puntuacin con respecto a un
grupo, utilizando a ste como marco de referencia. Un tipo concreto de medida de posicin son las
llamadas medidas de tendencia central.

Centiles o percentiles: Son 99 valores de la variable que dividen a la distribucin en 100


secciones, cada una conteniendo a la centsima parte de las observaciones. Se simboliza por C 28 a
aquella puntuacin que deja por debajo de si al 28 por 100 de las observaciones y que es superada
por el 72 por 100. Los centiles no suelen calcularse con cantidades de pequeos datos, y cuando es
necesario hacerlo se obtienen sencillamente ordenando las puntuaciones y calculando la proporcin
de stas que superan al valor que se quiere comparar. Por ejemplo, si un individuo obtiene la
puntuacin 35 y sabemos que C90=35, quiere decir que la puntuacin de ese sujeto coincide con el
centil 90 y, por lo tanto, supera a las del 90 por 100 de las observaciones del grupo de referencia,
mientras que es superada por solamente el 10 por 100.
Normalmente las distancias entre centiles, en trminos de puntuacin, no sern constantes.
Generalmente las distancias entre los centiles intermedios sern menores que las distancias entre
centiles extremos. Normalmente los centiles se obtienen sobre datos agrupados en intervalos, y en
su clculo se asume el supuesto de distribucin homognea intraintervalo. Frmula:

El intervalo crtico es aquel que contiene la puntuacin que buscamos.


Deciles: Son 9 puntuaciones que dividen a la distribucin en 10 partes, cada una conteniendo al 10
por 100 de las observaciones. Se representa por Dk, donde k indica el nmero del decil al que se
refiere. As, D4 es la puntuacin que deja por debajo de si al 40 por 100 de las observaciones y por
encima de si al 60 por 100. Por supuesto, existe una equivalencia directa entre los deciles y los
centiles, de forma que el decil primero es igual al C10. La frmula para calcular los deciles es la
misma que la de los centiles correspondientes a cada decil.

Quartiles: Son 3 puntuaciones que dividen a la distribucin en 4 partes, cada una conteniendo al
25 por 100 de las observaciones. Se representan por Qk donde k indica el nmero del cuartil al que
se refiere. Existe una equivalencia directa entre los distintos cuantiles. Gracias a esta equivalencia,
las frmulas de clculo de los cuantiles se resumen en la de los centiles correspondientes al cuantil
que se quiera.

--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 4: Medidas de tendencia central


De todas las posiciones que hay en un grupo de referencia, hay una (la que representa la posicin
central), suele suscitar una mayor inters que las dems. Se trata de las medidas de tendencia
central. Son ndices que actan como resmenes numricos de las observaciones hechas.
Representan la magnitud general observada en los valores. Tambin sirven para comparar conjuntos
de valores. Dado que no se pueden comparar distribuciones completas, lo que se comparan son
ciertas caractersticas resumen de stas.

MEDIA ARITMTICA
El ndice de tendencia central ms utilizado. Se define como la suma de los valores observados,
dividida por el nmero de ellas. Por tanto, si recogemos n observaciones de la variable X,
entonces la media de los valores observados es determinada por la siguiente frmula: X=
Se dice que la media es un valor tal que, si apoyamos ese eje en un poste situado a la altura del
valor correspondiente a la media, el conjunto quedar en equilibrio. Es decir, la media se comporta
como si fuera una especie de centro de gravedad de la distribucin.
El procedimiento para hacer los clculos de la media con datos agrupados en una distribucin de
frecuencias:

Propiedades de la media aritmtica


A las puntuaciones que hemos venido tratando hasta aqu, y que no son ms que los valores brutos,
las denominaremos a partir de ahora puntuaciones directas y las representaremos por la letra de la
variable en mayscula. Por el contrario, a las diferencias de cada sujeto con respecto a la media
grupal las denominaremos puntuaciones diferenciales y las representaremos por la letra minscula.
Por lo tanto:

Con las puntuaciones diferenciales podemos dar una informacin ms precisa que con las directas.
Las propiedades de la media aritmtica se describen a continuacin:

1) La suma de las diferencias de n puntuaciones con respecto a su media o puntuaciones


diferenciales es igual a cero. Frmula:
La razn por la que la suma de las diferenciales es igual a cero es que unas son positivas y otras
negativas (las que superan la media y las que quedan por debajo de ella) y se compensan con otras.

2) La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su


media es menor que con respecto a cualquier otro valor. Es decir:
A veces nos interesar sumar a las puntuaciones observadas una cantidad constante, y en esos
casos tambin nos interesar conocer la media de las nuevas puntuaciones.

3) Si sumamos una constante a un conjunto de puntuaciones, la media aritmtica quedar


aumentada en esa misma constante. Es decir:
4) Si multiplicamos por una constante a un conjunto de puntuaciones, la media aritmtica
quedar multiplicada por esa misma constante. Es decir:
En algunos casos contamos con la media de varios grupos en una variable y nos interesa conocer la
media de todas las observaciones juntas. Su frmula suele denominarse media ponderada.

5) La media total de un grupo de puntuaciones, cuando se conocen los tamaos y medias


de varios subgrupos hechos a partir de un grupo total, mutuamente exclusivos y
exhaustivos, puede obtenerse ponderando las medias parciales a partir de los tamaos de
los subgrupos en que han sido calculadas:

Otra situacin relativamente frecuente es aquella en la que se forma una variable a partir de una
combinacin lineal de dos o ms variables, e interesa conocer la media de la variable resultante.

6) Una variable definida como la combinacin lineal de otras variables tiene como media la
misma combinacin lineal de las medias de las variables intervinientes en su definicin . Es
decir:

MEDIANA
Es el ndice, la puntuacin que es superada por la mitad de las observaciones pero no por
la otra mitad. Para su clculo podemos encontrarnos en dos casos generales, aquel en el que
contamos con un nmero impar de observaciones y aquel en que nos encontramos con un nmero
par de ellas. En el primero se toma como mediana el valor central, en el segundo se da la
circunstancia de que cualquier valor comprendido entre los dos centrales cumple con la definicin de
la mediana. La mediana corresponde al C50, al D5 y al Q2. Por tanto, la mediana se obtiene como el
C50. Segn el caso, se obtiene el valor central o el par de valores.

MODA
Una tercera va para representar la tendencia central de un conjunto de valores consiste en informar
del valor ms frecuentemente observado. En esta idea se basa nuestro tercer ndice de tendencia
central, la moda, que se representa por Mo, y se define sencillamente como el valor de la variable
con mayor frecuencia absoluta. En algunos casos puede llegar a haber dos modas (se dice que
es una distribucin bimodal).
COMPARACIN ENTRE MEDIDAS DE TENDENCIA CENTRAL. Con qu criterios elegimos uno
sobre los dems para representar la magnitud general observada en unos valores o para comparar la

de dos o ms grupos de valores? Si no hay ningn argumento de peso en contra, se preferir


siempre la media. Hay dos razones para apoyar esta normal general. La primera es que en ella se
basan otros estadsticos y la segunda es que es mejor estimador de su parmetro que la mediana y
la moda. Este segundo argumento significa que, en trminos generales, las medias halladas sobre
muestras representativas se parecen ms a la media poblacional que lo que se parecen las
medianas y modas muestrales a la mediana y la moda poblacional. Hay al menos tres situaciones en
las que se preferir la mediana a la media: a) cuando la variable est medida en una escala ordinal;
b) cuando haya valores extremos que distorsionen la interpretacin de la media y c) cuando haya
intervalos abiertos. Este tercer y ltimo caso se refiere a situaciones en las que el intervalo superior
carece de lmite superior, el intervalo inferior carece de lmite inferior, o ambas cosas a la vez.
La mediana ser la segunda candidata para representar la tendencia central y por tanto, si no hay
argumentos de peso en contra, se preferir la mediana a la moda. Pero hay al menos dos situaciones
en las que se dar esa preferencia: a) cuando se trate de una variable medida en una escala
nominal, b) cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos. En algunos
casos los tres ndices de tendencia central dan valores parecidos, o incluso pueden coincidir
exactamente.
--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 5: Medidas de variacin


Tal como se vio en captulos anteriores, los conjuntos de datos no deben describirse slo mediante
medidas de tendencia central, puesto que dos conjuntos de puntuaciones pueden tener la misma
media y ser, sin embargo, muy distintos. Para conseguir una visin completa y comprensiva de los
datos hay que complementar las medidas de tendencia central con las de otras propiedades de los
mismos. Una de las propiedades ms importantes de los conjuntos de datos es el grado en que stos
se parecen o se diferencian entre si. Esta propiedad se denomina variabilidad, dispersin u
homogeneidad, y es diferente de la tendencia central (ej: hermano divide tierras). Puede haber
grupos con la misma tendencia central y variabilidad diferente, y viceversa.
Aunque hay muchos procedimientos para cuantificar la variabilidad, los ms importantes son la
VARIANZA y la DESVIACIN TPICA, mientras que otros ndices tienen una importancia menor. A
continuacin, se describen:

VARIANZA Y DESVIACIN TPICA


Una idea que se ha demostrado til a las hora de cuantificar la variabilidad es la de trabajar con las
distancias desde los valores hasta algn poste central, que podra ser la media aritmtica, y basar la
medicin de la dispersin en algn tipo de separacin promedio hasta ese poste. Sin embargo
tambin vimos en el tema anterior que la suma de las diferenciales es necesariamente igual a cero.
Una solucin al problema de que las distancias con respecto a la media sumen cero consiste en
elevar al cuadrado esas distancias antes de hallar su promedio, dado que los cuadrados son siempre
positivos. El ndice basado en esta idea se llama varianza, y se representa por la expresin
S2x, donde el subndice recoge la letra con la que se representa la variable. Cuando se
quiere describir el grado de variabilidad de un grupo de valores basta con obtener este
ndice. La frmula es la siguiente:

La cuestin que puede surgir es la de cmo valorar el grado de dispersin cuantificando mediante
este ndice. Dado que valores de varianzas que pueden ser normales en ciertas variables y
poblaciones podran parecer exagerados en otros casos, no tiene sentido comparar varianzas
halladas sobre variables distintas. La varianza sirve sobre todo para comparar el grado de dispersin
de dos o ms conjuntos de valores en una misma variable, llegando a conclusiones como la
siguiente: la poblacin de hombres presenta una mayor variabilidad en su estatura que la poblacin
de mujeres, que son ms homogneas en esa caracterstica. La razn de esta discrepancia es que
las distancias no se han tratado como tales, sino que para evitar el problema de que las diferenciales
sumen cero se han elevado stas al cuadrado. Por ello es frecuente, con objeto de retomar las
unidades originales de esas distancias, se calcule la raz cuadrada de la cantidad obtenida. Al ndice

as hallado se lo llama desviacin tpica, se representa por Sx y se define sencillamente


como la raz cuadrada de la varianza. La frmula:

La desviacin tpica es un mejor descriptor de la variabilidad, aunque la varianza tenga algunas


notables propiedades matemticas que la hacen idnea para basar en ella los anlisis estadsticos
complejos. Las variaciones entre los datos estn reflejando variaciones en las caractersticas que
estn estudiando, y que en psicologa suelen ser indicadores de variables psicolgicas o mediciones
del comportamiento. La variabilidad de los datos reflejando el hecho incuestionable de las
diferencias individuales. Uno de los objetivos de la psicologa es precisamente la explicacin
sistemtica de esas diferencias, en tanto en cuanto presentan regularidades asociadas a segundas o
terceras variables.
No siempre son la varianza y la desviacin tpica los ndices ms apropiados para representar la
variabilidad de un grupo de datos. Hay veces en que algn dato extremo distorsionara su
interpretacin, en otras ocasiones la variable est medida en una escala ordinal y en otras no se
puede calcular.

CLCULO
El clculo de la varianza puede siempre hacerse por medio de la frmula que la define, pero en
muchas ocasiones resulta ms prctico utilizar otras frmulas derivadas de aqulla, y en cualquier
caso es necesario adaptar la frmula a aquellas situaciones en las que los valores estn agrupados
en intervalos. La varianza es tambin igual a la media de las puntuaciones directas elevadas al
cuadrado menos el cuadrado de la media. Esta frmula resultar til en ciertos casos:

PROPIEDADES
En primer lugar, hay que destacar que un conjunto de valores puede mostrar un mayor o menor
grado de homogeneidad, pero el grado ms pequeo posible de homogeneidad se produce cuando
todos los valores son idnticos. En ese caso las desviaciones de los valores con respecto a su media
son todas cero y en consecuencia tambin es igual a cero la media de sus cuadrados, por tanto, se
es el mismo valor que puede adoptar la varianza. Igualmente, como desviacin tpica se toma la raz
positiva de la varianza.
1) La varianza y la desviacin tpica, como medidas de la dispersin, son valores esencialmente
positivos. A veces interesa transformar las puntuaciones observadas sumando una constante y/o
multiplicando por otra constante, tal y como vimos al exponer las propiedades de la media. En esos
casos no har falta calcular la varianza de las puntuaciones transformadas, sino que podr deducirse
conociendo la varianza de las puntuaciones originales.
2) Si sumamos una constante a un conjunto de puntuaciones, su varianza no se altera. Si la
transformacin consiste en multiplicar por una constante, la varianza si se ve alterada. Conociendo
la varianza de las puntuaciones originales y la constante multiplicada se puede obtener fcilmente la
varianza de las puntuaciones obtenidas mediante la multiplicacin de la constante.
3) Si multiplicamos por una constante a un conjunto de puntuaciones, la varianza quedar
multiplicada por el cuadrado de la constante, y la desviacin tpica por el valor absoluto de esa
constante. En ciertas ocasiones conocemos las varianzas de varios subgrupos y se quiere obtener la
varianza del grupo total. Esto se puede conseguir aplicando una propiedad que relaciona la varianza
de todas las puntuaciones juntas con las varianzas, medias, y tamaos de los subgrupos.
4) La varianza total de un grupo de puntuaciones, cuando se conocen los tamaos, las medias, las
varianzas de varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos,
puede obtenerse sumando la media (ponderada) de las varianzas y la varianza (ponderada) de las
medias.

El hecho de que la desviacin tpica sea un ndice de la dispersin de los datos, y por tanto pueda
tomarse como medida interna de las distancias entre las puntuaciones y la media, hace que exista
una relacin muy estrecha entre esas distancias y las observaciones que abarcan las puntuaciones
en funcin de su distancias hasta la media. Esta relacin qued demostrada en la desigualdad de
Tchebychev que se puede describir as:
La desiguadad de Tchebychev recoge el hecho de que las distancias menores hasta la media son
ms frecuentes que las distancias mayores. As, entre las puntuaciones correspondientes a la media
+- una desviacin tpica se encontrarn menos observaciones que entre las puntuaciones
correspondientes a la media +- una desviacin tpica y media, y a su vez entre stas habr menos
que entre las correspondientes a la media +- dos desviaciones tpicas. Segn la desigualdad de
Tchebychev, el porcentaje de puntuaciones que quedan entre las correspondientes a la media +- k
desviaciones tpicas es, como mnimo el (1- 1/k2) por 100 de las observaciones.

OTRAS MEDIDAS DE VARIACIN


No siempre se puede calcular la varianza, ni tampoco es siempre lo ms apropiado. Una forma muy
sencilla de indicar el grado de dispersin consiste en calcular la distancia entre el mayor y el menor
de los valores observados. Este ndice se llama amplitud total, rango o recorrido y se obtiene
sencillamente hallando la diferencia entre los valores extremos. Distincin entre ambos tipos de
amplitud, que se denominan rango excluyente y rango incluyente, usadas en variables discretas y
continuas. Esto es muy sensible a los valores extremos y nada sensibles a los intermedios, pudiendo
carecer de toda representatividad. Otro inconveniente de este ndice es que est ligado al tamao de
la muestra utilizada. Si se quiere comprara la variabilidad de las dispersin de dos conjuntos de
datos de tamao marcadamente distinto, es probable que la muestra de mayor tamao presente
una mayor amplitud aunque las poblaciones de referencia tengan la misma variabilidad.

Desviacin media: Tomar las desviaciones c respecto a la media, o puntuaciones


diferenc, en valores absoluto.
Amplitud semi-intercuartil: Basada en las puntuaciones correspondientes a los
cuartiles primero y tercero.
Coeficiente de variacin: A veces se desea comparar la variabilidad de grupos cuya
media es distinta. Este ndice es expresado como un porcentaje. Este ndice puede
construirse como un ndice de la representatividad de la media. Cuanto mayor es el
coeficiente de variacin, menos representativa es la media.

--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 6: Puntuaciones tpicas y escalas derivadas


Dado que el valor observado en un individuo, sujeto o unidad de investigacin, representa la
magnitud que esa unidad manifiesta en la variable, una prctica comn consistir en comparar las
magnitudes mediante la comparacin de los valores asociales a ellas. Otras soluciones, que se basan
en la transformacin de las puntuaciones observadas en otras que, sin perder o distorsionar la
informacin contenida en las puntuaciones originales, permitan una comparacin directa de las
mismas. Los instrumentos desarrollados para ello son las puntuaciones tpicas y las escalas
derivadas.

PUNTUACIN TPICA
Las puntuaciones diferenciales son informaciones insuficientes para comparar puntuaciones de
sujetos pertenecientes a distintos grupos o a dist variables. Las puntuaciones tpicas, se representa
por letra z. Frmula:

Al proceso de obtencin de las puntuaciones tpicas se llama tipificacin.

La puntuacin tpica de una observacin indica el nmero de desviaciones tpicas


que esa observacin se separa de la media del grupo de observaciones.
Las puntuaciones tpicas permiten, por tanto, hacer comparaciones entre unidades de distintos
grupos, entre variables medidas de distintas formas, o incluso entre variables diferentes. En
cualquier caso, las puntuaciones tpicas siempre nos indicarn el nmero de desviaciones tpicas (de
las de ese grupo y variable) que se separan de la media (de ese grupo y variable) y si esa desviacin
es por encima o po debajo de la media (segn el signo de la puntuacin tpica). Esta simplificacin es
de suma utilidad, y se traduce en que las puntuaciones tpicas tienen unas caractersticas de
tendencia central y variabilidad constantes. Las tpicas no son ms que una transformacin lineal
que consiste en multiplicar las directas por una constante (el inverso de la desviacin tpica) y luego
sumar a esos productos otra constante (el cociente entre la media y la desviacin tpica, con signo
negativo). Frmula:

Las caractersticas de las puntuaciones tpicas son universales, no dependen del tipo de
puntuaciones ni de su dispersin, ni de su nmero. La media de las puntuaciones tpicas es cero,
mientras que su varianza y desviacin tpica son iguales a uno. Las puntuaciones tpicas reflejan las
relaciones esenciales entre las puntuaciones, con independencia de la unidad de medida que se
haya utilizado en la medicin. Cuando en dos conjuntos de puntuaciones, emparejadas con algn
criterio, a los elementos de cada para les corresponde la misma puntuacin tpica dentro de su
conjunto, puede decirse que mantienen la misma estructura interna, y se dice entonces que son
puntuaciones equivalentes.

ESCALAS DERIVADAS
A pesar de que las puntuaciones tpicas tienen las indudables ventajas que hemos descrito
anteriormente, tambin tienen algunos inconvenientes. Inconvenientes que surgen de las
desviaciones tpicas. En concreto y dado que la media de las tpicas es cero y su desviacin tpica
uno, buena parte de las puntuaciones suelen ser negativas, y casi todas decimales. Esto hace que
resulte incmodo su tratamiento y que muchas veces se busquen procedimientos que permitan
superar esta dificultad. Un procedimiento consiste en transformar las puntuaciones tpicas en otras
que retengan todas las relaciones que manifiestan las puntuaciones originales, por tanto que sean
puntuaciones equivalentes, pero evitando la dificultad operativa, y que constituyen lo que se
denomina una escala derivada. Estas transformaciones se basan en una propiedad de las
puntuaciones tpicas.

Si transformamos linealmente las puntaciones tpicas, multiplicndolas por una


constante a, y sumando una constante b, entonces las puntuaciones
transformadas tendrn como media la constante sumada b, como desviacin
tpica el valor de la constante multiplicada, |a| y como varianza el cuadrado de
esta constante, a2.
En resumen la construccin de una escala derivada parte de unas puntuaciones directas, stas se
tipifican, y despus se transforman linealmente en otras puntuaciones. La cuestin fundamental de
las escalas derivadas consiste en transformar las puntuaciones originales, Xi, en otras puntuaciones
transformadas, Ti, tales que sean ms cmodas de tratar e interpretar, pero que a la vez retengan
las relaciones comerciales entre los valores, es decir, que sean puntuaciones equivalentes.
--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 7: Medidas de asimetra y curtosis


Adems de la tendencia central y la variabilidad hay otras dos caractersticas con las que se pueden
describir y comparar las distribuciones de frecuencias. Estas dos caractersticas, aunque de menor
importancia con respecto a las anteriores, ayudan a entender mejor las diferencias entre los grupos;
se trata de la asimetra y la curtosis.

NDICES DE ASIMETRA
El grado de asimetra de una distribucin hace referencia al grado en que los datos se reparten
equilibradamente por encima y por debajo de la tendencia central. Una distribucin equilibrada sera
aquella en la que las frecuencias se repartiesen imparcialmente en torno de la media. Se han
propuesto diferentes ndices con los que cuantificar esta propiedad, de los que aqu vamos a exponer
tres.

Relacin entre la media y la moda: Se define como la distancia entre la media y la


moda, medida en desviaciones tpicas, es decir: la media es inferior a la moda, y por
tanto este ndice dar un valor negativo; la media es superior y el ndice dar positivo;
coinciden los dos ndices de tendencia central y por tanto el ndice de asimetra dar
cero. Las distribuciones como las primeras tienen asimetra negativa y el ndice da
valores menores que cero; las del segundo tipo asimetra positiva, y este ndice da
valores mayores que cero. En las ltimas se dice que son distribuciones simtricas,
puesto que no estn inclinadas hacia ningn lado; este ndice da en ellas valores en
torno a cero y si la simetra es perfecta entonces da exactamente cero. Este ndice
tiene la dificultad de que slo se puede calcular en distribuciones unimodales.

ndice de asimetra de Pearson: Es igual al promedio de las puntuaciones tpicas


elevadas al cubo. Los valores menores que cero indican asimetra negativa, los
mayores que cero asimetra positiva y los valores en torno a cero indican distribuciones
aproximadamente simtricas. Es el ndice ms utilizado.

ndice de asimetra intercuartlico: Se basa, en los cuartiles. Su frmula:

La interpretacin es similar a la de los ndices anteriores. Los valores mayores de cero indican
asimetra positiva, los menores indican asimetra negativa y los valores en torno a cero reflejan
distribuciones simtricas. Tienen una ventaja sobre los ndices anteriores, y es que tiene un valor
mximo y mnimo con lo que se facilita su interpretacin en trminos relativos.

NDICES DE CURTOSIS
Solo vamos a estudiar el que se basa en el promedio de las tpicas elevadas a la cuarta potencia. Su
frmula es:

Quizs lo que ms sorprenda sea el hecho de que al promedio de las tpicas elevadas a la cuarta
potencia se le reste un tres. La razn es que existe un modelo de distribucin, del que hablaremos
en temas posteriores, en el que ese promedio da exactamente igual a tres. Al restar un tres al ndice,
lo que se consigue es utilizar ese modelo como patrn de comparacin. Una distribucin en la que el
ndice sea igual a cero tienen un grado de curtosis similar al de la distribucin normal, y se dice que
es mesocrtica, mientras que si es positivo su grado de apuntamiento es mayor que el de la
distribucin normal, y se dice que es una distribucin leptocrtica y si es negativo su apuntamiento
es menor que el de la distribucin normal y se dice que es platicrtica.
--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 8: Correlacin lineal


Uno de los objetivos principales de la ciencia consiste en descubrir las relaciones entre variables, y la
estadstica ha desarrollado instrumentos apropiados para esta tarea. La observacin de relaciones
claras y estables entre las variables ayuda a comprender los fenmenos y a encontrar explicaciones
de los mismos, e indica las vas probablemente ms eficaces para intervenir sobre las situaciones. El
estudio de las relaciones lineales, es aplicable exclusivamente a las variables de intervalo.

REPRESENTACIN GRFICA DE UNA RELACIN


Se dice que dos variables X e Y mantienen una relacin lineal directa cuando los
valores altos en Y tienden a emparejarse con valores altos en X, los valores
intermedios en Y tienden a emparejarse con valores intermedios en X, y los
valores bajos en Y tienden a emparejarse con valores bajos de X.
Se dice que dos variables X e Y mantienen una relacin lineal inversa cuando los
valores altos en Y tienden a emparejarse con valores bajos en X, los valores
intermedios en Y tienden a emparejarse con valores intermedios en X, y los
valores bajos en Y tienden a emparejarse con valores altos en X.
Se dice que hay relacin lineal nula entre dos variables cuando no hay un
emparejamiento sistemtico entre ellas en funcin de sus valores.
Al hacer una representacin grfica conjunta de dos variables pueden apreciarse visualmente estos
tres tipos de relacin. Para ello se identifican los pares de valores y se sealan los correspondientes
puntos en unos ejes de coordenadas. Estas nubes de puntos reciben el nombre de diagramas de
dispersin.

CUANTIFICACIN DE UNA RELACIN LINEAL


Un primer procedimiento consistira en hallar el promedio de los productos cruzados de las
puntuaciones diferenciales. Al hablar de productos cruzados nos referimos al producto, para cada
sujeto o caso, de sus valores en las dos variables, es decir Xi Y. Estos productos pueden obtenerse
con puntuaciones directas, diferenciales o tpicas. Cada figura est separa en cuatro cuadrantes, y
los puntos estarn en uno u otro dependiendo de que la observacin supere o no la media de X y/o la
media de Y. En concreto, si supera ambas medias, el punto aparecer en el cuadrante superior
derecho (NE), si supera la media de X pero no la de Y, como el par aparecer en el cuadrante inferior
derecho (SE); si supera la de Y pero no la de X, aparecer el cuadrante superior izquierdo (NO); sino
supera ninguna de las medias, aparecer en el cuadrante inferior izquierdo (SO). Al tratar con
puntuaciones diferenciales, stas sern positivas si superan la media y negativas en caso contrario.
Por tanto, aquellas observaciones que aparezcan en los cuadrantes NE o SO tendrn productos
cruzados positivos, mientras que las que aparezcan en los cuadrantes NO o SE tendrn productos
cruzados negativos. El promedio de productos cruzados de diferenciales tender a dar positivo si la
relacin es directa, negativo si es inversa, y en torno a cero si es nula, y a dems su valor absoluto
ser mayor cuanto ms acusada sea la tendencia a la linealidad en el diagrama de dispersin.

PROPIEDADES
La razn principal por la que la covarianza no llegaba a satisfacer completamente la necesidad de un
ndice de la asociacin lineal era la dificultad de su valoracin, dado que careca de un mximo y un
mnimo estables. Puesto que hemos destacado su alternativa principal, el coeficiente de correlacin
de Pearson, precisamente porque no tiene esa dificultad.

El coeficiente de correlacin de Pearson no puede valer ms de +1 ni


menos de -1
Si hacemos transformaciones lineales de una o las dos variables, en
las que las constantes multiplicadoras son positivas, la correlacin de
Pearson no se altera.

VALORACIN E INTERPRETACIN
En la interpretacin de una correlacin de Pearson hay que separar dos aspectos distintos: su
cuanta y su sentido. La cuanta se refiere al grado en el que la relacin entre dos variables queda
bien descrita con un ndice de asociacin lineal como r, mientras que el sentido se refiere al tipo de
relacin. Una correlacin en torno a cero indica una relacin lineal baja o nula; una correlacin

positiva indica una relacin lineal directa, mientras que una correlacin negativa indica una relacin
lineal inversa. Cuanto ms cercano quede un coeficiente del valor cero, menos apto es el modelo
lineal como descripcin de la relacin entre las variables. Por el contrario, cuanto ms se acerque a
los extremos, mejor describe esa relacin.

Reuchlin

Captulo 1: carcter variable de las conductas


Variaciones previsibles y variaciones imprevisibles: las variaciones de las conductas son previsibles
cuando se conoce la situacin, el momento o la persona. Por otra parte, estas variaciones de las
conductas son imprevisibles a partir de las informaciones de las que dispone el observador. El
psiclogo utiliza a menudo el mtodo estadstico precisamente porque este mtodo permite tratar
con ms eficacia las observaciones que presentan a la vez variaciones previsibles y variaciones
imprevisibles.
Las fuentes de variacin y anlisis estadstico: las variaciones que son imprevisibles porque no estn
asociadas a ninguna fuente de variacin sistemtica. Las variaciones imprevisibles se atribuyen as a
un conjunto de fuentes fortuitas de variacin para el experimentador o encuestador. Las variaciones
que son previsibles porque estn asociadas a fuentes sistemticas de variacin. Si las variaciones as
previstas no son mayores que las variaciones imprevisibles, el psiclogo comprobar que no se
verifica su hiptesis sobre el efecto de las fuentes sistemticas de variacin que haba credo
introducir en la experiencia o en la encuesta. La comparacin entre la amplitud de las variaciones
previsibles y la amplitud de las variaciones imprevisibles permite interpretar los resultados de la
experiencia o de la encuesta e identificar, a la vez, algunas fuentes sistemticas de variacin.
Ponderacin de una fuente sistemtica de variacin: cuando el experimentador o el encuestador
hace la hiptesis de que varias fuentes sistemticas de variacin producen efectos sobre sus
observaciones, comienza en general por verificar si cada una de ellas tiene efectivamente un efecto
no nulo y significativo. El experimentador podr intentar averiguar cules son las fuentes de
variacin ms importantes, es decir, las que contribuyen ms a las variaciones de las observaciones.
Ponderacin de las fuentes fortuitas de variacin: debe evaluar el peso que toman en sus
observaciones las fuentes fortuitas de variacin. Si este peso es grande, con relacin al de las
fuentes sistemticas de variacin, ser difcil poner en evidencia estas ltimas, reconocer su
significado.

Captulo 2: Resmenes estadsticos en el nivel de las escalas


nominales
El empleo de la estadstica en psicologa: distinguir dentro de las observaciones las variaciones
fortuitas de las variaciones sistemticas. Para asumir esta funcin del mtodo estadstico procede a
hacer resmenes de series de observaciones. Por qu tiene necesidad el psiclogo de efectuar
resmenes estadsticos de este tipo? Para poder razonar sobre conjuntos de observaciones: pueden
compararse dos medias o dos grficos. El resumen de una serie de observaciones puede hacerse de
manera que se ponga en evidencia un aspecto particular de la informacin contenida en estas
observaciones y llegar as a poseer un instrumento de anlisis de esta informacin. Hay que
examinar algunos mtodos que permiten describir una serie de observaciones en forma resumida y
que pueden tener significaciones diferentes. La eleccin de uno u otro mtodo depender del
problema q plantee el psiclogo.
Niveles de medida: tres niveles, estando definido cada nivel por las propiedades del conjunto de los
valores que pueden obtener mediante las operaciones de medida. Hay una jerarqua entre estos tres
niveles: en cada uno de ellos los nmeros gozan de todas las propiedades del nivel inferior y de otras
propiedades.
Construccin de la escala nominal: para construir una escala nominal basta que el psiclogo sea
capaz de repartir sus observaciones en un cierto nmero de clases, el conjunto de las cuales
constituye la escala, y que deben poseer las dos propiedades siguientes: cada observacin debe
entrar en una clase y solamente en una. El que dos observaciones entren o no en la misma clase de
equivalencia no se sigue de un criterio estadstico, sino de un criterio emprico. Se producen
dificultades, ya que hay que definir el conjunto de clases de manera tal que toda observacin entre
dentro de una clase, luego hay que conseguir que cada observacin no pueda entrar ms que en una
nica clase. Se necesitar adoptar una definicin precisa de cada clase y verificar que los criterios
as propuestos los comprenden de la misma manera utilizadores diferentes.

Propiedades de los nmeros en una escala nominal: una vez realizada esta particin de una serie de
observaciones se van a poder utilizar nmeros para describir y resumir esta serie. Pero cada uno de
estos nmeros designar aqu una clase de observaciones. Estas operaciones slo permiten decir
que una observacin que pertenece a una clase es diferente de una observacin que pertenece a
otra clase; no permiten decir que la primera es mayor o menor que la segunda. El nmero de
observaciones que pertenecen a una clase es el efectivo de esta clase.
Entropa: la informacin de la distribucin no permite saber si las posibilidades de pertenecer a otra
clase son muy diferentes o solamente poco diferentes, dicho de otro modo, si las observaciones son
muy diferentes o poco diferentes, si su distribucin est muy dispersada o poco dispersada. Se
admitir que la dispersin podr ser tanto mayor cuanto mayor sea el nmero de clases. Para un
nmero fijo de clases, ser mayor si las observaciones se reparten igualmente sobre todas las clases
en vez de concentrarse solamente sobre algunas clases. Se puede explicitar y cuantificar esta nocin
definiendo y calculando la entropa de la distribucin.

You might also like