Professional Documents
Culture Documents
Se llama poblacin estadstica al conjunto de todos los elementos que cumplen una o
varias caractersticas o propiedades.
A los elementos que componen una poblacin se les denomina entidades estadsticas o
individuos (pueden ser personas, animales, objetos o nmeros). Dependiendo del nmero de
elementos que la compongan, la poblacin puede ser finita o infinita. La mayor parte de las
poblaciones con las que solemos trabajar son finitas, pero tan numerosas que a la hora de hacer
inferencias acerca de ellas se pueden considerar infinitas a efectos prcticos. Cuando un
investigador aborda un trabajo emprico debe definir claramente la poblacin sobre la cual se
interesa. La poblacin ha de ser el marco o conjunto de referencia sobre el cual van a recaer las
conclusiones e interpretaciones, y stas no pueden exceder ese marco. El hecho de que las
poblaciones sean muy numerosas, suele hacer inaccesible la descripcin de propiedades. De ah que
se trabaje fundamentalmente con muestras.
Los parmetros y estadsticos no slo son medias, sino que pueden ser otros tipos de cantidades,
como porcentajes. En la prctica no ser preciso estar repitiendo el experimento; bastar con
obtener una nica muestra y, por lo tanto, a partir de ella tratar de estimar el parmetro. Para ello es
fundamental que la muestra sea representativa de la poblacin y que el estadstico calculado rena
la informacin necesaria y suficiente para que a partir de l podamos decir algo acerca de la
verdadera eficacia del tratamiento. Desde un punto de vista simblico, conviene indicar, para
distinguirlos, que los parmetros se suelen representar por letras griegas mientras que los
estadsticos se suelen simbolizar por letras latinas. En la primera fase de una investigacin se
obtienen los estadsticos, y en la segunda se utilizan los valores obtenidos para hacer inferencias
acerca de los parmetros.
Cuando estudiamos las entidades que conforman una poblacin nos interesamos por algunas de las
propiedades de sus elementos, y esas propiedades adoptan distintas variedades.
MEDICIN
La estadstica no realiza sus funciones directamente sobre las modalidades observadas, sino que
stas se representan por nmeros, y la estadstica realiza sus funciones sobre esos nmeros.
en esa caracterstica, sino que pueden establecerse relaciones del tipo mayor que o menor que;
puede decirse cul de esos objetos presenta una mayor magnitud de esa caracterstica. Dicho de
otro modo, los objetos pueden ordenarse, y de ah es que proviene el nombre de la escala.
Tambin este tipo de escala permite hacer transformaciones admisibles (que cumplan la condicin
de ser transformaciones crecientes). El problema de este tipo de escala es que, aunque nos informa
de que un objeto presenta la caracterstica en cuestin en una mayor magnitud que otro objeto, no
nos dice en cuanto ms.
INTERVALARES: Para poder extraer conclusiones ms precisas, como la de en cunto ms presenta
la caracterstica un objeto sobre otro, hay que contar con una unidad de medida, y para ello hay que
pasar al siguiente tipo de escala, escala de intervalo. Esta unidad de medida y su origen son
arbitrarios. La principal limitacin de este tipo de escalas es que, aunque cuenta con una unidad de
medida, no tiene un cero absoluto. Es decir, el nmero cero no representa realmente la ausencia de
esa caracterstica (ejemplo: la temperatura).
DE RAZN: En la siguiente escala, escala de razn, cumple la funcin de preservar el significado
del valor cero, de forma que siempre represente la ausencia de esa caracterstica. La consecuencia
fundamental de la presencia de un origen absoluto, y no arbitrario, es que a dems de poder extraer
conclusiones acerca de la igualdad o desigualdad de diferencias, tambin puede hablarse de
desigualdad o igualdad de razones.
Tipo
Informacin deducible
Nominal
Ordinal
Intervalo
Razn
Transformacin
admisible
Aplicaciones inyectivas
Funciones crecientes
A + b x (b > 0)
B x (b > 0)
Ejemplos
Sexo, estado civil,
diagnstico clnico
Dureza, nivel
socioeconmico
Temp., calendario,
inteligencia
Longitud, peso
DISTRIBUCIN DE FRECUENCIAS
La distribucin de frecuencias es un instrumento diseado para cumplir tres funciones: a)
proporcionar una reorganizacin y ordenacin racional de los datos recogidos, b) ofrecer la
informacin necesaria para hacer representaciones grficas y c) facilitar los clculos necesarios para
obtener los estadsticos muestrales. Representaremos por X a la variable con la que trabajamos, y
que puede adoptar distintos valores (X1, X2, X3) pero cada uno de ellos puede aparecer repetido
ms de una vez en los n elementos que componen la muestra.
Se llama intervalo a cada uno de los grupos de valores que ocupan una fila en
una determinada distribucin de frecuencias.
Se llaman lmites aparentes o informados de un intervalo a los valores mayor y
menor que puede adoptar la variable dentro de ese intervalo mencionado.
Se llaman lmites exactos de un intervalo a los valores mximo y mnimo que
estn incluidos en dicho intervalo.
REPRESENTACIONES GRFICAS
A partir de las distribuciones de frecuencias se pueden construir representaciones grficas. La
funcin de stas es dar informaciones globales mediante un solo golpe de vista.
a) Diagrama de rectngulos: Se utiliza para variables nominales u ordinales. Para hacer
un diagrama de rectngulos se colocan en el eje de abscisas las modalidades (o los
nmeros que las representan), y en el eje de ordenadas las frecuencias (puede ser
absolutas o relativas simples o acumuladas). Sobre cada modalidad se levanta un
rectngulo cuya altura es la frecuencia correspondiente.
b) Perfil octogonal: Se utiliza mucho en informes psicopedaggicos o de rendimiento. Se
colocan puntos en cada posicin y se unen mediante lneas rectas.
c) Pictograma: Son representaciones en forma de crculos en los que stos son divididos
en secciones cuya superficie es proporcional a la frecuencia de la modalidad
correspondiente.
d) Diagrama de barras: Se utiliza en variables cuantitativas discretas. En el eje de
abscisas se colocan los distintos valores de la variable y en el eje de ordenadas las
frecuencias. Sobre cada valor de la variable se traza una lnea o barra perpendicular
cuya altura debe ser igual a la frecuencia.
e) Histograma: Se utiliza para variables cuantitativas continuas con datos agrupados en
intervalos. En el eje de abscisas se colocan los lmites exactos de los intervalos, y en el
eje de ordenadas las frecuencias. Sobre cada intervalo se levanta un rectngulo cuya
altura sea igual a la frecuencia correspondiente.
f)
derecha.
h) Polgono de frecuencias acumuladas: Se utiliza en variables continuas. El eje de
abscisas se construye igual que en los histogramas, pero en el de ordenadas se
incluyen las frecuencias acumuladas, ya sean absolutas o relativas. Sobre cada lmite
se levanta una perpendicular cuya longitud sea idntica a la frecuencia acumulada y se
une con los extremos superiores de dichas perpendiculares.
i)
superponen perfectamente.
d) Curtosis: Se refiere al grado de apuntamiento de la distribucin. Si es muy apuntada,
se llama leptocrtica, y si es muy aplastada, se llama platicrtica. Generalmente el
grado de curtosis de una distribucin se compara con un modelo de distribucin
llamado distribucin normal, y que respecto a la curtosis se llama distribucin
mesocrtica, pues est entre los dos tipos de curtosis existentes.
--------------------------------------------------------------------------------------------------------------------------------------------
Quartiles: Son 3 puntuaciones que dividen a la distribucin en 4 partes, cada una conteniendo al
25 por 100 de las observaciones. Se representan por Qk donde k indica el nmero del cuartil al que
se refiere. Existe una equivalencia directa entre los distintos cuantiles. Gracias a esta equivalencia,
las frmulas de clculo de los cuantiles se resumen en la de los centiles correspondientes al cuantil
que se quiera.
--------------------------------------------------------------------------------------------------------------------------------------------
MEDIA ARITMTICA
El ndice de tendencia central ms utilizado. Se define como la suma de los valores observados,
dividida por el nmero de ellas. Por tanto, si recogemos n observaciones de la variable X,
entonces la media de los valores observados es determinada por la siguiente frmula: X=
Se dice que la media es un valor tal que, si apoyamos ese eje en un poste situado a la altura del
valor correspondiente a la media, el conjunto quedar en equilibrio. Es decir, la media se comporta
como si fuera una especie de centro de gravedad de la distribucin.
El procedimiento para hacer los clculos de la media con datos agrupados en una distribucin de
frecuencias:
Con las puntuaciones diferenciales podemos dar una informacin ms precisa que con las directas.
Las propiedades de la media aritmtica se describen a continuacin:
Otra situacin relativamente frecuente es aquella en la que se forma una variable a partir de una
combinacin lineal de dos o ms variables, e interesa conocer la media de la variable resultante.
6) Una variable definida como la combinacin lineal de otras variables tiene como media la
misma combinacin lineal de las medias de las variables intervinientes en su definicin . Es
decir:
MEDIANA
Es el ndice, la puntuacin que es superada por la mitad de las observaciones pero no por
la otra mitad. Para su clculo podemos encontrarnos en dos casos generales, aquel en el que
contamos con un nmero impar de observaciones y aquel en que nos encontramos con un nmero
par de ellas. En el primero se toma como mediana el valor central, en el segundo se da la
circunstancia de que cualquier valor comprendido entre los dos centrales cumple con la definicin de
la mediana. La mediana corresponde al C50, al D5 y al Q2. Por tanto, la mediana se obtiene como el
C50. Segn el caso, se obtiene el valor central o el par de valores.
MODA
Una tercera va para representar la tendencia central de un conjunto de valores consiste en informar
del valor ms frecuentemente observado. En esta idea se basa nuestro tercer ndice de tendencia
central, la moda, que se representa por Mo, y se define sencillamente como el valor de la variable
con mayor frecuencia absoluta. En algunos casos puede llegar a haber dos modas (se dice que
es una distribucin bimodal).
COMPARACIN ENTRE MEDIDAS DE TENDENCIA CENTRAL. Con qu criterios elegimos uno
sobre los dems para representar la magnitud general observada en unos valores o para comparar la
La cuestin que puede surgir es la de cmo valorar el grado de dispersin cuantificando mediante
este ndice. Dado que valores de varianzas que pueden ser normales en ciertas variables y
poblaciones podran parecer exagerados en otros casos, no tiene sentido comparar varianzas
halladas sobre variables distintas. La varianza sirve sobre todo para comparar el grado de dispersin
de dos o ms conjuntos de valores en una misma variable, llegando a conclusiones como la
siguiente: la poblacin de hombres presenta una mayor variabilidad en su estatura que la poblacin
de mujeres, que son ms homogneas en esa caracterstica. La razn de esta discrepancia es que
las distancias no se han tratado como tales, sino que para evitar el problema de que las diferenciales
sumen cero se han elevado stas al cuadrado. Por ello es frecuente, con objeto de retomar las
unidades originales de esas distancias, se calcule la raz cuadrada de la cantidad obtenida. Al ndice
CLCULO
El clculo de la varianza puede siempre hacerse por medio de la frmula que la define, pero en
muchas ocasiones resulta ms prctico utilizar otras frmulas derivadas de aqulla, y en cualquier
caso es necesario adaptar la frmula a aquellas situaciones en las que los valores estn agrupados
en intervalos. La varianza es tambin igual a la media de las puntuaciones directas elevadas al
cuadrado menos el cuadrado de la media. Esta frmula resultar til en ciertos casos:
PROPIEDADES
En primer lugar, hay que destacar que un conjunto de valores puede mostrar un mayor o menor
grado de homogeneidad, pero el grado ms pequeo posible de homogeneidad se produce cuando
todos los valores son idnticos. En ese caso las desviaciones de los valores con respecto a su media
son todas cero y en consecuencia tambin es igual a cero la media de sus cuadrados, por tanto, se
es el mismo valor que puede adoptar la varianza. Igualmente, como desviacin tpica se toma la raz
positiva de la varianza.
1) La varianza y la desviacin tpica, como medidas de la dispersin, son valores esencialmente
positivos. A veces interesa transformar las puntuaciones observadas sumando una constante y/o
multiplicando por otra constante, tal y como vimos al exponer las propiedades de la media. En esos
casos no har falta calcular la varianza de las puntuaciones transformadas, sino que podr deducirse
conociendo la varianza de las puntuaciones originales.
2) Si sumamos una constante a un conjunto de puntuaciones, su varianza no se altera. Si la
transformacin consiste en multiplicar por una constante, la varianza si se ve alterada. Conociendo
la varianza de las puntuaciones originales y la constante multiplicada se puede obtener fcilmente la
varianza de las puntuaciones obtenidas mediante la multiplicacin de la constante.
3) Si multiplicamos por una constante a un conjunto de puntuaciones, la varianza quedar
multiplicada por el cuadrado de la constante, y la desviacin tpica por el valor absoluto de esa
constante. En ciertas ocasiones conocemos las varianzas de varios subgrupos y se quiere obtener la
varianza del grupo total. Esto se puede conseguir aplicando una propiedad que relaciona la varianza
de todas las puntuaciones juntas con las varianzas, medias, y tamaos de los subgrupos.
4) La varianza total de un grupo de puntuaciones, cuando se conocen los tamaos, las medias, las
varianzas de varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos,
puede obtenerse sumando la media (ponderada) de las varianzas y la varianza (ponderada) de las
medias.
El hecho de que la desviacin tpica sea un ndice de la dispersin de los datos, y por tanto pueda
tomarse como medida interna de las distancias entre las puntuaciones y la media, hace que exista
una relacin muy estrecha entre esas distancias y las observaciones que abarcan las puntuaciones
en funcin de su distancias hasta la media. Esta relacin qued demostrada en la desigualdad de
Tchebychev que se puede describir as:
La desiguadad de Tchebychev recoge el hecho de que las distancias menores hasta la media son
ms frecuentes que las distancias mayores. As, entre las puntuaciones correspondientes a la media
+- una desviacin tpica se encontrarn menos observaciones que entre las puntuaciones
correspondientes a la media +- una desviacin tpica y media, y a su vez entre stas habr menos
que entre las correspondientes a la media +- dos desviaciones tpicas. Segn la desigualdad de
Tchebychev, el porcentaje de puntuaciones que quedan entre las correspondientes a la media +- k
desviaciones tpicas es, como mnimo el (1- 1/k2) por 100 de las observaciones.
--------------------------------------------------------------------------------------------------------------------------------------------
PUNTUACIN TPICA
Las puntuaciones diferenciales son informaciones insuficientes para comparar puntuaciones de
sujetos pertenecientes a distintos grupos o a dist variables. Las puntuaciones tpicas, se representa
por letra z. Frmula:
Las caractersticas de las puntuaciones tpicas son universales, no dependen del tipo de
puntuaciones ni de su dispersin, ni de su nmero. La media de las puntuaciones tpicas es cero,
mientras que su varianza y desviacin tpica son iguales a uno. Las puntuaciones tpicas reflejan las
relaciones esenciales entre las puntuaciones, con independencia de la unidad de medida que se
haya utilizado en la medicin. Cuando en dos conjuntos de puntuaciones, emparejadas con algn
criterio, a los elementos de cada para les corresponde la misma puntuacin tpica dentro de su
conjunto, puede decirse que mantienen la misma estructura interna, y se dice entonces que son
puntuaciones equivalentes.
ESCALAS DERIVADAS
A pesar de que las puntuaciones tpicas tienen las indudables ventajas que hemos descrito
anteriormente, tambin tienen algunos inconvenientes. Inconvenientes que surgen de las
desviaciones tpicas. En concreto y dado que la media de las tpicas es cero y su desviacin tpica
uno, buena parte de las puntuaciones suelen ser negativas, y casi todas decimales. Esto hace que
resulte incmodo su tratamiento y que muchas veces se busquen procedimientos que permitan
superar esta dificultad. Un procedimiento consiste en transformar las puntuaciones tpicas en otras
que retengan todas las relaciones que manifiestan las puntuaciones originales, por tanto que sean
puntuaciones equivalentes, pero evitando la dificultad operativa, y que constituyen lo que se
denomina una escala derivada. Estas transformaciones se basan en una propiedad de las
puntuaciones tpicas.
NDICES DE ASIMETRA
El grado de asimetra de una distribucin hace referencia al grado en que los datos se reparten
equilibradamente por encima y por debajo de la tendencia central. Una distribucin equilibrada sera
aquella en la que las frecuencias se repartiesen imparcialmente en torno de la media. Se han
propuesto diferentes ndices con los que cuantificar esta propiedad, de los que aqu vamos a exponer
tres.
La interpretacin es similar a la de los ndices anteriores. Los valores mayores de cero indican
asimetra positiva, los menores indican asimetra negativa y los valores en torno a cero reflejan
distribuciones simtricas. Tienen una ventaja sobre los ndices anteriores, y es que tiene un valor
mximo y mnimo con lo que se facilita su interpretacin en trminos relativos.
NDICES DE CURTOSIS
Solo vamos a estudiar el que se basa en el promedio de las tpicas elevadas a la cuarta potencia. Su
frmula es:
Quizs lo que ms sorprenda sea el hecho de que al promedio de las tpicas elevadas a la cuarta
potencia se le reste un tres. La razn es que existe un modelo de distribucin, del que hablaremos
en temas posteriores, en el que ese promedio da exactamente igual a tres. Al restar un tres al ndice,
lo que se consigue es utilizar ese modelo como patrn de comparacin. Una distribucin en la que el
ndice sea igual a cero tienen un grado de curtosis similar al de la distribucin normal, y se dice que
es mesocrtica, mientras que si es positivo su grado de apuntamiento es mayor que el de la
distribucin normal, y se dice que es una distribucin leptocrtica y si es negativo su apuntamiento
es menor que el de la distribucin normal y se dice que es platicrtica.
--------------------------------------------------------------------------------------------------------------------------------------------
PROPIEDADES
La razn principal por la que la covarianza no llegaba a satisfacer completamente la necesidad de un
ndice de la asociacin lineal era la dificultad de su valoracin, dado que careca de un mximo y un
mnimo estables. Puesto que hemos destacado su alternativa principal, el coeficiente de correlacin
de Pearson, precisamente porque no tiene esa dificultad.
VALORACIN E INTERPRETACIN
En la interpretacin de una correlacin de Pearson hay que separar dos aspectos distintos: su
cuanta y su sentido. La cuanta se refiere al grado en el que la relacin entre dos variables queda
bien descrita con un ndice de asociacin lineal como r, mientras que el sentido se refiere al tipo de
relacin. Una correlacin en torno a cero indica una relacin lineal baja o nula; una correlacin
positiva indica una relacin lineal directa, mientras que una correlacin negativa indica una relacin
lineal inversa. Cuanto ms cercano quede un coeficiente del valor cero, menos apto es el modelo
lineal como descripcin de la relacin entre las variables. Por el contrario, cuanto ms se acerque a
los extremos, mejor describe esa relacin.
Reuchlin
Propiedades de los nmeros en una escala nominal: una vez realizada esta particin de una serie de
observaciones se van a poder utilizar nmeros para describir y resumir esta serie. Pero cada uno de
estos nmeros designar aqu una clase de observaciones. Estas operaciones slo permiten decir
que una observacin que pertenece a una clase es diferente de una observacin que pertenece a
otra clase; no permiten decir que la primera es mayor o menor que la segunda. El nmero de
observaciones que pertenecen a una clase es el efectivo de esta clase.
Entropa: la informacin de la distribucin no permite saber si las posibilidades de pertenecer a otra
clase son muy diferentes o solamente poco diferentes, dicho de otro modo, si las observaciones son
muy diferentes o poco diferentes, si su distribucin est muy dispersada o poco dispersada. Se
admitir que la dispersin podr ser tanto mayor cuanto mayor sea el nmero de clases. Para un
nmero fijo de clases, ser mayor si las observaciones se reparten igualmente sobre todas las clases
en vez de concentrarse solamente sobre algunas clases. Se puede explicitar y cuantificar esta nocin
definiendo y calculando la entropa de la distribucin.