You are on page 1of 8

ESTADSTICA INFERENCIAL

INTRODUCCIN:
La estadstica inferencial es un argumento. Un buen argumento hace creble
una afirmacin. En nuestro caso, cualquier estudio necesitar, al menos dos
argumentos slidos: el estadstico y el relativo al diseo de investigacin
La estadstica inferencial es necesaria cuando queremos hacer alguna
afirmacin sobre ms elementos de los que vamos a medir. La estadstica
inferencial hace que ese salto de la parte al todo se haga de una manera
controlada. Aunque nunca nos ofrecer seguridad absoluta, s nos ofrecer
una respuesta probabilstica. Esto es importante: la estadstica no decide; slo
ofrece elementos para que el investigador o el lector decidan. En muchos
casos, distintas personas perciben diferentes conclusiones de los mismos
datos.
La estadstica dispone de multitud de modelos que estn a nuestra disposicin.
Para poder usarlos hemos de formular, en primer lugar, una pregunta en
trminos estadsticos. Luego hemos de comprobar que nuestra situacin se
ajusta a algn modelo (si no se ajusta no tendra sentido usarlo).
DEFINICIONES E IDEAS PREVIAS:
En el mbito cientfico, la estadstica, en general, y la estadstica inferencial, en
particular, es el camino que hay que recorrer para llegar de una pregunta a la
respuesta adecuada.
Cundo es necesaria la estadstica inferencial? Cuando queremos hacer
alguna afirmacin sobre ms elementos de los que vamos a medir.
La estadstica descriptiva, como indica su nombre, tiene por finalidad describir.
As, si queremos estudiar diferentes aspectos de, por ejemplo, un grupo de
personas, la estadstica descriptiva nos puede ayudar. Lo primero ser tomar
medidas, en todos los miembros del grupo, de esos aspectos o variables para,
posteriormente, indagar en lo que nos interese. Por ejemplo, para saber cul es
la edad del grupo, podemos resumir el conjunto de todas las edades mediante
la media. Eso nos dice, aproximadamente, alrededor de qu edad se sitan
todos. Ya sabemos, pongamos, que la edad media es 40 aos. Pero adems
podemos utilizar la desviacin tpica, si queremos saber si el grupo tiene
edades muy dispares (por ejemplo, una desviacin tpica de 12 aos) o si, por
el contrario, tienen edades parecidas (una desviacin tpica de 2 aos). Slo
con esos indicadores ya podemos hacernos una idea, podemos describir a ese
conjunto de personas, al menos en referencia a su edad.
Pero el tamao de los grupos que suelen interesar es demasiado grande, a
veces tan grande como todo el mundo. Y esto, ms que ser una rareza, es en
muchos campos la norma. Por ejemplo, cuando se afirma que las personas
tenemos una agudeza visual menor que la de los halcones, podemos estar

seguros de que no hemos medido la agudeza visual de todos los humanos ni la


de todos los halcones.
Pues bien, la estadstica inferencial es la que va a permitir dar ese salto de los
resultados obtenidos para un grupo a la totalidad.
Planteemos una cuestin concreta: Un profesor de estadstica afirma que se
aprende mejor estadstica inferencial utilizando los ordenadores para mostrar lo
que se estudia. Cmo podemos decidir si esta afirmacin es cierta? Una
posible forma sera seleccionando dos grupos de alumnos (equivalentes) que
estudien estadstica inferencial, y dar las mismas clases a ambos, incluido el
mismo profesor, idnticos ejercicios, etc., excepto que uno de ellos utilizan los
ordenadores en su aprendizaje y otro no.
EL AZAR Y LA PROBABILIDAD:
La estadstica inferencial resulta de aplicar la probabilidad a los estadsticos
que ya conocemos por la estadstica descriptiva. Los resultados de esa
aplicacin vendrn expresados, pues, en lenguaje probabilstico.
Y esto no ayuda precisamente a sentirse cmodo con la estadstica inferencial.
Adems de ser matemtica, tiene la fea costumbre de no decir s o no. En lugar
de ello, sus respuestas suenan a veces a excusas, eso s, muy diplomticas,
como no hay suficiente evidencia o esa afirmacin es altamente improbable.
Pero en lenguaje matemtico. El resultado es quizs extrao, difuso pero
preciso; no se decanta pero nos da cuatro decimales: a partir de los datos que
me ofrece, la probabilidad de que ocurra eso que usted afirma es 0.23811.
Pero aun as nos permite incrementar nuestro conocimiento. Las afirmaciones
anteriores pretenden ilustrar algo fundamental: las afirmaciones que nos
permite hacer la estadstica inferencial tienen un riesgo, y quien la usa debe
saberlo. No es difcil, de todas maneras, porque todas estas afirmaciones estn
formuladas en trminos de riesgo, de seguridad e inseguridad: de probabilidad.
El azar es, por definicin, lo impredecible. Cmo es posible entonces utilizar lo
impredecible para obtener informacin? La clave est en que incluso lo
impredecible, para poder serlo, ha de cumplir algunas normas. El conjunto de
esas normas, y las tcnicas para extraer informacin del azar, es lo que
llamamos probabilidad.
No hay nada mgico en el azar; resulta de una sucesin de circunstancias no
controlables que lleva a no poder predecir el resultado. Fijmonos en la
moneda de toda la vida. Lo que hace que lanzarla sea un experimento aleatorio
es que es imposible controlar la fuerza con la que se lanza, los giros que da y
los ngulos con que golpea el suelo una y otra vez hasta detenerse2. Basta
situar la moneda de canto en una mesa y empujarla deliberadamente en una
direccin para que desaparezca el azar. Pero si estando de canto la hacemos
girar rpidamente volvemos a disponer de un experimento aleatorio.
Pero, podemos realmente utilizar esta informacin para decidir sobre algo
real? Supongamos que lanzamos la moneda al aire. Cules son esas normas

que podemos utilizar? En este caso, que la moneda tiene dos caras, y que no
hay preferencia por una u otra a la hora de posarse. Es decir: las dos nicas
posibilidades se reparten por igual el derecho a ser el resultado final. Si
aplicamos los conceptos bsicos de la probabilidad, y recordando que la
probabilidad total es 1, tenemos que las probabilidades de que salga cara o
cruz son:
P(cara)=0.5
P(cruz)=0.5

Lo que suele ser difcil de digerir para nuestro entendimiento son cuestiones
como, por ejemplo, que aunque un determinado suceso tenga una probabilidad
nfima, como 0.01 (un 1 por ciento), tambin puede ocurrir.
Aunque todo el que lea esto est realmente convencido de que es verdad, la
experiencia demuestra que no aplicamos este conocimiento.
EL MUESTREO:
Para extraer conclusiones de una poblacin a partir de una muestra, es vital
que la muestra sea representativa.
Hay dos tipos de muestreo: probabilstico (se conoce, o puede calcularse, la
probabilidad de cada elemento, por tanto, de cada muestra posible) y no
probabilstico (se desconoce o no interesa la probabilidad de cada elemento; el
investigador selecciona aquella muestra que considera ms representativa o
que le resulta ms fcil).
Cuidado: no es que el muestreo no probabilstico no permita generar muestras
representativas; lo que ocurre es que no tenemos ninguna informacin sobre el
grado de representatividad de la muestra elegida.
El muestreo probabilstico puede darse de diferentes formas, segn estemos
considerando poblaciones finitas (los votantes de la Comunidad de Madrid, los
pacientes con insomnio) o infinitas (los posibles tiempos de reaccin ante una
tarea de bsqueda visual), y segn consideremos (en las finitas) un muestreo
con o sin reposicin.
El muestreo aleatorio simple se da cuando se cumple la igualdad de
distribuciones (cualquier valor tiene la misma probabilidad de salir en cada
extraccin) e independencia (la probabilidad de obtener un determinado valor
no se modifica por los valores ya obtenidos).
Otros tipos de muestreo probabilstico son el m. a. sistemtico, el m. a.
estratificado y el m. a. por conglomerados.
ESTIMACIN DE PARMETROS:
Cuando queremos estimar el valor de un parmetro, disponemos de dos
aproximaciones: La estimacin puntual y la estimacin por intervalos.

ESTIMACIN PUNTUAL
La estimacin puntual asigna directamente al parmetro el valor obtenido para
el estadstico.
La estimacin por intervalos, en cambio, proporciona un intervalo, un rango de
valores entre los que estar situado el parmetro con una cierta probabilidad.
Para poder conocer esa probabilidad debemos conocer previamente la
distribucin de probabilidad del estadstico que estemos usando como
estimador: la distribucin muestral del estadstico.
La estimacin puntual constituye la inferencia ms simple que podemos
realizar: asignar al parmetro el valor del estadstico que mejor sirva para
estimarlo. Pero para que un estadstico sea considerado un buen estimador ha
de cumplir ciertas condiciones. Si usamos los smbolos para un parmetro
cualquiera, y , para un posible estimador de , podemos enunciar las
propiedades de la siguiente forma:
Carencia de sesgo: Un estimador, , ser insesgado si su valor esperado
coincide con el del parmetro a estimar, .
E() =
Consistencia: Un estimador, , ser consistente si, conforme aumenta el
tamao muestral, n, su valor se va aproximando a . Expresado ms
formalmente, indica que dada una cantidad arbitrariamente pequea, ,
cuando n tiende a infinito,
P(| |< )1
Eficiencia: Dados dos posibles estimadores 1 y 2, diremos que 1
es un estimador ms eficiente que 2 si se cumple que:

Suficiencia: Un estimador, , ser suficiente si utiliza toda la informacin


muestral
disponible.
La tabla a continuacin muestra los estimadores de algunos parmetros:

DISTRIBUCIN MUESTRAL DE LA MEDIDA (DMM):


La distribucin muestral (de la media o de cualquier otro estadstico) es
fundamental: si la conocemos podemos saber con qu probabilidad puede
adoptar determinados valores. Eso nos permitir responder a ciertas
cuestiones, por ejemplo, obtener el intervalo de confianza para la media, hacer
un contraste de hiptesis o calcular la potencia de un contraste de hiptesis.
Conocer la distribucin muestral de un estadstico (de aqu en adelante, la
media) implica conocer su forma y sus parmetros. Por ejemplo, saber si su
forma es la de la distribucin normal, y saber que los parmetros son: media,
30 y desviacin tpica, 6.5. A fin de cuentas, lo que nos interesa es que la
distribucin muestral coincida con alguna conocida, de la que dispongamos de
tablas.
La forma en que la estadstica nos permitir conocer la DMM es a travs de
condiciones o supuestos: Si nuestros datos cumplen lo que pide un
procedimiento estadstico, entonces ese procedimiento estadstico nos da
alguna informacin til.
Considrese siempre que el muestreo es aleatorio (los datos proceden de
elementos representativos) e independiente (es decir, que el haber elegido un
elemento no afecta a la probabilidad de elegir otros). En estas condiciones,
puede ocurrir lo siguiente:
Como es difcil conocer , consideraremos siempre de partida que la DMM se
distribuir segn tn1, ya sea cuando sepamos que la variable X se distribuye
normalmente o cuando n sea igual o mayor que 30 o ambas cosas. Como las
tablas
de la distribucin t aparecen tipificadas (con media = 0 y desviacin tpica =
1), para hacer cualquier uso de ella deberemos tipificar el valor de inters, X:

Si, en el caso anterior, conocemos adems la desviacin tpica poblacional,


entonces
la DMM se distribuir segn la distribucin normal: Por la misma razn
de antes, para usar las tablas previamente debemos tipificar:

Pero si no conocemos la forma de la distribucin de la variable X, ni el n es lo


suficientemente grande como para hacer uso del punto , entonces no podemos
utilizar esta informacin. Pero no todo est perdido: En ese caso habra que
estudiar la forma de la distribucin de la variable X, transformar las
puntuaciones hasta que adopten una forma normal o, en ltima instancia, usar
pruebas no paramtricas, que no imponen supuestos sobre la forma de la
distribucin.
Como regla general utilizaremos siempre la distribucin t (rara vez
conoceremos ), aunque podremos usar la tabla de la distribucin normal
(siempre que n sea suficientemente grande) para localizar valores que no
aparezcan en la tabla de la distribucin t.
Qu obtenemos de todo esto?
Lo que afirmbamos anteriormente: que conociendo cmo se comportan las
medias (su distribucin muestral o distribucin de probabilidad), podemos usar
estas probabilidades siempre que sea necesario. Una de ellas, que veremos
ahora, es la obtencin de intervalos de confianza. Otra aplicacin, ms
adelante, ser utilizada en el contraste de hiptesis.
ESTIMACIN POR INTERVALOS:
Supongamos que conocisemos la poblacin. Podramos obtener la DMM para
un determinado tamao de la muestra, n. Una vez caracterizada la DMM,
seramos capaces de decir, con una determinada seguridad, dnde estarn las
medias que podremos obtener si muestreamos.
Invirtiendo el razonamiento (y yendo a la realidad), dada una muestra,
podemos calcular la DMM donde, con una cierta seguridad, estar la media
poblacional que buscamos.
La obtencin de un determinado intervalo es fcil, dado que conocemos la
DMM. Basta con:
1. Localizar en la distribucin de probabilidad (normal o t) los valores que
contienen
el nivel de confianza.
2. Traducir esos dos valores a la escala de nuestra variable, X.
En la prctica, deberemos definir un nivel de confianza (NC), que determinar
un nivel de riesgo, = 1NC. A partir de ah, y asumiendo que se sigue la
distribucin t:
1. Obtener los lmites inferior y superior, es decir, los valores para tn1 que
dejan a la izquierda y a la derecha /2 (la mitad del nivel de riesgo).
Estos valores sern:

2. Traducir esos dos valores a la escala de nuestra variable, X. As, y


teniendo en cuenta que

los lmites seran:

Al trmino que es sumado y restado de la media suele denominrsele


error mximo, y se denota por Emax. En estos trminos, los lmites de
un intervalo de confianza suelen expresarse genricamente como

En resumen, una vez obtenido el intervalo de confianza se puede afirmar lo


siguiente:

Que significa que la probabilidad de que la media poblacional est situada


dentro del intervalo obtenido es igual al nivel de confianza especificado (1 ).
CONTRASTE DE HIPTESIS:
CONTRASTE DE HIPTESIS:
Un contraste de hiptesis es un proceso de decisin en el que una hiptesis
formulada en trminos estadsticos es puesta en relacin con los datos
empricos para determinar si es o no compatible con ellos. Los datos empricos
siempre provendrn de un muestra, un subconjunto limitado de la poblacin de
referencia. Las hiptesis, por el contrario, siempre preguntarn acerca de la
poblacin. Pinsese que es absurdo preguntar si una media obtenida en una
muestra, por ejemplo, 58, es mayor que 5. Por supuesto que lo es, y nadie
(exceptuando los que estudian estadstica) puede hacerse semejante pregunta
seriamente.
Lo que s es relevante preguntar es si la media poblacional, que no conocemos,
es mayor que 5. En tanto no la conocemos, usaremos la media muestral como
un estimador (una aproximacin) de esa media poblacional.
1.1 Las hiptesis estadsticas (la pregunta, formalizada)
Una hiptesis estadstica es una afirmacin sobre una o ms distribuciones de
probabilidad; ms concretamente, sobre la forma de una distribucin de
probabilidad o sobre el valor de un parmetro de esa distribucin de
probabilidad. En cuanto a nuestro ejemplo, nos centraremos en una distribucin
de probabilidad con el parmetro media poblacional igual a 5. El contraste de
hiptesis nos dir si es ms o menos probable, bajo esa distribucin de
probabilidad, obtener en una muestra aleatoria una media igual a 58.

Todo contraste necesita dos hiptesis: H0 y H1, que sern exhaustivas y


mutuamente exclusivas.
H0 es la hiptesis nula, y es la que se somete a contraste.
H1 es la hiptesis alternativa a H0, y es la negacin de H0. Mientras queH0 es
exacta, H1 suele ser inexacta.
Un detalle importante: el signo = siempre va en la H0, sea exacta o inexacta.
Es sobre este signo = sobre el que se construir el modelo probabilstico,
como ya
hemos visto.
1.2 Los supuestos (nuestra situacin se parece a la del modelo?)
Son un conjunto de afirmaciones que necesitamos establecer (sobre la
poblacin de partida y la muestra utilizada) para conseguir determinar la
distribucin de probabilidad en la que se basar nuestra decisin sobre H0. Si
nuestra situacin no se ajusta a estas condiciones, necesarias, entonces no
debemos usar el modelo. La razn es obvia: el modelo no nos sirve, luego
cualquier cosa que deduzcamos de l ser inexacta y/o errnea.