You are on page 1of 30

Cmo Decidir cual Prueba Estadstica

Utilizar al Analizar Datos?

OH, OH, ACABO DE DESCUBRIR QUE EL 79% DE MIS RATAS TIENEN CNCER...
"

Y AN NO LES HE INYECTADO NADA!


Un poco de filosofa
Como investigador y enseando biologa a menudo nos
confrontamos con nuestros colegas y estudiantes que
buscan consultar como datos buscando un buen anlis,
en la mayora de los casos, hay muy poca cosa que se pueda
hacer, ms que enfatizar a) un planeamiento profundo, b)
diseo experimental cuidadoso, y c) un entendimiento del
procedimiento estadstico a priori a la coleta de datos.
Nosotros preferimos anlisis buscando buenos datos. No
podemos exagera la necesidad de una apropiada
planificacin y diseo.
Biotat I. A Univariate Statistical Toolbox. Version 2.0 Tutorial
Manual.
Richard Pimentel, Ph.D. Department of Biological Science. California
Polytechnic State University. San Luis Obispo.
James D. Smith, Ph.D. Department of Biological Science. California
Polytechnic State University. Fullerton
VARIABLE
Una variable es lo que est siendo observado o
medido.
es una caracterstica o propiedad de una persona, un
objeto o una situacin,
que comprende un conjunto de valores diferentes o
categoras.
La altura es una variable, al igual que el peso, tipo de
sangre y gnero.
Las variables cuantitativas, como la altura, el peso o la
edad, estn posedos de grado y as se puede medir.
Las variables cualitativas, como el sexo, el grupo
sanguneo o nacionalidad, slo poseen clases: no
pueden ser expresadas en unidades.
TIPOS DE VARIABLES
Variables Independientes y Dependientes
VD: es el objeto de inters, que vara en respuesta
a alguna intervencin.
VI: es la intervencin o lo que est siendo
aplicado.
Variables Discretas y Continuas
VD toman valores numricos enteros.
VC tomar cualquier valor de un intervalo
determinado
NATURALEZA DE LOS DATOS
Datos nominales
Una variable como el gnero slo puede tomar dos valores: mujer y
varn.
Ninguno de los dos es ms alto o mejor que el otro, los podemos
enumerar colocando varn en primer lugar o primero la mujer sin
que se pierde ninguna informacin. Esta variable recibe el nombre de
nominal.
La variable nominal consiste en categoras a las que se asigna un
nombre sin que exista ningn orden implcito entre ellas.
Se codifica los datos nominales con nmeros. Mujer como 1 y Varn.
Los nmeros son nombres alternativos, no tenen valor cuantitativo.
Podemos cambiar el cdigo haciendo Varn = 1 y Mujer = 2, y las
conclusiones a las que vamos llegar sern idnticas.
Datos ordinales
Las calificaciones de un estudiante como sobresaliente /notable/aprobado no
aprobado tienen cuatro categoras.
Existe un orden entre estos valores.
No podemos suponer que la diferencia entre sobresaliente o notable y
aprobado sea la misma entre aprobado y no aprobado.
Esto se ve mejor en las calificaciones numricas; existe una pequea diferencia
entre un 4 y un 5; pero la diferencia es abismal entre un 2 y un 3.
Es igual que los resultados de caballo; sabemos que el caballo que gan fue ms
veloz que el que qued segundo, y todava ms que el tercero. Pero puede haber
existido una diferencia de un segundo entre los dos primeros, mientras que
respecto al tercero puede haber sido de 10 segundos.
As, las calificaciones y el orden de finalizacin de una carrera de caballos se
denominan variables ordinales.
Una variable ordinal consiste en categoras ordenadas, de manera que las
diferencias entre categoras pueden no ser iguales.
Las variables que podemos encontrar en medicina preventiva son ordinales por
naturaleza.
Los pacientes se clasifican a menudo como muy a) mejorado, b) un poco mejorado,
c) estacionario, d) empeorado y e) muerto; o de a) emergencia, b) urgente y c)
optativo.
Algunas veces se utilizan nmeros, como en los niveles I a IV del cncer. La
diferencia entre en el grado de la enfermedad entre el nivel I y el nivel II de cncer
es la misma que la que hay entre los niveles II y III o entre los III y IV? Si la
respuesta es no, la escala es ordinal.
Datos intervlicos
El punto cero no tiene especial significacin y podemos cambiarlo.
Para ilustrarlo, comparemos la inteligencia, medida mediante algn test
CI, con algo como por ejemplo, el peso donde el cero es significativo.
Todos sabemos el significado de un peso cero. No podemos decidir de
repente que restaremos 10 kilos de cualquier cosa que pesemos y decir
que algo que previamente pesaba 11 kilos ahora pesa 1 kilo.
Una escala de inteligencia tiene una entidad diferente. Decimos que la
media del CI es 100, pero esto es solamente un convenio.
En el prximo congreso mundial de expertos en CI pueden decidir que a
partir de ahora, consideraremos que la media es 500 sin ms que aadir
400 a todos los datos.
No hemos ganado nada, pero por el mismo motivo, tampoco hemos
perdido nada; el nico cambio necesario es que ahora tendremos que
ajustar de nuevo los parmetros que habamos aprendido de acuerdo con
la nueva media.
Veamos ahora las implicaciones que ello conlleva. Como los intervalos son
iguales, la diferencia entre un CI de 70 y uno de 80 es la misma entre 120 y
130. Sin embargo, un CI de 100 no es dos veces ms elevado que uno de
50.
La cuestin es que si el cero es artificial y mvil, las diferencias entre
nmeros son significativas, pero las razones entre ellas, no.
Datos proporcionales
Si el punto cero es significativo, las razones entre nmeros
lo son tambin, y nos hemos tropezado con una variable
proporcional.
Una variable proporcional tiene intervalos iguales entre
valores y un punto cero significativo.
La mayora de los tests de laboratorio son variables
proporcionales, al igual que las categoras fsicas tales como
la altura y el peso.
Una persona que pesa 100 kilos es dos veces ms pesada
que una que pesa 50 kilos; incluso si convertimos los kilos
en libras, la proporcin es la misma: de 220 libras a 110. En
el fondo, para un estudio estadstico, ambos pueden
tratarse de la misma manera.
Observemos que cada peldao en la jerarqua ascendente
que va de los datos nominales a los proporcionales toma la
hiptesis del peldao anterior para aadir una nueva
restriccin
NATURALEZA DE LOS DATOS
TIPO DE DATOS CARACTERSTICAS
Nominales Categoras con nombre

Como las nominales ms


Ordinales
categoras ordenadas

Como las ordinales ms


Intervlicas
intervalos iguales
Como las intervlicas ms
Proporcionales
cero significativo
Hiptesis
La hiptesis establece que existe una
relacin causal entre dos variables.
Ejemplo. La ingestin de cierto frmaco
mejora el rendimiento de cierta habilidad.
Donde:
La VI es la presencia/ausencia de la droga.
La VD es el rendimiento de cierta habilidad.
UN EXPERIMENTO
Un experimento es la recopilacin de datos
comparativos en condiciones controladas.
En un experimento verdadero, la VI es manipulada por
el investigador.
Por ejemplo, la eficacia de la droga podra ser probado
mediante la comparacin de una muestra de personas
que han tomado el medicamento con la de un grupo
que no han tomado, el grupo control.
Para mejorar la comparacin de los dos grupos
mediante la presentacin de los controles con un
placebo, es decir, un medio neutro idealmente idntica
a aquella en la que el frmaco es presentado al grupo
experimental.
MUESTREO
Necesitamos decidir objetivamente si aceptamos
o rechazamos una hiptesis, con base en la
informacin de la muestra.
Mientras ms pequea sea la diferencia entre las
media del parmetro y del estadstico, mayor
ser la probabilidad de que nuestro valor
hipottico sea correcto.
Mientras mayor sea la diferencia, ms pequea
ser la probabilidad.
Una estadstica es una caracterstica de una
muestra y un parmetro es una caracterstica de
una poblacin.
NOMENCLATURA
Trmino Nombre Letra
Letra griega
estadstico griego romana
Media Mu
Desviacin
estndar
Sigma S

Diferencia Delta d
Error Tipo I Alfa a
Error Tipo II Beta b
Proporcin Pi p
Muestra y Poblacin

Muestra Poblacin
NOMBRES
Estadstico Parmetro
Media
Varianza S2 2
Desviacin
S
estndar
Muestreo aleatorio simple
Cada elemento de la muestra tiene igual
probabilidad de ser seleccionada y que cada
elemento de la poblacin total tenga una
oportunidad igual de ser incluido en la muestra.
Ejemplo. Tenemos una poblacin de cuatro
estudiantes en un seminario y queremos cuatro
(4) muestras de dos estudiantes cada vez para
entrevistarlos.
Cmo hacer un muestreo aleatorio. Tabla de
Dgitos Aleatorios
1581922396 2068577984 8262130892 8374856049 4637567488
0928105582 7295088579 9586111652 7055508767 6472382934
4112077556 3440672486 1882412963 0684012006 0933147914
7457477468 5435810788 9670852913 1291265730 4890031305
0099520858 3090908872 2039593181 5973470495 9776135501
7245174840 2275698645 8416549348 4676463101 2229367983
6749420382 4832630032 5670984959 5432114610 2966095680
5503161011 7413686599 1198757695 0414294470 0140121598
7164238934 7666127259 5263097712 5133648980 4011966963
3593969525 0272759769 0385998136 9999089966 7544056852
4192054466 0700014629 5169439659 8408705169 1074373131
9697426117 6488888550 4031652526 8123543276 0927534537
2007950579 9564268448 3457416988 1531027886 7016633739
Como funciona
1581922396 2068577984
Nombres Nmero
Julin 1
0928105582 7295088579
Vernica 2 4112077556 3440672486
Eliana 3 7457477468 5435810788
Pedro 4
0099520858 3090908872
M1 M2 7245174840 2275698645
Julin Pedro 6749420382 4832630032
Eliana Pedro 5503161011 7413686599
Vernica Julin
7164238934 7666127259
Pedro Vernica
3593969525 0272759769
4192054466 0700014629
9697426117 6488888550
2007950579 9564268448
Poblacin Finita
Una poblacin finita de cuatro estudiantes.
La poblacin tiene un nmero entero (N) que
indica cuntos elementos hay en la poblacin.
Julin Vernica
Julin Eliana
Julin Pedro
Vernica Eliana
Vernica Pedro
Eliana Pedro
Poblacin Infinita
El trmino poblacin infinita es cuando una
poblacin no puede enumerarse en un periodo
razonable de tiempo.
El concepto terico de poblacin infinita es como
una aproximacin de una poblacin finita
enorme.
El concepto terico de variable aleatoria continua
como una aproximacin de una variable aleatoria
discreta que pudiera asumir muchos valores
estrechamente cercanos.
Los principios del muestreo
aleatorio simple son la base
de la inferencia estadstica.
Proceso de obtener
informacin de una
poblacin a partir su
muestra.
Diseo de experimentos
Un evento es uno o ms de los
resultados posibles de hacer algo.
Un experimento es la actividad que
tendra como resultado tales
eventos.
En el experimento del lanzamiento
de una moneda, los eventos posibles
seran caras o cruces.
Planeacin de experimentos
Si hemos de conducir experimentos
que produzcan resultados
significativos en forma de
conclusiones aprovechables, es de
suma importancia la forma en que se
diseen estos experimentos.
El muestreo es slo una parte del
diseo total de un experimento.
Diseo experimental-Ejemplo
Se afirma que la batera de la empresa SuperPower
pondr en marcha mejor el motor de su automvil que
una batera X. SuperPower y disea su experimento de la
siguiente manera:
Objetivo: SuperPower desea probar su batera frente a
su competidor. Aunque es posible disear un
experimento que pruebe las dos bateras con respecto a
varias caractersticas (tiempo de vida, tamao, poder de
arranque, peso y costo, para nombrar slo unas cuantas),
SuperPower ha decidido limitar este experimento a su
poder de arranque.
Lo que se medir: se conoce tambin como la variable
de respuesta. Si SuperPower ha de disear un
experimento que compare el poder de arranque de su
batera con el de otra, debe definir cmo se medir el
poder de arranque.
Existen varias formas de hacer esto. Por ejemplo,
SuperPower podra medir
1) el tiempo que tardaron las bateras en agotarse
mientras ponan en marcha un motor,
2) el nmero total de arranques de motor que agotaron las
bateras o
3) el nmero de meses en uso que se podra esperar
duraran las dos bateras.
SuperPower decide que la variable de respuesta en
este experimento ser 1) el tiempo que tardan las
bateras en agotarse mientras encienden motores.
Qu tamao de muestra: SuperPower elige un
tamao de muestra lo suficientemente grande
para respaldar sus afirmaciones respecto a su
batera sin temor a ser desmentido; sin embargo,
sabe que mientras ms bateras pruebe, el costo
del experimento ser ms alto.
Hay una utilidad decreciente en el muestreo: el
muestreo de ms elementos disminuye el error
estndar, puede ser que el beneficio no valga el
costo.
Al no desear elegir un tamao de muestra
demasiado caro, SuperPower decide que ser
suficiente comparar 10 bateras de cada una de
las dos compaas.
Conduccin del experimento: SuperPower debe tener
cuidado de efectuar su experimento bajo condiciones
controladas; debe asegurarse de estar midiendo el
poder de arranque, y de que las otras variables (como
la temperatura, la edad del motor y la condicin de los
cables de la batera, por nombrar unas cuantas) se
mantengan tan constantes como sea factible.
Al intentar lograr precisamente esto, el grupo
estadstico de SuperPower utiliza automviles nuevos
de la misma marca y modelo, lleva a cabo las pruebas a
la misma temperatura externa y tiene cuidado en ser
bastante preciso al medir la variable de tiempo.
De esta manera, SuperPower rene los datos
experimentales sobre el rendimiento de 20 bateras.
Anlisis de los datos: Los datos obtenidos sobre
las pruebas de las 20 bateras individuales estn
sujetos a la prueba de hiptesis, Prueba de
hiptesis: pruebas de dos muestras.
A la compaa SuperPower le interesa saber si
existe una diferencia significativa entre el poder
de arranque de su batera y el de su competidor.
Resulta ser que la diferencia que existe entre la
vida media de arranque de la batera de
SuperPower y la de su competidor s es
significativa.
SuperPower incorpora el resultado de este
experimento en su publicidad.
Reaccin a las afirmaciones experimentales
Cmo debemos nosotros, como consumidores, reaccionar a las
nuevas afirmaciones sobre la vida de la batera en su reciente
publicidad?
Debemos concluir, por las pruebas que ha efectuado la compaa,
que la batera de SuperPower es superior a la batera de la
competencia?
Cmo sabemos que las marcas y condiciones de los motores de los
automviles del experimento fueron idnticas?
Y estamos absolutamente seguros de que los cables de la batera
eran idnticos en tamao y resistencia a la corriente?
Y qu hay con respecto a las temperaturas ambientales existentes
durante las pruebas?, fueron iguales?
Cmo debemos reaccionar frente a la afirmacin, si se hace, de
que sometimos los resultados experimentales a extensas pruebas
estadsticas?
Cmo podremos determinar si una diferencia tal en el tiempo de
vida de las bateras es demasiado grande para ser atribuida al azar.
En este punto, nosotros, como consumidores, debemos ser lo
suficientemente escpticos.
Otras opciones abiertas
Claro est que la compaa SuperPower habra tenido las
mismas preocupaciones que nosotros, y con toda
probabilidad no habra hecho afirmaciones publicitarias
importantes solamente sobre la base del diseo
experimental que acabamos de describir.
Un posible curso de accin para evitar la crtica sera
asegurar que todas las variables, excepto la que se est
midiendo, hayan sido realmente controladas.
A pesar del cuidado que se tuvo para producir tales
condiciones controladas, resulta que estos experimentos
sobrecontrolados realmente no solucionan el problema.
Normalmente, en vez de invertir recursos en intentos de
eliminar variaciones experimentales, se elige una ruta
completamente diferente.
Lo siguiente muestra cmo es posible lograr lo anterior.
Experimentos factoriales
En el caso de la compaa SuperPower,
tenamos dos bateras (refirmonos a ellas
como A y B) y tres condiciones de prueba que
nos interesaban:
1) temperatura,
2) edad del motor y
3) condicin del cable de la batera.
Introducimos el concepto de experimentos
factoriales.

You might also like