Professional Documents
Culture Documents
de
decisiones
en
reas
de negocios o
1 Historia
o
1.1 Origen
2 Mtodos estadsticos
o
3 Disciplinas especializadas
4 Computacin estadstica
5 Crticas a la estadstica
6 Estadsticos famosos
7 Notas
8 Bibliografa
9 Enlaces externos
Historia[editar]
Origen[editar]
El
trmino alemn Statistik,
introducido
originalmente
por Gottfried
Achenwall en 1749, se refera al anlisis de datos del Estado, es decir, la ciencia
del Estado (o ms bien, de la ciudad-estado). Tambin se llam aritmtica
poltica de acuerdo con la traduccin literal del ingls. No fue hasta el siglo XIX
cuando el trmino estadstica adquiri el significado de recolectar y clasificar
datos. Este concepto fue introducido por el militar britnico sir John Sinclair (17541835).
En su origen, por tanto, la estadstica estuvo asociada a los Estados o ciudades
libres, para ser utilizados por el gobierno y cuerpos administrativos (a menudo
centralizados). La coleccin de datos acerca de estados y localidades contina
ampliamente a travs de los servicios de estadstica nacionales e internacionales.
En particular, los censos comenzaron a suministrar informacin regular acerca de
la poblacin de cada pas. As pues, los datos estadsticos se referan
originalmente a los datos demogrficos de una ciudad o Estado determinados. Y
es por ello que en la clasificacin decimal de Melvil Dewey, empleada en las
bibliotecas, todas las obras sobre estadstica se encuentran ubicadas al lado de
las obras de o sobre la demografa.
Ya se utilizaban representaciones grficas y otras medidas en pieles, rocas, palos
de madera y paredes de cuevas para controlar el nmero de personas, animales o
ciertas mercancas. Hacia el ao 3000 a. C. los babilonios usaban ya pequeos
envases moldeados de arcilla para recopilar datos sobre la produccin agrcola y
de los gneros vendidos o cambiados. Los egipcios analizaban los datos de la
poblacin y la renta del pas mucho antes de construir las pirmides en el siglo
XI a. C. Los libros bblicos de Nmeros y Crnicas incluyen en algunas partes
trabajos de estadstica. El primero contiene dos censos de la poblacin de laTierra
de Israel y el segundo describe el bienestar material de las diversas tribus judas.
En China existan registros numricos similares con anterioridad al
ao 2000 a. C. Los antiguos griegos realizaban censos cuya informacin se
utilizaba hacia el 594 a. C. para cobrar impuestos.
Orgenes en probabilidad[editar]
Los mtodos estadstico-matemticos emergieron desde la teora de probabilidad,
la cual data desde la correspondencia entre Pascal y Pierre de Fermat
(1654). Christian Huygens (1657) da el primer tratamiento cientfico que se conoce
a la materia. El Ars coniectandi (pstumo, 1713) de Jakob Bernoulli y la Doctrina
de posibilidades (1718) de Abraham de Moivre estudiaron la materia como una
rama de las matemticas.1En la era moderna, el trabajo de Kolmogrov ha sido un
procedimientos
Prueba t de Student
Prueba de
U de Mann-Whitney
Anlisis de regresin
Correlacin
Frecuencia estadstica
Grfica estadstica
Disciplinas especializadas[editar]
Ciencias actuariales
Fsica estadstica
Estadstica industrial
Estadstica espacial
Matemtica estadstica
Estadstica en medicina
Estadstica en nutricin
Estadstica en agronoma
Estadstica en planificacin
Estadstica en investigacin
Estadstica en literatura
Estadstica en astronoma
Estadstica en historia
Estadstica militar
Geoestadstica
Bioestadstica
Estadsticas de negocios
Estadstica computacional
Investigacin de operaciones
Estadsticas de consultora
Cienciometra
Estadstica en epidemiologa
Estadstica en ingeniera
Demografa
Calidad y productividad
Cultura estadstica
Confiabilidad estadstica
Procesamiento de imgenes
Estadsticas deportivas
CONCEPTOS BSICOS
INTRODUCCIN
La investigacin cuya finalidad es: el anlisis o experimentacin de situaciones
para el descubrimiento de nuevos hechos, la revisin o establecimiento de teoras
y las aplicaciones prcticas de las mismas, se basa en los principios de
Observacin y Razonamiento y necesita en su carcter cientfico el anlisis
tcnico de Datos para obtener de ellos informacin confiable y oportuna. Este
anlisis de Datos requiere de la Estadstica como una de sus principales
herramientas, por lo que los investigadores de profesin y las personas que de
una y otra forma la realizan requieren adems de los conocimientos
especializados en su campo de actividades, del manejo eficiente de los conceptos,
tcnicas y procedimientos estadsticos.
ESTADSTICA
Se llaman grficas a las diferentes formas de expresar los datos utilizando los
medios de representacin que proporciona la geometra.
METODOS DE REPRESENTACIN DE DATOS CUANTITATIVOS
Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o
descendente. Ofrece las ventajas siguientes: describe los valores mnimos y
mximos, en l se pueden dividir los datos fcilmente en secciones, permite darse
cuenta de los valores que aparecen ms de una vez, se puede observar la
distancia entre valores consecutivos.
Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los
valores
Diagrama de Tallo y Hoja. Es til para realizar una exploracin preliminar del
conjunto, genera una imagen adecuada de ellos sin perder informacin.
Distribucin de Frecuencias. Es una forma de sintetizar los datos y consiste en
valerse de una tabla para clasificar los datos segn su magnitud, en ella se seala
el nmero de veces que aparece cada uno de los valores. Cuando se dispone de
un gran nmero de valores discretos o cuando las variables son continuas, tiene
sentido formar una tabla que presente la distribucin de frecuencias de los datos
agrupados en intervalos o clases, de igual tamao si es posible, sin embargo una
tabla de este tipo supone una concentracin de datos que produce prdida de
informacin.
DISTRIBUCIN DE FRECUENCIAS
Organizacin de datos agrupados
Definiciones
Clases o intervalos de clase: Grupo de valores que describen una caracterstica.
Deben incluir todas las observaciones y ser excluyentes. Los intervalos contienen
los lmites de clase que son los puntos extremos del intervalo. Se denominan
intervalos cerrados, cuando contienen ambos lmites e intervalos abiertos si
incluyen solo un lmite.
Limites Reales: Sirven para mantener la continuidad de las clases
Anchura o tamao del intervalo: es la diferencia entre los lmites reales de una
clase
Nmero de clases: es el nmero total de grupos en que se clasifica la informacin,
se recomienda que no sea menor que 5 ni mayor que 15
Xp = S ( xi wi) / S wi
MEDIA GEOMTRICA
til cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del
promedio de tasas, razones, proporciones geomtricas y relaciones de variables.
Se utiliza en Matemticas Financieras y Finanzas para promediar nmeros
ndices, tasas de cambio, etc.
La media Geomtrica de una serie de nmeros es la raz n-sima del producto de
esos nmeros
M = n e (x 1 * x 2 * x 3 *.....*x n )
Se ve afectada por todos los nmeros y valores extremos pero en menor grado
que la Media Aritmtica, su valor siempre es menor que el de sta.
MEDIA ARMNICA
Se utiliza para el promedio de rendimientos y velocidades. La Media Armnica de
una serie de nmeros es el reciproco de la media aritmtica del recproco de esos
nmeros.
1 / MH = [ S 1 / xi ] / n
MEDIA CUADRTICA
Es la raz cuadrada de la media aritmtica de los cuadrados de los nmeros, se
usa eficientemente para promediar los errores o desviaciones porque es ms
susceptible a los mismos.
MC = 2 e S [ xi 2 ] / n
LOS CUANTILES
Son valores que dividen a la distribucin en n partes iguales
Cuartiles, cuatro partes iguales: Q1, Q2, Q3
Deciles, diez pares iguales : D1, D2..........D9
Percentiles o centiles, cien partes iguales: P1, P2.....P99
Los cuantiles permiten hacer un anlisis minucioso de la distribucin, se utilizan
generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo.
Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc.
MEDIDAS DE DISPERSIN
convencional del 95% al 99%, por ejemplo. En el clculo del IC se asume que se
ha estudiado una muestra aleatoria de la poblacin de referencia. Al interpretarlo,
hay que tener siempre en cuenta la posibilidad de existencia de otras fuentes de
error no debidas al azar (errores sistemticos o sesgos). Si stos existen, o si la
muestra no es aleatoria, el error de la estimacin puede ser mayor que el sugerido
por la amplitud del intervalo. Tamao de la muestra En cualquier estudio, es
importante determinar a priori el nmero de sujetos que es necesario incluir,
aunque el resultado de este clculo debe considerarse como orientativo, ya que se
basa en asunciones que pueden ser incorrectas. La inclusin de un nmero
excesivo de sujetos encarece el estudio, tanto desde el punto de vista econmico
como de los recursos humanos y fsicos necesarios. Por otra parte, un estudio con
un tamao insuficiente estimar un parmetro con poca precisin. La amplitud del
IC, es decir, la precisin de la estimacin, depende del nivel de confianza utilizado,
de la variabilidad del parmetro de inters y del nmero de sujetos estudiados.
Cuanto menor sea la variabilidad del parmetro y mayor el nmero de sujetos,
mayor precisin existir en la estimacin para un nivel de confianza determinado.
Para el clculo del tamao de la muestra debe conocerse: La variabilidad del
parmetro que se desea estimar. Si no se conoce, puede obtenerse una
aproximacin a partir de datos propios o de otras investigaciones, o un estudio
piloto. En el caso de las variables cuantitativas se mide por la variancia, y en el de
las cualitativas, por el producto p-(1-p). La precisin con que se desea obtener la
estimacin, es decir, la amplitud deseada del IC. Cuanto mayor precisin se
desee, ms estrecho deber ser este intervalo, y ms sujetos debern ser
estudiados. El nivel de confianza deseado. Habitualmente se fija en el 95%. Este
valor indica el grado de confianza que se tendr de que el verdadero valor del
parmetro en la poblacin se site en el intervalo obtenido. Cuanto ms confianza
se desee, mayor ser el nmero de sujetos necesario. De estos tres elementos,
slo debe conocerse la variabilidad del parmetro, ya que tanto la precisin como
el nivel de confianza son fijados en funcin de los intereses del investigador.
Mtodos estadsticos Estimacin de una proporcin La frmula para el clculo del
nmero de sujetos necesarios para estimar una proporcin se presenta en la tabla
2. Supongamos que se desea estimar el porcentaje de pacientes ingresados en un
servicio que requieren una dieta determinada. A partir de datos previos se supone
que debe estar situado alrededor del 40% (p=0,40). Se quiere realizar la
estimacin con una precisin de 24 % (i=0,04) y una confianza del 95% (1-a
=0,95; Z =1,96). Aplicando la frmula, puede determinarse que seran necesarios
576 sujetos. Esta cifra se convierte en 9.220 cuando se desea una precisin muy
alta (i=0,01), o en tan slo 92 si se es menos exigente (i=0,1). Modificando
cualquier valor, puede obtenerse un nmero de sujetos que se aproxime al
"deseado" o al disponible. Debe evitarse esta manipulacin del clculo ya que, al
reducir el nmero de sujetos que se van a estudiar, tambin disminuye el grado de
precisin con que el parmetro va a ser estimado y aumenta la amplitud del IC. En
el clculo del tamao de la muestra debe tenerse en cuenta tambin la estrategia
de anlisis y cmo se presentarn los resultados. As, por ejemplo, si los
investigadores desean presentar el resultado en funcin del sexo, la estratificacin
har que la estimacin se haya obtenido en un nmero menor de sujetos por lo
que la precisin en cada estrato ser menor de la deseada. En algunas ocasiones
no se conoce el valor aproximado del parmetro que se est buscando. Si no
existen datos de la literatura que resulten tiles, o si no puede realizarse una
prueba piloto para obtener una primera aproximacin a dicho valor, puede
adoptarse la postura de la mxima indeterminacin, que consiste en suponer que
el porcentaje que se desea estimar se sita alrededor del 50%, ya que es el valor
que requiere una mayor cantidad de individuos para una precisin determinada.
Estimacin de una media Cuando el objetivo del estudio es estimar una media, el
clculo del nmero de sujetos necesario es similar (tabla 2), con la diferencia que
la medida de la variabilidad es la variancia de la distribucin de la variable en la
poblacin. Supongamos que desea estimar la tensin arteria1 diastlica (TAD) de
los pacientes diabticos ingresados en un servicio. Por estudios previos, se
conoce que la desviacin estndar de la TAD Tabla 2. Frmulas para el clculo del
nmero de sujetos necesarios para la realizacin de un estudio cuyo objetivo es la
estimacin de una media o una proporcin.
ESTIMACION DE UNA PROPORCION (Variable cualitativa) N = (z2-~.(1-~))/i2
ESTIMACION DE UNA MEDIA (Variable cuantitativa) N = (Z2-s2)/i2 N: Nmero de
sujetos necesarios; Z:Valor de Z correspondiente al riesgo a fijado (cuando
cr=0,05, Z=1,96); P: Valor de la proporcin que se supone existe en la poblacin;
s2:Variancia de la distribucin de la variable cuantitativa que se supone que existe
en la poblacin. i: Precisin con que se desea estimar el parmetro (2i es la
amplitud del intervalo de confianza). J. Jimnez en sujetos diabticos es de 25
mmHg (s=25 rnrnHg; s2=625 mrnHg). Se desea realizar la estimacin con una
confianza del 95% (1-a =0,95) y una precisin de 15 mmHg (i=5). Aplicando la
frmula, se puede determinar que son necesarios 96 sujetos. Correccin para
poblaciones finitas En los clculos anteriores no ha intervenido el tamao de la
poblacin, ya que se ha asumido que es infinito. Sin embargo, en muchas
ocasiones, desea obtenerse una muestra de una poblacin de tamao conocido
(finito). En esta situacin, puede aplicarse la siguiente frmula que ajusta el
nmero de sujetos necesarios en funcin del tamao de la poblacin: donde n, es
el nmero de sujetos necesarios, n es el nmero de sujetos calculado para
poblaciones infinitas y N es el tamao de la poblacin de referencia. En el ejemplo
en que se haba calculado que eran necesarios 576 sujetos para estimar el
porcentaje de pacientes ingresados que requeran una dieta, si la poblacin de
referencia fuera de 1000 sujetos, aplicando la frmula anterior podra determinarse
Supongamos que esta ciha se sita alrededor del 40% (P1=0,4). El siguiente paso
es determinar la diferencia mnima que se desea detectar, es decir, responder a la
siguiente pregunta: A partir de qu porcentaje de xitos con el nuevo tratamiento
se considerar que ste es mejor que E, y, por lo tanto, se estar dispuesto a
modificar la pauta teraputica habitual? Es decir, si el porcentaje de indiTabla 5.
Frmulas para el clculo del nmero de sujetos necesarios por grupo en un
estudio cuyo objetivo es la comparacin de dos muestras del mismo tamao.
COMPARACION
DE
DOS
PROPORCIONES
(Variable
cualitativa)
COMPARACION DE DOS MEDIAS (Variable cuantitativa) N =[2.(Za +ZP)~. s2]/d2
N: Nmero de sujetos necesarios en cada uno de los grupos; ZCL: Valor de Z
correspondiente al riesgo CL fijado (cuando a=0,05,Za=1,96 en hiptesis bilateral y
Za=1,645 en unilateral); ZB: Valor de Z correspondiente al riesgo $ fijado (cuando
$=0,20, ZB=0,842; cuando $=0,10, ZB=1,282; cuando B=0,05, ZB=1,645); P1:
Valor de la proporcin que se supone que existe en el grupo de referencia; P2.
Valor de la proporcin que se supone que existe en el grupo de estudio; P2-P1:
Valor mnimo de la diferencia que se desea detectar (variable cualitativa); P: Media
ponderada de las proporciones P1 y P2; s2: Variancia de la distribucin de la
variable cuantitativa que se supone que existe en el grupo de referencia;-d: Valor
mnimo de la diferencia que se desea detectar (variable cuantitativa). Mtodos
estadsticos viduos curados con T es del 41%, puede considerarse que esta
diferencia del 1% es un resultado lo suficientemente importante para modificar la
pauta terapetica? LO se exigir un mnimo, por ejemplo, del 50% de xitos? La
respuesta a esta pregunta depende de muchos factores, tales como la seguridad
del frmaco, la facilidad de administracin o el coste, entre otros. Supongamos
que los investigadores consideran que, si se cura el 50 % de pacientes con T
(P2=0,5), se aceptar como la eleccin terapetica. A continuacin, slo falta
determinar los niveles de riesgo de cometer algn tipo de error aleatorio que se
est dispuesto a asumir. Supongamos que se acepta el nivel de riesgo a habitual
del 5% con una hiptesis bilateral y un riesgo B del 20% (potencia: 1- P=0,80).
Aplicando la frmula puede calcularse que son necesarios 387 sujetos por grupo
de estudio. Esta cifra indica el nmero de sujetos que deben finalizar el estudio
para tener un 80% de probabilidades de detectar una diferencia igual o superior a
la fijada, con un nivel de error a del 5%. Por lo tanto, hay que incrementarlo en
funcin del nmero de prdidas de seguimiento y de abandonos que se prevea
que ocurrirn durante el estudio, aplicando la misma frmula que se ha presentado
en el caso de la estimacin de parmetros. Estimacin frente a significacin
estadstica En realidad, cuando analizan los resultados de un estudio, los
investigadores estn interesados no slo en saber si una diferencia o asociacin
es estadstiTabla 6. Clculo del intervalo de confianza (IC) de la diferencia entre
dos proporciones. IC DE LA DZFERENCiA DE DOS PROPORCIONES (*) a)
MUESTRAS INDEPENDIENTES: (PA - PB) I Z.ESD b) MUESTRAS APAREADAS
(PA - Pg) k Z.ESD PA, Pg: Proporciones observadas en las muestras A y B; nA, ng:
Nmero de sujetos de las muestras A y B; b, c: Nmero de casos que presentan
valores diferentes en ambas mediciones (series apareadas); n: Nmero total de
casos; ESD: Error estndar de la diferencia; Z : Valor de la variable normal
tipificada correspondiente al valor a, para un nivel de confianza (1-a). (*) Las
variables cualitativas no presentan una distribucin normal. Las frmulas de la
tabla corresponden a una aproximacin a la normalidad, aplicable cuando todos
los productos n.PA, n.(lmPA), n.PB y n.(l-PB) son mayores de 5. J. Jimnez Tabla
7. Clculo del intervalo de confianza (IC) de la diferencia entre dos medias. IC DE
LA DIFERENCIA DE DOS MEDIAS (*) a) MUESTRAS INDEPENDIENTES: (mA mg) I Z.ESD ESD=S -+- J.: ne b) MUESTRAS APAREADAS iiid ' Z.ESmd mA, mg:
Medias observadas en las muestras A y B; S*, sg: desviaciones estndar
observadas en las muestras A y B; nA, nB: Nmero de sujetos de las muestras A y
B; ESD: Error estndar de la diferencia; md: Media de las diferencias de las dos
mediciones en cada individuo (series apareadas); ESmd: Error estndar de la
media de las diferencias individuales; Z: Valor de la variable normal tipificada
correspondiente al valor a, para un nivel de confianza (1-a). (*) El clculo se basa
en la distribucin normal. El valor de Z para un IC del 95% es 1,96. Para muestras
de tamao inferior a 30 individuos, este valor debe sustituirse por el de la t de
Student para (n-1) grados de libertad. Asimismo, el clculo requiere que no existan
diferencias significativas entre las desviaciones estndar de ambas muestras.
camente significativa, sino tambin en determinar su magnitud. El valor observado
en el estudio es la mejor estimacin puntual de dicha magnitud. Si se repitiera el
estudio con otras muestras, podran observarse resultados de diferente magnitud.
Por tanto, hay que calcular un IC que contenga, con una determinada confianza, la
verdadera magnitud de inters. Las tablas 6 y 7 presentan las frmulas para el
clculo del IC de la diferencia entre dos proporciones y entre dos medias,
respectivamente. Cuando se utiliza como medida del efecto una diferencia, si el IC
del 95% incluye el valor 0, que es el valor correspondiente a la Ho de que no
existe diferencia entre ambos grupos, se concluir que el resultado no es
estadsticamente significativo. Si, por el contrario, el IC del 95% excluye este valor
O, se concluir que la diferencia observada es estadsticamente significativa.
Adems de saber si la diferencia es o no estadsticamente significativa, el IC
permite conocer entre qu lmites es probable que se encuentre la verdadera
diferencia, lo que es muy til en la interpretacin de los resultados. Supongamos
un estudio que compara la eficacia de dos tratamientos A y B en dos grupos de 30
pacientes. Se observa una diferencia en el porcentaje de xitos del 20% (70% 50%) a favor del tratamiento B, que no es estadsticamente significativa (p=0,12).
El IC del 95% de la diferencia entre los dos tratamientos es 0,2 I 0,24, es decir, de
4% a 44%. La verdadera magnitud de la diferencia est en un intervalo que va
desde un 4% a favor del tratamiento A hasta un 44% a favor de B. Dado que una
beginners. BMJ 1993; 306: 1181-1184. 11. Gardner MJ, Altman DG. confidence
intervals rather than p values: estimation rather than hypotesis testing. BMJ 1986;
292: 746-750. 12. Gardner MJ, Altman DG. Statistics with confidence: confidence
intervals and statistical guidelines. Londres: Bristish Medical Journal, 1989. 13.
Kelsey JL, Thompson WD, Evans A. Methods in obsewational epidemiology.
Nueva York, Oxford University Press; 1986. 14. Kleinbaum D, Kupper L,
Morgenstern H. Epidemiologic Research. Belmont, Lifetime Learning Publications
1982. 15. Marrugat J, Vila J, Pavesi M, Sanz F. Estimacin del tamao de la
muestra en la investigacin clnica y epidemiolgica. Med Clin (Barc) 1998; 111:
267-76. 16. Martn Andrs A, Luna del Castillo J de D. Bioestadstica para las
ciencias de la salud. 2" edicin. Madrid: Norma, 1989. 17. Norman GR, Streiner
DL. Bioestadstica. Madrid: MosbyIDoyma Libros, 1996; 18. Plasencia A, Porta M.
La calidad de la informacin clnica (11): significacin estadstica. Med Clin (Barc)
1988; 90: 122-126. 19. Porta M, Plasencia A, Sanz F. La calidad de la informacin
clnica (111): ~estadsticamente significativo o clnicamente importante? Med Clin
(Barc) 1988; 90: 463468. 20. Sahai H, Khurshid A. Formulae and tables for the
determination of sample sizes and power in clinical trials for testing differences in
proportions for the two-sample design: a review. Stat Med 1996; 15: 1-21. 21. Silva
Aycaguer LC. Muestreo para la investigacin en ciencias de la salud. Madrid: Daz
de Santos; 1993.