Professional Documents
Culture Documents
1 Investigar los siguientes temas: Medidas de dispersin Rango Varianza Desviacin estndar -Medidas de posicin: Cuartil Decil -Clculo de la curtosis -Anlisis de los resultados de estadstica descriptiva Realizar la descripcin de los temas, ilustrarlos y realizar los respectivos ejemplos. En hojas, a mano, sin folder. No se aceptar tareas hechas a computadora!!!. Fecha de entrega: Lunes 24 de julio de 2011 ( No se recibirn tareas fuera de esta fecha, por ningn motivo) Valoracin: 20 Pts.
HOJA DE TRABAJO No. 2 I. Dado el siguiente conjunto de datos , realizar su tabla de distribucin de frecuencias y calcula la media aritmtica, mediana y moda. 45 78 96 12 67 67 98 56 87 39 89 65 36 56 87 32 34 47 43 42 56 23 85 98 86 76 91 49 67 56 23 20 52 75 78 98 45 58 34 93 95 67 67 56 45 42 83 81 78 76
II. Dado el siguiente conjunto de datos , realizar su tabla de distribucin de frecuencias y calcula la media aritmtica, mediana y moda. 36 78 64 56 23 13 57 87 65 90
87 67 31 29
67 34 61 93
45 28 83 45
34 94 49 67
78 56 63 21
97 73 68 53
60 98 74 62
61 68 58 64
78 74 28 78
75 45 58 39
Fecha de entrega: el da del examen .. en hojas, engrapado, sin folder, ( No se recibirn tareas fuera de esta fecha, por ningn motivo) Puntuacin: 20 Pts.
Medidas de dispersin
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda Las medidas de dispersin, tambin llamadas medidas de variabilidad, muestran la variabilidad de una distribucin, indicando por medio de un nmero, si las diferentes puntuaciones de una variable estn muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser a la mediana media. As se sabe si todos los casos son parecidos o varan mucho entre ellos. Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviacin media) y otra es tomando las desviaciones al cuadrado (Varianza).
Rango estadstico
El rango o recorrido estadstico es la diferencia entre el valor mnimo y el valor mximo en un grupo de nmeros aleatorios. Se le suele simbolizar con R.
[editar] Requisitos del rango
y y
Ordenamos los nmeros segn su tamao. Restamos el valor mnimo del valor mximo
[editar] Ejemplo
Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de:
Rango = 5
EL RANGO O RECORRIDO ( R ):
Es la medida de variabilidad ms fcil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor ms alto (Xn Xmax.) y el mas bajo (X1 Xmin) en un conjunto de datos. Rango para datos no agrupados; R = Xmx.-Xmn = Xn-X1 Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 27,34 y 25., para calcular la media aritmtica (promedio de las edades, se tiene que: R = Xn-X1 ) = 34-18 = 16 aos Con datos agrupados no se saben los valores mximos y mnimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los lmites de clases. Se aproxima el rango tomando el limite superior de la ltima clase menos el limite inferior de la primera clase. Rango para datos agrupados; R= (lim. Sup. de la clase n lim. Inf. De la clase 1) Ejemplo: Si se toman los datos del ejemplo resuelto al construir la tabla de distribucin de frecuencia de las cuentas por cobrar de Cabreras y Asociados que fueron los siguientes:
Clases
P.M. Xi
fi
fr
fa
fa
fra
fra
7.420 21.835
30 20 16 11 8 5
0.33 1.00 0.46 0.67 0.63 0.54 0.73 0.37 0.83 0.27 1.00 0.17
21.835 36.250 29.043 4 36.250 50.665 43.458 5 50.665 65.080 57.873 3 65.080 79.495 72.288 3 79.495 93.910 86.703 5 Total XXX
[editar] Varianza
La varianza es una medida estadstica que mide la dispersin de los valores respecto a un valor central (media), es decir, la raz cuadrada de las desviaciones .:
[editar] Propiedades La varianza es siempre positiva o 0: Si a los datos de la distribucin les sumamos una cantidad constante la varianza no se modifica.
y y
Yi = Xi + k c
Si a los datos de la distribucin les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.
[editar] Ejemplo
Primero hemos declarado un vector con nombre X, donde introduzco los nmeros de la serie. Luego con el comando stdev se hallar la desviacin tpica.
Rango (estadstica)
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda
En estadstica descriptiva se denomina rango estadstico (R) o recorrido estadstico al intervalo de menor tamao que contiene a los datos; es calculable mediante la resta del valor mnimo al valor mximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersin de los datos. Por ejemplo, para una serie de datos de carcter cuantitativo como es la estatura tal y como:
x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155
donde la notacin x(i) indica que se trata del elemento i-simo de la serie de datos. De este modo, el rango sera la diferencia entre el valor mximo (k) y el mnimo; o, lo que es lo mismo:
R
= x(k)
x(1)
Varianza
En teora de probabilidad, la varianza (que suele representarse como 2) de una variable aleatoria es una medida de su dispersin definida como la esperanza del cuadrado de la desviacin de dicha variable respecto a su media. Est medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviacin estndar, la raz cuadrada de la varianza, es una medida de dispersin alternativa expresada en las mismas unidades. La varianza tiene como valor mnimo 0. Hay que tener en cuenta que la varianza puede verse muy influida por los valores atpicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersin ms robustas. El trmino varianza fue acuado por Ronald Fisher en un artculo de 1918 titulado The Correlation Between Relatives on the Supposition of Mendelian Inheritance.
[editar] Definicin
Dada una variable aleatoria X con media = E(X), se define su varianza, Var(X) (tambin representada como o, simplemente 2), como
Si una distribucin no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su ndice k satisface 1 < k 2.
[editar] Caso continuo
donde
p1, ..., xn
pn, entonces
donde
[editar] Ejemplos
[editar] Distribucin exponencial
Tiene media
Es decir,
Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6. El valor esperado es (1+2+3+4+5+6)/6 = 3.5. Por lo tanto, su varianza es:
e Y.
y
e Y.
siendo a y b nmeros reales cualesquiera. De esta propiedad se , donde Cov(X,Y) es la covarianza de X , donde Cov(X,Y) es la covarianza de X
A los dos (cuando est dividido por n y cuando lo est por n-1) se los denomina varianza muestral. Difieren ligeramente y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la poblacin y el segundo es un estimador insesgado de la varianza de la poblacin. De hecho,
mientras que
Como consecuencia de la igualdad , s2 es un estadstico insesgado de 2. Adems, si se cumplen las condiciones necesarias para la ley de los grandes nmeros, s2 es un estimador consistente de 2. Ms an, cuando las muestras siguen una distribucin normal, por el teorema de Cochran, s2 tiene la distribucin chi-cuadrado:
1. INTRODUCCIN 2. CUANTILES Los cuantiles son medidas de posicin que se determinan mediante un mtodo que determina la ubicacin de los valores que dividen un conjunto de observaciones en partes iguales. Los cuantiles son los valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo nmero de valores. Cuando la distribucin contiene un nmero alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribucin en cuatro, en diez o en cien partes. Los ms usados son los cuartiles, cuando dividen la distribucin en cuatro partes; los deciles, cuando dividen la distribucin en diez partes y los centiles o percentiles, cuando dividen la distribucin en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensin de la mediana. Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):
u 0.5 0.25, 0.75 0.1, ... , 0.99 0.01, ..., 0.99 Q(u) Mediana Cuartiles Deciles Centiles
CUARTILES Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores
de la sucesin (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. Datos Agrupados
Como los cuartiles adquieren su mayor importancia cuando contamos un nmero grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La frmula para el clculo de los cuartiles cuando se trata de datos agrupados es la siguiente: k= 1,2,3 Donde: Lk = Lmite real inferior de la clase del cuartil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k. fk = Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Si se desea calcular cada cuartil individualmente, mediante otra frmula se tiene lo siguiente:
y
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.
Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase
y
El segundo cuartil Q2, (coincide, es idntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores.
Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase
y
El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.
Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil. Para Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas: - El primer cuartil: Cuando n es par:
Cuando n es impar:
Cuando n es par:
Cuando n es impar:
DECILES Los deciles son ciertos nmeros que dividen la sucesin de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tambin un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento acadmico. Datos Agrupados Para datos agrupados los deciles se calculan mediante la frmula.
k= 1,2,3,... 9 Donde: Lk = Lmite real inferior de la clase del decil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k. fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra frmula para calcular los deciles:
y
El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.
Donde (para todos): L1 = limite inferior de la clase que lo contiene P = valor que representa la posicin de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Frmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas:
Cuando n es par:
Cuando n es impar: Siendo A el nmero del decil. CENTILES O PERCENTILES Los percentiles son, tal vez, las medidas ms utilizadas para propsitos de ubicacin o clasificacin de las personas cuando atienden caractersticas tales como peso, estatura, etc. Los percentiles son ciertos nmeros que dividen la sucesin de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), ledos primer percentil,..., percentil 99. Datos Agrupados Cuando los datos estn agrupados en una tabla de frecuencias, se calculan mediante la frmula:
k= 1,2,3,... 99 Donde: Lk = Lmite real inferior de la clase del decil k n = Nmero de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra forma para calcular los percentiles es:
y
Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.
El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.
Frmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes frmulas: Para los percentiles, cuando n es par:
Cuando n es impar: Siendo A, el nmero del percentil. Es fcil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75. 3. EJEMPLO Determinacin del primer cuartil, el sptimo decil y el 30 percentil, de la siguiente tabla:
Salarios No. De fa
85 90 120 70 62 36
Siendo,
El 7 decil:
Posicin:
El percentil 30 Posicin:
138.9 85 = 53.9 fi = 90
Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados.
Desviacin estndar
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda
La desviacin estndar o desviacin tpica ( ) es una medida de centralizacin o dispersin para variables de razn (ratio o cociente) y de intervalo, de gran utilidad en la estadstica descriptiva. Se define como la raz cuadrada de la varianza. Junto con este valor, la desviacin tpica es una medida (cuadrtica) que informa de la media de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades que la variable. Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer tambin la desviacin que representan los datos en su distribucin respecto de la media aritmtica de dicha distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.
[editar] Formulacin
La varianza representa la media aritmtica de las desviaciones con respecto a la media que son elevadas al cuadrado.
Si atendemos a la coleccin completa de datos (la poblacin en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atencin slo a una muestra de la poblacin, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuacin. Expresin de la varianza muestral:
demostracin
y como
obtenemos
donde
El trmino desviacin estndar fue incorporado a la estadstica por Karl Pearson en 1894. Por la formulacin de la varianza podemos pasar a obtener la desviacin estndar, tomando la raz cuadrada positiva de la varianza. As, si efectuamos la raz de la varianza muestral, obtenemos la desviacin tpica muestral; y si por el contrario, efectuamos la raz sobre la varianza poblacional, obtendremos la desviacin tpica poblacional.
con a como y s como adems se puede tener una mejor tendencia de medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la media, mediana y moda
[editar] Desglose
La desviacin estndar (DS/DE), tambin llamada desviacin tpica, es una medida de dispersin usada en estadstica que nos dice cunto tienden a alejarse los valores concretos del promedio en una distribucin. De hecho, especficamente, la desviacin estndar es "el promedio de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, . La desviacin estndar de un conjunto de datos es una medida de cunto se desvan los datos de su media. Esta medida es ms estable que el recorrido y toma en consideracin el valor de cada dato. Es posible calcular la desviacin estndar de una variable aleatoria continua como la raz cuadrada de la integral
donde
As la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin. Aunque esta frmula es correcta, en la prctica interesa realizar inferencias poblacionales, por lo que en el denominador en vez de n, se usa n-1 (Correccin de Bessel)
Tambin hay otra funcin ms sencilla de realizar y con menos riesgo de tener equivocaciones :
[editar] Ejemplo
Aqu se muestra cmo calcular la desviacin estndar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de nios. { 4, 1, 11, 13, 2, 7 } 1. Calcular el promedio o media aritmtica .
Sustituyendo N por 6
Este es el promedio.
Sustituyendo N - 1 por 5; ( 6 - 1 )
Sustituyendo
por 6,33
Estadstica
De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda Para anlisis, datos y grficas sobre Wikipedia, vase Wikipedia:Estadsticas.
La estadstica es una ciencia que estudia la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo estadstica es ms que eso, en otras palabras es el vehculo que permite llevar a cabo el proceso relacionado con la investigacin cientfica.
Distribucin normal.
Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en reas de negocios o instituciones gubernamentales. La estadstica se divide en dos grandes reas:
y
La estadstica descriptiva, se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen de datos originados a partir de los fenmenos de estudio. Los datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos de parmetros estadsticos son: la media y la desviacin estndar. Algunos ejemplos grficos son: histograma, pirmide poblacional, clsters, entre otros. La estadstica inferencial, se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Otras tcnicas de modelamiento incluyen anova, series de tiempo y minera de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una disciplina llamada estadstica matemtica, a la que se refiere a las bases tericas de la materia. La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, entre otros.
[editar] Historia
[editar] Origen
El trmino alemn statistik, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el anlisis de datos del Estado, es decir, la "ciencia del Estado" (tambin llamada aritmtica poltica de su traduccin directa del ingls). No fue hasta el siglo XIX cuando el trmino estadstica adquiri el significado de recolectar y clasificar datos. Este concepto fue introducido por el ingls Sir John Sinclair (1754-1835). En su origen, por tanto, la Estadstica estuvo asociada a los Estados, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La coleccin de datos acerca de estados y localidades contina ampliamente a travs de los servicios de estadstica nacionales e internacionales. En particular, los censos suministran informacin regular acerca de la poblacin. Ya se utilizaban representaciones grficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el nmero de personas, animales o ciertas mercancas. Hacia el ao 3000 a. C. los babilonios usaban ya pequeos envases moldeados de arcilla para recopilar datos sobre la produccin agrcola y de los gneros vendidos o cambiados. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de construir las pirmides en el siglo XI a. C. Los libros bblicos de Nmeros y Crnicas incluyen en algunas partes trabajos de estadstica. El primero contiene dos censos de la poblacin de Israel y el segundo describe el
bienestar material de las diversas tribus judas. En China existan registros numricos similares con anterioridad al ao 2000 a. C. Los antiguos griegos realizaban censos cuya informacin se utilizaba hacia el 594 a. C. para cobrar impuestos.
[editar] Orgenes en probabilidad
Los mtodos estadstico-matemticos emergieron desde la teora de probabilidad, la cual data desde la correspondencia entre Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento cientfico que se conoce a la materia. El Ars coniectandi (pstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre estudiaron la materia como una rama de las matemticas.1 En la era moderna, el trabajo de Kolmogrov ha sido un pilar en la formulacin del modelo fundamental de la Teora de Probabilidades, el cual es usado a travs de la estadstica. La teora de errores se puede remontar a la pera miscellnea (pstuma, 1722) de Roger Cotes y al trabajo preparado por Thomas Simpson en 1755 (impreso en 1756) el cual aplica por primera vez la teora de la discusin de errores de observacin. La reimpresin (1757) de este trabajo incluye el axioma de que errores positivos y negativos son igualmente probables y que hay unos ciertos lmites asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad. Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinacin de observaciones desde los principios de la teora de probabilidades. Laplace represent la Ley de probabilidades de errores mediante una curva y dedujo una frmula para la media de tres observaciones. Tambin, en 1871, obtiene la frmula para la ley de facilidad del error (trmino introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del mximo producto de las probabilidades de un sistema de errores concurrentes.
Fotografa de Ceres por el telescopio espacial Hubble. La posicin fue estimada por Gauss mediante el mtodo de mnimos cuadrados.
El mtodo de mnimos cuadrados, el cual fue usado para minimizar los errores en mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss haba usado el mtodo en su famosa prediccin de la localizacin del planeta enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La frmula de Peters para r, el probable error de una observacin simple es bien conocido. El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la presentacin de la teora. Adolphe Quetelet (1796-1874), fue otro importante fundador de la estadstica y quien introdujo la nocin del hombre promedio (lhomme moyen) como un medio de entender los fenmenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de suicidios.
[editar] Estado actual
Durante el siglo XX, la creacin de instrumentos precisos para asuntos de salud pblica (epidemiologa, bioestadstica, etc.) y propsitos econmicos y sociales (tasa de desempleo, econometra, etc.) necesit de avances sustanciales en las prcticas estadsticas. Hoy el uso de la estadstica se ha extendido ms all de sus orgenes como un servicio al Estado o al gobierno. Personas y organizaciones usan la estadstica para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras reas. La estadstica es entendida generalmente no como un sub-rea de las matemticas sino como una ciencia diferente aliada. Muchas universidades tienen departamentos acadmicos de matemticas y estadstica separadamente. La estadstica se ensea en departamentos tan diversos como psicologa, educacin y salud pblica.
Al aplicar la estadstica a un problema cientfico, industrial o social, se comienza con un proceso o poblacin a ser estudiado. Esta puede ser la poblacin de un pas, de granos cristalizados en una
roca o de bienes manufacturados por una fbrica en particular durante un periodo dado. Tambin podra ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo. Por razones prcticas, en lugar de compilar datos de una poblacin entera, usualmente se estudia un subconjunto seleccionado de la poblacin, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadsticamente lo cual sigue dos propsitos: descripcin e inferencia. El concepto de correlacin es particularmente valioso. Anlisis estadsticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la poblacin bajo consideracin) tienden a variar conjuntamente, como si hubiera una conexin entre ellas. Por ejemplo, un estudio del ingreso anual y la edad de muerte podra resultar en que personas pobres tienden a tener vidas ms cortas que personas de mayor ingreso. Las dos variables se dicen que estn correlacionadas. Sin embargo, no se puede inferir inmediatamente la existencia de una relacin de causalidad entre las dos variables. El fenmeno correlacionado podra ser la causa de una tercera, previamente no considerada, llamada variable confusora. Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la poblacin completa. Un problema mayor es el de determinar que tan representativa es la muestra extrada. La estadstica ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recoleccin de los datos, as como mtodos para disear experimentos robustos como primera medida, ver diseo experimental. El concepto matemtico fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadstica matemtica (tambin llamada teora estadstica) es la rama de las matemticas aplicadas que usa la teora de probabilidades y el anlisis matemtico para examinar las bases tericas de la estadstica. El uso de cualquier mtodo estadstico es vlido solo cuando el sistema o poblacin bajo consideracin satisface los supuestos matemticos del mtodo. El mal uso de la estadstica puede producir serios errores en la descripcin e interpretacin, afectando las polticas sociales, la prctica mdica y la calidad de estructuras tales como puentes y plantas de reaccin nuclear. Incluso cuando la estadstica es correctamente aplicada, los resultados pueden ser difcilmente interpretados por un inexperto. Por ejemplo, el significado estadstico de una tendencia en los datos, que mide el grado al cual la tendencia puede ser causada por una variacin aleatoria en la muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades estadsticas bsicas (y el escepticismo) que una persona necesita para manejar informacin en el da a da se refiere como cultura estadstica.
Un objetivo comn para un proyecto de investigacin estadstica es investigar la causalidad, y en particular extraer una conclusin en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes tipos de estudios estadsticos para estudiar causalidad: estudios experimentales y observacionales. En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy efectivo. Un estudio experimental implica tomar mediciones del sistema bajo estudio, manipular el sistema y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la manipulacin ha modificado los valores de las mediciones. En contraste, un estudio observacional no necesita manipulacin experimental. Por el contrario, los datos son recogidos y las correlaciones entre predictores y la respuesta son investigadas. Un ejemplo de un estudio experimental es el famoso experimento de Hawthorne el cual pretenda probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric Company. Los investigadores estaban interesados en si al incrementar la iluminacin en un ambiente de trabajo, la produccin de los trabajadores aumentaba. Los investigadores primero midieron la productividad de la planta y luego modificaron la iluminacin en un rea de la planta para ver si cambios en la iluminacin afectaran la productividad. La productividad mejor bajo todas las condiciones experimentales. Sin embargo, el estudio fue muy criticado por errores en los procedimientos experimentales, especficamente la falta de un grupo control y seguimiento. Un ejemplo de un estudio observacional es un estudio que explora la correlacin entre fumar y el cncer de pulmn. Este tipo de estudio normalmente usa una encuesta para recoger observaciones acerca del rea de inters y luego produce un anlisis estadstico. En este caso, los investigadores recogeran observaciones de fumadores y no fumadores y luego miraran los casos de cncer de pulmn en ambos grupos. Los pasos bsicos para un experimento son:
y
Planeamiento estadstico de la investigacin, lo cual incluye encontrar fuentes de informacin, seleccin de material disponible en el rea y consideraciones ticas para la investigacin y el mtodo propuesto. Se plantea un problema de estudio, Disear el experimento concentrndose en el modelo y la interaccin entre variables independientes y dependientes. Se realiza un muestreo consistente en la recoleccin de datos referentes al fenmeno o variable que deseamos estudiar. Se propone un modelo de probabilidad, cuyos parmetros se estiman mediante estadsticos a partir de los datos de muestreo. Sin embargo, se mantiene lo que se denominan hiptesis sostenidas (que no son sometidas a comprobacin). Se valida el modelo comparndolo con lo que sucede en la realidad. Se utiliza mtodos estadsticos conocidos como test de hiptesis o prueba de significacin. Se producen estadsticas descriptivas.
y y
Inferencia estadstica. Se llega a un consenso acerca de qu dicen las observaciones acerca del mundo que observamos. Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos futuros. Se produce un reporte final con los resultados del estudio.
Hay cuatro tipos de mediciones o escalas de medicin en estadstica. Los cuatro tipos de niveles de medicin (nominal, ordinal, intervalo y razn) tienen diferentes grados de uso en la investigacin estadstica. Las medidas de razn, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en mtodos estadsticos que pueden ser usados para analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningn rango interpretable entre sus valores. La escala de medida nominal, puede considerarse la escala de nivel ms bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de orden de los nmeros. La escala de intervalos iguales est caracterizada por una unidad de medida comn y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta escala, adems de poseer las caractersticas de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o Razones es el nivel de medida ms elevado y se diferencia de las escalas de intervalos iguales nicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los nmeros asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.
[editar] Tcnicas de anlisis estadstico
pequeas diferencias en estudios grandes. Una diferencia que es altamente significativa puede ser de ninguna significancia prctica.
Vase tambin crticas de prueba de hiptesis y controversia de la hiptesis nula.
En los campos de la psicologa y la medicina, especialmente con respecto a la aprobacin de nuevos medicamentos por la Food and Drug Administration, crticas de la aproximacin de prueba de hiptesis se han incrementado en los aos recientes. Una respuesta ha sido un gran nfasis en el p-valor en vez de simplemente reportar si la hiptesis fue rechazada al nivel de significancia dado. De nuevo, sin embargo, esto resume la evidencia para un efecto pero no el tamao del efecto. Una posibilidad es reportar intervalos de confianza, puesto que estos indican el tamao del efecto y la incertidumbre. Esto ayuda a interpretar los resultados, como el intervalo de confianza para un dado indicando simultneamente la significancia estadstica y el efecto de tamao. El p valor y los intervalos de confianza son basados en los mismos clculos fundamentales como aquellos para las correspondientes pruebas de hiptesis. Los resultados son presentados en un formato ms detallado, en lugar del si-o-no de las pruebas de hiptesis y con la misma metodologa estadstica. Otro tipo de aproximacin es el uso de mtodos bayesianos. Esta aproximacin ha sido, sin embargo, tambin criticada. El fuerte deseo de que los medicamentos buenos sean aprobados y que los medicamentos peligrosos o de poco uso sean rechazados crea tensiones y conflictos (errores tipo I y II en el lenguaje de pruebas de hiptesis).
y