You are on page 1of 549

Teora de la Probabilidad e Inferencia

Estadstica: Modelizacin Economtrica con


Datos Observacionales
Aris Spanos
Traduccin: Versin: Semestre 2012-2
Michel Rojas Romero
Facultad de Ciencias. UNAM
Facultad de Economa. UNAM
2
Contenido
0.1 A quin se dirige y caractersticas distintivas . . . . . . . . . . 11
1 1 Una introduccin a la modelizacin emprica 13
1.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.1 Una vista panormica del captulo . . . . . . . . . . . . 15
1.2 Fenmenos estocsticos, una vista preliminar . . . . . . . . . . 15
1.3 Regularidad aleatoria y modelos estadsticos . . . . . . . . . . 28
1.3.1 Suciencia estadstica . . . . . . . . . . . . . . . . . . . 34
1.4 Estadstica frente a teora de la informacin * . . . . . . . . . 37
1.5 Datos observados . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.5.1 Los primeros datos . . . . . . . . . . . . . . . . . . . . 39
1.5.2 Datos econmicos . . . . . . . . . . . . . . . . . . . . . 40
1.5.3 Datos observados y naturaleza de un modelo estadstico 41
1.5.4 Escalas de medicin . . . . . . . . . . . . . . . . . . . . 44
1.5.5 Seccin transversal contra series de tiempo, es ste el
problema? . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.5.6 Limitaciones de los datos econmicos . . . . . . . . . . 50
1.6 Mirando hacia adelante . . . . . . . . . . . . . . . . . . . . . . 52
1.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2 Teora de probabilidad: un marco de referencia para la mod-
elacin 55
2.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.1 Objetivo principal . . . . . . . . . . . . . . . . . . . . . 55
2.2 Modelo estadstico simple: una visin informal . . . . . . . . . 55
2.2.1 La estructura bsica de un modelo estadstico simple . 55
2.2.2 El concepto de variable aleatoria: visin informal . . . 56
2.2.3 Funciones de densidad paramtricas . . . . . . . . . . . 58
2.2.4 Muestra aleatoria: preliminares . . . . . . . . . . . . . 59
3
4 CONTENIDO
2.3 Teora de la probabilidad: una introduccin . . . . . . . . . . . 60
2.4 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . 60
2.4.1 Experimento aleatorio . . . . . . . . . . . . . . . . . . 61
2.5 Formalizacion de [a] . . . . . . . . . . . . . . . . . . . . . . . . 62
2.6 Formalizacion de [b] . . . . . . . . . . . . . . . . . . . . . . . 62
2.6.1 Espacio de eventos . . . . . . . . . . . . . . . . . . . . 64
2.6.2 Nocin matemtica de probabilidad . . . . . . . . . . . 70
2.6.3 Espacio de probabilidad [o. . P(.)] . . . . . . . . . . . 74
2.6.4 Deduccin matemtica . . . . . . . . . . . . . . . . . . 74
2.7 Formalizacin de la condicin [c]: pruebas aleatorias . . . . . . 77
2.7.1 Probabilidad condicional e independencia . . . . . . . . 78
2.8 Espacio estadstico . . . . . . . . . . . . . . . . . . . . . . . . 79
3 El concepto de modelo de probabilidad 81
3.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 81
3.1.2 Porqu nos interesa? . . . . . . . . . . . . . . . . . . . 82
3.1.3 Una vista panormica del captulo . . . . . . . . . . . . 82
3.2 El concepto de variable aleatoria simple . . . . . . . . . . . . . 83
3.2.1 Conjunto nito de resultados: o = :
1
. :
2
. .... :
a
. . . 84
3.2.2 Conjunto contable de resultados: o =:
1
. :
2
. .... :
a
. ... 91
3.3 El concepto general de variable aleatoria . . . . . . . . . . . . 93
3.3.1 Conjunto no contable de resultados . . . . . . . . . . . 93
3.4 La distribucin acumulada y funciones de densidad . . . . . . 97
3.4.1 La funcin de distribucin acumulada . . . . . . . . . . 97
3.4.2 La funcin de densidad . . . . . . . . . . . . . . . . . . 99
3.5 De un espacio de probabilidad a un modelo de probabilidad . 109
3.6 Parmetros y momentos . . . . . . . . . . . . . . . . . . . . . 117
3.6.1 Porqu nos interesa? . . . . . . . . . . . . . . . . . . . 117
3.6.2 Caractersticas numricas . . . . . . . . . . . . . . . . 118
3.7 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.7.1 Momentos crudos de orden superior . . . . . . . . . . . 123
3.7.2 Funcin generatriz de momentos . . . . . . . . . . . . . 124
3.7.3 El problema de los momentos
+
. . . . . . . . . . . . . . 129
3.7.4 Momentos centrales superiores . . . . . . . . . . . . . . 132
3.7.5 Otras caractersticas numricas . . . . . . . . . . . . . 142
3.8 Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
CONTENIDO 5
3.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4 El concepto de muestra aleatoria 157
4.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.1.1 Objetivo principal de este captulo . . . . . . . . . . . 157
4.1.2 La historia hasta ahora . . . . . . . . . . . . . . . . . . 158
4.1.3 De pruebas aleatorias a una muestra aleatoria: a primer
punto de vista . . . . . . . . . . . . . . . . . . . . . . . 158
4.1.4 Una vista panormica del captulo . . . . . . . . . . . . 159
4.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . 160
4.2.1 Variables aleatorias discretas . . . . . . . . . . . . . . . 160
4.2.2 Variables aleatorias continuas . . . . . . . . . . . . . . 163
4.2.3 Momentos conjuntos . . . . . . . . . . . . . . . . . . . 167
4.2.4 El caso de n variables aleatorias . . . . . . . . . . . . . 169
4.3 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 171
4.4 Distribuciones condicionales . . . . . . . . . . . . . . . . . . . 175
4.4.1 Probabilidad condicional . . . . . . . . . . . . . . . . . 175
4.4.2 Funciones de densidad condicional . . . . . . . . . . . . 176
4.4.3 Variables aleatorias discretas/continuas . . . . . . . . . 180
4.4.4 Momentos codicionales . . . . . . . . . . . . . . . . . . 181
4.4.5 Una digresin: otras formas de condicionalidad . . . . 183
4.4.6 Marginalizacin frente a condicionalidad . . . . . . . . 185
4.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
4.5.1 El caso de dos variables aleatorias . . . . . . . . . . . . 188
4.5.2 Independencia en el caso de n variables . . . . . . . . . 190
4.6 Distribuciones idnticas . . . . . . . . . . . . . . . . . . . . . . 193
4.6.1 Una muestra aleatoria . . . . . . . . . . . . . . . . . . 196
4.6.2 Un modelo estadstico simple: concluyendo las trans-
formaciones . . . . . . . . . . . . . . . . . . . . . . . . 197
4.7 Un modelo estadstico simple en la modelizacin emprica: una
visin preliminar . . . . . . . . . . . . . . . . . . . . . . . . . 198
4.7.1 Modelo de probabilidad . . . . . . . . . . . . . . . . . 199
4.7.2 Identicabilidad y parametrizaciones . . . . . . . . . . 200
4.7.3 Importantes familias de distribuciones paramtricas . . 202
4.7.4 Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . 206
4.8 Muestras aleatorias ordenadas* . . . . . . . . . . . . . . . . . 207
4.8.1 Distribuciones marginales . . . . . . . . . . . . . . . . 207
4.8.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . 209
6 CONTENIDO
4.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
4.9.1 Qu sigue? . . . . . . . . . . . . . . . . . . . . . . . . 210
4.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
5 El concepto de muestra no aleatoria 213
5.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
5.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 213
5.1.2 Extendiendo un modelo estadstico simple . . . . . . . 215
5.1.3 Introduciendo una taxonoma fundamental . . . . . . . 216
5.2 Muestra no aleatoria: una visin preliminar . . . . . . . . . . 217
5.2.1 Condicionalidad secuencial . . . . . . . . . . . . . . . . 220
5.2.2 Manteniendo un ojo en el bosque! . . . . . . . . . . . 223
5.2.3 Modelos estadsticos ms all del simple: un punto de
vista preliminar . . . . . . . . . . . . . . . . . . . . . . 224
5.3 Dependencia entre dos variables aleatorias: distribucin con-
junta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
5.4 Dependencia entre dos variables aleatorias: momentos . . . . . 230
5.4.1 Momentos conjuntos y dependencia . . . . . . . . . . . 230
5.5 Momentos condicionales y dependencia . . . . . . . . . . . . . 237
5.5.1 Independencia condicional . . . . . . . . . . . . . . . . 240
5.6 Dependencia y sistema de medida . . . . . . . . . . . . . . . . 244
5.6.1 Escalas de medida y dependencia . . . . . . . . . . . . 244
5.6.2 Dependencia para las variables categricas . . . . . . . 246
5.6.3 Dependencia entre variables nominales . . . . . . . . . 250
5.6.4 La distribucin de Bernoulli . . . . . . . . . . . . . . . 252
5.6.5 Dependencia en variables aleatorias mezcladas (disc-
retas / continuas) . . . . . . . . . . . . . . . . . . . . . 254
5.7 Distribuciones conjuntas y dependencia . . . . . . . . . . . . . 255
5.7.1 Dependencia y la distribucin normal . . . . . . . . . . 259
5.7.2 Dependencia y la familia elpticamente simtrica . . . . 263
5.7.3 Dependencia y las distribuciones sesgadas . . . . . . . 268
5.8 De los conceptos probabilsticos a los datos observados . . . . 275
5.8.1 Generacin de nmeros pseudo aleatorios* . . . . . . . 275
5.8.2 Una representacin grca: el diagrama de dispersin . 283
5.9 Qu sigue? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
5.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
CONTENIDO 7
6 Regresin y conceptos relacionados 303
6.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
6.2 Condicionalidad y regresin . . . . . . . . . . . . . . . . . . . 306
6.2.1 Reduccin y funciones condicionales momento . . . . . 306
6.2.2 Regresin y funciones cedsticas . . . . . . . . . . . . . 309
6.2.3 Funciones clticas y crticas . . . . . . . . . . . . . . . 325
6.3 Reduccin y condicionalidad estocstica . . . . . . . . . . . . 327
6.3.1 Signicado de 1 (1
v
[o (A)) . . . . . . . . . . . . . . . 328
6.3.2 Determinando /
v
(A) = 1 (1
v
[o (A)) . . . . . . . . . . 335
6.3.3 Propiedades de la esperanza condicional estocstica . . 336
6.4 Exogeneidad dbil
+
. . . . . . . . . . . . . . . . . . . . . . . . 341
6.5 El concepto de mecanismo generador estadstico (MG) . . . . 344
6.5.1 El ngulo de visin de la teora . . . . . . . . . . . . . 344
6.5.2 El concepto de conjunto de informacin condicional . . 346
6.5.3 Descomposiciones ortogonales del MG estadstico . . . 346
6.5.4 El ngulo de visin estadstico . . . . . . . . . . . . . . 352
6.5.5 Razn de dependencia* . . . . . . . . . . . . . . . . . . 354
6.6 La tradicin biomtrica en estadstica . . . . . . . . . . . . . . 356
6.6.1 Galton . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
6.6.2 Karl Pearson . . . . . . . . . . . . . . . . . . . . . . . 363
6.6.3 Revisando la estrategia de modelacin de Pearson . . . 368
6.6.4 Kernel suavizado y regresin . . . . . . . . . . . . . . . 375
6.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
6.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
7 Procesos estocsticos 381
7.1 introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
7.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 381
7.1.2 Variables aleatorias y ordenamiento . . . . . . . . . . . 384
7.1.3 Una vista panormica del captulo . . . . . . . . . . . . 384
7.2 El concepto de proceso estocstico . . . . . . . . . . . . . . . . 386
7.2.1 Denicin de un proceso estocstico . . . . . . . . . . 386
7.2.2 Clasicacin de los procesos estocsticos . . . . . . . . 390
7.2.3 Especicacin de un proceso estocstico . . . . . . . . 392
7.3 Procesos estocsticos: una visin preliminar . . . . . . . . . . 394
7.3.1 El movimiento browniano y los fundamentos de la prob-
abilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 395
7.3.2 Sumas parciales y procesos estocsticos asociados . . . 397
8 CONTENIDO
7.3.3 Proceso Gaussiano . . . . . . . . . . . . . . . . . . . . 406
7.4 Restricciones de dependencia . . . . . . . . . . . . . . . . . . . 407
7.4.1 Conceptos basados en distribucin . . . . . . . . . . . . 407
8 Estimacin I: Propiedades de los estimadores 411
8.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
8.1.1 Vista panormica del captulo . . . . . . . . . . . . . . 412
8.2 La denicin de un estimador . . . . . . . . . . . . . . . . . . 412
8.3 Propiedades de muestra nita . . . . . . . . . . . . . . . . . . 417
8.3.1 Motivacin: el estimador ideal . . . . . . . . . . . . . . 417
8.4 Propiedades asintticas . . . . . . . . . . . . . . . . . . . . . . 430
8.4.1 Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 430
8.4.2 Consistencia fuerte . . . . . . . . . . . . . . . . . . . . 433
8.4.3 Normalidad asinttica . . . . . . . . . . . . . . . . . . 434
8.4.4 Eciencia asinttica . . . . . . . . . . . . . . . . . . . . 435
8.4.5 Distribuciones muestrales y propiedades de los esti-
madores . . . . . . . . . . . . . . . . . . . . . . . . . . 436
8.5 El modelo Normal simple . . . . . . . . . . . . . . . . . . . . . 438
8.5.1 La distribucin muestral de la media de la muestra . . 438
8.5.2 La distribucin muestral de la varianza de la muestra . 441
8.5.3 Reduciendo el sesgo: estimadores navaja (jackknife es-
timators) . . . . . . . . . . . . . . . . . . . . . . . . . 446
8.6 Estadsticos sucientes y estimadores ptimos * . . . . . . . . 449
8.6.1 Suciencia . . . . . . . . . . . . . . . . . . . . . . . . . 449
8.6.2 Suciencia e insesgamiento . . . . . . . . . . . . . . . . 453
8.6.3 Suciencia mnima . . . . . . . . . . . . . . . . . . . . 454
8.6.4 Completitud . . . . . . . . . . . . . . . . . . . . . . . . 456
8.6.5 Exponencial de la familia de distribuciones . . . . . . . 459
8.7 Qu viene a continuacin? . . . . . . . . . . . . . . . . . . . 459
8.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
9 Estimacin II: mtodos de estimacin 463
9.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
9.1.1 Una vista panormica del captulo . . . . . . . . . . . . 464
9.1.2 Mtodos de estimacin: una visin preliminar . . . . . 464
9.2 Principio de momentos coincidentes . . . . . . . . . . . . . . . 465
9.2.1 Momentos muestrales y sus propiedades . . . . . . . . 470
9.2.2 Funciones de los momentos de la muestra . . . . . . . . 477
CONTENIDO 9
9.3 El mtodo de mnimos cuadrados . . . . . . . . . . . . . . . . 478
9.3.1 El principio de mnimos cuadrados . . . . . . . . . . . 478
9.3.2 Teorema de Gauss-Markov. . . . . . . . . . . . . . . . 481
9.3.3 El mtodo estadstico de mnimos cuadrados . . . . . . 483
9.3.4 Propiedades de estimadores de mnimos cuadrados . . . 486
9.4 El mtodo de momentos . . . . . . . . . . . . . . . . . . . . . 487
9.4.1 Mtodo de momentos de Pearson . . . . . . . . . . . . 488
9.4.2 El mtodo paramtrico de momentos . . . . . . . . . . 491
9.4.3 Propiedades de los estimadores MPM . . . . . . . . . . 494
9.5 El mtodo de mxima verosimilitud . . . . . . . . . . . . . . . 495
9.5.1 La funcin de verosimilitud . . . . . . . . . . . . . . . 495
9.5.2 Estimadores de mxima verosimilitud . . . . . . . . . . 497
9.5.3 Caso multiparmetros . . . . . . . . . . . . . . . . . . 501
9.5.4 Propiedades de los EMV . . . . . . . . . . . . . . . . . 509
9.5.5 El mtodo de mxima verosimilitud y sus crticos . . . 520
9.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
10 Prueba de hiptesis 525
10.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525
10.1.1 Las dicultades inherentes en el dominio de las pruebas
de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . 525
10.1.2 Una vista panormica del captulo . . . . . . . . . . . . 526
10.2 Preliminares al enfoque de Fisher . . . . . . . . . . . . . . . . 527
10.2.1 Edgeworth . . . . . . . . . . . . . . . . . . . . . . . . . 527
10.2.2 Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 529
10.2.3 Gosset . . . . . . . . . . . . . . . . . . . . . . . . . . . 532
10.2.4 La formulacin de Fisher . . . . . . . . . . . . . . . . . 534
10.2.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . 538
10.3 El marco de referencia de Neyman-Pearson . . . . . . . . . . . 540
10.3.1 Etapa I - El concepto de hiptesis alternativa . . . . . 541
10.3.2 Etapa II - La regin de rechazo . . . . . . . . . . . . . 543
10.3.3 Etapa III - Los dos tipos de errores . . . . . . . . . . . 545
10.3.4 Etapa IV - Construccin de pruebas ptimas . . . . . . 549
10 CONTENIDO
Esta es una traduccin de los captulos del libro de Spanos (1999) prop-
uestos para el curso de Estadstica del campo de Economa Aplicada del Pos-
grado en Economa de la UNAM. Es el resultado de mis exposiciones y res-
olucin de problemas en el taller de Estadstica y estuvo destinado a los estu-
diantes que cursaron esta asignatura en el semestre 2013-1. Gracias a cada
uno de ellos por sus valiosas observaciones al contenido de este documento.
Actualmente estoy traduciendo las partes restantes del libro. En cuanto
concluya la traduccin del libro completo, la pondr a disposicin del pos-
grado.
Errores en esta versin de la traduccin son, desde luego, mi responsabil-
idad y tratar de corregirlos en versiones siguientes.
Teora de la probabilidad e Inferencia Estadstica
Este importante nuevo libro de texto de un econometrista distinguido
est dirigido a estudiantes que toman cursos de introduccin a la teora de la
probabilidad y a la inferencia estadstica. Ningn conocimiento previo que
no sea un conocimiento bsico de estadstica descriptiva se presupone.
El objetivo principal de este libro es establecer el marco de referencia
para la modelizacin emprica de datos observacionales (no experimentales).
Este marco se ha formulado con el n de acomodar las peculiaridades de
los datos observacionales (no experimentales) de una manera unicadores y
lgica coherente. Teora de la Probabilidad e Inferencia Estadstica diere
de los libros de texto tradicionales en la medida en que hace hincapi en
los conceptos, ideas, nociones y procedimientos que son apropiados para la
modelizacin de datos observacionales. Se hace especial nfasis en relacionar
conceptos probabilsticos a los patrones de regularidad aleatoria exhibidos
por los datos observados.
Dirigido principalmente a estudiantes de segundo ao de nivel universi-
tario y ms all del estudio de la econometra y la economa, este libro de
texto tambin ser til para los estudiantes de otras disciplinas que hacen uso
extensivo de datos observacionales, incluidas nanzas, biologa, sociologa,
educacin, psicologa y climatologa.
0.1. A QUIN SE DIRIGE Y CARACTERSTICAS DISTINTIVAS 11
ARIS SPANOS es un destacado investigador y profesor en econometra.
En la actualidad trabaja en University of Cyprus y Virginia Polytechnic In-
stitute y State University y ha enseado previamente en instituciones entre
ellas, el Birkbeck College, la Universidad de Cambridge y la Universidad de
California. Sus libros anteriores incluyen Statistical Foundations of Econo-
metric Modelling, publicado por Cambridge University Press en 1986.
0.1 A quin se dirige y caractersticas distin-
tivas
Este es un libro de texto destinado a un curso de introduccin a la teora
de la probabilidad y a la inferencia estadstica, escrito para estudiantes que
han tenido al menos un curso de un semestre de clculo. Las matemti-
cas adicionales necesarias se fusionan a la discusin para que sea autocon-
tenido, prestando especial atencin a la comprensin intuitiva de los concep-
tos matemticos. No son requeridos prerrequisitos en probabilidad e infer-
encia estadstica, pero una cierta familiaridad con la estadstica descriptiva
ser de utilidad.
El objetivo principal de este libro es sentar las bases y ensamblar el
marco de referencia general para la modelizacin emprica de datos obser-
vacionales (no experimentales). Este marco de referencia, conocido como
reduccin probabilstica, se formula con el n de acomodar las particulari-
dades de los datos observacionales (en oposicin a los experimentales) de
una manera unicadora y lgicamente coherente. Se distingue de los libros
de texto tradicionales en la medida en que enfatiza los conceptos, ideas, no-
ciones y procedimientos que sean apropiados para la modelizacin de datos
observacionales.
12 CONTENIDO
Captulo 1
1 Una introduccin a la
modelizacin emprica
1.1 Introduccin
En un intento de dar una idea de lo que la modelacin emprica trata, comen-
zamos la discusin con una demarcacin epigramtica de su mbito de apli-
cacin:
Modelizacion emprica se reere a la descripcin parsimoniosa de
fenmenos estocsticos observables utilizando modelos estadsticos.
La delimitacin anterior es apenas esclarecedora porque involucra los tr-
minos desconocidos fenmeno estocstico y modelo estadstico que se expli-
carn en lo que sigue. En esta etapa, sin embargo, basta con sealar las
siguientes caractersticas distintivas de la modelizacin emprica (en oposi-
cin a otras formas):
(a) la naturaleza estocstica de los fenmenos susceptibles de dicha mod-
elacin,
(b) el carcter indispensable de los datos observados, y
(c) la naturaleza de la descripcin en la forma de un modelo estadstico.
El objetivo principal de la modelizacin emprica es proporcionar una de-
scripcin adecuada de ciertos tipos de fenmenos observables de inters en
forma de mecanismos estocsticos que llamamos modelos estadsticos. Un
modelo estadstico pretende capturar la informacin estadstica sistemtica
(ver secciones 2 y 3), que es diferente de la teora de la informacin (ver
13
14CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
seccin 4). En contraste con un modelo terico, un modelo estadstico es
codicado exclusivamente en trminos de conceptos probabilsticos y es de-
scriptivo y anti-realista por naturaleza (vase el captulo 10 para mayor dis-
cusin). La suciencia de la descripcin se evala por qu tan bien el modelo
estadstico postulado da cuenta de la informacin estadstica sistemtica en
los datos (vase la seccin 5). En la seccin 6 proporcionamos una discusin
preliminar de algunos aspectos importantes del elemento constitutivo de los
modelos empricos, los datos observados.
La modelizacin emprica en este libro es considerada para incluir una
amplia gama de procedimientos relacionados entre s incluyendo:
(i) especicacin (la eleccin de un modelo estadstico),
(ii) estimacin (estimacin de los parmetros del modelo estadstico pos-
tulado),
(iii) pruebas de errores de especicacin (evaluacin de la validez de los
supuestos probabilstica del modelo estadstico postulado) y
(iv) respecication (una eleccin alternativa de un modelo estadstico).
Como se ha sealado antes, estas facetas de la modelizacin estn partic-
ularmente involucradas en el caso de los datos observacionales. En el caso
de los datos experimentales, el enfoque principal est en la estimacin
debido a que las facetas (i) y (iv) constituyen la otra cara del diseo de la
moneda y (iii) juega un papel subsidiario.
El ejemplo por excelencia de la modelizacin emprica utilizando datos
observables se considera es la econometra. Una tesis importante adoptada
en este libro es que la econometra se distingue de la estadstica de la cor-
riente dominante (dominada por el diseo experimental y las tradiciones de
mnimos cuadrados), no tanto por la dimensin de la teora econmica de
los modelos, sino principalmente debido a los problemas particulares de la
modelacin que surgen debido a la naturaleza observacional de la inmensa
mayora de los datos econmicos. Por lo tanto, interpretamos la denicin
tradicional de la econometra "la estimacin de las relaciones como lo sugiere
la teora econmica" (vase Harvey (1990), p. 1), como la colocacin del
campo en el marco de referencia de la modelizacin de diseo experimental.
En pocas palabras, el argumento bsico es que el enfoque tradicional de libro
de texto economtrico utiliza el marco de referencia de la modelizacin de
diseo experimental para el anlisis de datos no experimentales (ver Spanos
(1995b) para ms detalles).
1.2. FENMENOS ESTOCSTICOS, UNA VISTA PRELIMINAR 15
1.1.1 Una vista panormica del captulo
El resto de este captulo profundiza en las caractersticas distintivas de la
modelacin emprica (a) - (c). En la seccin 2 discutimos el signicado de
fenmenos estocsticos observables y por qu tales fenmenos son sus-
ceptibles de modelizacin emprica. En la seccin 3, discutimos la relacin
entre fenmeno estocstico y modelos estadsticos. Esta relacin se pre-
senta en la forma de informacin estadstica sistemtica que no es ms que la
formalizacin de los patrones de regularidad aleatoria exhibidos por los datos
observados que emanan de los fenmenos estocsticos. En la seccin 4 discu-
timos la importante nocin de suciencia estadstica: si el modelo estadstico
postulado "captura" toda la informacin estadstica sistemtica de los datos.
En la seccin 5 contrastamos la informacin estadstica y la teora. En pocas
palabras, el modelo terico se formula en trminos del comportamiento de
los agentes econmicos y el modelo estadstico es formulado exclusivamente
en trminos de conceptos probabilsticos; una parte considerable del libro se
reere a la pregunta de: qu es lo que constituye la informacin estads-
tica sistemtica? En la seccin 6 planteamos tres cuestiones importantes
en relacin a los datos observados, sus diferentes escalas de medida, su
naturaleza y su precisin, lo que se relaciona con los mtodos estadsticos
utilizados para su modelizacin.
El mensaje principal de este captulo es que, en la evaluacin de la validez
de una teora, el modelador debe garantizar que los datos observados consti-
tuyan un testigo imparcial, cuyo testimonio puede ser utilizado para evaluar
la validez de la teora en cuestin. Un modelo estadstico pretende propor-
cionar un resumen adecuado de la informacin estadstica sistemtica de los
datos en la forma de un mecanismo estocstico que posiblemente dio lugar a
los datos observados en cuestin.
1.2 Fenmenos estocsticos, una vista pre-
liminar
Como se escribi anteriormente, el alcance previsto por la modelacin em-
prica es demarcado por la naturaleza estocstica de los fenmenos observ-
ables. En esta seccin explicamos intuitivamente la idea de un fenmeno
estocstico y lo relacionamos con la nocin de modelo estadstico en la sigu-
iente seccin.
16CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
Fenmenos estocsticos y regularidad aleatoria
Un fenmeno estocstico es aquel cuyos datos observados muestran lo
que llamamos patrones de regularidad aleatoria. Estos patrones son por lo
general revelados utilizando una variedad de tcnicas grcas. La esencia de
la regularidad aleatoria, como lo sugiere el trmino en s mismo, viene bajo
la forma de dos caractersticas entrelazadas:
aleatoria: una incertidumbre inherente en relacin con la ocurrencia de
resultados particulares,
regularidad: una regularidad permanente en relacin con la ocurrencia de
muchos de tales resultados.
TERMINOLOGA: el trmino regularidad aleatoria se introduce con el
n de evitar la posible confusin y desconcierto que puede ser causado por la
adopcin del trmino de uso ms comn conocido como aleatoriedad; vase
el captulo 10 para ms discusin.
A primera vista, estos dos atributos podran parecer contradictorios en
el sentido de que el azar se reere a la ausencia de orden y la "regularidad"
denota la presencia de orden. Sin embargo, no hay contradiccin porque el
desorden existe en el nivel de los resultados individuales y el orden a nivel
agregado. En efecto, la esencia de la regularidad aleatoria se deriva del hecho
de que el desorden a nivel individual crea (de alguna manera) orden a nivel
agregado. Los dos atributos deben ser vistos como algo inseparable para que
la nocin de regularidad aleatoria tenga sentido. Cuando slo uno de ellos
est presente, no podemos hablar de regularidad aleatoria.
Cualquier intento en esta etapa de denir formalmente lo que queremos
decir por regularidad aleatoria ser ms bien intil, porque necesitamos var-
ios conceptos matemticos que se desarrollarn en lo que sigue. En su lugar,
vamos a intentar dar un poco de intuicin detrs de la nocin de regulari-
dad aleatoria con un ejemplo simple y posponer la discusin formal hasta el
captulo 10.
Ejemplo
Considere la situacin de lanzar dos dados y sumar los puntos de los lados
hacia arriba. La primera caracterstica fundamental de esta situacin es que
en cada prueba (lanzamiento de los dos dados) el resultado (la suma de los
puntos de los lados) no se puede adivinar con total certeza. Lo nico que se
puede decir con certeza es que el resultado ser uno de los nmeros:
{ 2,3,4,5,6,7,8,9,10,11,12}
1.2. FENMENOS ESTOCSTICOS, UNA VISTA PRELIMINAR 17
excluimo el caso en el que los dados terminan en uno de los bordes!
Todas las 36 combinaciones posibles detrs de los resultados se muestran
en la tabla 1.1. La segunda caracterstica fundamental de la situacin es
que bajo ciertas condiciones, tales como la simetra de los dados, sabemos
que ciertos resultados son ms probables de ocurrir que otros. Por ejemplo,
sabemos que el nmero 2 puede surgir como la suma de slo un conjunto de
caras: {1,1} - cada dado sale 1; se aplica lo mismo al nmero 12 con caras:
{6,6}. Por otro lado, el nmero 3 puede surgir como la suma de dos conjuntos
de caras: {(1,2), (2,1)} y lo mismo sucede con el nmero 11 con caras: {(6,5),
(5,6)}. En la siguiente subseccin veremos que esta lnea de razonamiento
combinatorio dar lugar a una distribucin de probabilidad, como se muestra
en la tabla 1.3.
Tabla 1.1. Resultados en el lanzamiento de dos dados
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
En esta etapa es interesante hacer una pausa y considerar la nocin de
regularidad aleatoria como desarrollada primero en el contexto de juegos
de azar. Esta es, de hecho, la forma en la que las probabilidades hicieron
su primera aparicin. Histricamente, las probabilidades fueron introducidas
como una manera de entender las diferencias observadas empricamente entre
la probabilidad de aparicin de diferentes resultados de las apuestas, como
en el cuadro 1.1. Miles de soldados durante la poca medieval podan dar
fe de las diferencias en las frecuencias relativas empricas de ocurrencia de
diferentes eventos relacionados con los resultados en la tabla 1.1.Mientras
esperaban para atacar una ciudad, los soldados tenan miles de horas sin
nada que hacer y nuestros registros histricos sugieren que ellos se complacan
principalmente en juegos de azar parecidos al lanzamiento de dados. Despus
de miles de ensayos ellos saban intuitivamente que el nmero 7 aparece con
ms frecuencia que cualquier otro nmero y que el 6 aparece con menos
frecuencia que el 7, pero con ms frecuencia que el 5. Veamos cmo esta
18CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
intuicin se convirti en algo ms sistemtico, que eventualmente condujo a
la teora de la probabilidad.
La tabla 1.2 reporta 100 ensayos reales del experimento aleatorio de lanzar
dos dados y sumar el nmero de puntos que aparecen en la cara superior del
dado. Un vistazo a la tabla slo conrma que los nmeros van de 2 a 12,
pero ningn patrn real es evidente, al menos a primera vista.
Tabla 1.2. Datos observados en el lanzamiento de un dado
3 10 11 5 6 7 10 8 5 11 2 9 9 6 8 4 7 6 5 12
7 8 5 4 6 11 7 10 5 8 7 5 9 8 10 2 7 3 8 10
11 8 9 5 7 3 4 9 10 4 7 4 6 9 7 6 12 8 11 9
10 3 6 9 7 5 8 6 2 9 6 4 7 8 10 5 8 7 9 6
5 7 7 6 12 9 10 4 8 6 5 4 7 8 6 7 11 7 8 3
Figura 1.1 Una sucesin de 100 lanzamientos de dos dados.
En la gura 1.1 se representan los datos sobre el ndice del nmero de
la prueba. En el primer lanzamiento de los dados la suma fue de 3, en
la segunda la suma fue de 10, en la tercera la suma de 11, etc. Uniendo
estos resultados (observaciones) se da al espectador una mejor perspectiva
en cuanto a la naturaleza secuencial de los observaciones. NOTE que el orden
de las observaciones constituye una dimensin importante cuando se discute
la nocin de regularidad aleatoria.
Historicamente, el primer patrn de regularidad aleatoria percibido in-
tuitivamente por los soldados medievales fue el de una ley estable de las
frecuencias relativas como se sugiere en el histograma en la gura 1.2 del los
datos en la tabla 1.2; sin, por supuesto, la utilizacin de tcnicas grcas,
1.2. FENMENOS ESTOCSTICOS, UNA VISTA PRELIMINAR 19
pero despus de numerosos lanzamientos de los dados. La pregunta que surge
naturalmente en esta etapa es:
Cmo es el histograma en la gura 1.2 relacionado con los datos en la
gura 1.1?
Hoy en da, los patrones de regularidad aleatoria son perceptibles medi-
ante la realizacin de una serie de experimentos mentales.
Experimento mental 1. Piense en las observaciones como pequeos
cuadrados con un rea igual y gire hacia la derecha la gura 1.1 en 90

y
deje que los cuadros que representan las observaciones caigan verticalmente
creando una pila sobre el eje "x". La pila representa el bien conocido his-
tograma, como se muestra en la gura 1.2. Este histograma presenta una
clara forma triangular, que estar relacionada con una distribucin de proba-
bilidad derivada mediante el uso de argumentos basados en combinaciones y
permutaciones en el siguiente subseccin. Para nes de referencia resumimos
esta regularidad en la forma de la nocin intuitiva siguiente:
Figura 1.2 Histograma de la suma de los dos datos dados.
[1] Distribucin: despus de varias pruebas los resultados forman una ley
(aparentemente) estable.
Experimento mental 2. Ocultar las observaciones siguientes hasta un
cierto valor del ndice, por ejemplo t = 40, y tratar de adivinar el resultado
20CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
siguiente. Repita esto a lo largo del eje de la observacin del ndice y si
resulta que es imposible utilizar las observaciones anteriores para adivinar
el valor de la observacin siguiente, excluyendo los casos extremos 2 y 12,
entonces el patrn de regularidad aleatoria que llamamos independencia est
presente. Es importante notar que en el caso de los resultados extremos 2
y 12 uno est casi seguro que despus de 2 la probabilidad de obtener un
nmero mayor que se es mucho mayor, y despus de 12 la probabilidad de
obtener un nmero ms pequeo est cerca de uno . Como se ha sealado
antes, este tipo de prediccin est relacionado con el componente de regular-
idad aletoria conocido como ley estable de frecuencias relativas. Excluyendo
estos casos extremos, cuando se miran las observaciones previas, no se puede
discernir un patrn en la gura 1.1 que ayude a reducir el nmero de resulta-
dos alternativos posibles, permitiendo al modelador adivinar la observacin
siguiente (dentro de lmites estrechos) con alguna certeza. Intuitivamente,
podemos resumir esta idea en forma de:
[2] Independencia: en cualquier sucesin de pruebas el resultado de
cualquier prueba no inuye y no es inuido por cualquier otra.
Experimento mental 3. Tome una ventana ancha (para incluir la dis-
persin de las uctuaciones en una grca de tiempo como la gura 1.1) que
sea tambin lo sucientemente larga (aproximadamente menos de la mitad
de la longitud del eje horizontal) y deje que se deslice de izquierda a derecha a
lo largo del eje horizontal mirando el panorama dentro del cuadro, a medida
que se desliza a lo largo. En el caso de que la imagen no cambie signicativa-
mente, los datos exhiben homogeneidad , en otro caso, la heterogeneidad est
presente; vase el captulo 5. Otra forma de ver este patrn es en trminos de
la media y la variacin en torno a esta media de los nmeros a medida que
avanzamos de izquierda a derecha. Parece como si este promedio secuencial
y su variacin son relativamente constante alrededor de 7. La variacin en
torno a este valor promedio constante parece estar dentro de bandas con-
stantes. Esta regularidad aleatoria puede ser intuitivamente resumida en el
concepto siguiente:
[3] Homogeneidad: las probabilidades asociadas a los diferentes resultados
siguen siendo las mismas para todas las pruebas.
NOTE que en el caso donde el patrn en una grca de tiempo es tal
que permite al modelador adivinar la siguiente observacin con exactitud, los
1.2. FENMENOS ESTOCSTICOS, UNA VISTA PRELIMINAR 21
datos no muestran ningn patrn aleatorio, ellos exhiben lo que se conoce
como regularidad determinista. La forma ms fcil de pensar la regulari-
dad determinista es visualizar las grcas de funciones matemticas de las
elementales (polinmicas, algebraicas, trascendentales) a funciones ms com-
plicadas, como las funciones de Bessel, diferenciales y ecuaciones integrales.
Si echamos un vistazo a la gura 1.1 y tratamos de pensar en una funcin
que pueda describir la lnea en zig-zag observada, nos daremos cuenta de que
no existe tal funcin matemtica, a menos que utilicemos un polinomio de
orden 99, que es lo mismo que listar los nmeros reales . Los patrones que
discernimos en la gura 1.1 son patrones de regularidad aleatoria.
Regularidad aleatoria y estructura probabilstica
El paso de las regularidades observadas a su formalizacin (matematizacin)
fue impulsado por el patrn de regularidad de distribucin como se ejemplica
en la gura 1.2. La formalizacin propia fue inicialmente muy lenta, tomando
siglos para materializarse, y tom la forma de argumentos combinatorios
simples.Podemos captar la esencia de esta formalizacin inicial si volvemos
al ejemplo del lanzamiento de los dados.
Ejemplo
En el caso del experimento de lanzar dos dados, podemos seguir la lnea
de razonamiento que sugiere diferencias en la posibilidad de ocurrencias de
los distintos resultados en {2,3,4,5,6,7,8,9,10, 11,12} como sigue. Ya sabe-
mos que el 3 se produce dos veces ms que el 2 o el 11
1
. Usando la misma
lgica de sentido comn podemos argumentar que ya que el 4 se produce
cuando cualquiera de {(1,3), (2,2), (3,1)}ocurre, su posibilidad de ocurrencia
es tres veces mayor que la del 2. Continuando esta lnea de razonamiento
y suponiendo que las 36 combinaciones pueden ocurrir con la misma posi-
bilidad, descubrimos una distribucin que relaciona cada resultado con una
cierta posibilidad de ocurrencia mostrada abajo en la gura 1.3; en primer
lugar obtenida por Coordano en los 1550s. Como podemos ver, el resultado
ms probable de ocurrir es el nmero 7; no es casualidad que varios juegos de
azar jugados con dos dados involucren el nmero 7. Pensamos la posibilidad
de ocurrencia como probabilidades y el patrn general de tales probabilidades
asociadas con cada resultado como una distribucin de probabilidad;, vase
el captulo 3.
1
o el 12 (no 11 como aparecen en el texto).
22CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
Figura 1.3 Regularidad en el agregado.
resultados 2 3 4 5 6 7 8 9 10 11 12
probabilidades
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
Tabla 3. La suma de dos dados: una distribucin de probabilidad.
La distribucin de probabilidad en la tabla 1.3 representa un concepto
probabilstico formulado por matemticos para capturar la regularidad aleato-
ria en la gura 1.1. Una comparacin directa entre las guras 1.2 y 1.3 con-
rma la intuicin de los soldados. Las frecuencias empricas relativas en la
gura 1.2 estn muy cerca de las probabilidades tericas que se muestran en la
gura 1.3. Adems, si tuviramos que repetir el experimento 1000 veces, las
frecuencias relativas habran sido an ms cercanas a la probabilidad terica;
vase el captulo 10. En este sentido, podemos pensar del histograma en la
gura 1.2 como una realizacin emprica de la distribucin de probabilidad
en la gura 1.3 (vase el captulo 5 para mayor discusin).
Ejemplo En el caso del experimento de lanzar dos dados, los soldados
medievales lo utilizaron para apostar sobre si el resultado es un nmero par o
impar (los griegos introdujeron estos conceptos en torno al 300 aC). Es decir,
el soldado A apostara por el resultado A ={3,5,7,9,11} y el soldado B por
el resultado B ={2,4,6,8,10,12}. A primera vista parece como si el soldado
1.2. FENMENOS ESTOCSTICOS, UNA VISTA PRELIMINAR 23
B fuera un ganador denitivo porque hay ms nmeros pares que impares.
Los soldados medievales, sin embargo, saban por observacin emprica que
esto no era cierto! En efecto, si volvemos a la tabla 1.3 y evaluamos la
probabilidad de que el evento A ocurra, descubrimos que los soldados estaban
en lo correcto: la probabilidad de ambos eventos es
1
2
; la distribucin de
probabilidad se da en la tabla 1.4.
Tabla 1.4 La suma de dos dados: impares y pares
resultados = 3. 5. 7. 9. 11 1 = 2. 4. 6. 8. 10. 12
Probilidades
1
2
1
2
Concluimos esta subseccin reiterando que el fenmeno estocstico de
lanzar dos dados dio origen a los datos observados que se muestras en la gura
1.1, los cuales muestran las tres diferentes formas de patrones de "regularidad
aleatoria:
[1] Distribucin (triangular), [2] Independencia y [3] Homogeneidad.
Para propsitos de referencia, es importante sealar que los anteriores
patrones perceptibles, constituyen casos particulares de patrones de regulari-
dad aleatoria relacionados con tres diferentes amplias categoras de supuestos
probabilsticos que llamamos Distribucin, Dependencia y Heterogenei-
dad, respectivamente; vase el captulo 5. Los conceptos que subyacen a
estas categoras de supuestos probabilsticos se denen formalmente en los
captulos 3-4.
Una digresin - la paradoja del caballero de Mere
Histricamente, la conexin entre una ley estable de frecuencias relativas
y las probabilidades se forj en la mitad del siglo 17 en un intercambio de
cartas entre Pascal y Fermat. Con el n de degustar esta formulacin inicial,
consideremos el siguiente ejemplo histrico.
La paradoja del caballero de Mere se plante en una carta de Pascal a
Fermat en Julio 29 de 1654 como uno de los problemas planteados a l por de
Mere (un noble francs y un jugador estudioso). De Mere observ la siguiente
regularidad emprica:
24CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
la probabilidad de obtener al menos un 6 en cuatro lanzamientos de un
dado es mayor a
1
2
pero la probabilidad de obtener un doble 6 en 24 lanzamientos con dos
dados es inferior a
1
2
.
De Mere estableci esta regularidad emprica y no tena dudas sobre su
validez debido a la enorme cantidad de veces que l repitio el juego. l estaba
tan seguro de su validez emprica que fue tan lejos como para cuestionar la
parte ms fundamental de la matemtica, la aritmtica misma. Razonando
por analoga, de Mere argument que las dos probabilidades deberan ser
idnticas, porque un 6 en cuatro lanzamientos de un dado es lo mismo que
un doble 6 en 24 lanzamientos de dos dados, ya que, de acuerdo con su
manera de pensar: 4 es a 6 como 24 es a 36.
La distribucin estadstica en el cuadro 1.4 se puede utilizar para ex-
plicar la regularidad emprica observada por De Mere. Siendo un poco ms
cuidadoso que de Mere, se puede argumentar de la siguiente manera (las
manipulaciones de las probabilidades no son importantes en esta etapa):
Probabilidad de un doble seis =
1
36
Probabilidad de un doble seis en : lanzamientos =
_
1
36
_
a
,
Probabilidad de no doble seis en : lanzamientos =
_
35
36
_
a
Probabilidad de al menos un doble seis en : lanzamienos = 1
_
35
36
_
a
= j.
Para : = 24, j = 1
_
35
36
_
24
= 0.4914039.
Es interesante observar que en el argumento anterior al pasar de la prob-
abilidad de un doble seis en una prueba a la de : pruebas usamos el concepto
de independencia que se dene ms adelante.
Usando una distribucin estadstica para el caso de un dado, cuya dis-
tribucin de probabilidad se da en el cuadro 1.5, se puede argumentar por
analoga de la siguiente manera:
Tabla 1.5 Distribucin de probabilidad de un dado
resultados 1 2 3 4 5 6
probabilidades
1
6
1
6
1
6
1
6
1
6
1
6
Probabilidad de un seis =
1
6
Probabilidad de un seis en : lanzamientos =
_
1
6
_
a
,
Probabilidad de no seis en : lanzamientos =
_
5
6
_
a
Probabilidad de al menos un seis en : lanzamienos = 1
_
5
6
_
a
= .
1.2. FENMENOS ESTOCSTICOS, UNA VISTA PRELIMINAR 25
Para : = 4, = 1
_
5
6
_
4
= 0.5177469.
Las dos probabilidades p = 0.4914039 y q = 0.5177469 conrman la reg-
ularidad emprica de Mere y no hay paradoja de ningn tipo! Esto muestra
claramente que las frecuencias empricas de Mere fueron correctas, pero su
razonamiento por analoga era defectuoso.
Los patrones de regularidad aleatoria de imprevisibilidad, que relacionamos
con el concepto de probabilidad de [2] Independencia y el de uniformidad
que relacionamos con [3]homogeneidad utilizando la gura 1.1, son implcita-
mente utilizados en el intercambio entre Pascal y Fermat. Es interesante no-
tar que estos conceptos no se formalizaron explcitamente hasta bien entrado
el siglo 20. Los supuestos probabilsticos de Independencia y Homogenei-
dad (Distribucin Idntica) subyacen a la mayora de las formas de anlisis
estadstico antes de 1920s.
En esta etapa es importante poner de relieve que la nocin de probabil-
idad subyacente a la distribucin de probabilidad en las tablas 1.3 a 1.5, es
la de frecuencia relativa como la utilizada por De Mere para establecer su
regularidad despus de un gran nmero de ensayos. No hay nada controver-
sial sobre esta nocin de probabilidad y el uso de modelos estadsticos para
discutir cuestiones relativas a los juegos de azar, donde el mecanismo de azar
es explcitamente una parte integral del fenmeno que est siendo modelado.
No es, sin embargo, evidente que tal nocin de probabilidad pueda ser uti-
lizada en la modelacin de los fenmenos observables en donde el mecanismo
de azar no es explcito.
Regularidad aleatoria en fenmenos econmicos
En el caso del experimento de lanzar dos dados, el mecanismo aleatorio es
explcito y la mayora de las personas estar dispuesta a aceptar sobre la fe
que si este experimento es efectuado, los patrones de regularidad aleatoria
[1] - [3] sealados anteriormente, estarn presentes. La pregunta que surge
naturalmente es:
Es esta regularidad aleatoria concebible en fenmenos estocsticos ms
all de los juegos de azar?
En el caso de los fenmenos estocsticos, donde el mecanismo de azar no
es explcito, a menudo:
(a) no se puede obtener una distribucin de probabilidad a priori con un
argumento de simetra fsica como en el caso de dados o monedas, y
26CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
Figura 1.4 Cambios en las tasas de cambio de los datos.
(b) no se puede pretender la presencia de algn mecanismo aleatorio ex-
plcito que de lugar a las observaciones.
Usando estas observaciones nuestra primera tarea es decidir si el fenmeno
subyacente puede ser tilmente visto como estocstico y nuestra segunda
tarea consiste en utilizar los patrones de regularidad aleatoria percibidos en
estos datos con el n de elegir un modelo estadstico adecuado. Por lo tanto,
discerniento patrones de regularidad aleatoria a partir de las grcas de los
datos y relacionndolos con los conceptos correspondientes de la teora de la
probabilidad ser una parte esencial de la discusin que sigue.
Un nmero de fenmenos observables en econometra pueden ser vistos
provechosamente como fenmenos estocsticos y por lo tanto susceptibles de
modelizacin estadstica. En un intento de dar algn soporte a esta proposi-
cin, considerar la grca de tiempo de A - cambios logartmicos de la tasa
cambiaria del dlar Canadiense/EE.UU para el perodo 1973-1992 (obser-
vaciones semanales) que se muestra en la gura 1.4. Lo que es interesante
acerca de los datos es el hecho de que presentan una serie de patrones de
regularidad aleatoria muy similares a los exhibidos por las observaciones de
los dados en la gura 1.1, pero algunos patrones adicionales tambin son
perceptibles. Los patrones de regularidad exhibida por los dos conjuntos de
observaciones son las siguientes:
(a) la media aritmtica en el ordenamiento (tiempo) parece ser constante,
1.2. FENMENOS ESTOCSTICOS, UNA VISTA PRELIMINAR 27
(b) la banda de variacin alrededor de la media parece ser relativamente
constante.
El patrn de regularidad en relacin a una (posiblemente) estable ley de
frecuencias relativas exhibida por los datos de la tasa cambiaria, no sugieren
una ley estable triangular como en la gura 1.2. En su lugar:
Figura 1.5 Histograma de las tasas de cambio.
(c) los datos en la gura 1.4 presentan una cierta simetra en forma de
campana (parece que hay tantos puntos por encima de la media como por
debajo, pero las frecuencias relativas se desvanecen cuando el valor de A se
aleja del centro a las colas) . Esta regularidad se puede ver en la grca de
las frecuencias relativas dada en la gura 1.5.
Cmo las grcas en las guras 1.4 y 1.5 se relacionan ser discutido
ampliamente en el captulo 5, junto con una descripcin ms detallada de
cmo se pueden reconocer los patrones (a) - (c) mencionados anteriormente.
Adems de los patrones de regularidad encontrados en la gura 1.1, cabe
sealar que los datos en la gura 1.4 muestran el patrn de regularidad
aleatoria siguiente:
(d) parece haber una sucesin de conglomerados de pequeos y grandes
cambios que se suceden unos a otros.
En esta etapa es improbable que el lector est convencido de que las carac-
tersticas sealadas anteriormente son fcilmente discernibles a partir de las
28CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
grcas de tiempo. Sin embargo, un aspecto importante de la modelizacin
en este libro es sin duda cmo leer informacin sistemtica en las grcas de
tiempo, lo cual se iniciar en el captulo 5.
En conclusin, el punto de vista adoptado en este libro es que los fen-
menos estocsticos (aquellos exhibiendo regularidad aleatoria) son sus-
ceptibles de modelizacin emprica, con independencia de si el mecanismo
aleatorio incorporado es evidente o no. En efecto, una tarea importante para
el modelador es identicar los fenmenos observables que pueden ser prove-
chosamente vistos como fenmenos estocsticos. La cuestin de si existe o
no tal mecanismo es slo de inters metafsico.
En resumen, los fenmenos estocsticos (los que exhiben regularidad
aleatoria) se pueden modelar empricamente sin importar si est explcito
o no un mecanismo aleatorio.
1.3 Regularidad aleatoria y modelos estads-
ticos
La discusin hasta el momento ha sealado la presencia de patrones de reg-
ularidad aleatoria en fenmenos estocsticos. Motivada por el deseo de uti-
lizar la informacin proporcionada por los patrones de regularidad de azar,
la teora de la probabilidad procedi a formalizarlos mediante el desarrollo
(invencin) de conceptos probabilsticos (matemticos) relacionados; en los
prximos captulos vamos a introducir una serie de conceptos de la teora
de la probabilidad. En particular, el patrn de regularidad ley estable de
frecuencias relativas ser formalmente relacionado con el concepto de dis-
tribucin de probabilidad; vanse las tablas 1.3 a 1.5. En el caso de los datos
de la tasa de cambio la aparente ley estable de frecuencias relativas en la
gura 1.5 ser relacionada con distribuciones tales como la Normal y la t de
Student, las cuales exhiben simetra en forma de campana (vase el captulo
5). El patrn de imprevisibilidad ser formalmente relacionado con el con-
cepto de la Independencia ([1]) y el patrn de uniformidad con el concepto de
Distribucin Idntica ([2]). Los patrones de regularidad (a) - (b), exhibidos
por los datos de la tasa de cambio, sern formalmente relacionados con el con-
cepto de estacionariedad (vanse los captulos 5 y 8) y (d) ser relacionado
con la dependencia no lineal (vase el captulo 6). Es importante destacar
que los patrones de regularidad aleatoria, como los sealados anteriormente,
1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADSTICOS 29
constituyen el elemento vital de la modelizacin estadstica debido a que su
utilizacin apropiada constituye la esencia de la modelacin emprica.
El puente entre los patrones de regularidad aleatoria y los conceptos prob-
abilsticos, transforma el reconocimiento intuitivo del patrn cognitivo en in-
formacin estadstica (sistemtica). En un intento por hacer ms fcil
la utilizacin de la informacin estadstica sistemtica para los propsitos de
modelizacin, los conceptos probabilsticos que tienen por objeto formalizar
los patrones de regularidad aleatoria se colocan en tres amplias categoras:
(D) Distribucin, (M) Dependencia y (H) Heterogeneidad
Esta taxonoma bsica est diseada para proporcionar una forma lgi-
camente coherente de ver y utilizar informacin estadstica para nes de
modelizacin. Estas amplias categoras puede verse como la denicin de
los componentes bsicos de un modelo estadstico en el sentido de que todo
modelo estadstico puede ser visto como una suave mezcla de ingredientes de
las tres categoras. La suavidad de la mezcla en este contexto se reere a la
consistencia interna de los supuestos que constituyen un modelo estadstico.
La primera recomendacin a tener en cuenta en la modelacin emprica es:
1 Un modelo estadstico es slo un conjunto de supuestos probabilsticos
compatibles (internamente) de las tres grandes categoras: (D), (M) y (H).
NOTA: a aquellos lectores bien informados que no estn convencidos de
que este es ciertamente el caso, mencionamos de paso que los supuestos de
distribucin son a veces indirectos, en forma de suavidad y existencia de
momentos condicionales; ver el captulo 10.
El modelo estadstico elegido representa una descripcin de un mecanismo
aleatorio tentativo con el cual el modelador intenta capturar la informacin
sistemtica en los datos (los patrones de regularidad aleatoria). Un modelo
estadstico diere de otros tipos de modelos en la medida en que especica una
situacin, un mecanismo o un proceso en trminos de una cierta estructura
probabilstica, que ser formalmente denida en los captulos 2-4.
Conceptos matemticos tales como distribucin de probabilidad, indepen-
dencia y distribucin idntica constituyen formas de estructura probabils-
tica. De hecho, el objetivo principal de la primera parte del libro es introducir
muchos conceptos adicionales que permiten al modelador especicar una var-
iedad de formas de estructura probabilstica, sucientemente rica como para
capturar, esperemos que todo, patrn de regularidad aleatoria. El mod-
elo estadstico se especica exclusivamente en trminos de tales supuestos
30CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
probabilsticos diseados para capturar la informacin sistemtica en datos
observados.
Los ejemplos de lanzamiento de dados, discutidos anteriormente, son
importantes no por su inters intrnseco en la modelizacin emprica, sino
porque ellos representan ejemplos de un fenmeno estocstico simple que ju-
gar un papel importante en los prximos captulos. El fenmeno estocstico
representado por los ejemplos anteriores se denomina genricamente como un
experimento aleatorio y se utilizar en los prximos tres captulos (2-4) para
motivar la estructura bsica de la teora de probabilidad. El fenmeno ob-
servable subyacente en los datos de la tasa de cambio gracados en la gura
1.4 no se puede considerar como un experimento aleatorio y por lo tanto
tenemos que ampliar el marco de referencia probabilstico con el n de ser
capaces de modelar tales fenmenos tambin; este es el tema de los captulos
6-8.
En vista de la discusin anterior, la modelizacin emprica exitosa tiene
dos importantes dimensiones:
(a) reconocer los patrones de regularidad aleatoria exhibidos por los datos
observados y
(b) capturar estos patrones postulando modelos estadsticos apropiados.
La primera requiere de una habilidad por cuenta del modelador para
detectar estos patrones utilizando una variedad de tcnicas grcas. De
hecho, es imposible sobreestimar la importancia de las tcnicas grcas en
la modelizacin emprica. Esto nos lleva convenientemente a la segunda
recomendacin en la modelizacin emprica:
2. Las tcnicas grcas constituyen una herramienta indispensable en la
modelizacin emprica!
Si regresamos momentaneamente a los datos en la tabla 1.2, no hay duda
de que el lector tendr dicultades para reconocer los patrones de regularidad
aleatoria en el conjunto de datos. Un vistazo a las grcas de los datos en las
guras 1.1 y 1.4 proporcionan una visin global de la estructura de ambos
conjuntos de datos que requieren ms de mil palabras para describirlos. Esto
no hace sino conrmar las capacidades naturales perceptivas y cognitivas del
cerebro humano; los seres humanos son capaces de reconocer, clasicar y
recordar patrones visuales mucho ms ecientemente que los nmeros o las
palabras. Captulo 5 pone de maniesto la interaccin entre los patrones de
regularidad aleatoria y los conceptos probabilsticos utilizando una variedad
de representaciones grcas.
La captura de la informacin estadstica sistemtica en los datos pre-
1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADSTICOS 31
supone un marco de referencia matemtico lo sucientemente rico como para
modelar cualquier patrn que se detecte. Es mediante la teora de la prob-
abilidad que la regularidad aleatoria ha atrado la atencin en conformidad.
En este sentido, la interaccin entre la modelacin y la teora de la proba-
bilidad no es una calle de un slo sentido. Por ejemplo, en fecha tan tarda
como el siglo 20 el patrn de dependencia era bastante nebuloso y como con-
secuencia, el concepto matemtico correspondiente an no era formalizado.
En vista de esto, hay buenas razones para creer que existen patrones de reg-
ularidad aleatoria que no podemos reconocer en la actualidad, pero que se
reconocern en el futuro. A medida que ms patrones son detectados, otros
supuestos probabilsticos sern concebidos con el n de formalizarlos y as
enriquecer la teora de la probabilidad como un marco de referencia para la
modelacin. Debido a la importancia de la interaccin entre patrones ob-
servables y conceptos probabilsticos formales, en la gura 1.6 presentamos
esta relacin de manera esquemtica: los patrones de regularidad aleatoria
se formalizan bajo la forma de conceptos probabilisticos, estos, a su vez, se
clasican en la taxonoma bsica y entonces se utilizan para postular modelos
estadsticos que (esperemos) capturen la informacin estadstica sistemtica;
no se escatimarn esfuerzos en relacionar los patrones de regularidad aleatoria
con los correspondientes conceptos probabilsticos a lo largo de este libro.
32CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
Figura 1.6 Patrones de regularidad aleatoria, supuestos probabilsticos y
modelo estadstico.
La variedad y alcance previsto de los modelos estadsticos es limitado
solamente por el alcance de la teora de la probabilidad (como un marco
de referencia para la modelacin) y la formacin e imaginacin del mode-
lador. No hay tal cosa como una lista completa de modelos estadsticos que
el modelador pone a prueba en alguna sucesin y elige el que parece el menos
objetable. Adems, la modelacin emprica no trata sobre la eleccin de es-
timadores ptimos (de algn men preespecicado), es sobre la eleccin de
modelos estadsticos adecuados; modelos que son ideados por el modelador
en un intento por capturar la informacin sistemtica en los datos. En la dis-
cusin de modelos estadsticos en los captulos 2-8 se presta especial atencin
a la relacin entre los datos observados y la eleccin de modelos estadsticos.
Algunos de los temas abordados en los prximos captulos son:
(a) Qu entendemos por un modelo estadstico?
(b) Por qu debera la informacin estadstica ser codicada en un lenguaje
neutral de teora?
1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADSTICOS 33
(c) Qu informacin utilizamos cuando elegimos un modelo estadstico?
(d) Cul es la relacin entre el modelo estadstico y las caractersticas
de los datos?
(e) Cmo reconocemos la informacin estadstica sistemtica en los datos
observados?
Concluimos esta seccin haciendo hincapi en el hecho de que la informa-
cin estadstica sistemtica en los datos observados tiene que ser codicada
en un lenguaje que est libre de conceptos de la teora econmica. La teora
de la probabilidad ofrece dicho lenguaje neutral de teora que se utilizar
exclusivamente en la especicacin de modelos estadsticos. Como se mues-
tra en los captulos 6-7, los modelos estadsticos como se especican en este
libro, no se basan en una teora basada en formas funcionales entre las vari-
ables de inters; en lugar de ello se especican exclusivamente en trminos
de relaciones estadsticas basadas en informacin puramente estadstica. La
codicacin de los modelos estadsticos exclusivamente en trminos de infor-
macin estadstica es de vital importancia debido a que uno de los principales
objetivos de la modelacin emprica es la evaluacin de la validez emprica de
las teoras econmicas. Esta evaluacin se puede considerar como una prueba
para la teora bajo evaluacin, con el modelo terico como el principal testigo
de la defensa y los datos observados como el principal testigo del enjuiciador.
Para que los datos sean un testigo imparcial, ningn juez (modelador) debe
permitir preparar al principal testigo de cargo de la defensa antes del juicio!
La informacin estadstica debe ser denida exclusivamente en trminos de
conceptos que estn libres de cualquier connotacin terica-econmica; slo
entonces los datos observados pueden ser vistos como un testigo independi-
ente (y justo) de la acusacin. La tercera recomendacin en la modelacin
emprica es:
3 No permita que los datos observados sean preparados a priori por la
teora a ser evaluada.
El modelo estadstico es considerado inicialmente como un resumen con-
veniente de la informacin sistemtica en los datos que existe independi-
entemente de cualquier teora. La cuarta recomendacin en la modelacin
emprica es:
4 La especicacin del modelo estadstico se rige principalmente por la
naturaleza y estructura de los datos observados.
34CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
1.3.1 Suciencia estadstica
Como se ha dicho anteriormente, el xito de la modelacin emprica se juzga
por qu tan adecuadamente el modelo estadstico postulado captura la in-
formacin estadstica sistemtica contenida en los datos. Un tema central
de este libro es el de la suciencia estadstica y cmo se puede lograr en
la prctica, mediante la utilizacin de varios mtodos incluyendo representa-
ciones grcas (vanse los captulos 5-6) y pruebas de errores de especi-
cacin (ver captulo 15). Sin un modelo estadstico adecuado, que capture la
informacin sistemtica en los datos, ninguna inferencia estadstica vlida es
posible, independientemente de la sosticacin y / o la validez potencial de
la teora!
La inferencia estadstica es a menudo vista como el procedimiento in-
ductivo por excelencia: utilizando un conjunto de datos (especco) deducir
conclusiones sobre el fenmeno estocstico (general) que dio origen a los
datos (vase la grca 1.7). Sin embargo, es a menudo insucientemente
reconocido que este procedimiento inductivo se incrusta en una premisa fun-
damentalmente deductiva. El procedimiento desde el modelo postulado (la
premisa) a los resultados de inferencia (estimacin, pruebas de prediccin,
simulacin) es deductivo; no se utilizan datos para obtener resultados acerca
de la optimalidad de los estimadores, pruebas, etc; estimadores y pruebas son
declarados ptimos con base en un razonamiento puramente deductivo. El
componente deductivo del razonamiento de inferencia estadstica signica:
si se asumen ciertas premisas, ciertas conclusiones necesariamente
se siguen.
Ms formalmente, si denotamos las premisas por p y las conclusiones por
q, entonces la forma anterior de razonamiento deductivo toma la forma de
modus ponens (armando el antecedente):
si p entonces q.
1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADSTICOS 35
Figura 1.7 Inferencia estadstica.
En este sentido, la inferencia estadstica depende fundamentalmente de
la validez de las premisas: la postulacin de un modelo estadstico en el con-
texto del cual los datos observados se interpretan como una realizacin del
mecanismo estocstico postulado. Con base de esta premisa se procede a
obtener resultados estadsticos de inferencia usando deduccin matemtica.
Argumentos deductivos correctos muestran que si sus premisas son vlidas,
sus conclusiones son vlidas. Usando los datos observados en cuestin, el
modelador se basa en la validez de este argumento deductivo con el n de
extraer conclusiones generales de inferencia a partir de datos especcos. Sin
embargo, si las premisas no son vlidas las conclusiones son generalmente
injusticadas. En vista de esto, consideramos de suma importancia el prob-
lema de evaluar la validez del modelo estadstico postulado (probando errores
de especicacin), especialmente en el caso de datos observados. La quinta
recomendacin en la modelacin emprica es:
5 Ningn resultado de inferencia estadstica se debe utilizar para llegar a
conclusiones a menos que la suciencia estadstica del modelo postulado se
haya establecido primero.
El primer paso y ms crucial para garantizar la suciencia estadstica
es que el modelador especique explcitamente los supuestos probabilsticos
36CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
que conforman el modelo postulado; sin un conjunto completo de supuestos
probabilsticos la nocin de suciencia estadstica no tiene ningn sentido
operativo. Por esta razn, los siguientes captulos prestan especial atencin al
problema de la especicacin del modelo estadstico (modelos de probabilidad
y muestrales) en una extensin que puede parecer innecesaria en los libros
de texto de los econometristas tradicionales. Se destaca en esta etapa que
la notacin, la terminologa y las taxonomas diferentes introducidas en los
prximos cuatro captulos desempean un papel importante para garantizar
que la naturaleza y estructura de los supuestos probabilsticos subyacentes
al modelo postulado se hagan explcitos y transparentes para el modelador.
Figura 1.8 Inferencia estadstica con suciencia estadstica.
En el contexto de la aproximacin de reduccin probabilstica, las desvia-
ciones del modelo estadstico postulado son vistas como informacin sis-
temtica en los datos que el modelo postulado no tiene en cuenta. El modelo
estadstico debe ser reespecicado con el n de dar cuenta de la informacin
sistemtica pasada por alto por el modelo postulado inicialmente. Por lo
tanto, el procedimiento en la gura 1.7 se complementa con las etapas adi-
cionales de pruebas de errores de especicacin y reespecication. La gura
1.8 muestra el procedimiento modicado con la idea de un modelo estadstico
adecuado que est entre el modelo estimado y la inferencia estadstica. Como
se muestra en la gura 1.8, llegar a un modelo estadstico adecuado implica
pruebas de errores de especicacin y reespecication.
1.4. ESTADSTICA FRENTE A TEORA DE LA INFORMACIN * 37
El concepto de suciencia estadstica es particularmente importante para
la modelacin emprica, ya que puede proporcionar la base para establecer
los hechos estilizados que la teora econmica requiere explicar. Una mirada
supercial a los modelos economtricos empricos de los ltimos 50 aos con-
vencer, incluso al ms vido partidario del enfoque economtrico tradicional,
que no constituyen un programa de investigacin progresiva, ya que no han
dado lugar a ninguna acumulation real de evidencia emprica. La separacin
de los modelos estadsticos y tericos y asegurando la suciencia estadstica
del primero, ofrecer una buen punto de partida para una estrategia de in-
vestigacin progresiva donde regularidades empricas sean establecidas por
modelos estadsticamente adecuados (hechos estilizados propiamente dichos)
y las teoras sean necesarias para explicarlos. Vale la pena reiterar que en
este libro la informacin estadstica y la terica se distinguen claramente con
el n de evitar cualquier acusacin de circularidad en la aplicacin de esta
estrategia de investigacin.
1.4 Estadstica frente a teora de la informa-
cin *
En un intento de proporcionar una visin ms equilibrada de la modelacin
emprica y evitar acusaciones precipitadas en nombre de los econometris-
tas tradicionales de que "el enfoque adoptado en este libro ignora la teora
econmica", en esta seccin discutimos brevemente el papel de la teora
econmica en la modelacin emprica (vase Tambin Spanos (1986,1995 b)).
Los datos econmicos estn creciendo a un ritmo exponencial, pero al
mismo tiempo, cuando un modelador intenta dar respuestas a las preguntas
especcas l / ella a menudo encuentran que los datos particulares necesarios
para el anlisis no existen en la forma requerida. Esto es sintomtico de la
falta de una metodologa economtrica adecuada que desempeara un papel
de coordinacin entre la teora econmica y los datos observados apropiados.
A menudo, existe una enorme brecha entre la teora de los conceptos y la se-
rie de datos que suelen estar disponibles; los datos disponibles con frecuencia
suelen medir algo muy diferente. Como se ha dicho anteriormente, esta difer-
encia surge principalmente debido a las diferencias entre las circunstancias de
diseo experimental asumidas por la teora econmica, a travs de la clusula
ceteris paribus y la naturaleza observacional de los datos disponibles; el resul-
38CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
tado de un proceso continuo con numerosos factores que inuyen ms all del
potencial control del modelador. La sexta recomendacin en la modelacin
emprica de que hay que tener en cuenta es:
6 Nunca suponga que los datos disponibles miden el concepto de la teora
que el modelador tiene en mente slo porque los nombres son muy similares
(o incluso coinciden)!
Un ejemplo notable es el concepto terico de demanda contra los datos que
con frecuencia suelen estar disponibles en forma de cantidades de transaccin;
ver Spanos (1995b). Como resultado de esta brecha, la modelacin emprica
a menudo trata de responder a cuestiones tericas de inters mediante la
utilizacin de datos que no contienen esa informacin.
Como argumentamos en las tres secciones anteriores, la informacin es-
tadstica sistemtica est:
(a) relacionada con los patrones de regularidad aleatoria exhibidos por
los datos observados,
(b) denida exclusivamente en trminos de conceptos probabilsticos y
(c) carece (inicialmente) de cualesquiera connotacin de teora econmica.
La clara distincin entre la informacin estadstica sistemtica y terica,
constituye uno de los pilares bsicos de la metodologa de modelacin em-
prica expuesta en este libro; vase tambin Spanos (1986, 1995b, en preparacin).
Teora y modelos estadsticos constituyen entidades distintas construidas so-
bre informacin distinta, el comportamiento de los agentes econmicos y la
informacin estadstica sistemtica, respectivamente. Esto constituye una
condicin necesaria para el modelo estadstico que se utiliza como un testigo
imparcial sobre la base de cuyo testimonio la suciencia emprica del modelo
terico se puede evaluar.
La teora inuye en la eleccin de un modelo estadstico apropiado de
dos maneras. En primer lugar, la teora determina la eleccin de los datos
observados de inters. Si bien la eleccin de los datos observados es cargada
de teora, una vez elegidos, los datos adquieren una existencia objetiva que
est libre de teora. La nica inuencia adicional que la teora tiene en la
especicacin del modelo estadstico es que este ltimo debe ser lo suciente-
mente general para permitir que el modelador plantee cuestiones tericas de
inters en su contexto. Por lo tanto, las pruebas de errores de especicacin
y reespecication, facetas de la modelacin emprica, no tienen nada que ver
con el modelo terico; ellas son puramente procedimientos estadsticos deter-
minados por la nocin de informacin estadstica. La sptima recomendacin
en la modelacin emprica es:
1.5. DATOS OBSERVADOS 39
7. Ninguna teora, por muy sosticada, puede rescatar un modelo
estadstico mal especicado
Como se ha dicho en el captulo 7, el punto de vista estadstico y terico
proporcionan ngulos de visin muy diferente para los propsitos de la mod-
elacin. Estos ngulos de visin son complementarios, pero a menudo se
utilizan como sustitutos con graves consecuencias; vase Spanos (1997a).
Un modelo estadsticamente adecuado proporciona un buen resumen (de-
scripcin) de informacin estadstica sistemtica en los datos, pero no con-
stituye el ltimo objetivo de la modelacin emprica. En ltima instancia,
el modelador quiere evaluar la teora en trminos de un modelo estadstica-
mente adecuado, as como sintetizar los modelos estadsticos y terico en un
intento de dar signicado econmico a la teora y capacidad explicativa al
modelo estadstico. Por lo tanto, la octava recomendacin a tener en cuenta
en el modelacin emprica es:
8. El xito de la modelacin emprica se evala por la habilidad con la que
el modelador puede sintetizar los modelos estadsticos y la tericos, sin
cambios ya sea en la informacin terica o estadstica!
Con el n de distinguir entre un modelo estadstico, construido exclu-
sivamente en trminos de informacin estadstica sistemtica, y la sntesis
de la teora y los modelos estadsticos llamamos al segundo un modelo
economtrico (vase Spanos (1986))
1.5 Datos observados
En esta seccin vamos a intentar un anlisis preliminar del elementos consti-
tutivo de la modelacin emprica, los datos observados. Algunos aspectos de
los datos observados desempear un papel importante en la eleccin de los
modelos estadsticos.
1.5.1 Los primeros datos
Los datos numricos han sido coleccionados por una razn u otra desde los al-
bores de la historia. Las primeras colecciones de datos, sin embargo, no eran
sistemticas y la informacin recogida no estaba generalmente disponible.
La recopilacin sistemtica de datos econmicos se pueden fechar en el siglo
40CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
17 como un subproducto de las actividades gubernamentales tales como im-
puestos, la recaudacin de aduanas el gasto y la regulacin, as como el deseo
de cuanticar ciertos aspectos de la actividad gubernamental (vase Porter
(1995)). Por ejemplo, los primeros datos sobre la distribucin del ingreso eran
simplemente un producto secundario de los datos scales. Hacia el nal del
siglo 19 censos especiales se llevaron a cabo por (en particular los EE.UU.)
gobiernos en los sectores agrcola y manufacturero con el n de examinar las
cuestiones especcas de inters (ver Crist (1985)) Por lo tanto, no debera
ser una sorpresa encontrar que los datos utilizados en los primeros traba-
jos empricos en la economa (a principios de siglo 20) eran en su mayora
datos sobre las exportaciones, las importaciones, la produccin y precio (ver
Stigler (1954, 1962)). Poco a poco, sin embargo, los gobiernos comenzaron a
apreciar el uso de estos datos en la evaluacin de los resultados econmicos,
as como proporcionar guas para la poltica econmica, una realizacin que
llev a la creacin de agencias de recoleccin de datos tales como el Depar-
tamento de Estadstica de la Junta de Comercio de Inglaterra. Adems, la
formacin de varias sociedades estadsticas en Europa a mediados del siglo
19, tales como las Sociedades de Estadstica de Londres y Manchester y el
Congreso Internacional de Estadstica, dio un nuevo impulso a esfuerzos ms
sistemticos para reunir y publicar datos que tambin fueron comparables
entre los pases.
1.5.2 Datos econmicos
En relacin a los datos econmicos, cabe destacar el papel crucial que desem-
pean tres pioneros dando un impulso adicional para ms y mejores datos
econmicos en el siglo 20, Mitchell en la medicin de los ciclos econmicos,
Kuznets en la creacin de cuentas nacionales y Leontief en la aplicacin
prctica de las tablas de insumo-producto. Estos primeros esfuerzos han
dado lugar a miles de millones de series de datos econmicos en la segunda
mitad del siglo 20, que estn actualmente recogidos a diario por los gob-
iernos y otros organismos, en todo el mundo. Solo la Unin Europea est
produciendo montaas de volmenes que contienen datos econmicos que al
parecer (sobre la base de testimonios de odas) nadie tiene el tiempo para
utilizarlos, por el momento!
En la mayora de las ciencias, tales como la fsica, la qumica, la geologa
y la biologa, los datos observados suelen ser generados por los propios mod-
eladoras en experimentos bien diseados. En econometra el modelador es a
1.5. DATOS OBSERVADOS 41
menudo enfrentado a datos observacionales en comparacin con los datos ex-
perimentales. Esto tiene dos implicaciones importantes para la modelacin
emprica en la econometra. En primer lugar, el modelador debe dominar
habilidades muy diferentes a las necesarias para analizar datos experimen-
tales; el tema importante de este libro. En segundo lugar, la separacin de
los colectores de datos y el analista de datos requiere que el modelador se
familiarice en s mismo a fondo con la naturaleza y la estructura de los datos
en cuestin.
Junto con la explosin antes mencionada de la coleccin de datos obser-
vacionales creci la demanda para analizar estas series de datos con miras a
una mejor comprensin de los fenmenos econmicos como la inacin, el de-
sempleo, las uctuaciones del tipo de cambio y el ciclo econmico, as como
la mejora de nuestra capacidad para pronosticar la actividad econmica .
Un primer paso hacia la consecucin de estos objetivos es conocer los datos
disponibles, asegurando que el modelador est bien versado en las respuestas
a preguntas tales como:
(i) Cmo se recopilaron los datos?
(ii) Cul es el sujeto de la medicin?
(iii) Cules son las unidades de medida y la escala?
(iv) Cul es el perodo de medicin?
(v) Qu es exactamente lo que miden los nmeros?
(vi) Cul es la conexin entre los datos y los conceptos tericos corre-
spondientes?
Por lo tanto, la novena recomendacin a tener en cuenta en la modelacin
emprica es:
9 Conocer las dimensiones importantes de sus datos a fondo!
1.5.3 Datos observados y naturaleza de un modelo es-
tadstico
Un conjunto de datos que comprende : observaciones se denota por {r
1
. r
2
. .... r
a
}
o ms compactamente:
r
I
. / = 1. 2. 3. .... :
NOTA: es fundamental enfatizar el valor del simbolismo matemtico en
lo que sigue. Es imposible exagerar el poder y la importancia de los sm-
bolos matemticos cuando se est discutiendo la teora de probabilidad. La
42CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
claridad y la concisin que este simbolismo introduce a la discusin es indis-
pensable.
Se acostumbra clasicar los datos econmicos de acuerdo a la dimensin
(ndice) de la observacin en dos categoras principales:
(i) Seccin transversal: r
I
. / = 1. 2. 3. .... :, / indica individuos (em-
presas, estados, etc),
(iii) series de tiempo: r
t
. t = 1. 2. 3. .... 1, t indica tiempo (semanas,
meses, aos, etc.)
Por ejemplo, los datos observados del consumo podran hacer referencia al
consumo de los distintos hogares en el mismo punto en el tiempo o al consumo
agregado (gastos de los consumidores) a travs del tiempo. Los primeros
constituyen datos de seccin transversal, los segundos datos de series de
tiempo. Mediante la combinacin de estos dos, por ejemplo, observando el
consumo de los mismos hogares a travs del tiempo, podemos denir una
tercera categora:
(iii) Panel (longitudinal): r
k
. k :=(/. t) , / = 1. 2. 3. .... :, t = 1. 2. .... 1,
donde / y t representan individuos y tiempo, respectivamente.
Note que en esta categora el ndice / es de dos dimensiones, pero r
k
es
unidimensional.
A primera vista, las dos categoras principales no parecen diferir sustan-
cialmente debido a que los conjuntos ndice parecen idnticos; los conjuntos
ndice son subconjuntos del conjunto de los nmeros naturales. Una reexin
momentnea, sin embargo, revela que hay ms de un conjunto ndice de lo
que parece. En el caso de que el conjunto ndice 2 := 1. 2. .... : se reera
a los hogares particulares, el ndice respresenta los nombres de los hogares,
por ejemplo:
{Jones, Brown, Smith, Richard, . . . }. (1.1)
En el caso de series de tiempo el ndice 1 := 1. 2. .... 1 se reere a fechas
particulares, por ejemplo:
1952. 1953. .... 1997 (1.2)
Al comparar los dos conjuntos ndice observamos de inmediato que tienen
una estructura matemtica muy diferente. La diferencia ms evidente es que
el conjunto (1. 1) no tiene un ordenamiento natural, si ponemos Brown antes
que Smith no tiene importancia, pero en el caso del conjunto ndice (1. 2) el
orden es una propiedad fundamental del conjunto.
1.5. DATOS OBSERVADOS 43
En el ejemplo anterior, los dos conjuntos ndice parecen idnticos, pero
resultan ser muy diferentes. Esta diferencia hace que los dos conjuntos de
datos sean cualitativamente diferentes en la medida en que el anlisis estads-
tico de un conjunto de datos ser claramente diferente de la de los otros. La
razn de esto se pondrn de maniesto en captulos posteriores. En esta
etapa, basta con sealar que una serie de conceptos tales como dependencia
y heterogeneidad (mencionados anteriormente) estn ntimamente ligados a
la ordenacin del conjunto ndice.
La estructura matemtica del conjunto ndice (por ejemplo, la presencia
o ausencia de un ordenamiento) no es el nico criterio para la clasicacin
de conjuntos de datos diferentes. La estructura matemtica del rango de
valores de las observaciones constituye otro de los criterios ms importantes.
Por ejemplo la serie de datos sobre el "nmero de nios" en las diferentes
familias puede tomar valores en un conjunto de la forma: 0. 1. 2. .... 100
Suponemos que hay un lmite superior que elegimos sea 100. Se trata de
un conjunto de valores discretos que tiene una estructura matemtica muy
diferente del conjunto de los valores de la variable consumo que toma valores
sobre la recta real positiva:
R
+
= (0. )
Otra variable que es diferente de estas dos consumo y nmero de nios en
trminos de su rango de valores es la religin (cristiana, musulmana, budista)
que no puede ser tratada de la misma manera que los datos sobre el consumo
o el nmero de nios porque no hay manera natural para medir la religin en
trminos numricos. Incluso si estamos de acuerdo en una escala de medicin
de la religin, por ejemplo 1. 0. 1, el orden es irrelevante y la diferencia
entre estas cifras no tiene sentido. Por el contrario, estas dos dimensiones
son signicativas en el caso de los datos de consumo y el nmero de nios.
La discusin anterior plantea cuestiones importantes en relacin con la
medicin de los datos observados. La primera es si los valores numricos
se pueden considerar como valores de un cierto intervalo de la recta real,
por ejemplo [0. 1] o que representan un conjunto de valores discretos, por
ejemplo 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. La segunda es si estos valores tienen un
orden natural o no.
Reuniendo estos comentarios podemos ver que la taxonoma que clasica
los datos en seccin transversal y series de tiempo es insuciente porque hay
algunas clasicaciones ms que no se tienen en cuenta. Estas clasicaciones
44CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
son importantes desde el punto de vista de la modelacin porque hacen una
diferencia en la medida en que las tcnicas estadsticas aplicables se reere.
En su formulacin abstracta un conjunto de datos toma la forma:
r
I
. / N. r
I
R
a

donde N es el conjunto ndice y R


a
representa el rango de valores de r
: NOTE que ambos conjuntos N y R
a
son subconjuntos de la recta real,
denotadoapor R:=(. ). Dependiendo de la estructura matemtica de
estos dos conjuntos diferentes clasicaciones surgen. De hecho, la estructura
matemtica de los conjuntos N y R
a
juega un papel muy importante en la
eleccin del modelo estadstico (vanse las secciones 3-5).
En cuanto al rango de valores de los datos, R
a
puede ser un subconjunto
discreto de R, tal como R
a
= 0. 1. 2. ... o un subconjunto continuo de R
tal como R
a
:=[0. ). En los casos en que la variable A se puede pensar
como tomando slo un nmero numerable de valores, R es considerado como
discreto, en otro caso la variable A se considera continua. En econometra,
variables como el consumo, la inversin, el ahorro y la inacin se consid-
eran continuas, pero las variables como el nmero de hijos, estado civil y una
serie de variables de eleccin, son vistas como discretas. La misma clasi-
cacin discreta-continua tambin se puede aplicar al conjunto ndice N lo que
conduce a una cuarta forma de clasicacin de las variables y los datos cor-
respondientes. Como se muestra en los captulos 3-4, la naturaleza de ambos
conjuntos, N (el ndice de conjunto) y R
a
(el rango de valores de los valores
numricos de los datos) desempea un papel importante en la determinacin
de la forma y estructura del modelo estadstico postulado para describir el
fenmeno observable de inters.
1.5.4 Escalas de medicin
Una dimensin muy importante de los datos observados es la escala de
medicin de las series de datos individuales. En esta subseccin discuti-
mos esta importante dimensin y planteamos algunas de las cuestiones rela-
cionadas con la modelacin de datos medidos a diferentes escalas.
El nmero de clasicaciones introducido anteriormente aumenta consid-
erablemente al darse cuenta que la dicotoma discreto-continuo se puede
clasicar ms de acuerdo con la escala de medicin otorgada al conjunto
en cuestin. Las escalas de medicin se clasican tradicionalmente en cuatro
grandes categoras.
1.5. DATOS OBSERVADOS 45
Escala de razn. Variables en esta categora disfrutan de la ms rica
estructura matemtica en su rango de valores, donde, para cualesquiera dos
valores a lo largo de la escala, por ejemplo r
1
y r
2
:
(a) la relacin (r
1
,r
2
) es una cantidad signicativa (existe un origen nat-
ural para el sistema de medida),
(b) la distancia (r
2
r
1
) es una cantidad signicativa, y
(c) existe un ordenamiento natural (ascendente o descendente) de los
valores a lo largo de
la escala; las comparaciones: r
2
? r
1
tienen sentido.
Variables econmicas como consumo e inacin pertenecen a esta cate-
gora. Para cualesquiera dos valores, r
1
y r
2
de una variables en esta categora
es importante hacer la pregunta:
cuntas veces r
1
es mayor que r
2
?
Escala de intervalo Una variable se dice que es una variable de intervalo
si su sistema de medicin es dado por (b)-(c), pero no por (a), por ejemplo,
la temperatura, la presin arterial sistlica. Para cualquiera dos valores r
1
y
r
2
de una variable en esta categora tiene sentido la pregunta:
Qu tanto x1 y x2 son diferentes?
Ejemplo
El conjunto ndice (1.2) se mide en esta escala porque la distancia (1970
1965) es una magnitud signicativa, pero la razn
_
1975
1960
_
no lo es.
Escala ordinal. Una variable pertenece a esta categora si es dada
slo con (c), por ejemplo, calicacin (excelente, muy bueno, bueno, no
aprobado), nivel de ingresos (alto, medio, bajo). Para tales variables el or-
denamiento existe, pero la distancia entre categoras no es signicativamente
cuanticable. Para cualesquiera dos valores r
1
y r
2
de una variable en esta
categora tiene sentido la pregunta:
r
1
es mayor o menor que r
2
?
Escala nominal. Una variables se dice que es nominal si su sistema de
medicin no ha sido bendecido con ninguna de las anteriores. Estas vari-
ables representan categoras que no tienen ni siquiera un orden natural, por
ejemplo, estado civil (casado, soltero, divorciado, separado), gnero (mas-
culino, femenino, otro), situacin laboral (empleados, desempledos, orto).
Debido a la naturaleza de tales variables el modelador debe tener cuidado en
la atribucin de valores numricos para evitar inferencias equivocadas. Para
cualesquiera de los dos valores r
1
y r
2
de una variable en esta categora la
nica cuestin que tiene sentido preguntar es:
46CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
Es r
1
diferente de r
2
?
Las anteriores escalas de medicin han sido considerados en una jerarqua
descendente de la ms alta (razn, la ms rica en estructura matemtica) a
la ms baja (nominal). Es importante sealar que los conceptos y mtodos
estadsticos diseados para una categora de variables no se aplican necesari-
amente a las variables de otras categoras (vase el captulo 6). Por ejemplo,
la media, la varianza y covarianza (los componentes bsicos del anlisis de
regresin) no tienen sentido en el caso de variables ordinales y nominales, la
mediana tiene sentido en el caso de las variables ordinales, pero no en el caso
de las nominales. En este ltimo caso la nica medida de la localizacin que
tiene un signicado es la moda. La nica regla general para los mtodos de
anlisis de diferentes variables con escalas de medicin, que se puede armar
en este momento es que un mtodo apropiado para una escala de medida de-
terminada en la jerarqua es tambin apropiado para escalas ms altas, pero
no para las ms bajas. Hay varios libros que discuten los mtodos de anlisis
de los llamados datos categricos: datos medidos en la escala nominal u
ordinal (ver Bishop, Fienberg y Holland (1975), Agresti (1990), entre otras
cosas).
TERMINOLOGA. Es importante sealar que en la literatura estadstica
hay una confusin generalizada entre las escalas de medicin y tres clasica-
ciones diferentes: variables discretas / continuas, cualitativas / cuantitativas
y no categricas - categricas. Las variables discretas se pueden medir en las
cuatro escalas y las variables continuas en ocasiones pueden ser agrupadas en
un pequeo nmero de categoras. Las variables categricas son las nicas
variables que pueden medirse ya sea en la escala ordinal o en la nominal pero
la categora de variables cualitativas confusa. En algunos libros las variables
cualitativas son slo las que se miden en la escala nominal, pero en otros
tambin se incluyen las variables ordinales.
Escalas de medicin y conjunto ndice. Los ejemplos de escalas de
medicin utilizados en la discusin anterior se reeren exclusivamente al con-
junto R
a
: el rango de valores de una variable A. Sin embargo, la discusin
tambin es relevante para el conjunto ndice N. En el caso de la variable
consumo de los hogares discutida anteriormente, el conjunto ndice (1.1) se
mide en una escala nominal. Por otra parte, en el caso de los gastos de los
consumidores el conjunto ndice (1.2) se mide en la escala de intervalo. Esto
se debe a que la dimensin temporal no tiene un origen natural (cero es por
convencin) y en el anlisis estadstico el conjunto ndice (1.2) a menudo se
sustituye por un conjunto de la forma T := 1. 2. .... 1. Tomemos nota de
1.5. DATOS OBSERVADOS 47
que la categorizacin serie de tiempo / seccin transversal, se basa exclu-
sivamente en la escala de medicin del conjunto ndice. El conjunto ndice
de series de tiempo es de escala de intervalo y el de seccin transversal de
escala nominal. Tambin hay casos en los que el conjunto ndice pueden ser
una razn o una escala ordinal. Por ejemplo, hay datos producidos por un
sismgrafo con un conjunto ndice continuoT R
+
.
La naturaleza del conjunto ndice juega un papel importante en la mod-
elacin emprica, como se ver en la secuela. En vista del hecho de que,
adems de la dicotoma discreto/continuo tenemos cuatro escalas de medida
diferente para el rango de valores de la propia variable y otros cuatro para el
conjunto de ndices, una desconcertante variedad de tipos de datos pueden
ser denida. Nuestro inters est en aquellos tipos que afectan la clase de
mtodos estadsticos que se pueden aplicar a los datos en cuestin. Un vistaso
supercial a la literatura de econometra aplicada revela que las variables con
muy distintas escalas de medicin estn involucrados en la misma ecuacin
de regresin (vase el captulo 7), haciendo que algunos de estos resultados
sean sospechosos. Como se ha dicho en el captulo 3, los conceptos de media,
varianza y covarianza (la materia prima de la regresin) no tienen sentido
para variables ordinales o nominales.
Figura 1.9 Datos de puntuaciones del examen (en orden alfabtico).
48CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
1.5.5 Seccin transversal contra series de tiempo, es
ste el problema?
En conclusin es importante regresar a la taxonoma tradicional seccin
transversal/serie de tiempo para advertir al lector contra la adopcin de
aforismos de la forma dependencia y/o heterogeneidad son irrelevantes para
los datos de corte transversal. Lo que es importante para considerar la de-
pendencia y / o heterogeneidad no es si los datos son de seccin transversal o
de series de tiempo, sino si los datos estn ordenados o no. Es cierto que para
los datos de series de tiempo hay un ordenamiento natural (el tiempo), pero
eso no signica que los datos de seccin transversal no tienen ordenamientos
naturales como el espacial o alguna otra dimensin de inters. Una vez que
el ordenamiento es adoptado las nociones de dependencia y heterogeneidad
llegan a ser tan relevante en seccin transversal como lo son para series de
tiempo.
Ejemplo
Consideremos el caso de los datos que guran en la tabla 1.6. Los datos
se reeren a los resultados de los exmenes de una clase tomando un examen
de opcin mltiple sobre los Principios de Economa en 1992 y se presentan
segn el orden alfabtico de los nombres de los estudiantes. Los datos son
gracados en la gura 1.9, con los resultados medidos en el eje vertical y los
estudiantes por orden alfabtico en el eje horizontal. Este orden no parece
muy interesante porque no hay
1.5. DATOS OBSERVADOS 49
Figura 1.10 Datos de las puntuaciones del examen (orden de asiento).
razones para creer que existe una relacin entre las puntuaciones y el
orden alfabtico de los nombres de los estudiantes; slo para estar seguros
se podra evaluar esta conjetura mediante la comparacin de esta grca
de tiempo con la que se muestra en la gura 1.1. Por otro lado, ordenar
las observaciones de acuerdo a la disposicin con que se sientan durante el
examen, como se muestra en la gura 1.10, parece ser ms interesante en el
sentido de que podra arrojar informacin interesante. De hecho, observando
la gura 1.10, podemos ver una representacin grca bastante diferente.
Los altibajos de la ltima grca son un poco ms ordenados que los de
la gura 1.9; ellos muestran algn tipo de comportamiento cclico. Como se
explica en el captulo 5, este patrn de ciclos no idnticos revela que los datos
muestran algn tipo de dependencia positiva entre el examen y el lugar donde
se sientan. En ingls franco, esto signica que hubo una gran cantidad de
trampas que tuvieron lugar en el saln durante el examen! Como resultado
del anlisis estadstico de los datos como se ordenan en la gura 1.10 (vanse
los captulos 5 y 15) fue el ltimo examen de opcin mltiple aplicado por el
autor.
Tabla 1.6. Datos de las puntuaciones del examen de Principios de Economa
98.0 43.0 77.0 51.0 93.0 85.0 76.0 56.0 59.0 62.0
67.0 79.0 66.0 98.0 57.0 80.0 73.0 68.0 71.0 74.0
83.0 75.0 70.0 76.0 56.0 84.0 80.0 53.0 70.0 67.0
100.0 78.0 65.0 77.0 88.0 81.0 66.0 72.0 65.0 58.0
45.0 63.0 57.0 87.0 51.0 40.0 70.0 56.0 75.0 92.0
73.0 59.0 81.0 85.0 62.0 93.0 84.0 68.0 76.0 62.0
65.0 84.0 59.0 60.0 76.0 81.0 69.0 95.0 66.0 87.0
La moraleja de esta historia es que aunque no hay orden natural para los
datos de seccin transversal, puede haber muchas dimensiones interesantes
con respecto a las que se pueden ordenar. La dcima recomendacin en la
modelacin emprica es:
10 las clasicaciones de los datos, por s mismas, no determinan la forma
y la estructura probabilstica del modelo estadstico adecuado.
Como argumentamos antes, los modelos estadsticos toman en cuenta
una variedad de diferentes dimensiones y caractersticas de los datos. La
clasicacin de los modelos de acuerdo a la clasicacin de datos basada en
una sola de tales dimensiones, es miope.
50CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
1.5.6 Limitaciones de los datos econmicos
En relacin con las limitaciones de los datos econmicos vamos a considerar
dos cuestiones importantes:
(i) su precisin y
(ii) su naturaleza.
Un hito importante en el uso de los datos econmicos para el estudio de
los fenmenos econmicos ha sido la publicacin de un libro de Morgenstern
(1963), intitulado On the accuracy of economic observations, publicado por
primera vez en 1950. En este libro el autor discute la precisin de los datos
econmicos publicados y cuestiona lo adecuado de estos datos para los nes
acostumbrados. Este libro inuy en la formacin de la actitud de los prac-
ticantes hacia los datos econmicos como lo describe abajo Griliches (1984,
ambas citas, p. 1466):
"Econometricians have an ambivalent attitude towards economic data.
At one level, the data are the world that we want to explain, the basic
facts that economists purport to elucidate. At the other level, they are the
source of all our trouble. Their imperfection makes our job dicult and often
impossible. Many a question remains unresolved because of multicollinear-
ity or other sins of the data. . . "
La visin de Griliches es que los econometristas no deben quejarse de la
calidad de sus datos, ya que es exactamente esta calidad lo que justica su
legitimidad:
"si los datos fueran perfectos, obtenidos de experimentos aleatorios bien
diseados, habra apenas espacio para un campo independiente de la econometra
..."
Aunque este es claramente un punto de vista extremo hay algo de ver-
dad en el, en la medida en que los datos disponibles en la econometra rara
vez recogidos de experimentos aleatorios bien diseados. Por lo tanto, la
necesidad de diferentes tcnicas estadsticas y procedimientos surge debido a
la naturaleza de los datos disponibles y no de su mala calidad. La principal
limitacin de los datos econmicos disponibles surge del hecho de que existe
una brecha considerable entre los modelos tericos y los datos disponibles.
La teora econmica, a travs de la clusula ceteris paribus, supone un sis-
tema casi aislado, pero los datos observados son el resultado de un proceso
continuo y multidimensional con numerosos factores que inuyen ms all
del control del modelador (vase Spanos, 1956).
La precisin de los datos econmicos ha mejorado sustancialmente desde
1.5. DATOS OBSERVADOS 51
Morgenstern (1963) y en algunos sectores, como el nanciero, los datos suelen
ser muy precisos. Series de tiempo sobre tipos de cambio y precios de acciones
son tan precisos como los datos econmicos se pueden obtener. En este libro
no suscribimos la idea de que cuando el anlisis de los datos no dan lugar a
los resultados esperados (en base a una idea preconcebida determinada), la
calidad de los datos es el culpable. Esto es lo mismo que un mal carpintero
culpando a sus herramientas.
En los casos en que la precisin de los datos es problemtica, el modelador
debe tener en cuenta que no hay procedimiento estadstico que pueda extraer
informacin de los datos observados cuando stos no estn en primer lugar.
La recomendacin undcima en la modelacin emprica es:
11 No hay argumento estadstico, por muy sosticado, que puede salvar
la mala calidad de los datos observados.
En lo que sigue asumimos que el modelador ha comprobado los datos
observados y los considera lo sucientemente precisos para ser considera-
dos ables para los propsitos de inferencia estadstica. Como una regla,
no consideramos resultados de mala inferencia (juzgados contra algn pre-
juicio concebido a priori) como un sntoma de la mala calidad de los datos.
Muchas veces la calidad de los datos son utilizados como una excusa para el
conocimiento del modelador asctico de la naturaleza de los datos observados
y la mente supercial a menudo desplegada al relacionar un modelo terico
con los datos observados en cuestin (vase Spanos (1995b)). Por lo tanto,
la ltima recomendacin en la modelacin emprica es:
12 Familiarcese completamente con la naturaleza y la precisin de sus
datos.
Esto har al modelador consciente de qu preguntas pueden y no pueden
ser planteadas a un conjunto particular de datos.
En conclusin, el autor no tiene ilusiones con respecto a la aceptabilidad
de las anteriores recomendaciones. En esta etapa, la nica posicin reivindi-
cada para estas recomendaciones son los prejuicios del autor en la modelacin
emprica. Como mencionamos en el prefacio, la discusin en el resto de este
libro pretende transformar estos prejuicios en la tesis, sustentadas con argu-
mentos convincentes.
52CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
1.6 Mirando hacia adelante
El principal objetivo de los prximos tres captulos (2-4) es motivar y crear
la forma por excelencia de un modelo estadstico que llamamos un modelo
estadstico simple. La motivacin est en la presentacin del ltimo como
una formalizacin de un fenmeno estocstico simple que genricamente lla-
mamo un experimento aleatorio. La formalizacin introduce los conceptos
probabilsticos necesarios que luego son mezclados para construir la forma
genrica de un modelo estadstico simple. La interaccin entre los patrones
de regularidad aleatoria y los conceptos probabilsticos deniendo un modelo
estadstico simple se lleva a cabo en el captulo 5, utilizando una variedad de
tcnicas grcas. El objetivo principal del captulo 6 es extender el modelo
estadstico simple en las direcciones que permiten al modelador para cap-
turar diversas formas de dependencia, incluidas las expuestas en los datos de
la tasa de cambio en la gura 1.4. El captulo 7 contina el tema del captulo
6 con el n de mostrar que la clave para la modelacin de la dependencia de
datos observacionales es la nocin de condicionamiento.
Esto nos lleva naturalmente a los modelos de regresin y relacionados. La
extensin del modelo estadstico simple en direcciones que permiten el mode-
lador capturar diversas formas de dependencia y heterogeneidad se completa
en el captulo 8. En pocas palabras, el objetivo bsico de los captulos 2-8
es introducir el marco de referencia de la teora de probabilidad necesario en
el contexto en el que tales conceptos probabilsticos pueden ser denidos y
relacionados con los patrones observables exhibidos por las observaciones a
partir de un fenmeno estocstico.
1.7 Ejercicios
1 Cmo decidimos que los fenmenos econmicos de inters son susceptibles
de modelacin emprica?
2 Explique intuitivamente la nocin de regularidad aleatoria.
3 Explique brevemente la conexin entre los patrones de regularidad
aleatoria y los conceptos de la teora de la probabilidad.
4 Explique brevemente la conexin entre los patrones de regularidad
aleatoria y los modelos estadsticos.
5 Explique la relacin entre un histograma y una distribucin de proba-
bilidad con la paradoja de De Mere.
1.7. EJERCICIOS 53
6 Explique por qu es importante que la informacin estadstica se resuma
exclusivamente en trminos de conceptos probabilsticos.
7 Bajo qu circunstancias puede el modelador pretender que los datos
observados constituyen evidencia sin prejuicios en la evaluacin de la su-
ciencia emprica de una teora?
8 Explique el concepto de suciencia estadstica y discuta su importancia
para la inferencia estadstica.
9 "La inferencia estadstica es un hbrido de un procedimiento deductivo
e inductivo." Debate.
10 Compare y contraste las diferentes escalas de medicin de los datos
observados.
11 De cuatro ejemplos de variables medidas en cada una de las diferentes
escalas, ms all de las dadas en la discusin anterior.
12 Por qu nos preocupamos por las escalas de medicin en la modelacin
emprica?
13 Ms all de las escalas de medida cules caractersticas de los datos
observados son de inters desde el punto de vista de modelacin emprica?
14 Compare y contraste datos de series de tiempo, de seccin transversal
y de panel.
15 Explique cmo las distintas caractersticas de los datos observados se
pueden formalizar en el contexto de expresar una serie de datos en la forma
de:
r
I
. r
I
R
a
, / N
Sugerencia: explique el papel y el signicado de la estructura matemtica
de los conjuntos (R
a
. N).
16 "En la modelacin de datos de seccin transversal no se puede hablar
de dependencia." Discuta.
54CAPTULO1. 1 UNAINTRODUCCINALAMODELIZACINEMPRICA
Captulo 2
Teora de probabilidad: un
marco de referencia para la
modelacin
2.1 Introduccin
2.1.1 Objetivo principal
Objetivo: estructurar la teora de la probabilidad para modelar fenmenos
estocsticos observables (experimentos aleatorios) que exhiben regulari-
dad aleatoria. Se modela utilizando un modelo estadstico (ME).
Se inicia informalmente, se concluye en el captulo cuatro con un ME que
es la forma matemtica de un experimento aleatorio.
2.2 Modelo estadstico simple: una visin in-
formal
2.2.1 La estructura bsica de un modelo estadstico
simple
El modelo estadstico simple (paramtrico)
1
tiene dos componentes in-
terrelacionados:
1
Aludido primero por Fisher (1922).
55
56CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
[i] modelo de probabilidad: = , (r; o) . o . r R
a

[ii] modelo muestral: A = (A


1
. A
2
. .... A
a
) es una muestra aleatoria
El modelo de probabilidad determina una familia de densidades (, (r; o) . o ),
denida en el rango de valores de (R
a
) de la v.a. A. Es decir, una funcin
de densidad para cada valor del parmetro o .
Un ejemplo del concepto de modelo de probabilidad se ve en la graca
de algunos miembros de la familia de densidades Gamma de un parmetro
cuya forma explicita es:
=
_
, (r; o) =
r
01
(o) =
_
o
0
n
01
exp n dn
exp r . o . r R
+
_
,
= R
+
y R
a
= R
+
. Cada curva es una funcin de densidad variando en
al rango de la v.a. A : (0. 14) R
+
, para un valor especco del parmetro
o.
Enseguida se analizan algunos conceptos utilizados en la ilustracin an-
terior.
2.2.2 El concepto de variable aleatoria: visin informal
La visin simple de v.a. es propuesta primero por Chebyshev (1812-1884):
es una variable real que puede tomar distintos valores con distintas proba-
bilidades. Aunque cercana a la denicin moderna de v.a., es poco deseable
matemticamente. Como se ver en el captulo tres, una v.a. es una funcin
A(.) : o R (asigna nmeros a resultados). La necesidad de denir tal fun-
cin surge porque el conjunto de resultados de ciertos fenmenos estocsticos
no siempre toman la forma de nmeros pero los datos si. La visin simple
de v.a., para simplicar el concepto, suprime al conjunto de resultados e
identica la v.a. con su rango de valores, de aqu el trmino variable.
Ejemplo.
Lanzar dos dados y sumar sus caras. Resultan 6
2
= 36 combinaciones
de caras (no de nmeros), denotadas, por ejemplo: :
1
. :
2
. .... :
36
. Se evitan
muchas aristas del problema procediendo directamente a contar el nmero
de puntos que aparecen en las caras. En algn sentido esta es la denicin
de v.a.: A(.) : o R
A
. R
A
R :
2.2. MODELO ESTADSTICO SIMPLE: UNA VISIN INFORMAL 57
A(.) : :
1
. :
2
. .... :
36
2. 3. .... 12 .
Sin embargo, no es la nica funcin posible. Se puede denir otra funcin
que mapea las sumas pares al cero y las impares al uno:
1 (.) : :
1
. :
2
. .... :
36
0. 1 .
Este ejemplo sugiere que suprimir el conjunto de resultados e identicar
la v.a. con su rango puede ser errneo.
Respecto a la aleatoriedad de la v.a., para tratar de distinguir entre v.a.
y variable matemtica, la visin simple procede a asociar probabilidades a
su rango de valores.
Ejemplo.
En ejemplo anterior, se denieron dos v.a. que la visin simple identica
con sus rangos:
A con 2. 3. .... 12 y 1 con 0. 1 .
En el caso de las v.a.A y 1 , la asociacin de sus valores con sus proba-
bilidades toma la forma:
r 2 3 4 5 6 7 8 9 10 11 12
,(r)
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
y
0 1
,()
1
2
1
2
Notar que la funcin de densidad es:
P(A = r) = ,(r). \r R
A
y cumple
(c) ,
A
(r) _ 0. \r R
A
. (/)

r
iR
^
,
A
(r
i
) = 1.
Por (b), la suma de las probabilidades de los valores de la v.a. es uno.
La funcin de densidad distribuye una unidad de masa (probabilidad) a lo
largo del rango de los valores de la variable aleatoria A.
58CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
Variables aleatorias continuas
Si A y 1 satisfacen la denicin de v.a. de Chebyshev (cada valor de la
variable aleatoria tiene asociada una probabilidad), es porque el rango de
esas variables es numerable (discreto). Cuando una v.a. tiene rango no
numerable de valores (toma valores en un intervalo) no se puede asignar a
cada valor de la v.a. una probabilidad. Las probabilidades se asignan usando
intervalos que pertenecen a este rango de valores. La funcin de densidad
para variables aleatorias continuas se dene en intervalos como sigue:
1 (r _ A _ r +dr) = ,(r)dr. \r R
a
y satisface las propiedades:
(c) ,
A
(r) _ 0. \r R
a
. (/)
_
a
2Ti
,
a
dr = 1.
Notar que la funcin de densidad de v.a.c toma valores en el intervalo
[0. ) por lo cual estos valores no se pueden intepretar como probabilidades.
En contraste, las funciones de densidad de v.a.d. toman valores en el intervalo
[0. 1] .
2.2.3 Funciones de densidad paramtricas
Las densidades de las v.a. A y 1 anteriores no involucran parmetros de-
sconocidos porque las probabilidades se conocen (debido a que los dados son
simtricos y que cada cara aparece con la misma probabilidad). Cuando
los dados estn cargados las densidades cambiarn porque ellas compren-
dern a parmetros desconocidos. Por ejemplo, asumiendo que P(1 = 1) = o
(un parmetro desconocido), 0_ o _ 1. la funcin de densidad para 1 ahora
toma la forma:
0 1
,()
1
2
1
2

0 1
,(. o) 1 o o
que se puede escribir como
, (. o) = o
j
(1 o)
1j
. o [0. 1] . = 0. 1.
que es la densidad Bernoulli, con = [0. 1] y R
j
= 0. 1 .
2.2. MODELO ESTADSTICO SIMPLE: UNA VISIN INFORMAL 59
Bernoulli (s. XVIII) sugiere la distribucin paramtrica binomial con
funcin de densidad:
, (r. o) =
_
:
r
_
o
a
(1 o)
1a
. o [0. 1] . r = 0. 1. : = 1. 2. ....
donde
_
:
r
_
=
a!
(aa)!a!
. :! = :(: 1) (: 2) (3) (2) (1) .
de Moivre y Laplace (s. XIX) incorporan la distribucin normal con
densidad:
, (r. ) =
1
o
_
2:
exp
_

1
2o
2
(r j)
2
_
. =
_
j. o
2
_
RR
+
. r R.
Pero en realidad el inters por las densidades paramtricas inicia con
Pearson (1895) cuya familia de distribuciones (familia Pearson) es generada
resolviendo la ecuacin diferencial:
d, (r)
dr
= , (r)
_
(r o
0
)
o
1
+o
2
r +o
3
r
2
_
. r R
a
.
Segn los valores de los parmetros o
0
. o
1
. o
2
y o
3
. esta ecuacin genera
funciones de densidad como t de Student, Laplace, Pareto, Gamma y normal.
Una versin discreta de esa ecuacin diferencial se puede usar para generar
distribuciones como la binomial y binomial negativa, hipergeomtrica y Pois-
son.
Parmetros
Los parmetros o se relacionarn con sus momentos. En esta etapa basta con
notar que los parmetros o tienen un papel importante en la modelizacinem-
prica y en la inferencia estadstica.
2.2.4 Muestra aleatoria: preliminares
Un modelo estadstico es simple por la forma del modelo muestral, el supuesto
de muestra aleatoria. Este supuesto implica dos nociones interrelacionadas:
independencia [1] y distribucin idntica [11]. Informalmente, las v.a.
60CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
(A
1
. A
2
. .... A
a
) son independientes si la ocurrencia de una (A
i
) no inuye ni
es inuda por la ocurrencia de cualquier otra (A
)
. i ,= ,. i. , = 1. 2. .... :).
Adems, las v.a. independientes (A
1
. A
2
. .... A
a
) estn indnticamente dis-
tribudas si sus funciones de densidad son las mismas , (r
1
. o) = , (r
2
. o) =
= , (r
a
. o)
2
.
2.3 Teora de la probabilidad: una introduc-
cin
Se trata de establecer un puente entre datos observados y ME construdo con
teora de la probabilidad. sta, trata de capturar los patrones de regulari-
dad aleatoria exhibidos por procesos estocsticos observables que se quieren
modelar
3
. Se inicia modelando un proceso estocstico simple llamado exper-
imento aleatorio.
Una precaucin: debido a la simplicidad del experimento aleatorio, su
formalizacin proporcionar un ME no adecuado para modelar algunos fen-
menos estocsticos en econometra. Los captulos 6-8 extienden el modelo es-
tadstico, incorporando conceptos probabilsticos adicionales, lo que expande
la aplicabilidad del modelo.
2.4 Experimento aleatorio
Esta nocin se introduce porque da una idea del tipo de fenmenos estocs-
ticos que se pretende modelar. En este captulo se formaliza un experimento
aleatorio en forma de un abstracto espacio estadstico el cual da los fun-
damentos matemticos de la teora de la probabilidad.En los siguientes dos
captulos, se da forma matemtica al concepto de experimento aleatorio en
forma de modelo estadstico. En el captulo tres, espacio estadsticoME
(da formas operacionales para modelar).
2
Conviene notar que lo apropiado de los supuestos IID en datos experimentales, en
contraste con datos observacionales, es materia de buen diseo.
3
La aproximacin axiomtica, como una rama de la matemtica, se remonta a Euclides
que especica los axiomas bsicos de objetos primitivos y entonces desarrolla la teora
(teoremas, lemmas, etc.) usando lgica deductiva
2.4. EXPERIMENTO ALEATORIO 61
2.4.1 Experimento aleatorio
Un experimento aleatorio
4
c es un mecanismo aleatorio que satisface:
[a] todos los posibles resultados se conocen a priori,
[b] en toda prueba particular el resultado no se conoce a priori pero existe
una regularidad perceptible de ocurrencia asociada a esos resultados, y
[c] el experimento aleatorio se puede repetir bajo indnticas condiciones.
Ejemplos.
1. Lanzar una moneda perfecta y anotar el resultado. Si se asume que
se puede repetir bajo condiciones idnticas, este experimento es aleatorio
porque satisface [a]-[c].
2. Lanzar una monedas dos veces a anotar el resultado. Si se asume que
se puede repetir bajo condiciones idnticas, este experimento es aleatorio
porque satisface [a]-[c].
3. Lanzar una moneda tres veces a anotar el resultado. Si se asume que
se puede repetir bajo condiciones idnticas, este experimento es aleatorio
porque satisface [a]-[c].
4. Lanzar una moneda hasta que aparezca una cara. Si se asume que
se puede repetir bajo condiciones idnticas, este experimento es aleatorio
porque satisface [a]-[c].
5. Un documento se transmite repetidamente por un canal sucio hasta
que se tiene una copia libre de errores. Contar el nmero de envos necesarios.
Este fenmeno estocstico es un experimento aleatorio siendo [a]= N.
6. Contar el nmero de llamadas recibidas en un telfono en un perodo
de tiempo. En este caso, [a]= 0. 1. 2. ... .
7. Medir la vida til de un foco en una casa. Aqu, tericamente, [a]=
[0. ) .
6. Observar el precio de cierre diario de IBM en la BMV. [a]= [0. ) .
[b]: el precio de cierre de IBM de un da particular no se conoce a priori. La
condicin [c] no se cumple porque las circunstancas de un dia a otro cambian
y el precio de hoy se relaciona con el de ayer. No es un experimento aleatorio.
Para formalizar la nocin de experimento aleatorio:
1. [a]o.
2. [b] o P.
En estos dos pasos se construye el espacio de probabilidad. Para ello, se
inicia con un conjunto o de eventos elementales. Despus, se dene otro
4
La nocin de experimento aleatorio se remonta a Kolmogorov (1933), Foundations of
theory of probability, y se considera el libro que funda la moderna teora de la probabilidad.
62CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
conjunto formado por subconjuntos de o. llamados eventos, de modo tal
que es cerrado bajo unin, interseccin y complemento. Entoces, la proba-
bilidad se dene como una funcin no negativa P(.) : [0. 1] ; asumiendo
que satisface P(o) = 1 y la propiedad de aditividad: para . 1 y
1 = O. entonces, P( ' 1) = P() +P(1) .
3. [c](
111
.
2.5 Formalizacion de [a]
La formalizacin de [a] se hace deniendo un conjunto o de todos los distintos
posibles resultados de un experimento llamado conjunto de resultados
5
.
Es decir, o es el conjunto universal.
Ejemplos. Los conjuntos de resultados de los experimentos aleatorios
[1]-[4] son:
o
1
= o .
o
2
= (oo) . (o) . (o) . () .
o
3
= (ooo) . (oo) . (oo) . (o) . () . (o) . (oo) . (o) .
o
4
= (o) . (o) . (o) . (o) . (o) . (o) . ... .
Para el experimento [5] :
o
5
= r : r N .
Para el experimento [7] :
o
7
= r : r R. 0 _ r < .
2.6 Formalizacion de [b]
Esta condicin tiene dos dimensiones: (i) individualmente, los resultados son
impredecibles, pero, (ii) a nivel agregado, existe una regularidad perceptible
de los resultados. La forma de tratar con ambas dimensiones es formalizar
la regularidad perceptible a nivel agregado. Para ello, se procede en dos
5
Un nombre muy usado para S es el de espacio muestral. Aqu este nombre es poco
adecuado porque no tiene nada que ver con la nocin de muestra usada posteriormente.
2.6. FORMALIZACION DE [B] 63
pasos: (1) se formaliza la nocin de eventos de inters y, (2) se asignan
probabilidades a estos eventos.
Informalmente, un evento, relacionado con un experimento aleatorio, es
una proposicin donde lo nico que interesa es su valor de ocurrencia, es
decir si en una prueba particular el evento ocurre o no. Debido a ello, las
nicas proposiciones de que se dispone son los resultados elementales. Sin
embargo, para modelar, se necesita extender este conjunto de proposiciones
para incluir adems combinaciones de resultados elementales. Por ejem-
plo, en el experimento aleatorio [2] pueden interesar los eventos: (a) =
al menos un sol: = (oo) . (o) . (o) . (b) 1 = al menos una guila.
1 = (o) . (o) . () .
En general, los eventos se forman con combinaciones de resultados ele-
mentales usando operaciones tericas de conjuntos, y se dice que un evento
ocurre cuando cualquiere de sus resultados elementales ocurre.
Ms formalmente, un evento es un subconjunto de o, es decir, si o.
es un evento. En contraste, un resultado elemental : es un elemento de
o, es decir, si : o. : es un resultado elemental. En otras palabras, un resul-
tado elemental es tambin un evento, pero lo contrario no es necesariamente
verdad.
Ejemplo.
Sean los conjuntos: = 1. 2. 3 . 1 = 1. 3 . Se ve que: 1 , pero
1 , . Ahora, si C = (1. 3) . 2 . entonces 1 C.
Eventos especiales
El conjunto (universal) o es un evento seguro: cualquiera sea el resultado,
o ocurre. Como o es subconjunto de s mismo (o o), se tiene el conjunto
vaco: O = o o. llamado evento imposible: cualquiera sea el resultado, O
no ocurre
6
.
Usando O se dice que dos eventos y 1 son mutuamente excluyentes
si 1 = O.
Usando ( 1 = O).o. se dice que los eventos
1
.
2
. ....
a
forman una
particin de o si los eventos son:
(a)
i

)
= O. \i ,= ,. i. , = 1. 2. .... :. (mutuamente excluyentes) y
(b)
n

i=1

i
= S. (exhaustivos).
6
Notar que O es siempre subconjunto de todo S:
64CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
2.6.1 Espacio de eventos
La forma de tratar la incertidumbre asociada a un resultado particular de
una prueba es asignando probabilidades a los eventos de inters. Dado que
se sabe que si o. es un evento, se procede a precisar la nocin de
eventos de inters.
Un espacio de eventos es un conjunto cuyos elementos son los eventos
de inters y los eventos relacionados: aquellos que se obtienen combinando
eventos de inters usando operaciones tericas de conjuntos. Es necesario
incluir tales eventos porque si se tiene inters por los eventos y 1, tambin
se est interesado (indirectamente) en . 1. ' 1. 1.
_

1

2
_
. etc.
Tericamente, es un conjunto de subcojuntos de o que es cerrado bajo
unin, interseccin y complemento: si estas operaciones se aplican a cualquier
elemento de , el resultado es tambin elemento de . Para todo conjunto
de resultados o. se pueden considerar dos espacios de eventos extremos:
(a) el espacio trivial de eventos:
0
= o, O y
(b) el conjunto potencia (el conjunto de todos los subconjuntos de o):
T (o) = : o .
Estos casos extremos no son interesantes porque:
(a) espacio trivial no contiene informacin: o y O se conocen a priori.
(b) A primera vista, el conjunto potencia de o parecera la eleccin natural
para el espacio de eventos, dado que incluye todos los eventos relevantes y se
cerrado bajo unin, inteseccin y complemento.
Ejemplo.
Lanzar una moneda dos veces, entonces:
o
2
= (oo) . (o) . (o) . ()
T (o
2
) =
_

_
o
2
. [(oo) . (o) . (o)] . [(oo) . (o) . ()] .
[(oo) . (o) . ()] . [() . (o) . (o)] .
[(oo) . (o)] . [(oo) . (o)] .
[(oo) . ()] . [(o) . (o)] . [(o) . ()] .
[(o) . ()] . [oo] . [o] . [o] . []
_

_
.
El conjunto potencia no siempre puede ser el espacio de eventos adecuado
porque, asumiendo que o es contable con N elementos, T (o) tendr 2
a
el-
ementos, siendo poco prctico para propsitos de modelacin. Por ejemplo,
2.6. FORMALIZACION DE [B] 65
al lanzar una moneda tres veces, o tiene ocho elementos lo que implica que
T (o) = 2
8
= 256 elementos; muchos para enumeralos.
Esto se complica ms si o es contable pero innito (como en ej. 6). En
este caso T (o) . aunque no es innito, tendr el orden de innitud de los
reales. Adems, cuando o no es contable, T (o) incluye subconjuntos que
no se pueden considerar eventos y no se les puede asignar probabilidades
(Billingsley, 1986). .
La forma de superar estas dicultades es evitar al conjunto potencia y
dotar al espacio de eventos de una estructura matemtica especca (un
campo o un o-campo) que asegure que si y 1 son eventos, todo otro evento
que resulte de combinar estos eventos con operaciones tericas de conjuntos
sern tambin elementos del mismo espacio de eventos. (Homeomorsmo).
Ejemplo.
Sea el ejemplo lanzar una moneda tres veces y asumir que los eventos
de inters son slo
1
= (ooo) y
2
= () . entonces no se necesita
denir al conjunto potencia como el espacio de eventos. En su lugar se puede
denir:

3
=
_
o
3
. O.
1
.
2
. (
1
'
2
) .
1
.
2
.
_

1

2
__
con ocho elementos y no 36 que contendra el conjunto potencia. Se
verica que
3
es cerrado bajo operaciones tericas:
(o
3
' O) = o
3

3
. (o
3
O) = O
3
. o
3
= O
3
.
_

1
'
2
_
=
_

1

2
_

3
. etc.
El concepto de espacio de eventos es importante en la formalizacin de la
condicin [b] de un experimento aleatorio, porque proporciona la estructura
matemtica necesaria para asignar correctamente probabilidades a eventos.
As, si y 1 son eventos de inters, tambin lo son los eventos relacionados
porque su ocurrencia o no da informacin sobre la ocurrencia de y 1 por
lo cual no se pueden ignorar al asignar probabilidades.
Campo
Una coleccin de subconjuntos de o es un campo si cumple:
(i) o .
(ii) si . .
66CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
(iii) si . 1 . ( ' 1) .
Signica que , = O (por (i)), es cerrado bajo complemento (debido a
(ii)), uniones nitas (debido a (iii)) e intersecciones nitas (debido a (ii) y
(iii)).
Ejemplos.
1. El conjunto potencia de un conjunto nito de resultados, como T (o
2
) .
es un campo.
2.
0
= o. O es el campo trivial de todo conjunto nito de resultados
o.
0
es un campo porque:
o
0
. o ' O = o . o O =O
0
y o O = o
0
.
3. () =
_
o. O. .
_
es el campo generado por el evento . () es
campo porque:
o () . o ' O = o () . o O =O () .
o O = o (). () .
_
'
_
= o () .
_

_
= O () . ( ' o) = o () .
( o) = () .
_
' o
_
= o () .
_
o
_
= () .
4. o. O. . 1 no es campo porque el evento ( ' 1) no es elemento de
este conjunto, a menos que 1:=.
5. o. O. . 1. ( ' 1) no es campo porque el evento ( 1) no es
elemento de este conjunto, a menos que ( 1) = O.
6.
_
o. .
_
no es campo porque no contiene O.
Generando un campo
Para ilustrar como se genera un campo a partir de un conjunto de eventos
de inters, considerar el caso donde el conjunto es 1
1
= . 1 . La gen-
eracin del campo se hace en relacin al ejemplo de lanzar una moneda
dos veces, donde o
2
= (oo) . (o) . (o) . () . = (oo) . (o) y
1 = (o) . (o) y el campo es el conjunto potencia T (o
2
) :
T (o
2
) =
_

_
o
2
. [(oo) . (o) . (o)] . [(oo) . (o) . ()] .
[(oo) . (o) . ()] . [() . (o) . (o)] .
[(oo) . (o)] . [(oo) . (o)] .
[(oo) . ()] . [(o) . (o)] . [(o) . ()] .
[(o) . ()] . [oo] . [o] . [o] . []
_

_
.
2.6. FORMALIZACION DE [B] 67
Paso 1. Formar el conjunto 1
2
=
_
o. O. . 1. . 1
_
que incluye los com-
plementos de y1. En el ejempo:
= (o) . () . 1 = (oo) . () .
Paso 2. Formar el conjunto que tambin incluye las intersecciones de
todos los elementos de 1
2
:
1
3
=
_
o. O. . 1. . 1. ( 1) .
_
1
_
.
_
1
_
.
_
1
__
. En el ejem-
plo,
( 1) = (o) .
_
1
_
= (o) .
_
1
_
= (oo) y
_
1
_
=
() .
Paso 3. Formar el conjunto que tambin incluye las uniones de todos los
elementos de 1
3
: T =
_
1
3
. ( ' 1) .
_
' 1
_
.
_
' 1
_
.
_
' 1
_
. etc.
_
.
En el ejemplo:
( ' 1) = (oo) . (o) . (o) .
_
' 1
_
= (o) . (o) . () .
_
' 1
_
=
(oo) . (o) . () .
_
' 1
_
= (oo) . (o) . () .
__
1
_
'
_
1
_
=
(oo) . (o) .
_
( 1) '
_
1
_
= (o) . () .
El conjunto potencia de o se ha generado. Notar que 1
1
1
2
1
3
T
y T es un campo. ste el menor campo conteniendo a 1
1
. se llama el campo
generado por 1
1
. y se denota por (1
1
) = T.
Ejemplo.
En el caso de lanzar una moneda tres veces:
o
3
= (ooo) . (oo) . (o) . (oo) . () . (o) . (o) . (oo) .
Si los eventos de inters, por ejemplo, son
1
= (ooo) y
2
= () .
el conjunto
1
.
2
no es un campo pero se puede generar un campo a partir
de este conjunto. En este caso el campo de eventos de inters es
7
:

3
=
_
o
3
. O.
1
.
2
. (
1
'
2
) .
1
.
2
.
_

1

2
__
.
Considerar los eventos
1
.
2
. ....
a
que constituyen una particin de
o, entonces el conjunto de todas las posibles uniones de elementos de / =
O.
1
.
2
. ....
a
forman un campo.
(/) = E : E = '
i1

i
. 1 _ 1. 2. 3. .... : .
7
De los ejemplos, la generacin de un campo usando operaciones tericas de conjuntos,
a partir de eventos de inters, no es un ejercicio simple en casos donde el nmero inicial
de eventos de inters es mayor que 2. La excepcin a esto es el caso donde los eventos
iniciales forman una particin de S:
68CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
Ejemplo.
Al lanzar una moneda tres veces:
o
3
= (ooo) . (oo) . (o) . (oo) . () . (o) . (o) . (oo) .
considerar los eventos:
1
= (ooo) . (oo) . (o) y
2
= (oo) . () . (o)
y
3
= (o) . (oo) . El conjunto
1
.
2
.
3
es una particin de o
3
.
El campo generado por esta particin tiene la forma:

3
= o
3
. O.
1
.
2
.
3
. (
1
'
2
) . (
1
'
3
) . (
2
'
3
) .
Este espacio de eventos es cerrado bajo unin, inteseccin y complemento.
El mtodo anterior se puede extender al caso donde o es innito, deniendo
una particin contable de l , es decir,
1
.
2
. ....
a
. ... =
i
. i N . El
conjunto de subconjuntos formado por / = O.
1
.
2
. ....
a
. ... toma la
forma:
(/) = E : E = '
i1

i
. 1 _ N .
y es una extensin de la nocin de campo, conocida como ocampo
8
y
ste es cerrado bajo uniones e intersecciones contables de eventos.
Una coleccin de subconjuntos de o es un ocampo si:
(i) o .
(ii) si . entonces .
(iii) si
i
para i = 1. 2. .... :. el conjunto '
o
i=1

i
.
De (ii) y (iii) y de la ley de Morgan:

o
i=1

i
. dado que '
o
i=1

i
=
o
i=1

i
.
Este es un ocampo, es no vaco y cerrado bajo uniones e intersecciones
contables, y proporciona la estructura matemtica ms general necesaria para
formalizar la nocin de espacio de eventos. Un campo es siempre un caso
especial de un ocampo.
8
Con frecuencia se usa el trmino lgebra (parece ms adecuado (Williams, 1991))
en lugar de campo (ms por razones histricas (Kolomogorov, 1933, lo usa)).
2.6. FORMALIZACION DE [B] 69
El o-campo de Borel
En teora de probabilidad el ocampo ms importante es el ocampo de
Borel (E(R))denido sobre R. Hasta aqu se han considerado ocampos
generados por un arbitrario o cuya nica estructura matemtica es la teora
de conjuntos. Desde luego, la recta real no es un conjunto en el mismo sentido
del conjunto de resultados del experimento lanzar una moneda dos veces.
sta tiene una estructura que permite denir orden, distancia, convergencia,
etc. de sus elementos. La estructura que aqu interesa es la que permite
denir convergencia, conocida como estructura topolgica. Dada la densidad
de R, la mejor forma de denir un o-campo en un conjunto innito es denirlo
a travs de sus elementos que pueden generar este conjunto. En el caso de
R, se pueden usar para generar un (E(R)), un nmero de distintos intervalos
tales como (c. ) . (c. /] . (c. /) . (. /). Para este propsito, es adecuado, en
particular, el intervalo (. r]. Por ejemplo, considerar cmo estos intervalos
((. r]) pueden generar el (E(R)) .
Iniciar con el un conjunto de subconjuntos de R de la forma:
1
a
= (. r] : r R .
que es cerrado bajo intersecciones nitas, es decir, \(r. ) R
(. r] (. ] = (. .] 1
a
. donde . = min (r. ) .
Entonces se procede a generar el o-campo generado por 1
a
(E(R))=
o (1
a
)) usando operaciones de conjuntos. (Ver Galambos, 1995).
Este E(R) incluye casi todos los subconjuntos de R, pero no todos: hay
subconjuntos de R que pertenecen a T (R) pero no a E(R) . es decir:
E(R) T (R) y E(R) ,= T (R) .
Sin embargo, E(R) incluye todos los subconjuntos que usualmente se
encuentran en la prctica, tales como:
(c. ) . (c. /] . c . (c. /) . \c < /. (c. /) R.
en el sentido que ellos se pueden crear usando operaciones de conjuntos de
unin, interseccin y complemento en conjuncin con intervalos de la forma
siguiente:
70CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
(c. ) = (. c] =(c. ) E(R) .
(c. /] = (. /] (c. ) =(c. /] E(R) .
c =
o

a=1
_
c
1
:
. c
_
=c E(R) . etc.
Hasta ahora:
c
_
_
_
[a] =o,
[b] =(. ?) .
[c] =(?) .
_
_
_
2.6.2 Nocin matemtica de probabilidad
El siguiente paso en la formalizacin de la condicin [b] que dene un exper-
miento aleatorio es asignar probabilidades a los eventos de inters especica-
dos por el espacio de eventos. Para esto, se dene la probabilidad P(.) como
una funcin
9
del espacio de eventos al intervalo [0. 1]:
P(.) : [0. 1]
que satisface los axiomas
10
:
[1] P(o) = 1. \o.
[2] P() _ 0. \ .
[3] Aditividad contable. Para un sucesin de eventos mutuamente ex-
cluyentes, es decir,
i
. i = 1. 2. .... : tal que
i

)
= O. \i ,= ,. i. , =
1. 2. .... : entonces P('
o
i=1
) =

o
i=1
P(
i
) .
El axioma [3] proporciona una forma de asignar probabilidades a eventos
utilizando eventos mutuamente excluyentes. Este mecanismo se describe
utilizando distintos tipos de conjuntos de resultados.
(a) Conjunto nito de resultados o = :
1
. :
2
. .... :
a
.
9
Una funcin f : A B es una relacin (todo subconjunto del producto cartesiano
A B) entre los conjuntos A y B que satisface la restriccin de que \x A, existe un
elemento nico y B tal que (x; y) f: Los conjuntos A y B son el dominio y el codominio
de la funcin f () : El conjunto G = (x; y) f : x A; y B es el grco de la funcin.
10
Concebir a la probabilidad como una medida en el contexto de la teora avanzada de
la integracin llamada teora de la medida, llev a Kolmogorov (1933) a axiomatizar la
teora de la probabilidad.
2.6. FORMALIZACION DE [B] 71
En este caso los resultados elementales :
1
. :
2
. .... :
a
son, por denicin,
mutuamente excluyentes y adems '
a
i=1
:
i
= o. es decir, los eventos :
1
. :
2
. .... :
a
.
conforman una particin de o. El axioma [3] implica que
P('
a
i=1
:
i
) =

a
i=1
P(:
i
) = 1 (por axioma [1])
y sugiere que la asignacin de probabilidades a los resultados proporciona
la distribucin de probabilidad simple sobre o :
[j (:
1
) . j (:
2
) . .... j (:
a
)] . tal que

a
i=1
j (:
i
) = 1.
La probabilidad del evento en es entonces denida como sigue:
1. Expresar en trminos de los resultados elementales: = :
1
. :
2
. .... :
I
.
2. Derivar la probabilidad de sumando las probabilidades de los resul-
tatos :
1
. :
2
. .... :
I
. dado que ellos son mutuamente excluyentes:
P() = j (:
1
) +j (:
2
) +. .... +j (:
I
) =

I
i=1
j (:
i
) .
Ejemplos.
1. Sea el experimento aleatorio de lanzar una moneda tres veces siendo
el espacio de eventos el conjunto potencia de:
o
3
= (ooo) . (oo) . (o) . (oo) . () . (o) . (o) . (oo) .
Sean
1
= (ooo) y
2
= () . Obtener las probabilidades de los
eventos
3
:= (
1
'
2
) .
4
:=
1
.
5
:=
2
y
6
:=
_

1

2
_
.
P(
3
) = P(
1
) +P(
2
) =
1
8
+
1
8
=
1
4
.
P(
4
) = P(o
3
) P(
1
) = 1
1
8
=
7
8
.
P(
5
) = P(o
3
) P(
2
) = 1
1
8
=
7
8
.
P(
6
) = P
_

1

2
_
= 1 P(
1
'
2
) =
3
4
2. En el experimento aleatorio lanzar una moneda dos veces, consid-
erar la asignacin de probabilidades al evento: = (oo) . (o) . (o) . La
distribucin de probabilidad toma la forma:
72CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
_
P(oo) =
1
4
. P(o) =
1
4
. P(o) =
1
4
_
.
Esto sugiere que P() = P(oo) + P(o) +P(o) =
3
4
.
En el caso donde o es innito esta forma de asignar probabilidades no es
apropiada. Una forma ms eciente de hacerlo es dada por el concepto de
funcin de densidad denida en el capitulo que siguiente.
(b) Conjunto contable de resultados: o = :
1
. :
2
. .... :
a
. ... .
Es una extensin del caso nito donde los resultados elementales :
1
. :
2
. .... :
a
. ...
son mutuamente excluyentes y conforman una particin de o. es decir, '
o
i=1
:
i
=
o. El axioma [3] implica que P('
o
i=1
:
i
) =

o
i=1
P(:
i
) = 1 (por axioma [1])
y sugiere que la asignacin de probabilidades a los resultados proporciona la
distribucin de probabilidad sobre o :
[j (:
1
) . j (:
2
) . .... j (:
a
) . ...] . tal que

o
i=1
j (:
i
) = 1.
La probabilidad del evento en (que puede coincidir con el conjunto
potencia de o) es denida por:
P() = j (:
1
) +j (:
2
) +... +j (:
a
) +... =

o
i=1
j (:
i
) .
En contraste con el caso nito, las probabilidades [j (:
1
) . j (:
2
) . .... j (:
a
) . ...]
no pueden ser iguales porque \j 0. no obstante pequea, donde j (:
a
) = j
\: = 1. 2. 3. .... es decir \j 0.

o
i=1
j = .
Notar que la nica forma de acotar esta suma es hacer que j sea funcin
de :. por ejemplo, j
a
=
1
a
:

o
i=1
1
a
I
< . para / 1.
Ejemplo.
Considerar el caso, lanzar una moneda no perfecta hasta que aparezca
un sol siendo el espacio de eventos el conjunto potencia de
o
4
= (o) . (o) . (o) . (o) . (o) . .... .
Aqu,
P(o) = o y P() = 1 o y P(o) = (1 o) o. P(o) = (1 o)
2
o.
P(o) = (1 o)
3
o. P(o) = (1 o)
4
o. P(...o) = (1 o)
a
o.
etc.
(c) Conjunto no contable de resultados o.
Sin prdida de generalidad, considerar:
2.6. FORMALIZACION DE [B] 73
o = r : 0 _ r _ 1. r R .
Para usar el axioma [3] este intervalo se puede expresar como unin con-
table de conjuntos disjuntos
i
. i = 1. 2. 3. ...
[0. 1] = '
o
i=1

i
donde
i

)
= O. i ,= ,; i. , = 1. 2. ... y P(
i
) es la misma \
i
. i =
1. 2. 3. ...Pero esto conduce a inconsistencias porque del axioma [3]: P([0. 1]) =
P('
o
i=1

i
) =

o
i=1
P(
i
) . y entonces P([0. 1]) = 0. si P(
i
) = 0, o P([0. 1]) =
. si P(
i
) 0. (En ningn caso la suma es 1).
Este intento fracasa debido a la naturaleza de los conjuntos disjuntos

i
. i = 1. 2. 3. ...Ellos son elementos del conjunto potencia T [(0. 1)] . pero no
necesariamente elementos de un ocampo asociado a este intervalo. Como
se dijo antes, la estructura matemtica necesaria para una asignacin consis-
tente de probabilidades es la de un ocampo.
Cmo asignar probabilidades en el caso de un conjunto no contable de
resultados?. La cuestin es saber si se puede iniciar con una clase arbitraria
de subconjuntos de o, por ejemplo, T, con P(.) denida para todo elemento
de T, y entonces proceder a extenderla a un ocampo generado por T. Esto
se puede hacer slo si T es un campo. Esto se debe a que el axioma [3]
restringue la asignacin de probabilidades a uniones contables de conjuntos
disjuntos. Y, dada una unin arbitraria de elementos de T, esta se puede
expresar como unin contable de conjuntos disjuntos slo si T es un campo.
Matemticamente, la extensin de la asignacin de probabilidades de un
conjunto de eventos a un espacio de eventos se logra iniciando con un
campo T y expresndolo como una unin contable de conjuntos disjuntos so-
bre los cuales P(.) esta denida. Se puede entonces extender T al ocampo
generado por T. denotado por = o (T) . obtenido mediante complementos,
intersecciones y uniones contables de los elementos de T. Denida la funcin
de probabilidad P(.) sobre T. se puede entonces proceder a extenderla a to-
dos los elementos de , usando el teorema de extensin de Caratheroodory
(Williams, 1991).
Ejemplo.
Este procedimiento se ilustra mejor en el caso donde o = R y el ocampo
es E(R) que es generado por subconjuntos de la forma: 1
a
= (. r] : r R .
Primero se dene P(.) sobre 1
a
y entonces se procede a extenderla a todos los
74CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
subconjuntos de la forma: (c. ) . (c. /] . c . (c. /) \c. / R, c < /. usando
el teorema de extensin de Caratheroodory.
Adems de estas propiedades, el axioma de aditividad contable es tambin
necesario para asegurar la continuidad de la funcin de probabilidad que se
describe en la siguiente subseccin.
2.6.3 Espacio de probabilidad [o. . P(.)]
Matemticamente, esto completa la formalizacin de las dos primeras condi-
ciones que denen un experimento aleatorio
c
_
[a] o.
[b] (. P(.))
_
donde es el ocampo de subconjuntos de o llamado espacio de eventos
y P(.) es una funcin (de probabilidad) que satisface los axiomas [1]-[3]. La
terna
(o. . P(.))
dene un espacio de probabilidad
11
. Este espacio tiene la estructura
matemtica necesaria para usarse como fundamento para construir la teora
de la probabilidad.
Generalmente, en la aproximacin matemtica, el siguiente paso es
(o. . P(.))
lgica matemtica
Teora de probabilidad
Aqu, siendo el objetivo la modelacion:
(o. . P(.)) Modelo de probabilidad Teora de probabilidad
2.6.4 Deduccin matemtica
Como ciencia deductiva, la matemtica:
Axiomas (premisas)
lgica deductica
Teoremas
11
Pfeier (1978) y Khazanie (1976).
2.6. FORMALIZACION DE [B] 75
Como ilustracin, se derivan algunos teoremas del espacio de probabilidad
deducido antes.
Asumiendo que los axiomas [1]-[3] son verdaderos, se derivan corolarios
que dan una descripcin ms completa del marco matemtico de referencia.
Teorema 1. P
_

_
= 1 P() .
Prueba. Como ' = o y = O. P(o) = 1 = P
_
'
_
=
P
_

_
+P() . =P
_

_
= 1 P() q.e.d.
La primera igualdad por [1], la segunda por que ' = o y la tercera
porque = O y por [3].
Ejemplo.
Lanzar una moneda dos veces y sea = (oo) . (o) . (o) . Como
= () . por teorema 1, P
_

_
= 1 P() = 1
3
4
=
1
4
.
Usando el teorema 1 en el caso donde = o (y entonces = O) se
deduce:
Teorema 2. P(O) = 0.
El teorema que sigue extiende el axioma [2] al caso de eventos no mutu-
amente excluyentes.
Teorema 3. P( ' 1) = P() +P(1) P( 1) .
Prueba. Se dene '1 en trminos de eventos mutuamente excluyentes
y entonces se usa [3]. Los eventos C = ( 1) y 1 son mutuamente
excluyentes y C ' 1 = ' 1. Entonces, por [3]:
P( ' 1) = P(C ' 1) = P ( 1)+P(1) = P()+P(1)P( 1) .
Ejemplo.
Para denido en ejemplo 1 y 1 = (oo) . () . el teorema 3 implica
que P( ' 1) =
3
4
+
1
2

1
4
= 1.
El teorema que sigue es de gran inters matemtico. Se da una prueba
slo parcial. Una prueba completa est en Karr (1993).
Teorema 4. (propiedad de continuidad de la funcin de probabil-
idad). Para
a

o
a=1
. si |i:
ao

a
= . entonces |i:
ao
P(
a
) = P() .
Segn este teorema, el lmite de una sucesin de eventos es tambin un
evento. ?Qu signicado dar a esto?. Una respuesta parcial se da notando
que para dos tipos especiales de sucesiones, el lmite se dene en trminos de
uniones e intersecciones contables.
76CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
Sucesin no decreciente. Una sucesin de eventos
a

o
a=1
es no de-
creciente si
1

2

a

a1

a2
Para tal secuencia,
|i:
ao

a
= '
o
a=1

a
.
Sucesin no creciente. Una sucesin de eventos
a

o
a=1
es no creciente
si
1

2

a

a1

a2
Para tal sucesin, |i:
ao

a
=

o
a=1

a
.
Ahora se considera una prueba parcial del teorema 4 referida slo a suce-
siones no decrecientes. En este caso, |i:
ao

a
= '
o
a=1

a
. Este lmite se
puede expresar en la forma de eventos mutuamente excluyentes de la forma
(
I1

I
) y (
)1

)
) para / ,= ,. que tiene las propiedades:
(
I1

I
) (
)1

)
) = O. P(
I1

I
) = P(
I1
) P(
I
) .
Usando tales eventos y asumiendo que
0
= O. se puede denir
a
como:
|i:
ao
(
a
) =
o
_
a=1

a
=
1
+ (
2

1
) + (
3

2
) +
Para = |i:
ao
(
a
) . (de la relacin anterior y del axioma [3]):
P
_
|i:
ao

a
_
= P(
1
) +P(
2

1
) + +P(
I1

I
) +
= P(
1
) +P(
2
) P(
1
) + +P(
I1
) P(
I
) +
= |i:
ao
P(
a
) .
Esto signica que la funcin de probabilidad P es continua por la izquierda.
La prueba general del teorema requiere hacerlo para secuencias no crecientes
(continuidad por la derecha) secuencias nulas (continuidad en O). Ver Shiryayev
(1984).
Un teorema relacionado es la desigualdad de Bonferroni. Se enuncia sin
prueba. Ver Chung (1974), Feller (1968).
Teorema 5. P
_
a

I=1

I
_
_ 1

a
I=1
P
_

I
_
.
I
. / = 1. 2. .... :.
2.7. FORMALIZACINDELACONDICIN[C]: PRUEBAS ALEATORIAS77
2.7 Formalizacin de la condicin [c]: pruebas
aleatorias
La condicin [c] contiene dos componentes interrelacionados:
(i) las circunstancias del experimento son las mismas en toda prueba y
(ii) el resultado de una prueba no afecta el de otra.
Para formalizar (i) (sucesin nita de pruebas), sea esta sucesin de :
pruebas /
1
. /
2
. .... /
a
y cada prueba se asocia con un espacio de probabil-
idad (o
i
.
i
. P
i
(.)), i = 1. 2. .... :. respectivamente. Para analizar la relacin
entre pruebas stas se agrupan en un espacio de probabilidad (sin l no se
puede formalizar la condicin [c]). El espacio de probabilidad que ello sugiere
es el espacio de probabilidad producto :
(o
1
.
1
. P
1
(.)) (o
2
.
2
. P
2
(.)) (o
a
.
a
. P
a
(.)) .
que se concibe como una terna de la forma:
([o
1
o
2
o
a
] [
1

2

a
] [P
1
P
2
P
a
]) :=
:=
_
o
(a)
.
(a)
. P
(a)
_
Este es un espacio de probabildad porque o
(a)
=
_
:
(a)
: :
(a)
:= (:
1
. :
2
. .... :
a
) . :
i
o
i
. i = 1. 2. .... :
_
es un conjunto de resultados,
(a)
tiene la estructura necesaria de un ocampo
(para : nito) y P
(a)
es una funcin satisface los axiomas [1]-[3]. (Ver Parthasarathy,
1977).
Establecido que el espacio de probabilidad producto es un espacio de
probabilidad, se procede a ver la sucesin de pruebas /
1
. /
2
. .... /
a
como
un evento en
_
o
(a)
.
(a)
. P
(a)
_
. al que se le pueden asignar probabilidades.
El componente (i) de la condicin [c] se formaliza asegurando que
_
o
(a)
.
(a)
. P
(a)
_
es el mismo en cada prueba en el sentido de que:
(o
i
.
i
. P
i
(.)) = (o. . P(.)) . \i = 1. 2. .... :.
Se llama condicin de distribucin idntica (ID). Ms formalmente,
esta condicin reduce el espacio producto de probabilidad
_
o
(a)
.
(a)
. P
(a)
_
a:
(o. . P(.)) (o. . P(.)) (o. . P(.)) = (o. . P(.))
a
con el mismo espacio de probabilidad asociado a cada prueba.
78CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
El componente (ii) de la condicin [c] se formaliza bajo la forma de inde-
pendencia entre las pruebas: dado el resultado de una prueba ,. las proba-
bilidades asociadas con los distintos resultados en la prueba i no cambian y
viceversa. La idea de dado el resultado de una prueba ,. el resultado de la
prueba i no es afectado se formaliza usando la nocin de condicionalidad.
2.7.1 Probabilidad condicional e independencia
La nocin de condicionalidad surge cuando se tiene informacin adicional
sobre el experimento en cuestin. En el caso de lanzar una moneda dos veces,
si se sabe que el resultado tendr al menos una cara, esta informacin afectar
las probabilidades de ciertos eventos. Dada esta informacin el resultado
(oo) no es ya posible y entonces los resultados (o) . (o) . () ahora
tienen probabilidades de
1
3
y no de
1
4
como antes.
Se obtienen probabilidades condicionales utilizando la frmula:
P([1) =
P( 1)
P(1)
. para P(1) 0.
\ evento . donde P(.) es la funcin de probabilidad original denida
en .
Ejemplo.
Vericar esto, con = o y con 1. Como ( 1) = o . P([1) =
1
4
3
4
=
1
3
.
Usando la frmula condicional, de deduce la regla de probabilidad pro-
ducto:
P( 1) = P([1) P(1) = P(1[) P()
Combinando ambas frmulas se obtiene la de Bayes:
P([1) =
P() P(1[)
P(1)
. para P(1) 0.
Independencia. La nocin de condicionamiento se puede usar para de-
terminar si dos eventos y 1 son independientes, lo que ocurre si: P([1) =
P() . o alternativamente, si P( 1) = P() P(1)
12
.
Ejemplo. (Lanzar dos monedas).
12
Esta nocin de independencia se remonta a Cardano (1550).
2.8. ESPACIO ESTADSTICO 79
Para = (oo) . () y 1 = () . (o), ( 1) = () . y
entonces P( 1) =
1
4
= P()P(1) . implicado que y 1 son independi-
entes.
Con ms generalidad, los eventos
1
.
2
. ....
a
son independientes s y
slo s
P(
1

2
. ....
a
) = P(
1
) P(
2
) P(
I
) . / = 2. 3. .... :.
2.8 Espacio estadstico
Ahora se formaliza el componente (ii) de la condicin [c].
Espacio muestral. Una sucesin de : pruebas (
a
= /
1
. /
2
. .... /
a
,
donde /
i
es la prueba i-sima del experimento, asociada con
_
o
(a)
.
(a)
. P
(a)
_
,
es un espacio muestral.
Como se dijo antes, las : pruebas (
a
= /
1
. /
2
. .... /
a
se consideran un
evento en
_
o
(a)
.
(a)
. P
(a)
_
. Como evento, se le pueden asignar probabildades
usanto la funcion P
(a)
. Por lo tanto, se formaliza (ii) postulando que las
pruebas son independientes si
13
[ii] P
(a)
(/
1
/
2
. .... /
I
) = P
1
(/
1
) P
2
(/
2
) P
I
(/
I
) . / = 2. 3. .... :.
o
[ii]
+
P
(a)
(/
I
[ /
1
/
2
. .... /
I1
. /
I+1
... /
a
) = P
I
(/
I
) . / = 1. 2. 3. .... :.
Tomando las condiciones I e ID se dene una sucesin de experimentos
aleatorios: una sucesin de pruebas (
111
a
= /
1
. /
2
. .... /
a
. es decir,
P
(a)
(/
1
/
2
. .... /
I
) = P(/
1
) P(/
2
) P(/
I
) . / = 2. 3. .... :.
es una sucesin de pruebas aleatorias
14
.
13
Notar que P
(n)
() y P
(k)
() son distintas funciones de probabilidad siendo sus espa-
cios de probabilidad, respectivamente,
_
S
(n)

(n)
P
(n)
()
_
y
_
S
(k)

(k)
P
(k)
()
_
(ver
Pfeier, 1978).
14
Notar que (
IID
n
es una forma particular de un espacio muestral (
n
asociado con
_
S
(n)
;
(n)
; P
(n)
()
_
en el sentido que (
IID
n
est asociado con (S; ; P())
n
:
80CAPTULO2. TEORADEPROBABILIDAD: UNMARCODEREFERENCIAPARALAMODELACIN
Combinando un espacio de probabilidad producto y una sucesin de prue-
bas aleatorias se dene un espacio estadstico simple, denotado por:
_
(o. . P(.))
a
. (
111
a

.
Es simple porque es un caso particular de la formulacin ms general de
espacio estadstico:
__
o
(a)
.
(a)
. P
(a)
(.)
_
. (
a

.
donde cada prueba, por decir, /
1
. est asociada con un espacio de proba-
bilidad distinto (o
i
.
i
. P
i
(.)) (es decir, no ID) y las pruebas no son necesari-
amente independientes. En campos como la econometra se necesita utilizar
la formulacin ms general.
La primera formalizacin completa de la nocin de experimento aleatorio
es el espacio estadstico simple
_
(o. . P(.))
a
. (
111
a

. Sin embargo, esta for-


mulacin es muy abstracta porque implica conjuntos arbitrarios y conjuntos
de funciones, no nmeros ni funciones numricas ms familiares en los cursos
de clculo. En el captulo siguiente a dicho espacio se le da una forma ms
manipulable mapeando esta estructura matemtica en la recta real.
En resumen:
c =
_
_
[a]
[b]
[c]
_
_
=
=
=
_
_
o
. P(.)
(
a
_
_
=
_
(o. . P(.))
a
. (
111
a

.
Se ha dado una introduccin a la teora de la probabilidad formalizando
un mecanismo aleatorio simple llamado experimento aleatorio. La nocin de
espacio estadstico da el fundamento matemtico de la teora de la probabil-
idad. En los dos captulos siguientes: EES MES, para ello:
1. EES = , (r; o) . o . r R .
2. Espacio muestral Modelo muestral (llamado muestra aleatoria: un
conjunto de variables aleatorias X =(A
1
. A
2
. ... A
a
) que son 111).
4. MES datos.
5. En los captulos 6-8 se extiende la nocin de modelo estadstico mues-
tral para modelar datos econmicos que exhiben regularidad aleatoria ms
all de la muestra aleatoria tales como ciclos comerciales, crecimiento y uc-
tuaciones en tasas de cambio.
Captulo 3
El concepto de modelo de
probabilidad
3.1 Introduccin
3.1.1 La historia hasta ahora
En el captulo anterior hemos iniciado el largo viaje para explorar la teora
de la probabilidad que se reere a la conguracin de un marco de referen-
cia terico (matemtico) para modelar fenmenos estocsticos: fenmenos
observables que muestran regularidad aleatoria. El camino particular que
seguimos se inici con la formalizacin de la nocin de un experimento aleato-
rio c, denido por las siguientes condiciones:
[a] todos los posibles distintos resultados se conocen a priori,
[b] en un ensayo particular, los resultados no se conocen a priori, sino que
existe una regularidad perceptible de ocurrencia, asociada con estos resulta-
dos y
[c] se puede repetir en condiciones idnticas.
La matematizacin tom la forma de un espacio estadstico
_
(o. . P(.))
a
. (
111
a

donde (o. . P(.)) es un espacio de probabilidad y (


111
a
es un espacio mues-
tral simple.
El objetivo principal de este captulo es transformar el espacio abstracto
de probabilidad (o. . P(.)) en algo apropiado para la modelacin emprica
utilizando datos numricos; algo denido en la recta real. El objetivo nal de
este captulo es la formulacin de lo que llamamos un modelo de probabil-
idad, uno de los dos pilares de un modelo estadstico; y el otro es el modelo
81
82 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
muestral que ser el tema del siguiente captulo en el que consideramos la
metamorfosis de (
111
a
.
3.1.2 Porqu nos interesa?
El espacio estadstico, aunque adecuado para propsitos matemticos, no se
presta naturalmente para la modelacin de fenmenos estocsticos. Fen-
menos estocsticos, tales como la tasa de crecimiento y la inacin de la
economa, se observan a menudo en forma de datos numricos y no en tr-
minos de eventos abstractos. Por lo tanto, para propsitos de modelizacin
tenemos que transformar el abstracto espacio estadstico, denido en trmi-
nos de eventos y funciones conjunto, en algo menos abstracto, denido en
trminos de nmeros y funciones numricas.
3.1.3 Una vista panormica del captulo
El modus operandi de esta transformacin es el concepto de variable aleato-
ria, uno de los conceptos principales de la teora de la probabilidad. Su fun-
cin principal es que nos permite mapear el espacio estadstico
_
(o. . P(.))
a
. (
111
a

en la recta real (R). En un intento por dilucidar el papel de este importante


concepto discutimos la transformacin del abstracto espacio de probabilidad
(o. . P(.)), en un modelo de probabilidad mucho ms simple, con el mnimo
de maquinaria matemtica, en la seccin 2 para el caso donde el conjunto de
resultados es numerable. En la seccin 3 consideramos el concepto de variable
aleatoria en un entorno general. En la seccin 4 completamos la cadena de
transformaciones discutiendo el ltimo eslabn: la distribucin acumulada y
las funciones de densidad que constituyen el elemento bsico de un modelo
de probabilidad. En la seccin 5 reunimos los resultados de las secciones
anteriores y completamos la transformacin del espacio de probabilidad en
un modelo de probabilidad (intercambiamos un espacio por un modelo!).
En las secciones 6 y 7 tomamos una digresin importante en un intento
por relacionar los parmetros desconocidos (el enfoque de la inferencia es-
tadstica paramtrica) con las caractersticas numricas de las distributiones.
Introducimos numerosos conceptos de valor, como los momentos de una dis-
tribucin, que resultarn imprescindibles en el contexto de la modelacin,
as como de la inferencia estadstica. Baste decir que la modelizacinse hace
a menudo a travs de los momentos de una distribucin. En la seccin 8
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 83
exponemos varias desigualdades probabilsticas que relacionan proposiciones
probabilsticas para una variable aleatoria A y ciertos momentos.
3.2 El concepto de variable aleatoria simple
Con el n de ayudar al lector a mantener un ojo en el bosque decimos desde
el principio que el mapeo del espacio de probabilidad (o. . P(.)) a la recta
real (R) se llevar a cabo en tres pasos. El primer paso es mapear o en la
recta real R, de tal manera que se preserve la estructura del evento de inters
; el concepto de variable aleatoria A. Armados con el concepto de variable
aleatoria procedemos a dar el segundo paso, que equivale a intercambiar la
funcin conjunto probabilidad
P(.) : [0. 1]
por una funcin numrica mucho ms simple punto a punto, la funcin
de distribucin acumulada (fda), denida en trminos de A :
1
A
(.) : R [0. 1]
El tercer paso es simplicar la fda transformndola en la funcin de
densidad:
,
A
(.) : R [0. )
La nocin de modelo de probabilidad se dene a menudo en trminos de
la funcin de densidad.
Desde el punto de vista matemtico, es siempre ms satisfactorio denir
un concepto en toda su generalidad y luego proceder a analizar los casos
especiales. Desde el punto de vista pedaggico, sin embargo, con frecuencia
es mejor comenzar la discusin con el caso ms simple y, a continuacin, pro-
ceder a la formulacin ms general con el n de ayudar al lector a comprender
el concepto sin maquinaria matemtica indebida. En el caso del concepto de
variable aleatoria lo que hace que la denicin sea fcil o no tan fcil, desde
el punto de vista matemtico, es si el conjunto de resultados es contable o
no. En el caso de un conjunto contable de resultados, la variable aleatoria se
dice que es simple (o discreta) ya que toma un nmero numerable de valores.
Para ayudar al lector a comprender el concepto moderno de variable aleato-
ria y cmo se transforma el abstracto espacio estadstico en algo mucho ms
84 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
fcil de manejar, la discusin se inicia con el caso ms simple y despus se
discuten los ms complicados:
(i) el conjunto de resultados es nito,
(ii) el conjunto de resultados es innito numerable,
(iii) el conjunto de resultados no es numerable
3.2.1 Conjunto nito de resultados: o = :
1
. :
2
. .... :
n

Una variable aleatoria simple con respecto al espacio de eventos , se


dene como una funcin
A (.) : o R
A
tal que
A
:= : : A (:) = r para todo r R (3.1)
Heursticamente, una variable aleatoria es una funcin que asigna nmeros
a todos los elementos de o en una manera que preserva la estructura del
espacio de eventos .
Ejemplo.
La funcin A (.) : o R
A
= 1. 2 . donde o = A. . . ' denida
por
A (A) = A () = 1. A () = A (') = 2
es una variable aleatoria con respecto al espacio de eventos
= o. O. A. . . '
Esto se debe a que los eventos asociados con R
A
= 1. 2:

1
= : : A (:) = 1 = A. y
2
= : : A (:) = 2 = . '
son eventos que pertenecen a .
Contraejemplo
La funcin 1 (.) : o R
Y
= 0. 1 . denida por
1 (') = 0. 1 (A) = 1 () = 1. A () = 1 (3.2)
no es una variable aleatoria respecto a porque el evento : : 1 (:) = 0 =
' , .
Hay varias cosas que tener en cuenta sobre la denicin anterior:
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 85
En primer lugar, el nombre de variable aleatoria es algo inapropiado. La
denicin de variable aleatoria (3.1) no tiene nada que ver con probabilidades
y por lo tanto, no es ni aleatoria ni variable, es slo una funcin real.
En segundo lugar, el concepto de variable aleatoria se dene siempre
en relacin con un espacio para eventos ; si o no A (.) satisface la condicin
(3.1) depende de , no de P(.). El hecho de que una cierta funcin real no sea
una variable aleatoria con respecto a particular, no signica que no puede
ser una variable aleatoria con respecto a algn otro espacio de eventos. En
efecto, para toda funcin 1 (.) : o R
Y
podemos siempre denir un campo

Y
con respecto al que 1 (.) es una variable aleatoria; llamamos
Y
el campo
generado por 1 (.); ver Bhat (1985).
Figura 3.1 La preimagen de una funcin.
Ejemplo
En el caso de 1 (.) como se dene en (3.2) podemos generar un espacio
para eventos
Y
con respecto al cual es una variable aleatoria simple, de la
siguiente manera
(i) denir todos los eventos asociados con 1 (.) :
: : 1 (:) = 1 = A. . . : : 1 (:) = 0 = ' .
(ii) generar un campo usando los eventos derivados en (i):

Y
:= o (1 ) = o. O. A. . . ' .

Y
:= o (1 ) es conocido como el mnimo campo generado por la variable
aleatoria 1.
86 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Tercero, el conjunto
A
no es un conjunto sobre la recta real, es la
preimagen de A en A = r que tambin puede ser denotada por:

A
= : : A (:) = r = A
1
(r) . r R.
NOTE que la preimagen de A no es la funcin inversa habitual. El
concepto de una preimagen de un elemento del codominio se ilustra en la
gura 3.1.
Cuarto, los valores de R que no pertenecen a R
a
tienen al conjunto vacio
O como su preimagen. El conjunto vaco, sin embargo, pertenece siempre a
todo :
A
1
(r) = : : A (:) = r = O . \r R
a
:= (R R
a
) .
En un cierto sentido, el concepto de variable aleatoria conserva la estruc-
tura de eventos de un espacio particular de eventos , al asegurar que la
preimagen de la funcin A (.) : o R
A
, dene un mapeo
A
1
(.) : R
donde \r R
A
, A
1
(r) y \r , R
A
, A
1
(r) = O . Esto divide
la recta real en dos subconjuntos, R
A
y R
A
, con el primero asociado con
la estructura de eventos de inters y el segundo con todo lo que carece de
inters.
Quinto, la naturaleza de la variable aleatoria depende fundamentalmente
del tamao del campo en cuestin. Si es pequeo, ser una variable aleatoria
con respecto a es muy restrictivo. Por ejemplo en el caso
0
= o. O la
nica A (.) : o R que es una variable aleatoria con respecto a
0
es
A (:) = c. \: o; siendo c una constante A es una variable aleatoria
degenerada. Por otro lado, si es grande , por decir el conjunto potencia,
entonces se necesita mucha extraa imaginacin para denir una funcin
A (.) : o R que no es una variable aleatoria con respecto a el. Despus de
estas observaciones sobre la denicin de una variable aleatoria volvamos al
concepto mismo para considerar algunos ejemplos
Ejemplo.
Un ejemplo importante de una variable aleatoria simple es la funcin
indicador denida en relacin con un conjunto en como sigue:
I

(:) =
_
1. :
0. : ,
_
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 87
Vamos a demostrar que I

(:) es en realidad una variable aleatoria. Tomando


su preimagen se obtiene
I
1

(0) = y I
1

(1) = .
Sabemos que esto es cierto, porque si entonces . Esto
demuestra que la I

(.) es una variable aleatoria con respecto a . Adems,

=
_
. . o. O
_
es el mnimo espacio de eventos generado por la funcin
indicador.
Asignando probabilidades
Utilizando el concepto de variable aleatoria mapeamos o (un conjunto
arbitrario) en un subconjunto de la recta real (un conjunto de nmeros)
R
A
. Porque no queremos cambiar la estructura original de probabilidad
de (o. . P(.)) imponemos la condicin (3.1) para garantizar que todos los
eventos denidos en trminos de la variable aleatoria A pertenezcan al es-
pacio original de eventos . Tambin queremos asegurarnos de que a los
mismos eventos en el espacio de probabilidad original (o. . P(.)) y la nueva
formulacin, tal como
A
= : : A (:) = r, se les asignen las mismas prob-
abilidades. Con el n de asegurar esto, se dene la funcin punto ,
A
(.) que
llamamos funcin de densidad de la siguiente manera:
,
A
(.) = P(A = r) . \r R
A
. (3.4)
NOTE que (A = r) es una notacin abreviada para
A
:= : : A (:) = r.
Con claridad, r , R
A
, A
1
(r) = O y, por lo tanto, ,
A
(A) = 0, para toda
r , R
A
.
Ejemplo. En el caso de la funcin indicador, si permitimos que A (:) :=
I

(:), podemos denir la densidad de probabilidad de la siguiente manera:


,
A
(1) := P(A = 1) = o. y ,
A
(0) := P(A = 0) = (1 o) ,
donde 0 _ o _ 1. Esto se conoce como la densidad de Bernoulli:
r 0 1
,
A
(r) (1 o) o
Qu hemos ganado?
En el contexto del espacio de probabilidad original (o. . P(.)), donde
o = :
1
. :
2
. .... :
a
, la estructura probabilstica del experimento aleatorio se
ha especicado en trminos de
88 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
j (:
1
) . j (:
2
) . .... j (:
a
) . tal que
a

i=1
j (:
i
) = 1.
Armados con esto podemos asignar una probabilidad a cualquier evento
como sigue. Sabemos que todos los eventos son slo uniones
de ciertos resultados. Dado que los resultados tambin son eventos elemen-
tales mutuamente excluyentes, procedemos a utilizar el axioma [3] (vase
el captulo 2) para denir la probabilidad de como igual a la suma de
las probabilidades asignadas a cada uno de los resultados que componen el
evento , es decir, si = :
1
. :
2
. .... :
I
, entonces:
P() =
I

i=1
j (:
i
) .
Ejemplo
En el caso del experimento aleatorio de "lanzar una moneda dos veces":
o = (HH) . (H1) . (1H) . (11) . = (o) ,
donde (o) represesnta el conjunto potencia de o: el conjunto de todos
los subconjuntos de o (vase el captulo 2). La variable aleatoria de inters
se dene por: A- el nmero de "caras". Esto sugiere que los acontecimientos
de inters son:

0
= : : A = 0 = (11) ;

1
= : : A = 1 = (H1) . (1H) ;

2
= : : A = 2 = (HH) .
En el caso de una moneda no trucada, a los cuatro resultados se les da la
misma probabilidad y por lo tanto:
P(
0
) = P: : A = 0 = P(11) =
1
4
;
P(
1
) = P: : A = 1 = P(H1) . (1H) =
1
2
;
P(
2
) = P: : A = 2 = P(HH) =
1
4
.
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 89
Volviendo al tema principal de este captulo, podemos armar que usando
el concepto de variable aleatoria logramos la transformacin siguiente:
(o. . P(.))
A(.)
= (R
A
. ,
A
(.)) .
donde la estructura probabilistica original ha sido transformada en:
,
A
(r
1
) . ,
A
(r
2
) . .... ,
A
(r
n
) . tal que

n
i=1
,
A
(r
i
) = 1. : _ :;
esto se conoce como la distribucin de probabilidad de una variable
aleatoria A.
La cuestin que se plantea en este punto es en qu medida la ltima de-
scripcin de la estructura probabilstica es preferible a la primera. A primera
vista parece como si ninguna distancia se halla ganado por esta transforma-
cin. Sin embargo, esto es engaoso y una gran distancia se ha ganado por
dos razones:
(a) En lugar de tener que especicar ,
A
(r
1
) . ,
A
(r
2
) . .... ,
A
(r
a
) listn-
dolas, podemos utilizar funciones reales simples en forma de frmulas tales
como:
,
A
(r. o) = o
a
(1 o)
1a
. r = 0. 1. y 0 _ o _ 1. (3.6)
que especican la distribucin implcitamente. Para cada valor de A la
funcin ,
A
(r) especica su probabilidad. Esta frmula constituye una forma
ms compacta de especicar la distribucin dada anteriormente.
(b) Usando tales frmulas no es necesario conocer las probabilidades aso-
ciadas a los eventos de inters a priori. En el caso de la frmula anterior,
o podra ser desconocido y el conjunto de tales funciones de densidad se le
conoce como una familia de funciones de densidad indexadas por o. Esto
es particularmente importante para los propsitos de modelizacin donde
dicha coleccin de funciones de densidad proporciona la base de modelos
de probabilidad. En cierto sentido, la incertidumbre sobre el resultado de
una prueba particular (condicin [b] deniendo un experimento aleatorio) se
ha convertido en la incertidumbre sobre el "verdadero" valor del parmetro
desconocido o.
La distribucin denida por (3.6) se conoce como la distribucin de
Bernoulli. Esta distribucin se puede utilizar para describir los experimen-
tos aleatorios con slo dos resultados.
90 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Ejemplo
Considere el experimento aleatorio de "lanzar una moneda dos veces":
o = (HH) . (H1) . (1H) . (11) . =
_
o. O. .
_
.
donde el evento de inters es, por ejemplo = (HH) . (H1) . (1H),
con P() = o. P
_

_
= 1 o. Deniendo la variable aleatoria A() = 1
y A() = 0, la estructura probabilstica del experimento es descrita por
la densidad de Bernoulli (3.6). Este tipo de experimento aleatorio se puede
extender fcilmente a : repeticiones del mismo experimento de dos resultado,
dando origen a la distribucin llamada binomial discutida posteriormente.
Ejemplo
Considere el experimento aleatorio de "lanzar una moneda : veces y con-
tar el nmero de soles". El conjunto de resultados de este experimento se
dene por o = o.
a
(el producto de o. : veces) con P(o) = o.
P() = 1 o. Denir la variable aleatoria:
A: el nmero total de o en : pruebas.
NOTE que el rango de valores de esta nueva variable aleatoria es R
A
=
0. 1. 2. .... :. La variable aleatoria A est distribuida binomialmente y su
funcin de densidad para 0 _ r _ : es:
,
A
(r. o) =
_
:
r
_
o
a
(1 o)
aa
. 0 _ r _ :. : = 1. 2. .... 0 _ o _ 1. (3.7)
donde
_
:
r
_
=
a!
(aI)!I!
. con :! = :(: 1) (: 2) (3) (2) (1).
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 91
Figura 3.2 Binomial (: = 10, o = 0.15)
Figura 3.3 Binomial (: = 10, o = 0.5).
Esta frmula se puede representar grcamente para valores especcos
de o. En las guras 3.2 y 3.3 podemos ver la grca de la funcin de densidad
binomial (3.7) con : = 10 y dos diferentes valores del parmetro desconocido,
o = 0.15 y o = 0.5, respectivamente. El eje horizontal representa los valores
de la variable aleatoria A (R
A
= 0. 1. 2. 3. .... :) y el eje vertical representa
los valores de las probabilidades correspondientes, como se muestra debajo.
r 0 1 2 3 4 5 6 7
8 9 10
,(r; 0.15) 0.197 0.347 0.276 0.130 0.040 0.009 0.001 0.000 0.000
0.000 0.000
,(r; 0.5) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044
0.010 0.001
Para concluir esta subseccin, vale la pena destacar que los benecios
del uso de funciones de densidad son an ms evidentes en el caso de que
el conjunto de resultados o es innito pero contable. Como se muestra a
continuacin, en tal caso listar las probabilidades para cada : o en una
tabla es imposible. La asignacin de probabilidades utilizando una funcin
de densidad, sin embargo, hace que sea trivial.
3.2.2 Conjunto contable de resultados: o =:
1
. :
2
. .... :
n
. ...
Consideremos el caso del conjunto contable de resultados contables o =
:
1
. :
2
. .... :
a
. .... Se trata de una simple extensin del caso de conjunto
92 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
nito de resultados donde la estructura probabilstica del experimento se
expresa en trminos de:
j (:
1
) . j (:
2
) . .... j (:
a
) . ... . tal que
o

i=1
j (:
i
) = 1.
La probabilidad de un evento , es igual a la suma de las prob-
abilidades asignadas a cada uno de los resultados que conforman el evento
:
y
P() =
I

i:c
.

j (:
i
) .
Ejemplo.
Consideremos el experimento aleatorio aleatorio "lanzar una moneda hasta
que la primera H aparece" . El conjunto de resultados es:
o = (H) . (1H) . (11H) . (111H) . (1111H) . .... .
y sea el espacio de eventos el conjunto potencia de o. Si denimos la
variable aleatoria A(.) - el nmero de ensayos necesarios para obtener una
H, es decir
A(H) = 1. A(1H) = 2. A(11H) = 3. etc.,
y P(o) = o. entonces la funcin de densidad para este experimento es:
,
A
(r. o) = (1 o)
a1
o. 0 _ o _ 1. r R
A
= 1. 2. 3. ...
Esta es la funcin de densidad de la distribucin geomtrica. Esta
funcin de densidad se representa grcamente en las guras 3.4 - 3.5 para
: = 20 y dos valores diferentes del parmetro desconocido o = 0.20 y o =
0.35, respectivamente. En cuanto a los grcos podemos ver por qu se
llama Geomtrica: las probabilidades disminuyen geomtricamente cuando
los valores de A crecen.
3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 93
3.3 El concepto general de variable aleatoria
Despus de haber introducido los conceptos bsicos necesarios para la trans-
formacin del espacio abstracto de probabilidad (o. . P(.)) en algo ms
apropiado (y manejable) para propsitos de modelacin, utilizando el caso
ms simple de conjunto contable de resultados, procederemos ahora a explicar
estos conceptos en su plena generalidad.
3.3.1 Conjunto no contable de resultados
Como preludio a la discusin que sigue, vamos a ver por qu la estrategia
anterior de asignar probabilidades a cada uno de los resultados en el caso de
un conjunto no contable, por ejemplo o = R, no funciona. La razn es muy
simple: el conjunto de resultados tiene
Figura 3.4 Geomtrica (: = 20. o = 0.2) .
94 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Figura 3.5 Geomtrica (: = 20. o = 0.35) .
tantos elementos que es imposible colocarlos en una sucesin y por lo
tanto contarlos. Por lo tanto, cualquier intento de seguir el procedimiento
utilizado en el caso de conjunto contable de resultados dar lugar a dicul-
tades insalvables. Intuitivamente sabemos que no podemos cubrir la recta
real punto por punto. La nica manera de recubir R, o cualquiera de sus sub-
conjuntos incontables, es utilizar una sucesin de intervalos de cualesquiera
de las siguientes formas:
(c. /) . [c. /] . [c. /) . (. c] . donde c < /. c. / R.
Veremos en la secuela que la forma ms conveniente para tales intervalos
es
(. r] \r R.
Variable aleatoria
En vista de la discusin anterior, cualquier intento de denir una variable
aleatoria utilizando la denicin de una variable aleatoria simple:
A (.) : o R
A
tal que : : A (:) = r := A
1
(r) \r R (3.9)
est condenado al fracaso. Hemos convenido en que la nica manera
que podemos recubir R es el uso de intervalos no de puntos. Los intervalos
semiinnitos (3.8) sugieren la modicacin de los eventos : : A (:) = r de
(3.9) en eventos de la forma : : A (:) _ r.
Una variable aleatoria relativa a es una funcin A (.) : o R, que
satisface la restriccin:
: : A(:) _ r := A
1
((. r]) para todo r R. (3.10)
NOTE que la nica diferencia entre esta denicin y la de una variable
aleatoria simple se presenta en forma de los eventos utilizados. Adems,
teniendo en cuenta el hecho de que:
: : A(:) = r : : A(:) _ r
3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 95
esta ltima denicin incluye la primera como un caso especial, de ah el
trmino variable aleatoria simple. En principio, podramos haber empezado
la discusin con la denicin general de una variable aleatoria (3.10) y despus
aplicarla a los varios distintos tipos de conjuntos de resultados.
A patir de esta denicin podemos ver que la preimagen de la variable
aleatoria A(.) nos conduce desde intervalos (. r], r R, de nuevo al
espacio de eventos . El conjunto de todos tales intervalos genera un o-
campo en la recta real que llamamos el campo Borel (R):
(R) = o ((. r] . r R).
Por lo tanto, en un sentido formal, la preimagen de la variable aleatoria
A consituye un mapeo del campo de Borel (R) al espacio de eventos y
toma la forma:
A
1
(.) : (R)
Esto asegura que la variable aleatoria A preserve la estructura de eventos
de debido a que la preimagen preserva el conjunto de operaciones tericas
(ver Karr (1973)):
(i) Unin: A
1
(

o
i=1
1
i
) =

o
i=1
A
1
(1
i
)
(ii) Interseccin: A
1
(

o
i=1
1
i
) =

o
i=1
A
1
(1
i
)
(iii) Complemento: A
1
_
1
_
= (A
1
(1
i
)).
El espacio de probabilidad inducido por una variable aleatoria
*
Vamos a hacer un balance de lo que hemos logrado hasta ahora. La
transformacin del espacio de probabilidad (o. . P(.)) en algo ms apropiado
para los propsitos de la modelizacinhasta el momento ha intercambiado
el conjunto de resultados o por un subconjunto de la recta real R
A
y el
espacio de eventos por el campo Borel (R). El modus operandi de esta
transformacin ha sido el concepto de variable aleatoria. El siguiente paso
ser transformar P(.) : [0. 1] en una funcin conjunto sobre la recta real
o, ms precisamente sobre (R). Esta transformacin de la funcin conjunto
de probabilidad toma la forma:
P(A _ r) = PA
1
((. r]) = P
A
((. r]) ,
96 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Es muy importante NOTAR en esta etapa que los eventos en los trminos
primero y segundo son los elementos del espacio de eventos pero que el de
la ltima igualdad es un elemento de (R). Ahora estamos en condiciones
para asignar probabilidades a intervalos de la forma ((. r] . r R) cuya
preimagen pertenece a . Para otros intervalos de la forma (c. /), [c. /], [c. /),
(. c), etc podemos usar el teorema de extensin de Caratheodory para ex-
tender la funcin conjunto de probabilidad con el n a asignar probabilidades
a cada elemento 1
a
de (R).
PA
1
(1
a
) = P
A
(1
a
) para todo 1
a
(R) .
Esto dene una nueva funcin conjunto de probabilidad como una funcin
compuesta PA
1
(.) donde P(.) : [0. 1] . A
1
: (R) , y por lo tanto:
P
A
(.) := PA
1
(.) : (R) [0. 1] .
Reuniendo los elementos anteriores podemos ver que, en efecto, una vari-
able aleatoria A induce un nuevo espacio de probabilidad (R. (R) . P
A
(.))
con el que podemos reemplazar el abstracto espacio de probabilidad (o. . P(.)).
La principal ventaja del primero sobre el segundo es que todo tiene lugar en
la recta real y no en un espacio abstracto. En analoga directa con los re-
sultados del caso de conjunto contable de resultados, el concepto general de
una variable aleatoria induce el siguiente mapeo:
(o. . P(.))
A(.)
(R. (R) . P
A
(.))
Es decir, con la ayuda de A(.) intercambiamos o por R, por (R) y P(.)
por P
A
(.). Para nes de referencia llamamos a (R. (R) . P
A
(.)) el espacio
de probabilidad inducido por una variable aleatoria A; ver Galambos (1995).
Funciones Borel (medibles). En teora de la probabilidad estamos
interesados no slo en las variables aleatorias, sino tambin en funciones bien
comportadas de dichas variables aleatorias. Por funciones bien comportadas
en el clculo, por lo general nos referimos a funciones continuas o diferen-
ciables. En teora de la probabilidad por funciones bien comportadas nos
referimos a las funciones que conservan la estructura de eventos de su argu-
mento variable aleatoria. Una funcin denida por:
/(.) : R R tal que /(r) _ r := /
1
((. r]) (R) , para todo r R,
3.4. LADISTRIBUCINACUMULADAYFUNCIONES DEDENSIDAD97
recibe el nombre de funcin Borel (medible ). Es decir, una funcin
de Borel es una funcin que es una variable aleatoria con respecto a (R).
NOTE que las funciones indicador, las funciones montonas, las funciones
continuas, as como las funciones, con un nmero nito de discontinuidades,
son funciones de Borel; ver Khazanie (1976), Bierens (1994).
Igualdad de variables aleatorias. Las variables aleatorias son difer-
entes a las funciones matemticas en la medida en que su estructura prob-
abilstica es de suma importancia. Por lo tanto, la nocin de igualdad para
las variables aleatorias implica esta estructura probabilstica. Dos variables
aleatorias A e 1 , denidas en el mismo espacio de probabilidad (o. . P(.)),
se dice que son iguales con probabilidad uno (o casi seguramente) si (ver Karr
(1993)):
P(: : A(:) ,= 1 (:)) = 0, para toda : o;
es decir, si el conjunto (: : A(:) ,= 1 (:)) es un evento con probabilidad
cero.
3.4 La distribucin acumulada y funciones de
densidad
3.4.1 La funcin de distribucin acumulada
Utilizando el concepto de una variable aleatoria A(.), hasta ahora hemos
transformado el abstracto espacio de probabilidad (o. . P(.)) en un espacio
menos abstracto (R. (R) . P
A
(.)). Sin embargo, no hemos alcanzado nue-
stro objetivo todava porque P
A
(.) := PA
1
(.) sigue siendo una funcin
conjunto. Es cierto que se trata de una funcin conjunto mucho ms fcil
porque se dene en la recta real, pero es una funcin de conjunto de todos
modos. Preferimos una funcin numrica punto a punto con la que estamos
familiarizados.
La manera en que transformamos la funcin conjunto P
A
en una funcin
numrica punto a punto es un ardid ingenioso. Visulizando a P
A
(.) como
slo una funcin del punto nal del intervalo (. r] denimos la funcin
de distribucin acumulada (fda):
1
A
(.) : R [0. 1] donde 1
A
(r) = P: : A(:) _ r = P
A
((. r]) .
98 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
La tctica que llevo a esta denicin empez hace unas cuantas pginas
cuando argumentamos que an cuando podramos usar cualquiera de los
siguientes intervalos (vase Galan (1995)):
(c. /) . [c. /] . [c. /) . (. c] . donde c < /. c R, / R,
para generar el campo de Borel (R), optamos por los intervalos de la
forma: (. r], r R. En vista de esto, podemos pensar en la fda como
denida mediante
P: : c < A(:) _ / = P: : A(:) _ / P: : A(:) _ c
= P
A
((c. /]) = 1
A
(c) 1
A
(/)
y entonces asumir que 1
A
() = 0.
Las propiedades de la funcin de la fda 1
A
(r) de la variable aleatoria A
estn determinadas por aquellas de (o. . P(.)). En particular, a partir de
los axiomas [1] [3] de P(.) y de la estructura matemtica de los o-campos
y (R). Resumimos las propiedades de la funcin de distribucin acumulada
(ver Karr (1993)):
F1. 1
A
(r) _ 1
A
(). para r _ . r. nmeros reales,
F2. |i:
aa
+
0
1
A
(r) = 1
A
(r
0
). para todo nmero real r
0
,
F3. |i:
ao
1
A
(r) := 1
A
() = 1. |i:
ao
1
A
(r) := 1
A
() = 0.
donde r r
+
0
se lee "cuando r tiende a r
+
0
a travs de valores superiores a
r
0
". Es decir, 1
A
(r) es una funcin no decreciente, continua por la derecha
tal que que 1
A
() = 0 y 1
A
() = 1. Las propiedades F1 y F3 no
requieren ms explicacin pero F2 no es obvia. La propiedad de continuidad
por la derecha de la fda se deriva del axioma de aditividad contable [3] de
la funcin conjunto de probabilidad a la funcin 1(.) y su valor radica en el
hecho de que en cada punto de discontinuidad r
0
la propiedad F2 se cumple.
La funcin de distribucin acumulada (fda) proporciona el ltimo eslabn
de la cadena de la metamorfosis de (o. . P(.)) en algo ms susceptibles a
modelar. Antes de proceder a mejorar nuestra comprensin intuitiva del
concepto tenemos que relacionarlo con la nocin de funcin de densidad in-
troducido en el contexto de variables aleatorias (discretas) simples.
El lector perspicaz se habra dado cuenta que en el contexto de variables
aleatorias (discretas) simples la metamorfosis del abstracto espacio de prob-
abilidad toma la forma:
3.4. LADISTRIBUCINACUMULADAYFUNCIONES DEDENSIDAD99
(o. . P(.))
A(.)
= (R
A
. ,
A
(.)) .
donde R
A
= r
1
. r
2
. .... r
a
. ... . La estructura probabilstica original se
ha transformado en:
,
A
(r
1
) . ,
A
(r
2
) . .... ,
A
(r
n,...
) . tal que

a
.
R
^
,
A
(r
i
) = 1.
El ltimo eslabn en la cadena de transformaciones fue la nocin de fun-
cin de densidad:
,
A
(.) : R
A
[0. 1] . ,
A
(r) := P(A = r) , para toda r R.
Por otra parte, en el contexto de una variable aleatoria continua (conjunto
no contable de resultados) la metamorfosis toma la forma
(o. . P(.))
A(.)
(R
A
. 1
A
(.)) ,
con la fda siendo el ltimo eslabn de la cadena. La razn por la cual
la funcin de densidad no se puede denir directamente en este caso ha sido
discutido ampliamente en el captulo anterior.La esencia del argumento es
que en el caso de un conjunto no contable de resultados no podemos denir
la probabilidad en un punto sino slo en un intervalo.
3.4.2 La funcin de densidad
En esta etapa, dos preguntas surgen de manera natural. La primera es si
podemos denir una funcin de densidad en el caso de una variable aleatoria
continua. La segunda es si podemos denir una funcin de distribucin en el
caso de una variable aleatoria discreta. Ambas preguntas sern contestadas
armativamente comenzando con la primera.
Una vez denida la funcin de distribucin acumulada en intervalos de la
forma ((. c]), podemos proceder a recuperar la funcin de densidad ,
a
(.)
(cuando existe) Suponiendo que existe una funcin de la forma:
,
A
(.) : R (. r] .
tal que se relaciona con la fda a travs de:
100 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
1
A
(r) =
_
a
o
,
A
(n) dn. donde ,
a
(n) _ 0, (3.14)
,
A
(.) se dice que es una funcin de densidad correspondiente a 1
A
(r).
Esta recuperacin presupone la existencia de una funcin no negativa
cuya forma uno tiene que conjeturar a priori. En los casos en los cuales
se supone que ,
A
(.) es continua, uno puede recuperarla de 1
A
(r) usando
el teorema fundamental del clculo (vase Strang (1991), Binmore (1993)).
Suponiendo que ,
A
(.) es una funcin continua de r:
(a) si 1
A
(r) =
_
a
o
,
A
(n) dn. entonces
o1
^
(a)
oa
= ,
A
(r),
(b) si
o1
^
(a)
oa
= ,
A
(r) . entonces
_
a
o
,
A
(n) dn = 1
A
(/) 1
A
(c).
Figura 3.6 fda exponencial.
Usando el teorema fundamental del clculo podemos recuperar la funcin
de densidad mucho ms fcil mediante la diferenciacin usando el hecho de
que:
o1
^
(a)
oa
= ,
A
(r) . en todos los puntos de continuidad r R de ,
A
(r).
Ejemplo
Considerar el experimento aleatorio de medir la duracin de un foco en
un hogar tpico. La funcin de distribucin acumulada a menudo utilizada
para modelar este experimento es el de la distribucin exponencial:
1
A
(r; o) = 1 c
0a
. o 0. r R
+
:= [0. )
La grca de la funcin de distribucin para o = 3 se muestra en la gura
3.6. Teniendo en cuenta el hecho de que 1
A
(r; o) es continua para todo
3.4. LADISTRIBUCINACUMULADAYFUNCIONES DEDENSIDAD101
r R
+
, podemos deducir que la funcin de densidad es la derivada de esta
funcin y tiene la forma
,
A
(r; o) = oc
0a
. o 0. r R
+
Figura 3.7 Densidad exponencial.
La funcin de densidad, para variables aleatorias continuas, denida por
(3.14), cumple las siguientes propiedades:
f1. ,
A
(r) _ 0. \r R
a
.
f2.
_
a
o
,
A
(r) dr = 1.
f3. 1
A
(/) 1
A
(c) =
_
b
o
,
A
(r) dr. c R. / R.
Ahora centramos nuestra atencin en la cuestin de si podemos denir una
funcin de distribucin en el caso de variables aleatorias (discretas) simples.
La denicin de funcin de distribucin acumulada dada en (3.12) tambin
es aplicable al caso en el que A(.) toma valores en un subconjunto numerable
de R. Para R
a
= r
1
. r
2
. .... r
a
, donde r
1
< r
2
< ... < r
a
, la fda de una
variable aleatoria A (.) se dene en trminos de la funcin de densidad por:
1
A
(r
I
) = P(: : A(:) _ r
I
) =

I
i=1
,
A
(r
i
) . para / = 1. 2. .... :. (3.15)
tambin se aplica al caso donde A(.) toma valores en un subconjunto
contable de R. Para R
A
= r
1
. r
2
. .... r
a
, donde r
1
< r
2
<. .... < r
a
. la fdia
de una v.a. A(.). se dene en trminos de la fde por:
1
A
(r
I
) = P(: : A(:) _ r
I
) =

I
i=1
,
A
(r
i
) . para / = 1. 2. .... :.
102 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Es decir, la fda de una variable aleatoria (discreta) simple es una funcin
escaln con saltos denidos por ,
A
(.). El trmino acumulado proviene del
hecho de que la funcin de distribucin en ambos casos (3.12) y (3.15) acu-
mula las probabilidades dadas por las funciones de densidad. Esto se hace
evidente al ordenar los valores de A en orden ascendente r
1
_ r
2
_. .... _ r
a
y suponiendo que 1
A
(r
0
) = 0, entonces 1
A
(.) y ,
A
(.) se relacionan a travs
de
,
A
(r
i
) = 1
A
(r
i
) 1
A
(r
i1
) . i = 1. 2. .... :.
La funcin de densidad, en el caso de una variable aleatoria discreta,
tiene propiedades similares a las anteriores con la integral sustituida por
una suma:
f1. ,
A
(r) _ 0. \r R
a
.
f2.

a
.
Ri
,
A
(r
i
) = 1.
f3. 1
A
(/) 1
A
(c) =

o<a
.
b
,
A
(r
i
) . c < /. c R. / R.
Ejemplo.
En el caso de la variable aleatoria Bernoulli la funcin de densidad es:
,
A
(1) = o y ,
A
(0) = 1 o,
donde 0 _ o _ 1 (ver 3.5). Esto se muestra en la gura 3.8 para un valor
conocido de o, denotado por o = 0.6. La fda correspondiente toma la forma
1
A
(0) = o. 1
A
(1) = 1:
1
A
(r) =
_
_
_
0. r < 0
o. 0 _ r _ 1.
1. 1 _ r.
_
_
_
3.4. LADISTRIBUCINACUMULADAYFUNCIONES DEDENSIDAD103
Figura 3.8 Densidad Bernoulli.
Como se puede observar en la gura 3.9 la fda es una funcin escaln con
saltos en r = 0 de altura (1 o) = 0.4 y r = 1 de altura o = 0.6. Los puntos
sobre los puntos (0. 0.4) y (1. 1) simbolizan la continuidad por la derecha de
la fda; estos puntos pertenecen a la lnea superior no a la inferior.
Aunque la funcin de distribucin parece ser la eleccin natural para la
asignacin de probabilidades en los casos en que la variable aleatoria A(.)
toma valores en un subconjunto no contable de , la funcin de densidad se
ofrece ms conveniente para los propsitos de modelacin. Por esta razn,
concluimos esta seccin por mencionar algunas distribuciones ms, tanto para
variables aleatorias continuas y discretas.
Si se graca se ve que fdia es una funcin escalonada con saltos en r = 0
de altura (1 o) = 0.4 y en r = 1 de altura o = 0.6.
Aunque la fda parece la eleccin natural al asignar probabilidades cuando
la variable aleatoria A(.) toma valores en subconjuntos no contables de R, la
fda parece ms conveniente para propsitos de modelacin. Por esta razn
concluimos esta seccin mencionando ms distribuciones de variables aleato-
rias continuas y discretas.
Variable aleatoria continua. Una variable aleatoria A se dice que es
continua si su rango de valores es cualquier subconjunto no contable de R.
Un vistaso a la denicin (3.13)-(3.14) sugiere que no se debe interpretar
la funcin de densidad de una variable aleatoria continua como una funcin
asignando probabilidades, ya que esta ltima puede tomar valores mayores
de uno!
Ejemplos
(i) La distribucin ms utilizada en teora de la probabilidad y la inferen-
cia estadstica es, sin duda, la distribucin normal (o gaussiana) cuya funcin
de densidad es:
,
A
(r; ) =
1
o
_
2:
exp
(r j)
2
2o
2
; (3.16)
: =
_
j. o
2
_
R R
a
, r R.
La grca de esta funcin de densidad, que se muestra en la gura 3.10
con j = 0 y o
2
= 1, exhibe la bien conocida forma de campana con la que
la distribucin normal es fcilmente reconocible. La fda para la distribucin
normal es:
104 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
1
A
(r; ) =
a
_
o
1
o
_
2:
exp
(r j)
2
2o
2
dn; (3.17)
: =
_
j. o
2
_
R R
a
, r R.
La grca de esta funcin de distribucin, que se muestra en la gura
3.11, presenta las distintas o alargadas asociadas a la distribucin normal.
Figura 3.9 fda Bernoulli.
Figura 3.10 Densidad normal.
3.4. LADISTRIBUCINACUMULADAYFUNCIONES DEDENSIDAD105
Figura 3.11 fda normal.
Figura 3.12 Densidad uniforme.
Figura 3.13 fda uniforme.
106 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
(ii) Otra distribucin ampliamente utilizada es la uniforme (continua)
cuya funcin de densidad es de la forma:
,
A
(r; ) =
1
/ c
, : = (c. /) R
2
, c _ r _ /. (3.18)
La grca de esta funcin de densidad, que se muestra en la gura 3.12
para c = 1 y / = 3, presenta una forma rectangular. La fda para la distribu-
cin uniforme (continua) es la siguiente:
1
A
(r; ) =
r c
/ c
, : = (c. /) R
2
, c _ r _ /. (3.19)
La grca de esta fda se muestra en la gura 3.13.
Variable aleatoria discreta. Una variable aleatoria A se dice que es
discreta si su rango R
a
es un subconjunto numerable (que se puede contar)
de la recta real R, y su funcin de densidad es de la forma:
,
A
(.) : R [0. 1].
Figura 3.14 Densidad uniforme (discreta).
3.4. LADISTRIBUCINACUMULADAYFUNCIONES DEDENSIDAD107
Figura 3.15 fda uniforme (discreta).
En contraste con el caso de variable aleatoria continua, esta denicin
sugiere que se podra interpretar la funcin de densidad de una variable
aleatoria discreta como una funcin de asignacin de probabilidades.
Ejemplos
(i) La distribucin uniforme tambin tiene una forma discreta, con una
funcin de densidad:
,
A
(r; o) =
1
o + 1
, o es un entero r = 0. 1. 2. .... o. (3.20)
La grca de esta funcin de densidad, que se muestra en la gura 3.14
para o = 9, presenta la bien conocida forma de punta uniforme. La fda de
distribucin uniforme (discreta) es la siguiente:
1
A
(r; o) =
r + 1
o + 1
, o es un entero, r = 0. 1. 2. .... o. (3.21)
Su grca se muestra en la gura 3.15, donde los saltos son de la forma:
j
I
=
1
o + 1
, para o = 9, / = 1. 2. .... 9.
108 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Figura 3.16 Densidad Poisson.
Figura 3.17 fda Poisson.
(ii) Otra ampliamente utilizada distribucin discreta es la de Poisson cuya
funcin de densidad es:
,
A
(r; o) =
c
0
o
a
r!
, o 0, r = 0. 1. 2. 3. ... (3.22)
La grca de esta funcin de densidad, que se muestra en la gura 3.16
para o = 4, donde la asimetra en la forma de la densidad es evidente. La
fda para la distribucin de Poisson es:
,
A
(r; o) =

a
I=0
c
0
o
a
r!
, o 0, r = 0. 1. 2. 3. ... (3.23)
La grca de la fda se muestra en la gura 3.17.
3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD109
3.5 De un espacio de probabilidad a un mod-
elo de probabilidad
Vamos a reunir los distintos cabos. Inicamos la discusin en este captulo
con un objetivo principal: transformar el abstracto espacio de probabilidad
(o. . P(.)) construido en el captulo anterior en algo ms susceptible a la
modelacin con datos numricos. La primera etapa de la transformacin
signic la introduccin de la nocin de una funcin real del espacio de los
resultados de o a la recta real R, obligada a preservar la estructura de eventos
del espacio original de eventos eventos ; el concepto de una variable aleato-
ria. En la segunda etapa utilizamos el concepto de una variable aleatoria
para mapear (o. . P(.)) en (R. (R) . P
A
(.)); siendo este ltimo un edicio
sobre la recta real. En la tercera etapa transformamos la funcin conjunto
P
A
(.) en una funcin numrica punto a punto, la funcin de distribucin
acumulada, por:
1
A
(r) = P
A
(. r] .
En la ltima etapa hemos simplicado 1
A
(.) an ms mediante la intro-
duccin de la funcin de densidad a travs de:
1
A
(r) =
_
a
o
,
A
(n) dn, ,
A
_ 0. para todo r R.
A continuacin extendimos la formulacin al caso donde las probabil-
idades son funciones conocidas de ciertos parmetro desconocido(s) .
Esto se hizo mediante la introduccin de estos parmetros en las frmulas
para las funciones fda y de densidad: 1
A
(r; , ,
A
(r; ). Los detalles de esta
ampliacin sern discutidon en el captulo 10. Simblicamente la transfor-
macin ha tomado la forma:
(o. . P(.))
A(.)
= (R. (R) . P
A
(.)) =,
A
(r; ). . r R
A
.
Haciendo caso omiso de la etapa intermedia, podemos ver el mapeo a
nivel de los componentes individuales como:
o =R
A
y [. P(.)] =,
A
(r; ).
110 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
El resultado nal de esta metamorfosis es que el espacio de probabilidad
original (o. . P(.)) se ha transformado en un modelo de probabilidad
denido por:
= ,
A
(r; ). . r R
A

es un conjunto de funciones de densidad indexadas por un conjunto de


parmetros desconocidos ; una densidad para cada posible valor de en el
espacio de parmetros .
Es importante NOTAR que podramos usar la fda en lugar de la funcin
de densidad como la base del modelo de probabilidad, en el sentido de que:

1
= 1(r; ). . r R
A

es an ms general que (3.24). Como puede verse en las grcos ante-


riores de las distintas fda y funciones de densidad, sin embargo, la forma
de las funciones de densidad es ms fcil juzgar que la de la fda. Por ra-
zones matemticas, a menudo preeren las fda, pero para los propsitos de
modelizacinpor lo general preferimos la funcin de densidad. La nocin
de modelo de probabilidad, tal como se dene en trminos de funciones de
densidad, es conveniente para los propsitos de modelacin, ya que, como se
muestra en el captulo 5, existe una relacin til entre este concepto terico
y los datos observados. Veremos cmo la nocin de un funcin de densidad
constituye la contraparte de la teora de la probabilidad de la nocin de un
histograma en la estadstica descriptiva y cmo esto se relaciona con una
grca de tiempo de un conjunto de datos. En resumen, podemos construir
una relacin directa entre el modelo de probabilidad y los datos reales con el
n de ayudar en la eleccin de modelos adecuados.
Hay varias cosas que vale la pena enfatizar sobre el modelo de probabili-
dad denido en (3.24). En primer lugar, el modelo de probabilidad representa
una coleccin completa de densidades, a menudo un nmero innito, depen-
diendo de la naturaleza del espacio de parmetros : En cierto sentido, el
parmetro(s) encapsular la incertidumbre inicial en relacin con el resul-
tado de una prueba particular, (condicin [b]). En segundo lugar, el modelo
de probabilidad tiene tres componentes importantes: (i) la funcin de den-
sidad de una variable aleatoria A, (ii) el espacio de parmetros y (iii) el
rango de valores de la variable aleatoria que se trata R
A
. Para signicar la
importancia del componente (iii) le damos un nombre especial.
3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD111
El soporte de la densidad ,
A
(.) es el rango de valores de la variable
aleatoria A para el cual la funcin de densidad es positiva, es decir,
R
A
:= r R
A
: ,
A
(r) 0.
Debido a la importancia fundamental del concepto de un modelo de prob-
abilidad consideraremos varios ejemplos a n de permitir al lector comprender
los conceptos bsicos.
Ejemplos.
(i) Considere el modelo de probabilidad de una distribucin binomial
especicado por:
=
_
_
_
,(r; ) =
_
:
r
_
o
a
(1 o)
aa
.
0 _ o _ 1. 0 _ r _ :. : = 1. 2. ...
_
_
_
(3.25)
En las guras 3.18-3.21 podemos ver a varios miembros de este modelo de
probabilidad para el : = 20. Cada grca representa una densidad para un
valor especco del parmetro desconocido: o = 0.15, o = 0.3, o = 0.5, o =
0.8. En teora incluye una innidad de las densidades de este tipo (a saber
una innidad doble) debido a que el espacio de parmetros := [0. 1] tiene
un nmero no contable de elementos! Para las densidades que se muestran
en las guras 3.18-3.21 el soporte es R
+
A
:= 1. 2. .... 20.
(ii) Otro ejemplo interesante de un modelo de probabilidad es el Beta:
=
_
,(r; ) =
r
c1
(1r)
o1
1[c. ,]
, = (c. ,) R
2
+
, 0 < r < 1
_
En la gura 3.22 se muestran varios miembros de esta familia de densi-
dades (uno para cada combinacin de valores de ). Este modelo de prob-
abilidad tiene dos parmetros desconocidos c 0 y , 0; el espacio de
parmetros es el producto de la recta real positiva: := R
2
+
. Esto sugiere
que el conjunto tiene una innidad de elementos, uno para cada combi-
nacin de elementos de dos conjuntos innitos. Su soporte es R
a
:= (0. 1).
Como puede verse, este modelo de probabilidad incluye funciones de den-
sidad de con formas muy diferentes dependiendo de los valores de los dos
parmetros desconocidos.
(iii) Otro ejemplo importante de un modelo de probabilidad es la Gama:
112 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
=
_
,(r; ) =
,
1
[c]
_
r
,
_
c1
exp
_
r
,
_
, = (c. ,) R
2
+
, r R
+
_
.
En la gura 3.23 se muestran varios miembros de esta familia de densi-
dades (uno para cada combinacin de valores de ). Una vez ms, el modelo
de probabilidad tiene dos parmetros desconocidos c 0 y , 0; el espacio
de parmetros es el producto de la recta real positiva: := R
2
+
. Su soporte
es R
a
:= (0. ).
Figura 3.18 Binomial (: = 20, o = 0.15).
Figura 3.19 Binomial (: = 20, o = 0.3).
3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD113
Figura 3.20 Binomial (: = 20, o = 0.5).
Figura 3.21 Binomial (: = 20, o = 0.8).
(iv) El ltimo ejemplo de un modelo de probabilidad es la de Weibull:
=
_
,(r; ) =
,r
o1
c
o
exp
_
r
c
_
o
, = (c. ,) R
2
+
, r 0
_
.
114 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Varios miembros de esta familia de densidades (uno para cada combi-
nacin de valores de ) se muestran en la gura 3.24. Una vez ms, el
modelo tiene dos parmetros desconocidos c 0 y , 0; el espacio de
parmetros es el producto de la recta real positiva: := R
2
+
. Su soporte es
R
a
:= (0. ).
El modelo de probabilidad constituye uno de los dos pilares sobre los que
vamos a construir la nocin de un modelo estadstico, la piedra angular de
la inferencia estadstica (y de la modelizacinemprica); el otro pilar es el
modelo muestral que se discutir en el prximo captulo.
Para propsitos de modelizacinemprica utilizamos la nocin de un mod-
elo de probabilidad de la siguiente manera. Postulamos a priori una de tales
familias de densidades como subyacente al mecanismo estocstico que dio
origen a los datos observados en cuestin: nuestra tarea como modeladores
es elegir la familia ms adecuada para los datos en cuestin. A priori no nos
comprometemos con una densidad particular, por ejemplo , (r;
0
), donde

0
es un valor especco de los parmetros desconocidos o, proporcionando
el resumen adecuado de los datos en cuestin. En su lugar, asumimos que
esa densidad es un miembro de la familia postulada para alguna o . En
la modelizacinemprica denimos el modelo de probabilidad en trminos del
parmetro desconocido(s) o y dejamos que los datos, utilizando la inferencia
estadstica, elijan su valor apropiado de . La pregunta que naturalmente
surge en esta etapa es: cmo tomamos la decisin inicial respecto de cual
es el modelo de probabilidad (ver apndice A para varios modelos de este
tipo) adecuado? Una respuesta demasiado simplicada es que el modelador
considera de qu manera los tres componentes (i) - (iii) del modelo de prob-
abilidad se relacionan con los datos en cuestin.
El primer componente es la funcin de densidad. La manera ms con-
veniente de evaluar la pertinencia de la funcin de densidad es comparar
las formas distribucionales (como las presentadas en los grcos anteriores)
con el histograma de los datos observados. Estas formas demostrarn ser
una de las luces gua en la eleccin de un modelo estadstico apropiado para
fenmeno estocstico que se trate. En el captulo 5 vamos a demostrar cmo
3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD115
Figura 3.22 Modelo de probabilidad Beta.
Figura 3.23 Modelo de probabilidad Gama.
Figura 3.24 Modelo de probabilidad Weibull.
116 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
el histograma se puede utilizar para tomar decisiones informadas con re-
specto a la densidad adecuada. Tomando el modelo de probabilidad Beta
como ejemplo, podemos ver que presenta una exibilidad casi ilimitada en
relacin con diferentes formas distribucionales; las formas mostradas en la
gura 3.22 indican esta exibilidad. No obstante, los otros dos modelos con-
tinuos de probabilidad, el Gamma y el Weibull tambin muestran exibilidad
suciente en trminos de formas lo que sugiere que no pueden por s solos
dar respuesta a la cuestin de elegir el modelo de probabilidad adecuado.
Aquellos lectores que no estn convencidos de esto deben echar un vistazo
a la gura 3.25, donde dos densidades muy diferentes se ponen en contraste
para mostrar el resultado de que ser imposible elegir entre ellas cuando se
enfrentan con datos reales. En la lnea punteada tenemos la densidad normal
estndar y en la lnea continua tenemos una densidad de Weibull de la forma:
=
_
,(r; ) =
,r
o1
c
o
exp
_
r j
c
_
o
, = (c. ,) R
2
+
, r j R
_
.
con parmetros (c = 3.34. , = 3.45. j = 3). La mejor manera de
distinguir entre estas muy similares formas distribucionales es a travs de
medidas de ndice basadas en momentos (vase la seccin siguiente) que son
invariantes a los cambios de escala y parmetros de localizacin; vanse ms
adelante los coecientes de asimetra y de curtosis.
Figura 3.25 Weibull contra normal.
3.6. PARMETROS Y MOMENTOS 117
Adems de las formas de distribucin y los parmetros relacionados de
las densidades se debe considerar el soporte de la densidad en la toma de de-
cisiones sobre lo apropiado de los modelos de probabilidad. Por ejemplo, en
el caso del modelo Beta el soporte limita su utilidad a los casos en los cuales
los datos son porcentajes o se pueden expresarse como tales. Por ejemplo, en
el caso de la modelizacinde datos que se reere a los resultados de exmenes
es a menudo ms realista utilizar la versin beta y no la distribucin normal
porque todos los resultados pueden ser fcilmente expresados en el inter-
valo [0. 1]; la distribucin normal tiene soporte (. ). Por otro lado, si
los datos slo pueden tomar valores positivos sin un claro lmite superior el
modelador debe considerar los otros dos modelos de probabilidad. Por l-
timo, una consideracin importante en la toma de decisin sobre el modelo
ms adecuado es la riqueza del men a elegir; cuanto ms familias de densi-
dades tengamos para elegir ms alta es la probabilidad de que una de ellas
resulte ser apropiada en una situacin dada . Por eso en el apndice A
reunimos algunos de los modelos de probabilidad ms importante para nes
de referencia.
3.6 Parmetros y momentos
3.6.1 Porqu nos interesa?
En la seccin anterior hemos introducido el concepto de un modelo de prob-
abilidad:
= ,
A
(r; ). . r R
A

como una formalizacin de las condiciones [a] - [b] de un experimento


aleatorio. Antes de que procedamos a formalizar la condicin [c] (vase el
captulo siguiente), hacemos una digresin importante para introducir una
forma ms conveniente de tratar al parmetro desconocido(s) o del modelo
de probabilidad. En el contexto de la inferencia estadstica y la modelacin
en general, la forma ms ecaz de tratar a los parmetros desconocidos
es relacionarlos con los momentos de la distribucin. Como se mencion en
la seccin anterior una de las consideraciones importantes en la eleccin de
un modelo de probabilidad son las formas que las diferentes familias de las
densidades pueden dar lugar. Estas formas estn obviamente, relacionadas
con los parmetros desconocidos, pero eso no es consuelo para el modelador
118 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
que tiene que elegir un modelo tal a priori debido a que ellos son descono-
cidos! Por lo tanto, nos gustara utilizar otro tipo de informacin que est
disponible a priori al hacer dicha eleccin. Junto con el histograma de los
datos, a menudo tenemos una serie de valores numricos, tales como medias
aritmticas de la estadstica descriptiva. Estos valores numricos se relacio-
nan con lo que llamamos momentos de la distribucin y se pueden utilizar
para hacer conjeturas con respecto a los parmetros desconocidos y por lo
tanto para las distintas formas de distribucin.
Los momentos de una distribucin se denen en trminos de la esperanza
matemtica de determinadas funciones de la variable aleatoria A, genrica-
mente denotados por /(A), de la siguiente manera:
1 [/(A)] =
_
o
o
/(A) ,
A
(r; )dr. (3.26)
En vista del hecho de que la integral se dene en trminos de las funciones
de densidad ,
A
(r; ), en general 1 [/(A)] es una funcin de , es decir,
1 [/(A)] = q(). (3.27)
Eligiendo formas especcas de la funcin /(A), tales como
/(A) = A
v
. /(A) = [A[
v
. : = 1. 2. .... /, /(A) = c
ta
. /(A) = c
ita
obtenemos varias funciones de la forma q() que implican lo que llamamos
momentos de ,
A
(r; ).
En el modelacin estadstica, as como en la inferencia estadstica, se
muestra que la mejor manera de manejar modelos de probabilidad (postular
un modelo estadstico, estimar , probar hiptesis acerca de estos parmet-
ros , etc.) es a menudo a travs de los momentos de la distribucin de
probabilidad postulada.
3.6.2 Caractersticas numricas
En lo que sigue vamos a considerar algunos casos particulares de (3.26) con
el n de discutir su papel en la modelizaciny en la inferencia.
Media
Para /(A) := A, donde A toma valores en R
A
, la integral anterior da
lugar a la media de la distribucin:
3.6. PARMETROS Y MOMENTOS 119
1 [A] =
_
o
o
r,
A
(r; )dr, para variables aleatorias continuas, (3.29)
1 [A] =

a
.
R
^
r
i
,
A
(r
i
; ), para variables aleaorias discretas. (3.30)
NOTE que la nica diferencia en la denicin de las variables aleatorias
continuas y discretas es la sustitucin de la integral por una sumatoria. La
media es una medida de localizacin en el sentido de que conociendo la me-
dia A, tenemos alguna idea de donde se localiza ,
A
(r; ). Intuitivamente,
la media representa una media ponderada de los valores de A, con las prob-
abilidades correspondientes proporcionando los pesos. Designando la media
por:
j := 1 [A]
la denicin anterior sugiere que j es una funcin de los parmetros
desconocidos , es decir j().
Ejemplos.
(i) Para la distribucin Bernoulli :
j() := 1 [A] = 0 (1 o) + 1 o = o,
y as, la media coincide con el parmetro desconocido.
(ii) En el caso de la distribucin Poisson:
,
A
(r; ) =
_
c
0
0
i
a!
_
, o := (0. ), r = 0. 1. 2. 3. ...,
j() := 1 [A] =
o

I=0
/
_
c
0
0
I
I!
_
= oc
0
o

I=0
_
0
I1
(I1)!
_
= o ya que
o

I=0
_
0
I1
(I1)!
_
=
c
0
.
(iii) Para la distribucin Uniforme (una distribucin continua):
,
A
(r; ) =
1
0
2
0
1
, r [o
1
. o
2
], := (o
1
. o
2
), < o
1
< o
2
< ,
j() := 1 (A) =
_
0
2
0
1
a
0
2
0
1
dr =
1
2
1
0
2
0
1
r
2
[
0
2
0
1
=
0
1
+0
2
2
(iv) Para la distribucin Normal:
, (r; ) =
1
o
_
2:
exp
(r j)
2
2o
2
. : =
_
j. o
2
_
R R
+
, r R.
120 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
el parmetro j es en realidad media de la distribucin (de ah la notacin).
1 (A) =
_
o
o
r
_
1
o
_
2:
_
exp
_

(r j)
2
2o
2
_
dr
=
_
o
o
(o. +j)
o
_
2:
exp
_

.
2
2
_
(o) d.
=
o
_
2:
_
o
o
. exp
_

.
2
2
_
d. +j
_
o
o
1
_
2:
exp
_

.
2
2
_
d.
= 0 +j(1) = j
La segunda igualdad se sigue utilizando la sustitucin . =
aj
o
o r =
o. +j, con
oa
o:
= o.
Para las variables aleatorias A
1
y A
2
y las constantes c. / y c, 1(.) cumple
las siguientes propiedades:
E1. 1 [c] = c.
E2. 1 [cA
1
+/A
2
] = c1 [A
1
] +/1 [A
2
] .
Estas propiedades designar a 1(.) como una aplicacin lineal.
Ejemplo
Sean A
1
. A
2
. .... A
a
variables aleatorias distribuidas Bernoulli con me-
dia o. Hallar 1 [1 ] para 1 =

a
i=1
A
i
. Usando [E2] podemos 1 [1 ] =

a
i=1
1 (A
i
) =

a
i=1
o = :o.
Varianza
Para /[A] := 1 [A 1 (A)]
2
, la integral (3.26) proporciona la varianza:
\ c: (A) = 1
_
(A 1 (A))
2

=
_
o
o
[A j]
2
,
A
(r; )dr,
donde en el caso de variables aleatorias discretas la integral se sustituye
por la suma de costumbre (ver (3.29) y (3.30)). En nuestro contexto, la
varianza representa una medida de dispersin (variacin) alrededor de la
media.
Ejemplos
(i) En el caso del modelo Bernoulli:
Var (A) = 1
_
(A 1 (A))
2

= (0 o)
2
(1 o)
2
+ (1 o)
2
o = o (1 o) .
3.6. PARMETROS Y MOMENTOS 121
(ii) En el caso donde A tiene una distribucin normal (ver (3.31)), uti-
lizando la misma sustitucin, r = o. + j, podemos demostrar que la vari-
anza coincide con el parmetro desconocido o
2
es decir, Var(A) = 1 [A
2
]
(1 [A])
2
= o
2
ya que
1
_
A
2
_
=
_
o
o
r
2
_
1
o
_
2:
_
exp
_

(r j)
2
2o
2
_
dr
=
_
o
o
_
(o. +j)
2
o
_
2:
_
exp
_

.
2
2
_
(o) d.
= o
2
_
o
o
_
.
2
_
2:
_
exp
_

.
2
2
_
d. +
2oj
_
2:
_
o
o
.
_
2:
exp
_

.
2
2
_
d.
+j
2
_
o
o
1
_
2:
exp
_

.
2
2
_
d.
= o
2
+ 0 +j
2
= o
2
+j
2
,
de alli la notacin A~` (j. o
2
). En la gura 3.26 podemos ver la densidad
normal (con j = 0) y diferentes valores de o
2
; cuanto mayor es el valor de
o
2
mayor es la dispersin.
Para variables aleatorias independientes A
1
y A
2
y las constantes c. / y
c, \ c:(.) cumple las siguientes propiedades:
V1. Var(c) = 0.
V2. Var(cA
1
+/A
2
) = c
2
\ c: [A
1
] +/
2
\ c: [A
2
] .
Lema de Bienayme. Si A
1
. A
2
. .... A
a
son variables aleatorias dis-
tribuidas independientemente:
\ c: (

a
i=1
c
i
A
i
) =

a
i=1
c
2
i
\ c: (A
i
),
Este lema constituye una extensin directa de la propiedad V2.
Ejemplo
Sean A
1
. A
2
. .... A
a
variables aleatorias independientes Bernoulli con me-
dia o. Cul es la varianza de 1 = c +

a
i=1
A
i
?.
122 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Figura 3.26 Normal: diferentes o
2
.
Usando V1 y el lema de Bienayme podemos deducir que:
\ c:(1 ) =

a
i=1
\ c: (A
i
) =

a
i=1
o (1 o) = :o (1 o).
Una desigualdad muy til que da testimonio de que la varianza propor-
ciona una medida de dispersin es la de Chebyshev.
desigualdad de Chebyshev: sea A una variable aleatoria con varianza
acotada:
P([A 1 (A)[ ) _
\ c: (A)

2
, para todo 0.
Desviacin estndar
La raz cuadrada de la varianza, conocida como la desviacin estndar,
tambin se utiliza como una medida de dispersin:
o1(A) = [\ c: (A)]
1
2
.
El trmino desviacin estndar fue propuesto por primera vez por Pearson
(1894) quien utiliz la notacin o = [\ c: (A)]
1
2
. Esta medida es particular-
mente til en inferencia estadstica, ya que nos proporciona la mejor forma
de estandarizar cualquier variable aleatoria A cuya varianza existe. Una de
las reglas prcticas ms tiles en la inferencia estadstica es la siguiente:
Una variable aleatoria es tan "grande"como su desviacin estndar (siem-
pre que exista!).
Por lo tanto, cuando tenemos que hacer una variable aleatoria libre de
sus unidades de medida la dividimos por su desviacin estndar, es decir,
denimos la variable estandarizada:
A
+
:=
A
[\ ov(A)]
1
2
, donde \ c: (A
+
) = 1,
3.7. MOMENTOS 123
que por denicin es sin unidades. El trmino error estndar se utiliza a
menudo en lugar de la desviacin estndar. La terminologa error estndar
se puede remontar a la tradicin del siglo 18 de la teora de errores. Galton
(1877) fue el primero en reemplazar el trmino de error con el de desviacin.
Aunque la media y la varianza son los momentos ms ampliamente uti-
lizados, no son sucientes para determinar las principales caractersticas de
una distribucin. Es decir, aunque conocemos la media y la varianza, que
sabemos muy poco acerca de las caractersticas principales de la funcin de
densidad. Es fcil pensar en funciones de densidad muy diferentes que tienen
la misma media y varianza. Para ser capaces de distinguir entre tales dis-
tribuciones debemos tener en cuenta los momentos de orden supserior.
3.7 Momentos
En esta seccin consideramos dos tipos de momentos, los momentos crudos
de orden superior y los momentos centrales, que constituyen generalizaciones
directas de la media y la varianza, respectivamente. La idea de los momentos,
en general, se tom prestada de la mecnica clsica, donde la media, 1(A), es
la abscisa del centro de gravedad de la masa de la distribucin y la varianza,
\ c:(A), representa el momento de inercia de la masa de la distribucin con
respecto a un eje perpendicular a travs del punto r = 1 (A). Los seis
primeros momentos de la distribucin normal fueron usados por un nmero
de analistas en todo el siglo 18 como Gauss y Quetelet. El primero en acuar
el trmino momentos fue Pearson (1893).
3.7.1 Momentos crudos de orden superior
Una generalizacin directa de la media proporciona los llamados momentos
crudos. Para /(A) := A
v
. : = 2. 3. 4. ... la integral en (3.26) proporciona los
momentos crudos denidos por:
j
t
v
() := 1 (A
v
) =
_
o
o
r
v
,
A
(r; )dr. : = 1. 2. 3. ...
Ejemplos
(i) En el caso de la distribucin Bernoulli:
j
t
v
() = 1 (A
v
) = 0
v
(1 o) + 1
v
o = o. para todo : = 1. 2. 3. 4. ...
124 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Es decir, todos los momentos crudos son los mismos. El segundo momento
crudo es a menudo til en la obtencin de la varianza utilizando la igualdad:
\ c: (A) = 1
_
(A 1 (A))
2

= 1
_
A
2
_
1 [(A)]
2
Podemos comprobarlo en el caso de Bernoulli donde 1 (A
2
) = o:
\ c: (A) = o o
2
= o (1 o) .
(ii) En el caso donde A se distribuye normalmente con densidad (3.31):
1 (A
v
) =
_
0. para : = 3. 5. 7. ...
(13 (: 1)) o
v
. para : = 2. 4. 6. ...
_
(iii) Considere la variable aleatoria exponencial A con una funcin de
densidad:
,
A
(r; o) = oc
0x
. r0, o 0
j
t
v
(o) : = 1 (A
v
) =
_
o
0
r
v
oc
x
dr
Usando el cambio de variables, n = or. dr =
1
0
dn :
j
t
v
(o) =
_
o
o
n
v
o
v
c
&
dn =
1
o
v
_
o
o
n
[v+1]1
c
&
dn =
:!
o
v
!
.
IMPORTANTE. En relacin con los momentos crudos, es interesante ob-
servar que cuando el cuarto momento existe tambin existen el primero, se-
gundo y tercero. El resultado general se da en el siguiente lema.
Lema (momentos inferiores). Si j
t
I
(o) := 1
_
A
I
_
existe para algunos
enteros positivos /. entonces todos los momentos crudos de orden menor que
/ tambin existen, es decir, 1 (A
v
) < , para todo i = 1. 2. .... / 1.
3.7.2 Funcin generatriz de momentos
Una forma particularmente conveniente para calcular los momentos crudos
es mediante la funcin generatriz de momentos (fgm) denida mediante
la integral en (3.26) con /(A) = c
tA
. es decir:
:
A
(t) := 1
_
c
tA
_
=
_
o
o
c
tA
,(r)dr. para t (/. /) . / 0,
3.7. MOMENTOS 125
siempre que 1
_
c
tA
_
exista para todo t en un cierto intervalo (/. /);
para variables aleatorias discretas el cambio antes mencionado de integrales
y sumas se mantiene (ver Gnedenko (1969)).
La idea detrs de este dispositivo matemtico es comprimir los momentos
en forma de cpsula los cuales estaran inmediatamente accesibles. Como se
muestra abajo la fgm puede ser utilizada para generar estos momentos por
diferenciacin simple en lugar de integracin.
Ejemplos.
(i) Sea A una variable aleatoria distribuida Poisson. Entonces:
:
A
(t) =
o

v=0
c
tA
_
c
0
o
v
:!
_
= c
0
o

v=0
(c
t
o)
v
:!
= c
0
c
0c
I
= c
0(c
I
1)
ya que
o

v=0
o
v
:!
= c
0
.
(ii) Sea A una variable aleatoria uniformemente distribuida en el intervalo
[c. /] :
:
A
(t) :=
_
b
o
c
tA
_
1
/ c
_
dr =
c
bt
c
ot
(/ c) t
. para t ,= 0. (3.32)
Usando la fgm es obtienen momentos diferenciando en vez de integrar.
La intuicin detrs de la denicin de :
A
(t) toma la forma. En vista del
hecho de que una expansin en series de Maclaurin de c
tA
toma la forma:
c
tA
= 1 +At +
(At)
2
2!
+
(At)
3
3!
+ =

o
v=0
(At)
v
:!
. (3.33)
podemos concluir que si :
A
(t) existe para t (/. /) y algn / 0,
entonces podemos escribir
:
A
(t) := 1
_
c
tA
_
= 1
_

o
v=0
(At)
v
:!
_
e intercambiando el orden de la experanza y la suma (we use some hand
waving
here), da como resultado:
:
A
(t) := 1
_
c
tA
_
=

o
v=0
1 (A
v
)
t
v
:!
para t (/. /) y algn / 0.
126 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Esto sugiere que, suponiendo que :
A
(t) existe, podemos recuperar el mo-
mento crudo j
t
v
(o) := 1 (A
v
) como el (: + 1) simo trmino en la expansin
anterior, ya sea directamente cuando la fgm puede expandirse como una se-
rie de potencias en potencias de t, o indirectamente utilizando diferenciacin
(there is some hand waving here as well) a travs de:
1 (A
v
) =
o
r
ot
r
:
A
(t)[
t=0
:= :
v
A
(0), : = 1. 2. ...
j
t
1
:= 1 (A) =
on
^
(t)
ot
[
t=0
. j
t
2
:= 1 (A
2
) =
o
2
n
^
(t)
ot
2
[
t=0
. .... j
t
v
:= 1 (A
v
) =
o
r
n
^
(t)
ot
r
[
t=0
.
La intuicin detrs de este resultado es el siguiente: observando (3.33)
podemos ver que diferenciando :r(t) : veces, los trminos hasta
_
1 (A
v
)
t
r
v!

desaparecen y se convierte en el segundo:


1 (A
v
)
_
[v(v1)(v2)1]t
0
v!
_
= A
v
.
Los trminos con potencia mayor que : implican a t, lo que signica que
cuando sustituimos t = 0 ellos desaparecen, dejndonos slo con 1 (A
v
).
Ejemplo
Para una variable aleatoria distribuida Poisson A, :
A
(t) = c
0
c
(t1)
, y
entonces:
1 (A) =
d
dt
:
A
(t) [
t=0
= c
0(c
I
1)
o
c
I
[
t=0
= o,
1
_
A
2
_
=
d
2
dt
:
A
(t) [
t=0
= c
0(c
I
1)
o
c
I
+c
0(c
I
1)
o
2
c
2t
[
t=0
= o
2
+o.
Lema de unicidad. Un hecho importante acerca de la fgm es que cuando
sta existe (no siempre), es nica en el sentido de que dos variables aleatorias
A e 1 que tienen la misma fgm deben tener la misma distribucin y viceversa.
Usando este lema podemos probar un resultado muy til que proporciona
la base para la simulacin de variables aleatorias con caractersticas distribu-
cionales especcas. Esto nos permite utilizar nmeros aleatorios generados
a partir de una distribucin uniforme como la base para la generacin de
nmeros aleatorios para varias distribuciones continuas (vase el captulo 5).
Lema de transformacin de la integral de probabilidad. Para
cualquier variable aleatoria continua A, con fda 1
A
(A) (con independen-
cia de su forma), la variable aleatoria denida por 1 = 1
A
(A) tiene una
distribucin uniforme en el intervalo (0. 1), es decir
1 = 1
A
(A) ~l (0. 1).
Prueba. La fda de 1 toma la forma:
3.7. MOMENTOS 127
:
Y
(t) := 1
_
c
tY
_
= 1
_
c
t1(A)
_
=
_
o
o
c
t1(A)
,(r)dr
c
IT(^)
t
[
o
o
=
c
I
1
t
,
ya que 1 () = 1 y 1 () = 0. Mirando la forma de la fgm y com-
parndola con (3.32), podemos ver que la variable aleatoria 1 se distribuye
uniformemente en el intervalo (0. 1).
Hay dos funciones relacionadas con las funciones generatrices de momen-
tos, las funciones cumulantes y caracterstica, consideradas enseguida.
Cumulantes
+
Una de las funciones relacionadas con la funcin generatriz de momentos
es la funcin generatriz cumulante, denida por:

A
(t) = 1:(:
A
(t)) =
o

v=1
i
v
t
r
v!
para t (/. /), / 0,
donde i
v
, : = 1. 2. 3. ... se denominan cumulantes (o semi-invariantes).
Es interesante observar que:
i
1
= 1 (A) =
o
^
(t)
ot
[
t=0
, i
2
= \ c: (A) =
o
2

^
(t)
ot
2
[
t=0
,
y los cumulantes estn directamente relacionados con los momentos crudos.
Los primeros cumulantes estn relacionados con los momentos crudos de la
siguiente manera:
i
1
= j
t
1
,
i
2
= j
t
2
(j
t
1
)
2
,
i
3
= j
t
3
3j
t
2
j
t
1
+ 2 (j
t
1
)
3
,
i
4
= j
t
4
4j
t
3
j
t
1
3 (j
t
2
)
2
+ 12j
t
2
(j
t
1
)
2
6 (j
t
1
)
4
,
i
5
= j
t
5
5j
t
4
j
t
1
10j
t
2
j
t
3
+20j
t
3
(j
t
1
)
2
+30 (j
t
2
)
2
j
t
1
60j
t
2
(j
t
1
)
3
+24 (j
t
1
)
5
.
De esto podemos ver que los dos primeros cumulantes son la media y la
varianza.
El cumulantes son a menudo preferibles a los momentos por varias razones
incluyendo las siguientes:
(i) En el caso de la distribucin normal: i
v
= 0, : = 3. 4. ...
(ii) El :simo cumulante es homogneo de :-simo orden i
v
(cA) =
c
v
i
v
(A), : = 1. 2. ....
(iii) El :simo cumulante es una funcin de los momentos de orden hasta
:,
(iv) Para variables aleatorias independientes, el cumulante de la suma es
la suma de los cumulantes:
i
v
_

a
I=1
A
I
_
=

a
I=1
i
v
(A
I
), : = 1. 2. ...
Funcin caracterstica
+
La existencia de la fgm depende fundamentalmente de que :
A
(t) sea
nita en el intervalo (/. /). En tal caso, todos los momentos 1 (A
v
) son
128 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
nitos para todo :. En los casos en los cuales 1 (A
v
) no es nito par algn
:, :
A
(t) no es nito en cualquier intervalo (/. /). Para poder hacer frente
a estos casos denimos la llamada funcin caracterstica (vase Cramer
(1946)):
,
A
(t) := 1
_
c
itA
_
=
o
_
o
c
itA
, (r) dr = :
A
(it), para i =
_
1
que, a diferencia de :
A
(t), siempre existe, ya que para todo t, ,
A
(t) est
acotado:
[,
A
(t)[ _ 1
_

c
itA

_
= 1,
y, por lo tanto, para muchas variables aleatorias, podemos encontrar la
funcin caracterstica usando la funcin generatriz de momentos.
La funcin caracterstica est relacionada con los momentos (cuando ex-
isten!) a travs de la serie:
,
A
(t) =

o
I=0
(it)
v
:!
j
t
v
para t (/. /) . / 0.
Tambin hay una relacin directa entre la funcin caracterstica de un
lado y la distribucin acumulada (fda) y funciones de densidad por el otro,
en primer lugar sealado por Lyapunov en el contexto de los teoremas lmite.
Teorema de inversin. Sean 1
A
(r), , (r) y ,
A
(t) las funciones fda,
densidad y caracterstica de una variable aleatoria A, respectivamente.
(a) Suponiendo que (c. /) son dos nmeros reales (c < /) en donde 1(r)
es continua:
1
A
(/) 1
A
(c) = lim
ao
1
2:
a
_
a
_
c
ito
c
itb
it
_
,
A
(t) dt
(b) Si
o
_
o
[,
A
(t)[ < , entonces 1
A
(r) =
a
_
o
, (n) dn y , (r) =
o
_
o
c
ita
,
A
(t) dt.
(c) ,
A
(t) determina nivocamente 1
A
(r) en el sentido que (vese Karr
(1993)):
1
A
(r) = lim
:o
_
_
lim
ao
1
2:
a
_
a
_
c
it:
c
itb
it
_
,
A
(t) dt
_
_
.
3.7. MOMENTOS 129
3.7.3 El problema de los momentos
+
Como se ha dicho anteriormente, la utilidad principal de los momentos es que
nos permiten manejar las distribuciones con parmetros desconocidos para los
nes de la modelacin y de la inferencia. La pregunta que viene a la mente en
esta etapa es cuando los momentos j
t
I
:= 1
_
A
I
_
, / = 1. 2. ..., suponiendo
que existan, determinan la distribucin unvocamente? Esta cuestin es de
suma importancia, porque si los momentos no determinan la distribucin
unvocamente, entonces la utilidad de los momentos se reduce. Por lo tanto,
las preguntas que surgen son las siguientes: dado el conjunto de momentos:
j
t
I
:= 1
_
A
I
_
< , / = 1. 2. ...,
(i) existencia: existe una funcin ,(r) _ 0 tal que:
o
_
o
r
v
, (r) dr?
(ii) unicidad: es la funcin ,(r) nica?
es decir,
o
_
o
r
v
, (r) dr =
o
_
o
r
v
q (r) dr =, (r) = q (r)?
En general, la respuesta a ambas preguntas es no! Bajo ciertas condi-
ciones, no obstante, la respuesta es s. Veamos cmo estas condiciones estn
relacionadas con la convergencia de la serie en (3.35).
Lema 1. Un resultado til sobre la existencia de los momentos es la
siguiente.
Una condicin suciente (pero ciertamente no necesaria) para la existen-
cia de momentos es que el soporte de la variable aleatoria A est en un
intervalo acotado, es decir, R
A
:= [c. /], donde < c < / < . En este
caso todos los momentos existen:
j
t
I
=
b
_
o
r
v
, (r) dr < para todo / = 1. 2. ...
En los casos en los cuales el rango de valores de la variable aleatoria en
cuestin no est acotada tenemos que comprobar la existencia o no de los
momentos.
Una condicin suciente para el problema de la unicidad es proporcionada
por lema 2.
Lema 2. Los momentos j
t
I
, / = 1. 2. ... (suponiendo que existen)
determinan la funcin de distribucin nivocamente si:
130 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
lim
ao
_
sup
_
(2:)
1
(j
t
2a
)
1
2n
__
< ,
NOTE que en muchas ocasiones usaremos las abreviaturas sup e inf que
representan al supremo y al nmo, respectivamente. Ellos son esencialmente
los bien conocidos mx y mn que representan al mximo y mnimo con una
calicacin. A veces el mximo y / o el mnimo de un conjunto de nmeros
pueden no existir, por ejemplo, el conjunto (0. 1) no tiene ni un mnimo ni
un mximo. En estos casos utilizamos inf y sup, que denotan la mayor cota
inferior y la menor cota superior, respectivamente, las cuales siempre existen!
Los menos matemticamente inclinados pueden interpretarlos como mximo
mnimo, sin preocuparse demasiado.
Un comprobacin til de una determinacin nica de la funcin de dis-
tribucin a travs de los momentos es proporcionada por la condicin Car-
leman:

o
a=1
_
(j
t
2a
)

1
2n
_
= .
Una condicin necesaria y suciente para el problema de la unicidad en
el caso de variables aleatorias continuas es proporcionada por lema 3.
Lema 3. Los momentos j
t
I
, / = 1. 2. ... de la variable aleatoria con-
tinua A (suponiendo que existen) con funcin de densidad f(r) determinan
su funcin de distribucin unvocamente si y slo si:
o
_
o
1a )(a)
(1+a
2
)
dr = .
Esto se conoce como la condicin de Krein; ver Stoyanov (1987).
Ejemplo
Considere el caso donde la variable aleatoria A tiene una distribucin
logartmica normal con una densidad:
, (r) =
1
r
_
2:
exp
1
2
(1: r)
2
, r R
+
Se puede demostrar que:
j
t
I
= c
I
2
2
, / = 1. 2. ...
y entonces

o
I=1
_
_
c
I
2
_

1
2I
_
=

o
I=1
_
c

I
2
_
< ,
es decir, la condicin Carleman no se sostiene. Sin embargo, en vista del
hecho de que la condicin Carleman slo es suciente, no podemos concluir
3.7. MOMENTOS 131
que los momentos no determinan la distribucin unvocamente. Por otra
parte, ya que la condicin Krein no se sostiene, es decir,
o
_
0
1
(1+a
2
)
_
1: r
1
2
(1: r)
2

dr < ,
podemos concluir que la distribucin log-normal no est determinada por
sus momentos debido a la condicin de Krein es a la vez necesaria y suciente;
ver Heyde (1963).
La lnea nal
Los lemas anteriores sugieren que, en general, los momentos no determi-
nan la distribucin unvocamente, incluso si utilizamos un nmero innito
de ellos. Adems, sabemos que, en general, ninguna distribucin es determi-
nada por un nmero nito de momentos. En vista del hecho de que, a efectos
de modelizacine inferencia estadstica podemos tratar slo con un pequeo
nmero de momentos (y, ciertamente, nito), el problema de los momentos
parece insalvable. Sin embargo, si estamos dispuestos a limitarnos a una
clase especca de distribuciones el problema se vuelve manejable.
Ejemplo
Dentro de la familia Pearson se requiere un mximo de cuatro momentos
para determinar la distribucin particular (ver captulo 12).
UNA NOTA DE PRECAUCIN: momentos coincidentes puede ser
muy engaoso!
Tenga en cuenta la distribucin que se especica a continuacin (ver Ro-
mano y Siegel (1986)).
r
_
3
_
3 0
, (r)
1
6
1
6
4
6
(3.36)
Podemos demostrar que la variable aleatoria cuya distribucin es denida
por (3.36) tiene momentos que coinciden con los cinco primeros momentos
de .~` (0. 1), ya que:
132 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
1 (A) =
_
3
_
1
6
_

_
3
_
1
6
_
= 0,
1
_
A
2
_
= 3
_
1
6
_
+ 3
_
1
6
_
= 1,
1
_
A
2
_
=
_
_
3
_
3
_
1
6
_

_
_
3
_
3
_
1
6
_
= 0,
1
_
A
4
_
= 9
_
1
6
_
+ 9
_
1
6
_
= 3,
Este ejemplo puede parecer un algo extremo, pero debe servir como una
nota de precaucin
3.7.4 Momentos centrales superiores
La nocin de la varianza se puede extender para denir los momentos cen-
trales usando la sucesin de funciones /(A) := (A 1(A))
v
. : = 3. 4. ... en
(3.26):
j
v
() := 1 (A
v
) =
_
o
o
(r j)
v
,(r; )dr. : = 2. 3. ...
En lugar de obtener estos momentos directamente, a menudo es ms
conveniente obtener los momentos centrales j
v
utilizando su relacin con los
momentos crudos y ver los cumulantes ( ver Stuart y Ord (1994)):
j
2
= j
t
2
(j
t
1
)
2
, i
2
= j
2
,
i
3
= j
t
3
3j
t
2
j
t
1
+ 2 (j
t
1
)
3
, i
3
= j
3
,
i
4
= j
t
4
4j
t
3
j
t
1
+ 6j
t
2
(j
t
1
)
2
3 (j
t
1
)
4
, i
4
= j
2
3 (j
t
2
)
2
,
Ejemplos
(i) Para la densidad de Poisson: ,(r; ) =
_
c
0
0
i
a!
_
, o (0. ), r =
0. 1. 2. ...,
ya sabemos que j = o. De un ejemplo anterior, sabemos que:

A
(t) = 1:(:
A
(t)) = o
_
c
t
1
_
= o
_
1 +t +
t
2
2!
+
t
3
3!
+
_
Por lo tanto, podemos deducir que:
3.7. MOMENTOS 133
i
v
=
o
r

^
(t)
ot
r
[
t=0
= o, : = 1. 2. ...
i
1
= o, i
2
= o, i
3
= o, i
4
= o, =j
2
= o, j
3
= o, j
4
= 3o
2
+o.
(ii) En el caso de que la variable aleatoria A sea normal con densidad
(3.31):
j
0
1
= j, j
2
= o
2
, j
3
= 0, j
4
= 3o
4
, j
v
=
_
0, : impar
v!o
r
(5v!)2
(5r)
, : par
_
i
1
= j, i
2
= o
2
, i
3
= 0, i
4
= 0, i
v
= 0, : = 5. 6. ...
En analoga directa a la funcin generatriz de momentos (fgm) la fgm
central se dene por:
:
A
(t) := 1
_
c
(Aj)t

= c
jt
A
:
A
(t) = 1+

o
v=1
j
v
t
v
:!
, para t (/. /) , / 0,
siempre que exista.
Uno de los los principales usos de los momentos centrales es que se pueden
utilizar para darnos una imagen ms completa de la forma de la distribucin.
Mediante la estandarizacin de los momentos centrales anteriores denimos
una serie de medidas tiles que nos permiten tener una idea ms completa
de la posible forma de una funcin de densidad. La primera caracterstica
importante de la forma de una distribucin es la de simetra alrededor de un
punto dado; a menudo c = 1 (A).
Simetra. Una variable aleatoria A con densidad ,(r) se dice que es
simtrica alrededor de un punto c si se cumpe la siguiente condicin:
, (c r) = , (c +r), para todo r R
A
,
o, ms generalmente, en trminos de la fda 1
A
(r):
1
A
(c r) = 1
A
(c +r) = 1, para todo r R
A
,
El coeciente de asimetra
El primer ndice de la forma, diseado para darnos una idea acerca de la
posible asimetra de una funcin de densidad alrededor de la media, es el co-
eciente de asimetra denido como el tercer momento central estandarizado
introducido por Pearson (1895):
Simetra: c
3
(A) =
j
3
(
_
j
2
)
3
,
NOTE que
_
j
2
= [\ c:(A)]
1
2
denota la desviacin estndar. Si la dis-
tribucin es simtrica alrededor de la media entonces, c
3
= 0; lo contrario
no se cumple!
Ejemplo
134 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
En cuanto a la gura 3.10 podemos ver que la densidad normal (3.10) es
simtrica y, por lo tanto c
3
= 0; lo mismo ocurre con la densidad uniforme,
como se muestra en la gura 3.12. En la gura 3.27, sin embargo, podemos
ver dos funciones de densidad positivamente sesgadas (c
3
0). Ambas rep-
resentan la misma densidad, la densidad Beta:
,(r; ) =
r
c1
(1 r)
o1
1[c. ,]
, : = (c. ,) R
2
+
, 0 < r < 1
para diferentes valores de los parmetros (c. ,), (c = 1. , = 4) y (c = 2. , = 4).
Como se muestra en el apndice A el coeciente de asimetra de la distribu-
cin Beta es el siguiente:
c
3
=
2 (c ,)
_
(c +, + 1)
(c +, + 2)
_
c,
UNA NOTA DE PRECAUCIN: c
3
= 0 no implica que la distribucin
es simtrica!
r 2 1 3
, (r) 0.4 0.5 0.1
(3.37)
1(A) = (2)(0.4) + 1(0.5) + 3(0.1) = 0. 1(A
3
) = (2)
3
(0.4) + 1(0.5) +
3
3
(0.1) = 0.
Por lo tanto, c
3
= 0 a pesar de que la distribucin anterior es claramente
no simtrica (ver Romano y Siegel (1986)). Este ejemplo pone de maniesto
la importancia de observar las grcas de las distribuciones y no slo algunas
medidas de sntesis; estas ltimas no son sustitutos para los grcos mismos!
Curtosis
El coeciente de asimetra permite al modelador distinguir entre una dis-
tribucin simtrica y una distribucin no simtrica, pero que an nos deja
con el problema de
3.7. MOMENTOS 135
Figura 3.27 Densidad positivamente sesgada.
Figura 3.28 Densidad negativamente sesgada.
distinguir entre dos distribuciones simtricas con diferentes formas, tales
como las densidades normal y uniforme mostradas en las guras 3.10 y 3.12.
Mirando esas dos grcas podemos ver que esas dos densidades son dieren
con respecto a sus picos y a sus colas. La normal tiene un pico en forma de
campana, pero la uniforme tiene un pico plano (sin pico!). La normal tiene
cola alargada que se extiende a innito en ambos lados, pero la uniforme no
tiene colas. La intuicin sugiere que una manera de distinguir entre ellas es
elaborar una medida que mida el apuntamiento en relacin a las colas. El
coeciente de curtosis es tal medida, introducida originalmente por Pearson
(1895).
La curtosis es una versin estandarizada del cuarto momento central:
136 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Curtosis: c
4
(A) =
j
4
(j
2
)
2
.
El trmino proviene de la palabra griega ijt.oj que signica curvatura
de la columna vertebral y pretende ser una medida de los apuntamiento en
relacin a la forma de las colas. NOTE que en algunos libros la medida
utilizada es (c
4
3) referida a un exceso de curtosis (el cuarto cumulante
estandarizado). En el caso de la distribucin normal (3.31) c
4
= 3, y se
conoce como una distribucin mesocrtica; meso viene del griego joo.
que signica medio (centro, mitad). En el caso donde la distribucin en
cuestin tenga un pico ms plano que la normal (c
4
< 3), la llamamos plat-
icrtica, y en el caso de que tenga un pico ms puntiagudo que el normal
(c
4
3), la llamamos leptocrtica ; plati y lepto provienen de las palabras
griegas :`ct. y `c:to. que signican ancho y delgado, respectivamente;
estos trminos fueron introducidos por Pearson (1906).
Intuitivamente, podemos pensar en el coeciente de curtosis como una
medida que indica si una distribucin simtrica cuando se compara con la
normal tiene colas ms gruesas y picos ms puntiagudos o no. Viendo la
densidad normal como una pila en forma de campana hecha de yeso el escultor
rasura parte de los hombros y lo agrega a la cola y el pico para producir una
distribucin leptocrtica.
Ejemplos
(i) Leptocrtica. En la gura 3.29 comparamos la densidad normal
estndar (lnea punteada) y una densidad leptocrtica, la densidad estndar
t de Student = 5:
, (r; ) =
exp
_

ac
o
_
,
_
1 + exp
_

ac
o
__
2
, = (c. ,) R R
+
, r R
con parmetros (c = 0. , = 0.56) y (c = 0. , = 0.628), respectivamente.
Como se muestra en el apndice A el coeciente de curtosis de la dis-
tribucin logstica es c
4
= 4.2. La gura 3.32 muestra lo difcil que puede
ser distinguir dos distribuciones en los estudios empricos con slo echarles
un vistaso.
3.7. MOMENTOS 137
Figura 3.29 Densidades normal frente a t de Student normalizada por o
a
.
Figura 3.30 Densidades normal frente a t de Student normalizada de modo
que \ c: (A = 1).
(iii) Platicrtica. En la gura 3.33 comparamos la densidad normal
(en lnea de puntos) con una densidad platicrtica, la tipo Pearson II con
= 3:
, (r) =

_
1
2

[ + 1] :
1
2

_
1
2
+ + 1

c
_
1 +
r
2
c
2
_

1
2
(+1)
, c _ r _ c, c
2
:= 2 ( + 2) .
La densidad normal diere de la de Pearson del tipo II en exactamente
la forma opuseta de lo que diere la t de Student. En particular,
(a) las colas de la Pearson II son ms delgadas,
138 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
(b) la curvatura de la Pearson II es menos puntiaguda.
(iv) En la gura 3.34 podemos ver la grca de los una densidad simtrica
Beta simtrico con parmetros (c = 4. , = 0.4):
,(r; ) =
r
c1
(1 r)
o1
1[c. ,]
, : = (c. ,) R
2
+
, 0 < r < 1
Figura 3.31 Densidades normal (0. 1) contra logstica (c = 0. , = 0.56).
Figura 3.32. Densidades normal (0. 1) contra logstica (c = 0. , = 0.628).
Figura 3.33 Densidades normal (0. 1) contra Pearson II.
Figura 3.34 Densidad Beta (c = 4. , = 0.4).
3.7. MOMENTOS 139
140 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Una vez ms podemos ver la misma forma de campana igual que en el caso
de las densidades normal, t de Student y Pearson tipo II, pero en contraste
con la t de Student es platicrtica ya que:
c
4
=
3 (c +, + 1)
_
2 (c +,)
2
+c, (c +, 6)

c, (c +, 2) (c +, 3)
y por lo tanto para todo c = ,, c
4
_ 3.
(v) Policrtica. Considere la distribucin potencia exponencial (o
error) cuya densidad es:
, (r; ) =
,
1
2
(

2
+1)

_
1 +
c
2
c
_

1
2
[
i
c
[
2

_
, = (j. ,. o) R R
2
+
, r R (3.38)
Esta es una distribucin simtrica con c
3
= 0, que incluye las distribu-
ciones normal (o = 1) y Laplace (o = 1) (ver Apndice A). Adems, pro-
porciona una parametrizacin conveniente del coeciente de curtosis, porque
anida las tres formas de los curtosis a travs del parmetro o. En vista del
hecho de que:
c
4
=

_
5
c
2

_
c
2

_
3
c
2

2
(a) para o = 1, , (r; ) es mesocrtica,
(b) para o < 1, , (r; ) es platicrtica,
(c) para o 1, , (r; ) es leptocrtica (vese gura 3.35).
(vi) Platicrtica. Es instructivo volver a la gura 3.25, donde compara-
mos una densidad Weibull con parmetros (c = 3.345. , = 3.45. j = 3) y
una densidad normal estndar. Mirando la los grcos de las dos densidades
es evidente que la distincin entre ellas es bastante difcil. Sin embargo, uti-
lizando el coeciente de curtosis descubrimos que la Weibull es platicrtica
(c
4
= 2.71) a diferencia de la normal (c
4
= 3).
3.7. MOMENTOS 141
Figura 3.35 Potencia exponencial: densidad platicrtica.
En conclusin, hay que decir que la utilidad del coeciente de curtosis se
reduce en el caso de distribuciones no simtricas, ya que no tiene la misma
interpretacin que en los casos simtricos anteriormente (vase Balanda y
MacGillivray (1988)).
Antes de proceder a considerar otras caractersticas numricas de las dis-
tribuciones, es instructivo discutir la derivacin de los momentos en los casos
en los que la distribucin no implica parmetros desconocidos.
Ejemplos
(i) Considere la variable aleatoria discreta A, con una densidad como la
dada a continuacin:
r 0 1 2
, (r) 0.3 0.3 0.4
1 (A) = 0 (0.3) + 1 (0.3) + 2 (0.4) = 1.1,
1 (A
2
) = 0
2
(0.3) + 1
2
(0.3) + 2
2
(0.4) = 1.9,
1 (A
3
) = 0
3
(0.3) + 1
3
(0.3) + 2
3
(0.4) = 3.5,
1 (A
4
) = 0
4
(0.3) + 1
4
(0.3) + 2
4
(0.4) = 6.7,
\ c: (A) = [0 1.1]
2
(0.3) + [1 1.1]
2
(0.3) + [2 1.1]
2
(0.4) = 0.69,
\ c: (A) = 1 (A
2
) [1 (A)]
2
= 1.90 1.21 = 0.69,
1
_
(A 1 (A))
3
_
= [0 1.1]
3
(0.3) + [1 1.1]
3
(0.3) + [2 1.1]
3
(0.4) =
0.108,
1
_
(A 1 (A))
4
_
= [0 1.1]
4
(0.3) + [1 1.1]
4
(0.3) + [2 1.1]
4
(0.4) =
0.7017,
c
3
=
_
0.108
(0.83)
3
= 0.18843
_
, c
4
=
_
0.7017
(0.83)
4
_
= 1.4785.
142 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
(c
3
= 0.1843; c
4
= 1.4785).
(ii) Considere la variable aleatoria continua X con funcin de densidad:
, (r) = 2r. 0 < r < 1,
1 (A) =
_
1
0
2r
2
dr =
2
3
r
3
[
1
0
=
2
3
.
1
_
A
2
_
=
_
1
0
2r
3
dr =
2
4
r
4
[
1
0
=
1
2
.
1
_
A
3
_
=
_
1
0
2r
4
dr =
2
5
r
5
[
1
0
=
2
5
.
\ c: (A) = 1
_
A
2
_
[1 (A)]
2
=
1
2

4
9
=
1
18
Invarianza de la asimetra y curtosis. Concluimos la discusin de
los coecientes de asimetra y curtosis reiterando que su utilidad se deriva
del hecho de que son invariantes a los cambios de localizacin y escala. Es
decir, para cualquier variable aleatoria A cuyos primeros cuatro momentos
existan:
c
3
(A) = c
3
(c +/A) y c
4
(A) = c
4
(c +/A).
3.7.5 Otras caractersticas numricas
Es a veces el caso de que para ciertas variables aleatorias, los momentos
discutidos anteriormente no tienen sentido. Por ejemplo, en el caso de que la
variable aleatoria A indique la religin de una persona: 1 = Cristiana, 2 =
Musulmana, 3 = Judia, 4 = Budista, la media y la varianza no tienen mucho
sentido. Adems, a veces la media y la varianza no existen, como en el caso
de la distribucin de Cauchy (ver seccin siguiente). En estos casos tenemos
que considerar otras caractersticas numricas.
En v.a. como religin los momentos anteriores no tienen sentido. Adems,
hay distribuciones (como la de Cauchy) donde no existen la media ni la var-
ianza. En estos casos se requieren otras caractersticas nmericas.
3.7. MOMENTOS 143
Medidas de localizacin
(1) La moda o valor modal :
0
, es aquel valor particular de la variable aleato-
ria que se corresponde con el mximo de la funcin de densidad; propuesto
por Pearson (1894).
Ejemplos
(i) Para la funcin de densidad dada en (3.39) la moda es igual a 2.
En el caso en que ,(r) es diferenciable la moda puede ser derivado como
la solucin de:
_
d, (r)
dr
_
= 0 sujeto a
_
d,
2
(r)
dr
2
_
a=n
0
< 0. (3.40)
(ii) Para una variable aleatoria lognormal A con funcin de densidad:
, (r; ) =
(ro)
1
2:
exp
_

1
2
(1: r j)
2
o
2
_
, :=
_
j. o
2
_
R R
+
, r R,
Teniendo en cuenta el hecho de que
_
o)
2
(a)
oa
2
_
a=n0
< 0, la moda de la
densidad es: :
0
= exp (j o
2
). En la gura 3.36 podemos ver la moda de
la densidad lognormal LN (j = 1. o = 0.7). En la gura 3.37 podemos ver la
moda de la densidad de Cauchy C (c = 0. , = 1).
(2) La mediana de una variable aleatoria A es aquel valor particular
que divide la probabilidad en dos mitades iguales, es decir, corresponde a r
1
2
(suponiendo que es nica) tal que:
P
_
r < r
1
2
_
_ 0.5 y P
_
r _ r
1
2
_
_ 0.5.
En el caso donde la funcin de distribucin es continua y estrictamente
creciente, r
1
2
se dene por:
1
_
r
1
2
_
= 0.5 y r
1
2
es nica.
144 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Figura 3.36 Moda de la densidad lognormal.
Figura 3.37. Moda de la densidad Cauchy
Ejemplos
(i) Para una variable aleatoria normal la mediana coincide con las otras
dos medidas de
localizacin:
media = mediana = moda.
NOTE que para distribuciones simtricas en general, la nica igualdad
que se cumple es la siguiente:
3.7. MOMENTOS 145
media = mediana.
(ii) Para una variable aleatoria lognormal la media est dada por el valor
: tal que:
n
_
0
1
ro
_
2:
exp
_

1
2
_
1: r j
o
_
2
_
dr =
1
2
, sustituyendo = 1: r,
1
o
_
2:
1a n
_
o
exp
_

1
2
_
j
o
_
2
_
dr =
1
2
, esto se cumple para 1: : = j,
Por lo tanto, la mediana es:
r
1
2
= c
j
.
La mediana de la densidad lognormal se muestra en la gura 3.36 como
el punto en el centro del rectngulo negro j = 1. o = 7 y por lo tanto
r
1
2
= 2.71828). La mediana es una medida importante de localizacin, porque
a veces la media no existe (vase la distribucin de Cauchy abajo), pero la
mediana siempre lo hace. Extendiendo la nocin de mediana a otros valores
en el intervalo [0. 1], no slo
_
1
2
_
, denimos lo que se conoce como un cuantil.
(3) Quantiles. El cuantil p-simo, denotado por r
j
, se dene como el
menor nmero satisfaciendo la relacin:
1
A
(r
j
) _ j, para j [0. 1].
Ms formalmente, el cuantil p-simo se dene por:
r
j
= 1

A
(j) := inf
aRi
r : 1
A
(r) _ j . para j [0. 1] . (3.42)
r
j
= 1

A
(j) := inf
aRi
r : 1
A
(r) _ j, para j [0. 1].
Como se dijo antes, inf
aRi
; es tan solo el gloricado mnimo. Esta denicin
sugiere que en el caso de que la funcin de distribucin acumulada (fda) sea
continua y estrictamente creciente, r
j
es nico y se dene por:
1 (r
j
) = j.
El valor p se conoce como p-simo percentil y el valor r
j
el cuantil corre-
spondiente.
Es interesante NOTAR que la nocin de cuartil fue introducida por McAl-
ister (1879), la nocin de mediana por Galton (1883) y la de percentil por
Galton (1885).
146 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Ms all de la mediana hay otros dos cuantiles de especial inters. El
cuartil inferior (NOTE la diferencia en el nombre) y el cuartil superior
son denidos por:
r
1
4
= 1

(0.25), r
3
4
= 1

(0.75).
Ejemplos
(i) En el caso de la distribucin estndar normal (`(0. 1)):
r
1
4
= 0.6745, r
3
4
= 0.6745.
Por lo tanto, para una distribucin normal arbitraria (`(j. o
2
)):
r
1
4
= j 0.6745o, r
3
4
= j + 0.6745o.
(ii) Es bien sabido que la distribucin de Cauchy (C(c. ,)) no tiene mo-
mentos. Considere la distribucin de Cauchy con fda, cuantiles y funciones
de densidad:
1 (r; c. ,) =
1
2
+
_
1

tan
1
_
ac
o
__
,
1
1
(r; c. ,) = c +, +
_
tan
_
:
_
r
1
2
__
,
, (r; c. ,) =
1
o
_
1+(
io
c
)
2
_
, c R, , R
a
, r R.
La funcin denida por (3.42) es interesante por derecho propio y es por
eso que vamos a tomar una breve digresin para examinar sus propiedades
en algn detalle; ver Karr (1993).
Funcin cuantil. La funcin denida por (3.42) en la forma de:
1

A
(.) : (0. 1) R
a
se conoce como la funcin cuantil. En cuanto a la denicin no es muy
difcil ver que 1

A
(.) no es la misma funcin inversa ordinaria de la fda de
distribucin 1
A
(.) ya la inversa existe slo en casos donde 1
A
(.) es uno a
uno y sobre, es decir, cuando 1
A
(.) es continua y estrictamente creciente.
Ella constituye, sin embargo, una especie de inversa generalizada que existe
incluso en los casos donde la funcin inversa comn no existe. Cuando la
funcin inversa ordinaria existe las dos coinciden en el sentido de que:
1

A
(.) = 1

A
(.).
Como se ha indicado antes, 1

A
(.) existe incluso en los casos donde 1
A
(.)
no es ni continua ni estrictamente creciente. Intuitivamente, 1

A
(.) salta
donde 1
A
(.) es plana y 1

A
(.) es plana en los puntos donde 1
A
(.) salta.
Debido a su importancia tomamos nota de varias propiedades tiles de la
funcin cuantil:
Q1. 1

A
(j) _ r si y slo si j _ 1
A
(r) para todo r R
a
y j (0. 1),
Q2. 1

A
(.) es creciente y continua a la izquierda,
Q3. Si 1
A
(.) es continua, 1
A
_
1

A
(j)
_
= j.
Ejemplo
3.7. MOMENTOS 147
En las guras 3.38-3.39 podemos ver la fda de Cauchy 1(r; 0. 1) y la
funcin cuantil correspondiente:
G(r; 0. 1) := 1
1
(r; 0. 1), (c = 0, , = 1).
Podemos demostrar que:
c
_
o
1
o
_
1+(
io
c
)
2
_
dr =
1
2
,
co
_
o
1
o
_
1+(
io
c
)
2
_
dr =
1
4
,
c+o
_
o
1
o
_
1+(
io
c
)
2
_
dr =
3
4
.
Es decir, la mediana es igual a c, el cuartil inferior es igual a c ,
y el cuartil superior es igual a (c +,). Estos cuantiles a menudo pueden
ser utilizados en lugar de los momentos cuando se utiliza la distribucin de
Cauchy. En la gura 3.37 podemos ver los dos cuartiles mostrados con los
prqueos tringulos a cada lado de la media.
En relacin a la funcin cuantil notemos un resultado muy til que puede
ser ser visto como el inverso de la transformacin integral de probabilidad
antes mencionada.
La inversa de la transformacin integral de probabilidad. Para
cualquier variable aleatoria continua A, con una fda 1
A
(r) tal que n =
1
A
(r) es invertible y r = 1
1
A
(r) .
a) Para la variable aleatoria l = 1
A
(r):
l = 1
A
(r) ~U(0. 1) . (3.43)
Figura 3.38 fda Cauchy (c = 0, , = 1).
Figura 3.39 Funcin cuantil Cauchy.
148 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
(b) Sea l~U(0. 1) y denir A = 1

A
(l). Entonces A tiene una distribu-
cin con fda 1
A
(.).
NOTE que, en contraste con la transformacin integral de probabilidad,
el resultado de la transformacin inversa no asume que 1(.) es continua.
El resultado anterior proporciona una manera ms notable para generar
variables aleatorias con una distribucin dada. Su utilidad puede ser vista
fcilmente en casos donde 1(r) es invertible (vase el captulo 5).
Ejemplo
Considere el caso donde l~U(0. 1) y queremos transformarla en una vari-
able aleatoria A exponencialmente distribuida con:
1
A
(r) = 1 c
0a
, r 0.
Utilizando (3.43) junto con la forma especca de 1(r), podemos deducir
que n = 1 c
0a
, c
0a
= 1 n, r =
1
0
1: (1 n), y por lo tanto:
A = 1

A
(n) =
1
0
1: (1 n), n (0. 1).
Este resultado se puede utilizar para simular variables aleatorias dis-
tribuidas exponencialmente usando variables aleatorias distribuidas uniforme-
mente; vase el captulo 5.
Medidas de dispersin
(1) El rango se dene como la diferencia entre el mayor y el menor valor
que toma la variable aleatoria que se trate, es decir,
1(A) := A
max
A
min
.
Ejemplo
En el caso de la distribucin uniforme (l(c. /)):
1(A) := A
max
A
min
= / c.
(2) El rango intercuartlico, se dene como la diferencia entre los cuar-
3.7. MOMENTOS 149
tiles inferior y superior:
11Q :=
_
r3
4
r1
4
_
.
Ejemplos
(i) En el caso de la distribucin normal (`(j. o
2
)):
11Q :=
_
r3
4
r1
4
_
= j + 0.6745o j + 0.6745o = 2 (0.6745) o.
En la gura 3.40 podemos ver la fda normal para `(0. 1) con los cuantiles
siguientes:
r 1(r) ,(r)
r
0.05
1.645 0.05 0.103
r
0.25
0.6745 0.25 0.318
r
0.75
0.6745 0.75 0.318
r
0.95
1.645 0.95 0.103
En la gura 3.41 podemos ver estos cuantiles en relacin con la function
de densidad.NOTE que el mximo de la funcin de densidad es justamente
1
o
_
2
= 0.39894 .
(ii) En el caso de la distribucin de Cauchy considerada anteriormente,
podemos ver fcilmente que:
11Q := (c +,) (c ,) = 2,.
Este puede ser usado como una medida de dispersin ya que la varianza
no existe.
(3) La desviacin cuartil, se dene como la mitad del rango intercuar-
tlico, es decir:
(A) :=
_
1
2
_
_
r3
4
r1
4
_
.
Figura 3.40 fda normal: cuantiles.
150 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Figura 3.41 Densidad normal: cuantiles.
Ejemplos
(i) Para la distribucin normal ` (j. o
2
): (A) :=
_
1
2
_
_
r3
4
r1
4
_
=
(0.6745) o.
(ii) Para la distribucin de Cauchy C (c. ,): (A) :=
_
1
2
_
_
r3
4
r1
4
_
= ,.
(4) El coeciente de variacin, propuesto por Pearson (1896), se dene
como el cociente de la desviacin estndar respecto a la media de la variable
aleatoria que se trate, es decir,
c (A) :=
o
j
.
3.8 Desigualdades
Un captulo muy importante de la teora de la probabilidad es el de las
desigualdades probabilsticas. La funcin principal de estas desigualdades
es proporcionar cotas superiores e inferiores para la evaluacin de las prob-
abilidades asociadas con variables aleatorias mediante la utilizacin de sus
momentos. En cierto modo estas desigualdades nos proporcionan formas para
dejar de lado la distribucin de ciertas variables aleatorias, pero todava en
una posicin para hacer armaciones probabilsticas relativas a estas vari-
ables aleatorias; ver Shiryayev (1984), Karr (1993) y Loeve (1963).
Desigualdad general de Chebyshev. Sea A (.) : o R
a
:= (0. )
una variable aleatoria positiva y sea g(.) : (0. ) (0. ) una funcin
positiva y creciente. Entonces, para todo 0.
3.8. DESIGUALDADES 151
P(g(A) _ ) _
1 [g(A)]
g()
(3.44)
Tomemos nota de que la desigualdad de Chebyshev encontrada anteri-
ormente es un caso especial de (3.44). Otros casos especiales, se indican a
continuacin. NOTE en primer lugar que no existe una terminologa estndar
para estas desigualdades.
Desigualdad de Markov. Sea A una variable aleatoria tal que 1 ([A[
j
) <
. para j 0 :
P([A[ _ ) _
1 [[A[
j
]

j
.
La conocida frase de que "no hay comida gratis" se puede ilustrar usando
esta desigualdad para demostrar que al postular la existencia de los momentos
superiores podemos mejorar la cota superior.
Ejemplo
Sea A
a

o
a=0
:= A
1
. A
2
. .... A
a
. ... una sucesin de variables aleato-
rias Bernoulli independientes e idnticamente distribuidas (IID) . Se puede
demostrar que:
o
a
:=

a
I=1
A
I
~1i (:o. :o (1 o)).
Usando la desigualdad de Chebyshev obtenemos:
P
_

:
1
o
a
o


_
_
o (1 o)
:
2
.
Por otro lado, utilizando la desigualdad de Markov para el cuarto mo-
mento:
P
_
[1 1 (1 )[
4

_
_
1
_
[1 1 (1 )[
4
_

4
.
sealando que E
_
[:
1
o
a
o[
4
_
= :o [1 + 3o (1 o) (: 2)] proporciona
P
_

:
1
o
a
o


_
_
3
16:
2

4
.
Como puede verse, la estimacin de la cota superior dada por la desigual-
dad de Markov es menos crudo, ya que utiliza ms informacin en relacin
con la existencia de momentos.
152 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
La desigualdad de Bernstein. Sea A (.) : o R
a
:= (0. ) una
variable aleatoria positiva tal que 1
_
c
tA
_
< para algn t [0. c], c 0:
P(A _ ) _
1
_
c
tA
_
c
tA
_ inf
0tc
_
c
tA
1
_
c
tA
__
.
Desigualdad de Jensen. Sea ,(.) : R R una funcin convexa, es
decir:
`,(r) + (1 `) ,() _ ,(`(r) + (1 `) ()) , ` (0. 1) . r. R.
Suponiendo que (1([A[)) < , entonces:
,(1 (A)) _ 1 (,(A)).
Esta desigualdad se puede utilizar para obtener toda una serie de de-
sigualdades.
Desigualdad de Holder. Sean A, 1 variables aleatorias tales que
1([A[
j
) < y 1([A[
j
) < , donde 1 < < , 1 < j < ,
1
j
+
1
q
= 1,
entonces:
1 (A 1 ) _ 1([A[
j
)
1

1([1 [
q
)
1
q
.
Desigualdad de Minkowski. Sean A, 1 variables aleatorias tales que
1([A[
j
) < y 1([A[
j
) < , donde 1 < j < , entonces:
1 ([A +1 [
j
)
1

_ 1([A[
j
)
1

1([1 [
j
)
1

.
Las desigualdades anteriores se utilizan ampliamente en el contexto de
los teoremas lmite considerados en el captulo 9.
3.9 Resumen
El objetivo bsico de este captulo ha sido la transformacin del abstracto es-
pacio de probabilidad (o. . P(.)) en un modelo de probabilidad operacional.
El resultado nal es una familia de densidades indexadas por un pequeo
nmero de parmetros desconocidos:
= ,(r; ). . r R
A
.
3.10. EJERCICIOS 153
Esta es la base del fundamento del marco de referencia matemtico sobre
el que ser construida la modelizaciny la inferencia estadstica. Siendo los el-
ementos bsicos del modelo de probabilidad (i) la funcin de densidad, cuyas
formas resultarn importante en la modelacin, (ii) el espacio de parmetros
que tambin juega un papel importante en la inferencia estadstica y (iii)
el soporte de la densidad. Todos estos tres elementos juegan un papel im-
portante en la eleccin de un modelo de probabilidad adecuado. En vista
del hecho de que las formas distribucionales dependen fundamentalmente
de los parmetros desconocidos, nos gustara de alguna manera evaluar las
formas sugeridas por los datos observados antes de elegir el modelo de prob-
abilidad adecuado, sin tener que conocer los parmetros. En primer lugar
podemos utilizar tcnicas estadsticas descriptivas, tales como el histograma,
as como calcular caractersticas de los datos observados, tales como la me-
dia aritmtica. Como se muestra en el captulo 5 stas estn directamente
relacionadas con las formas distribucionales adoptadas por las funciones de
densidad y los llamado momentos de la distribucin. Esa es la razn por la
que hicimos una digresin para hablar de los momentos de una distribucin
y cmo se relacionan con los parmetros.
La relacin entre los parmetros desconocidos del modelo de probabili-
dad y los momentos de la distribucin en cuestin viene dada por:
1(A
v
) =
_
o
o
r
v
,(r; )dx =g
v
() . : = 1. 2. ...
Los conceptos introducidos en esta digresin resultarn indispensable para
los nes de la modelacin, ya que representan elementos esenciales del fun-
damento.
En el siguiente captulo consideramos la metamorfosis del abstracto espa-
cio muestral (
111
a
en un modelo muestral operacional en trminos de variables
aleatorias: un conjunto de variables aleatorias A := (A
1
. A
2
. .... A
a
), con una
estructura probabilstica especca.
3.10 Ejercicios
1. Explique por qu el abstracto espacio de probabilidad no es conveniente
para los propsitos de la modelacin.
2. (a) "Una variable aleatoria ni es variable ni es aleatoria". Discuta.
154 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
(b) "El concepto de una variable aleatoria es un concepto relativo".
Discuta.
(c) Explicar la diferencia entre la inversa y la preimagen de una
funcin.
3. Considere el experimento aleatorio de lanzar dos dados y contar el
nmero total de puntos que aparecen en las caras superiores. La variable
aleatoria A toma el valor 0 cuando el nmero total de puntos es impar y 1
cuando el nmero total de puntos es par.
(a) Derive la funcin de densidad de la variable aleatoria A asumiendo
que los dos
dados son simtricos.
(b) Derive la funcin de densidad de la variable aleatoria A asumiendo
que los dos
dados no son simtricos.
4. Discuta la diferencia entre las siguientes funciones conjunto probabili-
dad en trminos de su dominio:
P(A _ r) = PA
1
((. r]) = 1
A
((. r]).
5. En el caso del experimento aleatorio de "lanzar una moneda dos veces":
o = (HH). (H1). (1H). (11), = o. ?. . ,
donde = (HH). (H1). (1H).
Considere las siguientes funciones:
(i) A(HH) = 1. A(H1) = 2. A(1H) = 2. A(11) = 1,
(ii) 1 (HH) = 1. 1 (H1) = 0. 1 (1H) = 0. 1 (11) = 0,
(iii) 2(HH) = 1. 2(H1) = 1. 2(1H) = 1. 2(11) = 7405926.
(a) Cules de las funciones (i) - (iii) constituyen variables aleatorias con
respecto a ?
(b) Para las funciones que no son variables aleatorias con respecto a ,
dena el
espacio de eventos generados por ellas.
6. Compare y contraste los conceptos de una variable aleatoria simple y
una variable aleatoria general.
7. Describa brevemente la metamorfosis del espacio de probabilidad
(o. . P(.)) en un modelo de probabilidad de la forma:
= ,(r; ). . r R
A
.
Explique la relacin entre los componentes del espacio de probabilidad y
el modelo de probabilidad.
8. Explique los componentes principales de un modelo de probabilidad
genrico de la forma:
3.10. EJERCICIOS 155
= ,(r; ). . r R
A
.
9. Por qu nos preocupamos por los momentos de una distribucin?
Cmo los momentos proporcionar una forma de interpretar los parmetros
desconocidos?
10. La funcin de densidad de la distribucin exponencial es:
,(r; ) = oc
0a
, o 0. r 0.
(a) Derive su media y varianza.
(b) Derive su moda.
11. Considere la funcin:
,(r) = 140
_
r
3
(1 r)
3

. 0 < r < 1.
(a) Demuestre que esta es realmente una funcin de densidad propia para
una variable aleatoria A.
(b) Derive la media, moda, varianza y curtosis de A.
12. Considere la variable aleatoria discreta A cuya distribucin es la
siguiente:
r 1 0 1
,(r) 0.2 0.4 0.4
(a) Derive su media, varianza y coecientes de asimtria y curtosis.
(b) Derive su moda y coeciente de variacin.
13. (a) Exprese las propiedades de una funcin de densidad.
(b) Contraste las propiedades de los operadores valor esperado y
varianza.
(c) Sean A
1
y A
2
dos variables aleatorias independientes con la
misma media j y varianza o
2
.Derive la media y la varianza de la funcin:
1 =
1
3
A
1
+
2
3
A
1
.
14. Explique cmo las propiedades de la varianza son determinadas en
realidad por las del operador media.
15. Explique cmo la funcin generatriz de momentos se puede utilizar
para obtener los momentos.
16. Explique el concepto de asimetra y discuta por qu c = 3 no implica
que la distribucin en cuestin es simtrica.
17. Explique el concepto de curtosis y discuta por qu es de valor limitado
cuando la distribucin no es simtrica.
18. Para una distribucin de Weibull con parmetros (c = 3.345. , = 3.45)
obtenga el coeciente de curtosis usando las frmulas en el apndice A.
19. Explique por qu los momentos de coincidencia (matching mo-
ments) entre dos distribuciones puede llevar a conclusiones errneas.
156 CAPTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
20. Compare y contraste la funcin de distribucin acumulativa (fda) y la
funcin cuantil. Explique por qu la funcin cuantil no siempre es la inversa
de la fda.
21. Explique los conceptos de un percentil y un cuantil y cmo se rela-
cionan.
22. Por qu nos interesan las desigualdades probabilsticas?
23. "Los momentos no caracterizan las distribuciones en general, y cuando
lo hacen a menudo necesitamos de un nmero innito de momentos para la
caracterizacin ". Discuta.
24. Explique la integral de probabilidad y la transformacin integral de
probabilidad inversa. Qu utilidad puede tener en la simulacin de variables
aleatorias no uniformes?
Apndice A. Modelos univariados de probabilidad
El propsito de este apndice es resumir los modelos de probabilidad
ms tiles y sus parametrizaciones, sus momentos y otras caractersticas
numricas para nes de referencia.
FALTA INCLUIR MODELOS.
Captulo 4
El concepto de muestra
aleatoria
4.1 Introduccin
4.1.1 Objetivo principal de este captulo
El objetivo principal de este captulo es completar la metamorfosis del es-
pacio estadstico simple en un modelo estadstico simple que se inici en
el captulo anterior. En el captulo 3 convertimos el primer componente, el
espacio de probabilidad, en un modelo de probabilidad. En este captulo
procedemos a convertir el segundo componente, el espacio muestral, en un
modelo muestral. La metamorfosis involucra dos de los conceptos ms
importantes de la teora de la probabilidad: Independencia y Distribucin
Idntica. Al concluir la metamorfosis llegamos a uno de nuestros principales
objetivos intermedios, la formulacin de un modelo estadstico simple, que
constituye la forma ms sencilla de un modelo estadstico. Este ltimo es la
piedra angular sobre la que vamos a construir tanto la modelizacin emprica
como la inferencia estadstica. Como se mencion en el captulo 1, lo que
distingue a la modelizacin emprica de otras formas de modelizacin es el
uso de datos observados en conjuncin con modelos estadsticos. Ser muy
difcil exagerar la importancia del concepto de modelo estadstico en el con-
texto de la modelizacin con datos no experimentales. Esto se debe a que
la eleccin de un modelo estadstico, cuando se modela con datos no exper-
imentales, es el aspecto ms difcil del problema y por lo tanto se necesita
un exhaustivo y profundo entendimiento de los conceptos involucrados. Este
157
158 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
entendimiento concierne tanto a los aspectos probabilsticos (matemticos),
como a la dimensin intuitiva que se relaciona a los datos observados.
4.1.2 La historia hasta ahora
En el captulo 2 iniciamos la formalizacin de un mecanismo aleatorio simple
genricamente conocido como un experimento aleatorio especicado por las
siguientes condiciones:
[a] todos los posibles distintos resultados se conocen a priori,
[b] en cualquier prueba particular los resultados no se conocen a priori
pero existe una regularidad perceptible de ocurrencia asociada con esos re-
sultados y
[c] el experimento aleatorio se puede repetir bajo idnticas condiciones.
La primera formalizacin en el captulo 2 tom la forma de un espacio
estadstico simple:
[i] espacio de probabilidad simple: (o. . P(.))
a
,
[ii] espacio muestral simple: (
111
a
:= /
1
. /
2
. .... /
a
.
Esta formalizacin, aunque adecuada para propsitos matemticos, es
demasiado abstracta para los propsitos de la modelizacin. En un intento
por transformarla en algo ms adecuado para el anlisis de datos numricos,
hemos usado el concepto de variable aleatoria para transformar el espacio de
probabilidad en un modelo de probabilidad:
espacio de probabilidad
(o. . P(.))
modelo de probabilidad
= ,(r; ). . r R
A
,
donde denota un conjunto de funciones de densidad ,(r; ), indexadas
por algn parmetro(s) desconocido(s) : este ltimo tomando valores en
(ver captulo 3).
4.1.3 De pruebas aleatorias a una muestra aleatoria: a
primer punto de vista
Como argumentamos en el captulo 2, un espacio muestral simple (
111
a
:=
/
1
. /
2
. .... /
a
, es un conjunto de pruebas aleatorias que satisface las sigu-
ientes condiciones:
Independiente (I): P
(a)
(/
1
/
2
. .... /
I
) =

I
i=1
P
i
(/
i
) . para cada / = 2. 3. .... :.
(4.1)
4.1. INTRODUCCIN 159
Idnticamente Distribuido (ID): P
1
(.) = P
2
(.) = = P
a
(.) = P(.) . (4.2)
Independencia se relaciona con la condicin de que "el resultado de una
prueba no afecta y no es afectado por el resultado de cualquier otra prueba"
o, equivalentemente:
P
(a)
(/
I
[/
1
. /
2
. .... /
I1
. /
I+1
. .... /
a
) = P
I
(/
I
) , para cada / = 1. 2. .... :
(4.3)
La condicin ID tiene que ver con el "mantenimiento de la misma estruc-
tura probabilstica de una prueba a otra"; las probabilidades asociadas a los
diferentes resultados siguen siendo las mismas para todas las pruebas.
Armados con el concepto de variable aleatoria, ahora consideramos la
metamorfosis del abstracto concepto de espacio muestral simple en algo
relacionado con las variables aleatorias. Observando la denicin de prue-
bas aleatoria (4.1) - (4.2), podemos ver que la condicin de Independen-
cia se dene en trminos de las funciones conjunto de probabilidad P
(a)
(.)
y P
(I)
(.) que pertenecen a los espacios de probabilidad
_
o
(a)
.
(a)
. P
(a)
_
y
_
o
(I)
.
(I)
. P
(I)
_
, respectivamente. Las dicultades que hay que enfrentar en
la transformacin de las pruebas aleatorias /
1
. /
2
. .... /
a
en un conjunto
de variables aleatorias A
(a)
:= (A
1
. A
2
. .... A
a
), tienen que ver con la deni-
cin de conceptos equivalentes a P
(a)
(.) y P
(I)
(.) en trminos de variables
aleatorias. El concepto que corresponde a las funciones conjunto P
(a)
(.), es
la llamada funcin de distribucin conjunta y la correspondiente a P
(I)
(.),
es la llamada funcin de distribucin marginal. Utilizando estas dos no-
ciones podemos denir el concepto de muestra aleatoria: un conjunto de
variables aleatorias Independientes e Idnticamente Distribuidas (IID). El
nuevo concepto bsico necesario para la formalizacin de ambas nociones es
el de funcin de distribucin conjunta.
4.1.4 Una vista panormica del captulo
En la seccin 2 introducimos la nocin de distribucin conjunta usando el
caso de dos variables para nes expositivos. En la seccin 3 relacionamos la
nocin de distribucin conjunta con la de distribucin marginal introducida
en el captulo anterior, haciendo hincapi en el hecho de que la primera im-
plica a menudo ms informacin que las distribuciones marginales asociadas
160 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
a ella. En la seccin 4 introducimos el concepto de distribucin condicional
y lo relacionamos con las distribuciones conjunta y marginal. Las nociones
de condicionalidad y momentos condicionales jugarn un papel muy impor-
tante en las discusiones que siguen. En la seccin 5 denimos el concepto
de independencia usando la relacin entre las distribuciones conjunta, mar-
ginal y condicional. En la seccin 6 denimos el concepto de Idnticamente
Distribuido en trminos de las distribuciones marginales. Armados con los
conceptos de Independencia y de Distribucin Idntica procedemos a denir
el concepto de muestra aleatoria en la seccin 7. Antes de completar la meta-
morfosis de un espacio estadstico simple en un modelo estadstico simple, en
la seccin 10 hacemos una digresin importante. En la seccin 8 introduci-
mos el concepto de funcin de variables aleatorias y su distribucin como un
preludio a la discusin del concepto de muestra aleatoria ordenada en la sec-
cin 8. La nocin de funcin de variables aleatorias es crucial en el contexto
de la inferencia estadstica: la inmensa mayora de las cantidades de inters
en la inferencia estadstica (estimadores, estadsticos de prueba, predictores)
son funciones tales. El concepto de muestra ordenada es importante en el
presente contexto, porque una simple reordenacin de una muestra aleato-
ria proporciona una muestra no aleatoria! El concepto de muestra ordenada
tambin juega un papel importante en la inferencia estadstica.
4.2 Distribuciones conjuntas
El concepto de distribucin conjunta es sin duda una de las nociones ms
importantes tanto de la teora de la probabilidad como de la inferencia es-
tadstica. Al igual que en el caso de una sola variable aleatoria, la discusin
proceder a introducir el concepto del caso ms simple al caso ms general.
En este contexto, simple se reere al caso de conjuntos de resultados numer-
ables que dan lugar a variables aleatorias discretas. Despus de introducir
las ideas bsicas en este contexto simplicado procedemos a discutirlas en su
plena generalidad.
4.2.1 Variables aleatorias discretas
Para comprender el concepto de conjunto de variables aleatorias (un vector
aleatorio), consideremos en primer lugar el caso de dos variables aleatorias,
ya que su extensin a un nmero mayor de variables aleatorias es simple, en
4.2. DISTRIBUCIONES CONJUNTAS 161
principio, pero complicada en trminos de notacin.
Vector aleatorio. Considerar las dos variables aleatorias simples A(.)
y 1 (.) denidas en el mismo espacio de probabilidad (o. . P(.)), es decir,
A(.) : o R tal que A
1
(r) , para todo r R.
1 (.) : o R tal que 1
1
() , parat todo R.
NOTA: recordamos al lector que 1
1
() = : : 1 (:) = . : o repre-
senta la preimagen de la funcin 1 (.) y no su imagen inversa. Vindolas por
separado podemos denir sus funciones de densidad individuales, como se
explic en el captulo anterior, de la siguiente manera:
P(: : A (:) = r) = ,
a
(r) 0. r R
A
.
P(: : 1 (:) = ) = ,
j
() 0. R
Y
.
donde R
A
y R
Y
representan el soporte de las funciones de densidad de A
y 1 . Considerndolas juntas podemos pensar de cada par (r. ) R
A
R
Y
: : A(:) = r. 1 (:) = := : : A(:) = r: : 1 (:) = . (r. ) R
A
R
Y
,
En vista del hecho de que el espacio de eventos es un o-campo, y, por
lo tanto, cerrado bajo intersecciones, el mapeo:
Z(.. .) := (A (.) . 1 (.)) : o R
2
es un vector aleatorio ya que la preimagen de Z(.) pertenece al espacio de
eventos :
Z
1
(r. ) =
__
A
1
(r)
_

_
1
1
()
_
.
ya que, A
1
(r) y 1
1
() , por denicin (vese Spanos, (1986)).
Densidad conjunta. La funcin de densidad conjunta se dene por:
, (.. .) : R
A
R
Y
[0. 1] .
, (r. ) = P: : A(:) = r. 1 (:) = . (r. ) R
A
R
Y
.
162 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Ejemplo
Consideremos el caso del experimento aleatorio de lanzar una moneda no
trucada dos veces, dando lugar al conjunto de resultados: o = (HH). (H1). (1H). (11).
Denamos las variables aleatorias A (.) e 1 (.) en o de la siguiente man-
era:
A (HH) = A(H1) = A (1H) = 1. A (11) = 0.
1 (H1) = 1 (1H) = 1 (11) = 1. 1 (HH) = 0.
Podemos construir las funciones de densidad individuales de la siguiente
manera:
r 0 1
, (r) 0.25 0.75
0 1
, () 0.25 0.75
((4.4))
Para denir la funcin de densidad conjunta es necesario especicar todos
los eventos de la forma:
(A = r. 1 = ) . r R
A
. R
Y
,
y luego asignar probabilidades a estos eventos. Habida cuenta que:
(A = 0. 1 = 0) = = O. , (r = 0. = 0) = 0.00.
(A = 0. 1 = 1) = (11) . , (r = 0. = 1) = 0.25.
(A = 1. 1 = 0) = (HH) . , (r = 1. = 0) = 0.25.
(A = 1. 1 = 1) = (H1) . (1H) . , (r = 1. = 1) = 0.50.
Es decir, la densidad conjunta toma la forma:
r 0 1
0 0.00 0.25
1 0.25 0.50
((4.5))
Si comparamos esta densidad conjunta (4.5) con las densidades univari-
adas (4.4), no existe una relacin evidente, pero como se muestra a contin-
uacin, esto es engaoso. Como argumentamos en el siguiente captulo, la
diferencia entre la probabilidad conjunta ,(r. ), r R
A
. R
Y
y el pro-
ducto de las probabilidades individuales (,(r),()) para r R
A
. R
Y
,
4.2. DISTRIBUCIONES CONJUNTAS 163
reeja la dependencia entre las variables aleatorias A e 1 . En esta etapa
es fundamental tener en cuenta que una caracterstica muy importante de
la funcin de densidad conjunta ,(r. ), es que proporciona una descripcin
general de la dependencia entre A e 1 .
Antes de proceder a examinar el caso de variables aleatorias continuas
es instructivo considerar un caso particularmente simple de una funcin de
densidad discreta de dos variables.
Ejemplo
El ejemplo anterior es un caso particular de una bien conocida distribucin
discreta conjunta, la distribucin de Bernoulli dada a continuacin:
r 0 1
0 j (0. 0) j (1. 0)
1 j (0. 1) j (1. 1)
((4.6))
donde j(i. ,) denota la probabilidad conjunta para A = i y 1 = ,,
i. , = 0. 1. La densidad conjunta de Bernoulli toma la forma:
, (r. ) = j (0. 0)
(1j)(1a)
j (0. 1)
(1j)a
j (1. 0)
j(1a)
j (1. 1)
aj
. r = 0. 1, = 0. 1.
4.2.2 Variables aleatorias continuas
En el caso donde el conjunto de resultados o no es numerable, las variables
aleatorias denidas en l se dice que son continuas, porque su rango de valores
es un intervalo en la recta real R.
Vector aleatorio. Considere las dos variables aleatorias continuas A(.)
y 1 (.) denidas en el mismo espacio de probabilidad (o. . P(.)), es decir,
A (.) : o R. tal que A
1
((. r]) . para todo r R.
A (.) : o R. tal que 1
1
((. ]) . para todo R.
Visualizndolas por separado podemos denir sus funciones de distribu-
cin acumulada (fda) (ver captulo 3), de la siguiente manera:
P(: : A(:) _ r) = P
_
A
1
(. r]
_
= 1
A
((. r]) = 1
A
(r). r R.
P(: : A(:) _ ) = P
_
1
1
(. ]
_
= 1
Y
((. ]) = 1
Y
(). R.
164 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Visualizndolas juntas podemos asociar a cada par (r. ) RR eventos
de la forma:
: : A(:) _ r. 1 (:) _ := : : A(:) _ r: : 1 (:) _ . (r. ) RR.
Al igual que en el caso de variables aleatorias discretas, ya que es un
ocampo (cerrado bajo intersecciones) el mapeo:
Z(.. .) := (A (.) . 1 (.)) : o R
2
.
constituye un vector aleatorio; la preimagen de Z(.):
Z
1
((. r] (. ]) =
__
A
1
((. r])
_

_
1
1
((. ])
_
.
dado que (A
1
((. r])) y (1
1
((. ])) por denicin.
La funcin de distribucin acumulada conjunta (fda) se dene por:
1
A,Y
(.. .) : R
2
[0. 1] .
1
AY
(r. ) = P: : A(:) _ r. 1 (:) _ = 1
AY
((. r] (. ]) . (r. ) R
2
.
La fda conjunta tambin se puede denir en los intervalos de la forma
(c. /]:
P: : r
1
< A(:) _ r
2
.
1
< 1 (:) _
2
= 1 (r
2
.
2
)1 (r
1
.
2
)1 (r
2
.
1
)+1 (r
1
.
1
) .
La funcin de densidad conjunta, asumiendo que , (r. ) _ 0 existe,
se dene a travs de:
1 (r. ) =
_
a
o
_
j
o
,(n. )dnd.
NOTE que los subndices a menudo se omiten cuando no hay posibilidad
de confusin. En el caso en el que 1(r. ) sea diferenciable en (r. ) podemos
derivar la densidad conjunta por diferenciacin parcial:
4.2. DISTRIBUCIONES CONJUNTAS 165
, (r. ) =
J
2
1 (r. )
JrJ
. en todos los puntos de continuidad de ,(r. ).
Ejemplo
Sea la fda conjunta la de la distribucin exponencial bivariada:
1 (r. ) = 1c
a
c
j
+c
aj
. =, (r. ) =
J
2
1 (r. )
JrJ
= c
aj
. r _ 0. _ 0.
En el caso de variables aleatorias continuas podemos pensar en la densi-
dad conjunta como estando denida en un intervalo de la forma (r < A _ r +dr, < 1 _ +d)
de la siguiente manera:
P(r < A _ r +dr, < 1 _ +d) = , (r. ) drd.
Por lo tanto, como en el caso univariado (ver captulo 3), la funcin de
densidad conjunta toma valores mayores de uno, es decir,
, (.. .) : R R [0. ) .
En analoga directa con el caso univariado, la funcin de densidad
conjunta tiene que satisfacer ciertas propiedades:
[bf1] , (r. ) _ 0. para todo (r. ) R
A
R
Y
.
[bf2]
_
o
o
_
o
o
,(r. )drd = 1.
[bf3] 1
A,Y
(c. /) =
_
o
o
_
b
o
,(r. )drd.
[bf4] , (r. ) =
0
2
1(a,j)
0a0j
. en todos los puntos de continuidad de ,(r. ).
NOTA: en el caso discreto todas las anteriores integrales se convierten en
sumatorias sobre todos los valores de A y 1 , es decir, para r
1
< r
2
< <
r
a
< y
1
<
2
< <
a
< .
[bf2]
t

o
i=1

o
)=1
, (r
i
.
i
) = 1.
[bf3]
t
1 (r
I
.
n
) =

I
i=1

n
i=1
, (r
i
.
)
).
Ejemplos
(i) Una importante distribucin discreta de dos variables, es la binomial
cuya densidad toma la forma:
, (r. ; ) =
_
:!
r!! (: r )!
_
o
a
1
o
j
2
(1 o
1
o
2
)
aaj
, o
i
[0. 1] , i = 1. 2,
166 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
: = (o
1
. o
2
), : es un entero tal que r + _ :, r. = 0. 1. 2. .... :.
(ii) La ms importante distribucin continua de dos variables es el Nor-
mal, cuya densidad toma la forma:
, (r. ; ) =
(1 j
2
)

1
2
2:
_
o
11
o
22
exp
_

1
2 (1 j
2
)
_
_
j
1
_
o
11
_
2
2j
_
j
1
_
o
11
__
r j
2
_
o
22
_
+
_
r j
2
_
o
22
_
2
__
(4.7)
donde := (j
1
. j
2
. o
11
. o
22
. j) R
2
R
2
+
[1. 1] . r R. R. En vista
de su complejidad evidente, la densidad bivariada dada en (4.7), a menudo
se denota por:
_
1
A
_
~`
__
j
1
j
2
_
,
_
o
11
o
12
o
21
o
22
__
donde o
12
:= j
_
o
11
o
22
. Un caso especial de esta distribucin, conocida
como normal estndar bivariada, se dene cuando los parmetros toman
los valores:
j
1
= j
2
= 0. o
11
= o
22
= 1.
Su funcin de densidad tiene la forma simplicada:
, (r. ; ) =
1
2:
_
1 j
2
exp
_

1
2 (1 j
2
)
_
r
2
2jr +
2

_
.
Esta densidad con := (0. 0. 1. 1. 0.2) se muestra en la gura 4.1. Los
detalles de la forma de campana de la supercie pueden ser vistos en los
contornos aadidos que pueden ser vistos intuitivamente como las lneas que
obtenemos cortando la supercie a diferentes alturas. Algunas otras distribu-
ciones de dos variables se listan en el apndice B.
4.2. DISTRIBUCIONES CONJUNTAS 167
Figura 4.1 Densidad normal bivariada supercie con contornos insertados.
4.2.3 Momentos conjuntos
Al igual que en el caso de las distribuciones univariadas la mejor manera
de interpretar los parmetros desconocidos es a travs de los momentos. En
analoga directa con el caso univariado, denimos los momentos conjuntos
producto de orden (/. :) por:
j
t
In
= 1
_
A
I
1
n
_
, /. : = 0. 1. 2. ....
y los momentos conjuntos centrales de orden (/. :) se denen por:
j
In
= 1
_
(A 1 (A))
I
(1 1 (1 ))
n
_
, /. : = 0. 1. 2. ....
Los dos primeros momentos conjunto producto y conjunto central son:
j
t
10
= 1 (A) , j
10
= 0,
j
t
01
= 1 (1 ) , j
01
= 0,
j
t
20
= 1 (A)
2
+\ c: (A) , j
20
= \ c: (A) ,
j
t
02
= 1 (1 )
2
+\ c: (1 ) , j
02
= \ c: (1 ) ,
j
t
11
= 1 (A1 ) , j
11
= 1 [(A 1 (A)) (1 1 (1 ))] .
El ms importante y ampliamente utilizado momento conjunto es la co-
varianza, denida por
j
11
:= Co (A. 1 ) = 1 [A 1 (A)] [(1 1 (1 ))] (4.10)
168 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Ejemplos
(i) Considerar la distribucin normal conjunta cuya densidad est dada
en (4.7). Sabemos del captulo 3 que los parmetros (j
1
. j
2
. o
11
. o
22
) corre-
sponden a los momentos:
j
1
= 1 (1 ) , j
2
= 1 (A) , o
11
= \ c: (1 ) , o
22
= \ c: (A) .
El parmetro adicional o
12
resulta ser la covarianza entre las dos variables
aleatorias, es decir:
o
12
:= Co (A. 1 ).
(ii) Vamos a obtener la covarianza entre A y 1 , con la densidad conjunta
dada a continuacin:
r 0 1 2 ,
Y
()
0 0.2 0.2 0.2 0.6
2 0.1 0.1 0.2 0.4
,
A
(r) 0.3 0.3 0.4 1
En primer lugar, tenemos que obtener los momentos de las distribuciones
univariadas:
1(A) := 0 (0.3) + 1 (0.3) + 2 (0.4) = 1.1. 1(1 ) := 0 (0.6) + 2 (0.4) =
0.8. \ c:(A) := [0 1.1]
2
(0.3) + [1 1.1]
2
(0.3) + [2 1.1]
2
(0.4) = 0.69.
\ c:(1 ) := [0 0.8]
2
(0.6) + [2 0.8]
2
(0.4) = 0.96;
Utilizando estos momentos procedemos a derivar la covarianza:
Co(A. 1 ) = 1 [A 1 (A)] [1 1 (1 )]
= [0 1.1] [0 0.8] (0.2) + [0 1.1] [2 0.8] (0.1)
+[1 1.1] [0 0.8] (0.2) + [1 1.1] [2 0.8] (0.1))
+[2 1.1] [0 0.8] (0.2) + [2 1.1] [2 0.8] (0.2)
= 0.12.
Propiedades de la covarianza:
c1.Co (A. 1 ) = 1 (A1 ) 1(A) 1(1 ).
c2. Co (A. 1 ) = Co (1. A) .
c3. Co (cA +/1. 2) = cCo (A. 1 ) +/Co(1. 2). para (c. /) R
2
.
La primera propiedad muestra la relacin entre los momentos centrales
conjuntos y crudos para / = : = 1. La covarianza es igual al primer mo-
mento conjunto producto 1(A1 ) menos el producto de las dos medias.
4.2. DISTRIBUCIONES CONJUNTAS 169
La segunda propiedad se reere a la simetra de la covarianza con respecto
a las dos variables aleatorias involucradas. La tercera propiedad se deduce
directamente de la linealidad del operador esperanza 1 (.).
Vamos a comprobar c1 usando el ejemplo anterior. En vista del hecho de
que:
1 (A1 ) = (0) (0) (0.2)+(0) (2) (0.1)+(1) (0) (0.2)+(1) (1) (0.1)+(2) (0) (0.2)+(2) (2) (0.2) = 1.0,
podemos concluir que Co (A. 1 ) = 1.0 (1.1) (0.8) = 0.12, lo cual con-
rma el valor anterior de Co (A. 1 ).
Una digresin. Es interesante notar que usando la covarianza, podemos
extender la propiedad V2 de la varianza (ver captulo 3), al caso en el cual las
dos variables no sean independientes. En el caso de dos variables aleatorias
A y 1 arbitrarias:
\ c: (cA +/1 ) = c
2
\ c:(A) +/
2
\ c:(1 ) + 2c/Co(A. 1 ).
En el caso de que la variables aleatorias A e 1 sean independientes,
Co(A. 1 ) = 0 (pero lo contrario no es cierto en general) y la relacin anterior
se reduce a la que vimos en el captulo 3: \ c: (cA +/1 ) = c
2
\ c:(A) +
/
2
\ c:(1 ).
Los momentos conjuntos tercero y cuarto son tambin de inters porque,
como en el caso univariado, se pueden utilizar para evaluar la simetra y la
forma de la distribucin conjunta. Las frmulas, sin embargo, muy rpido se
vuelven demasiado complicadas. Para nes de referencia vamos a considerar
los coecientes de asimetra y de curtosis de una distribucin de dos variables
en el caso donde (A. 1 ) no estn correlacionadas, es decir,
j
11
= 0, j
20
= \ c: (A), j
02
= \ c: (1 ).
Asimetra: c
3
(A. 1 ) =
j
2
30
j
2
20
+
j
2
03
j
2
02
+ 3
j
2
21
j
2
20
j
02
+ 3
j
2
21
j
20
j
2
02
,
Curtosis: c
4
(A. 1 ) =
j
40
j
2
40
+
j
04
j
2
02
+
2j
22
j
20
j
02
.
4.2.4 El caso de n variables aleatorias
Hasta ahora hemos discutido la extensin del concepto de variable aleatoria
a un vector aleatorio de dos dimensiones. Resulta que no surgen dicultades
adicionales en la extensin de la nocin de variable aleatoria para el caso :
variables X(.) := (A
1
(.) . A
2
(.) . .... A
a
(.)):
170 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
X(.) : o R
a
,
donde R
a
:= R R R representa el producto Cartesiano de la
lnea real (ver captulo 2).
La funcin de : variables X(.) se dice que es un vector aleatorio con
respecto a si:
X(.) : o R
a
. tal que X
1
((. x]) . para todo x R
a
,
donde x :=(r
1
. r
2
. .... r
a
) y (. x] := (. r
1
] (. r
2
]
(. r
a
].
NTESE que todas las variables aleatorias (A
1
(.) . A
2
(.) . .... A
a
(.)) se
denen en el mismo conjunto de reultados o y en relacin con el mismo
espacio de eventos .
Teniendo en cuenta el hecho de que es un o-campo sabemos que X(.)
es un vector aleatorio con respecto a si y slo si las variables aleatorias
(A
1
(.) . A
2
(.) . .... A
a
(.)) son variables aleatorias con respecto a . Esto se
debe a que A
1
I
((. r
I
]) .para todo / = 1. 2. .... :. y entonces:

a
i=1
A
1
I
((. r
I
]) .
Los distintos conceptos introducidos anteriormente para el caso de dos
variables aleatorias se puede extender fcilmente al caso de : variables aleato-
rias. En analoga directa con el caso de dos variables, la funcin de densi-
dad conjunta satisface las propiedades:
[mf1] , (r
1
. r
2
. .... r
a
) _ 0.para todo (r
1
. r
2
. .... r
a
) R
a
A
.
[mf2]
_
a
1
o
_
a
2
o

_
an
o
, (r
1
. r
2
. .... r
a
) dr
1
dr
2
dr
a
= 1.
[mf3] 1 (r
1
. r
2
. .... r
a
) =
_
a
1
o
_
a
2
o

_
an
o
, (n
1
. n
2
. .... n
a
) dn
1
dn
2
dn
a
.
Usando la misma lnea de razonamiento podemos extender fcilmente las
: dimensiones del vector aleatorio X(.) a una innidad de dimensiones, es
decir, denir X
o
:= (A
1
(.). A
2
(.). .... A
a
(.). ...):
X
o
(.) : o R
o
,
que es un vector aleatorio con respecto a algn si y slo si cada
elemento de la sucesin X
o
(.) es una variable aleatoria en relacin con
. Esto establece la existencia de un vector aleatorio innito y prepara
el camino para el captulo 8, donde discutimos el concepto de proceso es-
tocstico A
a
(:)
o
a=1
:= X
o
(.), : o. El lector puede apreciar ahora por
4.3. DISTRIBUCIONES MARGINALES 171
qu se requieren ocampos (aditivamente numerables) y no slo campos de
eventos para denir el concepto de espacio de eventos. Esto se hace an ms
evidente cuando procedemos a utilizar la estructura matemtica (topolgica)
del campo de Borel (R). Esta estructura, nos permite discutir la conver-
gencia de dichas sucesiones de variables aleatorias:
lim
ao
A
a
(o) = A (o), para todo : o.
Este concepto ser de suma importancia en el captulo 9, donde discuti-
mos teoremas lmite; la estructura topolgica del campo de Borel (R) nos
permite discutir los conceptos de convergencia probabilstica.
4.3 Distribuciones marginales
El segundo componente de la condicin [c], referido a la Independencia de
las pruebas se dene en trminos de una relacin simple entre la funcin de
densidad conjunta , (r
1
. r
2
. .... r
a
; ) y las funciones de densidad de las vari-
ables aleatorias individuales, A
1
. A
2
. .... A
a
, y se conocen como distribuciones
marginales. Veamos cmo la distribucin marginal se relaciona con la dis-
tribucin conjunta. No debera ser ninguna sorpresa saber que a partir de la
distribucin conjunta siempre se puede recuperar la distribucin marginal
(univariada) de las variables individuales aleatorias implicadas. En trminos
de la fda conjunta, la distribucin marginal se obtiene a travs de un proceso
lmite:
1
A
(r) = lim
jo
1 (r. ) y 1
Y
() = lim
ao
1 (r. ) .
Ejemplo
Consideremos el caso de la fda exponencial bivariada:
1 (r. ) =
_
1 c
ca
_ _
1 c
oj
_
. c 0. , 0. r 0. 0.
Ya que lim
ao
(c
a
) = c
o
= 0. podemos deducir que
1
A
(r) = lim
jo
1 (r. ) = 1c
ca
. r 0. 1
Y
() = lim
ao
1 (r. ) = 1c
oj
. 0.
Veamos ahora cmo la marginalizacin se dene en trminos de las fun-
ciones de densidad. En vista del hecho de que:
172 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
1
A
(r) = lim
jo
1 (r. ) = lim
jo
_
a
o
_
j
o
,(r. )ddr =
_
a
o
__
o
o
,(r. )d
_
dr.
y la relacin entre 1
A
(r) y ,
A
(r), podemos deducir que
,
A
(r) =
_
o
o
,(r. )d. r R
A
. (4.12)
Similarmente, en trminos de la funcin de densidad conjunta, la funcin
de densidad marginal de 1 se obtiene a travs de:
,
Y
() =
_
o
o
,(r. )dr. R
Y
. (4.13)
Esto sugiere que la marginalizacin se obtiene integrando la otra variable
aleatoria.
Ejemplos
(i) Consideremos el caso de la densidad exponencial bivariada:
, (r. ) = c
aj
. r 0. 0.
donde las variables aleatorias A. 1 son continuas. La frmula (4.12)
sugiere que, para obtener la distribucin marginal de A, es necesario integrar
la variable aleatoria 1 a partir de ,(r. ):
,
A
(r) =
_
o
0
c
aj
d = c
a
.
(ii) considerar la densidad normal estndar bivariada (4.9). Para obtener
la densidad marginal de A, tenemos que integrar a 1 y viceversa. Las ma-
nipulaciones de tal derivacin son ms bien complicadas (y por lo tanto se
omiten), pero el resultado es particularmente til. Resulta que:
,
A
(r) =
_
o
o
,(r. )d =
1
_
2:
exp
_

1
2
r
2
_
.
,
Y
() =
_
o
o
,(r. )dr =
1
_
2:
exp
_

1
2

2
_
.
Es decir, ambas distribuciones marginales son Normal (estndar) y se
indican por:
4.3. DISTRIBUCIONES MARGINALES 173
A ~ ` (0. 1) y 1 ~ ` (0. 1).
Marginalizacin e intuicin. Podemos visualizar la derivacin de la
distribucin marginal de A a partir de la distribucin bivariada ,(r. ), como
la proyeccin de la supercie de dos variables en el plano [r. , (r. )]. Como
se muestra en la gura 4.2, la proyeccin de una supercie en forma de
campana sobre un plano opuesto produce una forma de campana para ambas
distribuciones marginales. Intuitivamente, el paso de la densidad conjunta a
la marginal signica ignorar la informacin referente a la dimensin particular
representada por la variable aleatoria no integrada.
Figura 4.2 Densidad normal bivariada con densidades marginales
proyectadas
En el caso de una variable aleatoria discreta, podemos derivar la dis-
tribucin marginal de una variable aleatoria, a partir de la densidad conjunta
,(r. ), sumando la otra variable aleatoria. Por ejemplo, la derivacin de la
densidad marginal de A toma la forma de suma sobre todos los valores de
1 , digamos
1
<
2
<
a
< , de la siguiente manera:
,
A
(r) =

o
i=1
, (r.
i
) . r R
A
. (4.14)
Del mismo modo, la densidad marginal de 1 toma la forma de suma sobre
todos los valores de A, por ejemplo r
1
< r
2
< r
a
< :
,
Y
() =

o
i=1
, (r
i
. ) . R
Y
. (4.15)
174 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Ejemplos
(i) La densidad conjunta de la distribucin de Bernoulli est bien denida,
si las probabilidades j (i. ,) para i. , = 0. 1, adems de ser no negativas,
tambin satisfacen una serie de restricciones adicionales requeridas por las
distribuciones marginales. Las distribuciones marginales de A e 1 son las
siguientes:
r 0 1
,
A
(r) j.
1
j.
2
0 1
,
Y
() j
1
. j
2
.
(4.16)
j.
1
= j (0. 0) +j (0. 1) . j
1
. = j (0. 0) +j (1. 0) .
j.
2
= j (1. 0) +j (1. 1) . j
2
. = j (0. 1) +j (1. 1) .
Para que estas distribuciones marginales tengan sentido necesitan sat-
isfacer las propiedades de las funciones de densidad univariadas f1-f3 (ver
captulo 3). Esto sugiere que sus probabilidades deben sumar j.
1
+j.
2
= 1 y
j
1
. j
2
. = 1.
(ii) Una distribucin discreta importante, es el binomial bivariada (o tri-
nomial, como a menudo se llama) cuya densidad toma la forma:
, (r. ; ) =
_
:!
r!! (: r )!
_
o
a
1
o
j
2
(1 o
1
o
2
)
aaj
, o
i
[0. 1] , i = 1. 2,
donde : = (o
1
. o
2
), : es un entero tal que r + _ :, r. = 0. 1. 2. .... :.
,
A
(r; ) =
aa

I=1
_
:!o
a
1
o
j
2
r!/! (: r /)!
_
(1 o
1
o
2
)
aaI
=
:!o
a
1
r!
aa

I=1
_
o
I
2
/! (: r /)!
_
(1 o
1
o
2
)
aaI
=
:!o
a
1
r! (: r)!
aa

I=1
_
(: r)!
/! (: r /)!
_
o
I
2
(1 o
1
o
2
)
aaI
=
_
:
r
_
o
a
1
(1 o
1
)
aa
.
(iii) Vamos a obtener la distribucin marginal de A a partir de la densidad
conjunta dada a continuacin:
4.4. DISTRIBUCIONES CONDICIONALES 175
r 0 1 2
0 0.2 0.2 0.2
2 0.1 0.1 0.2
(4.17)
La frmula (4.12) sugiere que sumando hacia abajo las columnas obten-
emos la densidad marginal de A y sumando las las obtenemos la densidad
marginal de 1 :
r 0 1 2
,
A
(r) 0.3 0.3 0.4
0 2
,
Y
() 0.6 0.4
(4.18)
Estas son claramente las funciones de densidad propias, dado que:
,
A
(r) _ 0. ,
A
(0) +,
A
(1) +,
A
(2) = 1 y ,
Y
() _ 0. ,
Y
(0) +,
Y
(2) = 1.
Los dos densidades marginales se muestran con la densidad conjunta a
continuacin:
r 0 1 2 ,
Y
()
0 0.2 0.2 0.2 0.6
2 0.1 0.1 0.2 0.4
,
A
(r) 0.3 0.3 0.4 1
(4.19)
En cuanto a la ltima columna podemos ver que las probabilidades aso-
ciadas a los valores de 1 no contienen la informacin relativa a A.
4.4 Distribuciones condicionales
4.4.1 Probabilidad condicional
Volvamos al captulo 2 y recordemos la nocin de probabilidad condicional
usando nuestro ejemplo favorito.
Ejemplo
Consideremos de nuevo el experimento aleatorio de "lanzar una moneda
al aire dos veces", con:
o = (HH). (H1). (1H). (11).
Suponiendo que = (HH). (H1). (1H) es un evento de inters, sin
ninguna informacin adicional, el sentido comn sugiere que P() =
3
4
. Sin
176 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
embargo, en el caso en que exista alguna informacin adicional, por de-
cir alguien anuncia que en una prueba particular, "la primera moneda es
una 1 ", la situacin cambia. La informacin disponible dene el evento
1 = (1H). (11) y el conocimiento de que 1 ha ocurrido invalida la prob-
abilidad P() =
3
4
. Esto se debe a que la informacin implica que, en esta
prueba particular, los resultados (HH) y (H1) no pueden ocurrir. Es decir,
en lugar de o, el conjunto de todos los distintos posibles resultados, dado
que 1 ha ocurrido, es justamente 1. Esto sugiere que la nueva probabilidad
de , dado que 1 ha ocurrido, que se denota por 1([1), es diferente. El
sentido comn sugiere que 1([1) =
1
2
, ya que incluye uno de los dos
distintos resultados posibles. Cmo podemos formalizar este argumento?
La frmula para la probabilidad condicional del evento , dado el evento
1, toma la forma:
P( [ 1) =
P( 1)
P(1)
. para P(1) 0. (4.20)
En el ejemplo anterior, P( 1) = P(1H)
1
4
, P(1) =
1
2
, y por lo tanto
P( 1) =
1
4
1
2
=
1
2
, lo que conrma la respuesta de sentido comn.
4.4.2 Funciones de densidad condicional
Al igual que en el caso de las distribuciones conjunta y marginal, consid-
eramos el caso simple de variable aleatoria discreta y luego procedemos a
discutir el caso general de variable aleatoria.
Variables aleatorias discretas. En el caso de dos variables aleatoria
discreta A e 1 , si denimos los eventos:
= 1 = y 1 = A = r .
entonces la traduccin de las frmulas anteriores en trminos de funciones
de densidad toma la forma:
P(A = r) = ,(r).
P(1 = . A = r) = ,(r. ).
P(1 = [ A = r) = ,( [ r).
dando lugar a la frmula de la densidad condicional:
,( [ r) =
,(r. )
,
A
(r)
. para ,(r) 0. R
Y
.
4.4. DISTRIBUCIONES CONDICIONALES 177
donde ,([r) denota la densidad condicional de 1 dado que A = r.
Ejemplo
Consideremos la funcin de densidad conjunta para las variables aleato-
rias discretas A e 1 dadas en (4.19). De la frmula anterior podemos ver
que la densidad condicional de 1 dado A = 0 toma la forma:
,([r = 0) =
,(r = 0. )
,
A
(r = 0)
. R
Y
:= 0. 2 .
Esto sugiere que las probabilidades condicionales ,([r = 0), para
R
Y
, son probabilidades conjuntas escaladas ,(r[ = 0), para r R
A
, con la
probabilidad marginal ,
A
(r = 0) proporcionando el peso. En particular:
,([r = 0) =
)(a=0,j=0)
)
^
(a=0)
=
0.2
0.3
=
2
3
. = 0
)(a=0,j=2)
)
^
(a=0)
=
0.1
0.3
=
1
3
. = 2
La densidad condicional se muestra a continuacin:
0 2
,([r = 0)
2
3
1
3
Variables aleatorias continuas
En el caso de dos variables aleatorias continuas A e 1 no podemos usar
los eventos = 1 = y 1 = A = r con el n de transformar (4.20)
en trminos de funciones de densidad, porque, como sabemos, = A = ren
este caso P(A = r) = 0 y P(1 = ) = 0 para todo r R, R. Al
igual que en el caso de la denicin de las funciones de densidad conjunta y
marginal debemos tener en cuenta eventos de la forma:
= A _ r y 1 = 1 _ .
Sin embargo, incluso en el caso de variables aleatorias continuas nos gus-
tara ser capaces de referirnos a la distribucin condicional de 1 dado que
A = r. La forma de sortear las dicultades matemticas es a travs de
la funcin de distribucin condicional acumulativa denida de la siguiente
manera
1
Y [A
( [ A = r) = lim
I0
+
P(1 _ . r _ A _ r +/)
P(r _ A _ r +/)
donde / 0
+
se lee "cuando / tiende a 0 atravs de valores mayores
que 0." Despus de algunas manipulaciones matemticas podemos demostrar
que:
178 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
1
Y [A
( [ A = r) = lim
I0
+
P(1 _ . r _ A _ r +/)
P(r _ A _ r +/)
=
_
j
o
,(r. n)
,
A
(r)
dn.
Esto sugiere que en el caso de dos variables aleatorias continuas A, 1
podramos de hecho denir la funcin de densidad condicional como en (4.21)
pero no deberiamos interpretarla como asignando probabilidades, ya que:
, (. [ r) : R
Y
[0. ) .
Como podemos ver, la densidad condicional es una funcin de densidad
propia, en la medida en que, en el caso de variables aleatorias continuas,
cumple las propiedades:
[cf1] ,([r) _ 0. para todo R
Y
.
[cf2]
_
o
o
,([r)d = 1.
[cf1] 1([r) =
_
j
o
,(n[r)dn.
En el caso de variables aleatorias discretas las integrales son reemplazadas
por sumatorias.
Ejemplos
(i) Considere el caso donde la funcin de densidad conjunta toma la forma:
, (r. ) = 8r. 0 < r < . 0 < < 1.
Las densidades marginales de r e se pueden derivar de la densidad
conjunta integrando sobre y r, respectivamente:
,
A
(r) =
_
1
a
(8r) d = 4r
2
[
j=1
j=a
= 4r
_
1 r
2
_
. 0 < r < 1.
,
Y
() =
_
j
0
(8r) dr = 4r
2
[
a=j
a=0
= 4
3
. 0 < < 1.
NOTA: La nica dicultad en las derivaciones anteriores es notar que el
rango de
A es restringido por 1 y viceversa. Utilizando estos resultados podemos
deducir que:
,([r) =
8r
4r (1 r
2
)
=
2
(1 r
2
)
. r < < 1. 0 < r < 1.
,(r[) =
8r
4
3
=
2r

2
. 0 < r < . 0 < < 1.
4.4. DISTRIBUCIONES CONDICIONALES 179
(ii) Consideremos la distribucin normal estndar de dos variables. Como
vimos en la seccin anterior, en el caso en que ,(r. ) sea normal, las dis-
tribuciones marginales marginales ,r(r) y ,() son tambin normales. Por
lo tanto, la densidad condicional de 1 dado A = r se pueden derivar de la
siguiente manera
1
:
,([r) =
2: (1 j
2
)

1
2
exp
_
[2 (1 j
2
)]
1
(r
2
2jr +
2
)
_
__
2:
_
exp
_

1
2
r
2
_ .
=
_
2:
_
1 j
2
_

1
2
exp
_

_
2
_
1 j
2
_
1
_
r
2
2jr +
2
_
+
1
2
r
2
_
.
Usando la igualdad:
_
2
_
1 j
2
_
1
_
r
2
2jr +
2
_
+
1
2
r
2
=
_
2
_
1 j
2
_
1
( jr)
2
,
la densidad condicional toma la forma:
,([r) =
(1 j
2
)

1
2
_
2:
exp
_

1
2 (1 j
2
)
( jr)
2
_
.
Por lo tanto ,([r) es tambin normal con media jr y varianza (1 j
2
),
denotado por
(1 [ A = r) ~ `
_
jr.
_
1 j
2
__
.
1
Las manipulaciones matemticas no son importantes en esta etapa.
180 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Figura 4.3 Densidad normal bivariada con densidad condicional en
r = 0.5.
La densidad condicional ,([r = 0.5) se puede visualizar como la densidad
de una sola dimensin cortando la densidad conjunta con un plano perpen-
dicular, paralelo al eje y pasando a travs del punto r = 0.5. En la gura
4.3 podemos ver cmo el corte de la supercie de dos variables en r = 0.5
escalada por [1,,
a
(0.5)] proporcina una densidad normal univariada.
4.4.3 Variables aleatorias discretas/continuas
En la modelizacinemprica hay ocasiones en que el modelador es requerido
para modelar la relacin entre variables aleatorias continuas y discretas. Nat-
uralmente, estas discusiones involucran la distribucin conjunta de las vari-
ables aleatorias involucradas y la pregunta que surge es: cmo especicar
tales distribuciones?. Resulta que la forma ms conveniente para especicar
una distribucin conjunta es a travs de la densidad condicional.
Consideremos el caso en que 1(r. ) es la fda conjunta de las variables
aleatorias (A. 1 ) donde A es discreta y 1 es continua. Sea R
A
= r
1
. r
2
. ...
el rango de valores de la variable aleatoria A. La fda conjunta es completa-
mente determinada por la sucesin de pares de una probabilidad marginal y
la densidad condicional asociada:
[,
a
(r
I
) . , ( [ r
I
)] . para todo
I
R
A
.
Esto se puede visualizar como una sucesin de polos de probabilidad a lo
largo del eje r en los puntos r
1
. r
2
. ... que estn manchados (smudged)
a lo largo del eje de tal manera que la densidad en cualquier punto r
I
es
[,
a
(r
I
) , ( [ r
I
)].
La nica dicultad tcnica de este resultado es cmo especicar la densi-
dad condicional. sta se dene por:
, ( [ r
I
) =
1
,
A
(r
I
)
d [1 (r
I
. ) 1 (r
I
0. )]
d
donde la notacin (r
I
0) indica tomar la derivada por la izquierda, de
tal manera que:
1 (r. ) =

a
I
a
,
A
(r
I
)
_
j
o
, (n [ r
I
) dn.
4.4. DISTRIBUCIONES CONDICIONALES 181
Del mismo modo, la distribucin marginal de la variable aleatoria 1 se
dene por:
1
Y
() =

a
I
R
^
,
A
(r
I
)
_
j
o
, (n [ r
I
) dn.
Ejemplo
Consideremos el caso donde las variables aleatorias (A. 1 ), A es Bernoulli
y 1 est normalmente distribuiday la densidad conjunta toma la forma:
, (r. ; ) = , ( [ r
I
; ) ,
A
(r
I
; j) . r
I
R
A
.
, ( [ r
I
; ) =
1
o
_
2:
exp
_

1
2o
2
( ,
0
,
1
r
I
)
2
_
. ,
A
(1) = j, ,
A
(0) = 1 j.
4.4.4 Momentos codicionales
La densidad condicional, que es una funcin de densidad propia, tambin
goza de caractersticas numricas anlogas a las funciones de densidad mar-
ginal. En particular, para variables aleatorias continuas podemos denir los
momentos condicionales:
crudo : 1 (1
v
[ A = r) =
o
_
o

v
, ( [ r) d. : = 1. 2. ....
central : 1 (1 1 [1 [ A = r])
v
[ A = r =
o
_
o
(1 1 [ [ r])
v
, ( [ r) d.
: = 2. 3. ...
NOTE que la nica diferencia entre los momentos marginales y condi-
cionales es que la distribucin relevante con respecto a la que 1(.) se dene
ahora es el condicional.
En el caso de variables aleatorias discretas remplazamos las integrales
con sumatorias como se ejemplica en el caso del primero de estos momentos
condicionales:
182 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
media condicional : 1 (1 [ A = r) =

jR
Y
, ( [ r) .
varianza condicional : \ c: (1 [ A = r) =

jR
Y
[ 1 [ [ r]]
2
, ( [ r) .
Ejemplos
(i) Distribucin discreta, sin parmetros desconocidos. Para la densidad
condicional (4.22)
1 (1 [ A = 0) = 0
_
2
3
_
+ 2
_
1
3
_
=
2
3
.
\ c: (1 [ A = 0) =
_
0
_
2
3
__
2
_
2
3
_
+
_
2
_
2
3
__
2
_
1
3
_
=
_
24
27
_
.
(ii) Distribucin continua, sin parmetros desconocidos. Considere el caso
donde la funcin de densidad conjunta toma la forma:
, (r. ) = 8r. 0 < r < . 0 < < 1.
Como mostramos anteriomente, las densidades marginales de r y son:
,(r) = 4r
_
1 r
2
_
. 0 < r < 1 y , () = 4
3
. 0 < < 1.
Entonces,
, ( [ r) =
8r
4r (1 r
2
)
=
2
(1 r
2
)
. r < < 1. 0 < r < 1.
, (r [ ) =
8r
4
3
=
2r

2
. 0 < r < . 0 < < 1.
4.4. DISTRIBUCIONES CONDICIONALES 183
1 (1 [ A = r) =
_
1
a

_
2
(1 r
2
)
_
d =
2
(1 r
2
)
_
1
a

2
d
=
2
(1 r
2
)
_
1
3

3
[
j=1
j=a
_
=
2
3
(1 r
3
)
(1 r
2
)
.
1 (A [ 1 = ) =
_
j
0
r
_
2r

2
_
dr =
2

2
_
1
3
r
3
[
a=j
a=0
_
=
2

2
_
1
3

3
_
=
2
3
.
\ c: (A [ 1 = ) =
_
j
0
_
r
2
3

_
2
_
2r

2
_
dr =
_
j
0
_
r
2
+
4
9

4
3
r
_ _
2r

2
_
dr =
=
_
j
0
__
2r
3

2
_
+
8
9
r
8
3
_
r
2

__
dr
=
__
r
4
2
2
_
+
4
9
r
2

8
9
_
r
3

__
a=j
a=0
=
1
18

2
.
(iii) Distribucin continua, con parmetros desconocidos. Consideremos
el caso de la distribucin normal (estndar) de dos variables discutida en la
subseccin anterior. Se demostr que la distribucin condicional de 1 dado
que A = r toma la forma:
(1 [ A = r) ~ `
_
jr.
_
1 j
2
__
.
Esto sugiere que:
1 (1 [ A = r) = jr y \ c: (1 [ A = r) = 1 j
2
.
Los momentos condicionales son de inters en la modelizacinde la depen-
dencia ya que con frecuencia ellos proporcionan la forma ms exible para
capturar los aspectos importantes de la dependencia probabilstica (vase el
captulo 6).
4.4.5 Una digresin: otras formas de condicionalidad
Truncamiento
Adems del condicionamiento de eventos de la forma A = r, a menudo
es de inters condicionar eventos eventos tal como:
A c , A < / o c < A _ / .
184 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Ejemplo
En el caso del experimento aleatorio de "medir la vida de un foco" po-
dramos estar interesados en la probabilidad de que tenga una duracin de :
horas dado que ha durado por lo menos : horas ya (: :).
Consideremos el caso ms general de condicionalidad del evento c < r _ /,
que se reere al doble truncamiento; desde la izquierda en el punto c y
desde la derecha en el punto /. La intuicin sugiere que en el caso de una
variable aleatoria discreta A con un rango de valores R
A
:= r
1
. r
2
. ..., la
funcin de probabilidad condicional de A dado c < r _ / debe estar dada
por:
, (r
i
[ c < A _ /) =
, (r
i
)

o<a

b
, (r,)
, para c < r
i
_ /.
Es decir, la probabilidad de A = r
i
dado c < r _ / es justamente
una probabilidad ponderada. Del mismo modo, en el caso de una variable
aleatoria continua A la frmula anterior toma la forma:
, (r[ c < r _ /) =
, (r)
_
b
o
, (r) dr
=
, (r)
1 (/) 1 (c)
, para c < r _ / .
Ejemplo
En el caso de la distribucin normal la densidad doblemente truncada
toma la forma:
, (r; ) =
(o2:)
1
(1 (/) 1 (/))
exp
_

1
2
_
r j
o
_
2
_
, c < r _ / .
Viendo los eventos A c y A < / como casos especiales de c < r _ /
podemos modicar las frmulas anteriores por consiguiente. Para los ca-
sos A c = (c. ) y A < / = (. /), usando el resultado de la
1 () = lim
ao
1 (r) = 1, deducimos que:
, (r[A c) =
, (r)
1 1 (c)
, r c, , (r[A < /) =
, (r)
1 (/)
, r < /, (4.24)
4.4. DISTRIBUCIONES CONDICIONALES 185
Las funciones , (r[c < r _ /), , (r[A c) y , (r[A < /) se reeren a
menudo como funciones de densidad truncadas y disfrutan de las propiedades
habituales:
[tf1] , (r[c < r _ /) _ 0, para todo r R
A
,
[tf2]
_
b
o
, (r[c < r _ /) dr = 1.
Ejemplo
Sea A una variable aleatoria con distribucin exponencial:
, (r) = oc
0a
y 1 (r) = 1 c
0a
, 0.
De (4.24) se deduce que:
, (r[A t) =
oc
0a
c
0a
= oc
0(at)
.
Funcin de Hazard (Riesgo)
Como puede verse en el ejemplo anterior, , (r[A t) es una funcin de
r y de t. Vindola nicamente como una funcin de t denimos lo que se
conoce como:
Funcin de riesgo: /(t) =
)(t)
11(t)
, r t.
Intuitivamente, esto puede ser considerado como la tasa instantnea de
mortalidad de una persona que est viva hasta el tiempo t.
Ejemplo
Para A, una variable aleatoria distribuida exponencialmente, la funcin
de riesgo toma la forma:
/(t) =
oc
0t
c
0t
= o.
Intuitivamente, esto signica que la tasa instantnea de mortalidad es
constante. Esto sugiere que la distribucin exponencial no es apropiada para
modelar la vida del foco, ya que implcitamente asume que la probabilidad
de que falle no depende de la edad del foco!
4.4.6 Marginalizacin frente a condicionalidad
Las densidades marginal y condicional, vistas en relacin con la funcin de
densidad conjunta
186 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
conjunta , (.. .) : (R R) [0. ) .
marginal ,
Y
(. ) : R [0. ) .
condicional , (. [ r) : R [0. ) .
tienen una cosa en comn: ambas son la densidad de una variable. Es
decir, ambas reducen la dimensionalidad de la funcin de densidad bivariada,
pero la reduccin toma diferentes formas. En el caso de la densidad marginal
,
Y
(.) la informacin relativa a la otra variable aleatoria A es ignorada (se
integra fuera). Por otra parte, en el caso de la densidad condicional ,(.[r) no
toda la informacin relativa a X se pasa por alto. La densidad condicional
conserva parte de la informacin relativa a A; la informacin de r = r.
La frmula (4.21), deniendo la densidad condicional se puede rearreglar
para obtener:
, (r. ) = , ([r) .,
A
(r) para todo (r. ) (R
A
R
Y
) (4.25)
Esto descompone la densidad bivariada ,(r. ), en un producto de dos
densidades univariadas, ,([r) y ,
A
(r); o al menos eso parece. La importan-
cia de esta descomposicin se pondrn de maniesto en la siguiente seccin
en relacin con la nocin de independencia. Antes de considerar esto, sin
embargo, hay buenas razones para la elaboracin de la intuicin subyacente
a la marginalizacin y condicionalidad.
Ejemplo
Consideremos la funcin de densidad conjunta representada a contin-
uacin:
r 1 2 3 ,
j
(1 )
0 0.20 0.10 0.15 0.45
1 0.10 0.25 0.05 0.40
2 0.1 0.6 0.8 0.15
,
A
(r) 0.31 0.41 0.28 1
(4.26)
Reexione sobre la situacin siguiente. Se despierta en un hospital de
Chipre cubierto de yeso de la cabeza a los pies con slo muestra los ojos y
la boca y que sufre de amnesia total. Una enfermera, que acaba de llegar
de turno, entra y le informa que, basndose en el informe que acaba de leer:
4.4. DISTRIBUCIONES CONDICIONALES 187
usted ha estado involucrado en un accidente automovilstico, se encuentra en
mal estado (pero fuera de peligro) y es probable que permaneza en el hospital
por un tiempo. La primera pregunta que viene a la mente es: quin soy yo?
pero el segundo pensamiento que se desliza es: puedo pagar las cuentas?
La enfermera parece leer su mente, pero es incapaz de ayudar. Lo nico que
podra ofrecer era la tabla de arriba, donde A representa el grupo de edad y
1 grupo de ingresos:
A = 1 : (18 35) , A = 2 : (36 55) , A = 3 : (56 70) ,
1 = 0 : pobre, 1 = 1 : de ingresos medios, 1 = 3 : rico.
Un vistazo a las probabilidades conjuntas trae un poco ms de confusin,
porque la mayor probabilidad se asocia al evento (A = 2. 1 = 1) (edad media
e ingresos medio) y la probabilidad ms baja se une al evento (A = 1. 1 = 2)
(jovn pero rico!). En un intento por reasegurarse ignora los ingresos (como
de importancia secundaria) por un momento y mira la densidad marginal
de A. La probabilidad de estar en el grupo de edad de las personas may-
ores ( independientemente de los ingresos ) es menor que las probabilidad
de que sea joven o de mediana edad; un suspiro de alivio, pero no mucho
consuelo, porque la probabilidad de ser joven no es mucho ms alta! Du-
rante este silogismo la enfermera recuerda que, segn el informe usted estaba
conduciendo un Porsche! Esta pieza adicional de informacin cambia brus-
camente la situacin. A menos que usted fuera un ladrn huyendo a toda
velocidad cuando ocurri el accidente (un caso poco probable en un pas li-
bre de crimen, como Chipre!), usted sabe que 1 = 2 ha sucedido. Cmo
cambia esto la probabilidad conjunta? Las probabilidades relevantes ahora
son dadas por la densidad condicional de A dado 1 = 2:
, (r[ = 2) =
_

_
)(a=1,j=1)
)(j=2)
=
0.01
0.15
= 0.067, r = 1,
)(a=2,j=2)
)(j=2)
=
0.06
0.15
= 0.400, r = 2,
)(a=3,j=2)
)(j=2)
=
0.08
0.15
= 0.533, r = 3,
_

_
Un vistazo a estas probabilidades condicionales y estr usted pidiendo a
la enfermera que le quite el yeso para comprobar la edad que tiene, hay ms
de 50 por ciento de probabilidad que sea una persona mayor!
Despus de haber discutido los conceptos de distribucin marginal y
condicional podemos proceder a la formalizacin de la nocin de indepen-
dencia y distribuciones idnticas.
188 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
4.5 Independencia
4.5.1 El caso de dos variables aleatorias
Como se ha visto en el captulo 2, dos eventos y 1 que pertenecen al
espacio mismo eventos , se dice que son independientes si:
P( 1) = P() P(1) .
Traduciendo dos eventos arbitrarios y 1 en eventos de la forma: :=
(: : A (:) _ r) y 1 := (: : 1 (:) _ ), : o, la condicin anterior se con-
vierte en :
P(A _ r. 1 _ ) = P(A _ r) P(1 _ ) . para todo (r. ) R
2
,
1
AY
(r. ) = 1
A
(r) 1
Y
() . para todo (r. ) R
2
. (4.27)
donde 1
AY
(.. .) denota la funcin de distribucin acumulada conjunta
(fda). En trminos de las funciones de densidad, se dice que A, 1 son
independientes si:
,(r. ) = ,
A
(r) ,
Y
() . para todo (r. ) R
2
(4.28)
Es decir, la densidad conjunta es igual al producto de las dos funciones
de densidad marginales. En otras palabras, el nico caso en que la densidad
conjunta no contiene ninguna informacin adicional a la contenida en las
funciones de densidad marginal es el caso donde las variables aleatorias son
independientes.
Es importante NOTAR que, en vista de (4.25), cuando A y 1 son inde-
pendientes:
, ([r) = ,
Y
() para todo R
Y
. (4.29)
Del mismo modo, , (r[) = ,
A
(r) para todo r R
A
. Es decir, cuando
A y 1 son independientes, la condicionalidad sobre A no afecta a la densidad
marginal de 1 y viceversa. Esto proporciona una manera ms intuitiva para
comprender la nocin de independencia.
Ejemplos
(i) Consideremos la densidad de dos variables (4.26). Las variables aleato-
rias A y 1 no son independientes ya que para el primer valor(A. 1 ) = (1. 0):
, (1. 0) = (0.20) ,= ,
A
(1) ,
Y
(0) = (0.31) (0.45) = (0.1395) .
4.5. INDEPENDENCIA 189
(ii) Consideremos la densidad de dos variables, dada a continuacin:
r 0 1 ,
Y
()
0 0.3 0.3 0.6
2 0.2 0.2 0.4
,
A
(r) 0.5 0.5 1
Para comprobar si A y 1 son independientes, tenemos que comprobar
que la igualdad en (4.28) se cumpla, para todos los valores de A y 1 :
(A. 1 ) = (0. 0) , , (0. 0) = ,
a
(0) ,
j
(0) = (0.3) = (0.5) (0.6) ,
(A. 1 ) = (0. 2) , , (0. 2) = ,
a
(0) ,
j
(2) = (0.2) = (0.5) (0.4) ,
(A. 1 ) = (1. 0) , , (0. 0) = ,
a
(1) ,
j
(0) = (0.3) = (0.5) (0.6) ,
(A. 1 ) = (1. 2) , , (1. 2) = ,
a
(1) ,
j
(2) = (0.2) = (0.5) (0.4) .
Estos resultados sugieren que A y 1 son efectivamente independientes.
(iii) En el caso donde (A. 1 ) estn conjuntamente normalmente dis-
tribuidas, con una densidad tal como se dene en (4.9), podemos deducir
que cuando j = 0, A y 1 son independientes. Esto se deduce mediante una
simple sustitucin de la restriccin j = 0 en la densidad conjunta:
,(r. ) =
_
(1 j
2
)

1
2
_
2:
_
exp
_

1
2 (1 j
2
)
_
r
2
2jr +
2
_
_
[
j=0
=
__
1
2:
_
exp
_

1
2
r
2
____
1
2:
_
exp
_

1
2

2
__
=
= ,
A
(r) ,
Y
() ,
donde ,
A
(r) y ,
Y
() son densidades normales estndar.
NOTA: el ltimo ejemplo proporciona una clave importante a la nocin
de la independencia sugiriendo que la densidad conjunta ,(r. ) se puede
descomponer en un producto de dos funciones no negativas n(r) y () es
decir,
, (r. ) = n(r) () ,
donde n(.) _ 0 slo depende de r y (.) _ 0 slo depende de , entonces
A y 1 son independientes.
190 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
(iv) En el caso de que (A. 1 ) estn conjuntamente exponencialmente dis-
tribuidas, con densidad:
, (r. ; o) = [(1 + or) (1 +o) o] exp r or , r 0. 0. o 0.
Es obvio que A y 1 son independientes nicamente cuando o = 0, ya que
la factorizacin anterior puede lograrse slo en ese caso.
4.5.2 Independencia en el caso de n variables
La extensin de las deniciones anteriores de independencia de dos al caso de
: variables no es slo una simple cuestin de notacin. Como argumentamos
en el captulo anterior, los eventos,
1
.
2
. ....
a
son independientes si se
cumple la siguiente condicin:
P(
1

2

I
) = P(
1
) P(
2
) P(
I
) , (4.31)
para todo / = 2. 3. .... :
Es decir, esto se debe cumplir para todos los subconjuntos de
1
.
2
. ....
a
.
Por ejemplo, en el caso de : = 3, las siguientes condiciones deben cumplirse
para que
1
.
2
.
3
sean independientes:
(c) P(
1

2

3
) = P(
1
) P(
2
) P(
3
)
(/) P(
1

2
) = P(
1
) P(
2
)
(c) P(
1

3
) = P(
1
) P(
3
)
(d) P(
2

3
) = P(
2
) P(
3
)
En el caso donde slo se cumplen las condiciones (b) - (d) se dice que
los eventos
1
.
2
.
3
son independientes dos a dos. Para independencia
(completa), necesitamos las cuatro condiciones. Lo mismo vale para variables
aleatorias como se puede ver al sustituir los eventos arbitrarios
1
.
2
.
3
con
los eventos especiales
i
= (A
i
_ r
i
) . i = 1. 2. 3.
Independencia. Se dice que las variables aleatorias A
1
. A
2
. . . . . A
a
son
independientes si se cumple la siguiente condicin:
1 (r
1
. r
2
. .... r
a
) = 1
1
(r
1
)1
2
(r
2
) 1
a
(r
a
) . para todo (r
1
. r
2
. .... r
a
) R
a
.
4.5. INDEPENDENCIA 191
En trminos de funciones de densidad, la independencia se puede escribir
en la forma:
, (r
1
. r
2
. .... r
a
) = ,
1
(r
1
) ,
2
(r
2
) ,
a
(r
a
) . para todo (r
1
. r
2
. .... r
a
) R
a
.
De (4.33) podemos ver que la cualicacin para todos los subconjuntos de

1
.
2
. ....
a
en el caso de eventos ha sido sustituida por la cualicacin
para todo (r
1
. r
2
. .... r
a
) R
a
. En otras palabras, en el caso de variables
aleatorias no necesitamos comprobar (4.33) para cualesquiera subconjuntos
del conjunto de A
1
. A
2
. . . . . A
a
, pero tenemos que comprobarlo para todos los
valores de (r
1
. r
2
. .... r
a
) R
a
. Tambin es importante sealar que cuando
(4.33) es vlida para todos (r
1
. r
2
. .... r
a
) R
a
, implica que se debe cumplir
para cualquier subconjunto del conjunto A
1
. A
2
. . . . . A
a
, pero no a la inversa.
Ejemplo
Volvamos a nuestro ejemplo favorito de "lanzar una moneda al aire dos
veces" y tomar nota de los resultados: o = (HH). (H1). (1H). (11),
siendo el conjunto potencia. Denir las variables aleatorias siguientes:
A(H1) = A(HH) = 0. A(1H) = A(11) = 1.
1 (1H) = 1 (HH) = 0. 1 (11) = 1 (H1) = 1.
2(1H) = 2(H1) = 0. 2(11) = 2(HH) = 1.
P
AY Z
(1. 1. 1) =
1
4
. P
AY Z
(1. 1. 0) = 0.
P
AY Z
(1. 0. 0) =
1
4
. P
AY Z
(1. 0. 1) = 0.
P
AY Z
(0. 1. 0) =
1
4
. P
AY Z
(0. 1. 1) = 0.
P
AY Z
(0. 0. 1) =
1
4
. P
AY Z
(0. 0. 0) = 0.
192 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
P
A
(0) =

:

j
P(0. . .) = P(0. 1. 0) +P(0. 0. 1) +P(0. 1. 1) +P(0. 0. 0) =
1
2
,
P
A
(1) =

:

j
P(1. . .) = P(1. 1. 1) +P(1. 0. 0) +P(1. 1. 0) +P(1. 0. 1) =
1
2
,
P
Y
(0) =

:

a
P(r. 0. .) = P(1. 0. 0) +P(0. 0. 1) +P(1. 0. 1) +P(0. 0. 0) =
1
2
,
P
Y
(1) =

j

a
P(r. 1. .) = P(1. 1. 1) +P(0. 1. 1) +P(1. 1. 0) +P(0. 1. 0) =
1
2
,
P
Z
(0) =

:

a
P(r. . 0) = P(1. 0. 0) +P(1. 1. 0) +P(0. 1. 0) +P(0. 0. 0) =
1
2
,
P
Z
(1) =

j

a
P(r. . 1) = P(1. 1. 1) +P(0. 0. 1) +P(1. 0. 1) +P(0. 1. 1) =
1
2
,
En vista de estos resultados podemos deducir que (A. 1 ), (A. 2) y (1. 2)
son independientes de dos en dos ya que:
P
AY
(0. 0) = P
A
(0) P
Y
(0) =
1
4
, P
Y Z
(0. 0) = P
Y
(0) P
Z
(0) =
1
4
,
P
AY
(1. 0) = P
A
(1) P
Y
(0) =
1
4
, P
Y Z
(1. 0) = P
Y
(1) P
Z
(0) =
1
4
,
P
AY
(0. 1) = P
A
(0) P
Y
(1) =
1
4
, P
Y Z
(0. 1) = P
Y
(0) P
Z
(1) =
1
4
.
P
AZ
(0. 0) = P
A
(0) P
Z
(0) =
1
4
,
P
AZ
(1. 0) = P
A
(1) P
Z
(0) =
1
4
,
P
AZ
(0. 1) = P
A
(0) P
Z
(1) =
1
4
.
Por otra parte, las tres variables aleatorias (A. 1. 2) no son independi-
entes, ya que:
P
AY Z
(1. 1. 1) =
1
4
,= P
A
(1) P
Y
(1) P
Z
(1) =
1
8
.
4.6. DISTRIBUCIONES IDNTICAS 193
La denicin anterior completa la primera etapa de nuestra bsqueda de
la transformacin de la nocin de pruebas aleatorias. La independencia dada
en la introduccin en trminos de pruebas (vase (4.1)) ha sido refundida en
trminos de variables aleatorias tal como se indica en (4.33). Consideramos la
segunda escala de nuestra bsqueda de una muestra aleatoria en la siguiente
seccin.
4.6 Distribuciones idnticas
Como se mencion en la introduccin, la nocin de pruebas aleatorios tiene
dos componentes: independencia y distribuciones idnticas. Vamos a consid-
erar la refundicin del componente idnticamente distribuido en trminos de
variables aleatorias.
Ejemplo
Consideremos la funcin de densidad de Bernoulli:
, (r; o) = o
a
(1 o)
1a
, r = 0. 1,
donde o = 1 (A = 1). Tener una muestra de : pruebas independientes,
por ejemplo (A
1
. A
2
. . . . . A
a
), equivale a suponer que las variables aleatorias
A
1
. A
2
. . . . . A
a
son independientes, cada A
i
teniendo una funcin de densidad
de la forma:
, (r
i
; o
i
) = o
a
.
i
(1 o
i
)
1a
.
, r
i
= 0. 1, i = 1. 2. .... :,
donde o
i
= 1 (A
i
= 1), i = 1. 2. .... :. Independencia en este caso asegura
que:
, (r
1
. r
2
. .... r
a
; ) =
a
i=1
,
i
(r
i
; o
i
) =
a
i=1
o
a
.
i
(1 o
i
)
1a
.
, r
i
= 0. 1,
donde = (o
1
. o
2
. .... o
a
). Obviamente, esto no satisface el componente
Idnticamente Distribuido. Para que este sea el caso tenemos que imponer
la restriccin de que para todas las pruebas la estructura probabilstica siga
siendo la misma, es decir, que las variables aleatorias A
1
. A
2
. . . . . A
a
sean
tambin Idnticamente Distribuidas en el sentido:
, (r
i
; o
i
) = o
a
.
(1 o)
1a
.
, r
i
= 0. 1, i = 1. 2. .... :.
194 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Vamos a formalizar el concepto de variables aleatorias Idnticamente Dis-
tribuidas en el caso de variables aleatorias arbitrarias, pero independientes,
comenzando con el caso de dos variables. En general, la densidad conjunta
implica los parmetros desconocidos y la igualdad en (4.28) toma la forma:
, (r. ; ) = ,
A
(r;
1
) ,
Y
(;
2
) . para todo (r. ) R
A
R
Y
.
donde las distribuciones marginales ,
A
(r;
1
) y ,
Y
(;
2
) pueden ser muy
diferentes.
Dos variables aleatorias independientes se dice que son Idnticamente
Distribuidas si ,
A
(r;
1
) y ,
Y
(;
2
) son las mismas funciones de densidad,
denotado por:
,
A
(r;
1
) = ,
Y
(;
2
) . para todo (r. ) R
A
R
Y
.
en el sentido de que tienen la misma forma funcional y los mismos parmet-
ros desconocidos:
,
A
(.) = ,
Y
(.) y
1
=
2
.
Ejemplos
(i) Consideremos el caso en que la densidad conjunta toma la forma:
, (r. ; ) =
_
o
1
o
2
_
c


0
2
r
2
. r _ 1. 0.
Es claro que las variables aleatorias A y 1 son independientes (los factores
de densidad conjunta en un producto) con densidades marginales:
,
A
(r; o
1
) =
o
1
r
2
. r _ 1. ,
Y
(; o
2
) =
1
o
2
c


0
2
. 0.
Sin embargo, las variables aleatorias A y 1 no son Idnticamente Dis-
tribuidas, porque ninguna de las anteriores condiciones para ID se cumple.
En particular, las dos densidades marginales pertenecen a familias diferentes
densidades ( ,
A
(r; o
1
) pertenece a la familia Pareto y ,
Y
(;
2
) pertenece
a la familia exponencial), ellas tambin dependen de diferentes parmetros
(o
1
,= o
2
) y las dos variables aleatorias A, 1 tienen distintos rangos de val-
ores.
4.6. DISTRIBUCIONES IDNTICAS 195
(ii) Consideremos las tres distribuciones de dos variables, que se indican
a continuacin:
r 1 2 ,
Y
()
0 0.18 0.42 0.6
2 0.12 0.28 0.4
,
A
(r) 0.3 0.7 1
(a)
,
r 0 1 ,
Y
()
0 0.18 0.42 0.6
1 0.12 0.28 0.4
,
A
(r) 0.3 0.7 1
(b)
,
r 0 1 ,
Y
()
0 0.36 0.24 0.6
2 0.24 0.16 0.4
,
A
(r) 0.6 0.4 1
(c)
Las variables aleatorias (A. 1 ) son independientes en los tres casos (ver-
ifquelo!). Las variables aleatorias en (a) no son Idnticamente Distribuidas
porque R
A
,= R
Y
y ,
A
(r) ,= ,
Y
() para algunos (r. ) R
A
R
Y
. Las
variables aleatorias en (b) no son Idnticamente Distribuidas, porque an
cuando R
A
= R
Y
, ,
A
(r) ,= ,
Y
() para algunos (r. ) R
A
R
Y
. Por
ltimo, las variables aleatorias en (c) son Idnticamente Distribuidas porque
R
A
= R
Y
y ,
A
(r) = ,
Y
() para todo (r. ) R
A
R
Y
.
(iii) En el caso en que , (r. ; ) es normal de dos variables, tal como se
especica en (4.7), las dos funciones de densidad marginal tienen la misma
forma funcional, pero : = (j
1
. j
2
. o
11
. o
22
),
1
: = (j
1
. o
11
) y
2
: = (j
2
. o
22
),
suelen ser diferentes. Por lo tanto, para que las variables aleatorias A y 1
sean Idnticamente Distribuidas, las dos medias y las dos varianzas deben de
coincidir: j
1
= j
2
y o
11
= o
22
:
, (r;
1
) =
1
_
2:o
11
c

1
2
11
[aj
1
]
2
, , (;
2
) =
1
_
2:o
11
c

1
2
11
[jj
1
]
2
.
El concepto de variables aleatorias Idnticamente Distribuidas se puede
extender fcilmente al caso de : variables de una manera directa.
Distribuciones idnticas. Las variables aleatorias (A
1
. A
2
. . . . . A
a
) se
dice que son Idnticamente Distribuidas si:
,
I
(r
I
;
I
) = , (r
I
; ) . para todo / = 1. 2. .... :.
196 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Esto tiene dos dimensiones:
(i) ,
1
(.) = ,
2
(.) = ,
3
(.) = = ,
a
(.) = , (.),
(ii)
1
=
2
=
3
= =
a
= .
El signo de igualdad = se utiliza para indicar que todas las distribuciones
marginales tienen la misma forma funcional.
4.6.1 Una muestra aleatoria
Nuestra primera formalizacin de la condicin [c] de un experimento aleatorio
c, donde:
[c] este experimento se puede repetir en idnticas condiciones,
tom la forma de un conjunto de pruebas aleatorias /
1
. /
2
. /
3
. .... /
a

que son Independientes e Idnticamente Distribuidas (IID):


P
(a)
(/
1
/
2
/
I
) = P(/
1
) P(/
2
) P(/
I
) . (4.34)
para todo / = 2. 3. .... :.
Utilizando el concepto de muestra X : = (A
1
. A
2
. . . . . A
a
), donde A
i
representa la i-sima prueba, podemos proceder a formalizar la condicin [c]
en la forma de una muestra donde las variables aleatorias A
1
. A
2
. . . . . A
a
son
Independientes (I) e Idnticamente Distribuidas (ID).
Muestra aleatoria. La muestra X
111
(a)
: =(A
1
. A
2
. . . . . A
a
) se llama una
muestra aleatoria si las variables aleatorias (A
1
. A
2
. . . . . A
a
) son:
(a) Independientes:
, (r
1
. r
2
. .... r
a
; )
1
=

a
I=1
,
I
(r
I
;
I
) . para todo (r
1
. r
2
. .... r
a
) R
a
.
(ii) Idnticamente Distribuidas:
,
I
(r
I
;
I
) = , (r
I
; ) . para todo / = 1. 2. .... :.
Poniendo juntos los dos la densidad conjunta de X
111
(a)
: =(A
1
. A
2
. . . . . A
a
)
toma la forma:
, (r
1
. r
2
. .... r
a
; )
1
=

a
I=1
,
I
(r
I
;
I
)
111
=

a
I=1
, (r
I
; ) . para todo (r
1
. r
2
. .... r
a
) R
a
.
(4.35)
4.6. DISTRIBUCIONES IDNTICAS 197
La primera igualdad se desprende de la condicin de independencia y la
segunda de la condicin de Distribucin Idnticas. NOTE que ,
I
(r
I
;
I
)
denota la distribucin marginal de A
I
(.), obtenidas por la integracin de
todas las otras variables aleatorias, adems de A
I
(.), es decir,
,
I
(r
I
;
I
) =
_
o
o
_
o
o

_
o
o
, (r
1
. .... r
I1
. r
I
. r
I+1
. .... r
a
; ) dr
1
...dr
I1
dr
I+1
...dr
a
.
Como argumentamos en el captulo 2, la formalizacin de un experimento
aleatorio se escogi para motivar varios conceptos, ya que era lo sucien-
temente simple para evitar complicaciones innecesarias. Tambin dijimos,
sin embargo, que fenmenos estocsticos simples dentro del mbito de apli-
cacin previsto de un modelo estadstico simple se encuentra raramente en la
economa. Una de nuestras primeras tareas, una vez que la transformacin se
ha completado, es extenderla. En preparacin para esta extensin notemos
en esta etapa que la nocin de muestra aleatoria es una forma muy especial
de lo que llamamos un modelo muestral.
Modelo muestral. Un modelo muestral es un conjunto de variables
aleatorias (A
1
. A
2
. . . . . A
a
) (una muestra) con una estructura probabilstica
determinada. El objetivo principal del modelo muestral consiste en relacionar
los datos observados con el modelo de probabilidad.
4.6.2 Un modelo estadstico simple: concluyendo las
transformaciones
Ahora estamos en condiciones de completar la bsqueda que se inici con
la formalizacin del concepto de experimento aleatorio c, denido por las
condiciones:
[a] todos los distintos posibles resultados se conocen a priori,
[b] en una prueba particular los resultados no se conoce a priori pero existe
una regularidad perceptible de ocurrencia relacionada con estos resultados y
[c] el experimento se puede repetir en condiciones idnticas.
La formalizacin abstracta inicial tom la forma de un espacio estadstico
simple:
_
(o. . P(.))
a
. (
111
a

. El objetivo principal del captulo anterior fue la


metamorfosis del espacio de probabilidad simple (o. . P(.))
a
en algo denido
en la recta real. La clave de la transformacin fue la nocin de variable
aleatoria A(.):
198 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
(o. . P(.))
a
A(.)
= (R. (R) . P
A
(.)) =, (r; ) . . r R
A
.
En este captulo hemos transformado el espacio muestral simple en una
muestra aleatoria:
(
111
a
= /
1
. /
2
. /
3
. .... /
a

A(.)
= X
111
(a)
: =(A
1
. A
2
. . . . . A
a
) .
Recopilando los principales resultados de los ltimos dos captulos, den-
imos un modelo estadstico genrico simple:
[i] modelo de probabilidad = , (r; ) . . r R
A
.
[ii] modelo muestral X : = (A
1
. A
2
. . . . . A
a
) es una muestra aleatoria.
El concepto de modelo estadstico constituye el aporte bsico de la teora
de probabilidad a la teora de la inferencia estadstica. Todas las formas de
inferencia estadstica paramtrica suponen un modelo estadstico particular
que, si no es vlido, hace que cualquier resultado de inferencia sea errneo.
Por lo tanto, una buena comprensin de la forma y la estructura de un
modelo estadstico simple de la forma dada anteriormente es imprescindible.
Ejemplos concretos de modelos estadsticos simples son los siguientes:
Modelo Bernoulli simple.
[i] Modelo de probabilidad: =
_
, (r; ) = o
a
(1 o)
1a
. 0 _ o _ 1. r = 0. 1
_
.
[ii] Modelo muestral: X := (A
1
. A
2
. . . . . A
a
) es una muestra aleatoria.
Modelo Normal simple.
[i] Modelo de probabilidad: =
_
, (r; ) =
1
o
_
2
exp
_

(aj)
2
2o
2
_
. := (j. o
2
) R R
+
. r R
_
.
[ii] Modelo muestral: X := (A
1
. A
2
. . . . . A
a
) es una muestra aleatoria.
Modelo Gamma generalizado simple.
[i] Modelo de probabilidad: =
_
, (r; ) =
1
(o)
c
oc
r
oc1
exp
_

_
a
c
_
c
_
. . r R
+
_
.
[ii] Modelo muestral: X := (A
1
. A
2
. . . . . A
a
) es una muestra aleatoria.
4.7 Un modelo estadstico simple en la mod-
elizacin emprica: una visin preliminar
Como se mencion anteriormente, todas las formas de inferencia estadstica
presuponen la especicacin de un modelo estadstico particular a priori.
4.7. UNMODELOESTADSTICOSIMPLEENLAMODELIZACINEMPRICA: UNAVISINPRELIMINAR199
Esta especicacin supone la eleccin de un conjunto de supuestos proba-
bilsticos que el modelador considera apropiados para describir el mecanismo
estocstico que dio lugar al conjunto de datos en cuestin. La eleccin de
un modelo estadstico adecuado constituye tal vez la ms difcil y, al mismo
tiempo, la decisin ms crucial que un modelador tiene que hacer; en com-
paracin, la decisin de elegir un buen estimador de o es trivial. En el captulo
1 argumentamos que en el caso de datos observacionales (no experimentales)
necesitamos establecer un procedimiento que tome en consideracin la es-
tructura de los datos observados. Despus de todo, el modelo estadstico
elegido se considera apropiado slo cuando l captura toda la informacin
sistemtica de los datos en cuestin.
Lo que hace al anterior modelo estadstico simple es el supuesto de mues-
tra aleatoria, es decir, (A
1
. A
2
. . . . . A
a
) son variables aleatorias Independi-
entes e Idnticamente Distribuidas. Hacer una eleccin adecuada de un mod-
elo estadstico requerir que el modelador desarrolle una comprensin tanto
intuitiva como formal de tales supuestos probabilsticos. Del mismo modo, la
postulacin de una familia paramtrica de densidades requiere el modelador
para apreciar lo que esa decisin conlleva.
4.7.1 Modelo de probabilidad
En cuanto a un modelo de probabilidad de una familia paramtrica de den-
sidades:
= , (r; ) . . r R
A
(4.36)
desde el punto de vista de la modelacin, distinguimos dos componentes
bsicos:
(i) la forma paramtrica de la funcin de densidad , (r; ) . y
(ii) el soporte de la densidad R
A
:= r R : , (r; ) 0.
En teora, la modelizacin emprica comienza a partir del "conjunto de
todos los posibles modelos de probabilidad", por ejemplo, P, y utilizando
la informacin referida a la forma y estructura de los datos, el modelador
reduce este conjunto a un subconjunto P
0
P de modelos de probabilidad
admisibles , eligiendo , (r; ) y R
A
, felizmente.
La nocin de modelo de probabilidad simple fue ilustrada en el captulo
3 con una serie de grcas de densidad para diferentes valores de . Como
veremos en el captulo 5, la eleccin de ,(r; .) y no tiene por qu ser un
200 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
asunto de acertar o fallar; puede ser facilitado por una serie de grcas de
los datos. El soporte de la densidad tambin juega un papel importante en
la especicacin debido a que el rango de valores de los datos observados es
una dimensin fundamental de la modelizacinque a menudo se descuida. En
el caso donde los datos observados se reeren a una serie de datos medidos
en trminos de proporciones (es decir, los valores tomados por los datos se
encuentran en el intervalo [0. 1]), la postulacin de una familia de densidades
con soporte (. ) es a menudo inadecuado. El uso de la familia de
densidades Beta a menudo puede ser una mejor idea.
Ejemplo
En el caso de los datos de las puntuaciones del examen (vase la tabla 1.6),
hay buenas razones para creer que, basndose principalmente en el soporte
de los datos, el modelo de probabilidad Beta podra de hecho ser una mejor
opcin; vase el captulo 15.
UNA NOTA DE PRECAUCIN. En el contexto de la inferencia estads-
tica la escena central se le dar al parmetro(s) desconocido(s) ; estimacin
y pruebas giran en torno a . Sin embargo, el modelador no debe perder
de vista el hecho de que la estimacin de (utilizando los datos observados
con el n de elegir un buen estimador

) es un medio para un n. El ob-
jetivo principal de la modelizacin emprica es describir adecuadamente el
fenmeno estocstico subyacente a los datos en cuestin. Este modelo viene
en la forma del modelo de probabilidad estimado:

=
_
,
_
r;

_
. r R
A
_
, (4.37)
que constituye la base de cualquier tipo de inferencia estadstica, in-
cluyendo la prediccin y la simulacin. Representa un mecanismo estocstico
idealizado que tiene por objeto proporcionar una descripcin adecuada del
fenmeno estocstico subyacente a los datos observados en cuestin. En este
sentido, centrndose indebidamente en los parmetros desconocidos dar lu-
gar a perder de vista el bosque por los rboles.
4.7.2 Identicabilidad y parametrizaciones
Hay que subrayar, en primer lugar que, para propsitos de modelizacin, los
parmetros deben estar asociado con distribuciones de probabilidad
nicas, de lo contrario la eleccin de un buen estimador de y, por lo tanto,
4.7. UNMODELOESTADSTICOSIMPLEENLAMODELIZACINEMPRICA: UNAVISINPRELIMINAR201
la eleccin del mecanismo estocstico como el indicado en (4.37) no tiene
sentido.
En otras palabras, es imperativo que para diferentes valores de
se correspondan diferentes distribuciones. La condicin que asegura esto se
especica a continuacin:
Identicabilidad: para todo
1
,=
2
, donde
1
,
2
.
, (r;
1
) ,= , (r;
2
) . r R
A
.
IMPORTANTE. En lo que sigue vamos a suponer que todos los modelos
de probabilidad son identicables en relacin con la parametrizacin postu-
lada.
En relacin con la unicidad de la parametrizacin hay que destacar que
sta se dene como un mapeo uno a uno. Es decir, cuando se especica
el modelo de probabilidad (4.36) el modelador puede elegir un nmero de
parametrizaciones equivalentes, si existe un mapeo uno a uno entre los dos
espacios de parmetros. En particular, una parametrizacin equivalente a
(4.36) es:
= , (r; ) . . r R
A
(4.38)
slo en el caso de que exista un mapeo uno a uno = g () :
g (.) : .
Si queremos hacer hincapi en la reparametrizacin podemos escribir
(4.38) en la forma:
= , (r; ) . = g () . . r R
A
, (4.39)
qu parametrizacin se usar en un caso concreto depende de varios fac-
tores, entre ellos la interpretabilidad.
Ejemplo
Consideremos el caso de la distribucin exponencial donde la
parametrizacin toma la forma:
= , (r; o) = oexp[or] . r 0. o := (0. ) .
Una parametrizacin equivalente se dene en trminos de =
1
0
:
=
_
, (r; o) =
1

exp
_

r
_
. r 0. := (0. )
_
.
202 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Ms all de parametrizaciones estadsticas, un papel importante en la
modelizacin economtrica es jugado por las parametrizaciones tericas. En
pocas palabras, una parametrizacin estadstica tiene una clara inter-
pretacin en trminos de caractersticas de distribucionales de la familia de
las densidades de que se trate, como momentos y cuantiles. Por el contrario,
una parametrizacin terica tiene una interpretacin clara en trminos de
la teora econmica (o teoras) de que se trate. Hasta ahora hemos encontrado
slo parametrizaciones estadsticas. En econometra, sin embargo, estamos
interesados en ltima instancia en parametrizaciones tericas (econmicas)
c , que son a menudo diferentes de las parametrizaciones estadsticas
postuladas o. Ms a menudo tenemos menos parmetros tericos que es-
tadsticos de inters. En este caso tenemos que asegurarnos de que existen
mapeos muchos a uno de la forma:
h(.) : ,
que denen c unvocamente (a parametrizaciones uno a uno). NOTE
que, mapeos muchos a uno h(.) reparameterizan y restringen los parmet-
ros estadsticos. Esto es a menudo necesario para reducir la especicidad
de los datos de un modelo estadstico, as como para hacer los parmetros
estadsticos tericamente signicativos.
4.7.3 Importantes familias de distribuciones paramtri-
cas
El xito de la modelizacin emprica depender fundamentalmente de la
riqueza de las familias de distribuciones paramtricas disponibles para el
modelador. En esta seccin se consideran brevemente algunas de las familias
ms importantes de las distribuciones utilizadas en la modelizacin emprica.
El primer avance importante en hacer familias de distribuciones paramtricas
disponibles para el modelador fue hecha por Karl Pearson (1895).
La familia Pearson
La familia de funciones de densidad de Pearson fue motivada inicialmente
por el deseo de generar distribuciones no normales (especialmente no simtri-
cas) que se utilizarn para el modelado de datos biolgicos. Pearson se di
cuenta que la funcin de densidad normal estndar c(r) satisface la sencilla
ecuacin diferencial:
4.7. UNMODELOESTADSTICOSIMPLEENLAMODELIZACINEMPRICA: UNAVISINPRELIMINAR203
dc(r)
dr
= c(r)
_
(r o
0
)
o
1
_
, r R donde j := o
0
y o
2
:= o
1
.
Luego pas a generalizar esta ecuacin diferencial a cuatro parmetros
desconocidos (o
1
. o
2
. o
3
. o
4
):
d, (r)
dr
= , (r)
_
(r o
0
)
o
1
+o
2
r +o
3
r
2
_
, r R
A
.
Dependiendo de los valores tomados por los parmetros desconocidos, esta
ecuacin, adems de la Normal, puede generar varias funciones de densidad
bien conocidas como:
t de Student: , (r; ) =
[
1
2
(+1)](o
2
)
1
2
[
1
2
]
_
1 +
(aj)
2
o
2
_

1
2
(+1)
. := (j. o
2
)
R R
+
, r R,
Laplace: , (r; ) =
1
2o
c
(
jioj
c
)
, := (c. ,) R R
+
, r R,
Pareto: , (r; ) =
_
or
0
0
_
r
(0+1)
, o R
+
, r
0
0. r _ r
0
,
Gamma: , (r; ) =
o
1
[c]
_
a
o
_
c1
exp
_

_
a
o
__
, := (c. ,) R
2
+
, r
R
+
,
Beta: , (r; ) =
a
o1
(1a)
c1
1[c,o]
, := (c. ,) R
2
+
, 0 _ r _ 1.
En el caso de variables aleatorias discretas, la ecuacin diferencial corre-
spondiente es:
,
I
,
I1
= ,
I
_
(/ o
0
)
o
1
+o
2
r +o
3
r (1 r)
_
, / = 1. 2. 3. ..., r R
A
.
Adems de la distribucin binomial, esta ecuacin se puede utilizar para
generar varias distribuciones discretas bien conocidas como:
Hipergeomtrica: , (r; ) =
_
_
1
r
_
_
_
_
` 1
: /
_
_
_
_
`
:
_
_
, 0 _ r _ min (1. :),
Binomial Negativa: , (r; . /) =
_
/ +r 1
/ 1
_
o
I
(1 o)
a
, 0 < o < 1,
/ = 1. 2. ..., = 0. 1. 2. ...,
Poisson: , (r; . /) =
c
0
0
i
a!
, o 0, r = 0. 1. 2. 3. ....
204 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Familia exponencial de distribuciones
Esta familia de distribuciones se introdujo inicialmente en la estadstica
por Fisher (1934) como una extensin natural de la distribucin Normal para
los propsitos de la inferencia. Como argumentamos en el captulo 12, esta
familia conserva algunas de las propiedades importantes de la distribucin
normal en relacin con la inferencia. NOTE que la familia exponencial es
diferente de la distribucin exponencial encontrada anteriormente. La fun-
cin de densidad de la familia exponencial puede expresarse en la forma:
, (r; ) = c () /(r) exp

I
i=1
g
i
() t
i
(r) ,
(a) c () _ 0,
(b) /(r) _ 0,
(c) g
i
(), i = 1. 2. .... /: funciones reales (sin r),
(d) t
i
(r), i = 1. 2. .... /: funciones reales (sin ).
Muchas distribuciones conocidas como la normal,Gama, Beta, Binomial,
Poisson y Binomial Negativas pertenecen a esta familia; ver Barndor-Nielsen
y Cox (1989), Azallini (1996).
Ejemplos
(i) La distribucin de Poisson es un miembro discretos de la familia ex-
ponencial con funcin de densidad:
, (r; ) =
c
0
0
i
a!
=
_
c
0
a!
_
exp (r 1:(o)), o 0, r = 0. 1. 2. ..., o 0,
Por lo tanto, para esta densidad: / = 1, c () = c
0
, /(r) =
1
a!
, g() =
1:(o), t (r) = r.
(ii) La distribucin normal es un miembro continuo de la familia expo-
nencial con funcin de densidad:
, (r; ) =
1
_
2o
2
exp
_

(aj)
2
2o
2
_
=
exp
_


2
2
2
_
_
2o
2
exp
_
r
2
_
1
2o
2
_
+r
_
j
o
2
__
, r
R,
: = (j. o
2
) R R
+
. Por lo tanto, para la densidad normal: / = 2,
c () =
1
_
2o
2
exp
_

j
2
2o
2
_
, /(r) = 1, g
1
() =
j
o
2
, g
2
() =
1
2o
2
, t
1
(r) = r,
t
2
(r) = r
2
.
La familia estable (Pareto-Levy)
La familia estable de distribuciones fue inicialmente motivada por la im-
portante propiedad del dominio de atraccin: la suma de variables aleatorias
independientes de una cierta distribucin, debidamente normalizada, tiene la
misma distribucin de las variables aleatorias individuales. Esta familia de
4.7. UNMODELOESTADSTICOSIMPLEENLAMODELIZACINEMPRICA: UNAVISINPRELIMINAR205
distribuciones se ha utilizado ampliamente para la modelizacin de precios
especulativos (ver Campbell et al. (1997)). Una desventaja importante de
esta familia es que la mayora de sus miembros no tienen una funcin de
densidad explcita en forma cerrada y por lo tanto los modeladores trabajan
directamente con la funcin cumulante (logartmo de la funcin caracters-
tica) (vase el captulo 3), que viene dada por:
log c(t) =
_
ijt o [t[
c
_
1 [:iq:(t)] i,
_
tan
_
c
2
__
, para c ,= 1
ijt o [t[
_
1 + [:iq:(t)] i,
__
2

_
1:([t[)
_
, para c = 1
_
,
Esta familia se dene en funcin de cuatro parmetros (ver Galambos
(1995)):
c: el exponente caracterstico, donde 0 < c _ 2,
,: la asimetra, donde 1 < , _ 1,
j: la ubicacin, donde j R,
o: la escala, donde o R
+
.
Esta es una familia continua de densidades unimodales (una moda). Para
c < 2, la cola de la funcin de densidad decae como una funcin potencia (de
ah el trmino de Pareto), mostrando ms dispersin que la normal; a menor
c, ms gruesa es la cola. Para , = 0 la densidad es simtrica alrededor de j
pero , 0 y , < 0, dando lugar a densidades sesgadas a la izquierda y a la
derecha, respectivamente; el caso [,[ = 1 da lugar a distributiones estables
extremas.
El soporte de esta familia depende de los parmetros (c. ,):
R
+
A
(c. ,) =
_
_
_
R, para c _ 1. [,[ , = 1,
(. 0) , para c < 1. , = 1,
(0. ) , para c < 1. , = 1.
_
_
_
Ejemplos
(i) Para c = 2 y , = 0, la familia estable se reduce a la distribucin
normal.
(ii) Para c = 1 y , = 0, la familia estable se reduce a la distribucin de
Cauchy con la densidad:
, (r; j. o) =
o
:
_
o
2
+ (r j)
2
, r R.j R.o R
+
.
NOTE que para el caso 0 < c _ 10, no existen momentos!
206 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
(iii) Para c =
1
2
y , = 1, la familia estable se reduce a la distribucin de
Levy con densidad:
, (r; j. o) =
_
o
2: + (r j)
3
exp
_

1
2 (r j)
_
, r j. j R.o R
+
.
La familia de transformacin Johnson
La familia de distribuciones de transformacin Johnson fue motivada ini-
cialmente por un intento de introducir distribuciones no normales que se
pueden ver como transformaciones montonas de la normal. Johnson (1949)
propuso la transformacin:
A = +o/(1 ) = +o/(1 )
_
2 j
o
_
, A~` (0. 1) . /(.) es una funcin montona.
Los miembros ms importantes de esta familia se basan en las siguientes
transformaciones:
(i) o
1
, lognormal:
/(1 ) = 1:(1 ), j < 2 <
(ii) o
1
, rango acotado:
/(1 ) = 1:
_
Y
1Y
_
, j < 2 < j +o.
(ii) o
l
, rango no acotado:
/(1 ) = 1:
_
1 +
_
1 +1
2
_
, < 2 < .
4.7.4 Muestra aleatoria
En lo que al modelo muestral se reere, notemos que, desde el punto de
vista de la modelizacin, los componentes bsicos de una muestra aleatoria:
X
111
(a)
: =(A
1
. A
2
. . . . . A
a
) son los supuestos:
(i) Independencia y
(ii) Distribucin Idntica.
Para datos observacionales la validez de estos supuestos a menudo puede
ser evaluada utilizando una batera de tcnicas grcas discutidas en los
captulos 5-6. En esos captulos discutimos la relacin entre conceptos prob-
abilsticos construyendo un modelo estadstico simple (como Independencia
y Distribucin Idntica) y varias grcas de datos reales. La discusin es
particularmente relevante para la modelizacin de datos observacionales.
4.8. MUESTRAS ALEATORIAS ORDENADAS* 207
En un intento por mostrar lo fcil que es ir a dar a una muestra no
aleatoria, se muestra en la siguiente seccin que una simple reorganizacin
de la muestra da lugar a una muestra no aleatoria.
4.8 Muestras aleatorias ordenadas*
Considere el caso donde el modelo muestral original, es una muestra aleatoria
(A
1
. A
2
. . . . . A
a
) con fda 1 (r; ), es decir,
(1) 1 (r
1
. r
2
. .... r
a
; ) =

a
I=1
1
I
(r
I
;
I
),
(2) 1
I
(r
I
;
I
) = 1 (r; ), para / = 1. 2. .... :.
Por varias razones, que se estudiarn en los prximos captulos, a menudo
es interesante considerar la muestra ordenada donde las variables aleatorias
se arreglan en orden ascendente, es decir,
_
A
[1]
. A
[2]
. . . . . A
[a]
_
donde A
[1]
_ A
[2]
_ . . . _ A
[a]
.
NOTA: es importante destacar que la muestra ordenada constituye una
construccin mental, porque antes de que la muestra se realice tal orden
no es posible! Sea como fuere, puede ser una sorpresa para el lector que,
aunque la muestra (A
1
. A
2
. . . . . A
a
) es aleatoria (IID), la muestra ordenada
_
A
[1]
. A
[2]
. . . . . A
[a]
_
no es aleatoria; las variables aleatorias A
[1]
. A
[2]
. . . . . A
[a]
no son ni Independientes ni Idnticamente Distribuidas. Veamos esto en
algn detalle.
4.8.1 Distribuciones marginales
Consideremos primero la funcin de distribucin de la variable aleatoria
A
[1]
= min
_
A
[1]
. A
[2]
. . . . . A
[a]
_
y sea su fda denotada por 1
[1]
(r). Luego, a partir de principios bsicos,
sabemos que:
1
[1]
(r) = P
_
A
[1]
_ r
_
= 1 P
_
A
[1]
r
_
.
En vista del hecho de que la variable aleatoria A
[1]
es la ms pequea, el
evento
_
A
[1]
r
_
se produce si y slo si todos los A
I
superan a r, es decir,
_
A
[1]
r
_
= (A
1
r. A
2
r. .... A
a
r) .
208 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
De la aleatoriedad de la muestra (A
1
. A
2
. . . . . A
a
) sabemos que:
P(A
1
r. A
2
r. .... A
a
r) = [1 1 (r; )]
a
,
y entonces:
1
[1]
(r) = P
_
A
[1]
_ r
_
= 1 [1 1 (r; )]
a
.
Consideremos ahora la funcin de distribucin de la variable aleatoria
A
[a]
= max
_
A
[1]
. A
[2]
. . . . . A
[a]
_
y sea su fda denotada por 1
[a]
(r). Luego, a partir de primeros principios,
sabemos que:
1
[a]
(r) = P
_
A
[a]
_ r
_
.
En vista del hecho de que la variable aleatoria A
[a]
es la ms grande, el
evento
_
A
[a]
_ r
_
se produce si y slo si todos las A
I
no son superadas por
r, es decir,
_
A
[a]
_ r
_
= (A
1
_ r. A
2
_ r. .... A
a
_ r) .
De la aleatoriedad de la muestra (A
1
. A
2
. . . . . A
a
) sabemos que:
P(A
1
_ r. A
2
_ r. .... A
a
_ r) = [1 (r; )]
a
,
y entonces:
1
[a]
(r) = P
_
A
[a]
_ r
_
= [1 (r; )]
a
.
Notando que el evento:
_
A
[a]
_ r
_
=(a menos / variables aleatorias de A
1
. A
2
. . . . . A
a
no superan
r),
podemos derivar la funcin de distribucin de cualquier variable aleatoria
A
[I]
de la siguiente manera. De la distribucin binomial, sabemos que:
P(exactamente / de A
1
. A
2
. . . . . A
a
no superen r)=
_
:
/
_
[1 (r; )]
I
[1 1 (r; )]
aI
,
y por lo tanto (vase David (1981)):
1
[I]
(r) = P
_
A
[I]
_ r
_
=

a
n=I
_
:
/
_
[1 (r; )]
n
[1 1 (r; )]
an
.
4.8. MUESTRAS ALEATORIAS ORDENADAS* 209
NOTE que la fda de A
[1]
y A
[a]
constituyen casos especiales de los ante-
riores resultados.
Juntando los resultados anteriores, deducimos que la muestra ordenada
_
A
[1]
. A
[2]
. . . . . A
[a]
_
es claramente no ID ya que la distribucin de A
[I]
cambia
con /.
Ejemplo
Considere el caso donde (A
1
. A
2
. . . . . A
a
) constituye una muestra aleato-
ria de una distribucin uniforme:
A
I
~l (0. 1) , / = 1. 2. .... :.
Podemos fcilmente demostrar que los dos primeros momentos de estas
variables (ver Apndice A) son:
1 (A
I
) =
1
2
, \ c: (A
I
) =
1
12
, Co (A
I
. A
)
) = 0, , ,= /, ,. / = 1. 2. .... :.
Por otra parte, los dos primeros momentos de la muestra ordenada
_
A
[1]
. A
[2]
. . . . . A
[a]
_
son los siguientes:
1 (A
I
) =
/
: + 1
, \ c: (A
I
) =
/ (: / + 1)
(: + 1)
2
(: + 2)
,
Co (A
I
. A
)
) =
, (: / + 1)
(: + 1)
2
(: + 2)
, , < /, ,. / = 1. 2. .... :.
El hecho de que la covarianza sea distinta de cero indica que la muestra
ordenada no puede ser independiente (vase el captulo 6).
4.8.2 Distribuciones conjuntas
La dependencia entre las variables aleatorias ordenadas
_
A
[1]
. A
[2]
. . . . . A
[a]
_
puede ser mejor vista en el contexto de la distribucin conjunta de dos vari-
ables, para cualesquiera dos de estas variables aleatorias, por ejemplo A
[i]
,
A
[)]
(1 _ i < , _ :). Por denicin:
1
[i,)]
(r
i
. r
)
) = P
_
A
[i]
_ r
i
. A
[)]
_ r
)
_
= P(al menos i variables aleatorias de A
1
. A
2
. . . . . A
a
superen
r
i
y al menos , variables aleatorias de A
1
. A
2
. . . . . A
a
superen r
)
).
210 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
=

a
I=)

I
|=i
(exactamente i variables aleatorias de
A
1
. A
2
. . . . . A
a
no superen r
i
y exactamente , variables aleatorias de A
1
. A
2
. . . . . A
a
no superen r
)
).
Siguiendo el mismo argumento de sentido comn utilizado anteriormente
podemos deducir que (vase David (1981)):
1
[i,)]
(r
i
. r
)
) =

a
I=)

I
|=i
:!
|! (/ |)! (: /)!
[1 (r
i
)]
|
[1 (r
)
) 1 (r
i
)]
I|
[1 1 (r
)
)]
aI
.
Como podemos ver, la distribucin conjunta anterior no se puede expresar
como un producto de las dos distribuciones marginales y por lo tanto las
variables aleatorias
_
A
[i]
. A
[)]
_
no son independientes.
4.9 Resumen
En este captulo hemos completado la transformacin de la formalizacin ini-
cial de la nocin de experimento aleatorio en la forma del abstracto espacio
estadstico
_
(o. . P(.))
a
. (
111a
a

en un modelo estadstico simple. Los fen-


menos de inters que pueden ser modelados en el contexto de este modelo
simple son los que muestran patrones de regularidad aleatoria de:
(1) Independencia y (2) Distribucin Idntica (homogeneidad).
4.9.1 Qu sigue?
Con el n de mejorar nuestra comprensin de la nocin de modelo estadstico
simple relacionaremos los conceptos probabilsticos que componen este mod-
elo con los datos reales. El puente entre estos conceptos probabilsticos y las
grcas de los datos reales se construye en el siguiente captulo. El problema
de la extensin de la formalizacin con el n de modelar mecanismos aleato-
rios ms realistas encontrados en la economa se emprender en los captulos
6-8.
4.10 Ejercicios
1. Explique por qu la distribucin conjunta se puede utilizar para describir
la heterogeneidad y la dependencia entre variables aleatorias.
4.10. EJERCICIOS 211
2. "La marginalizacin signica que desechar toda la informacin relativa
a la variable aleatoria que estamos sumando (integrando)." Comente.
3. Considere el experimento aleatorio de lanzar una moneda dos veces y
denir la variable aleatoria: A - el nmero de Hs y Y5 [ el nmero de Hs -
el nmero de 1s [.
Derivar la distribucin conjunta de (A. 1 ), suponiendo una moneda legal,
y comprobar si las dos variables aleatorias son independientes.
4. Sea la funcin de densidad conjunta de dos variables aleatorias A, 1 :
r 1 0 1
1 0.2 0.2 0.2
1 0.1 0.1 0.2
(a) Obtenga las distribuciones marginales de A y 1 .
(b) Determine si A y 1 son independientes.
(c) Verique su respuesta en (b) usando la distribucin condicional(es).
5. Denir el concepto de la independencia de dos variables aleatorias A y
1 en trminos de las funciones de densidad conjunta, marginal y condicional.
6. Explicar el concepto de muestra aleatoria y explicar por qu a menudo
es restrictiva para la mayora de las series de datos econmicos.
7. Describa brevemente la formalizacin de la condicin: [c] podemos
repetir el experimento bajo idnticas condiciones, en la forma del concepto
de una muestra aleatoria.
8. Explique intuitivamente por qu tiene sentido que cuando la distribu-
cin conjunta , (r. ) es normal las distribuciones marginales ,
a
(r) y ,
j
()
son tambin normales.
9. Dena los momentos crudos y centrales y demuestre que:
Co (A. 1 ) = 1 (A1 ) 1 (A) 1 (1 ) .
Por qu nos importan estos momentos?
10. Explique el concepto de una muestra ordenada.
11 Explique intuitivamente por qu una muestra aletoria ordenada no es
ni Independiente ni Idnticamente Distribuida.
12. Explique los conceptos de identicabilidad y parametrizacin.
13 "Al establecer una relacin entre los modelos estadsticos y los modelos
tericos (econmicos) a menudo necesitamos reparameterizar / restringir el
primero con el n de hacer que los parmetros estimados sean tericamente
signicativos". Explique.
212 CAPTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Apndice B distribuciones de dos variables
FALTA INCLUIR DISTRIBUCIONES
Captulo 5
El concepto de muestra no
aleatoria
5.1 Introduccin
En este captulo damos el primer paso para extender el modelo estadstico
simple (formalizado en los captulos 2-4) en las direcciones que permiten
la dependencia y la heterogeneidad. Ambas dimensiones son excluidas en
el contexto del modelo estadstico simple, porque este ltimo se basa en
la nocin de muestra aleatoria: un conjunto de variables aleatorias que son
Independientes e Idnticamente Distribuidas (IID). En este captulo nos con-
centramos en el concepto de dependencia, allanando el camino para modelos
estadsticos ms elaborados en los siguientes captulos.Tambin extendemos
el puente entre conceptos tericos y datos reales introducidos en el captulo
5, mediante la introduccin de algunas tcnicas grcas adicionales.
5.1.1 La historia hasta ahora
En el captulo 2 comenzamos nuestra bsqueda de un marco de referencia
matemtico en el contexto del cual podemos modelar fenmenos estocsticos:
fenmenos exhibiendo regularidad aleatori a. Vimos la teora de la probabil-
idad como el tringlado matemtico apropiado que nos permite modelar la
informacin sistemtica de tales fenmenos. En un intento por motivar este
marco de referencia matemtico, introdujimos la teora de la probabilidad
como una formalizacin (matematizacin) de un mecanismo aleatorio simple,
llamado experimento aleatorio , denido por las siguientes tres condiciones:
213
214 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
[a] todos los posibles resultados distintos se conocen a priori,
[b] en cualquier prueba particular, los resultados no se conoce a priori,
pero existe una regularidad perceptible de ocurrencia relacionada con estos
resultados,
[c] se puede repetir en condiciones idnticas.
La idea detrs de esta formalizacin es doble. En primer lugar, poner
de maniesto el hecho de que la teora de probabilidades, al igual que otras
ramas de la matemtica, no es slo una hbil sucesin de teoremas y lemas!
Es una rama de la matemtica, que surgi de la necesidad de modelar cier-
tos fenmenos de inters. Adems, ella cambia continuamente, ampliando
y extendiendo su mbito de aplicacin a n de proporcionar un marco de
referencia para modelar fenmenos estocsticos.
En segundo lugar, resaltamos la conexin entre los patrones de regular-
idad aleatoria y los correspondientes conceptos matemticos abstractos; el
primero motivando la formalizacin del ltimo. El mecanismo aleatorio rep-
resentado por un experimento aleatorio fue elegido por ser muy sencillo (los
patrones de regularidad aleatoria sean manejables), pero no tan sencillo (para
parafrasear un enunciado de Einstein), con el n de motivar los principales
conceptos que subyacen a un modele estadstico.
La formalizacin matemtica inicial de , dada en el captulo 2, se produjo
en la forma de un espacio estadstico simple
_
(o. . P(.))
a
. (
111
a

, que
tiene dos componentes:
(i) Espacio de probabilidad: (o. . P(.))
a
= (o. . P(.))(o. . P(.))
(o. . P(.))
(i) Espacio muestral: (
111
a
= /
1
. /
2
. .... /
a
.
Estos dos pilares constituyen la base matemtica sobre la cual uno puede
construir la teora de la probabilidad como una rama de la matemtica. Desde
el punto de vista de la modelacin, sin embargo, este marco matemtico es
ms abstracto de lo necesario porque los datos son a menudo numricos y,
por lo tanto, en los captulos 3 y 4, nos propusimos metamorfoserlo en una
formulacin equivalente, sobre la recta real. Es importante sealar que, in-
cluso despus de la metamorfosis, esta formulacin abstracta sigue siendo
de inters, porque constituye la base matemtica de la teora de la proba-
bilidad. Cada vez que introducimos un nuevo concepto en el contexto de
la formulacin transformada tenemos que volver a la formulacin abstracta
para comprobar si tiene sentido o no. Como se muestra a continuacin, en
la extensin del modelo estadstico simple mantenemos la nocin de un espa-
cio de probabilidad (o. . P(.)), pero denimos en l las variables aleatorias,
5.1. INTRODUCCIN 215
que pueden ser dependientes y heterogneas (vase el captulo 8 para el ms
detalles).
La metamorfosis del abstracto espacio estadstico
_
(o. . P(.))
a
. (
111
a

tom la forma de un modelo estadstico (general) simple.


[i] Modelo de probabilidad: = ,(r; ). . r R,
[ii] Modelo muestral: A
111
(a)
:= (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
En el captulo anterior ha sido construido un puente entre los conceptos
probabilsticos de:
(i) Distribucin (una distribucin acumulada o una funcin de densidad),
(ii) Independencia y
(iii) variables aleatorias Idnticamente Distribuida,
y los correspondientes patrones de regularidad aleatoria exhibidos en una
serie de pantallas grcas de los datos observados. En la extensin del modelo
estadstico simple tambin necesitamos extender este puente con el n de
introducir nuevas tcnicas grcas relevantes para los patrones de regularidad
aleatoria dependencia y heterogeneidad.
5.1.2 Extendiendo un modelo estadstico simple
El alcance previsto del modelo estadstico simple es limitado por el con-
cepto de una muestra aleatoria; este slo se puede utilizar para modelar los
fenmenos estocsticos que exhiben independencia y homogeneidad completa
sobre t. Desafortunadamente, este es raramente el caso en los datos economi-
cos. Los datos econmicos a menudo muestran caractersticas de muestra no
aleatoria: dependencia y / o heterogeneidad. Una serie de tiempo econmica
tpica se muestra en la gura 6.1, donde los datos mensuales del ndice de
Produccin Industrial (1985 = 100) de los EE.UU, para el perodo de enero
1960 hasta mayo 1994, se gracan a travs del tiempo.
216 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.1 ndice de produccin industrial.
Usando la experiencia adquirida en el captulo anterior, podemos ver que
esta grca de tiempo exhibe una dependencia positiva en forma de ciclos
econmicos y una heterogeneidad distinta, en forma de una tendencia ascen-
dente y un posible patrn de estacionalidad.
El objetivo principal de los prximos captulos es extender el modelo
estadstico simple con el n de modelar los fenmenos observables, tales como
el comportamiento de los rendimientos de las acciones, los tipos de cambio,
la inacin y el crecimiento del PIB, lo cuales no pueden ser vistos como
realizaciones de una muestra aleatoria. El objetivo principal de este captulo
es dar el primer paso hacia la extensin del modelo estadstico simple a n
de mejorar su alcance. Este paso toma la forma de introduccin de algunas
nociones de dependencia.
5.1.3 Introduciendo una taxonoma fundamental
Uno de los temas bsicos que estn en la base de la discusin en este libro es
una clasicacin fundamental de los supuestos probabilsticos en tres grandes
categoras:
(D) Distribucin, (M) Dependencia, (H) Heterogeneidad.
Esta taxonoma se utiliza ampliamente en los captulos que siguen, tanto
pedaggicamente como por razones de fondo. Constituye uno de los temas
unicadores de la aproximacin a la inferencia estadstica y a la modelizacinque
corre a travs de este libro. La taxonoma no se supone que debe proporcionar
5.2. MUESTRA NO ALEATORIA: UNA VISIN PRELIMINAR 217
una particin del conjunto de supuestos probabilsticos; slo un grupo am-
plio. Algunas hiptesis se extienden sobre la frontera entre estas categoras
pero que no reduce la utilidad de la taxonoma.
En esta etapa es importante destacar que, en trminos de la taxonoma
anterior, un modelo estadstico simple puede ser visto como la imposicin de
supuestos extremos en dos de las tres categoras. De la categora (M) (para
memoria) se impone la Independencia y de la categora (H) homogeneidad
completa:
(D): Distribucin: distribucin arbitraria,
(M) Dependencia: variables aleatorias Independientes,
(H) Heterogeneidad: variables aleatorias Idnticamente Distribuidas.
De la misma manera podemos ver los modelos estadsticos concebidos
con mayor alcance como construidos sobre los supuestos de las tres distintas
categoras anteriores que no sean las de Independencia de la categora (M) y
Distribuciones Idnticas de la categora (H). Esto sugiere que un prerequisito
de esta ampliacin del mbito de aplicacin previsto es la disponibilidad de
las distintas nociones de dependencia y heterogeneidad ms all de los dos
casos extremos restringidos.
El concepto de modelo estadstico, en general, es de suma importancia en
la inferencia estadstica. El propsito principal de un modelo estadstico es
proporcionar un resumen adecuado de la informacin sistemtica en los datos
mediante la captura de toda la informacin estadstica sistemtica referida a
los patrones de regularidad aleatoria exhibidos por los datos.
5.2 Muestra no aleatoria: una visin prelim-
inar
Qu hace que una muestra aleatoria sea un concepto de fundamental impor-
tancia? La respuesta corta es que las hiptesis de Independencia y Distribu-
cin Idntica simplican tanto la modelizacincomo la inferencia estadstica
referentes a modelos estadsticos simples. Esta simplicacin es encapsulada
por la forma de la reduccin de la distribucin conjunta de la muestra. Para
ver esto, recordamos al lector que:
Independencia: , (r
1
. r
2
. .... r
a
; c) =
a

I=1
,
I
(r
I
;
I
) . para todo x R
a
.
Distribucin idntica: ,
I
(r
I
;
I
) = , (r
I
; ) .para todo / = 1. 2. .... :.
218 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
El resultado nal de estos supuestos es que la distribucin conjunta se
simplica enormemente por su reduccin a un producto de distribuciones
marginales univariadas (idnticas) :
, (r
1
. r
2
. .... r
a
; c)
1
=
a

I=1
,
I
(r
I
;
I
)
11
=
a

I=1
, (r
I
; ) . para todo x R
a
.
(6.1)
Observando este resultado podemos ver que el supuesto de muestra aleato-
ria simplica drsticamente la distribucin conjunta (distribucin de la mues-
tra) en dos aspectos importantes:
(i) reduccin de la dimensionalidad: , (r
1
. r
2
. .... r
a
; c) es :-dimensional
y , (r
I
; ) es uni-dimensional y
(ii) reduccin de parmetros: el nmero de parmetros desconocidos es
a menudo mucho ms pequeos que el de c.
Ejemplo
Considere el caso donde la distribucin conjunta de las variables aleatorias
(A
1
. A
2
. .... A
a
) es normal, es decir, , (r
1
. r
2
. .... r
a
; c) toma la forma:
_
_
_
_
_
_
_
A
1
A
2
A
3
.
.
.
A
a
_
_
_
_
_
_
_
~ N
_
_
_
_
_
_
_
_

_
j
1
j
2
j
3
.
.
.
j
a
_

_
o
11
o
12
o
13
. . . o
1a
o
21
o
22
o
23
. . . o
2a
o
31
o
32
o
33
. . . o
3a
.
.
.
.
.
.
o
a1
o
a2
o
a3
. . . o
aa
_

_
_
_
_
_
_
_
_
. (6.2)
En su forma actual, esta distribucin conjunta tiene por lo menos ` =
: +
1
2
[:(: + 1)] parmetros desconocidos:
:= (j
i
. o
i)
. i. , = 1. 2. ..... :) .
con medias: (1 (A
i
) := j
i
. i = 1. 2. .... :) y
1
2
[:(: + 1)] covarianzas (de-
bido a la simetra)
Co (A
i
. A
)
) = Co (A
)
. A
i
) := o
i)
. i. , = 1. 2. ..... :.
Si imponemos el supuesto de independencia de la distribucin conjunta
el resultado ser que las covarianzas son cero:
o
i)
=
_
o
ii
. para i = ,.
0. para i ,= ,
_
5.2. MUESTRA NO ALEATORIA: UNA VISIN PRELIMINAR 219
la distribucin conjunta original se reduce a:
_
_
_
_
_
_
_
A
1
A
2
A
3
.
.
.
A
a
_
_
_
_
_
_
_
~ N
_
_
_
_
_
_
_
_

_
j
1
j
2
j
3
.
.
.
j
a
_

_
o
11
0 0 . . . 0
0 o
22
0 . . . 0
0 0 o
33
. . . 0
.
.
.
.
.
.
.
.
.
0 0 0 . . . o
aa
_

_
_
_
_
_
_
_
_
.
En trminos de la reduccin (6.1), la primera igualdad es el resultado
de la imposicin de Independencia, con las densidades marginales de una
variable ,
I
(r
I
;
I
),
I
:= (j
I
. o
II
), / = 1. 2. .... :. estando:
A
I
~ N(j
I
. o
II
) . / = 1. 2. .... :. (6.4)
Esta reduccin, aunque drstica, no produce un modelo operativo, porque
hay
todava 2: parmetros desconocidos:

I
:= (j
I
. o
II
) . / = 1. 2. .... :.
que aumentan con el tamao de muestra! La imposicin del supuesto de
distribucin idntica en la segunda fase en (6.1) garantiza que:

1
=
2
= =
a
= :=
_
j. o
2
_
y por lo tanto la densidad conjunta se reduce a un producto de densidades
marginales univariadas , (r
I
; ) . := (j. o
2
) . de la forma:
A
I
~ N
_
j. o
2
_
. / = 1. 2. .... :.
NOTE la reduccin correspondiente en los parmetros desconocidos en
(6.1):
:= ((j
i
. o
i)
. i. , = 1. 2. ..... :)
I
:= (j
I
. o
II
) . / = 1. 2. .... :) :=
_
j. o
2
_
.
La reduccin anterior produce el modelo normal simple:
[i] Modelo de probabilidad:
=
_
, (r; ) =
1
o
_
2:
exp
_

(r j)
2
2o
2
_
. :=
_
j. o
2
_
R R
+
. r R.
_
220 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
[ii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Este ejemplo ilustra con mucha claridad la drstica reduccin tanto en
la dimensin como en el nmero de parmetros desconocidos lograda por
el supuesto de muestra aleatoria. De la misma manera, el ejemplo anterior
tambin se puede utilizar para indicar el tipo de dicultades que surgirn en
el caso de una muestra no aleatoria, donde uno o ambos de los supuestos no
se cumplen.
En cuanto a (6.2) nos damos cuenta de que las bendiciones anteriores en
el caso de una muestra aleatoria son maldiciones en el caso de una mues-
tra no aleatoria. Si no se imponen restricciones sobre la dependencia y la
heterogeneidad surgen dos problemas difciles:
(a) la maldicin de dimensionalidad: , (r
1
. r
2
. .... r
a
; ) es :dimensional,
(b) la maldicin de los parmetros imprevistos: el nmero de parmetros
desconocidos en , por ejemplo `, crece con el tamao muestral :.
5.2.1 Condicionalidad secuencial
Vamos a considerar en primer lugar la maldicin de la dimensionalidad. Para
los efectos de la modelizacine inferencia estadstica la alta dimensionalidad
de la distribucin conjunta es un problema difcil. La clave para disipar la
maldicin de la dimensionalidad se present en el captulo anterior en la forma
de una distribucin condicional. Se mostr que en el caso de dos variables
aleatorias arbitrarias A. 1 (denidas en el mismo espacio de probabilidad)
se cumple la siguiente relacin:
, (r. ; ) = , ([r; ,
2
) ,
a
(r; ,
1
) , para todo (r. ) R
A
R
Y
. (6.5)
NOTAS:
(i) La reduccin es simtrica con respecto a A y 1 en el sentido de que:
, (r. ; ) = , (r[;
2
) ,
j
(;
1
) , para todo (r. ) R
A
R
Y
(6.6)
(ii) , ([r; ,
2
) y , (r[;
2
), son ambas distribuciones de una variable.
(iii) La reduccin de la dimensionalidad no va acompaada de una reduc-
cin correspondiente del nmero de parmetros desconocidos . Con el n de
evitar la introduccin de una notacin engorrosa considerar un ejemplo del
caso simple de dos variables.
5.2. MUESTRA NO ALEATORIA: UNA VISIN PRELIMINAR 221
Ejemplo
Considere el caso donde las variables aleatorias (A. 1 ) estn normalmente
distribuidas, es decir, , (r. ; ) toma la forma:
_
1
A
_
~`
__
j
1
j
2
_
.
_
o
11
o
12
o
21
o
22
__
La reduccin en (6.6) toma la forma (ver captulo 4):
A~` (j
2
. o
22
) . (1 [A = r) ~`
_
,
0
+,
1
r. o
2
_
, r R
A
,
donde ,
0
:= j
1
,
1
j
2
, ,
1
:=
o
12
o
22
, o
2
= o
11

o
2
12
o
22
. Estos resultados
muestran que:
c := (j
1
. j
2
. o
11
. o
12
. o
22
) . ,
1
:= (j
2
. o
22
) , ,
2
:=
_
,
0
. ,
1
. o
2
_
.
y por lo tanto el nmero de parmetros desconocidos sigue siendo el
mismo! Esto es cierto en el caso : dimensional pero la notacin se com-
plica un poco.
Comparando (6.5) al caso en que A. 1 son independientes:
, (r. ; ) = ,
a
(r; o
1
) ,
j
(; o
2
) , para todo (r. ) R
A
R
Y
(6.8)
podemos ver que en el caso no independiente la distribucin condicional
, ([r; c) es la clave para una reduccin de una distribucin de dos variables,
a un producto de dos distribuciones univariadas.
Ejemplo
Volviendo al caso anterior, donde las variables aleatorias (A
1
. A
2
) tienen
una distribucin normal, se puede observar que:
o
12
= 0 =,
1
= 0 . ,
0
= j
1
y o
2
= o
11
.
Es decir, bajo la restriccin o
12
= 0, , ([r; ,
2
) toma la forma:
(1 [A = r) [
o
12
=0
~` (j
1
. o
11
) , r R
lo que implica que , ([r; ,
2
) [
o
12
=0
= ,
j
(; o
2
). Resulta que la restriccin
o
12
= 0 es a la vez necesaria y suciente para que la condicional se reduzca
222 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
a la distribucin marginal y por lo tanto bajo esta restriccin la distribucin
conjunta de (A. 1 ) satisface la condicin de independencia en (6.8).
La reduccin en (6.5) se puede extender fcilmente al caso de : vari-
ables con condicionalidad secuencial. Consideremos el caso de tres variables
aleatorias (A
1
. A
2
. A
3
):
, (r
1
. r
2
. r
3
; c) = , (r
3
[r
2
. r
1
;
3
) , (r
2
. r
1
; 0
1
)
= , (r
3
[r
2
. r
1
;
3
) , (r
2
. r
1
;
2
) , (r
1
;
1
) , (r
1
. r
2
. r
3
) R
3
A
donde primero condicionamos A
3
sobre (A
1
. A
2
) y luego condicionamos
A
2
sobre A
1
. En el caso general de : variables, la condicionalidad secuencial
produce:
, (r
1
. r
2
. r
3
. .... r
a
; c)
no 111
= ,
1
(r
1
;
1
)
a

I=2
,
I
(r
I
[r
I1
. .... r
1
;
I
) , x R
a
A
.
(6.9)
Esto disipa la maldicin de la dimensionalidad debido a que el lado dere-
cho es un producto de densidades de una variable pero surgen dos problemas
distintos:
(c) El conjunto de condicionalidad creciente: el nmero de variables
condicionantes cambia con el ndice en el sentido de que ,
I
(r
I
[r
I1
. .... r
1
;
I
)
tiene / 1 variables condicionantes pero el ndice cambia 1 = 2. 3. .... :, ha-
ciendo estas densidades diferentes, por ejemplo para : = 5:
, (r
2
[r
1
;
2
),
, (r
3
[r
2
. r
1
;
3
),
, (r
4
[r
3
. r
2
. r
1
;
4
),
, (r
5
[r
4
. r
3
. r
2
. r
1
;
5
).
d) El problema de condicionalidad estocstica: el lado derecho de (6.9)
es el producto de : distribuciones univariadas (: 1 condicionales y una
marginal) para todo valor de x R
a
A
, es decir, una : tupla tal para cada
valor de x R
a
A
. En la reduccin en (6.5) existe una distribucin conjunta
, (r. ; c) y una densidad marginal ,
a
(r; ,
1
), pero varias densidades condi-
cionales , ([r; ,
2
); una para cada valor de x R
A
, ya que la nocin de
densidad condicional se dene por un valor especco de la variable condicio-
nante.
Estos problemas son sintomticos de la dependencia entre las variables
aleatorias en la sucesin porque las variables aleatorias implicadas nunca
5.2. MUESTRA NO ALEATORIA: UNA VISIN PRELIMINAR 223
olvidan. El hecho de importancia es que la manera de hacer frente a am-
bos problemas es imponer algunas restricciones sobre la dependencia y la
heterogeneidad del conjunto de variables aleatorias (A
1
. A
2
. .... A
a
) (vase el
captulo 8). Con el n de convencer al lector de que necesitamos las restric-
ciones de ambas categoras, volvamos al ejemplo Normal con independencia
impuesta. La reduccin en (6.10) se simplica a:
, (r
1
. r
2
. .... r
a
; c)
1
=
a

I=1
,
I
(r
I
;
I
) . para todo x R
a
A
(6.10)
pero el problema de sobre parametrizacin permanece:
I
:= (j
I
. o
II
) . / =
1. 2. .... :. Esto es sintomtico de la heterogeneidad de la sucesin.
Atando los distintos hilos de nuestro razonamiento anterior, concluimos
que la maldicin de la dimensionalidad surgida de la nocin de muestra no
aleatoria puede ser tericamente eliminada usando condicionalidad secuen-
cial, pero esto plantea otros dos problemas (el conjunto de condicionalidad
creciente y la condicionalidad estocstica). Tambin permanece intacto el
problema de los parmetros incidentales.
5.2.2 Manteniendo un ojo en el bosque!
Nuestro objetivo en este y en los prximos dos captulos es ajardinar el ter-
ritorio ms all de variables aleatorias Independientes e Idnticamente Dis-
tribuidas (IID) mediante la introduccin de formas alternativas de dependen-
cia y heterogeneidad que nos permitan capturar los patrones de regularidad
aleatoria exhibidos por los datos de series de tiempo, como los de la gura
6.1.
La discusin preliminar en conexin con las dicultades que surgen en el
caso de muestras no aleatorias trajo el papel de varios conceptos tiles que se
reeren a las distribuciones conjunta y condicional. Dos cosas se han hecho
evidentes a partir de la discusin anterior:
(i) la clave para domesticar sucesiones no IID es la nocin de condicional-
idad y
(ii) la medicin de la dependencia tiene que ver con la relacin entre
las distribuciones conjuntas y marginales o de forma equivalente entre las
distribuciones condicionales y marginales.
El objetivo principal de este captulo es introducir algunas nociones de de-
pendencia en conexin con los pares de variables aleatorias, como preludio a
224 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
la discusin del caso general de una sucesin de variables aleatorias en el cap-
tulo 8. Se presta especial atencin a las variables aleatorias cualitativamente
diferentes. El captulo 7 se concentra en el problema de condicionalidad
estocstica y se discute la forma en que la distribucin condicional y sus mo-
mentos se pueden ampliar para hacer frente a este problema. Los conceptos
desarrollados en estos dos captulos son luego utilizados en el captulo 8 para
proporcionar una discusin sistemtica de sucesiones de variables aleatorias
en lo que respecta a la dependencia y la heterogeneidad. En otras palabras,
todos estos temas sern unidos en el captulo 8 para mostrar cmo el territo-
rio recin trazado de la jungla no IID puede ayudar a modelar los patrones
de regularidad aleatoria asociados con la dependencia y / o heterogeneidad.
5.2.3 Modelos estadsticos ms all del simple: un punto
de vista preliminar
La discusin preliminar sienta las bases para extender el modelo estadstico
simple a modelos ms generales que permitan alguna cierta dependencia y / o
heterogeneidad. Decimos cierta dependencia y / o heterogeneidad, porque los
modelos estadsticos con dependencia sin restricciones y / o heterogeneidad
son inalcanzables en el caso de datos no experimentales (observacionales).
En un intento por ser ms concretos, volvamos al ejemplo del caso en que
la distribucin conjunta de (A
1
. A
2
. .... A
a
) es normal, es decir, , (r
1
. r
2
. .... r
a
; )
toma la forma (6.2) donde := (j
i
. o
i)
. i. , = 1. 2. .... :) incluye ` = : +
1
2
:(: + 1) parmetros desconocidos. En el caso de los datos observacionales
tenemos justamente una sola realizacin de la muestra (A
1
. A
2
. .... A
a
) es
decir, : nmeros (r
1
. r
2
. .... r
a
) y no hay manera de que podamos estimar los
` parmetros desconocidos (vase el captulo 11).
En el caso de datos experimentales estamos a menudo en condiciones de
generar ms de una realizacin de la muestra, por ejemplo (r
1i
. r
2i
. .... r
ai
),
i = 1. 2. .... `. Estas realizaciones adicionales, bajo ciertas restricciones,
sern sucientes para estimar todos los ` parmetros desconocidos. Estos
mtodos, sin embargo, estn fuera del alcance de este libro que se centra en
la modelizaciny la inferencia con datos observacionales.
Volviendo a los modelos estadsticos para datos observacionales, NOTE-
MOS, como preludio a la discusin que sigue, que cada uno de estos modelos
operacionales se componen de tres componentes compatibles bsicos de las
categoras generales mencionadas en el caso del modelo estadstico simple:
5.3. DEPENDENCIAENTREDOS VARIABLES ALEATORIAS: DISTRIBUCINCONJUNTA225
( D) Distribucin: univariada arbitraria,
(M) Dependencia: Independencia, Markov, martingala, no correlacin, ...
(H) Heterogeneidad:. Distribucin idntica, estacionariedad dbil y es-
tricta, ...
Nuestra tarea principal en este y los prximos dos captulos es enriquecer
las categoras de Dependencia y Heterogeneidad con una variedad de concep-
tos entre los dos extremos de Independencia y Distribucin Idntica en un
extremo y dependencia sin restricciones y heterogeneidad en el otro extremo
del espectro. En la modelizacinel objetivo es combinar los componentes
de las tres categoras de manera coherente con el n de especicar modelos
estadsticos operativos para datos observados. El secreto de la modelizacin-
radica en la utilizacin de toda la informacin sistemtica en los datos. Qu
es sistemtica, no obstante, depende de la ecacia con la que usemos los
conceptos tericos para capturar los patrones de regularidad que llamamos
regularidad aleatoria.
5.3 Dependencia entre dos variables aleato-
rias: distribucin conjunta
Intuitivamente, la dependencia probabilstica entre dos variables aleatorias
A y 1 se reere a "cmo la informacin acerca de A nos ayuda a inferir
el valor de 1 ." Si A y 1 son perfectamente dependientes, conociendo A
nos permite inferir 1 , con probabilidad uno. En este sentido, la dependencia
perfecta proporciona una contraparte probabilstica a la nocin matemtica
de dependencia funcional, donde 1 = /(A) para alguna funcin:
/(.) : R
A
R
Y
.
Adems, la independencia ofrece una contrapartida probabilstica a la
idea de dependencia no funcional entre dos variables matemticas. La prin-
cipal diferencia es que la dependencia probabilstica, a diferencia de la de-
pendencia funcional, tiene sentido para los casos entre estos dos extremos.
La proposicin "las variables aleatorias A y 1 son altamente (pero no per-
fectamente) dependientes" es una proposicin probabilstica signicativa. La
medicin del grado de dependencia probabilstica, sin embargo, es un prob-
lema difcil y multifactico.
226 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
En el captulo 2 denimos la independencia entre dos eventos . 1, en
(o. . P(.) siendo el espacio de probabilidad correspondiente) de la sigu-
iente manera:
P( 1) = P() P(1) o P( [ 1) = P() . para P(1) 0.
Podramos fcilmente extender esto a la independencia entre cualesquiera
dos subespacios de eventos (o campos) / y E de :
P( 1) = P() P(1) . (para todos los eventos / y 1 E)
o
P( [ 1) = P() . (para todos los eventos / y 1 E) . P(1) 0.
Esta denicin se puede adaptar fcilmente al caso de dos variables aleato-
rias A y 1 denidas en (o. . P(.)) Eligiendo / := o (A) y E := o (1 ) .
donde o (A) denota el mnimo ocampo generado por A; vase el captulo
3.
En el caso donde los dos subespacios de eventos / y E no son independi-
entes (es decir, son dependientes), esto ya no es cierto y la diferencia entre
las dos partes:
|P( 1) P() P(1)| . o |P( [ 1) P()|
donde || denota cierta medida signicativa de distancia, se puede utilizar
como medida de dependencia.
Ilustraciones
Sean / y E , las siguientes son medidas de dependencia entre
ellos:
(1) c(/. E) = sup
,,1B
[P( 1) P() P(1)[ .
(2) c(/. E) = sup
,,1B
[P( [ 1) P()[ . para P(1) 0.
(3) (/. E) = sup
,,1B

P(1)P()P(1)
P()P(1)

, para P(1) 0. P() 0


Eligiendo / := o (A) y E := o (1 ) . las cantidades anteriores miden la
dependencia entre las variables aleatorias A. 1 .
5.3. DEPENDENCIAENTREDOS VARIABLES ALEATORIAS: DISTRIBUCINCONJUNTA227
Ejemplo
Consideremos de nuevo nuestro experimento aleatorio favorito de lan-
zar una moneda al aire dos veces y tomar nota de los resultados con o =
(HH). (H1). (1H). (11), el espacio de eventos siendo el conjunto potencia
de o, es decir, := T (o). Denir las variables aleatorias
A (HH) = A (11) = 0. A (H1) = A (1H) = 1.
1 (HH) = 1 (H1) = 0. 1 (11) = A (1H) = 1.
2 (HH) = 0. A (H1) = 2 (1H) = 1. 2 (11) = 2.
o (A) : =
_
o. O. .
_
. := (HH) . (11) .
o (1 ) : =
_
o. O. 1. 1
_
. 1 := (HH) . (H1) .
o (2) : =
_
o. O. C
1
. C
2
. C
3
. C
1
. C
2
. C
3
_
. C
1
:= (HH) .
C
2
: = (H1) . (1H) . C
3
:= (11) .
A partir de estos resultados podemos deducir que las variables aleatorias
A y 1 son independientes:
P( 1) =
1
4
= P() P(1) para todo o (A) y 1 o (1.)
Por otro lado, las variables aleatorias A y 2 no son independientes porque
para al menos uno de los eventos de interseccin:
P( C
1
) =
1
4
,= P() P(C
1
) =
1
8
.
Teniendo en cuenta el hecho de que las variables aleatorias A y 2 son
dependientes podemos proceder a medir su dependencia con cualquiera de
las medidas (1) - (3).
Como A, 2 son dependientes, se mide su dependencia usando cualquiera
de las medidas (1)-(3) anteriores:
228 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
1
4
= P( C
1
) = P(HH) . P() P(C
1
) =
_
1
2
_
1
4
=
1
8
.
0 = P( C
2
) = O. P() P(C
2
) =
_
1
2
_
1
2
=
1
4
.
1
4
= P( C
3
) = P(11) . P() P(C
3
) =
_
1
2
_
1
4
=
1
8
.
1
4
= P
_
C
1
_
= P(11) . P() P
_
C
1
_
=
_
1
2
_
3
4
=
3
8
.
1
2
= P
_
C
2
_
= P(HH) . P() P
_
C
2
_
=
_
1
2
_
1
2
=
1
4
.
1
4
= P
_
C
3
_
= P(HH) . P() P
_
C
3
_
=
_
1
2
_
3
4
=
3
8
.
c(o (A) . o (2)) = sup
o(A),1o(Z)
[P( 1) P() P(1)[ =
1
4
.
Las otras medidas de dependencia, tales como c(/. E) y (/. E) (A, B)
son evaluadas de manera similar.
En el captulo 4 denimos la independencia entre dos variables aleatorias
A y 1 usando la funcin de densidad conjunta de la siguiente manera:
, (r. ) = ,
A
(r) ,
Y
() . para todo (r. ) R
A
R
Y
. ((6.11))
Esta igualdad sugiere que en el caso en que las variables aleatorias A. 1 son
independientes, la distribucin conjunta contiene la misma informacin que
las dos distribuciones marginales
Ejemplo
Considere la distribucin conjunta de las variables aleatorias A y 1 an-
teriores:
r 0 1 ,
Y
()
0 0.25 0.25 0.50
1 0.25 0.25 0.50
,
A
(r) 0.50 0.50 1
((6.12))
Se puede vericar fcilmente que estas dos variables aleatorias son real-
mente independientes.
5.3. DEPENDENCIAENTREDOS VARIABLES ALEATORIAS: DISTRIBUCINCONJUNTA229
En trminos de la funcin de densidad condicional hemos denido la in-
dependencia entre dos variables aleatorias A y 1 a travs de:
, ( [ r) = ,
Y
() . para todo (r. ) R
A
R
Y
. ((6.13))
Debido a la simetra del concepto de independencia, sta puede denirse
de forma equivalente por:
, (r [ ) = ,
A
(r) . para toda (r. ) R
A
R
Y
.
En el caso donde las variables aleatorias A y 1 no son independientes,
son dependientes, (6.11) ya no es cierta; la distribucin conjunta contiene
ms informacin que las dos distribuciones marginales. La informacin adi-
cional es de hecho la informacin relativa a la dependencia entre las variables
aleatorias A y 1 . En este sentido las funciones de la forma:
|, (r. ) ,
A
(r) ,
Y
()| . o |, ( [ r) ,
Y
()| (6.14)
se pueden utilizar como medidas de dependencia basada en funciones de
densidad.
Ejemplos
1. de Hoeding:
(A. 1 ) =
__
o
o
_
o
o
[, (r. ) ,
A
(r) ,
Y
()]
2
, (r. ) drd
_
.
2. Valor absoluto anlogo a :
o
1
(A. 1 ) = 12
__
o
o
_
o
o
[, (r. ) ,
A
(r) ,
Y
()[
2
, (r. ) drd
_
.
o
2
(A. 1 ) = 12
__
o
o
_
o
o
[, (r. ) ,
A
(r) ,
Y
()[
2
,
A
(r) ,
Y
() drd
_
.
3. Distancia informacional:
/(A. 1 ) =
_
o
o
_
o
o
1:
_
, (r. )
,
A
(r) ,
Y
()
_
, (r. ) drd.
donde In denota el logartmo natural (base c); esta medida se basa en la
medida Kullback de divergencia entre dos distribuciones.
230 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
4. Coeciente cuadrtico de contingencia:
,
2
(A. 1 ) =
__
o
o
_
o
o
_
, (r. )
,
A
(r) ,
Y
()
_
, (r. ) drd 1
_
.
5. Coeciente rango de Spearman:
o (A. 1 ) = 3
_
o
o
_
o
o
[21
A
(r) 1] [21
Y
() 1] , (r. ) drd.
donde [21
A
(r) 1] es elegido en lugar de 1
A
(r) para representar la l-
tima distribucin simtrica alrededor de cero. De hecho, se puede demostrar
que para n = 1
A
(r), sea cual sea la naturaleza de 1
A
(r), la distribucin de
n es uniforme con el rango [0. 1], es decir, 1
l
(n) = n, para 0 _ n _ 1 (ver
captulo 3). Por lo tanto, la distribucin de l = [21
A
(r) 1] es uniforme
alrededor de 0, es decir,
[21
A
(r) 1] ~ l [1. 1] .
La presencia de las integrales mltiples en las medidas anteriores de de-
pendencia basadas en funciones de densidad, las hace engorrosas y muy cerca
de irrealizables en el caso de ms de dos variables aleatorias. Como argu-
mentamos en la seccin anterior necesitamos medidas de dependencia de una
sucesin de variables aleatorias (A
1
. A
2
. .... A
a
). Por otra parte la mezcla
de medidas de condicin (1) - (3), basadas en espacios de subeventos, son
ms fciles de manejar, ya que implican la maximizacin sobre conjuntos de
subconjuntos. Como se muestra en el captulo 8, la ltima medida de depen-
dencia forma la base de las llamadas condiciones mixtas sobre dependencia
temporal en una sucesin de variables aleatorias.
5.4 Dependencia entre dos variables aleato-
rias: momentos
5.4.1 Momentos conjuntos y dependencia
Medir dependencia usando distancias, como aquellas mencionadas anterior-
mente, puede ser una tarea muy difcil y por lo tanto en la modelizacina
5.4. DEPENDENCIAENTREDOS VARIABLES ALEATORIAS: MOMENTOS231
menudo recurrimos a medidas basadas en los momentos. La conexin entre
estas dos categoras de medidas de dependencia pasa a travs del siguiente
lema.
Lema de independencia. Se dice que dos variables aleatorias A. 1 son
independientes, si para cualesquiera funciones bien comportadas (Borel)
n = q (A) y = /(1 ),
, (q (A) . /(1 )) = ,
&
(q (A)) ,

(/()) . para todo (n. ) R


2
. (6.15)
En trminos simples, este resultado signica que si A y 1 son indepen-
dientes, entonces cualesquiera funciones de estas variables aleatorias, por
ejemplo n = A
2
y = 1:1 , tambin son variables aleatorias independientes.
Claramente, este lema no puede ser usado para establecer la indepen-
dencia, porque uno necesita demostrar que (6.15) se cumple para todas las
posibles funciones de Borel; una tarea imposible. Es, sin embargo, muy til
por dos razones. En primer lugar, se puede utilizar para demostrar la no
independencia encontrando un solo contraejemplo. En segundo lugar, es de
inters terico, porque despus de establecer la independencia utilizando, por
ejemplo (6.11), se puede declarar que cualesquiera funciones de Borel de las
variables aleatorias originales son tambin necesariamente independientes.
UNA PALABRA DE PRECAUCIN: hay que destacar que en el caso
de que A y 1 no sean independientes (6.15) puede ser cierta para algunas
funciones q(A) y /(1 ), como demuestra el siguiente ejemplo.
Ejemplo
Considere la distribucin conjunta que se especica a continuacin:
r 1 0 1
1 0 0.25 0
0 0.25 0.25 0
1 0 0 0.25
,
n 0 1 ,

()
1 0.25 0.25 0.50
0 0.25 0.25 0.50
,
a
(r) 0.50 0.50 1
(6.16)
A y 1 no son independientes porque:
, (1. 1) = 0 ,= ,
a
(1) ,
j
(1) = 0.062.
Sin embargo, las variables aleatorias n = A
2
y = 1
2
resultan inde-
pendiente, como puede comprobarse a partir de (6.16) (b). La moraleja de
232 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
esta historia es que incluso en los casos en que las variables aleatorias A y
1 no son independientes, es posible que existan algunas funciones de las que
resultan ser independientes.
Teniendo en cuenta el hecho de que la experanza 1 (.) est siempre
denida con respecto a una distribucin especca, no debera ser una sor-
presa saber que la condicin (6.15) puede escribirse de forma equivalente en
la siguiente forma:
1 (g(A) . /(1 )) = 1 (g(A)) 1 (/()) . (6.17)
suponiendo que las esperanzas existen. Es importante NOTAR que 1 (.)
en el lado izquierdo se dene en trminos de ,(r. ), pero los otros dos se
denen en trminos de ,
a
y ,
j
:
1 (/(A) g(1 )) =
_
o
o
_
o
o
[/(A) g(1 )] , (r. ) drd.
1 (/(A)) =
_
o
o
[/(A)] ,
A
(r) dr.
1 (g(1 )) =
_
o
o
[g(1 )] ,
Y
() d.
Utilizando este resultado en conjuncin con funciones simples de A y 1 ,
lo cual da lugar a los momentos de la distribucin conjunta, podemos denir
diferentes formas de independencia (y dependencia) en trminos del producto
conjunto y momentos centrales.
En el caso donde todos los momentos de las variables aleatorias A y 1
existen (1
_
A
I
_
< y 1
_
1
I
_
< .para todo / = 1. 2. ...), podemos usar
el lema anterior de independencia en conjuncin con los momentos producto
conjuntos para deducir que A y 1 son independientes si y slo si:
(c) j
t
In
:= 1
_
A
I
1
n
_
= 1
_
A
I
_
1 (1
n
) . para todo /. : = 0. 1. 2. ....
(6.18)
Este es, otra vez, un resultado no operacional para demostrar la inde-
pendencia, porque tenemos que vericar estas igualdades para un nmero
innito de momentos conjuntos. Sin embargo, su negacin se puede utilizar
para trazar el territorio entre las dos posiciones extremas de independencia
y dependencia completa, en el sentido de que si:
5.4. DEPENDENCIAENTREDOS VARIABLES ALEATORIAS: MOMENTOS233
1
_
A
I
1
n
_
,= 1
_
A
I
_
1 (1
n
) . para todo /. : = 1. 2. ..., (6.19)
las variables aleatorias A y 1 son dependientes de orden (/. :). De-
safortunadamente, el nico caso especial de (6.19) explorado a fondo en la
literatura es el caso (1,1):
1 (A1 ) ,= 1 (A) 1 (1 )
conocido como dependencia (lineal) de primer orden. En el caso
donde la igualdad se cumple:
1 (A1 ) = 1 (A) 1 (1 )
se llama la independencia de primer orden.
La nocin de independencia en trminos de un nmero innito de mo-
mentos se puede denir de manera equivalente en trminos de los momentos
centrales conjuntos:
(/) j
In
:= 1
_
[A (1A)]
I
[1 1 (1 )]
n
_
= 0. para todo /. : = 0. 1. 2. ...
(6.20)
Del mismo modo, podemos denir la nocin de dependencia (/. :) usando
su negacin:
1
_
[A (1A)]
I
[1 1 (1 )]
n
_
,= 0. para todo /. : = 0. 1. 2. ...
La equivalencia de las dos deniciones en trminos de los momentos pro-
ducto conjunto y centrales se puede demostrar fcilmente en el caso / = 1,
: = 1. El concepto de independencia de primer orden es equivalente a decir
que el primer momento central, la covarianza es cero:
j
11
:= 1 [A (1A)] [1 1 (1 )] = 0.
La equivalencia de las dos deniciones se deduce del hecho de que:
Co(A. 1 ) = 1(A1 ) 1 [A1(1 )] 1 [1 1(A)] +1 [1(A)1(1 )] =
= 1(A1 ) 2 [1(A)1(1 )] + [1(A)1(1 )] = 1(A1 ) [1(A)1(1 )] .
Co(A. 1 ) = 0 =1(A1 ) 1(A)1(1 ) = 0.
234 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Es interesante NOTAR que existe una relacin directa entre la covarianza
y las distancias de dependencia utilizadas en la denicin de independencia
en la seccin anterior:
Co(A. 1 ) =
_
o
o
_
o
o
[1
AY
(r. ) 1
A
(r)1
Y
()] , (r. ) drd.
Correlacin y dependencia
Una debilidad importante de la covarianza, cuando se utiliza como una
medida de dependencia entre A y 1 , es que depende de sus unidades de me-
dida. La versin estandarizada de la covarianza, conocida como coeciente de
correlacin, se propuso por primera vez por Galton (1880) como co-relacin.
Coeciente de correlacin. Para cualesquiera dos variables aleatorias
A y 1 tales que \ c: (A) < , \ c: (1 ) < , denidas en el mismo espacio
de probabilidad (o. . P(.)), el coeciente de correlacin se dene por:
Co::(A. 1 ) =
Co (A. 1 )
_
\ c:(A)\ c:(1 )
.
Ejemplo
Vamos a obtener el coeciente de correlacin entre A y 1 , usando densi-
dad conjunta 4.19 (see el captulo 4):
1 (A) = 1.1. 1 (1 ) = 0.8. \ c: (A) = 0.69. \ c: (1 ) = 0.96. Co (A. 1 ) = 0.12.
Por lo tanto, el coeciente de correlacin es:
Co::(A. 1 ) =
0.12
_
(0.69) (0.96)
= 0.147.
Propiedades del coeciente de correlacin
j
1
. 1 _ Co::(A. 1 ) _ 1.
j
2
. Co::(cA +/. c1 +d) = Co::(A. 1 ). para c. /. c. d R
4
. (c. c) 0.
j
3
. Co::(A. 1 ) 1. si y solo si 1 = c
0
+c
1
A. (c
0
. c
1
) R
2
.
La primera propiedad en relacin con el rango de valores para el coe-
ciente de correlacin se sigue de la llamada desigualdad de Schwarz:
[Co(A. 1 )[ _ [\ c:(A)]
1
2
[\ c:(1 )]
1
2
.
La segunda propiedad se sigue de la denicin del coeciente de cor-
relacin que lo invariante a transformaciones lineales. La tercera propiedad
5.4. DEPENDENCIAENTREDOS VARIABLES ALEATORIAS: MOMENTOS235
es ms complicada, pero la prueba de este resultado puede arrojar algo de
luz sobre la relacin entre dependencia en general y correlacin en particular.
Correlacin perfecta. Dos variables aleatorias A. 1 estn perfecta-
mente correlacionadas, es decir, Co::(A. 1 ) = 1, si y slo si ellas estn
linealmente relacionadas.
Prueba (la prueba puede omitirse sin prdida de continuidad). La parte
si se sigue directamente asumiendo que las variables aleatorias A y 1 estn
linealmente relacionadas:
1 = c
0
+c
1
A, c
1
0 (6.21)
Por simple lgebra y las propiedades de 1 (.) (ver captulo 3), se deduce
que:
Co(A. 1 ) = 1 [c
0
+c
1
A 1 (c
0
+c
1
A [A 1 (A)])]
= c
1
1 [A 1 (A)] [A 1 (A)] = c
1
\ c: (A) .
Teniendo en cuenta el hecho de que \ c:(1 ) = c
2
1
\ c: (r), la sustitucin
en la frmula del coeciente de correlacin proporciona:
Co::(A. 1 ) =
c
1
\ c: (A)
_
c
2
1
\ c: (r) \ c:(1 )
= 1.
NOTE que en el caso c < 0, Co::(A. 1 ) = 1. La parte solo si de
este resultado es un poco ms complicada. Suponga que Co::(A. 1 ) = 1 (el
caso Co::(A. 1 ) = 1 puede ser tratado, de manera similar) y denir las
variables estandarizadas:
A
+
=
A 1 (A)
_
\ c: (A)
, 1
+
=
1 1 (1 )
_
\ c: (1 )
.
De esto podemos deducir que:
1(A
+
1
+
)
2
= \ c: (A
+
) +\ c: (1
+
) 21 (A
+
1
+
) = 2 2 = 0.
Esto implica que P(: : A
+
(:) ,= 1
+
(:)) = 0, para todo : o (vese
captulo 3) que puede ser equivalentemente escrito en la forma:
P(: : A
+
(:) = 1
+
(:)) = 1. : o o A
+
= 1
+
. con probabilidad uno.
236 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Sustituyendo las variables originales y reordenando los trminos resulta:
1 = 1 (1 ) +
_
\ c: (1 )
\ c: (A)
_1
2
(A 1 (A)) , con probabilidad uno.
lo que coincide con (6.21) para: c
0
= 1 (1 ) c
1
1 (A), c
1
=
_
\ ov(Y )
\ ov(A)
_1
2
.
El resultado anterior sugiere que la correlacin es una medida de de-
pendencia lineal. Este hecho se pone de maniesto con mayor nfasis en el
siguiente ejemplo.
Ejemplo
Sea A uniformemente distribuida entre menos uno y ms uno, que se
denota por
A ~ l (1. 1) y 1 := A
2
.
Como podemos ver, A. 1 son perfectamente dependientes una de otra
(pero no linealmente); el conocimiento de una determina la otra completa-
mente. Podemos mostrar, sin embargo, que las dos no estn correlacionadas.
En vista del hecho de que:
,
A
(r) =
1
2
. 1(A) = 0.
Co(A. 1 ) = 1(A1 ) 1(A)1(1 ) = 1(A
3
) 1(A) 1(A
2
).
Por tanto, A. 1 no estn correlacionadas si 1(A
3
) = 0. En efecto:
1(A
3
) =
_
1
1
r
3
_
1
2
_
dr =
1
2
__
1
4
_
r
4
_
1
1
=
1
2
__
1
4
_

_
1
4
__
= 0.
En esta etapa, es imprescindible diferenciar no correlacin de indepen-
dencia. Sabemos de la discusin anterior que el coeciente de correlacin
dene una medida de dependencia lineal, no dependencia en general. Por
lo tanto, la conclusin general que podemos sacar sobre la relacin entre no
correlacin e independencia es que:
independencia = no correlacin
5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 237
pero lo inverso no es cierto:
no correlacin ;independencia
Para concluir esta seccin NOTEMOS un concepto estrechamente rela-
cionado con no correlacin, la nocin de ortogonalidad. Se dice que dos
variables aleatorias A y 1 , cuyos segundos momentos son nitos, son ortog-
onales si:
1 (A1 ) = 0
NOTE que si dos variables aleatorias no estn correlacionadas, sus desvia-
ciones medias
A
+
:= [A 1 (A)] , 1
+
:= [1 1 (1 )]
son ortogonales
1 (A
+
1
+
) = 0.
5.5 Momentos condicionales y dependencia
Volviendo a la denicin de independencia de dos variables aleatorias A. 1
en trminos de la densidad condicional:
,([r) = ,
Y
() , para todo (r. ) R
A
R
Y
(6.22)
NOTEMOS que la condicin de los momentos condicionales anloga a
(6.18) es:
1 (1
v
[A = r) = 1 (1
v
) , para todo r R
A
, : = 1. 2. ... (6.23)
Es interesante ver cmo estas igualdades surgen en el caso de indepen-
dencia.
Paso 1. De la denicin de independencia, sabemos que para cua-
lesquiera funciones bien comportadas /(.) y q (.) de las variables aleatorias
A y 1 :
1 (/(A) g(1 )) = 1 (/(A)) 1 (g(1 )) , para todo (r. ) R
A
R
Y
(6.24)
238 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Paso 2. Eligiendo las funciones:
/(A) de forma arbitraria, pero g
v
(1 ) := 1
v
, : = 1. 2. ..., (6.24) se reduce
a (suponiendo que los momentos existen):
1 (/(A) 1
v
) = 1 (/(A)) 1 (1
v
) . para todo : = 1. 2. ... (6.25)
Paso 3. En general:
1 (/(A) 1
v
) = [1 (/(A) 1
v
) [o (A)] = 1 ((/(A)) 1 (1
v
) [o (A)) (6.26)
donde la primera igualdad se sigue de la propiedad CE2: 1(1 ) = 1 [1 (1 [o (A))]
y la segunda de la propiedad CE3 de la esperanza condicional (vase el cap-
tulo 7); recordamos al lector que o (A) denota el conjunto de todos los eventos
generados por la variable aleatoria A (ver captulo 3).
Paso 4. Comparando (6.25) con (6.26) deducimos que las dos variables
aleatorias A y 1 son independientes cuando (6.23) se cumple. Al igual que
en el caso de momentos conjuntos y marginales (6.18), (6.23) no proporciona
una forma de vericar la independencia porque implica un nmero innito
de momentos. Sin embargo, como con (6.19), su negacin se puede utilizar
para trazar el territorio ms all de independencia. A diferencia de (6.19) los
momentos condicionales ofrecen una clasicacin ms sistemtica de depen-
dencia en el sentido que podemos hablar de primero, segundo, tercero, etc.
rdenes de dependencia. Esta medida de dependencia se dene en trminos
de la funcin distancia:
d
+
v
(A. 1 ) := [1 (1
v
[o (A)) 1 (1
v
)] (6.27)
o equivalentemente (vase el captulo 7):
d
j
(1 [r) := [1 (1
v
[A = r) 1 (1
v
)] , para todo r R
A
. (6.28)
Dependencia de r-simo orden. Cualesquiera dos variables aleatorias
A. 1 , cuyos momentos de r-simo orden existen y d
I
(1 [r) = 0 para todo
: = 1. 2. ...: 1 son:
dependientes de r-simo orden si: d
v
(1 [r) ,= 0, para todo r R
A
, : = 1. 2. 3. ...
5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 239
Por otro lado, las variables aleatorias A. 1 son
independientes de r-simo orden si: d
v
(1 [r) = 0, para todo r R
A
, : = 1. 2. 3. ...
Esta denicin nos permite trazar el territorio de dependencia usando este
esquema jerrquico de primero, segundo, tercero etc. orden de dependencia.
Por ejemplo, cualesquiera variables aleatorias A y 1 cuyo momento de primer
orden existe:
d
1
(1 [r) ,= 0, para todo r R
A
=A y 1 son dependientes de primer orden.
El trazado anterior de la dependencia se puede hacer de forma equivalente
en trminos de los momentos centrales de la funcin distancia:

+
v
(A. 1 ) := [1 ([1 1 (1 [o (A))]
v
[o (A)) 1 [1 1 (1 )]
v
] (6.29)
o equivalententemente:

v
(1 [r) := [1 ([1 1 (1 [A = r)]
v
[A = r) 1 [1 1 (1 )]
v
] , para todo r R
A
,
(6.30)
Por ejemplo la independencia de segundo orden se dene por:

2
(1 [r) = 0 =\ c: (1 [A = r) = \ c: (1 ) , para todo r R
A
,
En este sentido, dos variables aleatorias A y 1 pueden ser independientes
de primer orden independiente, pero dependientes de segundo orden, es decir,
1(1 [A) = 1(1 ), pero \ c:(1 [A) ,= \ c:(1 ); vase el captulo 8.
Es importante NOTAR que los momentos condicionales dan lugar a una
clasicacin mucho ms fcil de dependencia que las nociones de ndice doble
denidas en trminos de los momentos conjuntos en (6.19). Sin embargo, la
derivacin anterior con base en (6.26) sugiere que las nociones de indepen-
dencia denidas en trminos de los momentos condicionales son un poco ms
fuertes. Para ver esto consideremos el caso de dependencia de primer orden
donde (6.26) toma la forma:
240 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
1 (/(A) 1 ) = 1 [1 (/(A) 1 ) [A] = 1 (/(A)) 1 (1 [A) . (6.31)
Esto sugiere que la independencia de primer orden, es ms fuerte que la
no correlacin, porque en el caso de esta ltima la funcin / no puede ser
arbitraria, como en independencia de primer orden sino que tiene que ser
de la forma: /(A) = A. A su vez, la independencia de primer orden es
ms dbil que la independencia (completa), porque para que esta ltima se
cumpla necesitamos que todos los momentos condicionales coincidan con los
momentos marginales. En resumen:
independencia = independencia de primer orden = no correlacin.
5.5.1 Independencia condicional
Una forma importante de dependencia es la que llamamos independencia
condicional. En el contexto de un espacio de probabilidad (o. . P(.)), dos
eventos y 1 son condicionalmente independientes dado un tercer
evento 1 , para el que P(1) 0, si:
P( 1[1) = P( 1) P(1 1) .
Es decir, el conocimiento de que 1 ha ocurrido hace que los eventos y
1 sean independientes.
Las variables aleatorias A y 1 se dice que son condicionalmente inde-
pendientes dada 2, si y slo si:
,(r. [.) = ,(r[.),([.), para todo r. . . (R
A
R
Y
R
Z
) (6.32)
R
Z
:= . R : ,
Z
(.) 0 es el conjunto soporte de ,
Z
(.). Es decir, la
densidad conjunta de (A. 1. 2) se factoriza en dos densidades condicionales.
Intuitivamente, A y 1 son condicionalmente independientes dada 2, si A y
1 se relacionan nicamente con 2.
Ejemplo
Considere el caso donde (A
1
. A
2
. A
3
) se distribuyen normalmente con
distribucin conjunta denotada por:
5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 241
_
_
A
1
A
2
A
3
_
_
~`
_
_
_
_
j
1
j
2
j
3
_
_
.
_
_
o
11
o
12
o
13
o
21
o
22
o
23
o
31
o
32
o
33
_
_
_
_
(6.33)
1 (A
I
) = j
I
, \ c: (A
I
) = o
II
, / = 1. 2. 3, Co (A
i
. A
)
) = o
i)
, i ,= ,,
i. , = 1. 2. 3.
NOTE que la frmula general para la distribucin normal conjunta de A
(un vector de : 1) es:
, (x; ) =
(det

1
2
__
2:
_
a
exp
_

1
2
(x )
T

1
(x )
_
, (6.34)
1 (X) = , Co (X) =

.
Como mostramos anteriormente, la distribucin normal slo permite de-
pendencia de primer orden y por lo tanto para cualquier i ,= ,. i. , = 1. 2. 3:
o
i)
= 0 =A
i
y A
)
son independientes.
Resulta ser que la independencia condicional tambin es fcil de denir en
este contexto en trminos de la inversa de la matriz de varianzas-covarianzas:
_
_
o
11
o
12
o
13
o
21
o
22
o
23
o
31
o
32
o
33
_
_
1
=
_
_
.
11
.
12
.
13
.
21
.
22
.
23
.
31
.
32
.
33
_
_
.
para todo i ,= , ,= /. i. ,. / = 1. 2. 3:
.
i)
= 0 =A
i
A
)
son condicionalmente independientes dada A
I
.
Regresando al concepto de independencia condicional entre las variables
aleatorias A y 1 dado Z NOTEMOS que ella se puede denir de manera
equivalente por:
(M): , ([r. .) = , ([.) , para todo r. . . (R
A
R
Y
R
Z
) . (6.35)
Esta forma est directamente relacionada con el concepto ampliamente
utilizado de dependencia Markov. En el contexto de (6.35), 1 y A son
242 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
condicionalmente independientes dada 2, pero si interpretamos 1 como el
"futuro", A como el "pasado" y 2 como el "presente" (M) dice que, dado el
presente el futuro es independiente del pasado; esto se conoce como depen-
dencia Markov. Usando los puntos 0 < t
1
< t
2
< t
3
la dependencia Markov
se puede escribir en la forma:
(`) : , (r
t
3
[r
t2
. r
t1
) = , (r
t
3
[r
t2
) , para todo r
t1
. r
t2
. r
t3
R
3
A
.
Una tercera forma til de denir la independencia condicional, que no
implica ninguna referencia a las distribuciones condicionales, es:
, (r. . .) =
1
,
Z
(.)
(, (r. .) , (. .)) , para todo r. . . (R
A
R
Y
R
Z
) .
NOTA. La independencia condicional de A y 1 dado 2 se denota a
menudo por:
[A l 1 ] (2) .
Usando esta notacin podemos formular algunos resultados tiles en relacin
a la independencia condicional (ver Whittaker (1990):
(i) ([1 l (A
1
. A
2
)] [ (2)) =([1 l A
1
] [ (2)),
(ii) ([1 l (A
1
. A
2
)] [ (2)) =([1 l A
1
] [ (2. A
2
)) y ([1 l A
2
] [ (2. A
1
)),
(iii) ([1 l A] [ (2)) y l = /(A) =([1 l l] [ (2)),
(iv) ([1 l A] [ (2)) y l = /(A) =([1 l A] [ (2. l)),
donde /(.) es una funcin de Borel. NOTE que estos resultados se
mantienen sin cambios en caso de que A, 1 , 2 sean vectores aleatorios.
Un concepto relacionado con la independencia condicional, pero menos
general se dene en trminos de la covarianza de las medias condicionales.
Esto se conoce como covarianza parcial entre las variables aleatorias A y
1 dado 2 y se dene por:
Co (A. 1 [2) = 1 ([A 1 (A[2)] [1 1 (1 [2)]) .
En analoga directa con la covarianza simple, la covarianza parcial mide
independencia condicional lineal. Ya que ella comparte con su hermana la
misma dependencia de las unidades de medida, se procede a estandarizarla
para denir la correlacin parcial:
5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 243
Co:: (A. 1 [2) =
1 ([A 1 (A[2)] [1 1 (1 [2)])
_
\ c: (A[2) \ c: (1 [2)
Este mide la dependencia lineal entre dos variables aleatorias A y 1
despus de eliminar el efecto de una tercera variable aleatoria 2. Esto se
introdujo por primera vez por Yule (1897), quien lo llam coeciente de
correlacin neto.
NOTE que la correlacin parcial se relaciona con las correlaciones simples
a travs de:
j
i),I
: = Co:: (A
i
. A
)
[A
I
) =
j
i)
j
iI
j
)I
_
(1 j
2
iI
)
_
1 j
2
)I
_
.
j
i)
: =
o
i)
_
o
ii
o
))
. i ,= , ,= /. i. ,. / = 1. 2. 3.
Ejemplo
En el caso donde (A
1
. A
2
. .... A
a
) se distribuyen normalmente, discutido
anteriormente, se puede demostrar que las covarianzas condicionales coinci-
den con los elementos de la inversa de la matriz de varianzas-covarianzas, es
decir:
Co (A
i
. A
)
[A
I
) = .
i)
. i ,= , ,= /. i. ,. / = 1. 2. 3.
En vista del hecho de que para i. ,. / = 1. 2. 3. i ,= , ,= / :
j
i),I
= 0 =.
i)
= 0 deducimos que [A
i
l 1
)
] [A
I
=.
i)
= 0.
Motivados por la variedad de estructuras de dependencia entre varias vari-
ables aleatorias que se pueden ser generadas usando diferentes restricciones
de independencia condicional, una literatura llamada anlisis grco se ha
desarrollado recientemente (ver Whittaker (1990), Edwards (1995) y Pearl
(1988)). El trmino deriva del hecho de que estos modelos se representan
en forma de grcos conectando las diferentes variables aleatorias involu-
cradas. Para dar una muestra de anlisis grco vamos a considerar el caso
de las variables aleatorias con distribucin normal (A
1
. A
2
. A
3
. A
4
) con una
distribucin conjunta:
244 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
_
_
_
_
A
1
A
2
A
3
A
4
_
_
_
_
~`
_
_
_
_
_

_
j
1
j
2
j
3
j
4
_

_
.
_

_
o
11
o
12
o
13
o
14
o
21
o
22
o
23
o
24
o
31
o
32
o
33
o
34
o
41
o
42
o
43
o
44
_

_
_
_
_
_
(4.36)
donde, como antes, denotamos la inversa de la matriz de varianzas-
covarianzas por:
_

_
o
11
o
12
o
13
o
14
o
21
o
22
o
23
o
24
o
31
o
32
o
33
o
34
o
41
o
42
o
43
o
44
_

_
1
=
_

_
.
11
.
12
.
13
.
14
.
21
.
22
.
23
.
24
.
31
.
32
.
33
.
34
.
41
.
42
.
43
.
44
_

_
.
(i) Modelo 1: .
i)
,= 0, para todo i. , = 1. 2. 3; dependencia completa.
(ii) Modelo 2: .
13
= 0, A
1
condicionalmente independendiente de A
3
dada A
2
, A
4
, .
12
,= 0. .
14
,= 0. .
23
,= 0. .
24
,= 0. .
34
,= 0.
(iii) Modelo 3: .
13
= 0, .
12
,= 0. .
14
,= 0. .
23
,= 0. .
34
,= 0. .
24
= 0, A
2
condicionalmente independendiente de A
4
dados A
1
, A
3
.
(iv) Modelo 4: .
13
= 0, .
24
= 0. .
12
,= 0. .
23
,= 0. .
34
,= 0. .
14
= 0, A
1
condicionalmente independendiente de A
4
dados A
2
, A
3
.
(v) Modelo 5: .
13
= 0, .
24
= 0. .
12
,= 0. .
14
,= 0. .
23
,= 0. .
34
= 0. A
3
condicionalmente independendiente de A
4
dados A
1
, A
2
.
(vi) Modelo 6: .
13
= 0, .
24
= 0. .
14
= 0. .
34
= 0. .
12
,= 0. .
23
,= 0.
5.6 Dependencia y sistema de medida
5.6.1 Escalas de medida y dependencia
Una limitacin importante del coeciente de correlacin, como una medida de
dependencia lineal, es que la linealidad tiene sentido slo en los casos en que
la variable aleatoria en cuestin toma valores en un sistema de medicin tal
como el sistema de intervalo o el de razn. En el caso de variables aleatorias
del tipo nominal u ordinal (vase el captulo 1 y Spanos (1986), p. 409), la
linealidad no tiene mucho sentido. En el captulo 1 hablamos de la siguiente
jerarqua de escalas de medicin:
(i) razn, (ii) intervalo, (iii) ordinal, (iv) nominal.
5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 245
Como se ha dicho all, las variables de razn tienen la ms rica estructura
matemtica seguidas de las variables de intervalo, ordinal y nominal en ese
orden. Los mtodos estadsticos diseados para una categora de variables no
se aplican necesariamente a las variables de otras categoras. La nica regla
general que podemos utilizar como una gua es que un mtodo estadstico
diseado para una categora de variables se aplica tambin a las variables que
pertenecen a una categora superior, pero no necesariamente a una categora
inferior. Por ejemplo, un concepto estadstico diseado para una variable
ordinal es signicativo para las variables de intervalo y de razn, pero no
necesariamente para las variables nominales. Para variables nominales, la
nica medida de la localizacin que tiene sentido es la moda y para las
variables ordinales se puede agregar a la mediana. En cuanto a las medidas
de dispersin el rango intercuartil slo tiene sentido para variables ordinales.
Todo lo que implica la media o la varianza no tiene mucho sentido para las
variables nominales y ordinales.
La medicin de la dependencia entre las dos ltimas categoras (nominal,
ordinal) de variables aleatorias es algo problemtico, ya que no es obvio
lo que la dependencia signica en su contexto. El problema es an ms
serio cuando se mide la dependencia entre las variables de las diferentes
categoras. Estos problemas fueron reconocidos a principios del siglo 20 y se
convirti en un tema que llev a enconadas discusiones entre K. Pearson y
Yule. Yule (1900, 1910, 1912) estuvo a favor de disear medidas especcas
de asociacin entre variables discretas utilizando su carcter discreto. K.
Pearson (1910, 1913a, b), por otra parte, favoreci el uso de distribuciones
continuas para la aproximacin de la distribucin bivariada discreta para las
variables categricas y usarlas para medir asociacin; vase tambin Heron
(1911). Los argumentos de ambos lados se apasionaron y los que piensan que
la teora de la probabilidad y la inferencia estadstica son temas matemticos
sin emociones deben leer el siguiente vilipendio de K. Pearson a su ex alumno,
ayudante y compaero de trabajo:
Lamentamos tener que llamar la atencin sobre la forma en la que el
Sr. Yule se ha perdido en cada etapa de su tratamiento de la asociacin,
pero la crtica de sus mtodos ha sido lanzada sobre nosotros no slo por el
reciente ataque del Seor Yule, sino tambin por los elogios irreexivos que
han sido otorgados a un libro de texto (de Yule), que en muchos puntos slo
puede conducir a los estudiantes de estadstica irremediablemente por el mal
camino. (Pearson
y Heron (1913), p. 310).
246 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Karl Pearson no era ajeno a la controversia y despus sufri mucho a
manos de R. A. Fisher; ver los captulos 7, 11 y 13.
Figura 6.2 Modelos grcos (variables aleatorias continuas).
5.6.2 Dependencia para las variables categricas
Para variables aleatorias categricass (ordinales y nominales) el concepto
de linealidad (y por lo tanto de momentos) no tiene mucho sentido y por lo
tanto medir la dependencia lineal con la correlacin es inadecuado. La nocin
de monotonicidad, sin embargo, en el sentido de que una variable tiende a
aumentar cuando la otra aumenta (concordancia) o tiende a disminuir cuando
la otra disminuye (discordancia), tiene sentido para variables ordinales. La
denicin de dependencia entre variables nominales no es fcil porque ni
linealidad ni monotona tienen sentido.
Una de las medidas ms utilizadas de asociacin (dependencia) entre vari-
ables ordinales (ya veces nominales) es la razn producto cruzado.
Razn producto cruzado
La razn producto cruzado entre dos eventos y 1 se dene como:
:jc (. 1) =
P( 1)P( 1)
P( 1)P( 1)
.
5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 247
En el caso donde los eventos A y B son independientes: :jc = 1 o
1:(:jc) = 0.
,r r
1
r
2
,
Y
()

1
:
11
:
12
:
1

2
:
21
:
22
:
2
,
A
(r) :
1
:
2
1
La frmula anterior se puede adaptar al caso de una distribucin de dos
variables ,(r. ) donde la variables aleatorias A y 1 son variables ordinales
con slo dos valores (r
1
. r
2
y
1
.
2
, repectivamente) de la forma dada ante-
riormente. En este caso, la razn producto cruzado se dene como la razn
de los productos :
22
:
11
y :
12
:
21
de probabilidades de celdas opuestas diag-
onalmente (de ah el nombre), es decir,
:jc(A. 1 ) =
:
22
:
11
:
12
:
21
.
Utilizando esta medida, decimos que A y 1 son independientes si y slo
si:
1:(:jc(A. 1 )) = 0.
Q de Yule Q (coeciente de asociacin)
Una cercanamente relacionada medida de dependencia es la Q de Yule
(en honor del estadista belga Quetelet) denida por (ver Yule (1900)):
Q =
:
11
:
22
:
12
:
21
:
11
:
22
+:
12
:
21
.
Ejemplos
(i) Considere el caso donde :
11
= 0.3. :
12
= 0.1. :
21
= 0.2 y :
22
=
0.4. :jc(A. 1 ) =
(0.4)(0.3)
(0.1)(0.2)
= 6, y teniendo en cuenta el hecho de que
1:(:jc(A. 1 )) = 1.792, podemos deducir que A y 1 no son independientes.
Esto es conrmado por la Q de Yule:
Q =
(0.3) (0.4) (0.1) (0.2)
(0.3) (0.4) + (0.1) (0.2)
= 0.07.
(ii) Considere el caso donde :
11
= 0.2. :
12
= 0.3. :
21
= 0.2 y :
22
= 0.3.
En vista de la hecho de que:
248 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
:jc(A. 1 ) =
(0.3) (0.2)
(0.3) (0.2)
= 1 y 1:(:jc(A. 1 )) = 0
podemos concluir que la razn productos cruzado conrma la indepen-
dencia mostrada en trminos de la funcin de densidad conjunta (vase el
captulo 4). Esto se ve conrmado por la Q de Yule:
Q =
(0.3) (0.2) (0.3) (0.2)
(0.3) (0.2) + (0.3) (0.2)
= 0.
Coeciente Gamma
La Q de Yule se puede extender a variables ordinales que tengan ms de
dos valores notando que

c
= :
11
:
22
puede ser pensado como una medida
de concordancia y

o
= :
12
:
21
como una medida de discordancia. Dos
variables aleatorias A e 1 se dice que son concordantes si la unidad de
mayor jerarqua con respecto a A tambin jerarquiza ms alto con respecto
a 1 , y discordantes si la unidad de mayor jerarqua en A jerarquiza inferior
en 1 . En el caso donde A toma : valores y 1 toma : valores, podemos
utilizar las siguientes medidas:
Concordancia :

c
= 2

n
i=1

a
)=1
:
i)
_

Ii

I)
:
II
_
.
Discordancia :

o
= 2

n
i=1

a
)=1
:
i)
_

Ii

I<)
:
II
_
.
Usando estas medidas podemos decir que la asociacin (dependencia)
entre A y 1 es positiva si (

o
) 0 y negativa si (

o
) < 0. Una
versin a escala de la distancia (

o
) es el llamado coeciente Gamma,
introducido por Goodman y Kruskal (1954)), y se dene por:
=
(

o
)
(

c
+

o
)
. donde 1 _ _ 1.
Al igual que el coeciente de correlacin, si [[ = 1 las dos variables
aleatorias estn perfectamente asociadas Adems, al igual que el coeciente
de correlacin, si = 0 las dos variables aleatorias no son necesariamente
independientes. Independencia, sin embargo, implica que = 0.
Ejemplo
5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 249
Considere la funcin de densidad conjunta representada en (6.37), donde
A denota el grupo de edad y 1 el grupo de ingresos:
A = 1 : (18 35) . A = 2 : (36 55) . A = 3 : (36 70) .
1 = 0 : pobre, 1 = 1 : ingreso medio, 1 = 2. rico.
r 1 2 3 ,
Y
()
0 0.20 0.10 0.15 0.45
1 0.10 0.25 0.05 0.40
2 0.01 0.06 0.08 0.15
,
A
(r) 0.31 0.41 0.28 1
(6.37)
Considere la evaluacin del coeciente de concordancia:
i = 0. , = 1 : :
01
_

I0

I1
:
II
_
= 0.20 (0.25 + 0.05 + 0.06 + 0.08) = 0.088.
i = 0. , = 2 : :
02
_

I0

I2
:
II
_
= 0.10 (0.05 + 0.08) = 0.013.
i = 1. , = 1 : :
11
_

I1

I1
:
II
_
= 0.10 (0.06 + 0.08) = 0.014.
i = 1. , = 2 : :
12
_

I1

I2
:
II
_
= 0.25 (0.08) = 0.020.

c
= 2 (0.088 + 0.013 + 0.014 + 0.020) = 0.270.
El coeciente de discordancia:
i = 0. , = 2 : :
02
_

I0

I<2
:
II
_
= 010 (0.10 + 0.01) = 0.011.
i = 0. , = 3 : :
03
_

I0

I<3
:
II
_
= 0.15 (0.10 + 0.25 + 0.01 + 0.06) = 0.063.
i = 1. , = 2 : :
12
_

I1

I<2
:
II
_
= 0.25 (0.01) = 0.0025.
i = 1. , = 3 : :
13
_

I1

I<3
:
II
_
= 0.05 (0.01 + 0.06) = 0.0035.

o
= 2 (0.011 + 0.063 + 0.0025 + 0.0035) = 0.160.
Por lo tanto,
=
(

o
)
(

c
+

o
)
=
0.270 0.160
0.270 + 0.160
= 0.2558.
es decir, existe una baja dependencia positiva entre ingresos y edad.
250 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
5.6.3 Dependencia entre variables nominales
Como se mencion anteriormente la denicin de dependencia entre las vari-
ables nominales no es fcil porque ni linealidad ni monotonicidad tienes sen-
tido. La nica nocin de dependencia que podemos adoptar en este contexto
es en trminos de:
cmo el conocimiento de la clasicacin de la variable aleatoria A nos
puede ayudar a conjeturar la clasicacin de la variable aleatoria 1 ?
La incertidumbre de conjeturar la clasicacin de 1 sin la ayuda de
A se mide por la varianza de 1 : \ c:(1 ). Esta incertidumbre cambia a
\ c:(1 [A = r
1
) para un valor especco r
1
de la variable condicional. Dado
que la variable aleatoria A toma ms de un valor, tomamos el promedio de
estos valores de varianza condicional, es decir, 1(\ c:(1 [A)), llevando a la
medida estandarizada:
\ c: (1 ) 1(\ c:(1 [A))
\ c: (1 )
= 1
1(\ c:(1 [A))
\ c: (1 )
.
Esta razn ha sido utilizada por Goodman y Kruskal (1954), en relacin
con la tabla de contingencia (densidad bivariado) dada a continuacin:
r r
1
r
2
r
3
r
a
,
j
()

1
:
11
:
12
:
13
:
1a
:
1
.

2
:
21
:
22
:
23
:
2a
:
2
.

3
:
31
:
32
:
33
:
3a
:
3
.

n
:
n1
:
n2
:
n3
:
na
:
n
.
,
a
(r) :.
1
:.
2
:.
3
:.
a
1
donde la varianza de 1 toma la forma:
\ c: (1 ) =
n

I=1
:
I
. (1 :
I
.) = 1
n

I=1
:
2
I
.,
y la varianza condicional dado que A = r
I
es:
\ c: (1 [A = r
I
) = 1
n

I=1
:
2
I
.[/, :
I[I
=
:
II
:.
I
, / = 1. 2. .... :.
5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 251
1 (\ c: (1 [A)) =
a

I=1
:.
I
_
1
n

I=1
:
2
I
[/
_
= 1
a

I=1
n

I=1
:
2
II
:.
I
,
para sugerir la llamada tau de Goodman y Kruskal (o coeciente de con-
centracin):
t =
a

I=1
n

I=1

2
II
.
I

n

I=1
:
2
I
1
n

I=1
:
2
I
.
Theil (1950), utiliza una medida alternativa de dispersin basada en la
entropa:
\ (1 ) =
n

I=1
:
I
.1: :
I
.
propuso el coeciente de incertidumbre:
l =
a

I=1
n

I=1
:
II
1:(:
II
,:
I
. :.
I
)
n

I=1
:
I
. 1::
I
.
Ambos, coecientes de concentracin e incertidumbre son medidas de
dependencia que toman valores entre cero y uno; t = 0, l = 0 implica que
las variables aleatorias A. 1 son independientes.
A n de formular medidas necesitamos la nocin de condicionalidad in-
troducida en el captulo siguiente, donde se discuten una serie de medidas
adicionales de dependencia. El principal argumento del prximo captulo es
que la mejor manera de manejar la dependencia y las funciones de densi-
dad conjunta es a travs de la nocin de condicionalidad y distribuciones
condicionales.
252 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
5.6.4 La distribucin de Bernoulli
La distribucin de Bernoulli se puede utilizar para modelar tanto variables
ordinales como nominales y el modelador debe decidir cundo usar las me-
didas para evaluar la dependencia entre variables. La funcin de densidad
Bernoulli de dos variables toma la forma:
, (r. ) = j (0. 0)
(1j)(1a)
j (0. 1)
(1j)a
j (1. 0)
j(1a)
j (1. 1)
aj
, r = 0. 1, = 0. 1.
con las distribuciones marginales y condicionales siendo otra vez Bernoulli:
,
a
(r) = [j (0. 0) +j (1. 0)]
(1a)
[j (0. 1) +j (1. 1)]
a
, r = 0. 1,
,
j
() = [j (0. 0) +j (0. 1)]
(1j)
[j (1. 0) +j (1. 1)]
j
, = 0. 1,
De particular inters es la forma loglineal de la densidad de conjunta que
es:
1:, (r. ) = 1: j (0. 0) +1:
j (1. 0)
j (0. 0)
+r1:
j (0. 1)
j (0. 0)
+r1:
j (1. 1) j (0. 0)
j (1. 0) j (0. 1)
= n
0
+n
1
+rn
2
+rn
12
, r = 0. 1, = 0. 1,
en una notacin obvia. Esto ltimo es conocido como la expansin de
loglineal y notemos que el trmino n
12
es simplemente el logartmo de la
razn producto cruzado:
n
12
:= 1:(:jc (r. )) = 1:
j (1. 1) j (0. 0)
j (1. 0) j (0. 1)
.
Cuando n
12
= 0 decimos que las variables aleatorias Bernoulli A y 1 son
independientes.
Los resultados anteriores se puede extender a la distribucin Bernoulli de
tres variables, cuya funcin de densidad (en analoga directa con la de dos
variables) toma la forma:
, (r. . .) = j (0. 0. 0)
(1j)(1a)(1:)
j (1. 1. 1)
aj:
, r = 0. 1, = 0. 1, . = 0. 1.
Su forma loglineal es:
5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 253
1:, (r. . .) = 1: j (0. 0) +1:
j (1. 0)
j (0. 0)
+r1:
j (0. 1)
j (0. 0)
+r1:
j (1. 1) j (0. 0)
j (1. 0) j (0. 1)
= n
0
+n
1
+rn
2
+.n
3
+rn
12
+.n
13
+r.n
23
+r.n
123
,
donde, como antes, los ns representan trminos de interaccin:
n
23
:= 1:(:jc (A. 2[1 = 0)) . n
123
:= 1:
(:jc (A. 2[1 = 1))
(:jc (A. 2[1 = 0))
.
:jc (A. 2[1 =
1
) =
j (
1
. 1. 1) j (
1
. 0. 0)
j (
1
. 1. 0) j (
1
. 0. 1)
, para
1
= 0. 1.
Usando esta representacin podemos denir independencia condicional
en trminos de los trminos u. Las variables aleatorias A y 2 son condi-
cionalmente independientes dado 1 , denotado por ([A l 2][1 ), si y slo
si:
n
23
= 0 y n
123
= 0,
o de manera equivalente:
:jc (A. 2[1 =
1
) = 1 para = 0. 1.
Para concluir esta seccin es importante sealar que los valores numricos
de los trminos de interaccin n
i)
, i. , = 1. 2. 3 y n
123
no son de inters
intrnseco; el inters bsico se encuentra en lo ellos implica en trminos de la
estructura de dependencia entre las variables aleatorias en cuestin. Usando
los modelos grcos introducido en la seccin anterior podemos ver cmo
ellos identican esta estructura de dependencia.
Modelo 1: n
123
= 0. n
i)
,= 0 para i. , = 1. 2. 3.
Modelo 2: n
123
= 0. n
13
= 0. n
23
,= 0. n
12
,= 0. ([A l 2][1 ).
Modelo 3: n
123
= 0. n
13
= 0. n
23
= 0. n
12
,= 0. ([A l 2][1 ). ([1 l 2][1 ).
254 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.3 Modelos grcos (variables aleatorias discretas).
NOTE que los nodos en el caso de variables aleatorias discretas no son
ya crculos, sino discos; para ms discusin sobre modelos grcos vase
Edwards (1995) y Lauritzen (1996).
5.6.5 Dependencia en variables aleatorias mezcladas
(discretas / continuas)
La discusin de la dependencia en este captulo tiene un punto de enfoque:
la dependencia est inextricablemente ligada a la distribucin conjunta de
las variables aleatorias involucradas.
En los casos en que todas las variables aleatorias involucradas son disc-
retas o continuas, no surgen problemas porque podemos usar distribuciones
conjuntas discretas y continuas, respectivamente, para describir la dependen-
cia. Los problemas surgen en el caso donde algunas de las variables aleatorias
son discretas y las otros son continuas y el modelador considera el problema
de la dependencia entre estas variables aleatorias.
Como se ha dicho en el captulo 4, la funcin de densidad conjunta de
(A. 1. 2), donde (A. 1 ) son variables aleatorias continuas y 2 es una vari-
able aleatoria discreta puede ser mejor denida indirectamente a travs del
producto:
, (r. . .) = , (r. [.) ,
:
(.) para todo r. . . (R
A
R
Y
R
Z
)
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 255
Del mismo modo, la funcin de distribucin acumulada conjunta se dene
a travs de:
1 (r. . .) =

:
I
:
,
:
(.
I
) =
a
_
o
j
_
o
, (r. [.
I
) dnd.
Esto sugiere con mayor claridad que en el caso de una mezcla de vari-
ables aleatorias continuas y discretas la estructura de dependencia entre ellas
debe ser mejor acomodada en el contexto de los momentos condicionales de
,(r. [.). Motivados por esta observacin Lauritzen y Wermuth (1989) in-
trodujeron la llamada distribucin condicional Gaussiana, que en el caso de
las variables aleatorias (A. 1. 2), la densidad condicional ,(r. [.) toma la
forma:
__
A
1
_
[2 = .
_
~`
__
j
1
(.)
j
2
(.)
_
.
_
o
11
(.) o
12
(.)
o
21
(.) o
22
(.)
__
. . R
Z
. (6.38)
Es decir, los momentos de la distribucin conjunta de (A. 1 ) se supone
que son funciones de la variable condicionante; en el espritu de las funciones
momento condicionales. Las formas funcionales que deberan ser postuladas
por un modelador para:
j
i
(.) . o
i)
(.) . i. , = 1. 2,
no es una cuestin trivial, ya que se reere a la parametrizacin de la
dependencia entre variables de distintas escalas de medicin. Cualquiera que
piensa que esto es un juego de nios deben reexionar un momento sobre el
problema de la parametrizacin de la dependencia (posible) entre los ingresos
de la familia y la religin!
5.7 Distribuciones conjuntas y dependencia
Como se sugiri anteriormente, las distribuciones conjuntas constituyen la
forma por excelencia de modelar la dependencia. En este sentido los avances
en la modelacin de diferentes tipos de dependencia se basa fundamental-
mente en el desarrollo de tales distribuciones conjuntas. Desafortunada-
mente, el camino de la distribucin marginal a las distribuciones conjuntas
256 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
es traicionero. Hay un nmero innito de distribuciones conjuntas (multi-
variadas) distribuciones con las mismas distribuciones marginales! En este
sentido no hay manera sistemtica (generalmente aplicable) para especicar
distribuciones multivariadas. Algunos de los intentos ms notables para es-
pecicar la distribucin bivariada y multivariada se resumen en esta seccin.
Los primeros intentos para generar distribuciones conjuntas no Normales
fueron hechos por Karl Pearson a nales de 1890. Su xito en la generacin
de una familia muy rica de distribuciones de una variable, que hoy llamamos
la familia Pearson, utilizando una ecuacin diferencial (vanse los captulos
4, 13), le anim a tratar de extender el mtodo a dos ecuaciones diferenciales:
J1:, (r. )
Jr
=
/
3
(r. )
/
4
(r. )
, donde /
3
(r. ) , /
4
(r. ) son polinomios de tercer y cuarto grado,
J1:, (r. )
Jr
=
g
3
(r. )
g
4
(r. )
, y g
4
(r. ) = /
4
(r. ) .
Result ser que, sin restricciones sobre los coecientes de los tres poli-
nomios ningn progreso era posible. Progresos importantes a lo largo de estas
lneas fueron hechos por Pretorius (1930) y luego por Van Uven (1947,1948)
quienes simplican tales ecuaciones a:
J1:, (r. )
Jr
=
/
1
(r. )
/
2
(r. )
, donde /
1
(r. ) , /
1
(r. ) son polinomios de 1

y 2

grado,
J1:, (r. )
Jr
=
g
1
(r. )
g
2
(r. )
, sujeto a
J
2
1:, (r. )
JrJ
=
J
J
_
/
1
(r. )
/
2
(r. )
_
=
J
J
g
1
(r. )
g
1
(r. )
.
Los siguientes casos especiales resultaron ser de especial inters (ver Mar-
dia (1970) para los detalles):
(1) /
2
(r. ) y g
2
(r. ) no tienen factores comunes (como polinomios),
(2) /
2
(r. ) y g
2
(r. ) tienen un factor comn,
(3) /
2
(r. ) y g
2
(r. ) son idnticos y
(4) g
2
(r. ) es un factor lineal de /
2
(r. ).
Caso 1. Nos proporciona las condiciones sucientes para la independen-
cia entre A y 1 ; sin factores comunes implica que:
, (r. ) = ,
a
(r) ,
j
() .
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 257
Caso 2. Asumiendo que /
2
(r. ) = /
12
(r. ) | (r. ) y g
2
(r. ) =g
12
(r. ) | (r. )
donde todos los polinomios del lado derecho son de grado uno, se produce
una distribucin conjunta de la forma general:
, (r. ) = c
0
(cr +,)
0
1
( +o)
0
2
(cr +/ +c)
0
3
.
Esta distribucin conjunta incluye la Beta bivariada, Pareto y distribucin
F (vase el apndice B) como casos especiales.
Caso 3. Asumiendo que /
2
(r. ) =g
2
(r. ), da lugar a una distribucin
conjunta de la forma:
, (r. ) = c
0
_
cr
2
+/
2
+ 2o
1
r + 2o
2
r + 2o
3
+c
_
n
.
Esta distribucin conjunta incluye la bivariada de Cauchy, la t de Stu-
dent y la distribucin de Pearson tipo II (vase el apndice B) como casos
especiales.
Caso 4. Asumiendo que /
2
(r. ) = /
12
(r. ) | (r. ) y g
2
(r. ) = | (r. ),
da lugar a una distribucin conjunta de la forma general:
, (r. ) = c
0
(cr +,)
0
1
c
02j
(cr +/ +c)
0
3
.
Esta distribucin conjunta incluye la distribucin Gamma bivariada (McKay)
(vase el apndice B) como un caso especial.
Varios otros mtodos para generar distribuciones conjuntas, tales como
la expansin bivariada Edgeworth y el mtodo de traduccin, resultan ser
slo de un valor marginal; ver Mardia (1970) para una excelente discusin.
La manera menos efectiva de crear distribuciones conjuntas es tomar combi-
naciones lineales de distribuciones marginales. El primero en proponer este
mtodo fue Steensen (1922). Asumiendo que las dos variables aleatorias
independientes (2
1
. 2
2
) tienen densidades marginales ,
1
(.
1
) y ,
2
(.
2
), l con-
sider la distribucin conjunta de las transformaciones lineales:
A = c
1
2
1
+/
1
2
2
+c
1
. 1 = c
2
2
1
+/
2
2
2
+c
2
.
Considerando el hecho de que la transformacin inversa es:
2
1
= A +c1. 2
2
= 1 +/A,
la densidad conjunta toma la forma general (ver captulo 11):
, (r. ) = [c/ 1[ ,
1
(r +c) ,
2
( +/r) .
258 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Esta es la forma ms ecaz para generar distribuciones conjuntas porque
por construccin, la nica forma de dependencia incorporada en la distribu-
cin conjunta es la de dependencia lineal (correlacin). Como se ha dicho
anteriormente, sin embargo, la dependencia lineal que caracteriza la depen-
dencia distribution relacionada con distribucin nicamente en el caso de la
distribucin normal.
Varias extensiones de este resultado restringido se han sugerido en la lit-
eratura. Para nes de referencia, resumimos los ms importantes de estos
resultados. Sea 1(r. ), 1
A
(r) y 1
A
(r) las distribuciones conjunta y mar-
ginales de las variables aleatorias A y 1 . Las distribuciones marginales estn
dadas y el modelador las combina en una variedad de formas para construir
la distribucin conjunta.
1. Frechet (1951):
1 (r. ) = , max (0. 1
A
(r) . 1
Y
() 1)+(1 ,) min (1
A
(r) . 1
Y
()) . 0 _ , _ 1.
2. Morgenstern (1956):
1 (r. ) = 1
A
(r) 1
Y
() [1 +c (1 1
A
(r)) (1 1
Y
())] . c [1. 1] .
3. Gumbel (1960):
(1:1 (r. ))
n
= (1:1
A
(r))
n
+ (1:1
Y
())
n
. : _ 1.
4. Plackett (1965): 1(r. ) es la solucin de la ecuacin:
1 (r. ) (1 1
A
(r) 1
Y
() +1 (r. )) = c(1
A
(r) 1 (r. )) (1
Y
() 1 (r. )) . c 0.
5. Ali, Mikhail y Haq (1978):
1 (r. ) =
1
A
(r) 1
Y
()
[1 c (1 1
A
(r)) (1 1
Y
())]
. c [1. 1] .
Como podemos ver, la distribucin de dos variables en todos estos casos se
construye con un parmetro que conecta las distribuciones marginales. Esto
es claramente de alcance limitado porque la dependencia es ahora capturada
por este nico parmetro que es a menudo relacionado con el coeciente de
correlacin.
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 259
El mtodo ms ecaz para formular distribuciones conjuntas es por gen-
eralizacin directa de densidades univariadas en los casos donde la forma
funcional de la funcin de densidad permite la sustitucin de una variable
aleatoria con un vector aleatorio como es el caso de la familia de distribu-
ciones simtricas elpticamente discutidas a continuacin. Esto se debe a
que todas las caractersticas de las distribuciones univariadas se extienden
naturalmente a la conjunta y la dependencia no se restringe articialmente.
La evaluacin de la situacin actual por el autor es que debemos centrar
nuestra atencin en el desarrollo de nuevas familias paramtricas de distribu-
ciones conjuntas con miras a ampliar los conceptos existentes de dependencia
relacionada con la distribucin.
5.7.1 Dependencia y la distribucin normal
El primer intento de desarrollar una distribucin conjunta con objeto de cap-
tar la dependencia observada en un conjunto particular de datos fue realizado
por Galton (1886) con la ayuda de su amigo matemtico Dickson. Es instruc-
tivo referirse a la manera en la que Galton tropez con la distribucin normal
bivariada, porque constituye un ejemplo inicial importante de cmo los pa-
trones en los datos observados pueden ser utilizados para la construccin de
conceptos matemticos en un intento de modelarlos. Al examinar los datos
observados de la altura medias de los padres (r) y sus descendientes (),
Galton traz un diagrama de dispersin (los datos (r
1
. r
2
. .... r
a
) se gracan
contra (
1
.
2
. ....
a
); vase ms adelante) y observ ( por su propia cuenta):
que las lneas trazadas a travs de las entradas del mismo valor forman una
serie de elipses concntricas y similares ... (Galton (1885), p. 255).
Es decir, el diagrama de dispersin de las dos series de datos mostraron
una clara forma elptica, que en un examen ms detallado revel que al
recoger los puntos de datos con la misma frecuencia relativa ellos formaron
formas elpticas concntricas. Esta es una notable pieza de trabajo de de-
tective que ejemplica la destreza de observacin de Galton. Su primera
reaccin fue utilizar estas elipses concntricas con el n de construir la su-
percie de dos variables (la curva de frecuencia conjunta) que est detrs
de ellos. Sabiendo que sus habilidades matemticas eran inadecuadas para
la tarea l llam a su amigo Dickson (un matemtico de la Universidad de
Cambridge). El resultado, publicado como un apndice en Galton (1886),
fue la densidad normal de dos variables:
260 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
, (r. ; ) =
(1 j
2
)

1
2
2:
_
o
11
o
22
(6.39)
exp
_

(1 j
2
)
1
2
_
_
j
1
_
o
11
_
2
2j
_
j
1
_
o
11
__
r j
2
_
o
22
_
+
_
r j
2
_
o
22
_
2
__
(5.1)
donde los parmetros desconocidos := (j
1
. j
2
. o
11
. o
22
. j) estn rela-
cionados con los momentos a travs de:
j
1
: = 1 (1 ) , j
2
:= 1 (A)
o
11
: = \ c: (1 ) . j := Co:: (A. 1 ) . o
22
:= \ c: (A) .
Utilizando esta distribucin bivariada Galton lleg a desarrollar los con-
ceptos de regresin (vase el captulo siguiente) y de correlacin. Como
mostramos en el captulo 4, las densidades marginal y condicional son tam-
bin normales (pero univariadas por supuesto). Usando la notacin para la
distribucin normal bivariada, introducida en el captulo 4:
_
A
1
_
~`
__
j
1
j
2
_
.
_
o
11
o
12
o
21
o
22
__
.
donde el coeciente de correlacin se puede expresar en forma j =
o
12
_
o
11
o
22
,
deducimos que:
(a) 1 ~ ` (j
1
. o
11
) . (1 [ A = r) ~ ` (,
0
+,
1
r. o
2
1
) .
(b) A ~ ` (j
2
. o
22
) . (A [ 1 = ) ~ ` (c
0
+c
1
r. o
2
2
) .
,
0
:= j
1o
1
j
2
. ,
1
:=
o
12
o
22
. o
2
1
:= o
11

o
2
12
o
22
.
c
0
:= j
2c
1
j
1
. c
1
:=
o
12
o
11
. o
2
2
:= o
22

o
2
12
o
11
.
La normal multivariada es, con mucho, la distribucin conjunta ms uti-
lizada en la modelizacinemprica. Debido a su papel dominante en la in-
ferencia estadstica es importante examinar la estructura de dependencia de
esta distribucin con los conceptos desarrollados en las secciones anteriores.
En lo que al orden de la dependencia se reere, argumentamos que la forma
ms directa de evaluarla es a travs de los momentos condicionales. En el
caso de la distribucin normal bivariada sabemos que:
(a) 1 (1 [ A = r) = ,
0
+,
1
r.
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 261
(b) 1 [(1 1 (1 [ A = r))
v
[ A = r] =
_
0. para : par,
v!o
r
1
(0.5v)!2
0.5r
. para : impar
_
.
En particular, \ c: (1 [ A = r) = o
2
1
. En vista de las parametrizaciones
involucradas podemos ver que en el caso donde j = 0 (o
12
= 0), todos los
momentos condicionales coinciden con los momentos marginales:
(a) 1 (1 [ A = r) [
j=0
= j
1
.
(b) 1 [(1 1 (1 [ A = r)
v
[ A = r)] [
j=0
=
_
0. para : par,
v!o
0.5r
1
(0.5v)!2
0.5r
. para : impar
_
Esto sugiere que cuando el coeciente de correlacin es cero las dos vari-
ables aleatorias son independientes, es decir:
para A y 1 conjuntamente normales, j = 0 =A. 1 son independientes.
(ver captulo 4). Esto es claramente una excepcin a la regla general
mencionada en el captulo 4 que la no correlacin no implica independencia.
La intuicin detrs de esta excepcin es que la nica forma de dependencia
que se puede describir utilizando la distribucin normal es la dependencia
lineal. En otras palabras, dependencia en el contexto de la distribucin
normal conjunta se encapsula en el parmetro coeciente de correlacin j (o
equivalente o
12
).
Desde el punto de vista de la modelizacines importante NOTAR la
relacin entre el coeciente de correlacin y la forma de la densidad nor-
mal conjunta. Con el n de tener alguna idea de cmo cambia la forma con
el valor de j, vamos a comparar la densidad conjunta en la gura 6.4, donde
j = 0 con la dada en la gura 6.5, donde j = 0.8. La dependencia toma
la forma de una densidad conjunta "aplastada". Este efecto puede ser visto
fcilmente en los contornos de igual probabilidad insertados (un mapa bivari-
ado de la densidad), que son circulares en el caso j = 0 y elipses en el caso
de j ,= 0. NOTE que los contornos de igual probabilidad son la contraparte
terica de la nocin de Galton en trminos de frecuencia relativa. De los
grcos anteriores, es evidente que cuanto ms aplastada es la densidad (y
las elipses) mayor la correlacin.
262 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.4 Densidad normal con j = 0.
Figura 6.5 Densidad normal con j = 8.
La grca de los contornos de igual probabilidad es de particular inters
en relacin con grcas de datos reales (ver seccin 6) y vale la pena echar un
vistazo ms de cerca. Se llaman contornos de igual probabilidad (equiproba-
bilidad) porque toda elipse de la siguiente forma:
_
_
j
1
_
o
11
_
2
2j
_
j
1
_
o
11
__
r j
2
_
o
22
_
+
_
r j
2
_
o
22
_
2
_
= c
i
, i = 1. 2. ....
(6.40)
representa un conjunto de puntos con la misma probabilidad. Intuiti-
vamente, pueden ser pensados como siendo creados rebenando la supercie
tridimensional de la densidad, paralela al plano r a la misma distancia,
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 263
por ejemplo (0. 001), (0.02), (0.04). .... (0. 18), y dibujado la forma exterior
elptica de las rebanadas comenzando con la ms baja fuera de (0.001) y ter-
minando con la ms alta (0.18) representando la ltima rebanada que incluye
el pico. En este sentido, el contorno de las grcas de igualdad tiene mucho
en comn con las lneas de contorno de los mapas ordinarios representando
una supercie montaosa tridimensional en un mapa de dos dimensiones. En
ambos casos el mapa surge proyectando las rebanadas de igual elevacin de
una supercie tridimensional sobre un diagrama bidimensional. Al igual que
con las lneas de contorno del mapa, cuanto ms cerca de los contornos ms
ntida ser la elevacin.
En las guras 6.6 y 6.7 se pueden ver los contornos de igual probabilidad
de una densidad normal bivariada con correlacin j = 0.5 y j = 0.5, re-
spectivamente. Observando la grca de los contornos de igual probabilidad
debemos ser capaces de visualizar la supercie tridimensional. Si compara-
mos la grca de contorno en la gura 6.6 con la de la gura 6.7 podemos
ver que son diferentes en trminos de su orientacin, la pendiente del eje
principal de las elipses en la gura 6.6 es positiva, mientras la de la gura
6.7 es negativa.
Figura 6.6 Contornos de la densidad normal con j = 0.5.
Figura 6.7 Contornos de la densidad normal con j = 0.5.
5.7.2 Dependencia y la familia elpticamente simtrica
Desconocidos por Galton los mismos contornos de equiprobabilidad (6.40) se
pueden utilizar para generar toda una familia de distribuciones simtricas,
264 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
conocida como la familia elpticamente simtrica (seeKelker (1970)), que in-
cluye la normal como un caso especial. La forma bivariada de estas distribu-
ciones depende de (a) la forma cuadrtica generando las elipses concntricas
| (r. ) =
_
j
1
_
o
11
_
2
2j
_
j
1
_
o
11
__
r j
2
_
o
22
_
+
_
r j
2
_
o
22
_
2
.
y (/) del determinante de

:=
_
o
11
o
12
o
12
o
22
_
donde det (

) = o
11
o
22
o
2
12
= [(1 j
2
) o
11
o
22
] .
La forma genrica de esta familia en general se puede escribir como:
, (r. ; ) = c
0
o det
_

_
/(| (r. ))
donde o (.) y /(.) son funciones positivas arbitrarias en el rango R
A
R
Y
y c
0
una constante normalizada que asegura que , (r. ; ) es una densidad
propiamente, es decir,
__
R
^
R
Y
, (r. ; ) drd = 1.
Esta familia se puede extender fcilmente al caso de : variables (: 2)
deniendo | (.) como:
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 265
| (r
1
. r
2
. .... r
a
) := (x )
T

1
(x ) . y
_

_
R
^
R
Y
Rr
, (r
1
. r
2
. .... r
n
; ) d
a
1
d
ar
= 1.

:=
_

_
o
11
o
12
o
1n
o
21
o
22
o
2n
.
.
.
.
.
.
o
n1
o
n2
o
nn
_

_
. (x ) :=
_
_
_
_
_
r
1
j
1
r
2
j
2
.
.
.
r
n
j
n
_
_
_
_
_
.
Adems de la normal, la familia elpticamente simtrica incluye la t de
Student, la Pearson del tipo II y una forma de la distribucin logstica (vase
Fang et al. (1990)). Por ejemplo, la densidad bivariada de la t de Student
toma la forma:
, (r. ; ) =
(:)
1

1
2
[( + 2)]

_
1
2

_
det (

)
_
1 +
(1 j
2
)
1

[| (r. )]

1
2
[+2]
. (r. ) R
2
_
.
Los contornos de misma probabilidad de esta densidad de j = 0.5 y
j = 0.5 se muestran en las guras 6.8 y 6.9, respectivamente. Comparando
las guras 6.6 y 6.8 podemos ver que los contornos de igual probabilidad de
la t de Student estn ms cercanos entre s que los de la Normal y el pico de
la primera es mayor que la de esta ltima. Esto se conrma por comparacin
de la gura 6.7 con la 6.9.
La diferencia entre las distribuciones t de Student y normal se vuelve
an ms evidente cuando comparamos la gura 6.10 (normal con j = 0.2)
con la gura 6.11 (t de Student con j = 0.2 y = 5). Como podemos ver
la diferencia principal entre ambas es que la distribucin t de Student es
leptocrtica (kurtosis 3). Podemos detectar la leptocurtosis observando
las medidas en el eje . (picos de la t de Student en 0.30 y de la normal
en 0.18) y los contornos (los de la t de Student son mucho ms cercanos
unos de otros). Para una discusin extensa de la distribucin t de Student
multivariada ver Spanos (1994).
La comparacin entre las densidades t de Student y normal se hace ms
evidente cuando estas dos distribuciones se comparan con otro miembro de
la familia elptica, la llamada distribucin de Pearson tipo II cuya densidad
toma la forma:
266 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
, (r. ; ) =
_
det (

1
2
2:
_
_
( + 1)
( + 2)
_
_
1
(1 j
2
)
1
2 ( + 2)
[| (r. )]
_

.
En contraste con la distribucin t de Student la de Pearson es platicrtica
(ver captulo 3). La densidad bivariada de Pearson tipo II, junto con sus
contornos de equiprobabilidad, se muestran en la gura 6.12.
Figura 6.8 Contornos de la densidad t de Student con j = 0.5.
Figura 6.9 Contornos de la densidad t de Student con j = 0.5.
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 267
Figura 6.10 Densidad normal bivariada.
Figura 6.11 Densidad t de Studen bivariada.
Figura 6.12 Densidad bivariada Pearson tipo II.
268 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
La anterior comparacin sugiere que en el caso de la familia elptica
podemos distinguir entre los distintos miembros slo mediante un examen
cuidadoso de cmo estn hacinados los contornos de equiprobabilidad. En
todos los casos, sin embargo, la correlacin se puede evaluar por que tan
aplastados son los contornos elpticos. Sin embargo, una palabra de precau-
cin es: correlacin cero no implica independencia para la familia elptica,
excepto en el caso de la distribucin normal. Veamos esto con ms detalle.
La pregunta que surge naturalmente en esta etapa se reere a la estruc-
tura de dependencia de la familia elpticamente simtrica. El conjunto de
la familia elptica tiene la misma media condicional, la misma media condi-
cional que encontramos anteriormente en relacin a la distribucin normal,
pero los momentos condicionales superiores son en general funciones de la
variable condicionante, es decir,
(a) 1 (1 [A = r) = ,
0
+,
1
r,
(b) 1 [(1 1 (1 [A = r))
v
[A = r]
_
0 para : impar,

v
(r) para : par.
_
,
Por ejemplo, en el caso de la t de Student y Pearson tipo II las varianzas
condicionales (vase el apndice B) toman la forma:
t de Student: \ c: (1 [A = r) = o
2
1
_

1
_
_
1 +
1

(aj
2
)
2
o
22
_
,
Pearson tipo II: \ c: (1 [A = r) = o
2
1
_
1
2+3
_
_
1
(aj
2
)
2
o
22
_
,
Este resultado sugiere que en el caso de que j = 0 todos los miembros de
la familia elptica se convierten en independientes de primer orden, pero la
nica distribucin para la que esto es equivalente a independencia completa
es la normal. Por ejemplo, en el caso de la distribucin t de Student:
\ c: (1 [A = r) [
j=0
=
_
o
11
1
_
_
1 +
1

(r j
2
)
2
o
22
_
,
que es claramente diferente de la varianza marginal, \ c:(1 ) =
_
o
11
2
_
.
En este sentido, la distribucin t de Student es dependiente de segundo orden
incluso despus de imponer la restriccin de correlacin cero.
5.7.3 Dependencia y las distribuciones sesgadas
Es importante considerar algunas distribuciones conjuntas adicionales que
no son simtricas en forma de campana como lo es la familia elptica, con el
n de proporcionar al lector una visin equilibrada de las distribuciones de
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 269
dos variables. Desafortunadamente, no hay forma sistemtica de presentar
las distribuciones y el lector debe considerar esta seccin como una coleccin
de ejemplos cuyo objetivo bsico es proporcionar al lector una imagen menos
distorsionada de la literatura de libros de texto dominada por la Normal.
Densidad logstica bivariada
La densidad logstica bivariada toma la forma:
, (r. ; ) =
2 exp
_

_
jj
1
_
o
11
__
aj
2
_
o
22
__
_
o
11
o
22
_
1 + exp
_

_
jj
1
_
o
11
_
+ exp
_
aj
2
_
o
22
___. R
2
R
2
+
. (r. ) R
2
.
donde := (j
1
. j
2
. o
11
. o
22
). En la gura 6.13 podemos ver la forma es-
tandarizada de esta densidad bivariada con := (0. 0. 1. 1). Como podemos
ver, esta densidad no es simtrica, con contornos que le recuerdan a uno
una hacha paleoltica. Sin embargo, es importante sealar que las densi-
dades marginales son simtricas (siendo logstica). Desafortunadamente, la
estructura de dependencia de esta distribucin es bastante inexible, porque
da lugar a un coeciente de correlacin constante: j := Co::(A. 1 ) = 0.5,
independientemente de los valores de .
Para una estructura de correlacin ms exible esta distribucin bivariada
se ha generalizado mediante la introduccin de un parmetro adicional c para
formar:
1 (r. ; c) =
_
1 +
_
exp (cr)
1
o
_
+
_
exp (c)
1
o
_
1
.
_
dando
j := Co::(A. 1 ) = 1
1
2o
2
. donde j _ 1.
1
2
que incluye el caso anterior como un caso especial con c = 1. Es in-
teresante notar que hay una forma de la distribucin logstica bivariada que
pertenece a la familia elpticamente simtrica pero no tiene una forma cer-
rada (ver Fang et al. (1990)). Note que la extensin tmultivariada de esta
distribucin toma la forma:
, (r
1
. r
2
. .... r
n
; ) =
_
1 +
_

n
I=1
exp
_
c
_
r
I
j
I
_
o
II
___1
o
_
1
, c _ 1;
270 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
siendo la logstica ordinaria un caso especial con c = 1.
Figura 6.13 Densidad logstica bivariada (estndar).
que incluye como caso especial el anterior con c = 1.
Densidad Gamma bivariada
La distribucin gamma bivariada viene en un nmero de formas diferentes
(vase el apndice B para tres de estas formas), cada una con su propia
estructura de dependencia. En esta seccin vamos a considerar dos de estas
formas.
La densidad Gamma Cherian bivariada toma la forma:
, (r. ; ) =
c
(a+j)
(o
0
) (o
1
) (o
2
)
_
min(a,j)
0
c
:
.
0
0
1
(r .)
0
1
1
( .)
0
2
1
d.. (r. ) R
2
.
donde := (o
0
. o
1
. o
2
) R
3
+
. El coeciente de correlacin j es:
j := Co::(A. 1 ) =
o
0
_
(o
0
+o
1
) (o
0
+o
2
)
. 0 < j _ 1.
En las guras 6.14 - 6.15 podemos ver la densidad bivariada con los con-
tornos insertados para dos conjuntos de parmetros := (1. 3. 3) con j = 0.25
y := (8. 3. 3) con j = 0.727, respectivamente.
La forma McKay de la densidad bivariada Gamma es la siguiente:
, (r. ; ) =
c
(0
1
+0
2
)
(o
1
) (o
2
)
c
oj
r
0
1
1
( r)
0
2
1
. := (c. o
1
. o
2
) R
3
+
. (r. ) R
2
.
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 271
con coeciente de correlacin:
j := Co::(A. 1 ) =
_
o
1
_
(o
1
+o
2
)
.
En las guras 6.16-6.17 podemos ver la densidad Gamma bivariada (McKay)
densidad con los contornos insertados para dos conjuntos de parmetros
:= (2. 2. 6) con j = 0.5 y := (2. 6. 4) con j = 0.775, respectivamente. En
estas guras, la asimetra es diferente de la de las guras 6.14-6.15.
Figura 6.14 Densidad Gamma bivariada (Cherian) (1. 3. 3).
Figura 6.15 Densidad Gamma bivariada (Cherian) (8. 3. 3).
Densidad exponencial bivariada
272 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Al igual que en el caso de la distribucin Gamma bivariada, la exponencial
bivariada tiene varias formas. La densidad exponencial bivariada de Gumbel
toma la forma:
, (r. ; o) = [(1 +or) (1 +o) o] exp r or . o R
+
. (r. ) R
2
+
.
Esta densidad, junto con sus contornos de equiprobabilidad, para dos
diferentes valores de o, se muestra en las guras 6.18 y 6.19. En el caso
de la gura 6.18 o = 0.2 lo que implica un coeciente de correlation j =
0.148. En el caso de la gura 6.19 o = 0.1 que implica un coeciente de
correlacin j = 0.404. NOTE que esta densidad bivariada da lugar slo a
una correlacin negativa. Una comparacin directa entre las dos supercies y
los contornos de equiprobabilidad sugiere que la mayor correlacin se puede
detectar por una mayor concentracin de probabilidad en los brazos de la
densidad.
Densidad bivariada F
Esta densidad bivarida F toma la forma:
, (r. ; ) = [0.5]
2

i=0
_

0.5
.
i
[0.5
i
]
_
(
0
+
1
r +
2
)
0.5
r
0.5
r
0.5
1
1

0.5
2
1
. (r. ) R
2
+
.
donde (
0
.
1
.
2
) R
3
+
. = (
0
+
1
+
2
) . Esta densidad, junto con sus
contornos de equiprobabilidad, para dos diferentes valores de o, se muestra en
las guras 6.20 y 6.21. En el caso de la gura 6.20 o := (
0
= 12.
1
= 8.
2
= 8),
lo que implica un coeciente de correlacin j = 0.444. En el caso de la
gura 6.21 o := (
0
= 5.
1
= 60.
2
= 60), lo que implica un coeciente de
correlacin j = 0.953. Comparando las dos supercies y sus contornos de
equiprobabilidad podemos ver que cuanto mayor sea la correlacin ms aplas-
tada es la densidad. Sin embargo, esto debe interpretarse con cautela debido
a que el coeciente de correlacin no es suciente para capturar la estruc-
tura de dependencia de la distribucin 1 (vase la seccin siguiente). Con el
n de obtener una imagen ms completa considerar otras dos formas de la
distribucin bivariada 1 en las guras 6.22 y 6.23 cuyas correlaciones no son
muy diferentes, pero los parmetros son o := (
0
= 80.
1
= 4.
2
= 2), con
coeciente de correlacin j = 0.035 y o := (
0
= 200.
1
= 20.
2
= 20), con
correlacin j = 0.092. NOTE que en el caso de que la correlacin es cero la F
bivariada se parece a la exponencial bivariada sin la curvatura hacia adentro.
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 273
Figura 6.16 Densidad Gamma bivariada (McKay) (2. 2. 6).
Figura 6.17 Densidad Gamma bivariada (McKay) (2. 6. 4).
Figura 6.18 Exponencial Gumbel bivariada o = 0.2.
274 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.19 Exponencial Gumbel bivariada o = 1.0.
Figura 6.20 Densidad F bivariada o := (12. 8. 8).
Figura 6.21 Densidad F bivariada o := (5. 60. 60).
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS275
Densidad bivariada Beta
Al igual que en el caso de la exponencial de dos variables, hay varias
distribuciones conjuntas llamadas Beta. La densidad Filn-Isserlis Beta
bivariada toma la forma:
, (r. ; ) =
(
1
.
2
.
3
)
(
1
) (
2
) (
3
)
_

1
1
r

2
1
(1 r )

3
1
_
, r _ 0. _ 0. r+ _ 1.
donde (
1
.
2
.
3
) R
3
+
. Esta densidad, junto con sus contornos de
equiprobabilidad, para dos diferentes valores de , se muestra en las g-
uras 6.24 y 6.25. En el caso de la gura 6.24 la densidad bivariada tiene
valores de los parmetros := (
1
= 3.
2
= 3.
3
= 6), lo que supone un co-
eciente de correlacin j = 0.333. En el caso de la gura 6.25 la densidad
bivariada := (
1
= 6.
2
= 6.
3
= 8), lo que supone un coeciente de cor-
relacin j = 0.429. La comparacin de las dos supercies sobre la base
del coeciente de correlacin no es tan buena idea en este caso debido a que
la distribucin exhibe una gran exibilidad y la correlacin por s misma no
proporciona una gua conable.
En la discusin anterior de dependencia en el contexto de distribuciones
bivariadas no simtricas se utiliz el coeciente de correlacin con el n de
explorar cmo cambian estas densidades cuando cambia la dependencia. Esto
es claramente insatisfactorio porque sabemos que el coeciente de correlacin
mide slo dependencia de primer orden. Est claro que necesitamos un n-
gulo de visin ms general con el n de evaluar la estructura de dependencia
de las diferentes distribuciones conjuntas. Como una extensin del coeciente
de correlacin podramos considerar el uso de los primeros momentos condi-
cionales, por decir hasta orden cuatro, con el n de obtener una imagen ms
completa de la estructura de la dependencia. Esto se tratar ms adelante en
el siguiente captulo en relacin con algunas pocas funciones condicionales.
5.8 De los conceptos probabilsticos a los datos
observados
5.8.1 Generacin de nmeros pseudo aleatorios*
Las tcnicas para generar nmeros pseudo aleatorios introducidas en el cap-
tulo 5 se pueden extender a las distribuciones conjuntas. En el caso de
276 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
varibles aleatorias Independientes e Idnticamente Distribuidas la extensin
es trivial porque la relacin:
, (r
1
. r
2
. .... r
a
)
IID
=
a

I=1
, (r
I
) para todo x R
a
.
sugiere que la generacin de nmeros pseudo aleatorios para la distribu-
cin conjunta del vector aleatorio X := (A
1
. A
2
. .... A
a
) se puede hacer para
cada variable aleatoria A
I
por separado. Las cosas no son apreciablemente
ms complicadas en el caso de que (A
1
. A
2
. .... A
a
) sean Independientes, pero
no Idnticamente Distribuidas ya que:
, (r
1
. r
2
. .... r
a
)
I, no IID
=
a

I=1
,
I
(r
I
) para todo x R
a
.
Esto sugiere que, al menos tericamente, la heterogeneidad se puede
manejar sin dicultades insuperables. Las cosas se vuelven mucho ms com-
plicadas en el caso de que (A
1
. A
2
. .... A
a
) sean dependientes debido a que el
sistema generador tiene que manejar las dependencias entre estas variables
aleatorias. En esta seccin vamos a considerar varios mtodos para generar
nmeros pseudo aleatorios para un vector aleatorio X := (A
1
. A
2
. .... A
a
).
Figura 6.22 Densidad bivariada F con := (80. 4.2).
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS277
Figura 6.23 Densidad bivariada F con := (200. 20. 20).
Figura 6.24 Densidad bivariada Beta con := (3. 3. 6).
Figura 6.24 Densidad bivariada Beta con := (6. 6. 8).
278 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
La aproximacin de distribucin condicional
En la seccin 2 anterior se argument que en el caso donde (A
1
. A
2
. .... A
a
)
no son ni Independientes ni Idnticamente Distribuidas la nica reduccin
posible a un producto de distribuciones univariadas es la derivada por condi-
cionamiento secuencial y toma la forma (6.9) que, al simplicarse haciendo
caso omiso de los parmetros desconocidos, es:
, (r
1
. r
2
. .... r
a
)
no IID
= ,
1
(r
1
)
a

I=2
,
I
(r
I
[r
I1
. r
I2
. .... 1) para todo x R
a
.
(6.41)
Esta reduccin sugiere que la generacin de nmeros pseudo aleatorios
para el vector aleatorio (A
1
. A
2
. ... A
a
) equivale a usar distribuciones uni-
variadas de forma secuencial:
1. Generar las observaciones para A
1
usando la distribucin marginal
,
1
(r
1
).
2. Generar las observaciones para A
2
usando la distribucin condicional
,
2
(r
2
[r
1
) dado A
1
= r
1
.
3. Generar las observaciones para A
3
usando la distribucin condicional
,
3
(r
3
[r
2
. r
1
) dado A
2
= r
2
, A
1
= r
1
.
.
.
.
n. Generar las observaciones para A
a
usando la distribucin condicional
,
a
(r
a
[r
a1
. .... r
1
), dado A
a1
= r
a1
. A
a2
= r
a2
. .... A
2
= r
2
y A
1
= r
1
.
La implementacin de este resultado requiere que el modelador especique
explcitamente estas fda condicionales.
Ejemplo
Considere el caso : = 2 donde la funcin de densidad conjunta toma la
forma:
, (r. ) = exp c cr / +r , c 0. / 0. _ 0. (r. ) R
2
+
Las correspondientes densidades marginales y condicionales toman la
forma (cf. Arnold et al (1992)):
,
A
(r) = /
_

c/
__
c/c
oa
/ r
_
, r 0 donde /(n) =
__
o
0
c
:
(1 +n.)
1
d.
_
1
, ([r) = (/ r) c
(ba)j
, 0 .
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS279
Esto sugiere que el modelador puede generar nmeros pseudo aleatorios
para A usando el mtodo de rechazo (vase el captulo 5.7) y luego proceder
a utilizar los valores simulados de A para generar 1 utilizando el mtodo
de la funcin de distribucin inversa (vase el captulo 5.7) a travs de la
densidad condicional ,([r). En trminos de las funciones de distribucin
acumulativa (fda) la reduccin (6.41) toma la forma:
1 (r
1
. r
2
. .... r
a
)
no IID
= 1
1
(r
1
)
a

I=2
1
I
(r
I
[r
I1
. r
I2
. .... 1) para todo x R
a
.
Utilizando este resultado Rosenblatt (1952) extendi la transformacin in-
tegral de probabilidad (vase el captulo 4) para el caso de un vector aleatorio
de la siguiente manera.
Transformacin integral de probabilidad condicional. Sea (A
1
. A
2
. ... A
a
)
un vector aleatorio continuo con funcin de distribucin conjunta 1 (r
1
. r
2
. ... r
a
),
entonces las : variables aleatorias denidas por:
2
1
:= 1
1
(A
1
) . 2
2
:= 1
2
(A
2
[A
1
) . 2
3
:= 1
3
(A
3
[A
2
. A
1
) . .... 2
a
:= 1
a
(A
a
[A
a1
. .... A
1
)
son variables aleatorias IID distribuidas uniformemente, es decir:
2
1
= 1
1
(A
1
) ~l (0. 1) . 2
I
:= 1
I
(A
I
[A
I1
. A
I2
. .... A
1
) ~l (0. 1) . / = 2. 3. .... :.
Rosenblatt sugiri el uso de nmeros pseudo aleatorios a partir de un
vector aleatorio de variables aleatoria IID uniformes a travs del uso de las
transformaciones inversas:
A
I
:= 1
1
I
(2
I
) . / = 1. 2. .... :
generar los nmeros pseudo aleatorios para el vector aleatorio (A
1
. A
2
. ... A
a
).
Ejemplo
Considere el caso : = 2 donde la funcin de densidad conjunta toma la
forma:
, (r. ) = exp , r < . (r. ) R
2
+
Las correspondientes densidades marginales y condicionales toman la
forma
280 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
1
A
(A) = 1 exp (r) . r 0. 1 ([r) = 1 exp (r ) . 0 < r < < .
La transformacin integral de probabilidad condicional sugiere que:
_
2
1
:= 1
A
(A) = 1 exp (A) ~l (0. 1)
2
2
:= 1 (1 [A) = 1 exp (A 1 ) ~l (0. 1)
_
0 < A < 1 < .
El mtodo de distribucin de la funcin inversa puede ser fcilmente uti-
lizado en el presente caso para generar nmeros pseudo aleatorios para el
vector aleatorio (A. 1 ). Este resultado se puede vericar directamente con
el siguiente lema (ver Devroye (1986)).
Lema. Sea (2
1
. 2
2
) uniforme bivariado con densidad conjunta g(.
1
. .
2
).
Sean ,
1
y ,
2
dos funciones marginales preespecicadas con las fda correspon-
dientes 1
1
y 1
2
. Entonces, la densidad conjunta de (A. 1 ) :=
_
1
1
1
(2
1
) . 1
1
2
(2
2
)
_
,
toma la forma:
, (r. ) = ,
1
(r) ,
2
() g(1
1
(r) 1
2
())
Por el contrario, si el vector aleatorio (A. 1 ) tiene densidad conjunta
,(r. ) como la dada anteriormente, entonces, (,
1
. ,
2
) son las funciones de
densidad marginales de A e 1 , respectivamente. Adems, (2
1
. 2
2
) = (1
1
(r) 1
2
())
es un vector de dos variables aleatorias con densidad conjunta:
g(.
1
. .
2
) =
,
_
1
1
1
(2
1
) . 1
1
2
(2
2
)
_
,
1
_
1
1
1
(2
1
)
_
,
2
_
1
1
2
(2
2
)
_. .
1
[0. 1] . .
2
[0. 1]
que es una densidad uniforme de dos variables.
El mtodo de rechazo
El mtodo de rechazo para generar nmeros pseudo aleatorios en el caso
de las distribuciones univariadas se encontr en el captulo 5.7. En teora, este
mtodo se puede extender al caso de un vector aleatorio Xsin ninguna dicul-
tad. En la prctica, sin embargo, varias trampas esperan a los desprevenidos;
ver Devroye (1986) y Johnson (1987). El resultado bsico fundamental de
este mtodo es el siguiente.
Lema del mtodo de rechazo. Sea ,(x) la funcin de densidad con-
junta del vector aleatorio X. Supongamos que ,(x) se puede representar en
la forma:
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS281
,(x) = c /(x) q (x) , donde c 1, 0 < /(x) < 1 y q (x) _ 0, /(x) R
a
A
Sea 2~` (0. 1) y Y un vector aleatorio con densidad conjunta q (y); Y y
2 independientes. Entonces la distribucin condicional de Y dado 2 _ q (y)
coincide con la distribucin de X, es decir,
1 (y[Z _ g (y)) = 1 (x) .
El mtodo funcin de dependencia
Un mtodo prometedor para la generacin de nmeros pseudo-aleatorios,
que an no se ha explorado, podra basarse en la funcin de dependencia (ver
Castillo (1988)).
Funcin de dependencia. Sea 1(r. ) la fda de las variables aleatorias
(r. ) con fda marginales 1
A
(r) y 1
Y
(). La funcin de la dependencia se
dene como la transformacin que mapea las fda marginales uniforme en una
fda conjunta:
d (1
A
(r) . 1
Y
()) = 1 (r. ) . (r. ) R
A
R
Y
, donde d (.. .) : [0. 1]
2
[0. 1].
(6.42)
En el caso donde 1(r. ) es una fda continua con fda marginales univari-
adas (1
A
(.) . 1
Y
(.)) y funciones cuantil
_
1
1
A
(.) . 1
1
Y
(.)
_
, entonces:
d (.
1
. .
2
) = 1
_
1
1
A
(.
1
) . 1
1
Y
(.
2
)
_
= (.
1
. .
2
) R
1
R
2
. (6.43)
La funcin de la dependencia constituye un medio importante para aislar
la estructura de dependencia de variables aleatorias distribuidas conjunta-
mente.
Podemos utilizar esta ltima forma de la funcin de dependencia a n
de obtener una idea adicional. En el captulo 3 nos encontramos con la
transformacin integral de probabilidad que establece que para cualesquiera
fda continuas 1
A
(.) . 1
Y
(.), las variables aleatorias 2
1
= 1
A
(r) y 2
2
=
1
Y
() se distribuyen uniformemente, es decir,
2
1
= 1
A
(r) ~l (0. 1) , 2
2
= 1
Y
() ~l (0. 1) ,
y la inversa de la transformacin integral de probabilidad que garantiza
que
282 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
1
1
A
(.
1
) ~1
A
(.) , 1
1
Y
(.
2
) ~1
Y
(.) .
Por lo tanto, podemos ver la funcin de dependencia en (6.43) como
un mapeo mixto de variables aleatorias (independientes) uniformemente dis-
tribuidas que dan lugar a variables aleatorias dependientes con fda 1(r. ).
Por lo tanto, dada la funcin de dependencia el modelador puede utilizar
nmeros uniformes pseudo-aleatorios para generar nmeros para el vector
aleatorio (A. 1 ).
Ejemplos (ver Castillo (1988))
(i) Considere la distribucin exponencial Gumbel cuya fda toma la forma:
1 (r. ) = exp (r +or) + 1 exp (r) exp ()
En vista del hecho de que la transformacin integral inversa de la fda
1
A
(r) = 1 exp (r) es 1
1
A
(.
1
) = 1:(1 .
1
)
podemos mostra que
d (.
1
. .
2
) = 1 (1:(1 .
1
) . 1:(1 .
2
))
= exp [1:(1 .
1
) +1:(1 .
2
) +o1:(1 .
1
) 1:(1 .
2
)]
1 +.
1
+.
2
la funcin de dependencia es
d (r. ) = (1 r) (1 ) exp [o1:(1 .
1
) 1:(1 .
2
)] 1 +r +.
(ii) Consideremos la distribucin exponencial Mardia cuya funcin de
distribucin toma la forma:
1 (r. ) = [exp (r) + exp () 1]
1
+ 1 exp (r) exp () .
Una vez ms, utilizando la misma transformacin integral inversa de prob-
abilidad podemos demostrar que:
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS283
d (.
1
. .
2
) = 1 (1:(1 .
1
) . 1:(1 .
2
))
=
_
1
.
1
1
+
1
.
2
1
1
_
1
+ 1 (1 .
1
) (1 .
2
)
=
_
1
.
1
1
+
1
.
1
1
1
_
1
1 +.
1
+.
2
Por lo tanto, la funcin de dependencia es:
d (r. ) =
_
1
r
1
1
+
1
r
2
1
1
_
1
1 +r +.
5.8.2 Una representacin grca: el diagrama de dis-
persin
En el captulo anterior hemos introducido la representacin grca de una
grca de tiempo y otras representaciones grcas relacionadas de los
datos observacionales, tales como el histograma y el histograma suavizado,
para proporcionar un vnculo entre los conceptos tericos y los datos reales.
En esta seccin llevamos la historia un paso ms all mediante la introduccin
de otra importante representacin grca que puede establecer una relacin
entre las nociones probabilsticas de densidad conjunta y dependencia y los
datos observados. Esto se conoce como el diagrama de dispersin (o cross-
plot) y sus races se remontan a la mitad del sigulo XIX. Un diagrama de
dispersin es una representacin grca de dos dimensiones de la forma
diagrama de dispersin: (r
t
.
t
) . t = 1. 2. .... 1 .
284 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.26. Datos normales bivariados simulados con (j = 0)
donde el eje representa el rango de valores de la variable aleatoria 1
t
y el eje X representa el rango de valores de la variable aleatoria A
t
. En
las guras 6.26 y 6.27 podemos ver dos de esas grcas de dispersin de
datos bivariados IID normales simulados. Como podemos ver, la gura 6.26
muestra una cierta forma circular con el nmero de observaciones cada vez
mayor conforme se avanza desde la periferia hacia el centro de la forma
circular. La gura 6.27 exhibe una forma elptica, con la misma tendencia
para el nmero de observaciones a aumentar a medida que se pasa de las
colas al eje principal de la forma elptica. Resulta que la nica diferencia
entre las dos grcas es el coeciente de correlacin que es j = 0 para la
gura 6.26 y j = 0.8 para la gura 6.27.
La clave para relacionar esas grcas de datos con el concepto terico
de funcin de densidad conjunta nos fue dada por Galton (1886) que fue
capaz de unir los puntos de igual frecuencia en curvas elpticas y entonces
derivar la densidad misma. Con las tcnicas grcas de hoy en da podemos
formalizar el procedimiento de Galton y hacer las distinciones necesarias
entre los conceptos tericos y sus contrapartes empricas.
Figura 6.26. Datos normales bivariados simulados con (j = 0.8)
Estereograma suavizado. Al igual que en el caso de una nica serie de
datos discutido en el captulo 5, el primer paso para relacionar el diagrama
de dispersin en la gura 6.26 con una funcin de densidad de densidad
conjunta terica es construir el histograma de dos dimensiones, llamado es-
tereograma por Pearson, y luego suavizarlo. La suavizacin ms utilizada
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS285
es una extensin del kernel de una dimensin discutido en el captulo 5. Un
kernel suavizado de un histograma toma la forma:

g
I
(r) =
1
:/

a
I=1
K
_
r
I
r
/
_
. / 0. K(.) _ 0.
_
:R:
K(.) d. = 1.
donde K(.) es el kernel; para ejemplos de este kernel vese el captulo 5.
El kernel ms utilizado es el que se basa en la densidad normal produciendo
el histograma suavizado:

g
I
(r) =
1
:/
_
2:

a
I=1
exp
_

1
2
_
r
I
r
/
_
2
_
. / o (1.06) :

1
5
.
La forma ms simple del estereograma alisado extiende este a:

g
I
(r. ) =
1
:/

a
)=1

a
i=1
K
__
r
i
r
/
____

)
r
/
__
. / 0.
donde el kernel toma la forma (Cacoullos, 1966):
K(r. ) _ 0.
_
aR
^
_
jR
Y
K(r. ) drd = 1.
Las formas ms generales de kernels suavizado permite anchos de banda
diferentes y / o de correlacin (ver Silverman (1986)). El estereograma
suavizado de los datos en la gura 6.26 se muestra en la gura 6.28. Esto
puede ser comparado con la densidad normal bivariada terica con j = 0,
que se muestra en la gura 6.29. Como podemos ver, el estereograma alisado
es muy similar a la supercie terica.
286 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.28. Estereograma suavizado de datos normales simulados con
(j = 0)
Figura 6.29. Datos normales bivariados con (j = 0)
Contornos. El segundo paso es evaluar qu tan buena aproximacin es el
estereograma suavizado a la funcin de densidad bivariada. Esta evaluacin
puede hacerse en trminos de los contornos de estas dos supercies. En
la gura 6.30 podemos ver los contornos del estereograma suavizado y en la
gura 6.31 los mismos contornos se superponen con los de la densidad normal
bivariada (j = 0).
Como podemos ver, esta superposicin proporciona una representacin
grca donde las diferencias entre la densidad bivariada y su contraparte
emprica puede ser fcilmente evaluada a diferentes alturas. En este ejemplo,
es evidente que las dos estn muy cerca para la mayora de las alturas, excepto
la parte superior donde se detecta una cierta diferencia. Para el principiante
notemos que estas pequeas (pero insignicantes) diferencias son la regla y
no la excepcin en la modelacin emprica, as que no espere que las dos
coincidan!
Este ejercicio se repite para el diagrama de dispersin en la gura 6.27.
En las guras 6.32-6.33 podemos ver el estereograma suavizado y la densidad
normal bivariada con (j = 0.8), respectivamente. Un vistazo a estas gr-
cas sugiere que esta ltima es una buena aproximacin del primero. Esta
conclusin se ve conrmada por la grca de los contornos del estereograma
suavizado en la gura 6.34 que se superponen con los de la densidad bivariada
con (j = 0.8), que se muestra en la gura 6.35.
Una comparacin entre las guras 6.26 y 6.28 a 6.31 por un lado, y las
gura 6.27 y 6.32 a 6.35, por otro lado, puede ser utilizada como un marco
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS287
de referencia en el contexto del cual el modelador puede evaluar la dependen-
cia en datos IID Normales (donde I se reere a la independencia temporal).
Quizs la mejor manera de resumir los dos grupos de grcas es la super-
posicin de los contornos del estereograma suavizado con el diagrama de
dispersin. En cifras 6.36 y 6.37 podemos ver estas dos grcas para los
datos simulados de una normal bivariada con diferente correlacin.
La forma elptica, junto con la creciente concentracin de los puntos del
diagrama de dispersin cuando el ojo se mueve hacia la interseccin de los
dos ejes principales, apuntan hacia la hiptesis de normalidad y el grado de
excentricidad de la forma elptica (cmo se ve aplastado) indica el nivel de
correlacin.
La discusin en la seccin anterior, sin embargo, sugiri que la forma elp-
tica del diagrama de dispersin no es una caracterstica nicamente de la Nor-
mal sino una caracterstica de toda una familia de distribuciones conjuntas
que llamamos elpticamente simtricas. Para ilustrar este punto, volvamos a
los datos de la tasa de cambio Cnada/EEUU introducidos en el captulo 1 y
discutidos en el captulo 5 en relacin con sus caractersticas distribucionales.
En el captulo 1 observamos los patrones de regularidad aleatoria exhibidos
por la grca de tiempo de estos datos, incluyendo la simetra en forma de
campana. La conclusin preliminar en el captulo 5, basada en las grcas
P-P normalizadas, era que los datos presentaban una simetra en forma de
campana cercana a la distribucin t de Student con 4 grados de libertad en
lugar de la distribucin normal. Adems, a primera vista los datos no pare-
cen presentar ninguna dependencia temporal signicativa de primer orden o
cualquier heterogeneidad.
Figura 6.30 Contornos de estereograma suavizado
de datos normales simulados (j = 0)
288 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.31 Estereograma suavizado y contornos normales (j = 0)
Figura 6.32 Estereograma suavizado y datos normales simulados (j = 0.8)
Figura 6.33. Densidad normal bivariada con (j = 0.8)
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS289
Figura 6.34. Contornos de estereograma suavizado
de datos normales simulados (j = 0.8)
Figura 6.35 Estereograma suavizado y contornos normales (j = 0.8)
290 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.36 Contornos de estereograma suavizado
y diagrama de dispersin de datos normales (j = 0)
Figura 6.37 Contornos de estereograma suavizado
y diagrama de dispersin de datos normales (j = 0.8)
Figura 6.38 Diagrama de dispersin (r
t
. r
t1
) de los datos de la tasa de
cambio
En este captulo se procede a examinar la cuestin de la dependencia
temporal de la distribucin relacionada. A pesar de la importancia de la dis-
tincin entre la dependencia contemporneas y temporal en el contexto de la
modelacin, en relacin con la evaluacin de la dependencia de la distribu-
cin relacionada, la distincin es slo una cuestin de notacin. Usando la
distribucin conjunta apropiada podemos discutir la dependencia relacionada
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS291
con la distribucin ,(r
t
.
t
) con la misma facilidad que la de ,(r
t
. r
t1
); la
diferencia es slo de notacin. En el contexto actual, podemos utilizar el
diagrama de dispersin:
(r
t
.
t
) . t = 1. 2. .... 1
mostrado en la gura 6.38, para evaluar la dependencia temporal entre
elementos sucesivos del proceso estocstico A
t

o
t=1
. El diagrama de dis-
persin muestra una clara forma elptica (casi circular) con la concentracin
de observaciones cada vez mayor a medida que avanzamos hacia el centro
de esta forma elptica. Con el ojo de nuestra mente podemos visualizar la
supercie de dos dimensiones (estereograma) sugerido por esta grca. Ya
que el nmero de observaciones aumenta movimindose hacia el centro de
la forma elptica, el correspondientes estereograma aumenta en altura. El
stereograma suavizado se grca en la gura 6.39 y representa los datos de
manera similar a la supercie de dos dimensiones que representa la funcin
de densidad. Observando esta grca podemos decir que est muy cerca de
la densidad terica bivariada para la distribucin de la t de Student.
Figura 6.39 Estereograma suavizado/contornos de los datos de la tasa de
cambio.
En la gura 6.39 podemos ver tambin las correspondientes densidades
marginales suavizadas, as como los contornos insertados en el margen dere-
cho. La gura 6.39 conrma que la t de Student bivariada constituye un
supuesto de distribucin mucho ms apropiado que la normal debido a que
292 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
un vistazo a las guras 6.10 y 6.11, que representan a esas densidades bivari-
adas, sugieren ms claramente que la densidad bivariada suavizada de estos
datos est ms cerca de la densidad mostrada en la Figura 6.11 que a la de la
gura 6.10; es importante tener en cuenta las medidas en el eje vertical. Esto
se conrma en la gura 6.40, donde los contornos del estereograma suavizado
en la gura 6.39 se superponen a los de la densidad t de Student bivariada
con 4 grados de libertad.
La correlacin (dependencia de primer orden) entre A
t
y A
t1
no parece
ser signicativa debido a que las formas elpticas son cercanas a crculos.
Cabe sealar que la correlacin cero en este contexto no signica que el
proceso estocstico A
t

o
t=1
sea temporalmente independiente. Como hemos
dicho anteriormente, no correlacin no implica independencia en el caso de
la distribucin t de Student. Para una evaluacin ms precisa, sin embargo,
tenemos que aplicar procedimientos adecuados de prueba (vase el captulo
15).
A n de garantizar que las conclusiones sobre la dependencia de la dis-
tribucin relacionada sobre la base del diagrama de dispersin (r
t
. r
t1
) . t = 1. 2. .... 1,
son de hecho vlido para el proceso estocstico A
t

o
t=1
, tenemos que consid-
erar los diagramas de dispersin adicionales de la forma:
(r
t
. r
tI
) . / _ 2. t = 1. 2. .... 1 .
Figura 6.40 Estereograma suavizado (r
t
. r
t1
) y contornos t de Student
( = 4).
Con nes ilustrativos consideremos el diagrama de dispersin en el caso
de / = 2 en la gura 6.42 y el correspondiente estereograma suavizado en
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS293
la gura 6.43; podemos asegurar al lector que las grcas adicionales para
valores / 2 son muy similares. Como podemos ver, estas dos representa-
ciones grcas conrman las conclusiones obtenidas con base en las grcas
6.38 a 6.40. Esto se ve reforzado por la gura 6.41, donde los contornos de
la estereograma suavizado en la gura 6.43 se superponen a los de densidad
de la t de Student bivariada con 4 grados de libertad.
En la seccin anterior hemos discutido la importancia de superar la in-
debida inuencia de la distribucin normal en la modelizacinemprica. El
ejemplo emprico anterior lleva al modelador un paso ms all de la dis-
tribucin Normal y a la familia elptica. Otros pasos son necesarios, sin
embargo, con el n de escaparse del hechizo de la Normalidad. Con esto
en mente vamos a considerar algunos diagramas de dispersin adicionales de
datos simulados a partir de distribuciones asimtricas con el n de garantizar
que el lector no concluya este captulo con la impresin errnea de que los
diagramas de dispersin aparecen como formas simtricas elpticas.
Figura 6.41 Estereograma suavizado (r
t
. r
t2
) y contornos t de Student
( = 4).
La distribucin bivariada no simtricas que consideramos en primer lu-
gar es la distribucin Gamma (Cherian). Elegimos los parmetros de tal
manera que generemos una distribucin casi simtrica en un intento por ilus-
trar algunas de las formas ms sutiles de la asimetra. En la gura 6.44
podemos ver un diagrama de dispersin de una distribucin gamma bivari-
ada con parmetros (o
0
= 2. o
1
= 16. o
2
= 16), que implica un coeciente de
correlacin j = 0.111; NOTE que la forma Cherian de la distribucin gamma
bivariada slo permite correlacin positiva. Figura 6.45 muestra los contornos
294 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
de la correspondiente densidad terica, que presentan una asimetra en forma
de huevo con la yema (la moda) ms cerca del extremo ms puntiagudo apun-
tando hacia el origen.
La asimetra del diagrama de dispersin no es tan evidente, pero un ex-
amen detallado del diagrama de dispersin de los datos en la gura 6.44,
en conjuncin con los contornos de la densidad terica que se muestra en la
gura 6.45 pone de maniesto la relacin de asimetra.
En relacin al diagrama de dispersin en la gura 6.44 vale la pena sealar
que si el modelador decide declarar algunas de las observaciones en las colas
como valores atpicos, la asimetra expuesta podra muy fcilmente perderse
y con ella la informacin que conducira directamente al modelador hacie la
distribucin correcta.
Figura 6.42 Diagrama de dispersin (r
t
. r
t2
) de los datos de la tasa de
cambio.
Figura 6.43 Estereograma suavizado/contornos de los datos de la tasa de
cambio.
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS295
Figura 6.44 Datos simulados: Gamma (Cherian) (o
0
= 2. o
1
= 16. o
2
= 16).
Figura 6.45 Contornos de una densidad Gamma (Cherian)
(o
0
= 2. o
1
= 16. o
2
= 16).
La misma asimetra en forma de huevo se exhibe en las guras 6.46-
6.47, donde el coeciente de correlacin es j = 0.5. Al igual que en el caso
de la distribucin normal, la alta correlacin se visualizada como contornos
aplastados.
En las guras 6.48-6.49 la correlacin aumenta a j = 0.8 y la compresin
de los contornos aumenta.
Como ejemplo de una distribucin muy sesgada consideramos diagramas
de dispersin de datos simulados de la distribucin exponencial (Gumbel)
con correlacin, j = 0.01 y j = 0.36, en las guras 6.50-6.51, respectiva-
mente. Estos diagramas de dispersin corresponden aproximadamente a las
densidades bivariadas mostradas en las guras 6.18-6.19, respectivamente.
296 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Como podemos ver, la correlacin negativa en una distribucin Gumbel ex-
ponencial es exhibida por la concentracin de las observaciones a lo largo de
los ejes en forma de cola de pez. Aunque la exponencial bivariada Gumbel no
permite la correlacin positiva, otras formas permiten una gama completa de
correlationes 1 _ j _ 1 (ver Devroye (1986)). En la gura 6.52 podemos
ver un diagrama de dispersin de los datos simulados de una exponencial no
Gumbel con correlacin positiva j = 0.36. La dependencia positiva se visu-
aliza en la gura 6.52 como acercndose a la forma triangular en la gura
6.50. Esto se hace ms evidente en la gura 6.53, donde la correlacin se ha
incrementado a j = 0.9 induciendo una forma similar a un cometa para el
diagrama de dispersin.
Concluimos esta seccin haciendo hincapi una vez ms que las grcas
anteriores son slo de carcter indicativo y constituyen slo la punta del
iceberg en trminos de la variedad de formas y patrones que uno debera
esperar en la modelacin con datos reales. Es altamente recomendable que
el lector genere diagramas de dispersin y las correspondientes densidades
suavizadas con el n de apreciar la riqueza de la informacin que tales grcas
pueden proporcionar.
UNA NOTA DE PRECAUCIN. En esta seccin discutimos el problema
de relacionar el diagrama de dispersin de la serie de datos (r
t
.
t
) . t = 1. 2. .... 1
con la estructura de la distribucin de la densidad de dos variables , (r. ),
(r. ) R
A
R
Y
. Yendo a tres series de datos, el diagrama de dispersin se
convierte en una nube de dispersin y se plantean algunos problemas en la
rotacin de la nube para obtener una visin ms able. Cuando el modelador
intenta relacionar la nube de dispersin para la distribucin conjunta, l / ella
tiene la obligacin de pensar en cuatro dimensiones. En la discusin anterior
nos centramos exclusivamente en dos series de datos porque la cognicin hu-
mana se limita a tres dimensiones. Por lo tanto, a menudo es ms prctico
considerar el caso de : series de datos viendo dos series y juntndolas en
una pelcula ms completa usando instantneas tridimensionales.
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS297
Figura 6.46 Datos simulados: Gamma bivarida (Cherian)
(o
0
= 16. o
1
= 16. o
2
= 16).
Figura 6.47 Contornos de una densidad Gamma (Cherian)
(o
0
= 16. o
1
= 16. o
2
= 16).
298 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Figura 6.48 Datos simulados: Gamma bivarida (Cherian)
(o
0
= 32. o
1
= 16. o
2
= 16).
Figura 6.49 Contornos de una densidad Gamma (Cherian)
(o
0
= 32. o
1
= 16. o
2
= 16).
Figura 6.50 Datos simulados de una exponencial Gumbel bivariada con
j = 0.01.
Figura 6.51 Datos simulados de una exponencial bivariada no Gumbel con
j = 0.36.
Figura 6.52 Datos simulados de una exponencial bivariada no Gumbel con
j = 0.09.
5.8. DELOS CONCEPTOS PROBABILSTICOS ALOS DATOS OBSERVADOS299
300 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
5.9 Qu sigue?
Despus de la discusin anterior de dependencia, procedemos a examinar
el problema planteado por la condicionalidad estocstica. El captulo 7 se
concentra en las distribuciones condicionales y sus momentos y como ellos
se relacionan con la dependencia y / o la homogeneidad concentrndones de
nuevo en el caso simple de dos variables
, (r. ; ) = , ([r : ,
2
) ,
a
(r : ,
1
) , para todo (r. ) R
A
R
Y
.
De particular inters en el captulo 7 ser el concepto de dependencia de
la distribucin relacionada y cmo se relaciona con las distribuciones condi-
cionales , ([r : ,
2
), para todo r R
A
. Se argumenta que la forma ms
efectiva para modelar tales formas de dependencia es a travs del concepto
de funciones momento condicionales:
1 (1
v
[A = r) = /
v
(r) . r R
A
. : = 1. 2. ...
Los conceptos desarrollados en estos dos captulos se extienden entonces
en el captulo 8 ms all del caso simple de dos variables con el n de propor-
cionar un marco de referencia general para modelar dependencia y hetero-
geneidad en lo que respecta a las sucesiones de variables aleatorias. Es decir,
regresamos al caso general donde la reduccin de la distribucin conjunta
toma la forma:
, (r
1
. r
2
. .... r
a
; )
no 111
= ,
1
(r
1
;
1
)

,
I
(r
I
[r
I1
. .... r
1
;
I
) , para todo x R
a
A
.
y proceder a examinar el problema de la imposicin de restricciones de
dependencia y heterogeneidad para que la anterior reduccin de lugar a mod-
elos operativos.
5.10 Ejercicios
1. Por qu nos preocupamos por la heterogeneidad y la dependencia en los
modelos estadsticos?
2. Explicar cmo la idea de condicionamiento secuencial ayuda a lidiar
con el problema de mltiples dimensiones de la distribucin conjunta de una
muestra no aleatoria.
5.10. EJERCICIOS 301
3. Denir los siguientes conceptos:
(a) momentos conjuntos, (b) momentos condicionales, (c) no correlacin,
(d) ortogonalidad, (e) relacin producto cruzado y (e) el coeciente Gamma.
4. Sea la funcin de densidad conjunta de dos variables aleatorias X e Y:
r 0 1 2
0 0.1 0.2 0.2
1 0.2 0.1 0.2
(a) Deduzca las distribuciones condicionales: ,([r), r = 0. 1.
(b) Deducir los siguientes momentos:
1(A), 1(1 ), \ c:(A), \ c:(1 ), Co(A. 1 ), 1(A1 ), Co::(A. 1 ),
1(1 [A = 0), 1(1 [A = 1), \ c:(1 [A = 0).
5. Explique la diferencia entre dependencia, correlacin y no ortogonali-
dad.
6. Explique el concepto de dependencia de :-simo orden y comprela
con la de dependencia de (:. /)-simo orden.
7. Explique el concepto de independencia condicional y su relacin con
el de dependencia de Markov.
8. Explique por qu no correlacin implica independencia en el caso de
una distribucin normal bivariada. Cmo se puede evaluar la correlacin al
observar un diagrama de dispersin de los datos observados?
9. Explique cmo se puede distinguir entre los contornos de equiproba-
bilidad
de las densidades bivariadas, Normal, t de Student y de Pearson tipo II.
10. Explique por qu correlacin cero no implica independencia en el caso
de las distribuciones bivariadas t de Student y Pearson tipo II.
11 Explique cmo un aumento en la correlacin afectar la densidad ex-
ponencial bivariada. Qu signica esto para el diagrama de dispersin?
12 Explique por qu la nocin de correlacin no tiene sentido en el caso
de variables aleatorias medidas en la escala nominal.
13 Considere la variable aleatoria A~(0. 1) y dena la variable aleatoria
1 = A
2
1.
Demuestre que: Co(A. 1 ) = 0, pero las dos variables aleatorias no son
independientes.
302 CAPTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Captulo 6
Regresin y conceptos
relacionados
6.1 Introduccin
En el captulo anterior dimos el primer paso en el territorio de la muestra no
aleatoria de la teora de probabilidad. El lector se habra dado cuenta ahora
que este territorio puede ser peligroso y emocionante al mismo tiempo. Basta
con SEALAR que se trataba de un territorio en gran parte inexplorado
hasta el primer trimestre del siglo 20. El objetivo principal de la discusin
que sigue es extender el concepto de modelo estadstico simple, y, en partic-
ular, el concepto de muestra aleatoria (variables aleatorias Independientes e
Idnticamente Distribuidas), hacia formulaciones ms realistas. Estos mod-
elos permitirn variables aleatorias que estn dotadas de dependencia y / o
heterogeneidad. En este captulo continuamos este viaje y descubrimos que
hemos estado sosteniendo la llave del territorio de la muestra no aleatoria
desde el captulo 4: el concepto de condicionalidad. La manejabilidad del
modelo estadstico simple se deriva del hecho de que la distribucin conjunta
de la muestra se puede simplicar mucho por su reduccin a un producto de
distribuciones marginales univariadas (idnticas):
, (r
1
. r
2
. .... r
a
; )
1
=
a

I=1
,
I
(r
I
;
I
)
111
=
a

I=1
, (r
I
; ) . para todo x := (r
1
. r
2
. .... r
a
) R
a
.
(7.1)
En el caso de una muestra no aleatoria, si consideramos la no aleatoriedad
303
304 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
negativamente como la falta de independencia y homogeneidad (ID), el nico
resultado disponible es el siguiente:
, (r
1
. r
2
. .... r
a
; )
no 111
,=
a

I=1
, (r
I
; ) . para todo x := (r
1
. r
2
. .... r
a
) R
a
.
(7.2)
En el captulo 6 vimos no aleatoriedad de manera positiva como la pres-
encia de dependencia y / o heterogeneidad y se argument que la clave para
lidiar con la distribucin conjunta de una muestra no aleatoria fue el con-
cepto de condicionamiento secuencial simplicando la distribucin conjunta
a:
, (r
1
. r
2
. .... r
a
; )
no 111
= ,
1
(r
1
;
1
)
a

I=2
,
I
(r
I
[ r
I1
. .... r
1
;
I
) . \x R
a
A
.
(7.3)
Una comparacin directa entre (7.1) y (7.3) revela que las muestras no
aleatorias intercambiaron distribuciones marginales por condicionales. Es-
tas distribuciones condicionales proporcionarn los medios para modelar la
dependencia y / o heterogeneidad.
El primer problema que debemos abordar cuando se modela la dependen-
cia de modelos en el contexto de la reduccin (7.3) es el problema condicional-
idad estocstica. Este problema surge porque el lado derecho de (7.3) no es
slo un producto, de una densidad marginal (,
1
(r
1
;
1
)) y (: 1) densidades
condicionales (,
I
(r
I
[ r
I1
. .... r
1
;
I
)) como podra parecer a primera vista.
En vista del hecho de que el concepto de funcin de densidad condicional se
dene para un valor especco de las variables condicionantes, para cada /,
el conjunto de densidades condicionales:
,
I
(r
I
[ r
I1
. .... r
1
;
I
) . para todo (r
I1
. .... r
1
) R
a1
A
(7.4)
representa a toda una familia de funciones de densidad, una para cada
valor de (r
I1
. .... r
1
) en R
a1
A
, y que cambia con /. Hacer frente a estos
problemas en su generalidad en el contexto de (7.3) y (7.4), sin embargo,
sera muy enredado. Por esta razn, simplicamos el problema eludiendo los
problemas de dependencia y heterogeneidad asociada con un general 1 2
6.1. INTRODUCCIN 305
y nos concentramos exclusivamente en el caso 1 = 2. En cierto sentido,
evitamos los problemas de (a) el conjunto de condicionalidad cambiante (el
nmero de variables condicionantes cambia con /) y (b) la heterogeneidad
de las densidades condicionales (que cambian con /). Estas dos cuestiones
se discutirn en el prximo captulo.
Una vista panormica del captulo
En la seccin 2 discutimos el problema de la condicionalidad en el contexto
del caso ms sencillo de dos variables aleatorias.
, (r. ; ) = , ([r; ,
2
) ,
A
(r; ,
1
) . para todo (r. ) R
A
R
Y
. (7.5)
NOTE que, como en el captulo anterior, con el n de simplicar la no-
tacin utilizamos (r. ) en lugar de (r
1
. r
2
). En este caso sencillo, los prob-
lemas del conjunto de condicionalidad creciente y el de heterogeneidad no
se presentan. En este contexto, el problema de condicionalidad se trata de
forma ecaz mediante la extensin del concepto de momentos condicionales a
funciones de los valores de la variable condicionante. En la seccin 3 exten-
demos el concepto de funciones momento condicional para tener en cuenta la
presencia de la distribucin marginal ,
1
(r
1
; ,
1
). Esto da lugar al concepto
de funciones momento condicional estocstico. En la seccin 4 consideramos
la pregunta: en qu circunstancias puede el modelador ignorar la distribu-
cin marginal? - la respuesta conduce al concepto de exogeneidad dbil. En
la seccin 5 se introduce un nuevo componente al concepto de modelo es-
tadstico, adems de los modelos de probabilidad y muestral. Este nuevo
componente se llama mecanismo generador estadstico (MG) y constituye
un puente entre los modelos estadsticos y tericos. En la seccin 6 hace-
mos una breve excursin histrica para rastrear las races de la regresin a
Francis Galton (1822-1911) y Karl Pearson (1857-1936) con el n de propor-
cionar una breve descripcin de la tradicin biomtrica en estadstica. Esta
tradicin fue reformulada posteriormente por R.A Fisher (1890 - 1962) en
la inferencia estadstica moderna. Recordamos al lector que en el captulo 1
hemos mencionado brevemente dos de las tradiciones ms antiguas en la es-
tadstica, la teora de los errores y el diseo experimental, argumentando que
son ms adecuadas para el anlisis estadstico de datos experimentales; o de
datos que puede ser visto como generados por un sistema casi aislado. Una
lnea especialmente importante de la argumentacin que corre a travs de
306 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
este libro es que la tradicin biomtrica es ms adecuada para la modelacin
de datos observacionales (no experimentales).
6.2 Condicionalidad y regresin
6.2.1 Reduccin y funciones condicionales momento
Como se ha dicho anteriormente, la igualdad en la reduccin (7.5) no rep-
resenta una distribucin conjunta a la izquierda y un producto de una dis-
tribucin condicional y una marginal de la derecha! El concepto de dis-
tribucin condicional discutido en el captulo 6 se dene con respecto a un
valor especco de la variable condicionante, pero el cuanticador para todo
(r. ) R
A
R
Y
signica que para cada valor de la variable condicionante,
r R
A
, existe una distribucin condicional. Desde el punto de vista de
la modelacin, el problema de la condicionalidad tiene dos dimensiones. La
primera dimensin es que:
, ([r; ,
2
) . (r. ) R
A
R
Y
. (7.6)
dene una (posiblemente innita) familia de densidades condicionales in-
dexada por los diferentes valores de la variable aleatoria A. La segunda
dimensin es que cada densidad condicional en (7.5) es ponderada por la
probabilidad marginal asociada con el correspondiente valor condicionante
de la variable aleatoria A. En esta seccin consideramos el problema de mu-
chos (posiblemente un nmero innito de) distribuciones condicionales. La
dimensin de la ponderacin ser discutido en las secciones 3-4. Para hacer la
discusin menos abstracta consideremos esta cuestin usando algunos ejem-
plos.
Ejemplos
(i) Considere la distribucin conjunta y marginal como se indica a con-
tinuacin:
y/x 1 2 3 ,
Y
()
0 0.20 0.10 0.15 0.45
1 0.10 0.25 0.05 0.40
2 0.01 0.06 0.08 0.15
,
A
(r) 0.31 0.41 0.28 1
(7.7)
6.2. CONDICIONALIDAD Y REGRESIN 307
De acuerdo con (7.6) esta distribucin conjunta dar lugar a tres difer-
entes distribuciones condicionales, , ( [ A = r) para r = 1. 2 y 3. dadas
por:
,([r = 1) =
_

_
)(a=1,j=0)
)
^
(a=1)
=
0.20
0.31
. = 0.
)(a=1,j=1)
)
^
(a=1)
=
0.10
0.31
. = 1.
)(a=1,j=2)
)
^
(a=1)
=
0.01
0.31
. = 2.
_

0 1 2
, ([r = 1) 0.645 0.323 0.032
,([r = 2) =
_

_
)(a=2,j=0)
)
^
(a=2)
=
0.10
0.41
. = 0.
)(a=2,j=1)
)
^
(a=2)
=
0.25
0.41
. = 1.
)(a=2,j=2)
)
^
(a=2)
=
0.06
0.41
. = 2.
_

_
(7.8)

0 1 2
, ( [ r = 2) 0.244 0.610 0.146
,([r = 3) =
_

_
)(a=3,j=0)
)
^
(a=3)
=
0.15
0.28
. = 0.
)(a=3,j=1)
)
^
(a=3)
=
0.05
0.28
. = 1.
)(a=3,j=2)
)
^
(a=3)
=
0.08
0.28
. = 2.
_

0 1 2
, ([r = 3) 0.536 0.179 0.285
NOTA. En ,([r = 3) hay un error en el texto. Dice
)(a=2,j=1)
)
^
(a=3)
y
)(a=2,j=2)
)
^
(a=3)
; debera decir,
)(a=3,j=1)
)
^
(a=3)
y
)(a=3,j=2)
)
^
(a=3)
.
ii) Considere el caso en que , (r. ; ) es normal bivariada de la forma:
_
1
A
_
~ `
__
j
1
j
2
_
.
_
o
11
o
12
o
21
o
22
__
. (7.9)
NOTAR que j
1
= 1(1 ). j
2
= 1(A). o
11
= \ c:(1 ). o
22
= \ c:(A).
o
12
= Co(A. 1 ). Las distribuciones condicional y marginal en (7.5) toman
la forma:
308 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
(1 [A = r) ~ `
_
,
0
+,
1
r. o
2
_
. r R. A ~ ` (j
2
. o
22
) . (7.10)
,
0
= j
1
,
1
j
2
. ,
1
=
_
o
12
o
22
_
. o
2
= o
11

_
o
2
12
o
22
_
.
Esto muestra que la distribucin condicional representa una familia in-
nita de las densidades condicionales, una para cada valor de r R.
Los ejemplos anteriores sugieren que cualquier intento de tratar con la
modelacin de la reduccin (7.5), concentrndose en los momentos de las
distribuciones implicadas est condenado. Esto se debe a la presencia de una
densidad condicional para cada valor de la variable condicionante. Es decir,
an cuando la distribucin conjunta de la izquierda y la distribucin marginal
de la derecha puedan (posiblemente) ser modeladas a travs de sus momentos,
las densidades condicionales dan lugar a un nmero posiblemente innito de
momentos condicionales (un conjunto para cada valor de la variable aletoria
A). Es decir, el uso de los momentos condicionales no trata con la reduccin
de manera efectiva. Esto se debe a que los momentos condicionales se denen
para cada miembro de la familia (7.6) por separado y el modelador se enfrenta
a la pregunta: qu conjunto de momentos condicionales usar?
Ejemplo
En el caso de la distribucin conjunta dada en (7.7), le corresponden tres
distribuciones condicionales (vase (7.8)), una para cada valor de A. Por lo
tanto, hay tres pares de medias y varianzas condicionales:
, ([r = 1) : 1 (1 [r = 1) = 0.387. \ c: (1 [r = 1) = 0.301.
, ([r = 2) : 1 (1 [r = 2) = 0.902. \ c: (1 [r = 2) = 0.380.
, ([r = 3) : 1 (1 [r = 3) = 0.749. \ c: (1 [r = 3) = 0.758.
La respuesta a la pregunta de qu conjunto de momentos condicionales
utilizar es, en pocas palabras, todas ellos combinados extendiendo los mo-
mentos condicionales de una manera anloga a la familia (7.6). Es decir,
extendiendo el concepto de momentos condicionales para dar cuenta de to-
dos los valores de la variable aleatoria A, denimos las funciones momento
condicional:
Crudo: 1 (1
v
[A = r) = /
v
(r) . r R. : = 1. 2. ...
6.2. CONDICIONALIDAD Y REGRESIN 309
Central: 1 (1 1 [1 [A = r]
v
[ A = r) = q
v
(r) . r R. : = 2. 3. ....
(7.11)
donde para un valor especicado A = r, estos momentos condicionales
se denen (ver captulo 4) por:
1 (1
v
[A = r) =
_
jR
Y

v
, ([r) d. : = 1. 2. ...
1 ([1 1 (1 [A = r)]
v
[A = r) =
_
jR
Y
[ 1 ([r)]
v
, ([r) d. : = 2. 3. ...
Ejemplo
En el caso de la distribucin conjunta dada en (7.7) y los momentos
condicionales como los dados en el ejemplo anterior, las funciones asociadas
con la media y la varianza condicional toman la forma:
r 1 (1 [A = r) = /
1
(r)
1 0.387
2 0.902
3 0.749
r \ c: (1 [A = r) =g
2
(r)
1 0.301
2 0.380
3 0.758
La utilizacin del concepto de funciones trata directamente con el prob-
lema de muchos sistemas diferentes de momentos condicionales al hacer los
momentos funciones de los valores de la variable condicionante. En los casos
en los cuales estas funciones pueden ser denidas en trminos de formas fun-
cionales especcas, ellas ofrecen formas sencillas de modelar la dependencia.
Como argumentamos en lo que sigue, para la mayora de las distribuciones
de dos variables, podemos obtener estas funciones de forma explcita.
6.2.2 Regresin y funciones cedsticas
En la modelacin de la dependencia a menudo nos concentramos slo en las
primeras de estas funciones relacionadas con la familia de densidades (7.6).
En particular, el objetivo principal de los modelos de regresin es el mod-
elo (7.6) a travs de las primeras pocas funciones momento condicional tal
310 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
como se denen en (7.11). La literatura actual sobre los modelos de regre-
sin se concentra casi exclusivamente en las dos primeras de tales funciones
momento condicional.
(i) La funcin de regresin se dene como la media condicional de 1
dado A = r, interpretada como una funcin de r:
1 (1 [A = r) = /(r) . r R
A
. (7.12)
NOTE que el trmino Regresin fue acuado por primera vez por Galton
(1885); vase ms adelante
ii) La funcin cedtica se dene como la varianza condicional interpre-
tada como una funcin de r:
\ c: (1 [A = r) = q (r) . r R
A
. (7.13)
El trmino cedstico fue acuado por Pearson (1905) y se basa en las
palabras griegas oiocoj = dispersin (scattering) y oioct o. = disperso
(scattered).
OBSERVACIN: las grcas (/(r) . r) y (g(r) . r) para todo r R
A
.
constituyen lo que llamamos las curvas de regresin y cedstica, respec-
tivamente.
(1) Normal bivariada. Como se ha mostrado antes, en el caso de la
distribucin normal de dos variables (7.9) con := (j
1
. j
2
. o
11
. o
12
. o
22
) . la
densidad condicional de 1 dado A = r es tambin normal de la forma
([A = r) ~ `
__
j
1
+
_
o
12
o
22
_
(r j
2
)
_
. o
11

_
o
2
12
o
22
__
. r R. (7.14)
Esto muestra que ,
1
:= (j
2
. ,
22
) . ,
2
:= (,
0
. ,
1
. o
2
) y las funciones de
regresin y cedstica toman la forma dada antes:
1 (1 [A = r) = ,
0
+,
1
r. \ c: (1 [A = r) = o
2
. r R.
,
0
= (j
1
,
1
j
2
) R. ,
1
=
_
o
12
o
22
_
R. o
2
= o
11

_
o
2
12
o
22
_
R
+
. (7.15)
Como podemos ver, la funcin de regresin para la normal conjunta es
una funcin lineal de r y la funcin cedstica est libre de r.
6.2. CONDICIONALIDAD Y REGRESIN 311
Las funciones de regresin y cedstica (7.15) se muestran en las guras 7.1
y 7.2, respectivamente, con valores de los parmetros j
1
= 1.5, j
2
= 1, o
11
=
1, o
22
= 1 y tres distintos valores de o
12
= 0.8, 0.1, 0.9. Como podemos
ver, la pendiente de la recta de regresin depende del signo de la covarianza.
En la gura 7.2 podemos ver las correspondientes curvas cedsticas que son
paralelas al eje r, como se esperaba. El modelo de regresin Normal es uno de
los pocos modelos donde la distribucin marginal de A puede ser ignorada, ya
que, como se muestra en la seccin 4, A es dbilmente exgena con respecto
a la parmetros ,
2
.
Regresin lineal. En el caso donde la media condicional tiene la forma
dada en (7.15), la funcin de regresin se dice que es lineal en r.
PRECAUCIN. Es importante distinguir entre la linealidad en r y la
linealidad en los parmetros. El polinomio de segundo grado de la forma:
/(r) = c
0
+c
1
r +c
2
r
2
no es lineal en r pero es lineal en los parmetros (c
0
. c
1
. c
2
). Por otra
parte, la funcin
/(r) =
1

3
(r
2
)
2
no es lineal, tanto en los parmetros (
1
.
2
.
3
) como en r. NOTE que
hay una relacin directa entre los dos conjuntos de parmetros: c
0
=
1

2
2
, c
1
= 2
2

3
, c
2
=
3
. Esto sugiere que la parametrizacin de inters
particular es a menudo una cuestin de eleccin.
La funcin de regresin (7.15) es lineal en r y en los parmetros (,
0
. ,
1
),
pero a partir de (7.14) es obvio que no es lineal en los parmetros primarios
(j
1
. j
2
. o
11
. o
22
. o
12
).
312 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Figura 7.1 Lneas de regresin Normal.
Figura 7.2 Lneas cedstica Normales.
Homocedasticidad. En el caso de que la varianza condicional no de-
penda de la
variable condicionante, es decir, para alguna constante c
0
R:
\ c: (1 [A = r) = c
0
. r R
A
.
se dice que es homocedstica (Ver (7.15)).
Heterocedasticidad. En el caso de que funcin cedstica dependa de
los valores de la
variable condicionante, es decir:
\ c: (1 [A = r) = g(r) . r R
A
.
se dice que es heterocedstica.
Es interesante NOTAR que los conceptos (y la terminologa) de homo-
cedasticidad/heterocedasticidad se introdujo por primera vez por Pearson
(1905). (2) t de Student bivariada. En el caso de la distribucin t de
Student de dos variables con 2 grados de libertad, que se denota por:
_
1
A
_
~ ot
__
j
1
j
2
_
.
_
o
11
o
12
o
21
o
22
_
;
_
. (7.17)
la densidad condicional de 1 dado A = r y la densidad marginal de A
son tambin t de Student (vese Apndice B). Las funciones de regresin y
cedstica toman la forma dada a continuacin:
6.2. CONDICIONALIDAD Y REGRESIN 313
1 (1 [A = r) = ,
0
+,
1
r. \ c: (1 [A = r) =
o
2
1
_
1 +
1
o
22
[r j
2
]
2
_
. r R.
,
0
= j
1
,
1
j
2
R. ,
1
=
_
o
12
o
22
_
R. o
2
= o
11

_
o
2
12
o
22
_
R
+
. (7.18)
Como podemos ver, los parmetros ,
0
. ,
1
y o
2
coinciden con los de la
Normal condicional en (7.10). La funcin cedstica diere de la Normal
en la medida en que (7.18) es heterocedstica: una funcin de la variable
condicionante. En la gura 7.3 podemos ver tres funciones cedsticas t de
Student ( = 4. 8. 20) con los parmetros j
2
= 1, o
22
= 1, o
12
= 0.8.
La curvatura de la curva cedstica est inversamente relacionada con los
grados de libertad de parmetros: cuanto menor sea el valor de mayor es la
curvatura de la funcin cedstica. Es interesante NOTAR que en el caso de
que = 20, la curva cedstica est muy cerca de una lnea recta (una lnea
Normal cedstica).
Figura 7.3 Curvas cedsticas t de Student.
(3) Exponencial bivariada. En contraste con la forma de las funciones
de regresin y cedstica de la Normal de dos variables, en el caso de la
distribucin exponencial bivariada las funciones de regresin y cedstica son
altamente no lineales en r (y por lo tanto heterocedsticas):
1 (1 [A = r) =
1 +o +or
(1 +or)
2
. \ c: (1 [A = r) =
_
(1 +o +or)
2
2o
2

[1 +or]
4
, r R
+
. o 0.
314 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
El parmetro o se relaciona de forma no lineal con el coeciente de cor-
relacin a travs de:
j := 1 +
_
o
0
_
c
a
1 +or
_
dr
con algunos valores tpicos dados enseguida:
o = 0.01 0.2 0.5 1 2 3 4 8 12
20 600
j = 0.01 0.148 0.278 0.404 0.538 0.614 0.665 0.770 0.820 0.870
0.990
En la gura 7.4 podemos ver tres curvas de regresin Exponencial (o = 1. 2. 3)
y las curvas cedsticas correspondientes se muestran en la gura 7.5.
Figura 7.4 Curvas de regresin Exponencial.
Figura 7.4 Curvas cedsticas Exponenciales.
6.2. CONDICIONALIDAD Y REGRESIN 315
Regresin. Distribuciones continuas adicionales
Varios ejemplos de funciones de regresin y cedsticas asociadas a otras
distribuciones conjuntas se muestran a continuacin en un intento de disipar
la impresin errnea de que la linealidad de la funcin de regresin y la
homocedasticidad de la funcin cedstica es la regla.
(4) Bivariada tipo Pearson II.
1 (1 [A = r) = ,
0
+,
1
r. [2 ( + 2)
_
o
22
] < r < [2 ( + 2)
_
o
22
]
\ c: (1 [A = r) = o
2
_
_
1
2 + 3
_
_
1
(r j
2
)
2
o
22
__
, r R
,
0
= (j
1
,
1
j
2
) R. ,
1
=
_
o
12
o
22
_
R. o
2
= o
11

_
o
2
12
o
22
_
R
+
.
La funcin de regresin de las distribuciones Pearson tipo II coincide con
las de las distribuciones Normal y t de Student. Su funcin cedstica, que
se muestra en la gura 7.6 para tres valores diferentes para los grados de
libertad ( = 1. 2. 3) y (j
2
= 1. o
22
= 1. o
12
= 0.8), es heterocedstica pero
a diferencia de la t de Student, tiene un rango nito (compare las guras 7.3
y 7.6).
Figura 7.6. Curvas cedsticas tipo Pearson II.
Familia simtricas elpticamente. El hecho de que las funciones de
regresin de las distribuciones Normal, t de Student y Pearson tipo II co-
incidan es un caso especial de un resultado general. Las tres distribuciones
316 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
pertenecen a la familia de distribuciones simtricas elpticamente que com-
parten la misma funcin de regresin (cuando los momentos requeridos ex-
isten). Por otra parte, la funcin cedstica para todas las distribuciones
excepto la Normal, son heterocedsticas (vase Spanos (1994) para ms dis-
cusin). La diferencia bsica entre estas tres distribuciones simtricas elpti-
camente es en trminos de su curtosis: la Normal es mesocrtica (curtosis =
3), la distribucin t de Student es leptocrtica (kurtosis 3) y la tipo II de
Pearson es platicrtica (curtosis < 3).
(5) Pareto bivariada.
1 (1 [A = r) = o
1
+
_
o
1
o
3
o
2
_
r
\ c: (1 [A = r) =
_
o
1
o
2
_
2
(1 +o
3
)
(1 +o
3
) o
2
3
r
2
, r R
+
o
1
0, r o
2
0, o
3
0.
En las guras 7.7 y 7.8 podemos ver la regresin Pareto y las curvas
cedsticas con parmetros (o
1
= 1, o
2
= 1.5) y tres diferentes valores de o
3
=
3. 4. 8, respectivamente.
Figura 7.7. Lneas de regresin Pareto.
6.2. CONDICIONALIDAD Y REGRESIN 317
Figura 7.8. Curvas cedsticas Pareto.
(6) Logstica bivariada.
1 (1 [A = r) = 1 log
c
1 + exp
_

(r j)
o
_
, r R
\ c: (1 [A = r) =
1
3
:
2
1 = 2.29, j R, o R
+
En las guras 7.9 y 7.10 podemos ver las curvas de regresin y cedsticas
de la distribucin Logstica con parmetros (j
1
, o = 0.5, 1.2, 4.5), respec-
tivamente. Como podemos ver, la distribucin Logstica bivariada produce
una curva de regresin altamente no lineal y una funcin varianza condicional
homocedstica. Cabe sealar que la Logstica bivariada es una de las pocas
distribuciones con una funcin de cedasticidad constante.
Figura 7.9 Curvas de regresin logstica.
318 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Figura 7.9 Lneas cedsticas logsticas.
(5) Beta bivariada.
1 (1 [A = r) =
o
2
[o
2
+o
3
]
(1 r)
\ c: (1 [A = r) =
o
2
o
3
(o
2
+o
3
)
2
(1 +o
2
+o
3
)
(1 r)
2
,
para r [0. 1] , donde o
1
0, o
2
0, o
3
0.
En la gura 7.11 podemos ver las curvas cedsticas de la distribucin Beta
con parmetros (o
1
= 20. o
2
= 20. o
3
= 1), (o
1
= 4. o
2
= 4. o
3
= 4), (o
1
= 1. o
2
= 1. o
3
= 8).
Teniendo en cuenta el hecho de que el coeciente de correlacin toma la forma:
j = 1
_
o
1
o
2
(o
1
+o
3
) (o
2
+o
3
)
,
podemos ver que la pendiente de estas lneas est directamente rela-
cionada con la correlacin. En la gura 7.12 podemos ver las correspondientes
curvas cedsticas.
6.2. CONDICIONALIDAD Y REGRESIN 319
Figura 7.11 Lneas de regresin Beta.
Figura 7.12 Curvas cedsticas Beta.
(8) Gamma Bivariada (Kibble).
1 (1 [A = r) = o
2
(1 o
1
) +o
1
r, r R
+
, o
1
[0. 1], o
2
R
+
\ c: (1 [A = r) = (1 o
1
) [o
2
(1 o
1
) + 2o
1
r] , r R
+
.
para r [0. 1] , donde o
1
0, o
2
0, o
3
0.
En las guras 7.13 a 14 podemos ver las curvas de regresin y cedsticas de
distribucin gamma (Kibble) con parmetros (o
1
= 1.0, 1.5, 2.0, o
2
= 2.0).
NOTE que o
1
es el coeciente de correlacin.
320 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Figura 7.13 Regresiones Gamma (Kibbel).
Figura 7.14 Curvas cedsticas Gamma (Kibbel).
(9) Gamma Bivariada (Cherian).
1 (1 [A = r) = o
2
+
_
o
0
(o
1
+o
0
)
_
r, r R
+
, (o
0
. o
1
. o
2
) R
3
+
\ c: (1 [A = r) = o
2
+
o
0
o
1
(o
1
+o
0
)
2
(1 +o
1
+o
0
)
r
2
, r R
+
.
En las guras 7.15-7.16 podemos ver las curvas de regresin y cedstica de
la distribucin Gamma (Cherian) con parmetros (o
0
= 0.1. 0.2. 20, o
1
= 2.0, o
2
= 1).
NOTE que el coeciente de correlacin toma la forma j =
_
0
0
(0
1
+0
0
)(0
2
+0
0
)
,
y por lo tanto, para los tres valores anteriores de o
0
la correlacin toma los
6.2. CONDICIONALIDAD Y REGRESIN 321
valores: 0,066, 0,577, 0,930, respectivamente. La pendiente de las lneas de
regresin es mayor cuanto mayor sea la correlacin y la curvatura de las
curvas cedsticas es mayor cuanto mayor sea la correlacin.
Figura 7.15 Regresiones Gamma (Cherian).
Figura 7.16 Curvas cedsticas Gamma (Cherian).
(10) Gamma Bivariada (McKay).
1 (1 [A = r) =
_
o
1
c
_
+r, r R
+
, (o
1
. o
2
. c) R
3
+
,
\ c: (1 [A = r) =
_
o
1
c
2
_
, r R
+
,
1 (A[1 = ) =
_
o
1
(o
1
+o
2
)
_
, r R
+
, (o
1
. o
2
. c) R
3
+
,
\ c: (A[1 = ) =
_
o
1
o
2
(o
1
+o
2
)
2
(1 +o
1
+o
2
)
_

2
, r R
+
.
322 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
NOTA IMPORTANTE. Esta distribucin Gamma bivariada ilustra una
cuestin importante en relacin a los modelos tipo regresin. Dado el pre-
dominio de la distribucin Normal bivarida, hay una idea equivocada de que
todas las distribuciones de dos variables son simtricas con respecto a las
variables aleatorias A e 1 . En el caso anterior de la distribucin Gamma bi-
variada McKay las distribuciones condicionales ,([r; o) y ,(r[; o) son muy
diferentes, dando lugar a momentos condicionales que no se parecen el uno
al otro. Por ejemplo ,([r; o) da lugar a una funcin homoscedstica pero
,(r[; o) da lugar a una funcin heterocedstica.
(11) F Bivariada.
1 (1 [A = r) =
_
o
0
(o
0
+o
1
2)
_
+
_
o
1
(o
0
+o
1
2)
_
r, r R
+
, (o
0
. o
1
. o
2
) R
3
+
\ c: (1 [A = r) =
_
2 (o
1
+o
2
+o
0
2)
o
2
(o
1
+o
0
4) (o
1
+o
0
2)
2
_
(o
0
+o
1
r)
2
, r R
+
, (o
1
+o
2
) 4
En las guras 7.17-7.18, podemos ver tres curvas de regresin y cedsticas
de la distribucin F con parmetros (o
0
= 80, o
1
= 4, o
2
= 2), (o
0
= 12, o
1
= 8, o
2
= 8),
(o
0
= 5, o
1
= 60, o
2
= 60). NOTE que el coeciente de correlacin toma la
forma:
j =
_
o
1
o
2
(o
1
+o
0
2) (o
2
+o
0
2)
,
y por lo tanto para estos tres conjuntos de valores la correlacin es de
0.035, 0.444 y 0.952, respectivamente. Las lneas de regresin tienen una
pendiente mayor cuanto mayor sea la correlacin y las curvas cedsticas pre-
sentan mayor curvatura cuanto mayor es la correlacin.
6.2. CONDICIONALIDAD Y REGRESIN 323
Figura 7.17 Lneas de regresin F.
Figura 7.18 Curvas cedsticas F.
(12) Log Normal Bivariada.
1 (1 [A = r) =
_
r
j
2
_
o
c
j
1
+
1
2
o
2
, r R
+
, o
2
= o
11

_
o
2
12
o
22
_
R
+
,
\ c: (1 [A = r) =
_
r
j
2
_
2o
c
2j
1
+o
2
_
c
o
2
1
_
, r R
+
, , =
_
o
12
o
22
_
R.
La gura 7.19 muestra tres funciones de regresin de una distribucin log-
artmica normal con parmetros (j
1
= 1, j
2
= 1, o
2
= 0.4) y tres diferentes
valores de , = 0.2. 0.4. 0.8. NOTE que la diferencia principal entre estas
curvas de regresin y las correspondientes curvas cedsticas mostradas en la
gura 7.20 es el factor de escala
_
c
o
2
1
_
.
324 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Figura 7.19 Curvas de regresin Lognormales.
Figura 7.20 Curvas cedsticas Lognormales.
Regresin: distribuciones discretas
(13) Binomial bivariada.
1 (1 [A = r) = o
2
(1 o
1
) (: r) ,
\ c: (1 [A = r) =
o
2
(1 o
1
o
2
)
(1 o
1
)
(: r) ,
o
1
[0. 1], o
2
[0. 1], : = 1. 2. .... o
1
+o
2
< 1, r = 0. 1. ...
(14) Poisson bivariada.
1 (1 [A = r) = (o
2
o
3
) +
o
1
o
3
r, r = 0. 1. 2. .... o
1
0, o
2
0. o
3
0,
\ c: (1 [A = r) = (o
2
o
3
) +
_
[o
1
o
3
]
o
3
o
2
1
_
r. r = 0. 1. .... o
3
< min (o
1
. o
2
) .
o
1
[0. 1], o
2
[0. 1], : = 1. 2. .... o
1
+o
2
< 1, r = 0. 1. ...
(15) Binomial negativa bivariada.
1 (1 [A = r) =
o
2
(1 o
2
)
(o
1
+r) , r = 0. 1. 2. .... o
2
(0. 1) 0, o
1
0,
\ c: (1 [A = r) =
o
2
(1 o
2
)
2
(o
1
+r) , r = 0. 1. 2. ...
6.2. CONDICIONALIDAD Y REGRESIN 325
Concluimos esta subseccin SEALANDO que entre los ejemplos anteri-
ores, la normal es la nica distribucin conjunta con una funcin de regresin
lineal y una varianza condicional homoscedstica. La mayora de las distribu-
ciones anteriores tienen varianza condicional heterocedstica y varias curvas
de regresin no lineales.
6.2.3 Funciones clticas y crticas
La pregunta que surge naturalmente en esta etapa es: por qu considerar
slo las dos primeras funciones momento condicional (regresin y cedstica)
en la modelacin de la dependencia? Sabemos que en general necesitamos
muchos (a menudo un nmero innito) momentos para caracterizar distribu-
ciones (ver captulo 3). El hecho de importancia es que no hay ningn argu-
mento convincente que demuestre que el modelador debe considerar slo las
dos primeras funciones condicionales momento a menos que se asuma que la
distribucin es normal; vase el captulo 3. Una vez ms esta situacin surgi
debido a que la distribucin normal ha ejercido indebidamente su bien cono-
cida inuencia. En la modelacin economtrica hay un enfoque casi exclusivo
en la funcin de regresin con raras excursiones en el territorio de la funcin
cedstica. Una mirada supercial a la literatura economtrica tradicional ac-
tual revela, no obstante, una especie de esquizofrenia sobre la especicacin
del modelo lineal como es llamado tradicionalmente. Por un lado, los libros
de texto tradicionales ensalzan las virtudes del teorema de Gauss Markov,
basado en una regresin lineal y una funcin homocedstica (vase el cap-
tulo 13), debido a su falta de conanza en el supuesto de Normalidad. La
cuestin, sin embargo, que se plantea es: por qu slo especicar los dos
primeros momentos condicionales si uno no asume normalidad? Por otro
lado, hay un apego inexplicable a la distribucin normal, incluso en los casos
en los cuales la heterocedasticidad es explcitamente modelada (vase Spanos
(1995a)). Adems, la tendencia en la modelacin de la heterocedasticidad
es a usar funciones ad hoc en lugar de formas funcionales especcas rela-
cionadas con la distribucin conjunta que no sea la Normal. Los ejemplos
anteriores sugieren que hay varias otras distribuciones que dan lugar a difer-
entes formas de heterocedasticidad que permanecen sin explorar; ver Spanos
(1994) sobre los resultados relativos a la familia simtrica elptica.
La teora de la probabilidad sugiere que existen buenas razones para creer
que cuando se trata con distribuciones conjuntas elpticas no simtricas, sern
necesarias algunas funciones condicional momento para capturar la depen-
326 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
dencia de orden superior. Las siguientes dos funciones momento condicional
central, introducida por primera vez por Pearson (1905), son los siguientes:
(iii) funcin cltica: 1
_
[1 1 (1 [A = r)]
3
[A = r
_
=g
3
(r), r R
A
,
(iii) funcin crtica: 1
_
[1 1 (1 [A = r)]
4
[A = r
_
=g
4
(r), r R
A
.
Ejemplos
(i) En el caso de la distribucin Beta bivariada estas funciones toman
la forma:
1
_
[1 1 (1 [A = r)]
3
[A = r
_
=
_
2o
2
o
3
(o
3
o
2
)
(o
2
+o
3
)
3
(1 +o
2
+o
3
) (2 +o
2
+o
3
)
_
(1 r)
3
, r [0. 1]
1
_
[1 1 (1 [A = r)]
4
[A = r
_
=
_
3o
2
o
3
_
2o
2
2
2o
2
o
3
+o
2
2
o
3
+ 2o
2
3
o
2
o
2
3
_
(o
2
+o
3
)
4
(1 +o
2
+o
3
) (2 +o
2
+o
3
) (3 +o
2
+o
3
)
_
(1 r)
4
,
Como podemos ver, la distribucin Beta bivariada proporciona funciones
heterclitas y heterocrticas. Los conceptos y la terminologa homclita /
heterclita fue introducida por Pearson (1905).
(ii) En el caso de la distribucin t de Student bivariada estas funciones
tienen la forma:
1
_
[1 1 (1 [A = r)]
3
[A = r
_
= 0, r R,
1
_
[1 1 (1 [A = r)]
4
[A = r
_
=
3 ( 1)
( 3)
[\ c: (1 [A)]
2
, r R.
Como podemos ver, la distribucin t de Student bivariada produce fun-
ciones homclitas y heterocrticas; esta ltima es una forma especial siendo
una funcin de la funcin cedstica. Ambas caractersticas se deben a la
naturaleza elptica de la distribucin.
6.3. REDUCCIN Y CONDICIONALIDAD ESTOCSTICA 327
6.3 Reduccin y condicionalidad estocstica
Despus de haber tratado el problema de muchas distribuciones condicionales
mediante la ampliacin del concepto de momentos a funciones condicionales
momento, regresemos a la reduccin original:
, (r. ; c) = , ([r; ,
2
) ,
A
(r; ,
1
) , para todo (r. ) R
A
R
Y
. (7.19)
Observemos que en el lado derecho existe una familia de densidades condi-
cionales, donde se pondera cada una por la probabilidad marginal correspon-
diente. En la denicin de las funciones momento condicional:
/
v
(r) = 1 (1
v
[A = r) , r R
A
ignoramos el peso marginal y nos concentramos exclusivamente en la fa-
milia de las densidades condicionales , ([A = r; ,
2
) , (r. ) R
A
R
Y
.
En cierto sentido, esto equivale a suponer que los diferentes valores que toma
la variable aleatoria A ocurren con una probabilidad de uno:
/
v
(r) = 1 (1
v
[A = r) , donde 1 (A = r) = 1, para todo r R
A
. (7.20)
Sin embargo, como se muestra en (7.19) esto no es del todo correcto. Una
forma ms apropiada de especicar estas funciones es la de tener en cuenta
las probabilidades marginales asociadas a los diferentes valores r R
A
. El
problema es especicar estas funciones sin dejar de lado el hecho de que los
diferentes valores de A ocurren con diferentes probabilidades dadas por la
densidad marginal , (r; ,
1
). NOTE una vez ms que en el caso de variables
aleatorias continuas, como se mencion en el captulo 3, los pesos no son
probabilidades propias.
La manera formal de hacer frente a este problema consiste en ampliar el
concepto de condicionalidad un paso ms all: para dar cuenta de todos los
eventos asociados con la variable aleatoria A; no slo de su rango de valores.
Es decir, en vez de concentrarse exclusivamente en los eventos condicionantes
de la forma:
: : A (:) = r , para todo r R
A
,
328 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
en el contexto del espacio de probabilidad (o. . 1(.)), consideramos el o-
campo generado por la variable aleatoria A (para todos los posibles eventos
asociados a A; ver captulo 3):
o (A) := o
_
A
1
(. r]
_
para todo r R
A
.
Esto nos permite denir las funciones estocsticas condicional momento:
/
v
(r) = 1 (1
v
[o (A)) , para A~1
A
(.) , (7.21)
donde 1
A
(.) denota la distribucin marginal de la variable aleatoria A.
Este condicionamiento es signicativo, porque o (A) . La cuestin, sin
embargo, es: qu sentido atribuimos a tales funciones estocsticas condi-
cionales? Es obvio que las funciones /
v
(r) = 1 (1
v
[o (A)) son diferentes
de aquellas en (7.20), porque las primeras son variables aleatorias, siendo
una funcin de la variable aleatoria A; por lo tanto una variable aleatoria
en s misma! Se ven como momentos condicionales pero son estocsticos en
naturaleza!
NOTA: sin prdida de generalidad nos concentramos en el caso simple
: = 1. Esto se debe a que para cualquier variable aleatoria 2 y cualquier
funcin de la forma 2
v
podemos denir una nueva variable aleatoria 1 = 2
v
.
6.3.1 Signicado de 1 (1
r
[o (A))
En primer lugar, encontramos condicionamiento en el contexto del espacio de
probabilidad (o. . 1(.)) en relacin con los eventos . 1 . Recordamos
al lector que el concepto matemtico de probabilidad 1(.) requiere que el
modelador especique el conjunto de todos los eventos de inters relacionados
con o, por ejemplo, , y la conguracin de matemtica es denida por
el espacio de probabilidad (o. . 1(.)). En este contexto, la probabilidad
condicional de dado 1 toma la forma:
1 ([1) =
1
1 (1)
, para 1 (1) 0,
y el condicionamiento sobre B puede ser intuitivamente entendido como
"se sabe que el evento B ha ocurrido. " El condicionamiento en general se
dene en relacin al conocimiento de que cierto evento(s) ha ocurrido. En
este sentido, la densidad condicional:
6.3. REDUCCIN Y CONDICIONALIDAD ESTOCSTICA 329
, ([r) =
, (r. )
,
A
(r)
, R
Y
,
debe ser entendida como la densidad revisada de la variable aleatoria 1 ,
dado que el evento : : A (:) = r ha ocurrido. En este punto es fundamental
hacer hincapi una vez ms que una distribucin condicional se dene en un
valor particular de la variable condicionante. Usando la densidad condicional
podemos denir la esperanza condicional sin ambigedades como:
1 (1 [A = r) =
_
jR
Y
, ([r) d.
En vista de la discusin anterior la expresin:
1 (1 [A) (7.22)
no tiene sentido matemtico porque la condicionalidad no es relativa a un
evento; una variable aleatoria no es un evento (un subconjunto del conjunto
de resultados de referencia o). Intuitivamente, sin embargo, sabemos que
para cada valor A = r, est bien denida y as uno puede pensar en (7.22)
como una funcin de A y, por lo tanto, una variable aleatoria en s misma.
Nuestra intuicin es ciertamente correcta, pero necesitamos formalizarla.
Para una variable aleatoria A denida sobre o, el evento : : A (:) = r
constituye un elemento de , en el sentido de que A
1
(r) . En efecto,
por denicin (ver captulo 3):
A
1
(r) , para todos lo valores r R
A
.
En vista de esto podemos deducir que la nica forma en la cual (7.22)
podra tener sentido matemtico es convertir la variable aleatoria condicio-
nante en un conjunto de eventos. Es decir, denir o (A): el o-campo denido
por la variable aleatoria A (ver captulo 3). En este sentido, la esperanza
condicional:
1 (1 [o (A)) (7.23)
debe ser signicativa, ya que, al menos intuitivamente, sta representa
la experanza dado que "algn evento relacionado con A ha ocurrido". El
sentido comn sugiere que la experanza normal 1(1 ) se puede ver desde
este punto de vista como
330 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
1 (1 [
0
) , donde
0
= o. ? , el espacio trivial de evento (no informativo).
Desde este punto de vista o (A) constituye una restriccin sobre (todo
informativo) en el sentido de que (ver captulo 3):
o. ? o (A) .
Habiendo acordado que (7.23) tiene sentido intuitivo necesitamos asegurar
que tambin tiene sentido matemtico.
Un caso simple. Antes de considerar el caso general, vamos a discutir
primero el caso en que ambas variables aleatorias A e 1 son discretas y
toman solamente un nmero nito de valores, es decir:
R
Y
:=
1
.
2
. ....
a
, R
A
:= r
1
. r
2
. .... r
n
.
En este caso la media condicional (7.23) se puede pensar en trminos de
los eventos:
:= 1
I
, / = 1. 2. .... : , donde 1
I
:= : : A (:) = r
I
, (7.24)
que constituyen una particin de o, en el sentido de que:
o =
_
n
I=1
1
I
, y 1
I
1
i
= ?, i ,= /, i. / = 1. 2. .... :.
En trminos de estos eventos podemos pensar en o (A) como denido por
sus 2
n
uniones; ni intersecciones ni complementos son necesarios porque
constituye una particin de o.
Ejemplo
Consideremos el ejemplo de lanzar una moneda dos veces, o = (HH). (H1). (1H). (11),
se elige que sea el conjunto potencia y se denen las variables aleatorias:
A(11) = 0. A(H1) = A(1H) = 1. A(HH) = 2.
1 (11) = 1 (HH) = 2. 1 (H1) = 1 (1H) = 1.
Tomando la preimagen de la variable aleatoria A podemos ver que:
6.3. REDUCCIN Y CONDICIONALIDAD ESTOCSTICA 331
1
0
= A
1
(0) = (11). 1
1
= A
1
(1) = (H1). (1H). 1
2
= A
1
(2) = (HH).
mostrando que esto constituye una particin de o, ya que:
1
0
1
1
= ?. 1
1
1
2
= ?. 1
0
1
2
= ? y o = 1
0
' 1
1
' 1
2
.
Por lo tanto,
o(A) = o. ?. 1
0
. 1
1
. 1
2
. 1
0
' 1
1
. 1
0
' 1
2
. 1
1
' 1
2
.
Regresando a la media condicional (7.23), podemos verla en trminos de
los eventos 1
I
:
1 (1 [A
I
= r
I
) =

a
i=1

i
1 (1 =
i
[A = r
I
) , / = 1. 2. .... :, (7.25)
que dene una sucesin de medias condicionales, una para cada valor de
A, donde:
1 (1 =
i
[A = r
I
) =
1 (1 =
i
, A = r
I
)
1 (A = r
I
)
, i = 1. 2. .... : / = 1. 2. .... :.
(7.26)
En este sentido las diferentes medias condicionales en (7.25) pueden in-
terpretarse en trminos de la variable aleatoria:
2 (.) := 1 (1 (.) [o (A(.))) : o R, (7.27)
de tal manera que cuando A(:) = r
I
entonces 2(:) = .
I
. / = 1. 2. .... :.
Adems, sustituyendo (7.26) en (7.25) y reordenando los trminos resulta:
1 (1 [A
I
= r
I
) 1 (A = r
I
) =

a
i=1

i
1 (1 =
i
. A = r
I
) , / = 1. 2. .... :.
En esta etapa debemos resistir la tentacin de interpretar la media condi-
cional (7.23) como la suma:

n
I=1
1 (1 [A
I
= r
I
) 1 (A = r
I
) =

n
I=1

a
i=1

i
1 (1 =
i
. A = r
I
) ,
(7.28)
332 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
porque, como se mostr anteriomente, o (A) involucra ms eventos que
slo
_
n
I=1
1
I
. Un momento de reexin, sin embargo, sugiere que esta suma
(7.28) dene la media condicional estocstica:
1 (1 (.) [) : o R.
Recordemos que yendo de tal como se dene en (7.24) (no un o-campo)
a o (A) sumamos todas las uniones de los eventos 1
I
, la variable aleatoria
(7.27) se puede pensar en trminos de todos los eventos de 1 o (A) como:

1o(A)
1 (1 [o (A)) 1 (1) =

1o(A)

a
i=1

i
1 (1 =
i
. 1) , para todo 1 o (A)
(7.29)
Es claro que 1 (1 [o (A)) es una variable aleatoria en relacin con o (A).
Ejemplo
Considere la siguiente distribucin conjunta:
x/y -1 0 1 , (r)
-1 0.1 0.2 0.1 0.4
1 0.2 0.1 0.3 0.6
, () 0.3 0.3 0.4 1
(7.30)
La distribucin(s) condicional de (1 [A = r) para r = 1 y r = 1 son
las siguientes:
1 0 1
, ([r = 1)
1
4
1
2
1
4
,
1 0 1
, ([r = 1)
1
3
1
6
1
2
(7.31)
Adems, las medias condicionales en estos casos son:
1 (1 [A = 1) = (1)
1
4
+ 0
1
2
+ 1
1
4
= 0,
1 (1 [A = 1) = (1)
1
3
+ 0
1
6
+ 1
1
2
=
1
6
.
1 (1 [o (A)) es una variable aleatoria en relacin con o (A) en el sentido
de que puede tomar dos valores
_
0.
1
6
_
, con probabilidades (0.4. 0.6), respec-
tivamente:
6.3. REDUCCIN Y CONDICIONALIDAD ESTOCSTICA 333
r 1 1
1 (A = r) 0.4 0.6
1 (1 [o (A)) 0
1
6
(7.32)
El caso ms general. Libros matemticamente ms inclinados expresan
(7.29) en el caso general, donde (A. 1 ) son variables aleatorias arbitrarias,
utilizando la expresin ms bien poco apetecible:
_
1
1 (1 [o (A)) d1 =
_
1
1 d1 para todo 1 o (A) . (7.33)
Esto dice que el promedio de 1 (1 [o (A)) sobre 1 es el mismo mismo
que la media de 1 misma sobre todos los subconjuntos 1 o (A) .
NOTE que en general 1 ,= 1 (1 [o (A)) porque 1 no es necesariamente
una variable aleatoria en relacin con o (A). Este resultado fue probado
por primera vez por Kolmogorov (1933a), pero las matemticas necesarias
para deducir la relacin anterior con rigor son bastante exigentes (ver Ash
(1972) para una deduccin ms rigurosa). Sin embargo, una comprensin
intuitiva de (7.33) puede ser adquirida viendo la esperanza como un operador
suavizado.
La manera ms conveniente para deshacerse de las integrales poco apeteci-
bles (o sumatorias) en (7.33) (y (7.29)) es utilizar la funcin indicador en
combinacin con el operador esperanza, es decir:
_
1
2d1 := 1 [21
1
] .
donde 1
1
denota la funcin indicador del conjunto 1: 1
1
(:) =
_
1, si : 1,
0, si : , 1.
_
.
Esto nos permite expresar (7.33) en la forma menos intimidante:
1 [1 (1 [o (A)) 1
1
] = 1 [1 1
1
]
_
1
1 d1 para todo 1 o (A) . (7.34)
NOTA: en vista del hecho de que o (A) incluye todas las posibles fun-
ciones de Borel de la variable aleatoria A, podemos denir 1 (1 [o (A)) en
trminos de dichas funciones a travs de:
1 [1 (1 [o (A)) g(A)] = 1 [1 g(A)] , para toda funcin Borel g(A) .
(7.34)
334 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
suponiendo que 1 [1 g(A)] < ; ver Parzen (1962).
Una extensin ms. La anterior denicin de esperanza condicional
(7.34) en el contexto del espacio de probabilidad (o. . 1(.)), se puede ex-
tender an ms a:
1 [1 (1 [) 1
1
] = 1 [1 1
1
] , para toda 1 ,
donde la denicin de la variable aleatoria 1 (1 [) gira en torno a la
eleccin de . En uno de los extremos del espectro podemos elegir que sea
subcampo no informativo: := o. C en cuyo caso:
1 (1 [
0
) = 1 (1 ) ,
donde 1
0
:= 1 (1 [
0
) puede ser visto como una variable aleatoria degen-
erada de la forma:
1
0
(.) : o 1 (1 ) , con probabilidad uno (n.j.1) .
NOTE que esta es una variable aleatoria con respecto a cualquier ;
todos los o-campos incluyen o. C. Vista como una operacin suavizada,
la variable aleatoria 1 es completamente suavizada a una constante. En el
otro extremo del espectro podemos elegir que sea el sub o campo todo
informativo (para 1 ):
Y
:= o (1 ), en cuyo caso el condicionamiento da
lugar a:
1 (1 [
Y
) = 1 , donde 1 (.) : o R
A
.
Viendo las esperanzas condicionales como una operacin de suavizado,
la variable aletoria 1 se deja intacta. NOTE que, en general, 1 no es una
variable aleatoria con respecto a
0
. Entre esos dos casos extremos, podemos
elegir que sea cualquier sub o-campo, tal que:

Y
=
+
,= ?. (7.35)
Esto nos permite pensar en
+
como la cantidad de informacin acerca
de 1 que contiene y 1 (1 [) puede ser vista como una operacin de
suavizado cuyo efecto es inversamente proporcional a la proximidad de
+
a
. En particular, la eleccin
0
:= o. ? no contiene informacin acerca de
1 (obtenindose una variable aleatoria degenerada) y la eleccin
Y
contiene
toda la informacin relevante acerca de 1 (obtenindose la variable aleatoria
6.3. REDUCCIN Y CONDICIONALIDAD ESTOCSTICA 335
1 misma). La eleccin
A
:= o (A) para la que (7.35) se mantiene, dar
lugar a cierta suavizacin de 1 que se encuentra entre estos dos extremos.
Funcin estocstica esperanza condicional. Recopilando los hilos
de todo lo expuesto, denimos 1 (1 [o (A)) como una variable aleatoria que
satisface las siguientes propiedades:
(i) 1 (1 [o (A)) es una variable aleatoria en relacin con o (A),
(ii) 1 (1 [o (A)) = /(A) para alguna /(.) : R R,
(iii) 1 [1 (1 [o (A)) 1
1
] = 1 ([1 1
1
]), para toda 1 o (A).
NOTE que necesitamos establecer la existencia, as como la unicidad
de 1 (1 [o (A)). La existencia es establecida por la derivacin matemtica
de (7.33) (utilizando la derivada llamada de Radon-Nikodym). La unici-
dad de la esperanza condicional 1 (1 [o (A)) = /(A) tambin se deriva del
mismo aparato matemtico, pero es una unicidad casi segura (c.s) (vase el
captulo 3) que dice que para cualesquiera par de esperanzas condicionales
1 (1 [o (A)) = /
1
(A) y 1 (1 [o (A)) = /
2
(A), debe ser cierto que:
1 (/
1
(A) = /
2
(A)) = 1 o /
1
(A) = /
2
(A) c.s.
Este concepto de esperanza condicional se puede extender a cualquier sub
o-campo , ya que siempre podemos encontrar una variable aleatoria A
tal que o (A) =, en el sentido de que todos los eventos (A _ r) , para
todo r R. Esta es otra manera de decir que la informacin transmite
al modelador lo que la variable aleatoria X tiene. NOTE que A podra ser
fcilmente un vector aleatorio.
Ejemplo
Es interesante observar los dos casos extremos de dicha esperanza condi-
cional los cuales que son:
1 (1 [o. ?) = 1 (1 ) , 1 (1 [) = 1 .
La primero se sigue del hecho de que
0
no es informativo y lo segundo
porque incluye toda la informacin relevante incluyendo o (A).
6.3.2 Determinando /
r
(A) = 1 (1
r
[o (A))
Una vez establecida la existencia y la unicidad c.s. de 1 (1
v
[o (A)), pro-
cedemos a considerar el problema de determinar la forma funcional de /
v
(A) =
1 (1
v
[o (A)). El sentido comn sugiere que la similitud entre (7.20) y (7.21)
336 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
se trasladar a las formas funcionales. Es decir, cuando las funciones ordi-
narias condicional momento toman la forma:
1 (1
v
[A = r) = /
v
(r) , r R
A
, : = 1. 2. ....
interpretamos las funciones estocsticas condicionales momento como
1 (1
v
[o (A)) = /
v
(A) , para A~1
A
(.) , : = 1. 2. ... (7.36)
En este sentido se puede conjeturar que:
1 (1
v
[A = r
i
) = /
v
(r
i
) , para todo r
i
R
A
=1 (1
v
[o (A)) = /
v
(A) .
(7.37)
Esta conjetura resulta ser vlida. Es decir, la forma funcional ordinaria y
las correspondientes funciones estocsticas momento condicional coinciden.
La nica diferencia es que las funciones estocsticas momento condicional
son variables aleatorias.
La pregunta que surge naturalmente es cmo se determina la funcin
/
v
(r) en primer lugar. La respuesta desde el punto de vista de modelacin
es que tanto las densidades condicionales como las funciones condicionales
momento se determinan por la densidad conjunta como se muestra en (7.19).
Sin embargo, esta respuesta no siempre es posible y necesitamos que consid-
erar formas alternativas para determinar estas funciones. Una vez ms, sin
prdida de generalidad consideramos el caso simple : = 1.
Deniendo la propiedad. Sean A e 1 dos variables aleatorias denidas
en el mismo espacio de probabilidad (o. . 1(.)) tal que 1([1 [) < , en-
tonces:
1 (1 [o (A)) = /(A) , denida a travs de: 1 [(1 /(A)) g(A)] = 0, para toda g(.) .
(7.38)
donde g(.) : R R es cualquier funcin acotada Borel.
6.3.3 Propiedades de la esperanza condicional estocs-
tica
De la discusin anterior es evidente que cualquier intento de poner en prc-
tica la reduccin de la distribucin conjunta en (7.3) requerir no slo la
6.3. REDUCCIN Y CONDICIONALIDAD ESTOCSTICA 337
distribucin condicional ordinaria o la forma encontrada en el captulo 6,
sino productos de la forma:
, (r. ; c) = , ([r;
2
) , (r;
1
) , para todo (r. ) R
A
R
Y
. (7.39)
Como se dijo antes, el concepto de las correspondientes funciones condi-
cionales momento cambian a:
1 (1
v
[o (A)) = /
v
(A) , : = 1. 2. ...
Con el n de ser capaces de manejar esos momentos aleatorios pro-
cedemos a establecer ciertas propiedades tiles de la esperanza condicional
1 (1 [o (A)). Observemos en primer lugar que, para los propsitos de la dis-
cusin que sigue 1 (1 [A = r) puede ser provechosamente visto como un caso
especial de 1 (1 [o (A)).
Considere las tres variables aleatorias A, 1 y 2 denidas en el mismo
espacio de probabilidad (o. . 1(.)), cuyos momentos, como se requiere en
cada caso, existen. La primera propiedad importante es que la esperanza
condicional tiene la misma estructura matemtica lineal que la experanza
ordinaria (ver captulo 3).
Linealidad
EC[1]. 1 (cA +/1 [o (2)) = c1 (A[o (2)) + /1 (1 [o (2)), c. /, con-
stantes.
Esta propiedad puede ser fcilmente adaptada al caso especial: 1 (cA +/1 [2 = .).
Una segunda propiedad importante es que la esperanza condicional est
relacionada con la experanza ordinaria, tomando otra experanza con respecto
a la variable condicionante.
La ley del logaritmo iterado (lie)
EC[2]. 1 (1 ) = 1 [1 (1 [o (A))].
Esta propiedad se deduce directamente de la denicin de esperanza
condicional ya que:
1
_
1 (1 [o (A)) 1
o(A)

= 1
__
1 1
o(A)
_
= 1 (1 ) .
NOTA: la esperanza doble se dene como sigue:
1 [1 (1 [A)] =
o
_
o
_
_
o
_
o
, ([r) d
_
_
, (r) dr.
338 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
En otras palabras, para derivar la media (marginal) haciendo uso de la
media condicional, tomamos esperanzas de la esperanza condicional, con re-
specto a la distribucin marginal de la variable aleatoria A.
Ejemplo
Considere la distribucin conjunta (7.30) junto con las densidades condi-
cionales (7.31). Vamos a obtener 1(1 ) a travs de las experanzas condi-
cionales. La propiedad CE2 sugiere tomar esperanzas de 1(1 [A) sobre A
es decir,
1(1 ) = (0.4)1(1 [A = 1) + (0.6)1(1 [A = 1) = 0.1.
que coincide con la evaluacin directa de la esperanza:
1(1 ) = (1)(0.3)0(0.3) + 1(0.4) = 0.1.
Del mismo modo, la distribucin(es) condicional de r dado = 1. 0. 1
se dan a continuacin:
r 1 1
, (r[ = 1)
1
3
2
3
,
r 1 1
, (r[ = 0)
2
3
1
3
.
r 1 1
, (r[ = 1)
1
4
3
4
1 (A[1 = 1) = (1)
1
3
+ (1)
2
3
=
1
3
,
1 (A[1 = 0) = (1)
2
3
+ (1)
1
3
=
1
3
,
1 (A[1 = 1) = (1)
1
4
+ (1)
3
4
=
1
2
,
1 (A) = (0.3) 1 (A[1 = 1) + (0.3) 1 (A[1 = 0) + (0.4) 1 (A[1 = 1) =
0.2,
lo cual coincide con la evaluacin directa: 1 (A) = (1) (0.4)+(1) (0.6) =
0.2.
Una tercera propiedad de la esperanza condicional es que cualquier fun-
cin de Borel de la variable aleatoria A (que es una variable aleatoria en
relacin con o (A)) pasa a travs del condicionamiento inalterada.
Tomando lo que es propiedad conocida
EC3. 1 (/(1 ) g(A) [o (A)) =g(A)1 (/(1 ) [o (A)).
Esta propiedad implica que en el caso donde 1 es una variable aleatoria
en relacin con o (A):
1 (1 [o (A)) = 1 c.s.
El propiedad EC3 puede ser fcilmente adaptada al caso especial 1 (/(1 ) g(A) [A = r),
y se puede utilizar para mejorar nuestra intuicin. Cuando una variable
6.3. REDUCCIN Y CONDICIONALIDAD ESTOCSTICA 339
aleatoria condicionante es "clavada" en un cierto valor A = r, esto indirec-
tamente "clava" todas las funciones de A.
Ejemplo
Considere las funciones /(1 ) =
_
1 , g(A) = A
2
:
1 (/(1 ) g(A) [A = 1) = (1)
2
1
_
_
1 [A = 1
_
= 1
_
_
1 [A = 1
_
.
Estas propiedades son especialmente tiles en el contexto de modelos de
regresin por numerosas razones que se discutirn en las prximas secciones.
En este punto es instructivo utilizar estas propiedades a n de obtener un
resultado importante en relacin a las regresiones lineales.
Ejemplo. En el caso de la distribucin normal bivariada la media condi-
cional toma la forma:
1 (1 [o (A)) = ,
0
+,
1
A (7.40)
donde los parmetros (,
0
. ,
1
) adoptan la forma dada en (7.10). Si par-
timos de (7.40), la pregunta que surge es: cmo los parmetros ,
0
y ,
1
se relacionan con los momentos de , (r. )? Usando la lie (EC2) podemos
deducir que 1 (1 ) = ,
0
+,
1
1 (A), es decir,
,
0
= 1 (1 ) ,
1
1 (A) . (7.41)
Aplicando las propiedades lie (EC2) y el "sacar lo que se conoce" (EC3)
podemos deducir que:
1 (A1 ) = 1 [1 (A1 [o (A))] = 1 [A1 (1 [o (A))] .
Sustituyendo la forma de la media estocstica condicional signica que
podemos deducir que:
1 (A1 ) = 1 [A1 (,
0
+,
1
A)] = 1 A1 (1 ) ,
1
[1 (A) +,
1
A]
= 1 (A) 1 (1 ) +,
1
1 [A 1 (A)] A
= 1 (A) 1 (1 ) +,
1
_
1A
2
1 (A) 1 (A)
_
= 1 (A) 1 (1 ) +,
1
_
1
_
A
2
_
[1 (A)]
2
_
= 1 (A) 1 (1 ) +,
1
\ c: (A)
= Co (A. 1 ) = 1 (A1 ) 1 (A) 1 (1 ) = ,
1
\ c: (A) ,
,
1
=
Co (A. 1 )
\ c: (A)
. (7.42)
340 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Este resultado implica que, independientemente de la naturaleza de la
densidad conjunta ,(r. ), si la funcin de regresin es lineal, cuando se ex-
presa en la forma 1 (1 [o (A)) = ,
0
+ ,
1
A, los parmetros ,
0
y ,
1
estn
relacionados con los momentos de ,(r. ) a travs de (7.41) y (7.42). Tam-
bin tenga en cuenta que, en vista de la relacin entre la covarianza y el
coeciente de correlacin Co::(A. 1 ) =
Cc(A,Y )
_
\ ov(A)
_
\ ov(Y )
5, b1 tambin se
puede expresar en forma equivalente:
,
1
=
_
_
\ c: (1 )
\ c: (A)
_
Co:: (A. 1 ) .
Esta es la razn por la cual en la seccin 2 relacionamos las funciones
de regresin lineal con el coeciente de correlacin, incluso en los casos de
distribuciones no simtricas donde la correlacin no es una medida adecuada
de la dependencia de distribucin. La conclusin es que cuando uno postula
(7.40) la parametrizacin implcita coincide con la parametrizacin bajo el
supuesto de normalidad bivariada dado en (7.10).
La propiedad mejor pronstico de mnimos cuadrados
[EC4]. 1 [1 1 (1 [o (A))]
2
_ 1 [1 g(A)]
2
para toda g(.).
Esto signica que de entre todas las posibles funciones g(.) de A,
_
1 [1 g(A)]
2
_
,
la distancia, conocida como el error cuadrtico medio (ECM): 1 [1 g(A)]
2
,
es minimizada por la funcin: g(A) = 1 (1 [o (A)).
Es decir, la media condicional proporciona el mejor predictor del error
cuadrtico medio. Esta es una propiedad particularmente muy til porque
hace a la esperanza condicional la opcin obvia para un predictor (regla de
pronstico).
La ltima propiedad de esperanza condicional estocstica est relacionado
con el tamao del conjunto de informacin condicionante.
La propiedad del cors
[EC5]. 1 1 (1 [o (A. 2) [o (A)) = 1 1 (1 [o (A)) [o (A. 2) = 1 (1 [o (A)).
La intuicin que subyace a esta propiedad es que en condicionamiento se-
cuencial el conjunto ms pequeo de informacin (note que o (A) o (A. 1 ))
domina el condicionamiento. Igual que usar dos corss; el ms pequeo dom-
inar independientemente del orden en el que los lleve puestos!
6.4. EXOGENEIDAD DBIL
+
341
6.4 Exogeneidad dbil
+
En las dos secciones anteriores hemos discutido la cuestin de hacer frente a
la reduccin:
, (r. ; c) = , ([r; ,
2
) , (r; ,
1
) , para todo (r. ) R
A
R
Y
. (7.43)
En la seccin 2 ignoramos la distribucin marginal , (r; ,
1
) y se argu-
ment que podemos hacer frente a las muchas distribuciones condicionales
(una para cada valor de A) extendiendo el concepto de momentos condi-
cionales a funciones. En la seccin 3 hemos extendido el concepto de fun-
ciones condicionales momento a su versin estocstica que toma en cuenta
los pesos como los denidos por la distribucin marginal.
La pregunta que naturalmente surge en esta etapa es si existen circun-
stancias en las que el modelador pueda en realidad hacer caso omiso de la
distribucin marginal y modelar en trminos de las funciones momento condi-
cional. Esto sera til porque haciendo caso omiso de la distribucin marginal
reducimos el nmero de parmetros desconocidos y por lo tanto resolvemos
el problema de sobreparametrizacin. Como se ha dicho en la introduccin,
la reduccin en (7.3) no ofrece ningn alivio al problema de la sobrepara-
metrizacin. A n de que la discusin sea menos abstracta vamos a discutir
esta cuestin en relacin con un ejemplo especco.
Ejemplo
Como mostramos anteriormente, en el caso en el cual , (r. ; c) es nor-
mal bivariada como la dada en (7.9), las densidades condicional y marginal
tambin son normales:
(1 [A = r) ~`
_
,
0
+,
1
A. o
2
_
, r R, A~` (j
2
. o
22
) .
,
0
= j
1
,
1
j
2
. ,
1
=
_
o
12
o
22
_
. o
2
= o
11

_
o
2
12
o
22
_
(7.44)
La reduccin ha provocado una reparametrizacin de la forma: c
(,
1
. ,
2
) :
c := (j
1
. j
2
. o
12
. o
11
. o
22
) :=
_
R
3
R
2
+
_
.
,
1
:= (j
2
. o
22
)
1
:= (R R
+
) .
,
2
:= (,
0
. ,
1
. o
2
)
2
:= (R
2
R
+
) .
pero el nmero de parmetros desconocidos no ha cambiado.
342 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Esto sugiere que a menos que haya alguna forma de ignorar ciertos parmet-
ros, por ejemplo los parmetros ,
1
de la distribucin marginal, no hay una
verdadera simplicacin del problema de la modelacin, ya que, en cierto
sentido, todava estamos tratando con la distribucin conjunta. La pregunta
que surge naturalmente en esta etapa es en qu medida podemos concen-
trarnos exclusivamente en la distribucin condicional y sus parmetros en el
caso donde la distribucin marginal no es de inters intrnseco. La respuesta
en pocas palabras es que depende de cmo los dos conjuntos de parmet-
ros ,
1

1
, ,
2

2
se restrinjan entre s. La respuesta es armativa en
el caso de que
2
(el conjunto de valores permisibles de ,
2
) no es afectado
por cualquiera de los valores tomados por ,
1

1
y viceversa; pero no de
otra manera. El concepto que necesitamos es el llamado variacin libre
(variation freeness).
Variacin libre. Decimos que ,
1
y ,
2
son de variacin libre si para
todos los valores de ,
1

1
, el rango de valores posibles de ,
2
permanece
en el espacio original de parmetros y no en algn subconjunto propio de l.
Utilizando el concepto de variacin libre, podemos dar una respuesta
ms formal a la pregunta anterior sobre si podemos concentrarnos en la
distribucin condicional.
Exogeneidad dbil. En el caso donde los parmetros de inters son
slo aquellos de ,
2
(o alguna funcin de ellos) y ,
1
y ,
2
son variacin libre,
entonces se dice que A es dbilmente exgena con respecto a ,
1
y , (r; ,
1
)
puede ser ignorada. En los casos donde A no es dbilmente exgena con
respecto a ,
1
necesitamos construir el modelo estadstico teniendo en cuenta
las distribuciones condicional y marginal en (7.43); (vase Engle, Hendry y
Richard (1983)).
El concepto de exogeneidad dbil se ilustra a continuacin en el contexto
de ejemplos especcos, empezando por el caso Normal de dos variables.
(i) Normal bivariada. En el caso donde , (r. ; c) es Normal bivariada,
como aparece en (7.9), notemos que ,
1

1
:= RR
+
y ,
2
:= (,
0
. ,
1
. o
2
)

2
:= R
2
R
+
. Por lo tanto, se puede argumentar que X es dbilmente
exgena con respecto a ,
2
, ya que no importa qu valores de ,
1
en
1
se
eligen, los parmetros ,
2
pueden tomar todos sus posibles valores en
2
.
(ii) t de Student bivariada. En el caso de la distribucin t de Student
bivariada con 2 grados de libertad, denotada por:
_
1
A
_
~ot
__
j
1
j
2
_
.
_
o
11
o
12
o
21
o
22
_
;
_
(7.45)
6.4. EXOGENEIDAD DBIL
+
343
la densidad condicional de 1 dado A = r y la densidad marginal de A
tambin son tambin t de Student de la forma:
([A = r) ~ot
_
,
0
+,
1
A.
o
2
1
_
1 +
1
o
22
[r j
2
]
2
_
+ 1
_
, r R.
A~ot (j
2
. o
22
; ) (7.46)
donde los parmetros (,
0
. ,
1
. o
2
) coinciden con los de la Normal bivariada
(ver (7.44)). La parametrizacin involucrada toma la forma:
c := (j
1
. j
2
. o
12
. o
11
. o
22
) :=
_
R
3
R
2
+
_
.
,
1
:= (j
2
. o
22
)
1
:= (R R
+
) .
,
2
:= (,
0
. ,
1
. j
2
. o
22
. o
2
)
2
:=
_
R
3
R
2
+
_
.
En vista de estos resultados podemos argumentar que A no es dbilmente
exgena con respecto a ,
2
, porque los valores de parmetros tomados por
,
2
en
2
pueden ser directamente restringidos a travs de ,
1
debido a que
(j
2
. o
22
) aparecen en los dos conjuntos de parmetros desconocidos. Como
resultado de esto, la modelacin no puede ignorar la distribucin marginal de
A, incluso si los parmetros de inters son aquellos en ,
2
. En este sentido,
la condicionalidad anterior es bastante engaosa; deberamos haber utilizado
en su lugar condicionalidad sobre o-campo o(A), con la regresin y curvas
cedsticas siendo:
1 (1 [o(A)) = ,
0
+,
1
A, \ c: (1 [o(A)) =
o
2
1
_
1 +
1
o
22
[r j
2
]
2
_
(7.47)
Concluimos esta seccin haciendo notar dos caractersticas importantes
de exogeneidad dbil.
(i) El concepto de exogeneidad dbil est inextricablemente ligado a la
distribucin conjunta y su parametrizacin en relacin a la de las distribu-
ciones condicionales y marginales.
(ii) Teniendo en cuenta los resultados en las dos secciones anteriores, es
probable que exogeneidad dbil sea la excepcin y no la regla en la prctica.
344 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
6.5 El concepto de mecanismo generador es-
tadstico (MG)
Como se ha argumentado en el captulo 1, para que los datos observados pro-
porcionen evidencia sin prejuicios en la evaluacin de la validez de una cierta
teora, es imperativo que construyamos el modelo estadstico (un resumen
conveniente de los datos) en trminos de conceptos no tericos (non-theory
concepts). En los captulos 2-6 introdujimos varios conceptos probabilsti-
cos que tienen por objeto sentar los fundamentos y el andamiaje del marco
de referencia en el contexto del cual tales modelos estadsticos se pueden
construir. El concepto de modelo estadstico denido hasta el momento slo
cuenta con dos componentes, los modelos de probabilidad y muestral. Aunque
esto es suciente para modelos estadsticos simples, para la modelacin de
fenmenos econmicos que muestran dependencia y heterogeneidad necesita-
mos introducir un tercer componente que llamamos mecanismo generador
estadstico (MG). El objetivo principal de este componente es proporcionar
un puente entre el modelo estadstico y el modelo terico sugerido por la
teora econmica. El objetivo ltimo de la modelacin emprica no es slo
el resumen de la informacin sistemtica en los datos en forma de un mod-
elo paramtrico parsimonioso, sino el uso de estos modelos para entender
fenmenos econmicos. En este sentido, relacionar tales modelos estadsti-
cos con los modelos de la teora econmica es de fundamental importancia.
En este libro relacionar un modelo estadstico adecuado con los modelos de
la teora econmica en cuestin se llama identicacin (ver tambin Spanos
(1986,1990)).
6.5.1 El ngulo de visin de la teora
La tesis anterior debe ser contrastada con el enfoque de libro de texto tradi-
cional a la modelacin economtrica (vase, en particular Gujarati (1995)),
que asume desde el principio que el MG estadstico y el modelo terico coinci-
den, adems de algn trmino de error, independientemente de la naturaleza
y la estructura de los datos observados. Consideremos la teora-modelo cono-
cida como la hiptesis de ingreso absoluto:
C
t
= c +,1
1
, donde c 0, 1 < , < 1,
NOTA. En el libro de Spanos dice "C
t
= c + ,1
1
, donde c 0,
6.5. EL CONCEPTODEMECANISMOGENERADORESTADSTICO(MG)345
1 < / < 1" (p. 68). En la ecuacin y en las desigualdades los
coecientes no son los mismos.
donde C y 1
1
designan las variables tericas consumo e ingreso, respec-
tivamente. Este modelo es metamorfoseado en el Modelo de Regresin lineal:
C
t
= c +,1
1
t
+
t
,
t
~`111
_
0. o
2
_
, t = 1. 2. .... 1 . (7.48)
(I) pretendiendo que estas variables de la teora coinciden con lo que los
datos observados disponibles pretenden medir y
(ii) adjuntando un trmino de error ruido blanco (normal) al modelo de
la teora.
Ni que decir tiene que (i) es infantil ingenuo y (ii) destruye al principio
cualquier posibilidad de que los datos podran proporcionar evidencia sin pre-
juicios en la evaluacin de la validez de la teora en cuestin. El modelador
simplemente forza la teora a los datos y luego procede a jugar morfogeomtri-
camente ("Procrustes"); corta los trozos que parecen sobresalir! Adems,
este punto de vista da la impresin de que un modelo terico en la forma
de una ecuacin lineal entre dos variables observables es un requisito previo
para que el modelador sea capaz de especicar un modelo de regresin lineal.
Esto constituye el ngulo de visin de la teora: viendo (7.48) de derecha
a izquierda, como un mecanismo que genera C
t
dado
_
1
1
t
.
t
_
. El argumento
es que este punto de vista asume que:
(a) el trmino de error
t
es una prtesis autnoma al modelo terico,
(b) los parmetros tericos (c. ,) gozan de una interpretacin clara de
la teora (c es el ingreso de subsistencia, , es la propensin marginal al
consumo), que son los invariantes del sistema y sin relacin con las vari-
ables
_
1
1
t
.
t
_
. Este ngulo de visin es adecuado para analizar los aspectos
tericos del modelo de la teora como un sistema, pero puede ser miope y
engaoso cuando se utiliza para analizar los aspectos estadsticos del modelo.
Para este ltimo caso tenemos que introducir un punto de vista alternativo
que contemple (7.48) en trminos puramente probabilsticos y est directa-
mente integrado en la estructura de los datos observados. Este punto de vista
contempla (7.48) como un MG estadstico que, en pocas palabras, constituye
una descomposicin ortogonal de la variable aleatoria C
t
dado la conjunto
de informacin asociado con el valor de la variable aleatoria 1
1
t
. Vamos a
considerar este concepto con algn detalle.
346 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
6.5.2 El concepto de conjunto de informacin condi-
cional
Sea el espacio de probabilidad de inters (o. . 1(.)). En vista del hecho de
que todos los eventos de inters son elementos de , denimos informacin
en trminos de subconjuntos de , es decir, constituye informacin en el
contexto del espacio de probabilidad (o. . 1(.)) si , donde abarca
desde el caso no informativo
0
= o. ?, lo sabemos a priori, al caso com-
pletamente informativo
+
= , lo sabemos todo. En vista del hecho de que
siempre podemos denir una variable aleatoria A tal que el mnimo o-campo
generado por A coincide con , es decir, o (A) =
A
, podemos pensar la in-
formacin como una restriccin sobre el espacio de eventos relativo a algn
aspecto observable del mecanismo aleatorio de que se trate. Esto nos per-
mitir poner en prctica las expresiones de la forma 1(1 [), que se puede
interpretar como la esperanza condicional de la variable aleatoria 1 dado el
subconjunto : un conjunto de eventos conocidos por el modelador. Adems,
sabemos que por la transformacin de la informacin no hay posibilidad de
aumentarlo, pero hay una cierta posibilidad de que la transformacin podra
reducirlo. Ms formalmente, para cualquier funcin (Borel) bien comportada
g(.) de A :
o (g(.)) o (A) ,
pero lo contrario tambin es cierto slo en el caso de que la funcin es
uno a uno, es decir,
o (g(.)) = o (A) , slo si g(.) : R
A
R es uno a uno.
6.5.3 Descomposiciones ortogonales del MG estads-
tico
El MG estadstico en relacin con el primer momento condicional estocstico
de una variable aleatoria 1 respuesta (asumiendo que 1
_
[1 [
2
<
_
, referido
al conjunto de informacin se especica para ser la descomposicin ortog-
onal de la forma:
1 = 1(1 [) +n, (7.49)
1(1 [): el componente sistemtico,
6.5. EL CONCEPTODEMECANISMOGENERADORESTADSTICO(MG)347
n = 1 1(1 [): el componente no sistemtico,
en relacin con el conjunto de informacin condicionante . La existen-
cia de tal descomposicin ortogonal est garantizada por la existencia de un
segundo momento (integrabilidad cuadrtica para los peritos en matemtica)
de la variable aleatoria 1 . Su unicidad es la equivalencia casi segura (o con
probabilidad uno) discutida anteriormente; vase tambin el captulo 9. Al
ver las variables aleatorias con varianza acotada como elementos de un espa-
cio lineal, 1(1 [) representa una proyeccin ortogonal y la descomposicin
(7.49) es anloga al teorema de proyeccin ortogonal (ver Luenberger (1969)),
con 1(1 [), el mejor predictor en el sentido denido por la propiedad EC4
anterior. La conexin entre las proyecciones ortogonales y esperanzas condi-
cionales se remonta a Kolmogorov (1941a, b), extendieno el trabajo de Wold
(1938).
El componente no sistemtico a menudo se llama trmino error o pertur-
bacin. Los dos componentes cumplen las siguientes propiedades:
(i) 1(n[) = 0.
(ii) 1(n
2
[) = \ c: (1 [) < . (7.50)
(iii) 1(n [1(1 [)]) = 0.
La descomposicin ortogonal anterior es puesta en funcionamiento cuando
el conjunto de informacin condicionante es relacionado con variables
aleatorias observables como en el caso donde: = o (X), donde X es un
vector de variables aleatorias denidas en el mismo espacio de probabilidad
(o. . 1(.)). NOTE que en este caso (7.49) es una descomposicin de la
funcin de regresin. La descomposicin ortogonal anterior se puede exten-
der fcilmente a las funciones momento condicional de orden superior en el
sentido de que (asumiendo que los momentos requeridos existen):
n
v
= 1 (n
v
[) +
v
. : = 2. 3. ...
donde n = 1 1(1 [). De particular inters son los primeros momentos
centrales condicionales.
IMPORTANTE: las descomposiciones anteriores suponen implcitamente
la existencia de momentos hasta un cierto orden. En general, la descomposi-
cin ortogonal de :-simo momento condicional existe cuando los momentos
hasta orden 2: estn acotados, por ejemplo, 1
_
[1 [
2v
_
< .
348 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
En la seccin 2 se argument que el objetivo principal de los modelos de
regresin es modelar (7.6) a travs de las primeras funciones momento condi-
cional tal como se denen en (7.11). Usando las anteriores descomposiciones
ortogonales podemos proceder a especicar los modelos de regresin en tr-
minos de las primeras cuatro funciones momento condicional de la siguiente
manera:
1
t
= 1 (1
t
[o (X
t
)) +n
t
,
n
v
t
= 1 (n
v
t
[o (X
t
)) +
vt
, : = 2. 3. 4.
Consideremos varios ejemplos de tales descomposiciones.
MG estadstico simple
Para entender el papel del conjunto de informacin condicionante , con-
sideremos primero el caso en que no hay informacin de dependencia. En este
caso elegimos que sea el conjunto no informativo conjunto
0
= o. ?.
Se dice que no es informativo porque, como se mencion anteriormente, para
cualquier variable aleatoria 1 denida sobre o, 1(1 [
0
) = 1 (1 ). En este
caso, la descomposicin en (7.49) toma la forma:
1
I
= 1 (1
I
) +
I
, / N,
y las condiciones [i] - [iii] son trivialmente ciertas.
Modelo Normal simple
[1] MG estadstico: 1
I
= 1 (1
I
) +
I
, / N,
[2] Modelo de probabilidad:
= , (; ) =
_
(o
11
)

1
2
_
2:
exp
_

1
2o
11
( j
1
)
2
_
_
. R R
+
, rR.
: = (j
1
. o
11
) . 1 (A) = j
1
. \ c: (A) = o
11
.
[3] Modelo muestral: 1 := (1
1
. 1
2
. .... 1
a
) es una muestra aleatoria.
Este es un ejemplo particularmente importante de un modelo estadstico
simple que se utiliza ampliamente en los captulos 11-15. Por lo tanto, en
el caso de modelos estadsticos simples (una muestra aleatoria se postula),
podemos complementar los modelos de probabilidad y muestral con un MG
estadstico de la forma simple dada anteriormente.
MG estadstico de Regresin.
En el caso donde incluye alguna informacin de dependencia como en
el caso de los modelos de regresin donde:

t
= (A
I
= r
I
),
el MG estadstico toma la forma general:
6.5. EL CONCEPTODEMECANISMOGENERADORESTADSTICO(MG)349
1
I
= 1 (1
I
[A
I
= r
I
) +n
I
, / N.
Por diseo, los componentes sistemtico y no sistemtico, se denen por:
j(r
I
) := 1 (1
I
[A
I
= r
I
) . n
I
= 1
I
1 (1
I
[A
I
= r
I
), / N,
respectivamente, son ortogonales. Esto se deduce directamente de las
propiedades de esperanza condicional EC1-EC3 (vase ms atrs):
[i] 1 (n
I
[A
I
= r
I
) = 1 1
I
1 [(1
I
[A
I
= r
I
)] [A
I
= r
I

= 1 (1
I
[A
I
= r
I
) 1 (1
I
[A
I
= r
I
) = 0, / N.
es decir, n
I
condicionada A
I
= r
I
, no tiene efectos sistemticos medios.
Adems,
[ii] 1 n
I
j(r
I
) = 1 (1 n
I
1 [(1
I
[A
I
= r
I
)] [A
I
= r
I
)
= 1 (1
I
[A
I
= r
I
) 1 (n
I
[A
I
= r
I
) = 0, / N.
de EC2, EC3, y [i], es decir, n
I
y 1 (1
I
[A
I
= r
I
), condicional a A
I
= r
I
,
son mutuamente ortogonales; denotado por:
n
I
l 1 (1
I
[A
I
= r
I
), / N.
Adems de las propiedades [i] - [ii] podemos mostrar que n
I
y 1
I
tienen
la misma varianza condicional:
[iii] 1 (n
2
I
[A
I
= r
I
) = \ c: (1
I
[A
I
= r
I
), / N,
de EC1. Por otra parte, la media no condicional de n
I
tambin es cero
[iv] 1 (n
I
) = 1 (1 (n
I
[A
I
= r
I
)) = 0, / N,
de EC2, EC2 y EC3, es decir n
I
es ortogonal a A
I
.
IMPORTANTE: es importante tener en cuenta que media condicional
cero para el componente no sistemtico implica media no condicional cero:
1 (n
I
[A
I
= r
I
) = 0 =1 (n
I
) = 0,
pero lo contrario no es cierto :
1 (n
I
) = 0 ;1 (n
I
[A
I
= r
I
) = 0.
Para ver esto consideremos el siguiente ejemplo.
Ejemplo
Volviendo a la distribucin conjunta (7.7) y las distribuciones condi-
cionales relacionadas, se observa que ninguna de estas esperanzas condi-
cionales es cero. Por otro lado, la esperanza no condicional de 1 , evaluada
usando la ley de esperanzas iteradas es:
350 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
1 (1 ) = 1 1 (1 [A = r) =
1
5
(0.5)
1
5
(0.5) = 0.
Del mismo modo, ortogonalidad condicional entre A
I
y n
I
implica ortog-
onalidad no condicional:
1 (A
I
n
I
[A
I
= r
I
) = 0 =1 (A
I
n
I
) = 0,
pero lo contrario no es cierto:
1 (A
I
n
I
) = 0 ;1 (A
I
n
I
[A
I
= r
I
) = 0.
NOTA: la intuicin detrs de este resultado es que para la media no
condicional hay un promedio ms (sobre los valores de A), ms all de la
media condicional.
Regresin lineal/Normal. El modelo de regresin ms ampliamente
utilizado es el de regresin Lineal/Normal, cuyo MG estadstico toma la
forma:
donde el trmino de error n
t
, satisface las propiedades [i] - [v] obtenidas
anteriormente. La especicacin completa del modelo de regresin lin-
eal/Normal toma la forma:
[1] MG estadstico: 1
t
= ,
0
+,
1
A
t
+n
t
, t T,
[2] Modelo de probabilidad:
= , (
t
[r
t
; ) =
_
1
o
_
2:
exp
_

( ,
0
,
1
r
t
)
2
2o
2
_
. ,
t
R
_
.
: =
_
,
0
. ,
1
. o
2
_
. := R
2
R
+
,
,
0
: = 1 (1
t
) ,
1
1 (A
t
) , ,
1
=
Co (A
t
. 1
t
)
\ c: (A
t
)
, o
2
:= \ c: (1
t
)
[Co (A
t
. 1
t
)]
2
\ c: (A
t
)
.
[3] Modelo muestral: 1 := (A
1
. A
2
. .... A
a
) es una muestra independiente
secuencialmente extrada de , (
t
[r
t
; ), t = 1. 2. .... 1.
Una comparacin directa entre los modelos Normal simple y de regresin
lineal/Normal revela algunas diferencias interesantes. Al comparar los dos
modelos de probabilidad, podemos ver que el modelo de regresin se expresa
en trminos de la distribucin condicional , (
t
[r
t
; ), pero el modelo Normal
simple en trminos de la distribucin marginal , (
t
; ). Una comparacin de
los modelos muestrales revela que en el caso de la regresin la muestra ya no
aleatoria (independientes e idnticamente distribuida), es slo independiente.
Este es el caso, ya que las densidades condicionales , (
t
[r
t
; ), t T, estn
cambiando con t, porque las medias condicionales estn cambiando con r
t
:
6.5. EL CONCEPTODEMECANISMOGENERADORESTADSTICO(MG)351
(1
t
[A
t
= r
t
) ~`1 (,
0
+,
1
r
t
. o
2
), t T.
es decir, ellas no estn idnticamente distribuidas.
Como argumentamos antes, utilizando las funciones momento condicional
(a menudo las funciones de regresin y cedstica) introducidas en la seccin
anterior, podemos especicar un modelo de regresin diferente para cada
distribucin bivariada. El modelo de regresin lineal/Normal puede ser muy
engaoso como la base de los modelos de regresin en general, debido a
que una serie de temas importantes no surgen en su contexto. Ms all del
modelo de regresin lineal/Normal se plantean varias cuestiones nuevas. Se
puede obtener alguna idea de las dicultades planteadas por otros modelos
de regresin al considerar el modelo de regresin lineal t de Student.
Regresin lineal t de Student
[1] MG estadstico: 1
t
= ,
0
+,
1
A
t
+n
t
, t T,
n
2
t
=
o
2
(1)
_
1 +
1
o
22
[A
t
j
2
]
2
_
+
2t
[2] Modelo de probabilidad:
=
_
, (
t
[r
t
; ) , (r; c
2
) . :=
_
,
0
. ,
1
. j
2
. o
2
. o
22
_
R
3
R
2
+
, (r
t
.
t
) R
2
_
.
, (
t
[r
t
; ) =
_

_
1
2
[ + 2]
_

_
1
2
[ + 1]
_
_
(( 1) j/
t
(r
t
))

1
2
_
1 +
(
t
,
0
,
1
r
t
)
2
( 1) /
t
(r
t
)
_

1
2
(+2)
, (r
t
; c
2
) =
_

_
1
2
[ + 1]
_

_
1
2

_
_
[:o
22
]

1
2
_
1 +
1
o
22
[A
t
j
2
]
2
_

1
2
(+1)
, j
2
= 1 (A
t
) .
o
22
= \ c: (A
t
) . ,
0
= 1 (1
t
) ,
1
j
2
. ,
1
=
Co (A
t
. 1
t
)
\ c: (A
t
)
,
o
2
: = \ c: (1
t
)
[Co (A
t
. 1
t
)]
2
\ c: (A
t
)
.
[3] Modelo muestral: 1 := (A
1
. A
2
. .... A
a
) es una muestra independiente
secuencialmente extrada de , (
t
[r
t
; ), t = 1. 2. .... 1.
Este modelo diere del de regresin lineal/Normal en dos aspectos im-
portantes:
(i) A no es dbilmente exgena con respecto a los parmetros de la dis-
tribucin condicional, y por lo tanto no podemos ignorar la distribucin mar-
ginal , (r; o
2
).
352 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
(ii) La varianza condicional es heterocedstica, por lo que necesitamos
completar la descomposicin ortogonal de la funcin de regresin con la de
la funcin cedstica.
Para concluir esta subseccin notamos que la literatura economtrica
tradicional hasta la dcada de 1980 se limit a la funcin de regresin. Recien-
temente, sin embargo, ha habido intentos por relacionar la teora econmica
con la funcin cedstica, especialmente en relacin con los modelos tericos
en nanzas. El hecho de que los momentos condicionales de orden superior
no se hallan tenido en cuenta es el resultado de ver estos momentos desde el
ngulo de visin de la teora que exige la teora econmica para introducir
las relaciones conectadas con estos momentos.
6.5.4 El ngulo de visin estadstico
El MG estadstico como se dene en (7.49) con las propiedades (7.50) dene
el punto de vista estadstico, en contraste con el terico discutido en la
subseccin anterior. Como podemos ver, el MG estadstico se dene para
todos los modelos estadsticos, no slo para los modelos de regresin, y tiene
una interpretacin puramente probabilstica. Por ejemplo, en el caso del
modelo lineal/Normal el ngulo de visin estadstico considera:
1
t
= ,
0
+,
1
r
t
+n
t
. t T. (7.53)
de izquierda a derecha como una descomposicin ortogonal de la variable
aleatoria observable (1
t
) en un componente sistemtico 1 (1
t
[A
t
= r
t
) y un
componente no sistemtico (no modelado) n
t
= 1
t
1 (1
t
[A
t
= r
t
). En
contraste con los supuestos implcitos (a) - (b) del ngulo de visin de la
teora, el ngulo de visin estadstico postula explcitamente que:
(a)* el trmino de error n
t
es deducido y vinculado a la estructura prob-
abilstica de (1
t
. A
t
),
(b)* los parmetros estadsticos (,
0
. ,
1
. o
2
) gozan de una interpretacin
probabilstica clara y que estn indisolublemente ligados a la estructura prob-
abilstica de (1
t
. A
t
).
Una mirada ms de cerca a los otros modelos estadsticos especidica-
dos anteriormente pone de maniesto que todos los parmetros tienen una
interpretacin probabilstica en trminos de los momentos de las variables
aleatorias observables involucradas y no hay parte denida en trminos de
los conceptos de la teora. En los prximos captulos de estos modelos se ex-
6.5. EL CONCEPTODEMECANISMOGENERADORESTADSTICO(MG)353
tendern en una serie de direcciones, pero su estructura bsica seguir siendo
la misma.
Un mecanismo generador estocstico.
Resulta que para ciertos aspectos del anlisis estadstico, el MG estads-
tico podra ser provechosamente visto como un mecanismo generador estocs-
tico. Es decir, un punto de vista que contemple (7.53) de derecha a izquierda,
como un mecanismo que genera a 1
t
dado (r
t
. n
t
). Esta interpretacin alter-
nativa parece en un primer momento tener una cierta anidad con el punto
de vista terico, pero, de hecho, la semejanza resulta para ser ms aparente
que real.
El MG estadstico del modelo Normal simple, cuando se ve como un
mecanismo generador estocstico, se expresa en la forma:
1
I
= j
1
+ (o
11
)
1
2
c
I
. c
I
~`111(0. 1) . / N. (7.54)
La forma ms fcil de interpretar esto es como el mecanismo que cuando
se simula utilizando nmeros pseudoaleatorios (vase el captulo 5) dar datos
con la misma estructura probabilstica que la muestra postulada;Normal In-
dependiente e Idnticamente Distribuida (NIID). Del mismo modo, el MG
estadstico de los modelos de regresin Normal y t de Student, como mecan-
ismos generadores estocsticos, toman la forma:
1
t
= ,
0
+,
1
r
t
+oc
t
. c
t
~`111(0. 1) . t T
1
t
= ,
0
+,
1
A
t
+ (/(A
t
))
1
2
c
t
. c
t
~ot (0. 1; + 1) . A
t
~ot (j
2
. o
22
; ) . t T
donde /(A
t
) =
o
2
( 1)
_
1 +
1
o
22
[A
t
j
2
]
2
_
, respectivamente. (7.55)
Hay varias cosas que tener en cuenta sobre esta interpretacin.
En primer lugar, se trata de una interpretacin estadstica porque el prin-
cipal objetivo es simular (utilizando nmeros pseudo aleatorios) una estruc-
tura probabilstica de la muestra (1
1
. 1
2
. .... 1
a
) como se dene por su dis-
tribucin conjunta. En segundo lugar, una parte integral del punto de vista
de la simulacin es la interpretacin estadstica de los parmetros involu-
crados. Como hemos visto, estos parmetros se denen en trminos de los
momentos de las variables aleatorias observables implicadas, por lo que las
simulaciones bien diseadas deben tener esto en cuenta, ya que representan
restricciones implcitas. Esto es particularmente crucial cuando se disean
354 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
simulaciones Monte Carlo para abordar los difciles problemas de distribu-
cin muestral. Un diseo que ignore cualquiera de las restricciones implcitas
sobre los parmetros y los momentos de las distribuciones subyacentes es
problable que puedan dar lugar a resultados engaosos. En tercer lugar, la
interpretacin del mecanismo generador estocstico se basa en el MG estads-
tico del primero momento condicional, pero debe ser modicado para incluir
la informacin contenida en los momentos condicionales de orden superior.
En el caso de los modelos Normal simple y de regresin lineal /Normal no
hay ninguna informacin adicional porque el segundo momento es constante.
En el caso del modelo de regresin t de Student, sin embargo, esto ya no es
as y la informacin adicional deber integrarse en el MG estadstico como
se mostr anteriormente.
6.5.5 Razn de dependencia*
El concepto de mecanismo generador estadstico (GM), introducido anteri-
ormente, sugiere una forma natural para medir la dependencia entre 1 y la
variable aleatoria(s) A, deniendo el conjunto de informacin condicional.
Correspondiente a la descomposicin ortogonal basada en la media condi-
cional:
1 = 1 (1 [A) +n,
existe una relacin entre las varianzas de los tres trminos:
\ c: (1 ) = \ c: [1 (1 [A)] +\ c: (n) . (7.56)
Esto se deduce directamente de la ortogonalidad de los componentes sis-
temtico y no sistemtico e indirectamente de la igualdad:
\ c: (1 ) = 1 [\ c: (1 [A)] +\ c: [1 (1 [A)] ,
y del hecho de que (propiedad EC2 anterior):
1 [\ c: (1 [A)] = 1
_
1
_
n
2
[A
_
= 1
_
n
2
_
= \ c: (n) .
Dado que n representa el componente no sistemtico (la parte no mod-
elada) del MG estadstico, una medida de dependencia que se sugiere en si
misma, es la razn de dependencia:
1: (1 [A) =
\ c: 1 (1 [A)
\ c: (1 )
= 1
1 \ c: (1 [A)
\ c: (1 )
= 1
\ c: (n)
\ c: (1 )
.
6.5. EL CONCEPTODEMECANISMOGENERADORESTADSTICO(MG)355
Esto se introdujo por primera vez por Kolmogorov (1933a), quien lo llam
razn de correlacin, atribuyendo la idea a Pearson (1903). Como se
mencion en el captulo 6, esta medida es de dependencia que se puede uti-
lizar cualquiera que sea el sistema de medicin de las variables aleatorias en
cuestin.
La razn de dependencia, como una medida de dependencia, satisface
ciertas propiedades deseables:
[1]. 0 _ 1: (1 [A) _ 1.
[2]. 1: (1 [A) = 0, si A y 1 son independientes.
[3]. 1: (1 [A) = 1, si y slo si 1 = /(A) c.s.
La primera propiedad se deriva de (7.56) directamente. La segunda
propiedad se deduce del hecho de que cuando A e 1 son independientes:
1 (1 [A) = 1 (1 ) =\ c: [1 (1 [A)] = 0.
La parte si de la tercera propiedad es trivial ya que 1: (1 [A) = 1 implica
que:
1
_
[1 1 (1 [A)]
2
_
= 0 =1 = /(A) c.s.
La parte slo si se deduce del hecho de que si 1 = /(A), entonces la
funcin o/(A) o (A), y por lo tanto /(A) = 1 (1 [A) con probabilidad
uno (c.s).
En vista de la propiedad [3], 1: (1 [A) se puede interpretar como una
medida de dependencia probabilstica anloga a la nocin matemtica de de-
pendencia funcional 1 = /(A), donde la funcin /(.) coincide con la funcin
de regresin de 1 dado A = r. Para dar un paso ms, esta propiedad puede
ser utilizada para caracterizar la funcin de regresin. Es decir, 1: (1 [A)
se puede interpretar como la correlacin mxima entre 1 y todas las posi-
bles funciones /(A), con el mximo alcanzado por la funcin de regresin
/
0
(A) = 1 (1 [A):
1: (1 [A) max
I(.)
Co::
2
[1. /(.)] = Co::
2
[1. /
0
(.)] (7.57)
Renyi (1970) introduce tal caracterizacin aadiendo las siguientes condi-
ciones:
[1]. 1 [/
0
(A)] = 1 (1 ),
[2]. \ c: [/
0
(A)] = \ c: (1 )1: (1 [A),
[3]. 1 [/
0
(A) 1 ] 0.
356 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Esto se deduce de la propiedad EC4 que dice que la media condicional de
1 dado A proporciona el mejor predictor (en el sentido de error cuadrtico
medio) de 1 .
OBSERVACIONES:
(i) La razn de dependencia no es una funcin simtrica de 1 y A, como
lo es el coeciente de correlacin. La razn intuitiva para la asimetra es el
hecho de que las dos funciones de regresin, por ejemplo 1 (1 [A) = /(A) y
1 (A[1 ) = q (1 ) no necesariamente tienen la misma forma funcional.
(ii) En el caso donde la funcin de regresin es lineal en A, 1(1 [A) =
,
0
+,
1
A, la razn de dependencia coincide con el coeciente de correlacin
al cuadrado:
1: (1 [A) = [Co:: (A. 1 )]
2
.
Esto se deduce del hecho, de que en este caso:
\ c: [1 (A[1 )] =
[Co (A. 1 )]
2
\ c: (A)
.
Para concluir esta seccin observamos que una ventaja importante de la
razn de dependencia es que se puede extender fcilmente al caso en que X
es un vector de variables aleatorias, por ejemplo X := (A
1
. A
2
. .... A
n
):
1: (1 [X) =
\ c: 1 (1 [X)
\ c: (1 )
= 1
1 \ c: (1 [X)
\ c: (1 )
.
En el caso donde la funcin de regresin 1 (1 [X) es lineal en A, 1: (1 [X)
coincide con el coeciente de correlacin mltiple 1
2
, donde: 1
2
= max
c
Co::
2
(1.
t
X),

t
X =

n
i=1
c
i
A
i
y Co::
2
(.), la correlacin al cuadrado (ver Spanos (1986),
captulo 15).
6.6 La tradicin biomtrica en estadstica
Como se ha dicho en Spanos (1995b), el enfoque de los libros de texto tradi-
cionales puede ser visto como un hbrido de dos antiguas tradiciones en es-
tadstica: la teora de los errores y las tradiciones de diseo experimental.
Tambin se arma que ambas tradiciones son ms adecuadas para la mod-
elacin de datos experimentales en lugar de datos observacionales (no exper-
imentales); el resultado de la observacin pasiva de un sistema sin los medios
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 357
para interferir o controlar el proceso de generacin de datos. Se mencion en
el captulo 1 que la tradicin biomtrica, desarrollada a nales del siglo 19 y
20 es ms adecuada para la modelacin con datos observacionales.
En esta seccin hacemos una breve digresin para rastrear las races de la
tradicin biomtrica. Para una discusin ms amplia ver entre otros, Stigler
(1986), Porter (1986), MacKenzie (1981) y Kevles (1985)).
6.6.1 Galton
El concepto de regresin es uno de los muy pocos conceptos en estadstica,
cuyas races son a la vez claras e incuestionables. El concepto fue propuesto
por primera vez por Galton (1877), formalizado en Galton (1885,1886), exten-
dido por Pearson (1894,1895,1896) y relacionado con la tradicin de mnimos
cuadrados por Yule (1897). El padre de la moderna inferencia estadstica R.
A Fisher acredita a Galton y sus estudios pioneros en la herencia de propor-
cionar los fundamentos de la estadstica moderna. En el prlogo de Fisher
(1956) l alaba los estudios pioneros de Galton y contina:
El gran regalo de Galton estaba en su conciencia, que creci durante su
vida, de la vaguedad de muchas de las frases en las que los hombres trataron
de expresar la descripcin de fenmenos naturales. Se adelanto a su tiempo
en su reconocimiento de que la imprecisin podra ser eliminada y una cierta
precisin de pensamiento intentada encontrando deniciones cuantitativas
en condiciones de tomar el lugar de frases tales como "el hombre medio",
"variabilidad", "la fuerza de la herencia", y as sucesivamente, a travs del
conjunto de datos objetivos, y su examen sistemtico ... (Fisher (1956), p.
2).
Galton fue muy impresionado por la variedad de variables medidas cuya
histograma Quetelet (1849) fue capaz de describir utilizando la distribucin
normal (conocido en ese tiempo como la ley de error), abarcando desde
el nmero de suicidios y violaciones en Pars en un ao a algunas medidas
antropomrcas. El inters de Galton estabe principalmente en la eugenesia:
la mejora de la raza humana de Gran Bretaa mediante la reproduccin
selectiva (ver Kevles (1985)). Segn MacKenzie (1981, p. 11):
Un conjunto especco de objetivos sociales es comn a la obra de Galton,
Karl Pearson y R. A Fisher. Todos eran eugenistas. Armaron que la carac-
terstica humana ms importante, como la capacidad mental, eran heredada
de una generacin a la siguiente. Los ancestros de la gente, en lugar de su
entorno, es fundamental para determinar sus caractersticas. La nica forma
358 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
segura a largo plazo para mejorar la sociedad, argumentaron, era mejorar
las caractersticas de los individuos en ella, y la mejor manera de hacer esto
es asegurar que los de la generacin actual con buenas caractersticas (el
"apto") tengan ms hijos que aquellos con malas caractersticas (el "no apto
") ...
En un giro terrible del destino, la atroz causa de la eugenesia utilizada
por Hitler para dar una justicacin seudo cientca a sus polticas racistas,
proporcion el impulso principal para el desarrollo de la estadstica moderna.
Vamos a recorrer los primeros pasos de la estadstica moderna que llevaron
a la regresin y correlacin.
Quetelet aplic ampliamente la ms temprana tradicin estadstica, la
teora de errores (ver Spanos (1995b)), desarrollada por primera vez en la
astronoma y la geodesia, al anlisis estadstico de las medidas sociales con
la esperanza de desarrollar la fsica social. En la tradicin de la teora de los
errores, el centro de atencin fue dado a los errores de medicin. Los datos
observados se consideraron como medida de la misma (verdadera), variable
pero cada observacin tena un error de medicin que podra ser descrito
como aleatorio. Adems, cuando algunas observaciones se recolectaron ellas
tendan a mostrar el patrn de regularidad aleatoria asociado a la distribu-
cin Normal en forma de campana. En este contexto, el objetivo principal
de la modelacin era descubrir la verdadera variable reduciendo al mnimo
los errores de medicin. Gauss introdujo la distribucin normal como la que,
bajo ciertas restricciones, descubre la verdadera variable a travs de la me-
dia de la distribucin. Quetelet adapto este procedimiento para dar lugar a
la fsica social, mediante la asociacin de la media con lhomme moyen (el
hombre promedio), representando una especie de ideal y viendo el compor-
tamiento social como desviaciones del hombre promedio; ver Stigler (1986),
Porter (1986).
Galton, continuando con la tradicin asociada a Quetelet, utiliz la curva
de frecuencia de la ley de error (Normal) para describir algunos conjuntos
de datos de medidas antropomrcas, como la capacidad mental y carac-
tersticas fsicas de las poblaciones humanas, tales como altura y peso, y se
sorprendi por lo bien que la curva normal describa estos datos. El primer
problema que Galton tuvo que enfrentar fue la interpretacin de las desvia-
ciones de la media heredado de Quetelet. Al describir la capacidad mental
usando la curva normal, la pregunta obvia es si un genio constituye un error
de la naturaleza y la mente promedio el ideal? Para una eugenista la re-
spuesta era ciertamente no! Adems, para Galton la variacin alrededor de
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 359
la media no era un error a ser minimizado. En sus memorias Galton (1908,
p. 305) explica cmo tuvo que romper con la tradicin de la teora de errores:
Los objetos principales de la Ley de Gauss de los errores se oponan
exactamente, en un sentido, a aquellos a los que se les aplica. Ellos tenan
que ser eliminados o proporcionar una asignacin justa de los errores. Pero
estos errores o desviaciones fueron las mismas cosas que yo quera preservar
y conocer...
En este sentido, Galton volc la mesa a la teora de la tradicin errores
viendo la aleatoriedad como inherente a la naturaleza y no introducida como
un intento de observar y medir. Adems, la variabilidad asociada con esta
aleatoriedad era precisamente en lo que se interesaba. Como resultado de este
cambio de actitud las variables aleatorias observables tomaron el centro del
escenario y la media fue slo una caracterstica de la distribucin describiendo
esta variabilidad. De hecho, Galton (1875a) fue un paso ms all y propuso
sustituir la nocin de media y de error probable con los conceptos de mediana
y rango intercuartil (ver captulo 3), como medidas ms adecuadas para las
mediciones antropomrcas. El rompimiento de Galton con la tradicin de
la teora de los errores pueden ser fcilmente discernida de su propuesta de
sustituir el trmino de error estndar (conocida en ese entonces como error
probable) con el trmino desviacin estndar; las desviaciones de la media
ya no eran vistas como errores.
La segunda principal separacin de la teora de errores iniciada por Galton
fue motivada por su inters en el descubrimiento de la dependencia entre
las variables lo cual condujo naturalmente a las distribuciones conjuntas y
condicionales. Los conceptos ms inuyentes introducido por Galton fueron
los de regresin y correlacin, que, como se muestra en este y en los ltimos
captulos, se basan en las distribuciones condicionales y conjuntas y se pueden
utilizar para modelar (y cuanticar) la dependencia entre variables aleatorias.
El trmino regresin fue acuado por Galton (1885) en el contexto del
estudio de la herencia en las poblaciones humanas. En su intento de descubrir
una relacin entre la altura de los padres y la altura de sus hijos, introdujo
el concepto de curva de regresin en el contexto de poblaciones Normales.
Es bastante interesante que l formul el concepto de regresin mediante
el estudio de la relacin entre dos conjuntos de datos usando diagramas de
dispersin. Veamos esto en detalle.
El concepto de regresin, se propuso por primera vez por Galton (1877) al
estudiar las caractersticas heredadas entre dos generaciones de chcharos y se
llam inicialmente reversin. El documento que puso regresin en estadstica
360 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
fue Galton (1885), estudiando la relacin entre la altura del padre y el de
la descendencia.Galton (1885), examinando la distribucin de la altura de
una generacin de seres humanos a la siguiente, observ que la distribucin
de la altura (histograma) de su poblacin muestral parece seguir siendo la
misma, como en el caso de los chcharos (vase Galton (1877 )). Para ser
ms especco, en su estudio de la herencia, Galton not que el histograma
de las mediciones:
A
t
- la altura de la mitad de los padres y 1
t
- la altura de la descendencia,
se podra describir con una curva de frecuencia casi idntica a la Normal.
l dene la altura de la mitad de los padres como:
A
t
:=
A
1t
+ (1.08) A
2t
2
donde A
1t
es la altura del padre y A
2t
es la altura de la madre. La escala
de 1.08 se bas en la diferencia entre la altura media de los hombres frente a
la de las mujeres.
La pregunta que naturalmente surge en la mente de Galton fue la misma
que en el caso de los chcharos:
Cmo es que, aunque cada individuo no tiene como regla, dejar detrs
de l, sin embargo, las sucesivas generaciones se parecen entre s con gran
exactitud en todas sus caractersticas generales? ...
(Galton
(1877), p. 492)
Su explicacin ltima de este aparente enigma se bas principalmente en
la lnea de regresin denida por:
[1 (1
t
[A
t
= r
t
) 1 (1
t
)] =
_
Co (1
t
. A
t
)
\ c: (A
t
)
_
[r
t
1 (A
t
)] , r
t
R.
Cmo Galton deriv la lnea de regresin es una historia fascinante que
vale la pena contar con algn detalle.
Paso 1. Traz el diagrama de dispersin de los dos conjuntos de datos
(r
t
.
t
) . t = 1. 2. .... 1.
Paso 2. Uni los puntos de datos con aproximadamente la misma fre-
cuencia de ocurrencia y se dio cuenta de que estas curvas de igual frecuencia
forman curvas elpticas concntricas.
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 361
Paso 3. Usando el argumento de que "cuando el nmero de observaciones
aumenta las curvas de igual frecuencia se obtienen curvas ms lisas y suaves",
supone que en el lmite ellas forman elipses perfectas.
Paso 4. Al darse cuenta de que su formacin matemtica no fue suciente
para aprovechar estos contornos concntricos elpticos de la distribucin bi-
variada correspondiente, l requis la ayuda de su amigo matemtico Dick-
son. Con la ayuda de Dickson, deriva la densidad normal bivariada (vase el
apndice de Galton (1886)).
Paso 5. Utilizando un argumento ingenioso, Galton sugiri que la lnea
que describe mejor la relacin entre (A
t
. 1
t
) (lo que l llama la lnea de
regresin) es la que pasa por el centro de las elipses (el punto en el que los
dos ejer principales se encuentran) y corta las elipses en su punto de tangencia
con las lneas paralelas al eje . En la gura 7.21 podemos ver los contornos
de una densidad Normal bivariada con parmetros:
1 (1
t
) = 1.0, 1 (A
t
) = 2.0, \ c: (1
t
) = 0.8, \ c: (A
t
) = 1.8, Co (A
t
. 1
t
) =
0.6,
y las dos lneas de regresin:
1 (1
t
[A
t
= r
t
) = 0.333 + 0.333r
t
,
1 (1
t
[A
t
= r
t
) = 1.25 + 0.75
t
.
Tenga en cuenta que la lnea de regresin:
[1 (A
t
[1
t
=
t
) 1 (A
t
)] =
_
Cc(YI,AI)
\ ov(YI)
_
[
t
1 (1
t
)],
t
R,
tambin pasan por el centro de las elipses, pero las corta en el punto de
tangencia con las lneas rectas paralelas al eje r; otra idea de Galton!
Figura 7.27. Normal bivariada (= 0.5) contornos y lineas de regresin.
Lo que es fascinante desde nuestro punto de vista es que Galton fue capaz
de proceder a partir de los datos observados, generar la densidad terica
362 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
bivariada subyacente a estos datos usando al diagrama de dispersin y luego
proceder a denir la lnea de regresin.
OBSERVACIONES:
(i) Galton asume implcitamente que 1 (1
t
) = 1 (A
t
) := j y \ c: (A
t
) =
\ c: (1
t
), en cuyo caso la lnea de regresin anterior se reduce a la relacin
proporcional:
[1 (1
t
[A
t
= r
t
) j] = j (r
t
j) , r
t
R (7.59)
j := Co:: (A
t
. 1
t
) . [j[ _ 1 (7.60)
A partir de esto Galton concluy que hay una tendencia a regresar a la
media (debido a [j[ _ 1) en el sentido de que padres muy altos producen
vstagos que no son tan altos y padres muy bajos producen descendientes
que no son tan bajos.
(ii) Galton vio (7,59) como la ley de la herencia que subyace a la aparente
estabilidad de las caractersticas de la poblacin en las generaciones sucesivas.
Galton estaba claramente equivocado en la elaboracin de las implicaciones
de causalidad basado nicamente en la curva de regresin, porque por la
misma razn, desde el punto de vista estadstico, la regresin inversa:
[1 (A
t
[1
t
=
t
) j] = j (
t
j) ,
t
R
tiene tanto justicacin como la original. La regresin inversa corta las
elipses en su punto de tangencia con las lneas paralelas al eje r (vase la
gura 7.21).
(iii) Cabe sealar que Galton supone implcitamente normalidad conjunta
y marginal, para las variables aleatorias A
t
y 1
t
.
Para un estudiante moderno de estadstica parece muy extrao que la
nocin de correlacin fue introducida por Galton (1888) (inicialmente como
co-relacin) a travs de la regresin utilizando las pendientes de las lneas de
regresin y regresin inversa:
[1 (1
t
[A
t
= r
t
) j] =
_
Co (A
t
. 1
t
)
\ c: (A
t
)
_
[r
t
j] , r
t
R.
[1 (A
t
[1
t
=
t
) j] =
_
Co (A
t
. 1
t
)
\ c: (1
t
)
_
[
t
j] ,
t
R.
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 363
La multiplicacin de las dos pendientes da lugar al cuadrado del coe-
ciente de correlacin:
Co:: (A
t
. 1
t
) =
_
Co (A
t
. 1
t
)
\ c: (A
t
)
__
Co (A
t
. 1
t
)
\ c: (1
t
)
_
.
Para los detalles de esta fascinante historia ver Stigler (1986).
6.6.2 Karl Pearson
Karl Pearson fue el primero en apreciar la importancia de las contribuciones
de Galton en relacin a la regresin y correlacin y procedi a formalizar y
ampliar ambas en direcciones diferentes.
La primera contribucin fundamental de Pearson (1895,1896) fue la for-
malizacin del procedimiento de curvas de frecuencia de ajuste a los datos
observados, mediante la utilizacin de los cuatro primeros momentos (vese
captulo 3); el ajuste de la distribucin Normal antes de Pearson tom la
forma de dibujar la curva en forma de campana en el histograma de los datos
observados. Es interesante NOTAR que el concepto de momentos se ha uti-
lizado durante los siglos 18 y 19, pero Pearson acu el trmino e introdujo el
concepto en la estadstica; Chebyshev utiliz el concepto de momentos en la
teora de probabilidades en relacin con el Teorema Central del Lmite en la
dcada de 1870 , pero los dos hechos fueron separados en gran medida hasta
mediados del siglo 20. Pearson (1895) tambin fue el primero en introducir
los conceptos de asimetra y curtosis.
Pearson comenz su trabajo estadstico sobre las cuestiones planteadas
por el intento de Weldon para aplicar los resultados de Galton a la correlacin
de las poblaciones de cangrejos; Weldon fue un distinguido zologo en la Uni-
versity College donde Pearson fue profesor de Matemtica Aplicada. Result
que el histograma de las mediciones de los cangrejos de Npoles era a la
vez asimtrico y bimodal y Pearson (1894), en su primer documento estads-
tico, intent demostrar que el histograma puede ser descrito por la suma de
dos curvas normales con diferentes medias y varianzas; el primer intento por
tratar con el problema de heterogeneidad. La asimetra mostrada por los
datos biolgicos y los datos de precios de Edgeworth convenci a Pearson de
que la distribucin normal no era de aplicacin universal, como previamente
haba creido Quetelet y Galton. Esta situacin llev a la segunda contribu-
cin importante de Pearson a la tradicin biomtrica que lleg en la forma
de lo que hoy llamamos la familia de distribuciones Pearson, que incluye la
364 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
normal y la mayora de las distribuciones ms utilizadas, incluyendo varias
distribuciones no simtricas, como casos especiales (ver captulo 4).
Relacionado con el procedimiento de modelacin de las curvas de fre-
cuencias de ajuste de la familia Pearson a los datos observados es la tercera
contribucin importante de Pearson, la prueba de chi cuadrado para eval-
uar la bondad de ajuste como parte de su estrategia de modelacin; vase
Pearson (1900). Esta prueba constituye la primera prueba de errores de es-
pecicacin (ver captulo 15), que tuvo un impacto crucial en el desarrollo
de la inferencia estadstica en el siglo 20. Pearson es el ms conocido por los
cientcos sociales con algn inters en estadstica por esta prueba que por
cualquiera de sus otras contribuciones.
La cuarta contribucin importante de Pearson fue la formalizacin y ex-
tensin de la regresin y la correlacin de distribuciones bivariadas a multi-
variadas; vase Pearson (1896,1901,1902,1903,1904). Las frmulas modernas
para los coecientes de correlacin y regresin son en gran parte debidas
a Pearson. En relacin con estas frmulas tambin debemos mencionar a
Yule (1895-96,1896) que fue el primer alumno de Pearson, y ms tarde su
ayudante; en sus publicaciones l le da todo el crdito a este maestro. Las
extensiones de correlacin y regresin incluyen no slo la correlacin mlti-
ple, sino tambin la correlacin parcial. Es interesante notar que Pearson
fue tambin el primero en advertir el modelador del problema de correlacin
espuria en el caso de las variables medidas como razones con denominadores
comunes y / o numeradores (vase Pearson (1897)).
La quinta, y posiblemente la menos inuyente de sus aportaciones, es su
extensin de la regresin y las funciones momento condicional de orden supe-
rior a distribuciones conjuntas no Normales; vase Pearson (1905,1906,1920,1923
a-b, 1924,1925). Pearson fue el primero en apreciar la generalidad del con-
cepto de regresin y procedi a argumentar que el concepto se aplica a todas
las distribuciones conjuntas cuyos dos primeros momentos existen. l conje-
tura que la linealidad y la homocedasticidad estn inextricablemente ligados
con el supuesto de normalidad conjunta e inst a los modeladores a explorar
distribuciones conjuntas no simtricas. La investigacin conjunta de Pear-
son con Weldon sobre poblaciones de cangrejos le llev a las distribuciones
no simtricas y conjetur que la curva de regresin es poco probable que
sea lineal y homoscedstica en estos casos. Sin embargo, Pearson no podra
ofrecer ejemplos concretos de otras formas funcionales de las curvas de re-
gresin, porque no haba otras distribuciones de dos variables en ese tiempo.
Desafortunadamente, antes de tales distribuciones estuvieran ampliamente
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 365
disponibles su propuesta fue superada por ciertos acontecimientos cruciales.
En un artculo seminal Yule (1897) fue ms all de Galton y de Pearson
y propuso una relacin directa entre la regresin de Galton y la relacin
lineal entre dos variables como sugiere la tradicin de la teora de los errores
(mnimos cuadrados):
1
t
= ,
0
+,
1
r
t
+
t
,
t
~111
_
0. o
2
_
, t = 1. 2. ..... 1.
Luego pas a sealar que:
(a) (7.58) se puede estimar mediante el mtodo de mnimos cuadrados
(vase el captulo 13) y
(b) el supuesto de normalidad no juega ningn papel en la estimacin.
l procedi a argumentar en favor del uso de los mnimos cuadrados
para aproximar una lnea de regresin, incluso en los casos en que la lnea
imaginaria a travs de la grca" no es del todo una lnea recta" (Yule (1897),
p. 817).
Karl Pearson se opuso de inmediato a la generalidad aparente de Yule
y argument a favor de mantener la normalidad de la distribucin conjunta
para propsitos de especicacin:
Pearson quera empezar con una supercie de frecuencia y, si una lnea
de regresin se buscaba, encontrar esa lnea apropiada a la supercie. Si
la supercie sigue la ley normal, entonces se podra aceptar el camino de
las lneas rectas de ajuste por mnimos cuadrados. Pero, " pero, por qu
no debera otra ley incluso de frecuencia simtrica conducir a las p-simas
potencias de los residuos siendo mnimos? "... (Stigler (1986), p. 352)?" ...
(Stigler (1986), p. 352)
Desafortunadamente para la estadstica Pearson fue mucho menos per-
suasivo que Yule y como resultado, el modelo de regresin lineal se confunde
a menudo con un nmero de diferentes modelos lineales, como el modelo lin-
eal de Gauss (ver Spanos (1986,1999)). La conviccin de Pearson no tuvo
impacto en la estadstica porque sus esfuerzos por generar distribuciones bi-
varidas no simtricas a travs de un par de ecuaciones diferenciales parciales
estuvo en gran parte sin xito hasta la dcada de 1930 (vase el captulo 6 y
Mardia (1970). El principal obstculo fue la disponibilidad de distribuciones
conjuntas cuyas funciones momento condicional pudieran derivarse analti-
camente y luego usadas para especicar modelos de regresin. Los intentos
parcialmente exitosos por Pretorius (1930) y despus por Van Uven (1947a,
b, 48a,b) tuvieron muy poco impacto debido a que en los 1930 el xito de
366 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Yule fue completo . Desde el punto de vista de la regresin, los resultados de
Van Uven (vase el captulo 6) son interesantes en la medida en que las dis-
tribuciones condicionales implcitas en las ecuaciones diferenciales parciales
restringidas pertenecen a la familia Pearson en el sentido de que cumplen la
relacin general:
J1:, ([r)
J
=
g
1
(r. )
g
2
(r. )
El grado de xito de Yule era tal que incluso el xito anterior de Narumi
(1923a, b), que invierte el procedimiento especicando las funciones de re-
gresin y cedstica y luego procede a derivar la distribucin conjunta, pas
desapercibido. Los resultados de Narumi son de inters en el contexto actual
y se resumen para nes de referencia; para ms detalles vea la Mardia (1970).
El impacto de Yule, puede ser parcialmente explicado por el hecho de que
l escribi el primer libro de texto ampliamente utilizado en estadstica (ver
Yule (1911)). Motivado por la relacin:
, (r. ; c) = , ([r; ,
2
) ,
A
(r; ,
1
) , para todo (r. ) R
A
R
Y
.
la funcin de densidad bivariada de Narumi toma la forma restringida:
, (r. ) =
1
(r) ,
1
_
/
1
(r)
q
1
(r)
_
, , (. r) =
2
() ,
2
_
r /
2
()
q
2
()
_
.
Esta distribucin bivariada est restringida poque pertenece a la familia
de distribuciones localizacin-escala. Las densidades condicionales tienen la
forma:
, ([r) = c
1
,
1
_
/
1
(r)
q
1
(r)
_
, , (r[) = c
2
,
2
_
r /
2
()
q
2
()
_
,
donde c
1
y c
2
son dos constantes de normalizacin. Aunque Narumi
explor varios casos mediante la especicacin de la forma funcional de las
funciones de regresin y cedstica, los ms interesantes desde nuestro punto
de vista son los siguientes.
1. Regresin lineal y varianza condicional homocedstica. Pos-
tulando:
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 367
j([r) = ,
0
+,
1
r, j(r[) =
0
+
1
r,
o
2
([r) = o
2
1
, o
2
(r[) = o
2
2
,
deriv densidades condicional y marginal que resultaron ser Normales,
produciendo una distribucin Normal bivariada.
Regresin lineal y varianza condicional heterscedstica (lineal).
Al postular
j([r) = ,
0
+,
1
r, j(r[) =
0
+
1
r,
o
2
([r) = c
1
+r, o
2
(r[) = c
2
+,
deriva una densidad conjunta de la forma general:
, (r. ) = c
0
(cr +,)
0
1
( +o)
02
(c
a
+/
j
+c)
0
3
.
Esta distribucin conjunta incluye las distribuciones Beta bivariada, Pareto
y la F (vase el apndice B) como casos especiales. Al restringir la varianza
condicional de 1 dado A a ser:
o
2
([r) = c
1
,
Narumi deriva la densidad de dos variables:
, (r. ) = c
0
(cr +,)
0
1
c
0
2
j
(c
a
+/
j
+c)
0
3
,
que incluye la distribucin Gamma (McKay) (vase el apndice B) como
un caso especial.
Regresin lineal y varianza heterocedstica condicional (parablica).
Al postular
j([r) = ,
0
+,
1
r, j(r[) =
0
+
1
r,
o
2
([r) =
_
c
1
+r
2
, (r[) =
_
c
2
+
2
,
muestra que la densidad conjunta toma la forma general:
, (r. ) = c
0
_
cr
2
+/
2
+ 2o
1
r + 2o
2
r + 2o
3
+c
_
n
.
368 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Esta distribucin conjunta incluye las distribucin bivariada de Cauchy,
la t Student y la Pearson tipo II (vase el apndice B) como casos especiales.
NOTA: el lector perspicaz habra dado cuenta de la conexin entre los
resultados de Narumi y de Van Uven (vase el captulo 6).
Un siglo despus del primer intento fallido de Pearson para generar dis-
tribuciones conjuntas podemos ahora argumentar que Pearson estaba en lo
cierto desde el principio. La seccin 2 anterior se puede interpretar como
prueba de la tesis de Pearson presentando varios modelos de regresin aso-
ciados con diferentes distribuciones bivariadas. En efecto, si la sugerencia
de Yule se sigue cuando se estiman modelos de regresin, tal como la asoci-
ada a la distribucin exponencial bivariada, el resultado es probable que est
lejos de su objetivo! En la subseccin siguiente regresamos a la estrategia de
modelacin de Pearson.
6.6.3 Revisando la estrategia de modelacin de Pear-
son
Desde el punto de vista de la modelacin emprica, la estrategia de mod-
elacin de Pearson (vase Pearson (1905, 1923a, b, 1924,1925)) tiene perfecta-
mente buen sentido y proporciona el fundamento para el planteamiento adop-
tado en este libro. La aproximacin de Galton a la regresin lineal/Normal
se puede extender fcilmente a algunos otros modelos de regresin como se
discute en la seccin 2. En el captulo 6 consideramos la cuestin de utilizar
los diagramas de dispersin con el n de tener una idea de la naturaleza de la
densidad bivariada por suavizamiento del estereograma (histograma bivari-
ado). Esto es simplemente una versin moderna del procedimiento de Galton
como se describio anteriormente. La supercie suavizada del estereograma
(vase el captulo 6) da al modelador ideas en cuanto a la distribucin bivari-
ada ms acorde, y esta informacin se puede utilizar con el n de postular el
modelo de regresin adecuado.
Para ilustrar la relacin entre la densidad bivariada y las curvas de re-
gresin volvamos a las distribuciones bivariadas en el captulo 6. En las
guras 7.22-7.23 podemos ver la densidad bivariada F con := (12. 8. 8) y
los contornos de equiprobabilidad correspondientes que son claramente no
elpticos y asimtricos. La relacin entre la distribucin conjunta y la lnea
de regresin se puede ver en la gura 7.23 que tiene una cierta anidad con
la de la distribucin conjunta Normal en la gura 7.21, pero tambin hay
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 369
una diferencia obvia. Las lneas de regresin Normales y F son similares en
tanto que el signo del coeciente de correlacin determina su pendiente, pero
dieren en la medida en cuanto que este ltimo no pasa por la moda de la
densidad bivariada.
Adems, no existe una relacin evidente simple entre la pendiente de los
contornos en los puntos de interseccin con la lnea de regresin como seal
Galton en el caso de la densidad Normal bivariada. NOTE que el coeciente
de correlacin en las guras 7.22 a 7.23 es j = 0.444.
Figura 7.22. Bivariada F (23,8,8) la densidad de la supercie.
Figura 7.23. Bivariada F (12,8,8) contornos y lnea de regresin.
En las guras 7.24-7.25 podemos ver las misma grcas en el caso en que la
correlacin entre las variables aleatorias (A. 1 ) es bastante alta (j = 0.953).
Como podemos ver la lnea de regresin est mucho ms cerca a (pero no
370 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
coincide con) el eje principal de los contornos elpticos casi simtricos. Al
igual que en el caso de la distribucin normal, aumentando el coeciente de
correlacin tiene el efecto de aplastar los contornos.
Figura 7.24. Bivariada F (5,60,60) la densidad de la supercie.
Figura 7.25. Bivariada F (5,60,60) contornos y la lnea de regresin.
La conexin entre el coeciente de correlacin y la recta de regresin se
hace ms clara en las guras 7.26-7.27 donde la correlacin entre las variables
aleatorias (A. 1 ) es baja (j = 0.035), conrmando la relacin directa entre
el coeciente de correlacin y la pendiente de la lnea de regresin.
Figura 7.26. Bivariada F (80,4,1) la densidad de la supercie.
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 371
372 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
Figura 7.27. Bivariada F (80,4,1) contornos y la lnea de regresin.
En las guras 7.28-7.29 podemos ver la densidad Gamma bivariada (Cherian)
(2,3,4) y los contornos correspondientes con la lnea de regresin insertada,
respectivamente. Como podemos ver, la Gamma bivariada es muy similar
a la distribucin F, pero con una forma diferente de asimetra. La lnea de
regresin es similar a las lneas de regresin Normal y F en la medida en que
estn directamente relacionadas con el coeciente de correlacin. Este es el
resultado general que se deriva en la seccin 3 anterior que dice que en el
caso de regresiones lineales, la lnea toma la forma:
1 (1 [o (A)) = 1 (1 )
Co (A. 1 )
\ c: (A)
[A 1 (A)] . (7.61)
En las guras 7.30-7.31 podemos ver la densidad versin Beta bivariada
(3,3,6) y la densidad de los contornos correspondientes con la lnea de regre-
sin insertda, respectivamente. Una vez ms, la asimetra mostrada por los
contornos es muy diferente tanto de la distribucin F como de la Gamma
bivariada. Como se muestra en el apndice B, esta forma de la distribucin
Beta bivariada slo permite correlacin negativa y por lo tanto la lnea de
regresin, tambin de la forma general (7.61), slo puede tener pendiente
negativa.
Figura 7.30. Beta bivarida (3,3,6). Supercie de la densidad.
Figura 7.31. Beta bivarida (3,3,6) contornos y lnea de regresin.
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 373
En un intento por evitar la impresin errnea de que "las curvas de re-
gresin son normalmente las lneas rectas" presentamos dos distribuciones
bivariadas con funciones de regresin no lineales.
En las guras 7.32 a 7.33 podemos ver la densidad bivariada Exponencial
y los contornos correspondientes con la curva de regresin insertada, respec-
tivamente. Una vez ms notamos la aparente falta de conexin entre la pen-
diente de los contornos y la curva de regresin en los puntos de interseccin.
La forma de las funciones de regresin para esta y las otras distribuciones
discutidas anteriormente fueron sealadas en la seccin 2 anterior.
Figura 7.32. Bivariada Exponencial (o = 1) densidad de la supercie.
Figura 7.33. Exponencial bivariada (o = 1) contornos y curva de regresin.
374 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
En las guras 7.34 y 7.35 podemos ver la densidad logstica bivariada
(estndar) la y los correspondientes contornos con la curva de regresin in-
sertada, respectivamente.
Figura 7.34. Supercie de la densidad logstica bivariada.
Figura 7.35. Logstica bivariada contornos y lnea de regresin.
Una comparacin entre las guras 7.35 y 7.29 sugiere que decidir si la re-
gresin es lineal o no lineal con slo mirar el diagrama de dispersin puede ser
peligroso! Una mejor estrategia de modelacin ser evaluar los contornos del
estereograma suavizado (vase el captulo 6) antes tomar cualquier decisin
relativa a la naturaleza de la funcin de regresin. De hecho, la estrategia de
modelacin de Pearson puede ser la mejor eleccin: primero decidir sobre la
6.6. LA TRADICIN BIOMTRICA EN ESTADSTICA 375
distribucin conjunta (utilizando los contornos del estereograma suavizado)
y luego proceder a la regresin y otras funciones momento condicional; vase
Pearson (1905,1920,1923 a-b, 1924,1925 ). Esta estrategia puede ser com-
plementada por la regresin suavizada de kernel no paramtrico discutido a
continuacin a n de evaluar la idoneidad de la distribucin conjunta postu-
lada.
6.6.4 Kernel suavizado y regresin
Las tcnicas de kernel suavizado introducidas en los captulos 5-6 se pueden
utilizar para proporcionar al modelador una ayuda visual para decidir sobre
la idoneidad del modelo de regresin postulado. La idea bsica es utilizar
la informacin transmitida por el diagrama de dispersin para evaluar una
curva de regresin no paramtrica directamente.
Como se ha dicho anteriormente, la funcin de regresin se dene por:
1 (1 [A = r) =
_
jR
Y
, ([r) d = /(r) , r R
A
.
Sustituyendo , ([r) =
)(a,j)
)
^
(a)
en esta denicin resulta:
1 (1 [A = r) =
_
jR
Y

, (r. )
,
A
(r)
d = /(r) , r R
A
.
A partir de esta relacin podemos observar que el modelador puede obtener
una evaluacin no paramtrica de la curva de regresin a partir del his-
tograma suavizado (vase el captulo 5) y estereograma (vase el captulo 6),
376 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
que representan los equivalentes empricos de las densidades ,
A
(r) y , (r. ),
respectivamente:

,
A
(r) =
1
:/
a

a
I=1
1
a
_
r
I
r
/
a
_
. /
a
0

, (r. ) =
1
:/
a
/
j

a
I=1
1
a
_
r
I
r
/
a
_
1
j
_

/
j
_
. /
a
0. /
j
0,
donde ambos kernels satisfacen las propiedades:
[a] 1 (.) _ 0, [b]
_
:R
2
1 (.) d. = 1.
La funcin de regresin puede ser evaluada empricamente a travs de:
1
_
1 [

A = r
_
=
_
jR
Y

, (r. )
,
A
(r)
d
=

a
I=1
1
a
_
a
I
a
Ii
_

a
I=1
1
a
_
a
I
a
Ii
_ (7.62)
=

a
I=1
n
I

I
, r R
A
.
donde las ponderaciones la forma:
n
I
=
1
a
_
a
I
a
Ii
_

a
I=1
1
a
_
a
I
a
Ii
_.
El lado derecho de (7.62) se deduce del hecho de que:
_
jR
Y
1
Y
() d = 1 y
_
jR
Y
1
Y
() d = 0.
El evaluador no paramtrico de la funcin de regresin en (7.62) se conoce
como el "estimador" Nadaraya-Watson. Para ms sosticados evaluadores
de la funcin de regresin basado en tcnicas de suavizado de kernel y otros
ver Hardle (1990).
Intuitivamente, las anteriores curvas suavizadas de regresin equivalen a
tomar una media ponderada (siendo los pesos n
I
, / = 1. 2. .... :) de todos los
6.7. RESUMEN 377
puntos (r
I
.
i
) en el intervalo (r
I
/
a
) cuando / vara sobre todos los valores
de A. En la gura 7.36 podemos ver un intervalo de este tipo (0.6 0.1)
dentro del cual varios puntos se promediarn verticalmente para reducirlos a
un punto.
En este libro consideramos el anterior evaluador no paramtrico de la
funcin de regresin no como un sustituto de la estrategia de modelacin
expuesta anteriormente, sino como un complemento de la evaluacin de la
idoneidad del modelo de regresin postulado. Esto se debe a que el evaluador
de la regresin suavizada hace caso omiso de las otras funciones condicionales
momento. Por el contrario, postulando una distribucin bivariada permite
al modelador derivar las funciones momento condicional de orden superior.
Como hemos visto en la seccin 2 anterior, la mayora de las distribuciones
bivariadas dan lugar a funciones de varianza condicional heterocedstica.
Por lo tanto, el mejor uso de la regresin suavizada es para el modelador
superponer la curva de regresin terica (que corresponde a la distribucin
bivariada postulada) y la curva de regresin emprica no paramtrica en un
diagrama de dispersin para evaluar visualmente lo adecuado de la primera.
Para otros usos de tales evaluadores no paramtricos vase el captulo 15.
6.7 Resumen
El principal objetivo de los anteriores tres ltimos captulos ha sido la exten-
sin del modelo estadstico simple, construido sobre el concepto de muestra
aleatoria, hacia modelos ms realistas que pueden acoger alguna dependencia
y / o heterogeneidad. Despus de haber argumentado que la mejor manera
de modelar la dependencia y la heterogeneidad es a travs de distribuciones
conjuntas, se procedi a encontrar formas de lidiar con los problemas de
la multidimensionalidad y sobreparametrizacin derivados de tales distribu-
ciones. En el captulo 6, adems de desarrollar una serie de conceptos de
dependencia, se mostr que la condicionalidad secuencial proporciona una
manera ms ecaz de lidiar con el problema de la dimensionalidad planeado
por las distribuciones conjuntas. Cualquier distribucin conjunta se puede
reducir a un producto de distribuciones condicionales univariadas. Sin em-
bargo, este producto a menudo representa una familia innita de densidades
cuya informacin no puede ser modelada utilizando los momentos condi-
cionales ordinarios. El objetivo principal de este captulo ha sido el desarrollo
del concepto de funcin estocstica momento condicional. Estas funciones
378 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
se denen en trminos de los momentos condicional, pero se consideran fun-
ciones de las variables condicionantes. Las funciones condicional momento
ms conocidas son las funciones de regresin y cedstica. Otro de los obje-
tivos de este captulo ha sido mostrar que las funciones momento condicional
(regresin, cedstica, cltica y curtica) pueden ser integradas en la especi-
cacin de modelos estadsticos mediante la introduccin de un componente
adicional, el mecanismo generador estadstico (MG). El MG estadstico ten-
dr un papel importante en la estimacin y en la etapa de identicacin:
relacionando un modelo estadstico a un modelo terico.
El enfoque propuesto en este captulo para modelar la dependencia / het-
erogeneidad utilizando modelos de regresin general se remonta a la tradicin
biomtrica fundada por Galton, formalizada y ampliada por Karl Pearson (y
hasta cierto punto Yule) y transformada en la estadstica moderna por Fisher
(vanse los captulos 11-15). Nuestro inters en la tradicin biomtrica se ha
restringido a su dimensin de modelacin emprica y no se ha hecho referen-
cia a su relacin con el tema de la Biologa; para esto ver a MacKenzie (1981)
y Kevles (1985). Sin embargo, es importante mencionar la leccin fundamen-
tal que se aprendi del fracaso de la tradicin biomtrica para dar lugar a la
biologa estadstica, como fue originalmente pensado por Karl Pearson. La
leccin es que los modelos estadsticos por s solos proporcionan una descrip-
cin y no una explicacin. Para esto ltimo necesitamos sintetizar modelos
estadsticos empricamente adecuados con los modelos tericos (ver captulo
1). Cuando Fisher (1930) sintetiza la tradicin estadstica biomtrica con
la teora de la herencia de Mendel, el hbrido result ser un gran xito! La
demanda de Fisher a la fama no es slo como el padre de la estadstica mod-
erna, sino tambin como una gura importante en la gentica del siglo 20;
vase MacKenzie (1981).
6.8 Ejercicios
1. Explique cmo la nocin de condicionamiento nos permite tratar con el
problema de la dimensionalidad planeatdo por las distribuciones conjuntas
de las muestras.
2. Explique por qu en la reduccin , (r. ) = , ([r) ,
a
(r), usando
momentos condicionales para los propsitos de la modelacin, plantea un
problema en relacin con r R
A
.
3. Considere la distribucin conjunta dada enseguida:
6.8. EJERCICIOS 379
r 1 2 3 ,
a
(r)
-1 0.10 0.08 0.02 0.2
0 0.15 0.06 0.09 0.3
1 0.02 0.20 0.10 0.5
,
Y
() 0.45 0.34 0.21 1
(a) Deduzca las distribuciones condicionales de (1 [A = r) para todos los
valores de la variable aleatoria X.
(b) Derive la regresin y funciones cedsticas de las distribuciones en (a).
4. Sea la funcin de densidad conjunta de dos variables aleatorias X e Y:
r 0 1 2
0 0.1 0.2 0.2
1 0.2 0.1 0.2
(a) Derive los siguientes momentos condicionales:
1(1 [A = 1), \ c:(1 [A = 1), 1[1 1(1 [A = 1)]
3
[A = 1.
(b) Verique las igualdades:
(i) \ c:(1 [A = 1) = 1(1
2
[A = 1) 1[1 [A = 1]
2
.
(ii) 1(1 ) = 11(1 [A).
(iii) * \ c:(1 ) = 1\ c:(1 [A) +\ c:1(1 [A).
5. Compare y contraste los conceptos 1[1 [A = A] y 1[1 [o(A)].
6. Dena y explique los siguientes conceptos:
(a) Funciones condicionales momento,
(b) funcin de regresin,
(c) funcin Cedstica,
(d) homoscedasticidad,
(e) heterocedasticidad.
7. De las distribuciones de dos variables del captulo 7, recoger las fun-
ciones de regresin que son lineales y las funciones cedsticas que son ho-
moscedsticas.
8. Explique el concepto de regresin lineal. Explique la diferencia entre
la linealidad en r y la linealidad en los parmetros.
9. Considere la distribucin normal conjunta representada por:
_
1
A
_
~`
__
j
1
j
2
_
.
_
o
11
o
12
o
21
o
22
__
.
(a) Para los valores j
1
= 1, j
2
= 1.5, o
11
= 1. o
12
= 0.8, o
22
=
2, graque la esperanza condicional 1 (1 [A = r) y la varianza condicional
\ c: (1 [A = r) para r = 0. 1. 2.
380 CAPTULO 6. REGRESIN Y CONCEPTOS RELACIONADOS
b) Graque 1 (1 [A = r) y \ c: (1 [A = r) para r = 0. 1. 2, para una dis-
tribucin t de Student bivariada, cuyos momentos toman los mismos valores
que los indicados en (a) para = 3. 5. 7.
(c) Exprese las distribuciones marginales de 1 y A.
10. Explique el concepto de funcin estocstica momento condicional.Porqu
nos importa?
11. Explique el concepto de exogenedad dbil. Porqu nos importa?
12. Explique el concepto de mecanismo generador estadstico. Porqu
lo necesitamos?
13. Sea 1 una variable aleatoria y dena el trmino de error por: n =
1 1 (1 [o (A)).
Muestre que, por denicin, esta variable aleatoria cumple las siguientes
propiedades:
[i] 1 (n[o (A)) = 0,
[ii] 1 (nA[o (A)) = 0,
[iii] 1 (n) = 0,
[iv] 1 n [1 (1 [o (A))] [o (A) = 0.
14 Explique la diferencia entre dependencia temporal y contempornea.
15 Compare y contraste el MG estadstico de:
(a) el modelo Normal simple,
(b) el modelo de regresin lineal /Normal, y
(c) el modelo lineal/autorregresivo Normal.
16. Compare y contraste los modelos de regresin Normal simple y lin-
eal/Normal en trminos de sus modelos de probabilidad y muestral.
17 Compare y contraste los modelos de regresin lineal/Normal y t de
Student en trminos de sus modelos de probabilidad y muestral.
18 Explique la estrategia de Karl Pearson en la postulacin de modelos
de regresin.
19 "El argumento de que, observando las exposiciones grcas de distribu-
ciones bivariadas y la grca de contorno asociada a la curva de regresin,
es muy engaoso cuando se tienen : 2 variables, es equivalente a decirle
a los astrnomos que abandonen sus telescopios, ya que slo pueden ver dos
por ciento del universo a lo ms". Discuta.
Captulo 7
Procesos estocsticos
7.1 introduccin
En el captulo 6 nos propusimos ampliar el alcance previsto del modelo es-
tadstico simple basado en el concepto de muestra aleatoria (un conjunto
de (A
1
. A
2
. .... A
a
) variables aleatorias independientes e idnticamente dis-
tribuidas (IID)) para incluir fenmenos estocsticos que no pueden ser con-
siderados como realizaciones de muestras aleatorias. En este captulo anal-
izamos el concepto de dependencia en general. El problema de la mod-
elizacin de la dependencia se prosigui en el captulo 7, donde llegamos
a la conclusin de que una forma ecaz de abordar las cuestiones planteadas
por la modelizacin fue travs de las distribuciones condicionales y, en par-
ticular, a travs de las funciones condicionales momento estocsticas. La
discusin en ambos captulos se limito al caso de dos variables con el n de
eludir algunos problemas adicionales planteados por el caso general. El obje-
tivo principal de este captulo es regresar al caso general de n variables y unir
los cabos sueltos. El concepto bsico requerido es el de proceso estocstico
que extiende el concepto de variable aleatoria.
7.1.1 La historia hasta ahora
Como se muestra en los captulos 6 y 7, el calicativo simple en un modelo
estadstico simple proviene del hecho de que el supuesto de muestra aleato-
ria simplica considerablemente el anlisis; la distribucin conjunta de la
muestra es reducida a un producto distribuciones marginales univariadas
381
382 CAPTULO 7. PROCESOS ESTOCSTICOS
(idnticas)
1
:
, (r
1
. r
2
. .... r
a
; )
1
=
a

I=1
,
I
(r
I
;
I
)
111
=
a

I=1
, (r
I
; ) . para todo x := (r
1
. r
2
. .... r
a
) R
a
A
.
(8.1)
Como se muestra en el captulo 6, en el caso de una muestra no aleatoria
la correspondiente reduccin basada en el condicionamiento secuencial toma
la forma:
, (r
1
. r
2
. .... r
a
; )
no 111
= ,
1
(r
1
;
1
)
a

I=2
,
I
(r
I
[ r
I1
. .... r
1
;
I
) . \x R
a
A
.
(8.2)
Al comparar las dos reducciones (8.1) y (8.2) podemos ver que la clave
para la modelizacin de la no aleatoriedad se presenta en la forma de dis-
tribuciones condicionales. En efecto, de la discusin preliminar del problema
de medir la dependencia en el captulo 6 concluimos que la va ms promete-
dora se presenta en forma de momentos condicionales. En el captulo 7, sin
embargo, se hizo evidente que los momentos condicionales no podaa hacer
el trabajo porque para cada k:
,
I
(r
I
[r
I1
. .... r
1
;
I
) . (r
I1
. .... r
1
) R
I1
A
. (8.3)
representa una coleccin completa de funciones de densidad; una para
cada valor posible en R
I1
A
, cada una con sus propios momentos condicionales.
La solucin a este problema viene bajo la forma de funciones condicionales
momento, tales como la funcin de regresin y cedstica. Incluso estas fun-
ciones, sin embargo, no son sucientes para hacer frente al problema, ya
que ignoran la estructura probabilstica de la variable condicionante. En el
captulo 7 extendemos las funciones condicionales momento para tener en
cuenta la estructura probabilstica de las variables condicionantes en forma
de funciones estocsticas condicionales momento.
A lo largo de la discusin en los dos captulos anteriores nos hemos con-
centrado en el caso simple de dos variables:
1
En el libro de Spanos (1999), la expresin 8.1 en lugar de la primera igualdad aparece
slo I y en lugar de la segunda aparece III.
7.1. INTRODUCCIN 383
, (r. ; ) = , ([r; ,
2
) ,
a
(r[; ,
1
) . para todo (r. ) R
A
R
Y
. (8.4)
por una razn muy buena: esquivar dos problemas interrelacionados que
surgen en el contexto de las distribuciones condicionales secuenciales (8.3):
(i) El conjunto de informacin condicionante cambiante: el nmero de
cambios en las variables condicionantes con el ndice en el sentido de que
el nmero de variables condicionantes que intervienen en (r
I
[r
I1
. .... r
1
;
I
)
cambia con / = 2. 3. .... :, haciendo estas densidades diferentes, por ejemplo
para el : = 5:
,
2
(r
2
[r
1
;
2
)
,
3
(r
3
[r
2
. r
1
;
3
)
,
4
(r
4
[r
3
. r
2
. r
1
;
4
)
,
5
(r
5
[r
4
. r
3
. r
2
. r
1
;
5
) .
ii) La heterogeneidad inherente: adems del hecho de que las densidades
condicionales puede ser diferentes para cada / (,
I
(.[.) . / = 1. 2. .... :), ex-
iste tambin el problema de la heterogeneidad introducida por el cambiante
conjunto de informacin condicionante.
Con el n de motivar la discusin que sigue, vamos a proceder a aplicar las
soluciones propuestas en el captulo 7 para el caso general (8.3). En partic-
ular, vamos a considerar los conceptos de funciones condicionales momento
en el caso de la secuencia de densidades condicionales (8.3). Lo primero
que se hace evidente observando estas densidades es que no podemos utilizar
las funciones ordinarias condicionadas momento debido a que las densidades
marginales son sin duda relevantes.Con la excepcin de las ltimas A
a
vari-
ables aleatorias, las otras aparecen a ambos lados del condicionamiento. Por
lo tanto, debemos tener en cuenta las funciones estocsticas condicionales
momento. Las dos primeras funciones estocsticas condicionales momento,
conocidas como funciones autorregresivas y autocedsticas, toman la forma
general:
1 (A
I
[o (A
I1
. .... A
1
)) = /
I
(A
I1
. .... A
1
) . / = 2. 3. .... :
\ c: (A
I
[o (A
I1
. .... A
1
)) = q
I
(A
I1
. .... A
1
) . / = 2. 3. .... : (8.5)
Un vistazo a (8.5) revela que esas no producen modelos operativos, porque
ellas cambian con el ndice /. Esto indica que sin algunas restricciones
384 CAPTULO 7. PROCESOS ESTOCSTICOS
sobre la dependencia y la heterogeneidad del conjunto de variables aleato-
rias (A
1
. A
2
. .... A
a
), no surgen modelos operativos a travs de los momentos
condicionales estocsticos; el problema de la imposicin de tales restricciones
se llevar a cabo en este captulo.
7.1.2 Variables aleatorias y ordenamiento
En el caso de una muestra aleatoria (A
1
. A
2
. .... A
a
), el ordenamiento de las
variables aleatorias involucradas, aunque se especica, es irrelevante debido a
que las variables aleatorias son rplicas de cada una y no podemos distinguir
entre, por ejemplo A
1
y A
3
, incluso si quisiramos, a menos que la realizacin
de estos valores se lleve a cabo en sucesivos momentos y su orden se tome
en cuenta. Esto es evidente en (8.1), porque cualquier reorganizacin de
la secuencia no har ninguna diferencia en el lado derecho. En contraste
con esto, en el caso de una muestra no aleatoria la reduccin de (8.2) hace
perfectamente claro que el orden es muy importante.
El concepto de variable aleatoria A (ver captulo 3) denida en un espacio
de probabilidad (o. . 1 (.)), (donde o denota el conjunto de resultados,
el conjunto apropiado de eventos de inters y 1 (.) una funcin conjunto de
probabilidad), como una funcin de la forma:
A (.) : o R tal que A
1
(. r]
es, bsicamente, adimensional y no puede ser dotado de dependencia
y heterogeneidad. En nuestro intento de denir el concepto de muestra no
aleatoria necesitamos dotar al concepto de variable aleatoria con dependencia
y heterogeneidad. Ambos conceptos se denen en relacin con algn orde-
namiento de las variables aleatorias involucradas. Esto hace que debamos
dotar al concepto de variable aleatoria de una dimensin (un ndice) que rep-
resenta a este ordenamiento y representa a menudo tiempo, posicin, espacio,
etc. La sucesin indexada de variables aleatorias A
1
. A
2
. .... A
a
, llamada
proceso estocstico, es la extensin requerida. El lector perspicaz habr
notado que el concepto de proceso estocstico fue implcitamente utilizado
en los tres captulos anteriores, cuando la muestra fue especicada.
7.1.3 Una vista panormica del captulo
El objetivo principal de este captulo es denir y explicar el concepto de
proceso estocstico y las restricciones relacionadas de dependencia y hetero-
7.1. INTRODUCCIN 385
geneidad, necesarias para especicar modelos estadsticos operacionales que
se pueden utilizar para la modelizacin de datos no IID.
La discusin de los procesos estocsticos puede llegar a ser una de las
partes ms enmaraadas y confusas de la teora de la probabilidad, debido
principalmente a los numerosos tipos de procesos estocsticos traslapados que
uno encuentra. Las dicultades de dominar el material se mitigan cuando la
discusin se estructura de una manera que hace que sea ms fcil comparar
y contrastar los distintos procesos estocsticos. En un intento por mitigar
la confusin para los no iniciados utilizamos las siguientes ayudas de apren-
dizaje:
i) Comenzamos la discusin con una breve resea de los primeros desar-
rollos en procesos estocsticos. Esto se hace para aminorar el problema de
introducir demasiados conceptos muy rpidamente y establecer cierta termi-
nologa bsica.
(ii) La estructura probabilstica de procesos estocsticos se discute en
relacin con las tres categoras bsicas de supuestos probabilsticos:
(D)Distribucin, (M)Dependencia, (H)Homogeneidad. ((8.6))
Esto hace la comparacin entre los diferentes procesos mucho ms clara
y ms intuitiva.
(iii) Utilizamos varias taxonomas de procesos estocsticos, comenzando
la discusin con la distincin discreto / continuo.
(iv) En vista del hecho de que la mayora de los procesos estocsticos se
especican indirectamente como funciones de otros procesos estocsticos (a
menudo ms simples), hacemos hincapi en la distincin entre los puntos de
vista distrbucional y constructivista.
En la seccin 2 denimos el concepto de proceso estocstico y dis-
cutimos su estructura bsica. En la seccin 3, consideramos brevemente
los primeros desarrollos de algunos de los procesos estocsticos ms impor-
tantes y las asociadas restricciones de dependencia y heterogeneidad. Una
discusin ms completa de las restricciones de dependencia y heterogeneidad
de los procesos estocsticos se da en las secciones 4 y 5, respectivamente. Se
hace hincapi en la distincin entre los enfoques distribucional y construc-
cionista a la especicacin de los procesos estocsticos; la primera se reere
a la especicacin a travs de la distribucin conjunta de un nmero nito
de elementos del proceso y la segunda a la especicacin de un proceso es-
tocstico a travs de una funcin de otro proceso (a menudo ms simple). La
386 CAPTULO 7. PROCESOS ESTOCSTICOS
seccin 6 se presentan algunos de los procesos estocsticos utilizados como
bloques de construccin para la construccin de tales procesos. Las prin-
cipales categoras de procesos estocsticos, procesos Markov, procesos de
caminata aleatoria, procesos martingala, procesos de Gaussianos y procesos
Punto, se discuten en las secciones 7-11. En relacin con la especicacin
de un proceso estocstico, concluimos el problema de la especicacin de
modelos estadsticos operativos mediante la imposicin de restricciones de
dependencia y heterogeneidad en la seccin 10.
7.2 El concepto de proceso estocstico
7.2.1 Denicin de un proceso estocstico
Un proceso estocstico es simplemente una coleccin indexada de vari-
ables aleatorias A
t
. t 1 denidas en el mismo espacio de probabilidad
(o. . 1 (.)), es decir, A
t
es una variable aleatoria en relacin a (o. . 1 (.)),
para cada t en el conjunto ndice 1.
Ejemplo
El nmero de llamadas telefnicas llegando a una central telefnica en el
intervalo [0. t] se puede modelar usando una secuencia indexada de variables
aleatorias, donde A
t
mide el nmero de llamadas hasta el momento t; sus
valores posibles son: 0. 1. 2. 3. ...
Recordando que una variable aleatoria A es una funcin del conjunto de
resultados o a la lnea real R, observamos que un proceso estocstico es una
funcin con dos argumentos:
A (.. .) : o 1 R.
Una notacin ms atenta de un proceso estocstico es:
A (:. t) . : o. t 1 .
Teniendo en cuenta los dos argumentos, podemos considerar un proceso
estocstico a partir de dos diferentes pero interrelacionados entre s ngulos
de visin.
(i) El ngulo de visin variable aleatoria. Para un determinado t = t,
_
A
_
:. t
_
. : o
_
:
A
_
.. t
_
: o R,
7.2. EL CONCEPTO DE PROCESO ESTOCSTICO 387
es una variable aleatoria ordinaria respecto a (o. . 1 (.)) con sus propias
funciones de distribucin y densidad, como antes. Para un determinado sub-
conjunto de 1, por ejemplo t
1
. t
2
. .... t
a
, A (.. t
1
) . A (.. t
2
) . .... A (.. t
a
)
es simplemente una coleccin de variables aleatorias, similar a la que us-
amos para denir el concepto de muestra en los captulos anteriores. La
estructura probabilstica de esta coleccin est completamente descrita por
su distribucin conjunta acumulada o por su funcin de densidad conjunta
, (r (t
1
) . r(t
2
) . .... r (t
a
)).
(ii) El ngulo de visin funcional. Para un determinado : = :, A (:. t) . t 1:
A (:. .) : 1 R,
es solo una funcin ordinaria de 1 a R. La grca de esta funcin se
llama a menudo trayectoria muestral (o realizacin muestral ), porque sta es
la caracterstica del proceso estocstico que a menudo asociamos con los datos
observados. En las guras 8.1 y 8.2 podemos ver las trayectorias muestrales
de un proceso estocstico discreto y continuo, respectivamente.
Figura 8.1. Una trayectoria muestral discreta
388 CAPTULO 7. PROCESOS ESTOCSTICOS
Figura 8.2. Una trayectoria muestral continua
Permitiendo que : cambie (siempre dentro de o) y tomando los valores,
por ejemplo :
1
. :
2
. :
2
. .... :
I
, las funciones A (:
1
. .) . A (:
2
. .) . .... A (:
I
. .),
t 1, denen una coleccin de diferentes trayectorias muestrales, que se
llama un ensamble. La estructura matemtica del ensamble tambin de-
sempea un papel importante en la formalizacin del concepto de proceso
estocstico.
NOTAS:
(a) Es importante destacar en esta etapa que es una prctica comn
conectar los puntos de un trayectoria muestral de un proceso discreto. Esto
sugiere una cierta precaucin cuando se observan grcas para evitar con-
fundir un proceso discreto con uno continuo, debido a que uno observa una
trayectoria muestral continua (ver gura 8.2).
(b) A menudo no se puede resistir la tentacin de interpretar a t como el
tiempo por conveniencia, pero fcilmente podra haber alguna otra dimensin
que nos interese, como el espacio y la posicin geogrca, siempre y cuando
el conjunto ndice para la dimensin particular est ordenado.
(c) El ndice t puede fcilmente ser multidimensional en el sentido de que
el proceso estocstico A
t
. t R
3
podra representar la velocidad de una
partcula suspendida en un lquido con t siendo su posicin en el espacio
euclidiano tridimensional.
(d) El proceso estocstico X
t
. t 1 se puede extender fcilmente al caso
en que X
t
es un vector /1 de variables aleatorias k31: X
t
= (A
1t
. A
2t
. .... A
It
)
T
.
Desde el punto de vista de la modelizacin hay una diferencia muy im-
portante entre tener una realizacin x
t
:= (r
1
. r
2
. .... r
T
) a partir de una
muestra aleatoria (A
1
. A
2
. .... A
T
) o a partir de un proceso estocstico no
7.2. EL CONCEPTO DE PROCESO ESTOCSTICO 389
IID A
t
. t 1. En el caso de la muestra aleatoria, debido al hecho de que
cada valor de r
t
proviene de la misma distribucin , (r. ), la fecha t carece
de importancia ya que las variables aleatorias son rplicas de cada una. Como
resultado de esto, podemos utilizar los promedios t (momentos muestrales),
tales como:
1
1

T
t=1
r
v
t
, : = 1. 2. ... (8.7)
para estimar los correspondientes momentos de la distribucin (promedios
de probabilidad):
1 (A
v
) =
_
aR
^
r
v
, (r) dr, : = 1. 2. ... (8.8)
En cierto sentido, (8.7) se dene promediando sobre t 1 y (8.8) prome-
diando : o; recuerde el espacio de probabilidad (o. . 1 (.)).
Esos dos tipos de promedio puede ser visualizados en el contexto de la
gura 8.3 que representa 5 trayectorias muestrales de un proceso estocstico
IID Normal. El promedio t se realiza en sentido horizontal y el promedio
de distribucin se realiza verticalmente. Cuando estas trayectorias mues-
trales constituyen realizaciones de muestras IID los promedios t (momentos
muetrales) convergen a los promedios de distribucin (momentos), porque
sabemos que las variables aleatorias involucradas tienen momentos comunes
y como se muestra en el captulo 9 los promedios t,
1
T

T
t=1
r
v
t
, convergen a
estos momentos comunes. Sin embargo, la situacin en el contexto de una
muestra no aleatoria es radicalmente diferente, ya que, sin ninguna restric-
cin de dependencia y heterogeneidad, cada valor de A
t
, proviene de una
distribucin diferente y por lo tanto no hay momentos comunes a los que los
promedios t converjan!
390 CAPTULO 7. PROCESOS ESTOCSTICOS
Figura 8.3 Un ensamble de cinco trayectorias muestrales
Otra forma de ver este problema es observar que para un proceso estocs-
tico no IID los parmetros desconocidos
t
en , (r
t
.
t
) son, por denicin,
funciones de los momentos que cambian con t:
1 (A
v
t
) = j
v
(
t
. t), : = 1. 2. .... t 1.
En cierto sentido, el problema es que tenemos slo una observacin para
cada conjunto de parmetros desconocidos
t
. La pregunta que se sugiere
en esta etapa, es si slo en el caso de variables aleatorias IID los promedios
t convergern a los promedios distribucin (momentos). La respuesta es no
necesariamente, pero las variables aleatorias involucradas tienen que tener
algo en comn para que la convergencia tenga lugar. Este algo en comn
se dene en trminos de las restricciones sobre la estructura probabilstica
del proceso en cuestin a n de permitir al modelador utilizar promedios t
tales como (8.7) como estimaciones conables de los parmetros desconocidos
(momentos). Esto requiere restricciones de dependencia/heterogeneidad que
sern el centro de este captulo.
7.2.2 Clasicacin de los procesos estocsticos
La estructura del proceso estocstico A
t
. t 1 depende parcialmente de la
naturaleza de dos conjuntos: el conjunto ndice 1 y el rango de la variable
aleatoria A, por ejemplo R
A
. Dado que el rango de la aleatoria A
t
puede
cambiar con t, denimos el rango del proceso estocstico A
t
. t 1 como
la unin de la conjuntos de valores de A (.. 1) para cada t, digamos R
A
(I)
:
7.2. EL CONCEPTO DE PROCESO ESTOCSTICO 391
+
a
= '
tT
R
A
(I)
conocido como el espacio de estado del proceso estocstico. Lo que hace
que al proceso estocstico matemticamente diferente es que los conjuntos
(1, +
a
) sean numerables o no numerables; una distincin ya encontrada en
el captulo 2.
(a) En el caso en que 1 es un conjunto numerable, tal como 1 = 0. 1. 2. 3. ...,
llamamos a A
t
. t 1 un proceso estocstico de ndice discreto. Por
otro lado, cuando 1 es un conjunto no numerable, tal como 1 = [0. ),
llamamos a A
t
. t 1 un proceso estocstico de ndice continuo.
Cuando tenemos que enfatizar la distincin entre procesos de ndice continuo
y discreto para nes expositivos, utilizaremos la NOTACIN: A
t
. t 1
para un proceso de ndice continuo.
(b) Del mismo modo, el espacio de estado +
a
del proceso estocstico
A
t
. t 1, puede ser numerable o no numerable, introduciendo una cuarta
forma de conjunto ndice/espacio de estado (1, +) de los procesos estocsti-
cos:
Conjunto ndice 1 Espacio de estado + Ejemplo
D-D numerable numerable Caminata aleatoria simple
D-C numerable no numerable Proceso Normal
C-D no numerable numerable Proceso Poisson
C-C no numerable no numerable Proceso movimiento Browniano
Esta clasicacin constituye una representacin esquemtica, agrupando
procesos estocsticos mutuamente excluyentes que es til para organizar nue-
stros pensamientos en las etapas iniciales de la interiorizacin del material,
pero no es la nica, o an la clasicacin ms til, ya que hace caso omiso
de la estructura probabilstica de un proceso estocstico. Varias otras clasi-
caciones traslapadas de procesos estocsticos, tales como estacionario/no
estacionario, Markov/no Markov, Gaussiano /no Gaussiano, ergdica / no
ergdico, se basan en su estructura probabilstica y proporcionar agrupa-
ciones tiles de los procesos estocsticos. Una vista panormica de una clasi-
cacin basada en la estructura probabilstica de procesos estocsticos se da
en la gura 8.4 (vase Srinivasan y Mehata (1988) para ms detalles).
392 CAPTULO 7. PROCESOS ESTOCSTICOS
Figura 8.4 Una taxonoma de los procesos estocsticos
7.2.3 Especicacin de un proceso estocstico
Dado que la estructura probabilstica de un conjunto de variables aleatorias
se describe mejor por su distribucin conjunta, es natural utilizar el mismo
dispositivo para especicar la estructura probabilstica de un proceso estocs-
tico. Sin embargo, esto plantea el problema de especicar distribuciones de
dimensin innita porque el proceso astochastic A
t
. t 1 tiene a menudo
un conjunto ndice innito. Una solucin efectiva a este problema fue prop-
uesta por Kolmogorov en el mismo libro de 1933 que fund la moderna teora
de probabilidad.
RECURSO DE NOTACIN. En muchos casos, durante la exposicin
que sigue vamos a discutir los conceptos que son aplicables a ambos procesos
estocsticos de ndices discreto y de nidce continuo. La notacin para los
procesos de ndice discretos es, por supuesto, ms natural y menos complicada
que la de procesos de ndice continuo y las ms de las veces se utilizar la
primera. Sin embargo, en los casos en que queremos hacer hincapi en la
aplicabilidad general de un concepto, usamos un recurso de notacin que en
cierto sentido nos permite utilizar la notacin discreta para cubrir ambos
casos. En lugar de utilizar la sucesin A
I

o
I=1
, que es claramente discreta,
usamos A
t
I

o
I=1
, de tal manera que:
0 < t
1
< t
2
< < t
a
< < , donde t
I
1, para / = 1. 2. .... :. ...
Se dice que un proceso estocstico A
t
. t 1 est especicado si es nita
la funcin de distribucin acumulativa conjunta (fda):
7.2. EL CONCEPTO DE PROCESO ESTOCSTICO 393
1 (r
t
1
. r
t
2
. .... r
tn
),
se dene para todos los subconjuntos nitos t
1
. t
2
. .... t
a
1. Este
resultado es muy til debido a que su opuesto tambin es cierto (ver Kol-
mogorov (1933a)).
El teorema de extensin de Kolmogorov
Para cada :, sea 1
a
(r
t
1
. r
t
2
. .... r
tn
) la funcin de distribucin acumulada
conjunta. Si la condicin de consistencia se cumple:
|i:
aI
n+1
o
1
a+1
_
r
t
1
. r
t
2
. .... r
tn
. r
t
n+1
_
= 1
a
(r
t
1
. r
t
2
. .... r
tn
),
para cada (: + 1) 1 y (r
t
1
. r
t
2
. .... r
tn
) R
a
, existe un espacio de
probabilidad (o. . 1 (.)) y un proceso estocstico A
t
. t 1 denido en l,
tal que 1
a
(r
t
1
. r
t
2
. .... r
tn
) es la funcin de distribucin acumulada conjunta
de (A
t
1
. A
t
2
. .... A
tn
) para cada : (ver Billinsgley (1986)). En este sentido,
estamos seguros para asumir que la estructura probabilstica de un proceso
estocstico se puede describir por completo usando solamente distribuciones
conjuntas de dimensin nita.
Es interesante NOTAR que el precedente teorema de extensin permite
al modelador de pasar de la distribucin conjunta 1
2
(r
t
1
. r
t
2
) a la mar-
ginal |i:
aI
2
o
1
2
(r
t
1
. r
t
2
) = 1
1
(r
t
1
) y luego a la condicional 1
2[1
(r
t
2
[r
t
1
) =
_
a
2
o
)(aI
1
,&)
)(aI
1
)
dn.
La visualizacin de un proceso estocstico a travs de la distribucin
conjunta de un subconjunto nito de componentes se llama punto de vista
distributivo. Histricamente, sin embargo, el concepto de proceso estocstico
surgi en el siglo 20 como funcin de procesos IID simples. Este punto de vista
construccionista es equivalente a la especicacin de un proceso estocstico
1
I
. / N denindolo como una funcin de un proceso estocstico simple
(a menudo IID o nicamente independiente) A
t
. t 1:
1
I
= g (A
t
1
. A
t
2
. .... A
tn
) . / N. ((8.9))
Esto signica que podemos pensar en una gran cantidad de procesos es-
tocsticos como sistemas construidos usando bloques de construccin simples.
La estructura probabilstica del proceso construido 1
I
. / N se determina
a partir de la del proceso ms simple A
t
. t 1 va el mapero (8.9).
Ejemplos
(i) Considere la siguiente funcin:
394 CAPTULO 7. PROCESOS ESTOCSTICOS
1
I
= A
1
cos ./ +A
2
sen ./, A
i
~`111(0. o
2
), i = 1. 2, / N.
Esto dene un proceso estocstico 1
I
. / N.
(ii) un mapeo muy importante que desempea un papel fundamental
para el punto de vista constructivista es la denicin de mapeos como sumas
parciales de un proceso A
I
. / N:
1
I
=

I
i=1
A
i
, / N
El proceso estocstico 1
I
. / N ha jugado un papel importante en el
desarrollo del concepto de proceso estocstico como se ha sealado.
Debe hacerse hincapi, sin embargo, que incluso en el contexto de la
aproximacin construccionista la mejor manera de comprender la estructura
de un proceso estocstico es deducir la distribucin conjunta de los procesos
construidos.
Volviendo a la distribucin conjunta de un subconjunto nito de elemen-
tos de un proceso estocstico, como la descripcin ms general de un pro-
ceso estocstico, notemos que para propsitos de modelizacin necesitamos
domesticar el proceso mediante la imposicin de algn tipo de estructura
probabilstica sobre el mismo. La razn es que tal y como est (sin restric-
ciones) la distribucin conjunta no proporciona modelos operativos. Par-
tiendo de un proceso estocstico general A
I
. / N, procedemos a domarlo
imponindole ciertas restricciones de distribucin, heterogeneidad y depen-
dencia. Estas restricciones nos permitirn hacer frente tanto a los problemas
de dimensionalidad como a los de sobreparametrizacin planteados en los
captulos 6-7.
En un intento por explorar algunos de los conceptos relativos a las re-
stricciones de dependencia y la heterogeneidad, proporcionamos una breve
perspectiva histrica de algunos de los primeros intentos para enfrentarse con
el concepto de proceso estocstico.
7.3 Procesos estocsticos: una visin prelim-
inar
El concepto matemtico de proceso estocstico, dado anteriormente, fue for-
mulado en la dcada de 1930. Antes de ese momento el concepto de proceso
7.3. PROCESOS ESTOCSTICOS: UNA VISIN PRELIMINAR 395
estocstico slo exista en la forma de un modelo para determinados fen-
menos estocsticos. Estos modelos de los fenmenos estocsticos eran casi
exclusivamente en la fsica. La notable excepcin a esto es el intento de
Bachelier (1900) para presentar un modelo para el comportamiento de los
precios en el mercado de valores de Pars. Desde el punto de vista proba-
bilstico, los conceptos necesarios para denir un proceso estocstico no se
desarrollaron hasta la dcada de 1920. De hecho, desde la poca de Car-
dano (1501-1576), cuando el concepto de independencia entre dos eventos se
encontr por primera vez y luego formalizado por Moivre en la dcada de
1730, hasta nales del siglo 19, la dependencia fue vista como un estorbo
e interpretada negativamente como la falta de independencia. Ms all del
bien conocido territorio de la independencia se encuentra un territorio inex-
plorado conocido como no independencia/heterogeneidad. Comenzamos con
una breve resea de los primeros intentos por formular un modelo para el
fenmeno fsico conocido como movimiento browniano.
7.3.1 El movimiento browniano y los fundamentos de
la probabilidad
El proceso movimiento browniano, acuado despus de que el botnico Robert
Brown (1773-1858) observ el movimiento errtico de una partcula de polen
suspendida en uido, se remonta a 1827. Se pensaba errneamente en ese
momento que el comportamiento errtico era el resultado de las molculas
que viajan a toda velocidad. Result ser que este movimiento fue el resultado
del bombardeo de las partculas por millones de molculas de uido causado
por difusin trmica. El efecto de la colisin de una particula con una de
cualesquiera de las molculas es insignicante, pero el efecto acumulativo de
millones de tales colisiones produce la comportamiento errtico observable
que exhibe ciertos patrones de regularidad aleatoria.
El primer intento sistemtico para modelar patrones observables de reg-
ularidad aleatoria del comportamiento errtico de las partculas fue hecho
por Einstein en 1905 utilizando una ecuacin diferencial estocstica de la
siguiente forma:
0)(a,t)
0t
= o
_
0
2
)(a,t)
0a
2
_
,
donde o := lim
t0
_
(a)
2
2t
_
, es el coeciente de difusin y , (r.t) dr es la
probabilidad de que A(t) se encuentre en el intervalo (r. r +dr). Resolviendo
396 CAPTULO 7. PROCESOS ESTOCSTICOS
esta ecuacin diferecial sujeta a la condicin inicial A(0) = 0, se puede
demostrar que la distribucin del desplazamiento de partculas (despus de
un tiempo t sucientemente largo) toma la forma:
, (r. t) =
a
_
4ct
exp
_

a
2
4ct
_
Esta es la densidad Normal con momentos:
1 (A (t)) = 0, \ c: (A (t)) = 2ot.
Intuitivamente, esto puede explicarse por el hecho de que el desplaza-
miento neto de la partcula A(t) durante cualquier intervalo de tiempo A(t,
t + t) ser la suma de numerosas pequeas contribuciones (en gran parte
independientes) de impactos de molculas individuales. El Teorema Central
del Lmite (vase el captulo 9) sugiere que en estas condiciones el desplaza-
miento errtico de la partcula se puede aproximar por una variable aleatoria
Normalmente distribuida A(t).
El movimiento browniano como un proceso estocstico puede verse como
la integral de un proceso NIID:
A(t) =
_
t
0
2 (n) dn, 2 (t) ~`111(0. 1), t (0. ) .
El primer intento por formular este proceso como un modelo para los
cambios de las tasas de cambio de las acciones, fue hecha por Bachelier
(1900). Desafortunadamente, su tesis no fue apreciada por matemticos
como Poincar (uno de sus dos examinadores) y sus resultados, publicados
en su libro The Calculus of Probability (publicado en 1912), pasaron de-
sapercibidos hasta principios de 1930, cuando Kolmogorov (1931) se reere
en trminos poco halagadores a su rigor matemtico. Dejando a un lado
el rigor matemtico, a Bachelier debe atribuirse la primera formulacin del
proceso estocstico que hoy conocemos como movimiento browniano. Es in-
teresante notar que Bachelier entendi el problema de la modelizacin mucho
mejor que algunos de los matemticos en la dcada de 1920. l lleg incluso
a reconocer la necesidad de restricciones de dependencia/heterogeneidad y a
introducir lo que lleg a ser conocido ms tarde como dependencia Markov
y homogeneidad Markov (vase Von Plato (1994)). La primera formulacin
7.3. PROCESOS ESTOCSTICOS: UNA VISIN PRELIMINAR 397
matemtica rigurosa del proceso estocstico movimiento Browniano fue dada
por Wiener en 1920 y desarrollada ms ampliamente por Levy en los aos
1930 y 1940.
El movimiento browniano es con mucho el ms importante proceso es-
tocstico de ndice continuo cuyo estudio inicial se bas en sus trayectorias
muestrales. Sin embargo, las trayectoias seguidas por el movimiento irregular
de las partculas resultaron ser continuas pero no diferenciables en ninguna
parte. Eso fue una conmocin para la comunidad cientca porque eso signi-
caba que las partculas viajan a velocidades innitas! La teora de Einstein
fue conrmada en 1916 por Pierre Perrin, quien recibi el premio Nobel en
1926 por sus esfuerzos. La pelota estaba de lleno en el patio de los proba-
bilistas que no tenan una teora consistente de la probabilidad para cubrir el
modelo de Einstein. La teora clsica de la probabilidad basada en el mod-
elo de una lotera era muy insuciente para tal n. En la dcada de 1920
Wiener demostr la existencia de probabilidades para el modelo de Einstein,
pero una teora consistente de la probabilidad que cubriera este modelo tuvo
que esperar hasta 1933, cuando Kolmogorov public su libro clsico sobre los
fundamentos de la teora de la probabilidad (1933a).
El teorema de extensin de Kolmogorov, en trminos generales, sugiere
que los fenmenos que presentan regularidad aleatoria se pueden modelar
dentro del marco de referencia matemtico delimitado por el espacio de prob-
abilidad (o. . 1 (.)), dotado de la estructura matemtica dada en el captulo
2, a menos que contengan inconsistencias de la forma mencionada en el teo-
rema. El fundamento de Kolmogorov se convirti en un xito inmediato ya
que aclar todo el asunto creado con el estudio del movimiento browniano y
liber al tema de la camisa de fuerza impuesta por el modelo de lotera de la
probabilidad.
7.3.2 Sumas parciales y procesos estocsticos asocia-
dos
Un nmero importante de procesos estocsticos, tales como Markov, cami-
nata aleatoria, incrementos independientes y martingalas y sus restricciones
de dependencia y heterogeneidad asociadas, se pueden ver en el contexto del
enfoque construccionista como sumas parciales de variables aleatorias inde-
pendientes. Es natural que los primeros intentos por extender los procesos
estocsticos IID 2
t

tT
se asociaran con funciones simples de tales proce-
398 CAPTULO 7. PROCESOS ESTOCSTICOS
sos, como la suma. En efecto, el proceso movimiento browniano tal como se
dene por (8.10) es la integral (suma sobre un continuo) de un proceso NIID.
Considere una sucesin de variables aleatorias IID 2
t

tT
que para 0 <
t
1
< < t
I
< < , t
I
1, / = 1. 2. .... es parcialmente sumada para
crear un proceso derivado o
I

o
I=1
:
o
I
=

I
i=1
2
t
.
. / = 1. 2. 3. ... ((8.13))
El primero en aventurarse en el territorio desconocido de los procesos
estocsticos no IID desde el punto de vista probabilstico fue Markov en
1908 quien se percat que el proceso derivado o
I

o
I=1
ya no es IID; tiene
tanto dependencia como heterogeneidad. Para ver esto vamos a simplicar el
problema considerando los dos primeros momentos (suponiendo que existen)
de la sucesin IID:
(i) 1 (2
t
I
) = j, / = 1. 2. 3. ....
(ii) \ c: (2
t
I
) = o
2
, / = 1. 2. 3. ....
Utilizando la linealidad de la esperanza (ver captulo 3) podemos deducir
que:
(a) 1 (o
I
) = /j. / = 1. 2. 3. ....
(b) \ c: (o
I
) = /o
2
. / = 1. 2. 3. ....
(c) Co (o
I
. o
n
) = o
2
min (/. :) . /. : = 1. 2. 3. ... ((8.12))
Los resultados (a) y (b) son triviales de obtener pero (c) puede demostrarse
como sigue:
Co (o
I
. o
n
) = 1 (o
I
/j) (o
r
:j)
= 1
__
I

i=1
(2
t
.
j)
__
n

)=1
_
2
t

j
_
__
=
I

i=1
n

)=1
1
_
(2
t
.
j)
_
2
t

j
_
=
min(I,n)

i=1
1 (2
t
.
j) = o
2
min (/. :) ,
ya que Co
_
2
t
.
. 2
t
I
_
= 0, i ,= ,. La sucesin de las sumas parciales
7.3. PROCESOS ESTOCSTICOS: UNA VISIN PRELIMINAR 399
o
I

o
I=1
fue llamada ms tarde, un proceso de caminata aleatoria proporcion
el impulso para numerosos avances en los procesos estocsticos.
PRECAUCIN. Se recuerda al lector una vez ms que la estructura an-
terior es slo indicativa de la estructura de dependencia ms general de las
sumas parciales, debido a que nos hemos concentrado exclusivamente en los
dos primeros momentos, los que, en general, ni siquiera pueden existir!
Markov estaba trabajando en un marco de referencia espacio de estado
discreto/conjunto ndice discreto y se concentr principalmente en la estruc-
tura de dependencia de tales procesos. En particular, se dio cuenta de dos
cosas:
(i) todos los elementos del proceso o
I

o
I=1
son mutuamente dependientes,
independientemente de la distancia entre ellos, pero
(ii) la dependencia se vuelve ms fcil modelar cuando se ve a travs de
la distribucin condicional.
Qu es tan especial de este proceso?
La distribucin condicional de o
I
dado su pasado (o
I1
. o
I2
. .... o
1
) de-
pende slo del pasado ms reciente, es decir,
,
I
(:
I
[:
I1
. .... :
1
;
I
) = ,
I
(:
I
[:
I1
; ,
I
) , para todo :
I
R
I
, / = 2. 3. ...
(8.13)
Es decir, la estructura de dependencia entre o
I
y su pasado (o
I1
. o
I2
. .... o
1
)
es totalmente capturada por su distribucin condicional dado su pasado ms
reciente o
I1
; lo llamamos dependencia Markov. Los procesos que satisfacen
esta restriccin de dependencia se llaman procesos Markov. El resultado de
Markov se formaliz en su generalidad por Kolmogorov (1928b, 1931); ver
seccin 7.
Es muy importante destacar que la Markovenes no implica restriccin
alguna de heterogeneidad. Una forma evidente de tratar el problema de
heterogeneidad en este contexto es asumir homogeneidad de las distribuciones
condicionales, es decir
,
I
_
r
t
I
[r
t
I1
; ,
I
_
= ,
_
r
t
I
[r
t
I1
; ,
_
, / = 2. 3. .... :
que podramos llamar homogeneidad Markov. NOTE que esto involucra
slo las densidades condicionales; no hay supuesto de homogeneidad para
la densidad marginal ,
1
_
r
t
1
[r
t
I1
;
1
_
, que todava puede ser una fuente de
heterogeneidad.
400 CAPTULO 7. PROCESOS ESTOCSTICOS
Otro proceso estocstico importante que surge sumando parcialmente
variables aleatorias independientes es el proceso de caminata aleatoria.
El proceso estocstico o
I

o
I=1
se dice que es una caminata aleatoria si se
puede especicar como la suma parcial de variables aleatorias IID 2
t

tT
,
es decir, para 0 < t
1
< < t
I
< < , t
I
1, / = 1. 2. .... es decir:
o
I
=

I
i=1
2
t
.
, donde 2
t
.
~111(.) , i = 1. 2. .... / = 1. 2. 3. ... ((8.14))
NOTE que esta notacin nos permite denir el proceso de suma parcial
(un proceso de ndice discreto) en trminos de un proceso IID 2
t
I

o
I=1
que
puede ser o bien un proceso de ndice discreto o continuo. Para un proceso
continuo de suma parcial es necesario sustituir la suma por una integral como
en (8.10).
En trminos de nuestra taxonoma de los supuestos probabilsticos, los
procesos Markov y de caminata aleatoria se denen sin ningn tipo de supuesto
de distribucin y por lo tanto se debe tener cuidado cuando se discute su es-
tructura de dependencia y de heterogeneidad en trminos de momentos. La
tendencia a concentrarse en los dos primeros momentos del proceso puede
ser muy engaoso debido a que:
(a) ellos podran no existir (2
i
~Cauchy (0,1), i = 1. 2. ...),
(b) ellos capturan slo formas limitadas de dependencia/heterogeneidad.
En cierto sentido, el concepto de proceso de caminata aleatoria es una
caja vaca que se puede llenar con numerosos casos especiales, mediante la
imposicin de algn tipo de estructura probabilstica adicional. Eligiendo la
distribucin a ser discreta (por ejemplo, de Poisson) o continua (por ejem-
plo, Normal) podemos denir algunos distintos tipos de procesos estocsticos
los cuales, sin embargo, comparten una estructura comn determinada. Es
instructivo examinar brevemente esta estructura comn.
La estructura probabilstica impuesta al concepto genrico de caminata
aleatoria se realiza a travs de su denicin como una sucesin de sumas
parciales de variables aleatorias IID. La estructura probabilstica del proceso
de IID 2
t
I

o
I=1
(utilizamos la notacin ndice discreto por conveniencia)
es transformada a travs de las sumas parciales para determinar indirecta-
mente la estructura probabilstica del proceso de caminata aleatoria o
I

o
I=1
.
Vamos a considerar el problema de la determinacin de la estructura proba-
bilstica de o
I

o
I=1
partir de los principios bsicos.
En primer lugar, vamos a considerar la estructura de la dependencia de
7.3. PROCESOS ESTOCSTICOS: UNA VISIN PRELIMINAR 401
un proceso de caminata aleatoria. A partir de (8.14) podemos deducir que
el proceso de suma parcial se puede escribir en la forma:
o
I
= o
I1
+2
I
, / = 1. 2. 3. .... con o
0
= 0.
Como podemos ver, el proceso de caminata aleatoria tiene una estructura
de dependencia Markov porque:
, (:
I
[:
I1
. :
I1
. .... :
1
) = , (:
I
[:
I1
) , / = 2. 3. ...
Es importante sealar que el concepto de proceso de Markov es consider-
ablemente ms general que el de caminata aleatoria. En el caso de esta l-
tima, la Markovenes es inducida por la transformacin de las sumas parciales.
La dependencia Markov, sin embargo, no depende de la transformacin suma
parcial como lo muestra el siguiente ejemplo.
Ejemplo
Sea 2
t
I

o
I=1
un proceso IID con media cero (1 (2
I
) = 0, / = 1. 2. ...).
Entonces la sucesin denida por la recursin:
1
I
= /(1
I1
) +2
I
, / = 2. 3. ....
para cualquier funcin (Borel) bien comportada /(.) es un proceso Markov.
Esto demuestra ms claramente que la estructura de dependencia Markov
no depende de la linealidad de la transformacin, sino de su recursividad.
Regresando a la estructura de dependencia de un proceso de caminata
aleatoria, llegamos a la conclusin de que su forma se restringe a la de de-
pendencia Markov. En vista de la discusin anterior, no debera ser una
sorpresa descubrir que la estructura de heterogeneidad de un proceso de
caminata aleatoria tambin es de un tipo especial. Esto tambin surge del
hecho de que, como mostramos anteriormente, el proceso o
I

o
I=1
tiene in-
crementos o
I
o
I1

o
I=1
que son variables aleatorias IID. Por lo tanto, la
distribucin conjunta toma forma:
, (:
1
. :
2
. .... :
a
; ) = ,
1
(:
1
;
1
)
a

I=2
,
I
(:
I
:
I1
;
I
) = ,
1
(:
1
;
1
)
a

I=2
, (:
I
:
I1
; ) , s R
a
((8.16))
donde la primera igualdad se sigue del hecho de que el proceso de incre-
mentos o
I
o
I1

o
I=1
es independiente y el segundo del supuesto ID para el
402 CAPTULO 7. PROCESOS ESTOCSTICOS
mismo proceso. Esto sugiere que la estructura de heterogeneidad del proceso
de caminata aleatoria o
I

o
I=1
tendr un componente que es comn a todos
los subconjuntos del proceso y un componente que depende de la distancia
desde la condicin inicial o
0
= 0; lo que llamamos heterogeneidad separable.
Esto es mejor emplicado utilizando los dos primeros momentos deduci-
dos anteriormente (asumiendo que existen!). Observando (8.12), podemos ver
que los dos primeros momentos son separables en el sentido de que tienen
un componente ID (el momento correspondiente del proceso IID) y un com-
ponente heterogneo que es una funcin del ndice de las variables aleatorias
involucradas. Una formulacin ms general de este tipo de heterogeneidad,
conocido como heterogeneidad separable de segundo orden, toma la forma:
(a) 1 (A
I
) : = j
I
= /(/) j, / = 1. 2. ....
(c) Co (A
I
. A
n
) : =
I,n
= (/. :) o
2
, /. : = 1. 2. ... ((8.17))
Ntese que en el caso de un proceso de caminata aleatoria o
I

o
I=1
:
/(/) = /, (/. :) = min (/. :).
Tales formas de heterogeneidad dan lugar a modelos operativos en un
nmero de casos interesantes encontrados en la prctica. Esto debe con-
trastarse con la heterogeneidad arbitraria que signica que los momentos son
funciones del ndice con el tipo de dependencia funcional sin especicar (la
primera igualdad en (a) y (b)).
Histricamente, el concepto de proceso Markov se introdujo a principios
de 1900 y a principios de 1920 (ver Kolmogorov (1928a, b)) otras formas de
procesos estocsticos, a menudo motivadas por la formulacin de suma par-
cial, hicieron su aparicin. Ya hemos encontrado el proceso de incrementos
IID asociado con un proceso de caminata aleatoria. Una extensin natural
de esto es relajar el supuesto ID y denir un proceso A
t

tT
que tiene in-
crementos independientes para todo 0 < t
0
< t
1
< t
2
< < t
a
< , los
incrementos A
t
I
A
t
I
1

a
I1
son independientes:
, (r
t
1
. r
t
2
. .... r
tn
; ) = ,
1
(r
t
1
;
1
)
a

I=2
,
I
_
r
t
I
r
t
I1
;
I
_
, x R
a
. ((8.18))
En trminos de su estructura de la dependencia, sabemos de la discusin
anterior que un proceso de incrementos independientes A
t

tT
es dependi-
ente Markov:
7.3. PROCESOS ESTOCSTICOS: UNA VISIN PRELIMINAR 403
,
I
_
r
t
I
[r
t
I1
; '
I
_
= ,
I
_
r
t
I
r
t
I1
;
I
_
, / = 2. 3. ... ((8.19))
Lo que una sucesin de incrementos independiente tiene adems, sin em-
bargo, es un tipo de linealidad incorporada a la estructura de la sucesin
de variables aleatorias A
t

tT
, cuando se toma la diferencia entre variables
aleatorias adyacentes. Esto puede verse mediante la denicin de sucesin
independiente 1
t
I

o
I=1
, donde:
1
t
1
:= A
t
1
, 1
t
I
:= A
t
I
A
t
I1
, / = 2. 3. ....
y observando que:
A
t
I
=

I
i=1
1
t
.
, / = 1. 2. 3. .... :
De esto podemos deducir que A
t
I
se relaciona linealmente con los incre-
mentos anteriores:
A
t
I
= A
t
1
+

I
i=2
A
t
.
A
t
.1
.
Esta linealidad suma parcial restringe la distribucin conjunta , (r
t
1
. r
t
2
. .... r
tn
; )
en la medida en que la distribucin de A
t
3
A
t
2
debe ser la misma que la dis-
tribucin de la suma (A
t
3
A
t
2
) +(A
t
2
A
t
1
). Por el contrario, si 1
t
I

o
I=1
es un proceso independiente, entonces, por alguna variable aleatoria arbi-
traria A
t
1
, el proceso A
t
I

o
I=1
denido por:
A
tn
A
t
1
=

a
i=1
1
t
.
, : _ 1,
es un proceso estocstico con incrementos independientes.
Regresando a (8.18), se observa que la denicin de una sucesin con in-
crementos independientes plantea un problema de homogeneidad ms all del
supuesto de Distribucin Idntica, en la medida en que la denicin implica
la marginal as como las distribuciones de las diferencias ,
I
_
r
t
I
r
t
I1
;
I
_
,
/ = 2. 3. ...Una solucin obvia es la de imponer el supuesto ID sobre las
distribuciones marginales de ambas sucesiones A
t
I

o
I=1
y A
t
I
A
t
I
1

o
I=1
:
(i) ,
I
(r
t
I
;
I
) = , (r
t
I
; ), / = 1. 3. ...
(ii) ,
I
_
r
t
I
r
t
I1
;
I
_
= ,
_
r
t
I
r
t
I1
;
_
, / = 2. 3. ...
El supuesto de homogeneidad (ii) se podra llamar incrementos Idn-
ticamente Distribuidos. Ntese que en vista de la relacin (8.19), esto es
equivalente a homogeneidad Markov.
Las condiciones de homogeneidad presentadas anteriormente han con-
ducido al importante concepto de Estacionariedad. Khinchine (1934) se dio
cuenta de que la condicin de homogeneidad (ii) es equivalente a la restric-
cin de que la distribucin conjunta de dos variables aleatorias adyacentes
404 CAPTULO 7. PROCESOS ESTOCSTICOS
slo depende de la diferencia de las fechas no de las fechas reales, es decir,
para cualesquiera dos fechas: 0 < t
1
< t
2
< :
,
t
1
,t
2
(r
t
1
. r
t
2
; ) = ,
t
2
t
1
(r
t
1
. r
t
2
; ).
Siguiendo la misma lnea, esto se puede extender al caso de : variables
A
t
1
. A
t
2
. .... A
t
1n
, 0 < t
1
< < t
I
< , t
I
1, / = 1. 2. .... de tal man-
era que la densidad conjunta depende nicamente de las (` 1) diferencias
t
2
t
1
. t
3
t
1
. t
4
t
1
. .... t
a
t
1
es decir
(iii) ,
t
1
,t
2
,...,tn
(r
t
1
. r
t
2
. .... r
tn
; ) = ,
t
2
t
1
,t
3
t
1
,t
4
t
1
,...,tnt
1
(r
t
1
. r
t
2
. .... r
tn
; ).
Khinchine mostr que esas condiciones de homogeneidad equivalen a la
restriccin de que la distribucin conjunta de A
t
1
. A
t
2
. .... A
t
1n
es invariante
a un cambio t de las fechas, es decir,
,
t
1
,t
2
,...,tn
(r
t
1
. r
t
2
. .... r
tn
; ) = ,
t
1
+t,...,tn+t
(r
t
1
+t
. r
t
2
+t
. .... r
tn+t
; ) .
((8.20))
Esto se conoce como la condicin de estacionariedad estricta que se con-
virti en la restriccin de homogeneidad dominante en el desarrollo de dichas
sucesiones de variables aleatorias.
Otro proceso estocstico importante motivado por la formulacin de sumas
parciales es el proceso martingala. La importancia de este proceso se deriva
del hecho de que permite suciente dependencia y heterogeneidad para que el
proceso de sumas parciales se comporte asintticamente como un proceso IID
simple. El concepto de proceso martingala se introdujo a nales de 1930 pero
su importancia no se aprecia plenamente hasta los aos 1950. El concepto
de proceso martingala, en contraste con el proceso de Markov, se concentra
principalmente en el primer momento condicional en lugar de la distribucin
misma.
Consideremos el proceso estocstico de sumas parciales o
I

o
I=1
donde
o
I
=

I
i=1
2
.
, donde 2
.
~1(0. .) , i = 1. 2. .... / = 1. 2. 3. ... ((8.21))
son variables aleatorias independientes pero no distribuidas ID con medias
cero (1 (2
I
) = 0, / = 1. 2. .... :). Como se muestra anteriormente, el proceso
de sumas parciales se puede escribir en la forma:
o
I
= o
I1
+2
I
. o
0
= 0. / = 1. 2. 3. ...
Podemos mostrar que la esperanza condicional de o
I
dado su pasado toma
la forma:
7.3. PROCESOS ESTOCSTICOS: UNA VISIN PRELIMINAR 405
1 (o
I
[o
I1
. o
I2
. .... o
1
) = 1 (o
I1
+2
I
[o
I1
. o
I2
. .... o
1
) ((8.22))
= o
I1
. / = 2. 3. .... :.
Esto se deduce de la propiedad CE4 taking what is known out
(vase el captulo 7) y el hecho de que o (o
I1
. o
I2
. .... o
1
) = o (2
I1
. 2
I2
. .... 2
1
),
es decir, los dos espacios de eventos coinciden en vista del mapero uno a uno
entre ellos, y por lo tanto:
1 (2
I
[o
I1
. o
I2
. .... o
1
) = 1 (2
I
[2
I1
. 2
I2
. .... 2
1
) = 1 (2
I
) = 0
El elemento esencial de este argumento no es la independencia de los 2
I
s
sino la combinacin de las medias cero condicionales y no condicionales:
(a) 1 (2
I
) = 0, / = 1. 2. .....
(b) 1 (2
I
[2
I1
. 2
I2
. .... 2
1
) = 0, / = 2. 3. ...
ninguno de los cuales requiere independencia sino la existencia del primer
momento. En la seccin 8 llamaremos al proceso 2
I

o
I=1
satisfaciendo (a) -
(b) un proceso martigala diferencia.
Recolectando juntos los elementos anteriormente sealados, podemos de-
cir que el proceso estocstico 1
I

o
I=1
es una martingala si
(i) 1 ([1
I
[) < , / = 1. 2. ....
(ii) 1 (1
I
[o (1
I1
. 1
I2
. .... 1
1
)) = 1
I1
, / = 2. 3. .... :. ((8.23))
Un proceso martingala se especica exclusivamente en trminos del primer
momento condicional en el que tambin implcitamente se impone una restric-
cin de heterogeneidad. Esto se debe a la condicin de dependencia martin-
gala (8.23) implica que si usamos la propiedad CE1 "la ley de esperanzas
iteradas" tenemos:
(ii) 1 (1 (1
I
[o (1
I1
. 1
I2
. .... 1
1
))) = 1 (1
I
) = 1 (1
I1
), / = 2. 3. .... :,
que se cumple slo en el caso en que la media del proceso es constante.
Esta es una restriccin de homogeneidad que se dene en trminos del primer
momento y llama homogeneidad de primer orden (o media).
En la gura 8.5 resumimos la relacin entre los procesos estocsticos dis-
cutidos anteriormente para nes de referencia. Como podemos ver, la cam-
inata aleatoria y los procesos incrementos independientes son subconjuntos
406 CAPTULO 7. PROCESOS ESTOCSTICOS
de la categora proceso Markov. Por otro lado, los procesos martingala no
son un subconjunto propio de la categora de procesos Markov, porque el
primero impone la restriccin adicional de un primer momento acotado que
ninguna de las otras categoras requiere.
Figura 8.5 Procesos Markov y relacionados con l
7.3.3 Proceso Gaussiano
Como se ha mencionado en muchas ocasiones hasta ahora, la Normal (gaus-
siana) es con mucho la distribucin ms importante en la teora de la probabil-
idad y en la inferencia estadstica. Cuando aplicamos los anteriores conceptos
de dependencia (Markov, incrementos independientes, martingala) a un pro-
ceso estocstico Normal (Gaussiano) A
I

o
I=1
nos encontramos observando
distribuciones Normales bivariadas de la forma (ver captulo 4):
,
a
1
,a
2
(r
t
1
. r
t
2
;
12
) =
(1 j
2
)

1
2
2j
_
o
11
o
22
exp
_

(1 j
2
)
1
2
_
_
r
1
j
1
_
o
11
_
2
2j
_
r
1
j
1
_
o
11
__
r
2
j
2
_
o
22
_
+
_
r
2
j
2
_
o
22
_
2
__
((8.24))
donde
12
:= (j
1
. j
2
. o
11
. o
22
. j) R
2
R
2
+
[1. 1] . (r
1
. r
2
) R
2
. Esto
es debido a que estas formas de dependencia pueden ser capturadas por
variables aleatorias contiguas. Como se argument en el captulo 6, bajo
Normalidad la nica forma posible de dependencia es dependencia de primer
orden capturada por el coeciente de correlacin j.
El razonamiento anterior en relacin con la distribucin Normal dio lugar
a una forma de dependencia especicada en trminos de los dos primeros
7.4. RESTRICCIONES DE DEPENDENCIA 407
momentos de cualesquiera variables aleatorias A
I
y A
n
(: /); conocida
como dependencia lineal denida por (vase el captulo 6):
j
I,n
:= Co:: (A
I
. A
n
) ,= 0. ((8.25))
Como con los otros conceptos de dependencia, el concepto de variables
aleatorias correlacionadas plantea el problema de la homogeneidad asociada
con l. En analoga directa con la estacionariedad estricta (8.20) podemos
especicar las siguientes condiciones en trminos de los dos primeros momen-
tos:
(a) 1 (A
I
) = 1 (A
I+t
), para todo /. t = 1. 2. ...
(b) 1 (A
I
A
n
) = 1 (A
I+t
A
n+t
), para todo /. :. t = 1. 2. ...
Estas condiciones garantizan que la correlacin (8.25) estar libre de fe-
chas. Una manera ms transparente, pero equivalente de expresar esto es que
los dos primeros momentos no dependen ni de / ni de :, sino de la diferencia
[:/[:
(a) 1 (A
I
) = j, para todo / = 1. 2. ....
(b) 1 [A
I
1 (A
I
)]
2
= o
2
, para todo / = 1. 2. ....
(c) 1 [A
I
1 (A
I
)] [A
n
1 (A
n
)] = /([:/[) o
2
, /. : = 1. 2. ...
Las condiciones (a) - (c) denen lo que se conoce como estacionariedad
dbil (o de segundo orden).
7.4 Restricciones de dependencia
Despus de haber introducido una serie de conceptos importantes utilizando
el desarrollo histrico de los procesos estocsticos, procedemos a denir al-
gunas restricciones de dependencia y heterogeneidad. Nos limitamos a muy
pocos ejemplos, porque el resto de este captulo estar dedicado a la utili-
dad de los conceptos introducidos en esta seccin en el contexto de distintos
procesos estocsticos. Por conveniencia de notacin utilizamos la notacin
de ndice discreto, pero con ligeras modicaciones los siguientes conceptos
pueden ser escritos en la notacin ms general 0 < t
1
< < t
I
< .
7.4.1 Conceptos basados en distribucin
Histricamente, la primera restriccin de dependencia adoptada fue el caso
extremo de no dependencia.
408 CAPTULO 7. PROCESOS ESTOCSTICOS
Independencia. Se dice que el proceso estocstico 1
t
. t 1 es inde-
pendiente de si:
, (
1
.
2
. ....
T
; ) =

T
i=1
, (
t
;
t
) , para todo y := (
1
.
2
. ....
T
) +
Y
.
Este concepto ha sido discutido ampliamente en los captulos anteriores.
Procedemos a denir supuestos menos restrictivos en relacin a la dependen-
cia.
Dependencia Markov. El proceso estocstico 1
t
. t 1 se dice que es
Markov dependiente si:
,
I
(
I
[
I1
.
I2
. ....
1
; '
I
) = ,
I
(
I
[
I1
;
I
) , / = 2. 3. ...
Esta nocin de dependencia se puede extender fcilmente a rdenes may-
ores de la siguiente manera.
Dependencia Markov de orden :. El proceso estocstico 1
t
. t 1 se
dice que es Markov dependiente de orden : si para : _ 1:
,
I
(
I
[
I1
.
I2
. ....
1
; '
I
) = ,
I
(
I
[
I1
. ....
In
;
I
) , / = :+1. :+2. ....
La intuicin detrs de este tipo de dependencia es que la informacin
condicional relevante para predecir
a
es slo el pasado reciente que se re-
monta a slo : periodos.
Dependencia diferencia martingala. El proceso estocstico 1
t
. t 1
se dice que es dependiente diferencia martingala si 1 (1
I
) = 0, / = 1. 2. ....
y:
1 (1
I
[o (1
I1
. 1
I2
. .... 1
1
)) = 0, / = 2. 3. ...
Es decir, el proceso es de primer orden condicionalmente independiente
de su pasado.
m-dependencia. El proceso estocstico 1
t
. t 1 se dice que es m-
dependiente si para t _ : 0:
,
_

1
. ....
a
.
a+t
.
a+t+1
.
2a+t
;
a,t
_
= , (
1
. ....
a
;
a
) ,
_

a+t
. ....
2a+t
;
a,t
_
.
7.4. RESTRICCIONES DE DEPENDENCIA 409
La intuicin detrs de esta forma de dependencia es que cuando los ele-
mentos del proceso estocstico estn : o ms perodos separados son inde-
pendientes. Esta forma de dependencia surge naturalmente cuando el mod-
elador considera una sucesin IID 1
I

o
I=1
con media cero y dene:
1
I
:= A
I
A
I+n
, / = 1. 2. ...
El proceso estocstico 1
I

o
I=1
es un proceso m-dependiente.
Independencia asinttica. El proceso estocstico 1
t
. t 1 se dice
que es asintticamente independiente si cuando t :
,
_

a+t
[
a
.
a1
. ....
1
;
a,t
_
,
_

a+t
;
a,t
_
.
La intuicin detrs de esta forma de dependencia es que los elementos
del proceso estocstico llegan a ser independientes cuando la distancia entre
ellos aumenta hasta innito.
410 CAPTULO 7. PROCESOS ESTOCSTICOS
Captulo 8
Estimacin I: Propiedades de
los estimadores
8.1 Introduccin
Para cualquier forma de inferencia estadstica (paramtrica), como se de-
scribe en el captulo anterior, el modelador necesita dos componentes bsicos:
(A) modelo estadstico: o := (. X), - modelo de probabilidad, X -
modelo muestral,
(B) conjunto de datos: x := (r
1
. r
2
. .... r
a
).
Los datos son entonces interpretados una realizacin del mecanismo aleato-
rio especicado por el modelo estadstico. El objetivo principal de la inferen-
cia estadstica es utilizar la informacin de los datos para extraer conclusiones
en relacin con el mecanismo de probabilidad de que se trate. La estimacin
equivale a utilizar la informacin en los datos para elegir un determinado
valor de o de . Una vez que el parmetro es estimado por algn estimador

o, tenemos una descripcin probabilstica del mecanismo aleatorio en cuestin

o :=
_

. X
_
. En el caso de un modelo estadstico simple, este mecanismo
estocstico se puede describir utilizando el modelo de probabilidad estimado:

:=
_
,
_
r;

o
_
. r R
A
_
. (12.1)
Es importante destacar, en primer lugar que la estimacin de o no es el
ltimo objetivo de la modelacin; la estimacin de o es un medio para un n.
El objetivo nal es obtener una descripcin estadstica emprica adecuada
411
412CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
del mecanismo estocstico que di origen a los datos que, en el caso anterior,
es el modelo estadstico estimado (12.1).
La teora de la estimacin en su forma moderna comienza con el tra-
bajo seminal de 1922 de Fisher "Sobre los fundamentos matemticos de la
estadstica terica", donde algunos de los conceptos fundamentales de la es-
timacin, tales como verosimilitud, informacin, eciencia y consistencia, se
propusieron por primera vez.
8.1.1 Vista panormica del captulo
En la seccin 2 discutimos el concepto de estimador y conceptos relacionados,
y lps ilustramos con dos ejemplos bsicos que forman la columna vertebral
de la discusin en este captulo. Un concepto fundamental es el de distribu-
cin muestral que forma la base de la discusin de lo que constituye un buen
estimador. El concepto de buen estimador se formaliza en trminos de varias
propiedades denidas en trminos de la distribucin muestral del estimador.
Las propiedades de los estimadores se dividen en las propiedades de muestra
nita (insesgamiento y eciencia) examinadas en la seccin 3 y propiedades
asintticas (consistencia, Normalidad asinttica y eciencia asinttica) ex-
aminadas en la seccin 4. A lo largo de la discusin utilizamos dos modelos
estadsticos muy simple, el Bernoulli y el Normal (de un parmetro) con el
n de ilustrar las diversas ideas y conceptos. Estos ejemplos son elegidos
para mantener las manipulaciones matemticas a un mnimo absoluto. En
la seccin 5 discutimos el modelo estadstico ms ampliamente utilizado, el
modelo Normal simple, en un intento de hacer resaltar algunas de las car-
actersticas ms sutiles de la estimacin ptima. En la seccin 6 discutimos
la propiedad de un estadstico (en funcin de la muestra), el cual se puede
utilizar para disear estimadores ptimos: la propiedad de suciencia.
8.2 La denicin de un estimador
La estimacin del parmetro o desconocido, es equivalente a la denicin de
una funcin de la forma:
/(r) : A
donde es el espacio muestral (el conjunto de todas las posiblres realiza-
ciones de la muestra), y representa el espacio de parmetros (el conjunto
8.2. LA DEFINICIN DE UN ESTIMADOR 413
de todos los valores posibles de o). La funcin, que se denota por:

o = /(A
1
. A
2
. .... A
a
) ,
se conoce como un estimador de o. Un estimador, (que es una funcin
de las variables aleatorias (A
1
. A
2
. .... A
a
), es en mismo una variable aleato-
ria que toma diferentes valores dependiendo de la realizacin muestral. Un
valor particular de este estimador, basado en una realizacin particular de la
muestra
_
`
r
1
.
`
r
2
. ....
`
r
a
_
, se llama una estimacin de o y se representa por:

o = /
_
`
r
1
.
`
r
2
. ....
`
r
a
_
.
El signicado de o siempre est claro por el contexto, dependiendo de
si representa una variable aleatoria o un valor de una variable aleatoria (un
nmero).
Ejemplo 1
Considere el modelo Bernoulli simple:
[i] MG estadstico: A
i
= o +
i
, i N.
[ii] Modelo de probabilidad: =
_
, (r; o) = o
a
(1 o)
1a
, 0 _ o _ 1. r = 0. 1
_
.
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Las siguientes funciones constituyen estimadores probables de o:
(a)

o
1
= A
1
, (b)

o
2
=
1
2
(A
1
+A
2
),
(c)

o
3
=
1
2
(A
1
+A
2
+A
3
), (d)

o
a
=
1
a

a
i=1
A
i
,
(e)

o
a+1
=
_
1
a+1
_

a
i=1
A
i
, (f)

o
a+2
=
_
1
a+2
_

a
i=1
A
i
.
Nota. En Spanos (pg. 603) en el inciso (c) dice

o
3
=
1
2
(A
1
+A
2
+A
a
);
debera decir

o
3
=
1
2
(A
1
+A
2
+A
3
).
Contraejemplos
Las siguientes funciones , (A
1
. A
2
. .... A
a
) no constituyen estimadores de
o:
g)

o
4
= (A
1
A
a
)u 45 (X12Xn). El rango de esta funcin no es = [0. 1];
puede tomar valores fuera de el A
1
= 0 y A
a
= 1.
(h)

o
5
=
_
1
a
_

a
i=1
A
c
i
. El dominio de la funcin no es el espacio mues-
tral, sino que depende de algn escalar desconocido c.
(i)

o
5
= 0.8. Su dominio no es el espacio muestral.
Ejemplo 2
Considere el modelo Normal simple (de un parmetro):
[i] MG estadstico: A
i
= j +
i
, i N.
414CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
[ii] Modelo de probabilidad:
=
_
, (r; o) =
1
_
2
exp
_

1
2
(r j)
2
_
, o := j R. r R
_
.
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
NOTE que el modelo de probabilidad se dene en trminos de: A~` (j. 1).
Las siguientes funciones constituyen estimadores posibles de o:
(i) j
1
= A
1
, (ii) j
2
=
1
2
(A
1
+A
2
),
(iii) j
3
= (A
1
A
a
), (iv) j
a
=
1
a

a
i=1
A
i
,
(v) j
a+1
=
_
1
a+1
_

a
i=1
A
i
, (vi) j
a+2
=
_
1
a+2
_

a
i=1
A
i
.
Dado que el parmetro j toma valores en el conjunto de la recta real (R),
ser imposible denir una funcin de la muestra (A
1
. A
2
. .... A
a
), que no sea
un estimador de j. En vista del hecho de que es muy fcil denir numerosos
posibles estimadores, la pregunta que surge naturalmente es: cmo se puede
elegir uno entre tales estimadores? Intuitivamente, la respuesta a esta pre-
gunta es obvia: se elige el estimador que se aproxima al verdadero parmetro
desconocido o
0
con la mayor precisin posible. La formalizacin del concepto
de aproximacin precisa resulta ser complicado porque no podemos denirlo
en la forma matemtica usual

o o
0

0. Esto se debe a que tal distancia:


(a) depende del parmetro desconocido o
0
, y
(b)

o = /(A
1
. A
2
. .... A
a
) es una variable aleatoria que puede tomar mu-
chos valores diferentes.
Sin embargo, el hecho de que un estimador

o = /(A
1
. A
2
. .... A
a
) sea una
variable aleatoria, sugiere que cualquier formalizacin del concepto de aproxi-
macin precisa implicar su distribucin, la cual podemos llamar distribucin
muestral de o.
Distribuciones muestrales de los estimadores
La distribucin muestral de un estimador de

o = /(A
1
. A
2
. .... A
a
) :=
/(X) se dene como la distribucin de la funcin /(A
1
. A
2
. .... A
a
). Su
funcin de densidad se representa por:
,
_

o; r
1
. r
2
. .... r
a
_
:= ,
_

o; x
_
,
con el n de enfatizar su dependencia de la muestra (A
1
. A
2
. .... A
a
).
Como argumentamos en el captulo 11, el problema del establecimiento de
tales distribuciones muestrales fue considerado por Fisher como uno de los
8.2. LA DEFINICIN DE UN ESTIMADOR 415
tres aspectos bsicos de la inferencia estadstica, siendo las otras dos especi-
caciones la especicacin y la estimacin:
(iii) Problemas de distribucin incluyen la deduccin matemtica de la
naturaleza exacta de las distribuciones en muestras aleatorias de nuestras
estimaciones de los parmetros ... (Fisher (1925b), p. 8).
De la discusin en los captulos 4 y 11, sabemos que matemticamente
podemos denir la funcin de distribucin acumulada (cdf) de cualquier fun-
cin

o = /(A
1
. A
2
. .... A
a
) a travs de:
1
_

o _
_
=
__

_
I(A
1
,A
2
,...,An)0
,
_
r
1
. r
2
. .... r
a
;

o
_
dr
1
dr
2
dr
a
(12.2)
donde
(a) (X) := /(A
1
. A
2
. .... A
a
) _ representa el rango de valores 1 =
/(A
1
. A
2
. .... A
a
) para todo (r
1
. r
2
. .... r
a
) A.
(b) ,
_
r
1
. r
2
. .... r
a
;

o
_
denota la distribucin de la muestra: la dis-
tribucin conjunta de las variables aleatorias X :=(A
1
. A
2
. .... A
a
).
Ejemplo 1. Bernoulli (continuacin).
Armados con un lema del captulo 11, que dice que una suma de variables
aletorias distribuidas Bernoulli IID es Binomialmente distribuida, podemos
proceder a derivar la distribucin muestral de los estimadores (a) - (e). En
vista del hecho de que todos estos estimadores son funciones lineales de la
muestra, podemos deducir que sus distribuciones muestrales son todas Bi-
nomiales. Todo lo que resta es obtener su media y varianza utilizando las
propiedades de 1(.) (vase el captulo 3). Por ejemplo, la distribucin mues-
tral de

o
a
=
1
a

a
i=1
A
i
es Binomial con media y varianza:
1
_

o
a
_
=
_
1
:
_
1
_

a
i=1
A
i
_
=
_
1
:
_
:o,
\ c:
_

o
a
_
=
_
1
:
_
2

a
i=1
\ c: (A
i
) =
_
1
:
_
2
(:o (1 o)) =
_
1
:
_
o (1 o) .
Estos resultados se obtienen usando la independencia de la muestra y las
propiedades de la media y la varianza (ver captulo 3). Por lo tanto, las
distribuciones muestrales son las siguientes:
416CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
(a)

o
1
= 1i (o. o (1 o) ; 1), (d)

o
a
= 1i
_
o.
0(10)
a
; :
_
,
(b)

o
2
= 1i
_
o.
1
2
o (1 o) ; 2
_
, (e)

o
a+1
= 1i
_
_
a
a+1
_
o.
a0(10)
(a+1)
2
; :
_
,
(b)

o
2
= 1i
_
o.
1
3
o (1 o) ; 3
_
, (f)

o
a+2
= 1i
_
_
a
a+2
_
o.
a0(10)
(a+2)
2
; :
_
.
Estos resultados distribucionales sugieren que los estimadores (a) - (d)
tienen distribuciones muestrales con la misma media o (igual al parmetro
que pretenden estimar), pero diferentes varianzas. La varianza de

o
a
es
menor que cualquiera de los otros, para cualquier tamao muestral : 3.
En efecto, la varianza de

o
a
es : veces ms pequea que la varianza de las
variables aleatorias en en la muestra! La distribucin muestral de

o
a+1
no
est centrada en o, pero su varianza es menor que la de los otros. Sobre la
base de su distribucin muestral,

o
a
parece ser el mejor estimador de o en
este grupo. Este argumento intuitivo de mejor estimador se formalizar en
la prxima seccin.
Ejemplo 2. Normal (continuacin).
Utilizando el lema 2 del captulo 11, que dice que la suma de vari-
ables aleatorias Independientes Normalmente variables es Normalmente dis-
tribuida, podemos deducir que para el modelo Normal las distribuciones
muestrales de los estimadores (i) - (vi) son:
(i) j
1
= ` (j. 1), (ii) j
2
= `
_
j.
1
2
_
,
(iii) j
3
= ` (0. 2), (iv) j
a
= `
_
j.
1
a
_
,
(v) j
a+1
= `
_
_
a
a+1
_
j.
a
(a+1)
2
_
, (vi) j
a+2
= `
_
_
a
a+2
_
j.
a
(a+2)
2
_
.
Por razones intuitivas j
a
parece ser el mejor estimador en este grupo
porque su distribucin muestral tiene una media igual a j (el parmetro
que tiene por objeto estimar) y su varianza \ c: ( j
a
) =
o
2
a
es : veces ms
pequea que la varianza de las variables aleatorias individuales \ c: (A
i
),
i = 1. 2. .... :. En la gura 12.1 podemos ver cunto se reduce la varianza
por un tamao muestral tan pequeo como : = 12. Este es un resultado
importante que a menudo es explotado por diversas tcnicas de muestreo
tales como los mtodos Monte Carlo y bootstrap (vase el captulo 11.8).
Figura 12.1. A
i
~` (0. o
2
) frente a j
a
~` (0. o
2
a
) para o
2
= 4, : = 12.
NOTA: el lector perspicaz habr notado que los mejores estimadores en los
modelos Normal y Bernoulli coinciden. La pregunta que surge naturalmente
es:
Es una coincidencia que para los parmetros o y j de los modelos Bernoulli
y Normal, respectivamente, el mejor estimador parece ser
1
a

a
i=1
A
i
?
8.3. PROPIEDADES DE MUESTRA FINITA 417
El hecho de importancia es que hay una buena razn para este resultado.
En ambos casos el parmetro que queremos estimar es la media de la dis-
tribucin 1(A) y el mejor estimador
1
a

a
i=1
A
i
es la media muestral. La
idea de la estimacin de un momento de la distribucin usando el correspon-
diente momento muestral tiene una larga historia en la estadstica que se
remontan al siglo XIX (vase el captulo 13, seccin 2).
8.3 Propiedades de muestra nita
8.3.1 Motivacin: el estimador ideal
Como mostramos en la seccin anterior, es muy fcil denir estimadores.
Esto plantea el problema de elegir el mejor entre estos estimadores. Dado
que los estimadores son funciones de la muestra (variables aleatorias) ellas
son variables aleatorias en s mismas. Por lo tanto, cualquier discusin de
mejor estara relacionadaa con su distribucin.
El problema de la denicin de un buen estimador se asemeja a una
situacin en la que un arquero est parado al pie de una colina con el objetivo
en el otro lado de la colina ms all de su visin. Lo que tiene que hacer es
disear una estrategia (regla) en relacin con los factores dentro de su control,
tales como el ngulo de disparo y la potencia de tiro, lo cual asegurar que la
echa caiga lo ms cerca que sea posible del objetivo. El modelador tiene que
elegir una regla (un estimador) de una manera que garantice la proximidad
al valor desconocido del parmetro o.
Con el n de motivar a algunas de las propiedades ptimas de los, vamos
418CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
a considerar en primer lugar el concepto del estimador ideal. Idealmente,
queremos tener un estimador, por ejemplo: o
+
= /(X), que toma slo un
valor (o
0
el verdadero valor de o), con probabilidad uno, independientemente
de la realizacin muestral. Es decir, la distribucin muestral de o
+
toma la
forma:
1 (o
+
= o
0
) = 1,
es decir, o
+
es igual a o
0
con probabilidad uno; tiene una distribucin
degenerada. En la gura 12.2 podemos ver el estimador ideal y lo que parece
ser una buena aproximacin de su distribucin muestral.
Figura 12.2 La distribucin del estimador ideal o
+
y una posible "buena"
aproximacin.
En cuanto a la analoga del arquero, estimador ideal equivale a un proced-
imiento que asegure que el arquero acierte al blanco cada vez. Desafortunada-
mente, para un dado tamao muestral :, no existe tal estimador.Estimadores
factibles generalmente proporcionan diferentes estimaciones para diferentes
realizaciones muestrales. Por lo tanto, necesitamos tener en cuenta criterios
de optimizacin que se basen en un distribucin muestral no degenerada del
estimador en cuestin. El mejor entre tales estimadores ser el que ms se
aproxime al estimador ideal. Cmo formalizar el concepto ms prximo al
estimador ideal?
En vista del hecho de que ningn estimador factible podra aproximar
la distribucin muestral del estimador ideal (siendo degenerada), vamos a
8.3. PROPIEDADES DE MUESTRA FINITA 419
considerar aproximaciones basadas en los dos primeros momentos. Heurs-
ticamente, podemos ver el estimador ideal en trminos de sus dos primeros
momentos:
(i) 1 (o
+
) = o
0
, (ii) \ c: (o
+
) = 0.
Esto sugiere que un estimador ptimo ser uno cuya media est localizada
en el verdadero valor del parmetro que pretende estimar y su varianza es
cero. Para un tamao de muestra nito :, la segunda propiedad no puede
ser emulada por los estimadores factibles, pero cuando : tiende a innito
algunos estimadores pueden de hecho emularla. Debido a esto podemos dis-
tinguir entre las propiedades de muestra nita (vlidas para cualquier :) y
propiedades asintticas (vlidas cuando : tiende a innito).
Insesgamiento
Formalizamos la propiedad de localizacin en la forma de insesgamiento.
Una estimador

o se dice que es un estimador insesgado de o si su
distribucin muestral tiene una media igual al parmetro o
0
que tiene por
objeto estimar, es decir,
1
_

o
_
= o
0
.
De lo contrario u se dice que o es sesgado, el sesgo se dene por:
_

o. o
0
_
=
1
_

o
_
o
0
.
NOTA: Para evitar notacin engorrosa, el subndice de o
0
ser omitido
cuando no parezca no ser necesario.
Ejemplo 1. (continuacin)
En el caso de los anteriores estimadores (a) - (f), podemos ver que

o
1
.

o
2
.

o
3
y

o
a
son estimadores insesgados de o pero

o
a+1
y

o
a+2
no. El sesgo de estos
estimadores es:
(e)
_

o
a+1
_
=
_
1
a+1
_
o, (f)
_

o
a+2
_
=
_
1
a+2
_
o.
Signica esto que los estimadores

o
a+1
y

o
a+2
son inferiores a los otros
estimadores? Como se muestra a continuacin, la respuesta no es tan obvia
como parece a primera vista, debido a que el insesgamiento no es la nica
propiedad, o incluso la propiedad ms deseable para buenos estimadores.
420CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
Otras propiedades relacionadas con los momentos de orden superior suelen
ser ms importantes.
El concepto de insesgamiento es intuitivamente atractivo, pero no deja de
tener sus problemas.
1. Estimadores insesgados no siempre existen.
Ejemplo 2
Considere el modelo Exponencial simple:
[i] MG estadstico: A
I
=
_
1
0
_
+n
I
, / N.
[ii] Modelo de probabilidad:
= , (r; o) = o exp or , o 0. r 0 .
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Se puede demostrar (vase Schervish (1995), p. 297) que ningn esti-
mador insesgado de o existe!
2. Estimadores insesgados no son invariantes a transformaciones de los
parmetros desconocidos. Es decir, si

o
a
:= /(X) es un estimador insesgado
de o, es decir,
1
_

o
a
_
= o,
entonces, en general, para 0 = q (o), donde q (.) : y

0
a
= q
_

o
a
_
:
1
_

0
a
_
,= 0.
Ejemplo 3. Exponencial (continuacin).
Considere el modelo Exponencial simple como se especic anteriormente.
Hemos visto que ningn estimador insesgado de o existe, pero podemos
demostrar que para 0 =
1
0
, el estimador

0
a
=
1
a

a
i=1
A
i
es insesgado. Esto
se sigue del hecho de que:
1
_

0
a
_
=
1
:

a
i=1
1 (A
i
) =
_
1
:
_

a
i=1
0 =
1
:
:0 = 0.
Eciencia
La idea de que la distribucin muestral debe ser lo ms concentrada que sea
posible alrededor del verdadero valor de o se puede formalizar en trminos
de la varianza de la distribucin muestral de un estimador. Esta propiedad
se conoce como eciencia: qu tan disperso est el estimador alrededor del
8.3. PROPIEDADES DE MUESTRA FINITA 421
verdadero valor de o. Consideramos dos tipos de eciencia: eciencia relativa
y ecienciaompleta.
Eciencia relativa. Para dos estimadores insesgados

o y

0 de o, se dice
que

o es relativamente ms eciente que



0 si:
\ c:
_

o
_
_ \ c:
_

0
_
.
Ejemplo 1. Bernoulli (continuacin).
En el caso de los estimadores insesgados

o
1
.

o
2
.

o
3
y

o
a
,

o
2
es relativa-
mente ms eciente que

o
1
,

o
3
es relativamente ms eciente que

o
2
y

o
a
es
relativamente ms eciente que

o
3
, es decir,
\ c:
_

o
a
_
_ \ c:
_

o
3
_
_ \ c:
_

o
2
_
_ \ c:
_

o
1
_
.
La ecacia relativa no es una propiedad muy valiosa, porque la compara-
cin es siempre relativa a algunos estimadores alternativos especcos. Esto,
sin embargo, sugiere que un estimador que es mejor que algunos estimadores
terribles no es necesariamente un buen estimador. Por lo tanto, la pregunta
que inmediatamente viene a la mente es si existe un punto ms bajo a partir
del cual la varianza del estimador no puede pasar. Esto plantea la cuestin
de la eciencia absoluta o total.
El desafo de disear una cota absoluta inferior se cumpli con xito en
1945- 6 por dos pioneros de la estadstica moderna H. Cramer (1946a) y C. R.
Rao (1945). Utilizando diferentes enfoques ambos llegaron a la misma con-
clusin. La cota absoluta inferior para los estimadores insesgados se relaciona
con un concepto introducido por Fisher (1922a) y, posteriormente, llamado
informacin de Fisher.
Informacin de Fisher para la muestra
En el contexto de la teora de la Probabilidad denimos informacin
en el contexto de nuestro universo de discurso, el espacio de probabilidad
(o. . 1 (.)), de una manera muy sencilla. Cualquier forma de conocimiento
que reduce a un cierto subconjunto del mismo, se considera como infor-
macin. Es decir, sabiendo que nuestro espacio de eventos se ha reducido de
a
1
donde:

1
,
se considera como informacin.
422CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
En la inferencia estadstica, la informacin tiene que ver con cmo el
modelador utiliza la informacin para sacar conclusiones relacionadas con el
mecanismo estocstico que di origen a los datos. Intuitivamente, la informa-
cin tiene que ver con lo bien que el modelador puede ltrar la informacin
sistemtica que sale de los datos observados. El grado de nuestra utilizacin
de la informacin sistemtica de los datos ser reejado en la precisin de
nuestras estimaciones y pruebas estadsticas relativas a los parmetros de-
sconocidos o. Una medida de tal informacin es la informacin de Fisher
para la muestra de los modelos de probabilidad regulares.
Modelos regulares probabilidad. Se dice que un modelo de probabil-
idad es regular si la distribucin de la muestra , (x; o) := (r
1
. r
2
. .... r
a
; o)
satisface las siguientes condiciones de regularidad:
(Rf1) el espacio de parmetros es un subconjunto abierto de R
n
,
: < :,
(Rf2) el soporte de la distribucin: A
0
:= x : , (x; o) 0 es la misma
para todo o ,
(Rf3)
01a)(x;0)
00
existe y es nita para todo o , x A
0
,
(Rf3) /((X) podemos intercambiar diferenciacin e integracin, es decir,
J
Jo
__

_
/((X) , (x; o) dr
1
dr
2
. .... dr
a
_
=
_

_
/((X)
_
J
Jo
, (x; o)
_
dr
1
dr
2
. .... dr
a
< .
La primera condicin excluye los puntos fronterizos para garantizar que
las derivadas (de ambos lados de un punto) existan. Para este tipo de mod-
elos regulares de probabilidad podemos proceder a denir la informacin de
Fisher para la muestra que est diseada para proporcionar una medida de
la informacin emitida por la muestra para un parmetro o .
La informacin de Fisher para la muestra (A
1
. A
2
. .... A
a
) se dene
por:.
1
a
(o) := 1
_
_
d1:, (x; o)
do
_
2
_
. (12.3)
Hay varias cosas que NOTAR sobre este concepto.
(1) Surgen dicultades cuando el rango de A depende de o; vase el
ejemplo 4 anterior.
8.3. PROPIEDADES DE MUESTRA FINITA 423
(2) Bajos las condiciones de regularidad (I) - (III) se puede demostrar
que:
1
a
(o) := 1
_
_
d1:, (x; o)
do
_
2
_
= 1
_

d
2
1:, (x; o)
do
2
_
.
Esto a menudo proporciona una manera ms conveniente para obtener la
informacin de Fisher y por lo tanto la cota inferior de Cramer-Rao.
(3) La forma de la informacin de Fisher depende fundamentalmente
del modelo estadstico postulado y no tiene nada que ver con estimadores o
estadsticos de prueba. Por ejemplo, en el caso de una muestra independiente:
1
_
d, (x; o)
do
_
=

a
i=1
_
d, (x; o)
do
_
.
en el caso de la muestra aleatoria la informacin de Fisher toma la forma
an ms simple:
1
a
(o) = :1 (o) := :1
_
_
d1:, (x; o)
do
_
2
_
,
donde , (x; o) representa la funcin de densidad de cualquier variable
aleatoria A
I
IID, / = 1. 2. .... : y:
1 (o) := 1
_
_
d1:, (x; o)
do
_
2
_
,
representa la informacin de Fisher para una observacin individual. Su
dependencia de la forma del modelo de probabilidad puede ser ilustrada en
el caso de una muestra aleatoria de una distribucinNormal (un parmetro):
A
I
~` (o. 1), / = 1. 2. ...:, es decir,
, (x; o) =
1
2:
c

1
2
(a0)
2
,
d
do
, (x; o) = (r o) , 1 (o) = 1, 1
a
(o) = :.
NOTA: el trmino informacin de la muestra proviene del hecho de que
la varianza de la mejor estimador insesgado es igual a la inversa de sta. A
medida que la informacin aumenta esto reduce la varianza y por lo tanto se
gana ms informacin acerca de o.
424CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
La desigualdad de Cramer-Rao. Utilizando la informacin de Fisher
para la muestra Cramer (1946a) y Rao (1945) propusieron una cota inferior
absoluta para estimadores insesgados.
Cota inferior de Cramer-Rao. Asumiendo que la informacin de
Fisher para la muestra existe y 1
a
(o) 0 para todo o , la varianza
de cualquier estimador de un parmetro o, por decir,

o, no puede ser menor


que la inversa de 1
a
(o), es decir,
\ c:
_

o
_
_ C1(o) := 1
1
a
(o) :=
_
1
_
d1:, (x; o)
do
_
2
_
1
. (12.4)
En el caso de que el modelador se interese en alguna funcin diferenciable
de o, por ejemplo (o) y (o) es un estimador de (o), la cota inferior de
Cramer-Rao adopta la forma:
Var ( (o)) _ C1( (o)) := 1
1
a
( (o)) :=
_
d
do
1 ( (o))
2
_
1
1
1
a
(o) . (12.5)
Utilizando (12.5) podemos ampliar la cota inferior de Cramer-Rao para
el caso de cualquier estimador, por ejemplo

o (no necesariamente insesgado):


Var
_

o
_
_
_
_
d
_
1
_

o
__
d

o
_
_
2
_
1
_
d1:, (x; o)
do
_
2
_
1
. (12.6)
para todo estimador

o de o.
El siguiente ejemplo ilustra la utilidad de la condicin Rf2 para la derivacin
de la cota inferior de Cramer-Rao.
Ejemplo 4
Considere el modelo Uniforme simple:
[i] MG estadstico: A
I
= 1 (A
I
) +c
I
, / N.
[ii] Modelo de probabilidad:
=
_
, (r; o) =
_
1
0
_
. o (0. ) . 0 < r < o
_
.
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
En este caso, el rango de A depende de o y la condicin de regularidad
Rf2 no se cumple. Si utilizamos la cota mnima de Cramer-Rao (C-R) en
8.3. PROPIEDADES DE MUESTRA FINITA 425
este caso vamos a obtener resultados muy engaosos, porque lo que parece
ser una cota mnima C-R:
d1:, (x; o)
do
=
d1:
do
_
1
o
a
_
=
d1:
do
(:1:o) =
:
o
=1
a
(o) =
_
:
o
_
2
,
en realidad no es aplicable.
Eciencia completa. Una estimador insesgado

o se dice que es un
estimador plenamente eciente si su varianza alcanza la cota mnima C-R:
\ c:
_

o
_
= C1(o) := 1
1
a
(o) .
Una condicin necesaria y suciente para que un estimador insesgado

o
de o alcance este lmite es que
_

o o
_
se pueda expresar en la forma:
_

o o
_
= /(r)
_
d In , (x; )
do
_
, (12.7)
para alguna funcin /(r).
Ejemplo 2. Normal (continuacin)
En el caso del modeloNormal (un parmetro), la distribucin de la mues-
tra toma la forma:
, (x; o) :=
_
1
2:
_
a
exp
_

1
2
a

i=1
(r
i
o)
2
_
, In , (x; o) =
:
2
In 2:
1
2
a

i=1
(r
i
o)
2
.
La primera y segunda derivadas toman la forma:
d In , (x; o)
do
=
a

i=1
(r
i
o) ,
d
2
In , (x; o)
do
2
= :.
Por lo tanto, 1
a
(o) = : y la cota mnima C-R es C1(o) := 1
1
a
(o) =
1
a
,
lo que conrma que el estimador j
a
=
1
a
a

i=1
A
i
es un estimador totalmente
eciente. En este caso se cumple la igualdad (12.7) ya que:
( j
a
j) =
1
:
_
d In , (x; j)
dj
_
=
1
:
a

i=1
(A
i
j) .
426CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
Ejemplo 1. Bernoulli (continuacin)
Como mostramos anteriormente, la distribucin de la muestra para el
modelo de Bernoulli es:
, (x; o) := o
n

.=1
a
.
(1 o)
n

.=1
(1a
.
)
.
Por lo tanto:
In , (x; o) =
_
a

i=1
r
i
_
In o +
_
a

i=1
[1 r
i
]
_
In (1 o) .
d In , (x; o)
do
=
_
a

i=1
r
i
_
1
o

_
a

i=1
[1 r
i
]
_
1
(1 o)
.
d
2
In , (x; o)
do
2
=
_
a

i=1
r
i
_
1
o
2

_
a

i=1
[1 r
i
]
_
_
1
(1 o)
_
2
.
1
_

d
2
In , (x; o)
do
2
_
=
:
o (1 o)
.
Esto se sigue del hecho que:
1
_
a

i=1
r
i
_
= :o, 1
_
a

i=1
[1 r
i
]
_
= :
a

i=1
1 (r
i
) = :(1 o) ,
y entonces:
C1(o) =
o (1 o)
:
.
Si volvemos a los estimadores (a) - (d) para o, podemos ver que el nico
estimador insesgado de o, que es plenamente eciente es

o
a
, ya que:
\ c:
_

o
a
_
=
o (1 o)
:
=
o (1 o)
:
= C1(o) .
Ejemplo 4
-
. Uniforme (continuacin)
Considere el estimador insesgado

o
a
=
a+1
a
max (A
1
. A
2
. .... A
a
) de o. Se
puede demostrar que la distribucin muestral del estadstico de mayor orden
8.3. PROPIEDADES DE MUESTRA FINITA 427
1 := max (A
1
. A
2
. .... A
a
) es , (; o) =
aj
n1
0
n
, 0 < < o (ver captulo 10).
El uso de este, nos lleva a la conclusin errnea de que

o
a
es un estimador
super plenamente eciente, pues:
1
_

o
a
_
:=
: + 1
:
_
o
0

:
a1
o
a
= o, \ c:
_

o
a
_
:=
_
o
2
:(: + 2)
_
<
o
2
:
2
.
en el supuesto de que 1
1
a
(o) :=
0
2
a
2
es la cota mnima. Por supuesto, este
argumento es errneo porque la informacin de Fisher no se puede denir en el
caso de la distribucin Uniforme debido a que las condiciones de regularidad
no se cumplen.
Estimadores mnimo ECM
Las medidas anteriores de eciencia nos permite elegir entre estimadores
insesgados pero no ofrecen una gua sobre la cuestin de elegir entre un
estimador sesgado y uno insesgado tal como
_

o
a+1
,

o
a+2
_
y
_

o
1
.

o
2
.

o
3
_
, re-
spectivamente, en el contexto del modelo de Bernoulli. Esto es interesante
porque los estimadores plenamente ecientes e insesgados no siempre existen
y los estimadores insesgados no siempre son buenos estimadores. Hay casos
en los que podemos elegir un estimador sesgado en lugar de uno insesgado,
porque el primero tiene menor varianza. En el caso de los anteriores

o
1
.

o
2
y

o
3
, podemos ver que su varianza puede ser considerablemente mayor que la
de
_

o
a+1
,

o
a+2
_
para cualquier valor razonable de :.
Cmo podemos comparar estimadores sesgados e insesgados?
Si queremos penalizar el sesgo de un estimador

0, no debemos usar su
varianza como una medida de su dispersin, ya que esto pasa por alto el
hecho de que 1
_

0
_
,= o
0
. En su lugar, debemos utilizar una medida de la
variacin en torno a o
0
. La medida ms ampliamente utilizada es el Error
Cuadrtico Medio denido en o = o
0
como:
ECM
_

0; o
0
_
:= 1
_
_

0 o
0
_
2
_
.
NOTE que en el caso de un estimador insesgado

o, ECM
_

o; o
0
_
= \ c:
_

o
_
,
pero en el caso de un estimador sesgado:
428CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
ECM
_

0; o
0
_
:= 1
_
_

0 1
_

0
_
+1
_

0
_
o
0
_
2
_
= \ c:
_

0
_
+
_
g
_

0; o
0
__
,
donde el sesgo se ha denido anteriormente para ser:
_

0; o
0
_
= 1
_

0
_
o
0
.
Esto se puede deducir directamente de la denicin de la ECM (veri-
quelo!).
Un estimador

o se dice que es un estimador mnimo ECM de o si:


ECM
_

o; o
_
_ ECM
_

0; o
0
_
,
para cualquier otro estimador

0 y todos los valores de o.
Ejemplo 1. Bernoulli (continuacin)
En trminos del ECM,
_

o
a+1
,

o
a+2
_
son mejores estimadores de

o
1
.

o
2
y

o
3
, ya que para : 3:
ECM
_

o
a+1
_
=
_
:
(: + 1)
2
_
o (1 o) +
_
o
(: + 1)
_
2
=
:o (1 o) +o
2
(: + 1)
2
_ ECM
_

o
i
_
. i = 1. 2. 3,
ECM
_

o
a+2
_
=
_
:
(: + 2)
2
_
o (1 o) +
_
o
(: + 2)
_
2
=
:o (1 o) +o
2
(: + 2)
2
_ ECM
_

o
i
_
. i = 1. 2. 3,
y la mayora de los valores de o. Adems, ECM
_

o
a+1
_
ECM
_

o
a+2
_
.
Inadmisibilidad de los estimadores. La anterior propiedad de mnimo
ECM puede ser utilizada como una extensin de las formas de la eciencia
denidas anteriormente. En el caso de cualesquiera dos estimadores,

0
2
y

0
1
,
si:
8.3. PROPIEDADES DE MUESTRA FINITA 429
ECM
_

0
2
_
_ ECM
_

0
1
_
para todo o ,
decimos que

0
2
domina a

0
1
en el sentido de ECM y se dice que

0
1
es
inadmisible.
Ejemplo 1. Bernoulli (continuacin)
En el caso de
_

o
a+1
,

o
a+2
_
:
ECM
_

o
a+2
_
_ ECM
_

o
a+1
_
para todo o [0. 1] ,
y por lo tanto

o
a+1
es inadmisible. Sin embargo, ambos estimadores
alcanza sus respectivas cotas inferiores de Cramer-Rao:
1
_

o
a+1
_
=
_
:
: + 1
_
o,
d1
_

o
_
d

o
=
_
:
: + 1
_
,
1
_

o
a+2
_
=
_
:
: + 2
_
o,
d1
_

o
_
d

o
=
_
:
: + 2
_
.
Por lo tanto, de (12.6) las cotas inferiores de Cramer-Rao para estos
estimadores sesgados son:
C1
_

o
a+1
_
=
_
:
: + 1
_
2
o (1 o)
:
=
:o (1 o)
(: + 1)
2
,
C1
_

o
a+2
_
=
_
:
: + 2
_
2
o (1 o)
:
=
:o (1 o)
(: + 2)
2
.
que son iguales a sus respectivas varianzas.
Hay otro sentido en el que
_

o
a+1
,

o
a+2
_
son estimadores mucho mejores
que los estimadores insesgados

o
1
.

o
2
y

o
3
. Esto surge del hecho de que las
varianzas de

o
1
.

o
2
y

o
3
no slo son ms grandes que las de
_

o
a+1
,

o
a+2
_
, sino
que ellas no disminuyen a medida que se aaden observaciones adicionales a
la muestra.
Esto nos lleva convenientemente a las propiedades asintticas de los esti-
madores. Llamamos a tales propiedades asintticas porque, a diferencia de
430CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
las anteriores propiedades de muestra nita que se reeren a la distribu-
cin muestral nita ,
_

o; x
_
, ellas se reeren a las propiedades de suce-
siones de distribuciones de muestreo
_
,
_

o
a
; x
__
o
a=1
. En pocas palabras, las
propiedades asintticas equivalen a extender los teoremas lmite discutidos
en el captulo 9 (para la funcin

a
I=1
A
I
), al caso de funciones arbitrarias

o
a
:= /(A
1
. A
2
. .... A
a
).
8.4 Propiedades asintticas
Debido a que el estimador ideal o
+
denido por 1 (o
+
= o) = 1, no es posible
para un tamao de muestra : jo, al modelador le gustara tener estimadores
que alcancen su forma ideal a medida que el tamao de la muestra aumenta
hacia innito. Es decir, estimadores cuya distribucin muestral se aproxima
a la distribucin muestral ideal 1 (o
+
= o) = 1, en un sentido probabilstico
cuando : .
El sentido probabilstico en trminos del cual esto se puede lograr asintti-
camente viene en dos versiones: convergencia en probabilidad y convergen-
cia casi segura encontradas en relacin con la Ley de los Grandes Nmeros
(LGN) discutida en el captulo 9. La convergencia en probabilidad, asociada
a la Ley Dbil de los Grandes Nmeros da lugar a la propiedad conocida
como consistencia, mientras que la convergencia casi segura da lugar a la
propiedad conocida como consistencia fuerte. Adems, el Teorema Central
del lmite a menudo puede ser utilizado para determinar la distribucin de

o
a
:= /(A
1
. A
2
. .... A
a
) cuando : . Este ltimo puede ser utilizado
como una aproximacin de la distribucin de muestra nita del estimador en
cuestin. Cabe sealar una vez ms que sin una distribucin de muestreo no
es posible la inferencia estadstica.
8.4.1 Consistencia
Una estimador

o
a
se dice que es un estimador consistente de o, si para
cualquier 0:
lim
ao
1
__

o
a
o

_
<
_
= 1, representado por:

o
a
1
o (12.8)
8.4. PROPIEDADES ASINTTICAS 431
Esto se lee "el lmite de la probabilidad del evento que

o
a
diera del
verdadero o por menos de alguna constante positiva 0, tiende a uno
cuando : tiende a innito"; vase el captulo 9.
OBSERVACIONES:
(i)

o
a
en esta denicin es sinnimo de un estimador genrico y no el
estimador particular utilizado en el ejemplo 1; el subndice : se utiliza para
destacar el papel del tamao de la muestra.
(ii) En cierto sentido, la consistencia es una extensin de la LGN para las
funciones de la muestra, por ejemplo /(A
1
. A
2
. .... A
a
), que no sea la suma.
(iii) En el caso de que

o
a
tenga una varianza acotada, podemos comprobar
su consistencia utilizando la desigualdad de Chebyshev (ver captulo 3):
1
_

o
a
o

_
_
_ 1
1
_

o
a
o
_
2

2
.
Esto se debe a que 1
_

o
a
o
_
2
es simplemente el error cuadrado medio
de

o
a
. Por lo tanto, si ECM
_

o
a
_
0 cuando 1 , entonces
1(

0n0)
2
.
2
0
y (12.8) se mantiene.
Usando la denicin ECM
_

o
a
; o
_
= \ c:
_

o
a
_
+
_ _

o
a
; o
__
2
, podemos ver
que:
ECM
_

o
a
_
0 si \ c:
_

o
a
_
0 y
_

o
a
; o
_
0.
Esto sugiere dos condiciones fcilmente vericables para que

o
a
sea un
estimador consistente de o cuando los momentos necesarios de su distribucin
muestral existen:
(a) lim
ao
1
_

o
a
_
= o, (b) lim
ao
\ c:
_

o
a
_
= 0.
Esto sugiere que en el caso de que

o
a
tenga una varianza acotada, podemos
comprobar su consistencia mediante la comprobacin de las anteriores condi-
ciones (sucientes): ellas son slo condiciones sucientes debido a que

o
a
puede ser consistente, aunque su varianza no podra existir. El concepto de
consistencia basado en (a) - (b) se llama a veces consistencia en media
cuadrtica.
Ejemplo 1. Bernoulli (continuacin)
432CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
En el caso de los estimadores

o
1
.

o
2
y

o
3
y sabemos que son insesgados de
modo que (i) se cumple automticamente. Sin embargo, dado que:
(c) \ c:
_

o
1
_
= o (1 o) , (/) \ c:
_

o
2
_
=
1
2
o (1 o) , (/) \ c:
_

o
3
_
=
1
3
o (1 o) ,
podemos deducir que ninguno de estos estimadores cumple la segunda
condicin, y por lo tanto todos ellos son inconsistentes. Otra forma de
ver esto es que el segundo momento de las distribuciones muestrales de estos
estimadores no cambia cuando : cambia. En otras palabras, para la precisin
de estos estimadores no importa si uno tiene : = 5 o : = 10
5
. En contraste,
los estimadores (

o
a+1
.

o
a+2
), son consistentes, ya que:
(c) lim
ao
1
_

o
a+1
_
= lim
ao
1
_
:o
(: + 1)
_
= o, lim
ao
\ c:
_

o
a+1
_
= lim
ao
1
_
:o (1 o)
(: + 1)
2
_
= 0,
(,) lim
ao
1
_

o
a+2
_
= lim
ao
1
_
:o
(: + 2)
_
= o, lim
ao
\ c:
_

o
a+2
_
= lim
ao
1
_
:o (1 o)
(: + 2)
2
_
= 0,
Es importante hacer hincapi en el hecho de que la consistencia es una
propiedad mnima. Es decir, cuando un estimador es inconsistente, no es
digno de una consideracin sreia, pero el hecho de que sea consistente no
lo hace un buen estimador. Hay numerosos ejemplos de estimadores con-
sistentes, sin embargo, que son prcticamente inservibles (ver Rao (973), p.
344). Los estimadores

o
1
.

o
2
y

o
3
, siendo inconsistentes se pueden eliminar
de la lista de buenos estimadores de o y la eleccin est entre

o
a
y

o
a+1
.
Dado que

o
a
es a la vez sesgado y plenamente eciente y

o
a+1
es sesgado,
preferimos

o
a
a

o
a+1
.
Ejemplo 2. (continuacin)
Uso de las distribuciones muestrales de los estimadores (i) - (vi), derivado
anterioremte, podemos ver que:
8.4. PROPIEDADES ASINTTICAS 433
(i) 1 ( j
1
) = j, \ c: ( j
1
) = 1, es decir, insesgado pero consistente,
(ii) 1 ( j
2
) = j, \ c: ( j
2
) =
1
2
, es decir, insesgado pero consistente,
(iii) 1 ( j
3
) = 0, \ c: ( j
3
) = 2, es decir, sesgado e inconsistente,
(i) 1 ( j
a
) = j, \ c: ( j
a
) =
1
:
, es decir, insesgado plenamente eciente,
() 1
_
j
a+1
_
=
_
:j
: + 1
_
, \ c:
_
j
a+1
_
=
:
(: + 1)
2
, es decir, sesgado pero inconsistente,
(i) 1
_
j
a+2
_
=
_
:j
: + 2
_
, \ c:
_
j
a+2
_
=
:
(: + 2)
2
, es decir, sesgado pero inconsistente,
De la comparacin anterior podemos concluir que j
a
=
1
a

a
i=1
A
i
es el
mejor estimador de o.
NOTA. En Spanos (p. 617) en (vi) dice: \ c:
_
j
a+1
_
; debera
decir \ c:
_
j
a+2
_
.
Es importante sealar que en el caso de los ejemplos anteriores (y en mu-
chos casos en la prctica), utilizamos slo sus primeros dos momentos cuando
se decide la optimalizdad de los distintos estimadores; la distribucin mues-
tral no es explcitamente utilizada. Para efectos de la inferencia estadstica
en general, sin embargo, a menudo requerimos la distribucin muestral en s,
no slo sus primeros dos momentos.
8.4.2 Consistencia fuerte
Un estimador

o
a
se dice que es un estimador fuertemente consistente de
o si:
1
_
lim
ao

o
a
= o
a
_
= 1 representado por:

o
a
o.c.
o
a
.
Esta es exactamente la versin asinttica de la propiedad de estimador
ideal denida anteriormente. El concepto de convergencia subyacente a con-
sistencia fuerte se conoce como convergencia casi segura (c.s.). En el
captulo 9 se muestra que la convergencia caso segura es ms fuerte que la
convergencia en probabilidad y no es sorprendente que la primera implique
la segunda.
Ejemplo 1. Bernoulli (continuacin)
434CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
En el caso del estimador

o
a
de o
a
discutido anteriormente, podemos uti-
lizar LGN fuerte de Borel (vase el captulo 9) directamente para deducir
que:

o
a
o.c.
o
a
Ejemplo 2. Normal (continuacin)
En el caso del estimador j
a
de j discutido anteriormente, podemos utilizar
la segunda LGN fuerte de Kolmogorov (vase el captulo 9) para deducir que:
j
a
o.c.
j
a
.
Como se mencion anteriormente, la consistencia (dbil y fuerte) es una
extensin de la Ley de los Grandes Nmeros a funciones de la muestra, por
ejemplo /(A
1
. A
2
. .... A
a
), ms all de suma

a
i=1
A
i
. De la misma manera,
la siguiente propiedad asinttica, conocida como Normalidad asinttica, es
una extensin del Teorema Central del Lmite (TCL), discutido en el
captulo 9.
8.4.3 Normalidad asinttica
Una estimador

o
a
de o
a
se dice que es asintticamente Normal si podemos
encontrar una sucesin de normalizacin c
a

o
a=1
tal que:
c
a
_

o
a
o
_
~
o
` (0. \
o
(o)) , para \
o
(o) ,= 0
OBSERVACIONES:
(a) "~
o
" se lee "asintticamente distribuida".
(b) \
o
(o) denota la varianza asinttica de

o
a
.
(c) La sucesin c
a

o
a=1
es una funcin de :. Por ejemplo, en el caso de
una muestra aleatoria la sucesin de normalizacin se dene por c
a
=
_
:.
Ejemplo 1. Bernoulli (continuacin)
En el caso de los estimadores

o
a
y

o
a+1
de o discutidos anteriormente,
podemos demostrar que tienen la misma distribucin asintticamente Nor-
mal:
_
:
_

o
a
o
_
~
o
` (0. o (1 o)) ,
_
:
_

o
a+1
o
_
~
o
` (0. o (1 o)) . (12.9)
Ejemplo 2. Normal (continuacin)
En el caso de los estimadores j
a
y j
a+1
de j discutidos anteriormente,
podemos demostrar que tienen la misma distribucin asintticamente Nor-
mal:
8.4. PROPIEDADES ASINTTICAS 435
_
:( j
a
j) ~
o
` (0. 1) ,
_
:
_
j
a+1
j
_
~
o
` (0. 1) . (12.10)
Para estimadores consistentes y asintticamente normales (CAN)
de o, utilizamos la varianza asinttica para elegir entre ellos. La varianza as-
inttica ms pequea posible, en el caso de que las condiciones de regularidad
de Cramer-Rao se cumplen, est dada por la informacin asinttica de
Fisher denida en trminos de:
1
o
(o) = lim
ao
_
_
1
c
a
_
2
1
a
(o)
_
, C1
o
(o) = [1
o
(o)]
1
.
donde C1
o
(o) signica cota inferior asinttica de Cramer-Rao.
Ejemplo 1. Bernoulli (continuacin)
En el caso del modelo de Bernoulli se mostr anteriormente que 1
_

o
2
In )(a;0)
o0
2
_
=
a
0(10)
. Por lo tanto:
1
o
(o) = lim
ao
__
1
:
_
:
o (1 o)
_
=
1
o (1 o)
= C1
o
(o) = o (1 o) .
Ejemplo 2. Normal (continuacin)
En el caso del modelo Normal discutido anteriormente, hemos demostrado
que 1
_

o
2
In )(a;0)
o0
2
_
= :. Por lo tanto:
1
o
(o) = lim
ao
__
1
:
_
:
_
= 1 = C1
o
(o) = 1.
8.4.4 Eciencia asinttica
Un estimador CAN

o
a
de o se dice que es asintticamente eciente si:
c
a
_

o
a
o
_
~
o
`
_
0. [1
o
(o)]
1
_
, asumiendo 1
o
(o) ,= 0.
Es decir, la varianza asinttica es igual a la cota mnima asinttica de
Cramer-Rao.
Ejemplo 1. Bernoulli (continuacin)
En el caso del modelo de Bernoulli hemos demostrado anteriormente que
los estimadores en (12.9) son, en efecto asintticamente ecientes.
436CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
Ejemplo 2. Normal (continuacin)
En el caso del modelo normal hemos demostrado anteriormente que los
estimadores de (12.10) son, en efecto asintticamente ecientes.
Esto sugiere que los estimadores CAN

o
a
y

o
a+1
son asintticamente
ecientes, porque alcanzan cota mnima asinttica de Cramer-Rao. Como
podemos ver el estimador

o
a
se se se distingue porque satisface todas las
propiedades deseables, muestra nita y asinttica.
8.4.5 Distribuciones muestrales y propiedades de los
estimadores
La discusin en esta seccin y las anteriores giraba principalmente en torno
a los dos primeros momentos de las distribuciones muestrales de los esti-
madores. Esto podra dar la impresin errnea de que la distribucin mues-
tral en s misma no es necesaria y slo los dos primeros momentos son re-
queridos. Denimos insesgamiento y eciencia en trminos de la media y
la varianza de la distribucin muestral de un estimador, respectivamente.
Aunque la denicin de la consistencia:
lim
ao
1
_

o
a
o

<
_
= / 1,
pone de relieve el papel de la distribucin muestral en la evaluacin de la
sucesin de probabilidades:
j
a

o
a=1
, donde j
a
:= 1
_

o
a
o

<
_
,
la forma ms conveniente de probar la consistencia es a menudo el com-
portamiento asinttico del ECM; este ltimo involucra slo los dos primeros
momentos. Del mismo modo, las otras propiedades asintticas implican la
distribucin muestral, pero a menudo esto no es explcitamente claro. El
hecho de importancia es que en la inferencia estadstica lo que a menudo se
necesita es la distribucin muestral del estimador mismo, no slo los primeros
momentos. Nuestro enfoque en los dos primeros momentos se basa princi-
palmente en la conveniencia. Hay varias otras propiedades que no estn
denidas en trminos de los momentos de la distribucin muestral, sino en
algunas otras caractersticas numricas.
Insesgamietno de moda (mode unbiasedness). Un estimador

o
a
de
o se dice que es moda insesgada si la distribucin muestral de

o
1
tiene una
8.4. PROPIEDADES ASINTTICAS 437
moda que coincide con el parmetro desconocido o:
Moda
_

o
a
_
= o, para toda o .
Ejemplo 4 *. Uniforme (continuacin)
Considere el estimador de o denido por:

o
[a]
= max (A
1
. A
2
. .... A
a
) ,
Se puede demostrar (vase el captulo 11) que la distribucin muestral de

o
[a]
es:
, (r; o) =
:r
a1
o
a
, 0 < r < o.
En vista del hecho de que para cualquier o 0 la funcin de densidad
, (r; o) tiene un mximo nico en el punto /(o) = o, el estimador

o
[a]
es un
estimador moda insesgada de o:
Moda
_

o
a
_
= o, para toda o (0. ) .
Ejemplo 2. Normal (continuacin)
En el caso del modelo normal hemos mostrado anteriormente que el es-
timador j
a
=
1
a

a
I=1
A
I
es media insesgada con una distribucin muestral
Normal. Esto ltimo implica que j
a
tambin es estimador moda y mediana
insesgada.
Adems utilizando las caractersticas numricas de la distribucin mues-
tral, hay otras maneras de denir la cercana de un estimador al verdadero
valor del parmetro que ponen de relieve el papel de la distribucin muestral
con mayor claridad. Por ejemplo, podemos denir el concepto de la cercana
de dos estimadores

o y

o del parmetro desconocido o al veradero valor o
0
utilizando la siguiente medida de concentracin:
1
_

o o
0

_ c
_
_ 1
_

o o
0

_ c
_
, para todo c 0.
En el caso donde la condicin anterior sea vlido y la desigualdad estricta
se cumpla para algunos valores de c 0, entonces se dice que

o est ms
concentrado en torno a o
0
que

o. Como podemos ver, la comparacin anterior


involucra directamente las distribuciones muestrales de los dos estimadores.
438CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
Una medida de la cercana a lo largo de estas lneas es la medida de cercana
de Pitman (ver Pitman (1937)):
1
_

o o
0

<

o o
0

_
_
1
2
, para todo o .
Estas medidas no se proseguirn ms all en este libro, pero se sealan
para destacar el papel de la distribucin muestral en la evaluacin de la
optimalidad de los estimadores.
8.5 El modelo Normal simple
En la seccin anterior utilizamos dos ejemplos muy simples en un intento
por mantener las dicultades tcnicas en un mnimo y concentrarse en las
ideas y conceptos. En esta seccin utilizamos el modelo (posiblemente) ms
ampliamente discutido en estadstica en un esfuerzo por ilustrar algunos de
los puntos ms nos de los buenos estimadores.
8.5.1 La distribucin muestral de la media de la mues-
tra
Ejemplo 5
Considere el modelo Normal simple (dos parmetros):
Modelo Normal simple
[1] MG estadstico: A
I
= j +
I
, / N,
[2] Modelo de probabilidad:
= , (; ) =
_
1
o
_
2:
exp
_

1
2o
2
(r j)
2
__
. :=
_
j. o
2
_
R R
+
,
[3] Modelo muestral: A := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Ya hemos decidido que el mejor estimador de j, en el caso de un modelo
Normal de un parmetro es:
j
a
=
1
:

a
I=1
A
I
. (12.11)
El argumento intuitivo de por qu este estimador resulta ser un buen
estimador fue dado anteriormente como la coincidencia entre la distribucin
8.5. EL MODELO NORMAL SIMPLE 439
y los momentos muestrales, lo que llamamos el principio de los momentos
coincidentes (moment matching principle) en el prximo captulo. Es
decir, parece como si j
a
resulta ser un estimador ptimo debido a que el
parmetro desconocido j es la media de la distribucin Normal (1(A) = j)
y el estimador anterior es justamente la media de la muestra (A
1
. A
2
. .... A
a
).
Usando el mismo argumento intuitivo para o
2
, donde sabemos que \ c: (A) =
o
2
, debemos considerar la varianza de la muestra como un estimador posible
de o
2
:
o
2
a
=
1
:

a
i=1
(A
i
j
a
)
2
. (12.12)
Utilizando el lema 2 del captulo 11 se puede deducir que la distribucin
muestral de j
a
toma la forma:
j
a
~`
_
j.
o
2
:
_
.
Esta distribucin muestral se puede utilizar para establecer las propiedades
de este estimador. En el caso del modelo normal de un parmetro (o
2
= 1),
hemos visto que j
a
es un estimador insesgado, plenamente eciente y fuerte-
mente consistente de j. Lo nico que cambia es la cota inferior de Cramer-
Rao lmite, pero como se muestra a continuacin j
a
es totalmente eciente
ya que alcanza la nueva cota mnima.
Considere la nueva distribucin de la muestra:
440CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
,
_
r; j. o
2
_
=
_
1
o
_
2:
_
a
exp
_

1
2o
2

a
i=1
(r
i
j)
2
_
,
In ,
_
r; j. o
2
_
=
:
2
In (2:)
:
2
In
_
o
2
_

1
2o
2

a
i=1
(r
i
j)
2
,
JIn , (r; j. o
2
)
Jj
=
1
o
2

a
i=1
(r
i
j) ,
JIn , (r; j. o
2
)
Jo
2
=
:
2o
2
+
1
2 (o
2
)
2

a
i=1
(r
i
j)
2
,
J
2
In , (r; j. o
2
)
Jj
2
=
1
o
2

a
i=1
(1) ,
J
2
In , (r; j. o
2
)
J (o
2
)
2
=
:
2o
4

1
o
6

a
i=1
(r
i
j)
2
,
J
2
In , (r; j. o
2
)
Jo
2
Jj
=
1
o
4

a
i=1
(r
i
j)
2
.
En este caso, la matriz de informacin de Fisher para la muestra toma
la forma:
1
a
_
j. o
2
_
:=
_
_
_
_
1
_

0
2
In )(a;j,o
2
)
0j
2
_
1
_

0
2
In )(a;j,o
2
)
0o
2
0j
_
1
_

0
2
In )(a;j,o
2
)
0o
2
0j
_
1
_

0
2
In )(a;j,o
2
)
0(o
2
)
2
_
_
_
_
_
y la cota mnima de Cramer-Rao para cualesquiera estimador insesgado
de (j. o
2
) es:
C1
_
j. o
2
_
:=
_
1
a
_
j. o
2
_
1
.
Debido a que 1
_

0
2
In )(a;j,o
2
)
0o
2
0j
_
= 0, la matriz de informacin de Fisher
toma la forma:
1
a
_
j. o
2
_
:=
_
a
o
2
0
0
a
2o
4
_
,
y as la cota mnima de Cramer-Rao para cualesquiera estimadores inses-
gados de los dos parmetros es la siguiente:
8.5. EL MODELO NORMAL SIMPLE 441
C1(j) :=
o
2
:
, C1
_
o
2
_
:=
2o
4
:
. (12.13)
Como podemos ver, j
a
alcanza esta cota. Adems, es fcil demostrar que
j
a
goza de todas las propiedades ptimas asinttica: consistencia, Normali-
dad asinttica y eciencia:
_
:( j
a
j) ~
o
`
_
0. o
2
_
.
8.5.2 La distribucin muestral de la varianza de la
muestra
Con el n de derivar la distribucin muestral de o
2
a
observamos que sta
es una funcin cuadrtica de variables aleatorias normalmente distribuidas;
(A
1
. A
2
. .... A
a
) se asume que son NIID y j
a
es normal como una combi-
nacin lineal de estas variables aleatorias. Usando el lema 4 (la suma de los
cuadrados de : variables aleatorias independientes Normal estndar es chi
cuadrado con : grados de libertad), podemos deducir que:
dado que 2
i
=
_
A
i
j
o
_
~` (0. 1) =

a
i=1
2
2
i
=

a
i=1
_
A
i
j
o
_
2
~
2
(:) .
Nuestro estimador, sin embargo, no es exactamente de esta forma porque
involucra j
a
en lugar de j y los dos son muy diferentes; el primero es una vari-
able aleatoria; el ltimo es una constante. Sin embargo, podemos demostrar
que:

a
i=1
_
A
i
j
o
_
2
=

a
i=1
_
A
i
j
a
o
_
2
+:
_
j
a
j
o
_
2
. (12.14)
(ver Spanos (1986), p. 240). Teniendo en cuenta (12.11) podemos deducir
que:
:
_
j
a
j
o
_
2
~
2
(:) .
Adems, podemos demostrar que :
_
j
n
j
o
_
2
y

a
i=1
_
A
.
j
n
o
_
2
son inde-
pendientes ya que este ltimo se puede escribir como una funcin nicamente
442CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
de (A
2
j
a
. A
3
j
a
. .... A
a
j
a
), y estas cantidades son independientes de
j
a
. En primer lugar, observamos que:

a
i=1
(A
i
j
a
)
2
= (A
i
j
a
)
2
+

a
i=2
(A
i
j
a
)
2
=
_

a
i=2
(A
i
j
a
)
_
2
+

a
i=2
(A
i
j
a
)
2
,
por el hecho de que

a
i=1
(A
i
j
a
) = 0 y entonces (A
i
j
a
) =

a
i=2
(A
i
j
a
),
es decir:
o
2
a
= g(A
2
j
a
. A
3
j
a
. .... A
a
j
a
) .
La independencia de o
2
a
y j
a
se deduce del hecho de que cuando cua-
lesquiera variables aleatorias son independientes tambin lo son las funciones
de ellas (vase el captulo 4).
En vista del hecho de que el lado izquierdo de (12.14) se distribuye como

2
(:) y el lado derecho se compone de dos variables aleatorias independientes
y una tiene una distribucin
2
(1), se sigue del lema (8b) (vase el captulo
11) que:
: o
2
a
o
2
=

a
i=1
_
A
i
j
a
o
_
2
~
2
(: 1) . (12.15)
Usando el hecho de que la media de una variable aleatoria distribuida chi
cuadrado es igual a los grados de libertad (ver Apndice A), podemos deducir
que 1
_
a o
2
n
o
2
_
= (: 1), lo que implica que o
2
a
es un estimador sesgado de
o
2
debido a que:
1
_
o
2
a
_
=
(: 1)
:
o
2
,= o
2
.
Debido a este sesgo, el estimador insesgado alternativo:
:
2
a
:=
_
:
: 1
o
2
a
_
=
:
: 1

a
i=2
(A
i
j
a
)
2
, 1
_
:
2
a
_
:= o
2
,
a menudo se preere en la prctica.
La cuestin que se plantea es si :
2
a
, adems de insesgadez, tiene otras
ventajas sobre o
2
a
. Para obtener la varianza del estimador insesgado :
2
a
dos
usamos el resultado de que la varianza de una variable aleatoria distribuida
8.5. EL MODELO NORMAL SIMPLE 443
chi cuadrado es igual al doble de sus grados de libertad (ver Apndice A),
para deducir que:
\ c:
_
(: 1) :
2
a
o
2
_
= 2 (: 1) =\ c:
_
:
2
a
_
=
2o
4
: 1
C1
_
o
2
_
=
2o
4
:
.
Es decir, el estimador :
2
a
no alcanza la cota mnima de Cramer-Rao.
La bsqueda de estimadores ecientes plenamente con la cota mnima de
Cramer-Rao ha dejado a dos preguntas importantes sin respuesta. En primer
lugar: qu hacer cuando las condiciones de regularidad no se cumplen? Una
respuesta parcial a esta es proporcionada por la desigualdad de Chapman
Robbins (vase Stuart y Ord (1991)). En segundo lugar: cmo jusgamos a
los estimadores, como :
2
a
, que no alcanzan la cota mnima? La respuesta es
proporcionada por (12.7), puesto que
JIn , (r; j. o
2
)
Jo
2
=
_
:
2o
4
_
+
__
1
:

a
i=1
(r
i
j)
2
_
o
2
_
,
lo que implica que:
__
1
:

a
i=1
(r
i
j)
2
_
o
2
_
=
_
2o
4
:
_
JIn , (r; j. o
2
)
Jo
2
, (12.16)
Por lo tanto, el nico estimador insesgado de o
2
que alcanza la cota
mnima C1(o
2
) es
_
1
a

a
i=1
(r
i
j)
2
_
, que constituye un estimador, sin
embargo, slo si j es conocido. En otras palabras, sabemos que no hay
estimador insesgado que alcance esta cota a menos que j sea conocido. En
vista de esta informacin: cmo podemos juzgar la optimalidad de :
2
a
?
Comparemos :
2
a
con o
2
a
=
(a1)
a
:
2
a
:
(i) \ c:
_
o
2
a
_
=
_
a1
a
_
2
_
2o
4
a1
_
=
2(a1)
a
2
o
4
,
(ii) 1C`
_
o
2
a
_
=
2(a1)
a
2
+
__
a1
a

o
2
o
2
_
2
=
_
2(a1)
a
2
_
o
4
.
Esto nos permite armar que en trminos del Error Cuadrtico Medio o
2
a
tiene menor concentracin en torno al verdadero valor de o
2
que :
2
a
:
1C`
_
o
2
a
_
=
_
2 (: 1)
:
2
_
o
4
< 1C`
_
:
2
a
_
=
_
2
: 1
_
o
4
.
444CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
A su vez, :
2
a
no alcanza la cota mnima de Cramer-Rao para estimadores
sesgados ya que:
C11
_
o
2
_
=
_
d1
_
o
2
a
_
do
2
_
2
_
1
_
d In , (r; j. o
2
)
do
2
_
2
_
1
=
_
: 1
:
_
2
_
2o
4
:
_
=
_
2 (: 1)
2
:
3
_
o
4
.
Despus de todas las comparaciones anteriores entre los estimadores o
2
a
y :
2
a
no somos ms acertados en cuanto a cul es el ptimo en trminos de
su concentracin en torno al verdadero valor de o
2
, principalmente porque
la cota mnima de Cramer-Rao no puede ser alcanzada por cualquiera de
estos estimadores. Sabemos por (12.16) que no existe estimador insesgado
de o
2
que alcance la C1(o
2
). La pregunta que surge naturalmente en esta
etapa es: existe algn otro estimador que est ms cerca a este lmite? La
respuesta es proporcionada por otra cota inferior que es ms alcanzable.
Bhattacharyya (1946), viendo que la desigualdad de Cramer-Rao se basa
en la correlacin entre un estimador /(X) y
o In )(a;0)
o0
=
1
)(a;0)
o )(a;0)
o0
, pro-
puso una desigualdad ms ntida sobre la base de la correlacin mltiple entre
/(X) y:
1
, (r; o)
d , (r; o)
do
.
1
, (r; o)
d
2
, (r; o)
do
2
.
1
, (r; o)
d
3
, (r; o)
do
3
. ....
1
, (r; o)
d
n
, (r; o)
do
n
, : _ 1.
En lugar de ser capaz de expresar la diferencia
_

o
a
o
_
como una funcin
lineal de la primera derivada (vase (12.7)), se extiende para incluir mayores
derivadas en el sentido de que:
_

o
a
o
_
= /(o)
_
1
, (r; o)
_

n
I=1
c
I
_
d
I
, (r; o)
do
I
_
, : _ 1, (12.17)
para una funcin /(o) y las constantes / = 1. 2. .... :. En el caso de que
(12.7) se cumpla, podemos usar la cota inferior Bhattacharyya:
\ c:
_

o
_
_

n
i,)=1
c
i)
(o) c
i
c
)
, para algn : _ 1,
8.5. EL MODELO NORMAL SIMPLE 445
donde c
i)
= 1
__
1
)(a;0)
o
.
)(a;0)
o0
.
__
1
)(a;0)
o

)(a;0)
o0

__
, los coecientes se de-
nen por el sistema de ecuaciones:

n
,)=1
c
i)
(o) c
)
, i = 1. 2. .... :.
En el caso donde [c
i)
(o)]
n
i,)=1
es denida positiva con un inverso de la
forma [c
.
(o)]
n
i,)=1
, la cota mnima Bhattacharyya es:
\ c:
_

o
_
_

n
i,)=1
c
.
(o) , para algn : _ 1.
En nuestro caso tenemos dos parmetros desconocidos y no podemos usar
(12.17) directament; debe ampliarse para incluir los trminos de productos
cruzados. Para mostrar que el estimador insesgado :
2
a
alcanza esta cota
observemos que:
_
1
, (r; o)
J , (r; j. o
2
)
Jo
2
_
: =
JIn , (r; j. o
2
)
Jo
2
=
:
2o
2
+
1
2o
4

a
i=1
(r
i
j
a
)
2
+
:
2o
4
( j
a
j)
2
,
_
1
, (r; o)
J
2
, (r; j. o
2
)
Jj
2
_
: =
JIn , (r; j. o
2
)
Jj
2
+
_
JIn , (r; j. o
2
)
Jj
_
2
=
:
o
2
+
:
2
o
4
( j
a
j)
2
.
Tomando la siguiente combinacin lineal de estas dos derivadas podemos
mostrar que:
_
:
2
a
o
2

=
_
2o
4
:
___
:
: 1
__
JIn , (r; j. o
2
)
Jo
2
_

_
1
2 (: 1)
__
1
, (r; o)
J
2
, (r; j. o
2
)
Jj
2
__
lo que conrma que el estimador insesgado :
2
a
es el mejor en el sentido de
se alcanza la cota mnima Bhattacharyya.
En trminos de sus propiedades asintticas ambos estimadores o
2
a
y :
2
a
disfrutan de todas las propiedades asintticas ptimas: consistencia, Nor-
malidad asinttica y eciencia asinttica:
_
:
_
o
2
a
o
2
_
~
o
`
_
0. 2o
4
_
,
_
:
_
:
2
o
2
_
~
o
`
_
0. 2o
4
_
,
446CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
en vista del hecho de que la matriz asinttica de informacin de Fisher
es:
1
o
_
j. o
2
_
:= lim
ao
_
1
:
1
a
_
j. o
2
_
_
:=
_
1
o
2
0
0
1
2o
4
_
.
8.5.3 Reduciendo el sesgo: estimadores navaja (jack-
knife estimators)
Hay ocasiones en la prctica, donde necesitamos reducir el sesgo de ciertos
estimadores. Sea

o
a
(X) un estimador sesgado del parmetro desconocido o
y el sesgo expresado en la siguiente forma conveniente:
1
_

o
a
(X)
_
o =
c
1
(o)
:
+
c
2
(o)
:
2
+
c
I
(o)
:
I
+ (12.19)
NOTE que en muchos casos encontrados hasta el momento el sesgo es de
la forma de primer orden, es decir,
1
_

o
a
(X)
_
o =
c
1
(o)
:
.
Plegamiento (Jackkning). Considere la sucesin de estimadores de
o especicada con : 1 observaciones:

o
a1
_
X
(I)
_
, / = 1. 2. .... :, (12.20)
donde X
(I)
:= (A
1
. A
2
. .... A
I1
. A
I+1
. .... A
a
). Es decir, utilizamos la
misma frmula que la de

o
a
(X), pero dejamos la k-sima observacin fuera
en todo momento. Procedemos a denir el promedio (la media aritmtica)
de estos estimadores:

o
a
(X) =
1
:

a
I=1

o
a1
_
X
(I)
_
, (12.21)
luego tomamos una combinacin convexa de ste y el estimador original
para denir el estimador navaja:
o
a
(X) = :

o
a
(X) (: 1)

o
a
(X) . (12.22)
Quenouille (1956) demostr que para el nuevo estimador o
a
(X) el sesgo
de primer orden desaparece, es decir,
8.5. EL MODELO NORMAL SIMPLE 447
1
_
o
a
(X)
_
o =
c
2
(o)
:
2
+
c
I
(o)
:
I
+ (12.23)
En el caso donde el sesgo fue de primer orden el estimador navaja es ahora
insesgado. Adems, el sesgo de primer orden se puede estimar utilizando:
Sesgo
_

o
a
(X)
_
= (: 1)
_

o
a
(X)

o
a
(X)
_
. (12.24)
Ejemplo
Considere el modelo Normal como se especic anteriormente y la esti-
macin del parmetro o
2
. Apliquemos el estimador navaja en el caso del
estimador sesgado:
o
2
a
:=
1
:

a
I=1
(A
I
A)
2
.
Como se muestra anteriormente, el sesgo de este estimador es de primer
orden y toma la forma:
1
_
o
2
a
_
o
2
=
o
2
:
.

o
a
(X) =
1
:

a
i=1
(A
i
A)
2
=
1
:

a
i=1
A
2
i

1
:
2
_

a
i=1
A
i
_
2
.

o
a1
_
X
(I)
_
=
1
(: 1)

a
i=1
.6=I
A
2
i
+
1
(: 1)
_

a
i=1
.6=I
A
i
_
2
.

o
a
(X) =
1
:

a
i=1

o
a1
_
X
(i)
_
=
1
:

a
i=1
A
2
i

1
:(: 1)
2
__
1
:

a
i=1
A
2
i
_
+ (: 2)
_
1
:

a
i=1
A
2
i
__
.
Despus de la sustitucin de stos en el estimador navaja obtenemos:
o
a
(X) =

a
i=1
A
2
i

1
:
_

a
i=1
A
i
_
2

_
: 1
:
_

a
i=1
A
2
i
+
_
1
:(: 1)
_

a
i=1
A
2
i
+
(: 2)
:(: 1)
_

a
i=1
A
i
_
2
=
1
(: 1)

a
i=1
A
2
i

_
1
:(: 1)
_
_

a
i=1
A
i
_
2
=
1
(: 1)

a
i=1
_
A
i
A
_
2
Como podemos ver el estimador navaja coincide con el estimador :
2
dis-
cutido en la subseccin anterior.
448CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
La idea de sentido comn en la que se basa el concepto de plegamiento
(jackkning) es casi trivial, pero su intuicin intrnseca es de gran alcance.
Veamos cmo trabaja el plegamiento para eliminar el sesgo de primer orden
de un estimador. A partir de la forma general de la sesgo como se indica en
(12.19) se puede argumentar que el estimador

o
a1
_
X
(I)
_
satisface la relacin
similar pero basada en (: 1) observaciones:
1
_

o
a
(X)
_
o =
c
1
(o)
: 1
+
c
2
(o)
(: 1)
2
+
c
I
(o)
(: 1)
I
+
1
_
:

o
a
(X) (: 1)

o
a
(X)
_
o =
c
2
(o)
:(: 1)
+
Lo que hace de plegamiento una idea muy interesante, sin embargo, es el
hecho de que involucra la operacin de suavizamiento en la forma de promedio
como se muestra en (12.21). Esto se ve mejor en el contexto del ejemplo donde
el suavizamiento equivale a un promedio de los promedios:

o
a
(X) :=
1
:

a
I=1

o
a1
_
X
(I)
_
=
1
:

a
i=1
_
_
1
(: 1)

a
i=1
.6=I
A
2
i
+
1
(: 1)
2
_

a
i=1
.6=I
A
i
_
2
_
_
.
Esta idea tiene sus races en la teora matemtica de sumabilidad Cesaro
de series divergentes que se remonta a nales de los siglos 19 y 20. Hay
casos en que la serie
_
:
a
=

a
I=1
c
I
_
o
a=1
diverge, pero su versin suavizada
_
t
a
=
1
a

a
I=1
:
I
_
o
a=1
converge (vase Knopp (1947)). Adems, cuando la
serie
_
:
a
=

a
I=1
c
I
_
o
a=1
converge entonces
_
t
a
=
1
a

a
I=1
:
I
_
o
a=1
tambin
converge al mismo lmite, es decir:
si lim
ao
:
a
= : = lim
ao
t
a
= :.
Concluimos esta seccin haciendo notar que la idea de plegamiento se
puede extender fcilmente a la reduccin de sesgo de orden superior.
8.6. ESTADSTICOS SUFICIENTES Y ESTIMADORES PTIMOS *449
8.6 Estadsticos sucientes y estimadores p-
timos *
La discusin de estimadores ptimos hasta el momento no ha arrojado ninguna
luz sobre las circunstancias bajo las cuales se pueden obtener mejores esti-
madores. Regresando a la analoga de un arquero parado al pie de una colina
con el blanco en el otro lado ms all de su visin, slo hemos discutido la
cuestin de la evaluacin de la cercana una vez que la echa ha sido clavada.
La cuestin de la elaboracin de una estrategia relativa a los factores dentro
de su control, tales como el ngulo de disparo y la potencia de tiro a n de
garantizar que la echa se clave tan cerca del blanco como sea posible, no
se ha discutido. La propiedad de los estimadores conocida como sucien-
cia aborda esta pregunta y en trminos de esta analoga se propone colocar
una especie de red a la echa diseada de una manera que garantice una
cobertura ptima.
8.6.1 Suciencia
La idea de suciencia se remonta a Fisher (1922b), pero el concepto se for-
maliz a principios de 1930. El concepto de suciencia plantea la posibilidad
de reducir la dimensionalidad de los datos observados sin ninguna prdida
de informacin. La informacin de la muestra original viene en forma de un
conjunto de datos x := (r
1
. r
2
. .... r
a
), considerado como una realizacin de
una muestra en particular X := (A
1
. A
2
. .... A
a
) especicada a priori por el
modelo estadstico o := (. X). Un estadstico /(X), una funcin denida
en el espacio muestral X (no necesariamente un estimador), es suciente si
resume toda la informacin relevante para el modelo estadstico postulado
o. A menudo se llama un estadstico suciente para o, porque el modelo
estadstico se determina una vez que o se determina. Intuitivamente, la su-
ciencia se reere a qu tan bien un estimador (una funcin de un estadstico)
utiliza la informacin de la muestra en relacin con el modelo estadstico
postulado . La utilidad del concepto de suciencia surge del hecho de que
el estadstico /(X) es a menudo de la dimensin mucho menor que la mues-
tra :-dimensional. Antes de embarcarse en las deniciones es importante
explicar la intuicin en que se basa la propiedad mediante un ejemplo.
Ejemplo 1. Bernoulli (continuacin)
En el caso del modelo de Bernoulli, sabemos que la muestra X := (A
1
. A
2
. .... A
a
)
450CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
se compone de variables aleatorias IID distribuidas Bernoulli con 1 (A
I
= 1) =
o y 1 (A
I
= 0) = (1 o). Una realizacin de la muestra incluir una sucesin
de ceros y unos, por ejemplo,
x := (0. 1. 0. 0. 1. .... 1) .
En vista del hecho de que la localizacin exacta de unos en esta real-
izacin es irrelevante debido a los supuestos IID, es intuitivamente evidente
que el conocimiento de la suma es equivalente a conocer la realizacin ex-
acta. En este caso parece que el estadstio /(X) =

a
I=1
A
I
contiene toda
la informacin relevante en relacin con el modelo estadstico de Bernoulli
. Es decir, el conocimento de la realizacin completa x es equivalente al
conocimiento nicamente de la suma /(x) =

a
I=1
r
I
. El resutlado nal es
que en vez de portar los : nmeros de la realizacin de la muestra portamos
slo uno, su suma; una reduccin signicativa en la dimensin. Por lo tanto,
intuitivamente parece que este estadstico es suciente para (o o).
Este ejemplo pone de maniesto la conveniencia de un estadstico su-
ciente, mostrando que el estadstico en si mismo contiene la misma informa-
cin sobre o que la muestra original, pero tiene una dimensin mucho menor.
El atractivo de un estadstico suciente surge del hecho de que si existe un
mejor estimador entonces es necesariamente una funcin del estadstico su-
ciente. Adems, la bsqueda de un estadstioa suciente se puede utilizar
como el primer paso para denir un estimador ptimo. Vamos a discutir
todos estos resultados iniciando con la denicin de suciencia.
Intuitivamente, la suciencia de un estadstico 1 = /(X) para un parmetro
o signica que cuando el valor de la estadstica se da, cualquier otra forma
de informacin es irrelevante para o. Esto sugiere que el conocimiento de la
realizacin de toda la muestra A, cuando el valor de 1 = /(X) es conocido,
no aade informacin relevante para o (o ). La formalizacin de esta idea
intuitiva da lugar a la siguiente denicin de la suciencia.
Suciencia. Se dice que un estadstico /(X) es un estadstico suciente
para o si y slo si la distribucin condicional de la muestra X dado /(X) =
no depende de o:
, (x[/(x) = ; o) = (x) , para todo x X, o . (12.25)
Esta denicin, aunque intuitiva, no provee al modelador de una forma
directa de encontrar estadsticos sucientes. El modelador tiene que conje-
turar /(X) y luego proceder a vericar (12.25), lo cual no parece trivial. El
8.6. ESTADSTICOS SUFICIENTES Y ESTIMADORES PTIMOS *451
siguiente teorema, debido a Halmos y Savage (1949), simplican la tarea del
modelador considerablemente.
Teorema de factorizacin. Un estadstico /(X) se dice que es un
estadstico suciente para o si y slo si existen funciones q (/(X) . o) y (X),
donde la primera depende de X slo a travs de /(X), mientras que la
segunda es libre de o, tal que la distribucin de los factores de la muestra en
el producto:
, (x. o) = q (/(x) . o) (x) , para todo x X, o . (12.26)
Encontrar un estadstico suciente usando este teorema implica la inspec-
cin de la distribucin de la muestra y algo de imaginacin para poder darse
cuenta de la factorizacin.
Ejemplo 2. Normal (continuacin)
Considere el modelo Normal (un parmetro) (o
2
se supone conocido):
, (x. j) =
a

I=1
1
o
_
2:
c

_
1
2
2
(i
I
)
2
_
=
_
1
2:o
2
_

n
2
exp
_

1
2o
2

a
I=1
(r
I
j)
2
_
=
_
1
2:o
2
_

n
2
exp
_

1
2o
2

a
I=1
(r
I
r +r j)
2
_
=
_
1
2:o
2
_

n
2
exp
_

1
2o
2

a
I=1
(r
I
r)
2
+:(r j)
2
_
.
Este resultado se puede utilizar para factorizar la distribucin de la mues-
tra en (12.26):
, (x. j) =
_
exp
_

:
2o
2
(r j)
2
__

_
_
1
2:o
2
_

n
2
exp
_

1
2o
2

a
I=1
(r
I
r)
2
_
_
.
donde el primer factor entre corchetes depende de j slo a travs del
estadstico A =
1
a

a
i=1
A
i
y el segundo es libre de j. En vistas del teorema
anterior, el estadstioa es suciente para j.
Es importante NOTAR que el teorema de factorizacin est directamente
relacionado con la condicin necesaria y suciente para eciencia plena de
un estimador

o de o en el sentido de que la condicin:


452CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
_

o o
_
= /(o)
_
d In , (r; o)
do
_
,
implica que la distribucin de la muestra tiene la forma (12.26). Esto
sugiere que existe un estimador eciente si y slo si existe un estadstico
suciente; lo contrario, sin embargo, no es necesariamente cierto.
Ejemplo 5. Normal de 5 (continuacin)
Considere el modelo Normal (de dos parmetros) (o
2
supuesto descono-
cido). Usando la igualdad:

a
I=1
(A
I
j)
2
=
_

a
I=1
A
2
I
_
2j
_

a
I=1
A
I
_
+:j
2
= /
2
(X) 2j[/
1
(X)] +:j
2
,
podemos proceder a factorizar la distribucin de la muestra en:
,
_
x; j. o
2
_
=
_
1
2:o
2
_

n
2
exp
_

1
2o
2

a
I=1
(r
I
j)
2
_
= q
_
/(x) ; j. o
2
_
(x)
=
_
_
1
2:o
2
_

n
2
exp
_

1
2o
2
_
/
2
(X) 2j[/
1
(X)] +:j
2
_
_
_
[1] .
Por lo tanto, los estadsticos /
1
(X) :=

a
I=1
A
I
, /
2
(X) :=

a
I=1
A
2
I
,
son sucientes para los parmetros desconocidos (j. o
2
). Utilizando estos
estadsticos podemos denir los estimadores:
j
a
=
_
1
:
_
/
1
(X) =
_
1
:
_

a
I=1
A
I
,
:
2
a
: =
_
1
: 1
_
_
/
2
(X) (/
1
(X))
2

=
_
1
: 1
_

a
I=1
(A
I
j
a
)
2
,
para los parmetros (j. o
2
), respectivamente. En la seccin anterior se
demostr que estos dos estimadores son, en efecto, ptimos.
Ejemplo 4. Uniforme (continuacin)
La distribucin de la muestra en este caso toma la forma:
8.6. ESTADSTICOS SUFICIENTES Y ESTIMADORES PTIMOS *453
, (x; o) =
a

I=1
_
1
o
_
=
_
1
o
a
_
, para 0 _ r
[1]
_ r
[a]
_ o,
donde A
[1]
= min (A
1
. A
2
. .... A
a
) y A
[a]
= max (A
1
. A
2
. .... A
a
) son los
dos extremos para los estadsticos. Usando la funcin heaviside (pesantez):
h(r) =
_
0, para r < 0,
1, para r _ 1,
_
podemos expresar , (x; o) como: , (x; o) =
_
1
0
n
_
h
_
o r
[a]
__

_
h
_
r
[1]
_
.
Esto sugiere que A
[a]
es un estadstic o suciente para o y en la bsqueda de
estimadores ptimos debemos considerar las funciones de A
[a]
. Recordamos
al lector que utilizamos el estimador

o
a
=
a
a+1
A
[a]
, en una de las ilustraciones
relacionadas con la cota mnima de Cramer-Rao.
8.6.2 Suciencia e insesgamiento
Volvamos a nuestro objetivo principal que es disear una estrategia para
la denicin de estimadores ptimos. Veremos en esta seccin que existe
una relacin directa entre estadsticos sucientes y estimadores insesgados.
Intuitivamente, la relacin entre suciencia y insesgamiento es que si el mod-
elador comienza con algn estimador insesgado arbitrario y a continuacin
dene otro estimador por condicionamiento de un estadstico suciente, el
estimador resultante a menudo tendr una varianza ms pequea que el es-
timador insesgado original.
Con el n de deducir esta relacin recordamos dos propiedades impor-
tantes de la esperanza condicional para cualesquiera dos variables aleatorias
A y 1 tales que \ c: (A) < , \ c: (1 ) < :
(a) 1 (1 (1 [A)) = 1 (1 ),
(b) \ c: (1 ) = 1 (\ c: (1 [A)) +\ c: (1 [A) = 1 (1 ); vase el captulo 7,
seccin 3.
Teorema de Rao-Blackwell (vase Blackwell (1947), Rao (1949)). Sea

o un estimador insesgado de o
_
1
_

o
_
= o
_
, y sea /(X) un estadstico su-
ciente para o. El estadstico denido por:

o = 1
_

o[/(X)
_
,
satisface las siguientes propiedades:
454CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
(i)

o es un estimador de o,
(ii) insesgado: 1
_

o
_
= o,
(iii) relativamente ms eciente que

o: \ c:
_

o
_
_ \ c:
_

o
_
.
La propiedad (ii) se deduce del hecho de que:
1
_

o
_
= 1
_
1
_

o[/(X)
__
= 1
_

o
_
= o,
y la propiedad (iii) a partir de:
\ c:
_

o
_
= \ c:
_
1
_

o[/(X)
__
+1
_
\ c:
_

o[/(X)
__
= \ c:
_

o
_
+1
_
\ c:
_

o[/(X)
__
_ \ c:
_

o
_
.
El lector perspicaz podra preguntarse si la suciencia se requiere para
los resultados que acabamos para tener, ya que no se us la suciencia en la
deduccin de (ii) - (iii). El hecho de importancia es que

o es un estimador
(que no depende de parmetros desconocidos) precisamente porque /(X) es
un estadstico suciente.
El teorema de Rao-Blackwell proporciona una forma de mejorar un es-
timador insesgado, ofreciendo un estimador relativamente ms eciente que
el original, pero no nos dice nada acerca de la eciencia plena del estimador
resultante. El modelador puede proceder a inspeccionar la cota mnima de
Cramer-Rao, pero si el estimador resultante no la alcanza, ella no es acertada.
8.6.3 Suciencia mnima
Los resultados anteriores sugieren que en la bsqueda de mejores estimadores
insesgados la mejor estrategia para el modelador es comprobar la presencia de
estadsticos sucientes y, a continuacin proceder a denir los estimadores
ptimos en trminos de estos estadsticos sucientes usando el teorema de
Rao-Blackwell o slo inspiracin. Sin embargo, la propia muestra X (y de
cualquier funcin uno a uno de ella) es un estadstico suciente (el estadstico
suciente trivial) y esta estrategia slo ser fructfera si se puede basar en
un estadstico suciente que economice sobre las dimensiones. Esto lleva al
concepto de estadstico suciente mnimo que alcanza la mxima reduccin
posible de datos sin prdida de informacin. Teniendo en cuenta el hecho de
8.6. ESTADSTICOS SUFICIENTES Y ESTIMADORES PTIMOS *455
que en la bsqueda de estimadores ptimos de o debemos considerar las fun-
ciones de un estadstico suciente /(X), por ejemplo q (/(X)), llamamos al
ltimo estadstico necesario. El estadstico necesario no contiene necesaria-
mente toda la informacin relevante en los datos. Pero cuando un estadstico
es a la vez necesario y suciente debe ser un estadstico suciente mnimo.
Estadstico suciente mnimo. Un estadstico suciente /(X) es mn-
imo si todo otro estadstico suciente q (X) es una funcin de l, es decir,
para cualquier estadstico suciente q (X):
q (X) = (/(X)) para alguna funcin (.) .
Es importante tener en cuenta que para cualquier modelo estadstico, tal
como se dene en este libro, siempre existe un estadstico suciente mnimo;
sin excluir a la propia muestra en dimensin.
Ni la denicin de estadstico suciente ni el teorema de factorizacin
proporciona una manera fcil de concebir estadsticos sucientes. El sigu-
iente resultado, sin embargo, proporciona una manera relativamente fcil
de obtener estadsticos sucientes mnimos. La idea se debe a Lehmann y
Sche (1950).
Teorema de Lehmann-Sche 1. Supongamos que existe un estads-
tico /(X) tal que para dos diferentes realizaciones de la muestra x y z (x X,
z X), la razn:
, (x; o)
, (z; o)
es libre de o si y slo si /(X) = /(Z) ,
entonces /(X) es un estadstico suciente mnimo para o.
Ejemplo 1. Bernoulli (continuacin)
En el caso del modelo Bernoulli, la razn:
, (x; o)
, (z; o)
=
o

a
I=1
r
I
(1 o)

a
I=1
(1 r
I
)
o

a
I=1
.
I
(1 o)

a
I=1
(1 .
I
)
=
_
o
1 o
_

a
I=1
(r
I
.
I
) ,
es libre de o si y slo si:

a
I=1
A
I
=

a
I=1
2
I
. Por lo tanto, el estadstico
_

a
I=1
A
I
_
no slo es suciente sino suciente mnimo.
Ejemplo 5. Normal (continuacin)
456CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
Considere el modelo Normal (de dos parmetros) (o
2
desconocido). La
razn:
, (x; j. o
2
)
, (z; j. o
2
)
=
_
1
2o
2
_

n
2
exp
_

1
2o
2

a
I=1
(r
I
j)
2
_
_
1
2o
2
_

n
2
exp
_

1
2o
2

a
I=1
(.
I
j)
2
_
= exp
_

1
2o
2
_

a
I=1
r
2
I

a
I=1
.
2
I
_
+
:
o
2
_

a
I=1
r
I

a
I=1
.
I
_
_
,
es libre de (j. o
2
) si y slo si:

a
I=1
A
2
I

a
I=1
2
2
I
.

a
I=1
A
I

a
I=1
2
I
.
Por lo tanto, los estadsticos
_

a
I=1
A
2
I
,

a
I=1
A
I
_
no slo son su-
cientes, sino sucientes mnimos.
8.6.4 Completitud
Volviendo a nuestro objetivo principal que es encontrar estimadores ptimos
utilizando estadsticos sucientes, observamos que el concepto de estadstico
suciente mnimo no puede garantizar la unicidad de este estimador porque
cualquier funcin uno a uno de un estadstico suciente mnimo es tambin
suciente y mnima. Para garantizar la unicidad de los estimadores pti-
mos necesitamos otra caracterstica de los estadsticos sucientes llamada
exhaustividad.
La exhaustividad es una propiedad de una familia de densidades e intuiti-
vamente signica que el nico estimador insesgado de cero es cero s mismo.
La familia de densidades = ,
A
(r; o) . o se dice que es completa si,
para cada funcin t (A), se cumple la siguiente relacin:
1 (t (A)) = 0 =t (A) = 0 (c.s.) para todo r r : ,
A
(r; o) 0 .
Esta idea puede ser trasplantados sin cambios para el caso de la distribu-
cin de la muestra , (r; o), mediante la sustitucin de A por la muestra X
en la relacin anterior. En el caso de un estadstico suciente, tenemos que
denir la completitud en trminos de la distribucin de este estadstico.
8.6. ESTADSTICOS SUFICIENTES Y ESTIMADORES PTIMOS *457
Completitud. Una estadstico suciente 1 = /(X) se dice que es com-
pleto si la familia de las densidades G := ,
Y
(; o) . o es completa.
NOTA: la utilidad de la propiedad de completitud se deriva del hecho
de que si /(X) es un estadstico suciente completo y

o = q (/(X)), un
estimador insesgado de o, es decir
1 (q (/(X))) = o,
entonces este estimador es nico.
La relacin entre un estadstico suciente completo y un estadstico su-
ciente mnimo es que un estadstico suciente completo es suciente mn-
imo (vase Lehmann y Sche (1950)). Esto nos lleva al nal de nuestra
bsqueda de mejores estimadores insesgados mediante la utilizacin de es-
tadsticos sucientes. El resultado principal es dado por el siguiente teorema
(vase Lehmann y Sche (1955)).
Teorema de Lehmann-Sche 2. Sea /(X) un estadstico suciente
completo para o (o mejor, de un modelo estadstico o). Si existe un estimador
insesgado

o de o, que es una funcin de /(X) (es decir,

o = q (/(X))),
entonces este estimador es el mejor y el nico.
Ejemplo 4. Uniforme (continuacin
En un intento de ilustrar algunos de los resultados anteriores, volvamos a
la problemtica del modelo Uniforme discutido anteriormente. En vista del
hecho de que:
1 (A) =
o
2
,
podra ser tentador usar la correspondencia entre los momentos de la
distribucin y de la muestra para obtener el estimador

o = 2
_
1
a

a
I=1
A
I
_
.
Este ciertamente no es un mal estimador porque es a la vez insesgado:
1
_

o
_
= 2
_
1
:

a
I=1
(A
I
)
_
=
_
2
:
__
:o
2
_
= o,
y consistente:
\ c:
_

o
_
=
_
o
2
3:
_
0 cuando : .
Sin embargo, no es la mejor estimator. Sabemos de la discusin anterior
que:
458CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
A
[a]
= max (A
1
. A
2
. .... A
a
) ,
es un estadstico suciente para o. Usando el teorema de Rao-Blackwell
procedemos a denir el estimador:

o = 1
_

o[A
[a]
_
= 1
_
2
_
1
:

a
I=1
(A
I
)
_
[A
[a]
_
=
:
: + 1
A
[a]
.
Resulta que la familia de las densidades consideradas es completa y, por
lo tanto, este estimador es el mejor estimador de insesgado de o; es tambin
nico.
La principal desventaja de la estrategia anteriormente mencionada se en-
cuentra en asegurar que un cierto estadstico suciente mnimo tambin es
completo. Para hacerse una idea de las dicultades considerar el caso relati-
vamente simple en el ejemplo siguiente.
Ejemplo 1. Bernoulli (continuacin)
En el caso del modelo de Bernoulli el estadstico o
a
:=

a
I=1
A
I
es
suciente mnimo, con una distribucin muestral (vase el lema 1) de la
forma:
, (:
a
; o) =
_
:
:
_
o
c
(1 o)
ac
, o [0. 1] .
Considere un estimador (X) tal que 1 ( (X)) = 0, para todo o [0. 1]:

a
c=0
(X)
_
:
:
_
o
c
(1 o)
ac
= 0, para todo o [0. 1].
Teniendo en cuenta el hecho de que la funcin q (o) =

a
c=0
(X)
_
:
:
_
o
c
(1 o)
ac
=
0 es un polinomio en
0
10
con races a lo ms :, es igual a cero si y slo si:
(X) = 0 para todo : = 1. 2. .... :. Esto sugiere que o
a
:=

a
I=1
A
I
tambin
es un estadstico suciente completo.
Combinando el teorema anterior con el de Rao-Blackwell, el modelador
puede formar la siguiente estrategia: en el caso de que un estadstico su-
ciente completo exista, ella debe comenzar con un estimador insesgado arbi-
trario y luego proceder a obtener la esperanza condicional dado el estadstico
suciente; ver Casela y Berger (1990).
8.7. QU VIENE A CONTINUACIN? 459
Volviendo a la analoga de un arquero parado al pie de una colina con el
objetivo en el otro lado ms all de su visin, la cuestin de la elaboracin de
una estrategia relativa a los factores dentro de su control, ahora pueden ser
contestada: conectar una red que llamamos un estadstico suciente completo
sobre la echa en un intento de especicar un estimador insesgado.
8.6.5 Exponencial de la familia de distribuciones
Hay una familia importante de densidades para la cual el problema de en-
contrar un estadstico suciente mnimo, que tambin es completo, es relati-
vamente fcil. Esta es la familia exponencial (no el modelo exponencial).
Familia exponencial de las densidades. Un modelo de probabilidad
= , (r; o) . o se dice que pertenece a la familia exponencial si la
funcin de densidad se puede expresar en la forma:
, (r; o) = c (o) /(r) exp
_

I
i=1
g
i
(o) t
i
(r)
_
,
(a) c (o) _ 0,
(b) /(r) _ 0,
(c) g
i
(o), i = 1. 2. .... /, funciones reales (sin r),
(d) t
i
(r), i = 1. 2. .... /, funciones reales (sin o).
Muchas distribuciones conocidas como la Normal, Gamma, Beta, Bino-
mial, Poisson y Binomial Negativa pertenecen a esta familia. Para esta fa-
milia, los estadsticos:
_

a
)=1
t
i
(r
)
) , i = 1. 2. .... /
_
,
son estadsticos sucientes mnimos para (g
i
(o), i = 1. 2. .... /), y en el
caso de que el nmero de parmetros desconocidos es o es /, estos estadsticos
son tambin completos.
8.7 Qu viene a continuacin?
El objetivo de este captulo ha sido formalizar el concepto de estimador
ptimo. Usando el concepto intuitivo de estimador ideal motivamos las
propiedades de muestra nita de insesgamiento y eciencia y las propiedades
asintticas de consistencia, normalidad asinttica y eciencia asinttica. Us-
ando el concepto de reduccin ptima de la informacin relevante en los datos
460CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
motivamos la propiedad de suciencia. En el siguiente captulo procedemos a
discutir los mtodos de estimacin que a menudo dan lugar a los estimadores
ptimos.
8.8 Ejercicios
1. Explique brevemente lo que hacemos cuando construimos un estimador.
Por qu un estimador es una variable aleatoria?
2. "Denir la distribucin muestral de un estimador es tercamente triv-
ial, pero deducirla es muy difcil". Discuta.
3. Para el modelo estadstico Bernoulli:
(i) Discutir si las siguientes funciones constituyen estimadores posibles de
o:
(a)

o
1
= A
a
. (b)

o
2
=
1
2
(A
2
A
1
) . (c)

o
3
=
1
3
(A
1
A
2
+A
a
) .
(d)

o
a
=
1
:

a
i=1
A
i
. (e)

o
a
+ 1 =
1
: + 1

a
i=1
A
i
.
(ii) Para aquellos que constituyen estimadores obtienen sus distribuciones
de muestreo.
4. Explique brevemente las propiedades de insesgamiento y eciencia de
los estimadores.
5. "En la evaluacin de la optimalidad de un estimador tenemos que
observar solamente los dos primeros momentos de su distribucin muestral."
Discuta.
6. Explique brevemente qu es un estimador consistente. Cul es la
manera ms fcil de probar la consistencia de los estimadores con segundos
momentos acotados?
7. Explique brevemente la diferencia entre consistencia dbil y fuerte de
los estimadores.
8. "La normalidad asinttica de un estimador es una extensin del Teo-
rema Central del Lmite para las funciones de la muestra ms all de la media
muestral." Discuta.
9. Explique la diferencia entre eciencia completa y eciencia asinttica.
10. Explicar el concepto de estimador ideal y explicar intuitivamente
cmo su denicin se relaciona con las propiedades de insesgamiento, ecien-
cia y consistencia.
8.8. EJERCICIOS 461
11. Explique la diferencia entre las cotas inferiores de Cramer-Rao y de
Bhattacharyya.
12. Explique el concepto de suciencia.
13. Explique el concepto de estadstico suciente mnimo y cmo se
relaciona con el mejor estimador insesgado.
14. Explique el teorema de Rao-Blackwell y cmo puede ser utilizado
para obtener los mejores estimadores insesgados.
15. Considere el modelo estadstico normal (dos parmetros).
(a) Derive (no conjeture!) las distribuciones muestrales de los estimadores
siguientes:
(i) j
1
= A
a
, (ii) j
2
=
1
3
(A
1
+A
2
+A
3
)
(iii) j
3
= (A
1
A
a
) , (i) j
a
=
1
:

a
i=1
A
i
,
(SUGERENCIA: indicar explcitamente las propiedades de 1 (.) o cualquier
lema que utilice).
(b) Compare estos estimadores en trminos de las propiedades ptimas,
insesgamiento, eciencia y consistencia.
c) Compare y contraste los estimadores o
2
a
=
1
a

a
i=1
(A
i
j
a
)
2
y :
2
a
=
1
a+1

a
i=1
(A
i
j
a
)
2
, en trminos de sus propiedades.
462CAPTULO8. ESTIMACINI: PROPIEDADES DELOS ESTIMADORES
Captulo 9
Estimacin II: mtodos de
estimacin
9.1 Introduccin
En el captulo anterior discutimos estimadores y sus propiedades. Las prin-
cipales propiedades deseables de muestra nita discutidas en el captulo 12
fueron:
Insesgamiento, Eciencia,
siendo la suciencia una propiedad relacionada con los modelos espec-
cos de probabilidad. Las propiedades asintticas deseables discutidas en el
captulo anterior fueron los siguientes:
Consistencia, Normalidad Asinttica, Eciencia Asinttica.
El concepto de estimador ideal se us como vara de comparacin con el
n de mejorar la comprensin intuitiva de estas propiedades. La cuestin
de cmo se pueden construir buenos estimadores se eludi en el captulo
anterior. El objetivo principal de este captulo es examinar esta cuestin con
cierto detalle discutiendo cuatro mtodos de estimacin:
1. El principio de momento de coincidencia,
2. El mtodo de mnimos cuadrados,
3. El mtodo de momentos y
4. El mtodo de mxima verosimilitud.
463
464 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
9.1.1 Una vista panormica del captulo
En la seccin 2 se discute una aproximacin a la estimacin que tiene un
atractivo intuitivo, pero carece de generalidad. Llamamos a este proced-
imiento el principio de momento de coincidencia porque estimamos los parmet-
ros desconocidos haciendo coincidir la distribucin y los momentos de la
muestra. La relacin entre la distribucin y los momentos de la muestra es
tambin de inters en el contexto de los otros mtodos. La seccin 3 presenta
el mtodo de mnimos cuadrados, en primer lugar como un mtodo de aprox-
imacin matemtica y despus como un mtodo de estimacin caracterstico
de la inferencia estadstica moderna. En la seccin 4 discutimos el mtodo
de momentos de Pearson y luego lo comparamos con el mtodo paramtrico
de momentos, una adaptacin del mtodo original para el paradigma actual
de la inferencia estadstica El mtodo de mxima verosimilitud se discute en
la seccin 5.
9.1.2 Mtodos de estimacin: una visin preliminar
La discusin que sigue se diferencia de la discusin de libros de texto tradi-
cionales en una serie de formas que resumimos desde el principio. Se argu-
menta que el principio de momentos coincidentes surgio durante el siglo 19
y 20 como parte de la confusin general entre frecuencias relativas y proba-
bilidades. La misma confusin impregna el mtodo de momentos en la forma
propuesta por Pearson en 1895, diseado para utilizar los datos con el n
de elegir una descripcin adecuada en la forma de una curva de frecuencias
de la familia Pearson. Ambos procedimientos se desarrollaron en el contexto
de lo que hoy llamamos estadstica descriptiva. El mtodo de Pearson, sin
embargo, se adapt ms tarde para satisfacer a la aproximacin moderna a
la inferencia estadstica. A n de distinguir entre el mtodo de Pearson y
el mtodo adaptado nos referimos a este ltimo como el mtodo paramtrico
de momentos. Una tesis particular adoptada en la discusin que sigue es
que todos los mtodos de estimacin se entienden mejor en el contexto del
marco de referencia estadstico (paradigmas) en el que se desarrollaron por
primera vez. En este sentido, el nico mtodo de estimacin especcamente
desarrollado para el enfoque moderno de la inferencia estadstica, que implica
postular un modelo estadstico a priori y la interpretacin de los datos como
una realizacin del mecanismo estocstico descrito por este modelo, es el de
mxima verosimilitud, propuesto por Fisher en la dcada de 1920; sus races
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 465
se remontan a Fisher (1912). Los otros tres mtodos se han desarrollado
en el contexto de paradigmas diferentes y es importante tenerlo en mente
cuando hablamos de estos mtodos. El mtodo de mnimos cuadrados, como
una tcnica de aproximacin matemtica (la aproximacin de una funcin
desconocida en un intervalo), se desarroll a principios de 1800 en el con-
texto de un paradigma estadstico conocido como la teora de errores. En la
seccin 3 proponemos una interpretacin alternativa de los mnimos cuadra-
dos como el equivalente muestral a la descomposicin ortogonal usada para
denir el concepto de mecanismo generador estadstico (MG) en el captulo
7.
El mtodo de mxima verosimilitud (MV) fue desarrollado especca-
mente para utilizar toda la informacin disponible en la fase de especicacin
de la modelacin: el modelo estadstico y los datos observados. Por eso, el
mtodo MV tiene ciertas ventajas evidentes sobre los otros mtodos. Por
ejemplo, el principio de momentos coincidentes y el mtodo de momentos
con frecuencia producen estimadores menos ecientes, ya que no utilizan
toda la informacin disponible en el modelo estadstico; ellos ignoran parte
de la informacin relativa al modelo de probabilidad. Esto puede explicarse
por el hecho de que el paradigma en el contexto del cual estos mtodos se han
desarrollado, no implica postular un modelo estadstico a priori. En su lugar,
la modelacin procedi de los datos al mejor modelo descriptivo en el forma
de una curva de frecuencias. Del mismo modo, mnimos cuadrados se desar-
roll originalmente como una tcnica de ajuste de curvas para las funciones
denidas sobre un dominio determinado. La estructura probabilstica se in-
trodujo posteriormente en la formulacin a travs del error de aproximacin
de una manera no esencial. En contraste, el mtodo de mxima verosimili-
tud ha sido diseado para un enfoque donde el modelador postula un modelo
estadstico a priori y los datos observados son vistos como una realizacin
del mecanismo aleatorio especicado por el modelo estadstico postulado.
9.2 Principio de momentos coincidentes
El principio de momento coincidentes no puede ser acreditado a ningn
estadistico famoso porque se puede decir que el caso, esencialmente, surgi
de una confusin fundamental entre los momentos de la distribucin y los
momentos de la muestra. En su artculo clsico, que sent las bases de
la inferencia estadstica moderna, Fisher atribuye el abandono de las bases
466 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
tericas de los mtodos estadsticos a dos razones:
(i) Una razn losca: ya que la estadstica es "un tema en el que todos
los resultados estn sujetos a errores mayores o menores, la denicin precisa
de las ideas o conceptos es, si no imposible, al menos no una necesidad
prctica" (Fisher (1922b), p. 311).
(ii) Una razn metodolgica: "ha ocurrido que en estadstica una con-
fusin puramente verbal ha dicultado la formulacin de los distintos prob-
lemas estadsticos; es costumbre aplicar el mismo nombre, media, desviacin
estndar, coeciente de correlacin, etc, tanto al verdadero valor que nos
gustara conocer, pero slo se puede estimar, como al valor particular al que
queremos llegar por nuestros mtodos de estimacin" (Fisher (1922b), p.
311).
Fisher seal una confusin entre tres conceptos distintos: el momento
de una distribucin de probabilidad, su estimador y la estimacin correspon-
diente basada en una realizacin de la muestra especca. Una confusin
provocada debido a la utilizacin del mismo trmino para los tres distintos
conceptos. Desafortunadamente para la estadstica esta eleccin de termi-
nologa inadecuada todava impregna el tema. El precio de esta inadecuada
y a menudo confusa terminologa es pagado por los estudiantes y profesores
de estadstica que tienen que perder mucho tiempo valioso tratando de dis-
tinguir entre distintos conceptos que llevan implcita la misma terminologa.
La tabla 13.1 presenta tres grupos muy diferentes de momentos que ll-
evan el mismo nombre. La primera columna presenta estos momentos en
el contexto de la estadstica descriptiva donde ellos representan formas de
resumir los datos observados utilizando medidas de localizacin, dispersin,
etc. Como tales, estos momentos se reeren a los momentos de lo que lla-
mamos las frecuencias relativas de los datos observados y que denotan slo
un resumen de nmeros. Estos nmeros deben compararse con los momentos
de la muestra en la tercera columna, donde las frmulas son idnticas aparte
del hecho de que usamos letras maysculas en lugar de minsculas para A. A
pesar de la apariencia los momentos de la muestra son cualitativamente muy
diferentes de los momentos de la estadstica descriptiva. Los momentos de la
muestra son funciones de una muestra (A
1
. A
2
. .... A
a
), cuya estructura prob-
abilstica se determina a priori por el modelo estadstico elegido. Como tal,
los momentos muestrales representan variables aleatorias en lugar de slo los
nmeros como en el caso de los momentos de estadstica descriptiva. Estos
ltimos, como seala Fisher, tambin dieren cualitativamente de los valores
particulares adoptados por los momentos muestrales basados en la realizacin
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 467
de la muestra en particular, a pesar de que a menudo utilizamos notacin
idntica; ellos representan un valor particular de una variable aleatoria no
slo un resumen de nmeros. Por ltimo, los momentos de una distribucin
de probabilidad se diferencian de todos esos otros momentos, en la medida en
que representan constantes desconocidas que se denen en trminos de fun-
ciones de densidad particulares. Optamos por denir estos momentos para
variables aleatorias continuas en trminos de integrales con el n de hacer
el contraste ms evidente. Para variables aleatorias discretas los momentos
crudos se denen a travs de:
j
t
v
:= 1 (A
v
) =

aR
^
r
v
, (r) . : = 1. 2. ...
Tabla 13.1 Momentos
Lo que distingue a estos momentos de todos los dems es la presencia de
una funcin de densidad particular en la denicin. Como se ha dicho en el
captulo 3, los momentos de la distribucin de probabilidad son a menudo la
mejor manera de tratar con los parmetros desconocidos . Esto se sigue del
hecho de que estos momentos dependen fundamentalmente de la naturaleza
de la funcin de densidad, que a su vez es una funcin de y, por lo tanto, los
momentos son funciones de . Esta relacin se ejemplica en los momentos
crudos siguientes:
j
t
v
:= 1 (A
v
) =
_
aR
^
r
v
, (r; ) dr = j
t
v
() . : = 1. 2. ...
La confusin entre los diversos usos del trmino momentos se ve agravada
por el hecho de que en la inferencia estadstica a menudo hablamos de los
468 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
momentos de los momentos de la muestra. En un intento por hacer frente
a esta dicultad, utilizamos la notacin (j
t
v
(.) , j
v
(.)) que nos permite ser
especcos respecto a qu momentos nos estamos reriendo cuando no es
evidente por el contexto. Por lo tanto, la notacin j
t
v
_
A
_
, : = 1. 2. ..., denota
los momentos crudos de la distribucin muestral de la media muestral.
Durante los siglos 18 y 19 la distincin entre probabilidades y frecuencias
relativas no exista; en la mente de los matemticos de la poca las dos
coinciden. En vista de esto, no debera ser una sorpresa para nadie saber
que la transicin de la estadstica descriptiva a la inferencia estadstica en
la primera parte del siglo 20, pas casi desapercibida, incluso por pioneros
como Karl Pearson (ver ms adelante). Por lo tanto, la prctica endmica
de confundir los momentos de la distribucin y los momentos muestrales
(estadstica descriptiva) durante este perodo de transicin, mucho ms tarde
se convirti en el principio de momento coincidentes:
la denicin de estimadores, haciendo coincidir los momentos de la dis-
tribucin con los momentos de la muestra.
El principio de momentos coincidentes se lleva a cabo en dos pasos:
Paso 1. Relacionar el parmetro desconocido o con los momentos de la
distribucin en trminos de los cuales se especica el modelo de probabilidad,
por ejemplo,
o = g(j
t
1
. j
t
2
) .
Paso 2. Sustituir los momentos muestrales en el lugar de los momentos
de la distribucin:
j
t
1
=
1
:

a
i=1
A
i
, j
t
2
=
1
:

a
i=1
A
2
i
.
es decir, construir un estimador de o, a travs de

o =g
_
j
t
1
. j
t
2
_
.
NOTA: vale la pena sealar en este procedimiento es al revs del utilizado
por el Mtodo de Momentos (vase ms adelante), donde tenemos la relacin
especicada en trminos de los momentos, por ejemplo j
t
1
= /
1
(o
1
. o
2
), j
t
2
=
/
2
(o
1
. o
2
), sustituir los momentos muestrales en lugar de (j
t
1
. j
t
2
) y resolver
para (o
1
. o
2
) para denir sus estimadores.
Ejemplo 1. Considere el modelo Bernoulli simple:
[i] MG estadstico: A
I
= o +
I
, / N,
[ii] Modelo de probabilidad: = , (r; o) = o
a
(1 o)
1a
. o [0. 1] . r =
0. 1,
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 469
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Teniendo en cuenta el hecho de que para el modelo Bernoulli el parmetro
desconocido o coincide con la media de A:
1 (A) = o,
el principio de momentos coincidentes sugiere que un estimador natural
de o es la media muestral :

o =
1
:

a
i=1
A
i
.
Ejemplo 2
Considere el modelo Normal simple:
[i] MG estadstico: A
I
= j +n
I
, / N,
[ii] Modelo de probabilidad:
=
_
, (r; ) =
1
o
_
2:
exp
_

1
2o
2
(r j)
2
_
. :=
_
j. o
2
_
R R
+
. r R
_
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Para el modelo Normal especicado anteriormente los parmetros de-
sconocidos :=(j. o
2
) estn relacionados con los momentos de distribucin
a travs de:
1 (A) = j, \ c: (A) = o
2
.
El principio de momentos coincidentes propone la media muestral y la
varianza muestral, respectivamente, como los estimadores evidentes de estos
parmetros, es decir,
j =
1
:

a
i=1
A
i
, o
2
=
1
:

a
i=1
(A
i
j)
2
.
Ejemplo 3
Considere el modelo de regresin lineal Normal:
[i] MG estadstico: 1
t
= ,
0
+,
1
r
t
+n
t
, t N,
[ii] Modelo de probabilidad:
=
_
, (
t
[r
t
; ) =
o
1
_
2:
exp
_

1
2o
2
(1
t
,
0
,
1
r
t
)
2
_
. :=
_
j. o
2
_
R
2
R
+
.
t
R
_
,
470 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
,
[iii] Modelo muestral: Y := (1
1
. 1
2
. .... 1
a
) es una muestra aleatoria ex-
trada secuencialmente de , (
t
[r
t
; ), t = 1. 2. .... 1.
En este caso los parmetros desconocidos estn relacionados con los mo-
mentos de las variables aleatorias y A a travs de:
,
0
= 1 (1
t
),
1
1 (A
t
) , ,
1
=
Co (1
t
. A
t
)
\ c: (A
t
)
, o
2
= \ c: (1
t
)
(Co (1
t
. A
t
))
2
\ c: (A
t
)
.
Mediante la sustitucin de los momentos muestrales en lugar de los mo-
mentos de la distribucin, obtenemos los siguientes estimadores del principio
de momentos coincidentes:

,
0
= 1 ,
1
r,

,
1
=
1
T

T
t=1
_
1
t
1
_
(r
t
r)
1
T

T
t=1
(r
t
r)
2
, o
2
=
1
1

T
t=1
_
1
t
1
_
2

_
1
T

T
t=1
_
1
t
1
_
(r
t
r)
_
2
1
T

T
t=1
(r
t
r)
2
En todos los casos anteriores los estimadores sugeridos por el principio de
momentos coincidentes disfrutan de varias propiedades ptimas. Por ejemplo,
como se muestra en el captulo anterior,

o es un estimador insesgado, eciente


y consistente de o y j es un estimador insesgado, eciente y consistente de
j. La pregunta que naturalmente surge es si los estimadores sugeridos por el
principio de momentos coincidentes disfrutan siempre de tales propiedades
ptimas. La respuesta es que dichos estimadores tienden con tener buenas
propiedades, pero a menudo no tan buenas como sugieren estos ejemplos.
Consideremos esta proposicin con algn detalle ms.
9.2.1 Momentos muestrales y sus propiedades
Como se ha dicho anteriormente, los momentos crudos y centrales de una
variable aleatoria univariada A:
j
t
v
(o) :=
_
aR
^
r
v
, (r; o) dr. : = 1. 2. ... j
v
(o) :=
_
aR
^
(r j)
v
, (r; o) dr. : = 2. 3. ...
corresponden a los momentos muestrales:
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 471
j
t
v
=
1
:

a
i=1
A
i
. : = 1. 2. 3. ... j
v
(o) =
1
:

a
i=1
(A
i
j)
v
. : = 2. 3. ....
Del mismo modo, en el captulo 4 denimos los momentos crudos y cen-
trales de la distribucin conjunta:
j
t
v,c
(o) : =
_
aR
^
_
jR
Y
r
v

c
, (r. ; o) drd. :. : = 1. 2. 3. ...
j
v,c
(o) : =
_
aR
^
_
jR
Y
(r j
a
)
v
_
j
j
_
c

c
, (r. ; o) drd. :. : = 1. 2. 3. ...
Los correspondientes momentos conjuntos crudos y centrales son:
j
t
v,c
=
1
:

a
i=1
A
v
i
1
c
i
. j
v,c
=
1
:

a
i=1
(A
i
j
a
)
v
_
1
i
j
j
_
c
, :. : = 1. 2. 3. ....
Para la aplicacin del principio de momentos coincidentes, en el cuadro
13.2 se resumen las primeras distribuciones y los momentos muestrales cor-
respondientes.
Tabla 13.2 Momentos
De inters en el contexto actual son las distribuciones muestrales de los
momentos muestrales anteriores y sus propiedades. En general, la distribu-
cin de cualquier momento muestral depende fundamentalmente de los mod-
elos de probabilidad y muestral postulados. Como vimos en el captulo an-
terior, en el caso de una muestra aleatoria de la distribucin Bernoulli, el
472 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
estimador

o =
1
a

a
i=1
A
i
(la media de la muestra) se distribuye Binomial y
resulta ser un estimador insesgado, plenamente eciente y consistente de o.
Adems, en el caso del modelo Normal simple, el estimador j =
1
a

a
i=1
A
i
tiene una distribucin Normal y resulta ser un estimador insesgado, plena-
mente eciente y consistente de j.
En la prctica los estimadores del principio de momentos coincidentes se
utilizan a menudo en los casos de modelos estadsticos simples incompletos
donde no se postula explcitamente a priori ningn modelo de probabilidad.
En tales casos, por supuesto, no podemos determinar la distribucin muestral
de un estimador (a menos que se recurra a la teora asinttica) y los resultados
disponibles a menudo se reeren a los primeros momentos de esta distribucin
desconocida. En el caso de un modelo estadstico simple incompleto (es decir,
independientemente de la naturaleza explcita de , pero asumiendo que los
momentos necesarios existen) podemos obtener los resultados en la tabla 13.3
para la momentos muestrales crudos.
Tabla 13.3 Momentos muestrales crudos
Estos resultados sugieren que, en el caso de una muestra aleatoria, in-
dependientemente de la distribucin subyacente (suponiendo que los mo-
mentos requeridos existen), los momentos muestrales crudos proporcionan
estimadores insesgados y consistentes para los momentos crudos de la
distribucin.
La consistencia se deduce del hecho de que la varianza de los momentos
muestrales crudos \ c: (j
t
v
) tiende a cero cuando : .
Un ejemplo particularmente importante de estos momentos es la media
muestral cuyos primeros momentos se muestran en la tabla 13.4.
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 473
Tabla 13.4 Media muestral j =
1
a

a
i=1
A
i
Las frmulas para los momentos centrales muestrales no son tan sim-
ples como las de los momentos muestrales crudos porque implican la variacin
de muestreo de la media muestral. La tabla 13.5 muestra la aproximacin
de los dos primeros momentos de los momentos centrales muestrales (vase
Stuart y Ord (1994)) donde la notacin o
_
:
I
_
y O
_
:
I
_
indican el orden de
aproximacin.
Tabla 13.5 Momentos centrales muestrales
La NOTACIN c
a
=o
_
:
I
_
, para algn / ,= 0, indica una sucesin
c
a

o
a=1
de orden menor que :
I
, es decir,
lim
ao
_
c
a
:
I
_
= 0,
y la notacin c
a
=O
_
:
I
_
indica una sucesin c
a

o
a=1
a lo ms de orden
:
I
, es decir,
lim
ao
_
[c
a
[
:
I
_
_ 1, donde 0 < 1 < ,
474 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
(ver Spanos (1986)). Ntese que para / 0: c
a
=O
_
:
I
_
=c
a
=o
_
:
I+1
_
.
Para tener una idea de lo que estas aproximaciones reeren, vamos a
considerar los momentos de la varianza de la muestra, que se muestran en la
tabla 13.6. La covarianza de o
2
y j sugiere que en el caso de que la muestra
aleatoria provenga de una distribucin simtrica (j
3
= 0), j y o
2
no estn
correlacionados, es decir Co
_
j. o
2
_
= 0.
Tabla 13.6 Varianza muestral
NOTE que j
v
, : = 2. 3. 4 indican los momentos de la distribucin del
modelo de probabilidad subyacente. En el caso de los momentos muestrales
centrales de orden superior, los resultados en la tabla 13.5 son slo resultados
aproximados en el sentido de que en el caso en que : sea par:
Co ( j. j
v
) =
1
:
_
j
v+1
:j
2
j
v
1
_
+ o
_
:
1
_
,
y por lo tanto para una distribucin simtrica j
v+1
. j
v1
sern cero, ya
que son momentos impares y por lo tanto no correlacionados para el orden
:
1
:
Co ( j. j
v
) = 0 + o
_
:
1
_
.
Los resultados de los momentos centrales muestrales indican que ya que:
(c) lim
ao
1 ( j
v
) = j
v
, (/) lim
ao
\ c: ( j
v
) = 0, para : = 2. 3. ... = j
v
1
j
v
,
es decir, j
v
es un estimador consistente de j
v
, para : = 2. 3. ...
En el caso de los momentos muestrales conjuntos crudos podemos demostrar
(vase la tabla 13.7) que los resultados son muy similares para los momentos
muestrales crudos ordinarios (vase Stuart y Ord (994)).
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 475
Tabla 13.7 Momentos muestrales conjuntos
El estadstico ms utilizado basado en el segundo momento muestral
conjunto es el coeciente de correlacin:
j =

a
i=1
(A
i
j
a
)
_
1
i
j
j
_
_
_

a
i=1
(A
i
j
a
)
2
_ _

a
i=1
_
1
i
j
j
_
2
_
.
Como podemos ver, la varianza del coeciente de correlacin muestral es
una funcin muy complicada de varios momentos conjuntos de la distribucin
subyacente al modelo de probabilidad postulado. En el caso de un modelo
Normal de dos variables, con varianzas unitarias (vase el captulo 6) esta
expresin se reduce a:
\ c: (j) =
1
:
_
1 j
2
_
2
+ o
_
:
1
_
.
Tabla 13.8 Coeciente de correlacin muestral
Resulta que los resultados anteriores para los momentos muestrales se
simplican notablemente en el caso del modelo Normal simple; en el cuadro
13.9 se resumen estas simplicaciones (vase Stuart y Ord (1994)).
476 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
Tabla 13.9. Varianzas de estadsticos frecuentes
Los resultados en relacin a los primeros momentos de los momentos
muestrales muestran ms claramente la dicultad de deducir y operacionalizar
tales resultados. Obtener resultados an aproximados para los momentos
muestrales superiores al cuarto resulta ser muy enmaraado y complicado.
Fisher (1929), sin embargo, nos demostr que esto no es la mejor manera
de proceder. En su lugar, demostr que los llamados estadsticos / rela-
cionados con los cumulantes son mucho ms fciles de manejar porque sus
cumulantes muestrales se pueden obtener utilizando mtodos combinatorios
(ver McCullagh (1987)).
Hasta ahora hemos encontrado que en el caso de una muestra aleatoria,
los estimadores sugeridos por el principio de los momentos coincidentes, son
en general consistentes y a veces insesgados; el principal ejemplo de xito de
este procedimiento es el caso de los momentos crudos.
Qu pasa con la eciencia y normalidad asinttica?
Los estimadores sugeridos por el principio de los momentos coincidentes
suelen ser inecientes porque los estimadores ignoran informacin importante
relacionada con el modelo de probabilidad: la naturaleza de la distribucin
subyacente. Ellos son, sin embargo, asintticamente normales. Este resul-
tado se sigue del hecho de que una forma estandarizada de los momentos
muestrales crudos es normal con media cero y varianza
_
j
t
2v
(j
t
v
)
2

es de-
cir:
_
:
_
j
t
v
j
t
v

~
o
`
_
0.
_
j
t
2v
(j
t
v
)
2
__
,
donde, ~
o
se lee "asintticamente distribuido como". Del mismo modo:
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 477
_
:[ j
v
j
v
] ~
o
` (0. \
o
(j
v
)) , donde \
o
(j
v
) =
_
j
2v
2:j
v1
j
v+1
j
2
v
+:
2
j
2
j
2
v1
_
.
9.2.2 Funciones de los momentos de la muestra
Como argumentamos anteriormente, la estimacin de un parmetro o uti-
lizando el principio de momentos coincidentes implica relacionarlo con cier-
tos momentos de la distribucin y sustituirlo en esta ltima con los corre-
spondientes momentos muestrales. Por lo tanto, a menudo los resultados
anteriores no se puede utilizar directamente a menos que o coincida con un
cierto momento de la distribucin. En este sentido, es de inters consid-
erar la distribucin muestral de la funcin, digamos g(.), de los momentos
muestrales.
La forma ms fcil de hacer frente a este problema es obtener resultados
aproximados sobre la base de expansiones en series de Taylor de la funcin
del momento muestral (ver Sering (1980)):
g
_
j
t
v
_
= g(j
t
v
) +
Jg(j
t
v
)
Jj
t
v
_
j
t
v
j
t
v
_
+
1
2
J
2
g(j
t
v
)
J (j
t
v
)
2
_
j
t
v
j
t
v
_
2
+
Tomando en cuenta que 1
_
j
t
v
j
t
v
_
= 0, esta expansin se puede uti-
lizar para deducir resultados aproximados de los primeros momentos de esta
funcin (vase Sargan (1974)):
1
_
g
_
j
t
v
__
g(j
t
v
) +
1
2
J
2
g(j
t
v
)
J
2
j
t
v
1
_
j
t
v
j
t
v
_
2
,
\ c:
_
g
_
j
t
v
__

_
J
2
g(j
t
v
)
J (j
t
v
)
2
_
2
1
_
j
t
v
j
t
v
_
2
,
dnde indica aproximacin asinttica. Utilizando estos resultados
podemos deducir que en el caso de una funcin diferenciable g(.) de los
momentos muestrales cuya derivada en j
t
v
(el verdadero valor) no es cero, es
decir,
0g(j
0
r
)
0j
0
r
,= 0:
_
:
_
g
_
j
t
v
_
g(j
t
v
)
_
~
o
`
_
0.
_
Jg(j
t
v
)
Jj
t
v
_
2 _
j
t
2v
(j
t
v
)
2
_
_
.
478 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
Las derivaciones son un poco ms complicadas cuando la funcin g(.) in-
volucra ms de un momento muestral. Considere el caso donde g
_
j
t
1
. j
t
2
. .... j
t
n
_
,
: < ::
g
_
j
t
1
. j
t
2
. .... j
t
n
_
= g(j
t
1
. j
t
2
. .... j
t
n
) +

n
I=1
Jg(j
t
)
Jj
t
I
_
j
t
I
j
t
I
_
O
_
:
1
_
,
donde =
_
j
t
1
. j
t
2
. .... j
t
n
_
. De esto podemos deducir que:
1
_
g
_
j
t
1
. j
t
2
. .... j
t
n
__
g(j
t
1
. j
t
2
. .... j
t
n
)
\ c:
_
g
_
j
t
1
. j
t
2
. .... j
t
n
__
1
_

n
I=1
Jg(j
t
)
Jj
t
I
_
j
t
I
j
t
I
_
_
2
=

n
I=1
_
Jg(j
t
)
Jj
t
I
_
2
\ c:
_
j
t
I
_
+

n
I=1

n
|=1
I,=|
_
Jg(j
t
)
Jj
t
I
__
Jg(j
t
)
Jj
t
|
_
Co
_
j
t
I
j
t
|
_
j
t
n
.
Recordamos al lector una vez ms que estos resultados se basan en el
supuesto restrictivo de muestra aleatoria.
9.3 El mtodo de mnimos cuadrados
9.3.1 El principio de mnimos cuadrados
El principio de mnimos cuadrados fue originalmente propuesto como un
procedimiento de aproximacin matemtica por Legendre en 1805; ver Harter
(1974-76). El principio proporciona una forma para aproximar:
una funcin desconocida =g(r), mediante una funcin casi conocida
/(r) =

I
i=0
c
i
c
i
(r), donde c
0
(r) . c
1
(r) . c
2
(r) . .... c
I
(r) son funciones
conocidas de r apropiadamente elegidas:
(por ejemplo, c
0
(r) = 1. c
1
(r) = r. c
2
(r) = r
2
. .... c
I
(r) = r
I
),
de una manera que asegura que g(r) y /(r) coinciden tanto como sea
posible en un cierto dominio D; a menudo un conjunto de 1 puntos discretos
(1 /). El concepto de aproximacin ptima, en el sentido de mnimos
cuadrados se dene en trminos de minimizar la suma de errores al cuadrado,
donde el error se dene por:
9.3. EL MTODO DE MNIMOS CUADRADOS 479
c
t
=
t

I
i=0
c
i
c
i
(r
t
) ,
en el dominio 1 = (
t
. r
t
) , t = 1. 2. .... 1. Es decir, los parmetros
c
0
. c
1
. c
2
. .... c
I
se eligen para minimizar la funcin objetivo:
| (c
0
. c
1
. c
2
. .... c
I
) =

T
t=1
_

I
i=0
c
i
c
i
(r
t
)
_
2
.
NOTA:
(i) Para el mtodo de mnimos cuadrados la linealidad que importa es la
linealidad en los parmetros c
0
. c
1
. c
2
. .... c
I
, no la linealidad en r como en el
caso del modelo de regresin lineal/Normal (ver Spanos (1986, disponible)),
(ii) no hay supuestos probabilsticos que estn involucrados en el problema
anterior.
Ejemplo
En el caso simple donde / = 1 y c
0
(r) = 1. c
1
(r) = r, la funcin objetivo
toma la forma:
| (c
0
. c
1
) =

T
t=1
(
t
c
0
c
1
r
t
)
2
.
Considerando que la funcin es innitamente diferenciable podemos en-
contrar el mnimo usando clculo. Las condiciones de primer orden darn
lugar a las llamadas ecuaciones normales:
J|
Jc
0
= (2)

T
t=1
(
t
c
0
c
1
r
t
) = 0,
J|
Jc
1
= (2)

T
t=1
(
t
c
0
c
1
r
t
) r
t
= 0,
cuya solucin da como resultado:
c
0
= c
1
r, c
1
=

T
t=1
(
t
) (r
t
r)

T
t=1
(r
t
r)
2
, para

T
t=1
(r
t
r)
2
,= 0.
donde =
1
T

a
t=1

t
y r =
1
T

a
t=1
r
t
. Esto se puede ver geomtrica-
mente como el ajuste de una lnea a un grco de dispersin de (
t
. r
t
) , t = 1. 2. .... 1,
como se muestra en la gura 13.1.
480 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
Figura 13.1. Lnea ajustada de mnimos cuadrados
NOTA. En Spanos (1999) pg. 648 se escriben las soluciones
como: c
0
y c
1
; creo que deberan escribirse: c
0
y c
1
.
La principal justicacin de Legendre para el mtodo de mnimos cuadra-
dos fue que en el caso donde la funcin de aproximacin es una constante, es
decir, /(r) = c
0
, el valor de c
0
que minimiza la funcin:
| (c
0
) =

T
t=1
(
t
c
0
)
2
,
coincide con la media aritmtica:
c
0
=
1
1

T
t=1

t
.
Esto se deduce de la condicin de primer orden:
d|
dc
0
= (2)

T
t=1
(
t
c
0
) = 0.
En ese momento, la media aritmtica se consider la mejor manera de
resumir la informacin contenida en los 1 puntos de datos
1
.
2
. ....
T
.
NOTA. En Spanos (1999) pg. 649 se escribe la solucin como:
c
0
; creo que debera escribirse como c
0
.
La primera interpretacin probabilstica de mnimos cuadrados fue prop-
uesta por Gauss en 1809. Sostuvo que para una sucesin de 1 variables
aleatorias independientes
1
.
2
. ....
t
, cuyas funciones de densidad , (
t
) sat-
isfacen ciertas condiciones de regularidad, si la media aritmtica es la com-
binacin ms probable de todos los valores de las variables aleatorias y cada
9.3. EL MTODO DE MNIMOS CUADRADOS 481
1 _ 1, entonces para algn o
2
0 (vase Heyde y Seneta (1977)) su funcin
de densidad es Normal:
, (
t
) =
_
2:o
2

1
2
exp
_

1
2o
2

2
t
_
.
Utilizando este argumento, Gauss iba refundar el argumento de aproxi-
macin por mnimos cuadrados en la forma probabilstica siguiente:

t
=

I
i=0
c
i
c
i
(r
t
) +c
t
, c
t
~`111
_
0. o
2
_
, t = 1. 2. .... 1.
y c
0
(r) . c
1
(r) . .... c
I
(r) son funciones conocidas de r; NIID signica
Normal, Independientes e Idnticamente Distribuidas.
Un argumento ms convincente para el uso de la distribucin Normal de
los errores fue proporcionada por Laplace en 1812 en la forma de la ley de
los errores; conocida como el Teorema Central del Lmite (vase el captulo
9). La idea era que en los casos en que los errores representan la suma
de varios factores que inuyen, que individualmente no dominan la suma, la
distribucin de la suma se aproxima a la normal, cuando el nmero de factores
que inuyen aumenta a innito. Laplace tambin seal que la mnimizacin
de:

T
t=1
(
t
/(r
t
))
2
,
es equivalente de la maximizacin del logaritmo de la distribucin con-
junta de los errores:
In , (c
1
. c
2
. .... c
T
) =
1
2
In
_
2:o
2
_

1
2o
2

T
t=1
(
t
/(r
t
))
2
.
Esta idea puede ser vista como un precursor del mtodo conocido hoy
como el mtodo de mxima verosimilitud (ver ms adelante).
En trminos de propiedades de muestra nita de los estimadores de
mnimos cuadrados, el resultado el resultado ms clebre es el teorema de
Gauss-Markov discutido enseguida.
9.3.2 Teorema de Gauss-Markov.
Sea la relacin estadstica entre
t
y las r
it
:
482 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN

t
=

I
i=0
c
i
c
i
(r
t
) +c
t
, t = 1. 2. .... 1,
donde c
0
(r) . c
1
(r) . .... c
I
(r) son funciones conocidas de r. Bajo los
supuestos:
(i) 1 (c
t
) = 0, t = 1. 2. .... 1,
(ii) Co (c
t
. c
c
) =
_
o
2
, t ,= :
0, t = :
t. : = 1. 2. .... 1.
_
,
c
0
(r) . c
1
(r) . .... c
I
(r) son funciones linealmente independientes (en el
sentido matemtico) de r,
podemos deducir que los estimadores de mnimos cuadrados:
c
i
=

T
t=1

t
(i)
t
, i = 0. 1. 2. .... /, (13.1)
(donde
t
(i) son funciones de c
0
(r) . c
1
(r) . .... c
I
(r)) son:
a) mejores (relativamente eciente): \ c: (c
i
) _ \ c:
_
`
c
i
_
, para cualquier
otro estimador lineal
`
c
i
que sea tambin insesgado,
(b) funciones lineales de (
1
.
2
. ....
t
),
(c) estimadores insesgados de c
i
: 1 (c
i
) = c
i
, i = 0. 1. 2. .... /.
Es decir, los estimadores de mnimos cuadrados (13.1) son los mejores,
dentro de la clase de los estimadores lineales (en trminos de
t
) e insesgados
(MELI).
NOTAS:
(a) No hay ninguna hiptesis de distribucin involucrada en las especi-
caciones anteriores y por lo tanto no podemos considerar la cuestin de la
eciencia completa.
(b) El teorema de Gauss-Markov depende fundamentalmente de la lineali-
dad del MG estadstico en trminos de los parmetros desconocidos (c
0
. c
1
. c
2
. .... c
I
).
Por otra parte, la linealidad de la regresin lineal/Normal, discutida en el
captulo 7, es con respecto a las variables condicionantes.
(c) El teorema de Gauss-Markov es til en los casos en los que slo quer-
emos tener en cuenta los estimadores que son lineales en
t
. Si permitimos
que los estimadores no sean lineales en
t
podemos hacer mucho ms que
estimadores de mnimos cuadrados (ver Judge et al. (1988)).
Propiedades asintticas
Se puede mostrar que c
1
es consistente y asintticamente normal bajo
ciertas restricciones sobre el comportamiento de

T
t=1
r
2
t
cuando 1 .
9.3. EL MTODO DE MNIMOS CUADRADOS 483
En particular:
(i)

T
t=1
r
2
t
cuando 1 implica c
1
1
c
1
.
(ii) lim
To
_

T
t=1
r
2
t
_
=
a
implica
_
1 (c
1
c
1
) ~
o
` (0. o
2
[1,
a
]).
Antes de proceder a una interpretacin ms estadstica del mtodo de
los mnimos cuadrados, es importante destacar que a pesar de la introduc-
cin de terminologas probabilsticas, tales como distribuciones y medias, el
mtodo, como se describi anteriormente, es esencialmente uno de aprox-
imacin matemtica. Adems, su interpretacin probabilstica no es tan
robusta ante cambios en el supuesto de distribucin de Normalidad como a
menudo se supone (vase Pearson (1920)).
9.3.3 El mtodo estadstico de mnimos cuadrados
El propsito de esta seccin es el de reinterpretar el mtodo de mnimos
cuadrados como mtodo de estimacin general en el contexto de la especi-
cacin del modelo estadstico dado en el captulo 7. En particular, relacionar
el mtodo de mnimos cuadrados con la especicacin del Mecanismo Gen-
erador Estadstico (MG).
Como se ha dicho en el captulo 7, el MG estadstico para los modelos
estadsticos en este libro se basan en el siguiente esquema de descomposicin:

t
= 1 (
t
[1
t
) +n
t
, t T (13.2)
donde
t
es una variable aleatoria tal que \ c: (
t
) < . El objetivo prin-
cipal para el modelador es elegir 1
t
a n de asegurar que no hay informacin
sistemtica en los datos que se deje en el componente no sistemtico (error)
n
t
. La idea es elegir 1
t
con el n de minimizar el componente no sistemtico
n
t
, que se dene como la parte no modelada de
t
:
n
t
=
t
1 (
t
[1
t
) , t T,
o de forma equivalente elegir 1
t
con el n de maximizar el componente
sistemtico:
n
t
= 1 (
t
[1
t
) , t T.
484 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
Por construccin el error no es sistemtico en relacin con el conjunto de
informacin 1
t
, es decir,
_
(i) 1 (n
t
[1
t
) = 0
(ii) 1 (j
t
n
t
[1
t
) = 0
_
. 1 T. (13.3)
(vase el captulo 7). Sobre la base de los supuestos probabilsticos, el
componente sistemtico tendr una forma paramtrica, por ejemplo:
1 (
t
[1
t
) = q (r
t
; o) , t T. (13.4)
El mtodo de mnimos cuadrados se asegura de que las propiedades (13.3)
se cumplan por los componentes estimados sistemtico y no sistemtico. Esto
se consigue eligiendo el valor del parmetro desconocida o, por ejemplo

o
AC
,
que minimiza la suma de los cuadrados de los errores n
t
, t = 1. 2. ... 1.
Es decir, mnimos cuadrados sugiere minimizar la funcin absoluta (loss
function):
| (o) =

T
t=1
(
t
g(r
t
; o))
2
,
con respecto a o. Para el valor

o
AC
la funcin absoluta tiene su mnimo
en el punto:
|
_

o
_
=

T
t=1
_

t
g
_
r
t
;

o
AC
__
2
,
y los componentes estimados sistemtico y no sistemtico son:
j
t
= g
_
r
t
;

o
AC
_
y n
t
=
t
g
_
r
t
;

o
AC
_
.
La optimalidad de los estimadores de mnimos cuadrados se deriva del he-
cho de que las condiciones (13.3) son vlidas para los componentes estimados
en el sentido de que:
1
1

T
t=1
n
t
= 0 y
1
1

T
t=1
_
g
_
r
t
;

o
AC
__
n
t
= 0.
Ejemplo 1. Bernoulli (continuacin)
El MG estadstico del modelo Bernoulli toma la forma:
A
i
= 1 (A
i
[1
i
) +n
i
, i N = 1. 2. 3. ... ,
9.3. EL MTODO DE MNIMOS CUADRADOS 485
donde 1
i
= o. o (el conjunto no informativo) y, por lo tanto, 1 (A
i
[1
i
) =
1 (A
i
) = 0. El mtodo de mnimos cuadrados para la estimacin de o sobre
la base de la muestra (A
1
. A
2
. ... A
a
) equivale a minimizar:
| (o) =

a
I=1
(A
I
o)
2
.
Del clculo elemental sabemos que la forma ms fcil de localizar el mn-
imo de una funcin diferenciable es resolver la condicin de primer orden:
d|
do
= (2)

a
I=1
(A
I
o) = 0 para o, que da como resultado:

o
AC
=

a
I=1
A
I
.
Sabemos que |
_

o
AC
_
=

a
I=1
_
A
I

o
AC
_
2
es un mnimo de | (o)
puesto que:
_
o
2
|
o0
2
_
[
0=

0
LC
= 2: 0.

o
AC
y n
I
=
_
A
I

o
AC
_
cumple
con las propiedades:
1
1

a
I=1
n
I
= 0 y
1
1

T
t=1

o
AC
n
t
= 0,
puesto que:

a
I=1
_
A
I

o
AC
_
=

a
I=1
A
I
:

o
AC
=

a
I=1
A
I

a
I=1
A
I
= 0

a
I=1
_

o
AC
_
A
I

o
AC
__
=

o
AC

a
I=1
_
A
I

o
AC
_
= 0.
NTESE que el estimador de mnimos cuadrados de o coincide con el es-
timador propuesto por el principio de los momentos coincidentes y comparte
las mismas propiedades ptimas: insesgado, plenamente eciente consistente
y asintticamente normal.
Ejemplo 2. Normal (continuacin)
El MG estadstico del modelo Normal tiene la misma forma:
A
t
= j +n
t
, t N,
y por lo tanto el mtodo de mnimos cuadrados para estimar j sobre la
base de la muestra (A
1
. A
2
. ... A
a
) equivale a minimizar:
| (j) =

a
I=1
(A
I
j)
2
.
486 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
Resolviendo la condicin de primer orden
o|
oj
= (2)

a
I=1
(A
I
j) = 0
para j da como resultado:
j
AC
=

T
t=1
A
t
.
Como en el caso Bernoulli j
AC
y n
t
= (A
I
j
AC
) satisfacen los equiv-
alentes muestrales de las condiciones (13.3). Una vez ms, el estimador de
mnimos cuadrados de j coincide con el estimador sugerido por el principio
de los momento coincidentes y goza de las mismas propiedades ptimas como
insesgamiento, eciencia completa, consistencia y Normalidad asinttica (ver
captulo 12). El mtodo de mnimos cuadrados no sugiere un estimador de o
2
,
pero la intuicin sugiere que podemos usar el mnimo de la funcin objetivo
| (o) para denir el siguiente estimador de o
2
:
o
2
=
1
1

T
t=1
(A
t
j
AC
)
2
.
Este es tambin el estimador propuesto por el principio de los momen-
tos coincidentes. Como se muestra en el captulo anterior, la distribucin
muestral de o
2
toma la forma:
_
1 o
2
o
2
_
=

T
t=1
_
A
t
j
o
_
2
~
2
(: 1) .
y por lo tanto o
2
es un estimador sesgado de o
2
puesto que 1
_
o
2
_
=
(T1)
T
o
2
,= o
2
. Debido a este sesgo, el estimador de alternativo:
:
2
=
1
1 1

T
t=1
(A
t
j
AC
)
2
~
2
(: 1) ,
se utiliza a menudo en la prctica (ver la discusin en el captulo 12).
9.3.4 Propiedades de estimadores de mnimos cuadra-
dos
En la anterior interpretacin estadstica de mnimos cuadrados, est claro que
las propiedades de muestra nita de los estimadores de mnimos cuadrados
dependen fundamentalmente de los supuestos probabilsticos sobre la variable
aleatoria
t
y el conjunto de informacin condicionante 1
t
. En vista de ello,
los nicos resultados generales de optimalidad para los estimadores mnimos
9.4. EL MTODO DE MOMENTOS 487
cuadrados son asintticos. Bajo ciertas condiciones de regularidad y en vista
del hecho de que los componentes estimados sistemtico y no sistemtico:
j
t
= g
_
r
t
;

o
AC
_
y n
t
=
t
g
_
r
t
;

o
AC
_
,
respectivamente, satisfacen las condiciones de ortogonalidad:
1
1

T
t=1
n
t
= 0 y
1
1

T
t=1
_
g
_
r
t
;

o
AC
_
n
t
_
= 0,
podemos demostrar que el estimador de mnimos cuadrados

o
AC
de o, es a
la vez consistente y asintticamente Normal. Las condiciones de regularidad
se reeren a la funcin g(r
t
; o), garantizando la existencia y unicidad del
estimador de mnimos cuadrados

o
AC
como una solucin a la minimizacin
de la funcin absoluta:
| (o) =

a
I=1
(
I
g(r
t
; o))
2
.
En particular, en el caso de una muestra independiente:

o
AC
1
o,
y:
_
1
_

o
AC
o
_
~
o
` (0. \
o
(o)) ,
pero

o
AC
no es necesariamente asitticamente eciente.
9.4 El mtodo de momentos
El mtodo de momentos fue propuesto originalmente en 1895 por Karl Pear-
son en el contexto de lo que hoy llamamos (sosticado) estadstica descriptiva.
El mtodo original fue propuesto como un mtodo de especicacin y de es-
timacin, pero ms tarde (en la dcada de 1920) fue adaptado simplemente
como un mtodo de estimacin en el contexto de la inferencia estadstica mod-
erna. Para entender las limitaciones del mtodo en este ltimo contexto, es
aconsejable considerar el mtodo en el contexto originalmente concebido. El
enfoque actual a la inferencia estadstica sustituye la estadstica descriptiva
slo de forma gradual y en cierta medida, este cambio pas desapercibido.
488 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
El cambio de paradigmas de la estadstica descriptiva a la inferencia estads-
tica propiamente estaba en marcha en la dcada de 1910 pero no se termin
hasta mediados de 1930. La confusin entre los momentos de la distribu-
cin y muestrales en la literatura estadstica del primer trimestre del siglo
20 da testimonio del hecho de que el cambio de paradigmas no era ni obvio
ni claro para muchos participantes. Karl Pearson muri en 1936 sin darse
cuenta de que su mtodo era inferior al mtodo de mxima verosimilitud,
principalmente porque fue desarrollado para un enfoque muy diferente a la
estadstica; un enfoque para el cual el mtodo de mxima verosimilitud fue
intil.
9.4.1 Mtodo de momentos de Pearson
La estadstica descriptiva, como una aproximacin al modelado de datos,
procede a partir de los datos y utilizando tcnicas como el histograma busca
un resumen parsimonioso de los datos en trminos de una curva de frecuen-
cia: un modelo descriptivo.Cuando Pearson propuso su mtodo de momentos
la idea era que el modelador utilizara los momentos crudos de los datos para
elegir la curva de frecuencia ms apropiada de una familia especca, la fa-
milia Pearson. Esto es muy diferente del enfoque clsico de la estadstica
donde un modelo estadstico (un mecanismo aleatorio) se postula a priori
y los datos observados se interpretan como una realizacin del mecanismo
aleatorio postulado.
El enfoque de Pearson a la estadstica se puede resumir como se muestra
en la gura 13.2.
Figura 13. 2. El mtodo de momentos de Person
La familia Pearson de curvas de frecuencia se puede expresar en
trminos de la siguiente ecuacin diferencial en cuatro parmetros descono-
cidos:
d, (r)
dr
= , (r)
_
(r c)
/
0
+/
1
r +/
2
r
2
_
.
9.4. EL MTODO DE MOMENTOS 489
Dependiendo de los valores tomados por los parmetros (c. /
0
. /
1
. /
2
), esta
ecuacin puede generar numerosas curvas de frecuencia, como la Normal, la
t de Student, la Beta, la Gamma, la Laplace y la Pareto; en el contexto de la
probabilidad moderna ellas se conocen como funciones de densidad. Pearson
invento esta familia de curvas de frecuencia al observar que la funcin de
densidad normal c(r) satisface la siguiente ecuacin diferencial:
dc(r)
dr
= c(r)
_
(r c)
/
0
_
, donde j = c y o
2
= /
0
.
Usando las correspondientes ecuaciones en diferencia asociadas con las
distribuciones Binomial e hipergeomtrica, pas a extender esto a la ecuacin
diferencial (13.5).
En el contexto de la teora de la probabilidad, hemos visto que podemos
relacionar los parmetros desconocidos, por ejemplo (o
1
. o
2
. o
3
. o
4
), con los
momentos de una funcin de densidad dada , (r; o
1
. o
2
. o
3
. o
4
) (vase el cap-
tulo 3) a travs de:
j
t
v
(o
1
. o
2
. o
3
. o
4
) =
_
aR
^
r
v
, (r; o
1
. o
2
. o
3
. o
4
) dr, para : = 1. 2. ...
Al interpretar las curvas de frecuencia como funciones de densidad, se
puede adaptar la relacin anterior en conjuncin con la ecuacin diferencial
(13.5) para relacionar la familia Pearson con los momentos crudos mediante
la integracin de ambos lados:
_
aR
^
r
v
_
/
0
+/
1
r +/
2
r
2
_
d, =
_
aR
^
r
v
, (r c) , (r) dr, para : = 1. 2. ...
Reuniendo los trminos de la misma potencia en r, obtenemos la siguiente
relacin recursiva entre los momentos y los parmetros (vase Stuart y Ord
(1991)):
//
0
j
t
I1
+(/ + 1) /
1
c j
t
I
+(/ + 2) /
2
+ 1 j
t
I+1
= 0, / = 1. 2. ...
De esto podemos ver que primeros cuatro momentos j
t
1
, j
t
2
, j
t
3
y j
t
4
son
sucientes para seleccionar la , (r) particular de la familia Pearson a travs
de las cuatro primeras ecuaciones:
490 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
(/
1
c) + 2 (/
2
+ 1) j
t
1
= 0
/
0
+ (2/
1
c) j
t
1
+ 3 (/
2
+ 1) j
t
2
= 0
2/
0
j
t
1
+ (3/
1
c) j
t
2
+ 4 (/
2
+ 1) j
t
3
= 0
3/
0
j
t
2
+ (4/
1
c) j
t
3
+ 5 (/
2
+ 1) j
t
4
= 0.
Pearson propuso sustituir los cuatro primeros cuatro momentos crudos
de los datos j
t
1
, j
t
2
, j
t
3
y j
t
4
, en el sistema anterior y resolverlo para los
parmetros (c. /
0
. /
1
. /
2
). La solucin a estas ecuaciones se ocupara de los
dos problemas simultneamente:
(a) especicacin: la eleccin de un modelo descriptivo (una curva de
frecuencia), sobre la base de los valores particulares de j
t
1
, j
t
2
, j
t
3
y j
t
4
y
(b) estimacin: la atribucin de valores numricos a los parmetros de-
sconocidos (c. /
0
. /
1
. /
2
). Por ejemplo, en el caso de que los valores numricos
obtenidos de los parmetros fueran: /
0
< 0, /
1
0 y /
2
0, los datos
sugieren que el modelo descriptivo ms apropiado, entre los de la familia
Pearson, es la curva de frecuencia Normal.
Es instructivo ver el anterior procedimiento en el contexto de la inferencia
estadstica clsica, donde el modelo estadstico se elige a priori y los datos son
vistos como una realizacin del mecanismo aleatorio descrito por el modelo
postulado. La primera diferencia importante entre los dos enfoques es que no
hay ningn argumento inductivo integrado en el enfoque de Pearson, que es
esencialmente uno de estadstica descriptiva. En segundo lugar, el enfoque de
Pearson parece ignorar el concepto de modelo muestral. En efecto, el enfoque
involucra el supuesto implcito de que los datos constituyen una realizacin de
una muestra aleatoria. En otras palabras, slo considera modelos estadsticos
simples. La tercera limitacin importante del enfoque de Pearson es que la
familia de modelos descriptivos se limita a los de la familia Pearson.
Adems de ser importante desde el punto de vista histrico, el mtodo
de Pearson de seleccionar una funcin de densidad utilizando los momentos
estimados es tambin de cierto inters en el contexto de la inferencia estads-
tica, en los casos en que la distribucin de muestra nita de un estadstico es
desconocida y se sospecha que la distribucin asintticamente Normal induce
a error. En tales casos, podra ser de inters considerar ajustes de la familia
de Pearson con el n de tener una idea sobre la naturaleza de la falta de
normalidad.
9.4. EL MTODO DE MOMENTOS 491
9.4.2 El mtodo paramtrico de momentos
El mtodo paramtrico de momentos (MPM) es una adaptacin del mtodo
anterior para su aplicacin adecuada a la inferencia estadstica. En este
ltimo caso el modelo de probabilidad adecuado es elegido a priori y, por
lo tanto, el nico papel que queda para el mtodo de momentos es el de
estimar sus parmetros usando los momentos muestrales. Como se ha dicho
en el captulo 3, la mejor manera de tratar los parmetros desconocidos es
relacionarlos con los momentos de la funcin de densidad de que se trate a
travs de:
j
t
v
(o
1
. o
2
. .... o
I
) =
_
aR
^
r
v
, (r; o
1
. o
2
. .... o
I
) dr, : = 1. 2. ...
La idea detrs de la MPM es que coincidan los momentos poblacionales
crudos requeridos con sus momentos muestrales correspondientes:
j
t
v
=
1
1

T
t=1
A
v
t
, t = 1. 2. 3.
y resolver el resultante sistema de ecuaciones para los parmetros de-
sconocidos (o
1
. o
2
. .... o
I
).
Ejemplo 2. (continuacin)
En el caso del modelo Normal, tenemos dos parmetros desconocidos
:= (j. o
2
) y por lo tanto necesitamos al menos dos momentos crudos. El
primer paso es obtener la relacin entre estos parmetros y los momentos de
la poblacin:
j
t
v
_
j. o
2
_
=
_
aR
^
r
v
,
_
r; j. o
2
_
dr, : = 1. 2.
Considerando el hecho de que la funcin generatriz de momentos (fgm)
es: :
a
(t) = c
jt+
1
2
o
2
t
2
(ver captulo 3), podemos deducir que:
j
t
1
=
d:
a
(t)
dt
[
t=0
= c
jt+
1
2
o
2
t
2
_
j +
1
2
o
2
t
_
[
t=0
= j
j
t
2
=
d
2
:
a
(t)
dt
2
[
t=0
=
_
c
jt+
1
2
o
2
t
2
_
j +
1
2
o
2
t
_
2
+
_
c
jt+
1
2
o
2
t
2
_
o
2
_
t=0
= j
2
+o
2
.
El segundo paso es igualar los momentos poblacionales y los muestrales y
resolver para los parmetros desconocidos, es decir,
492 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
j
t
1
=
1
1

T
t=1
A
t
= j, j
t
2
=
1
1

T
t=1
A
2
t
= j
2
+o
2
.
Resolvindolas para j y o
2
x,
j =
1
1

T
t=1
A
t
= j, o
2
=
1
1

T
t=1
(A
t
j)
2
.
De nuestra discusin anterior, sabemos que estos estimadores coinciden
con los estimadores sugeridos por el principio de momento coincidentes y el
mtodo de mnimos cuadrados y disfrutan de varias propiedades ptimas.
En particular, j es un estimador insesgado, completamente eciente y con-
sistente de j. o
2
no es insesgado pero se puede transformar en un estimador
insesgado usando :
2
=
T
T1
o
2
. :
2
no es slo insesgado, es tambin un esti-
mador relativamente eciente, consistente y asintticamente Normal de o
2
.
Ejemplo 4. Considere el modelo Gamma simple:
[i] MG estadstico: A
t
= c, +n
t
, t N,
[ii] Modelo de probabilidad:
= , (r; ) =
_
1
,(c)
_
r
,
_
c1
exp
_

_
r
,
__
. :=(c. ,) R
2
+
. r 0
_
,
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Tomando en cuenta el hecho de que la fgm es: :
a
(t) = (1 ct)
o
,
podemos deducir que (ver captulo 3):
j
1
=
d:
a
(t)
dt
[
t=0
=
_
, (c) (1 ct)
o1
_
t=0
= c,.
j
2
=
d
2
:
a
(t)
dt
2
[
t=0
=
_
,c
2
(, + 1) (1 ct)
o2
_
t=0
= , (, + 1) c
2
,
o forma equivalente 1 (A) = c,, \ c: (A) = , (, + 1) c
2
. Por lo tanto,
los estimadores MPM se obtienen resolviendo el sistema de ecuaciones: j
t
1
=
c,, j
t
2
= , (, + 1) c
2
, resultando:

, =
_
A
2
o
2
_
, c =
o
2
A
,
9.4. EL MTODO DE MOMENTOS 493
donde A =
1
T

T
t=1
A
t
y o
2
=
1
T

T
t=1
_
A
t
A
_
2
.
Ejemplo 5. Considere el modelo log-Normal simple:
[i] MG estadstico: A
t
= o +n
t
, t N,
[ii] Modelo de probabilidad:
= , (r; ) =
_
1
rc
_
2:
exp
_

_
In r j
2o
2
_
2
_
. :=(j. o
2
) , r 0
_
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
En este ejemplo va a poner de maniesto la no invarianza del estimador
MPM a las transformaciones. Teniendo en cuenta las siguientes relaciones:
j
t
1
= c
j+
1
2
o
2
, j
t
2
=
_
c
j+
1
2
o
2
_
c
o
2
,
el camino ms directo para obtener los estimadores MPM de :=(j. o
2
)
es resolver las siguientes ecuaciones para los parmetros desconocidos:
1
:

a
I=1
A
I
= c
j+
1
2
o
2
,
1
:

a
I=1
A
2
I
=
_
c
j+
1
2
o
2
_
c
o
2
.
Esto produce los siguientes estimadores:
j = In
_

_
_
1
_
1
T

T
t=1
A
t
_
2
_

T
t=1
A
2
t
_

_
, o
2
= In
_

_
1
T

T
t=1
A
2
t
_
1
T

T
t=1
A
t
_
2
_

_
.
Otra forma de obtener los estimadores de MPM de :=(j. o
2
) en este
caso es utilizar la informacin de que: 1 (In A) = j, \ c: (In A) = o
2
, para
deducir los estimadores MPM alternativos:
j =
1
1

T
t=1
A
t
, o
2
=
1
1

T
t=1
(In A
t
j)
2
,
que son de hecho muy diferentes de los anteriores.
Por ltimo, es importante sealar que los estimadores MPM no coinciden
con los estimadores sugeridos por el principio de los momentos coincidentes.
El contra ejemplo evidente es proporcionado por el modelo de regresin lineal,
discutido anteriormente, donde el mtodo de momentos no se puede aplicar
directamente porque estamos tratando con momentos condicionales.
494 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
9.4.3 Propiedades de los estimadores MPM
En general, las nicas propiedades ptimas que los estimadores MPM disfru-
tan son asintticas. Como se ha indicado anteriormente, en el caso de una
muestra aleatoria (A
1
. A
2
. .... A
a
), los momentos muestrales crudos:
j
t
v
=
1
1

T
t=1
A
v
t
, : = 1. 2. ...,
son estimadores consistentes de los momentos poblacionales crudos (suponiendo
que existan), es decir,
j
t
v
1
j
t
v
.
En el caso de que j
t
v
(o
1
. o
2
. .... o
I
) sea una funcin bien comportada de
las os podemos deducir que para los estimadores MPM

:=
_

o
1
.

o
2
. ....

o
I
_
,
donde

o
i
:=

o
i
_
j
t
1
. j
t
2
. .... j
t
I
_
, i = 1. 2. .... /:

o
A1A
1
o y
_
1
_

o
A1A
o
_
~
o
` (0. \
o
(o)) ,
pero estos estimadores no son necesariamente asintticamente ecientes.
La cuestin de las propiedades ptimas de los estimadores MPM frente
a las de los estimadores de mxima verosimilitud, discutida a continuacin,
se remonta a la dcada de 1930. Fisher (1937) argument que el mtodo de
momentos dio lugar a estimadores inecientes, salvo en los casos en que la
distribucin en cuestin estaba cerca de la normal. Karl Pearson mont una
respuesta enrgica, pero perdi el argumento porque no se dio cuenta de que
Fisher haba cambiado las reglas del juego de las de estadstica descriptiva
(utilizar los datos para elegir un modelo descriptivo) a las de la inferencia
estadstica (postular un modelo estadstico a priori y utilizar los datos para
estimar los parmetros de este modelo). Como se argumenta a continuacin
el mtodo de mxima verosimilitud est hecho a la medida para la inferen-
cia estadstica, pero es completamente intil en el contexto del enfoque de
Pearson. El hecho de que el mtodo MPM a menudo da lugar a estimadores
menos ecientes no debe resultar una sorpresa debido a que un vistazo a la
discusin anterior revela que el mtodo no utiliza toda la informacin con-
tenida en el modelo postulado. A partir del modelo de probabilidad utiliza
slo la parte de la informacin referente a algunos de los momentos de la
densidad postulada y es bien sabido que, la mayora de las veces, conocer un
9.5. EL MTODO DE MXIMA VEROSIMILITUD 495
nmero nito de momentos no es equivalente a conocer la distribucin propia
(vase el captulo 3).
9.5 El mtodo de mxima verosimilitud
9.5.1 La funcin de verosimilitud
Como se mencion en la introduccin, el mtodo de mxima verosimilitud
(MV) fue desarrollado especcamente para el enfoque moderno de la infer-
encia estadstica propuesto por Fisher (1912,1922 b, 1925a). Este enfoque
postula un modelo estadstico o := (. A) que tiene por objeto describir
(probabilsticamente) el mecanismo estocstico que dio origen a los datos
observados x := (r
1
. r
2
. .... r
a
). Como se muestra en la gura 13.3, la in-
formacin a priori en la forma del modelo estadstico es encapsulada por la
distribucin de la muestra X := (A
1
. A
2
. .... A
a
):
1(A
1
. A
2
. .... A
a
; ) ,
la distribucin conjunta de las variables aleatorias que conforman la mues-
tra.
NOTACIN: para subrayar la diferencia entre la muestra y la realizacin
de la muestra, se usa la notacin 1(A
1
. A
2
. .... A
a
; ) y no la notacin
, (r
1
. r
2
. .... r
a
; ) utilizada en los captulos anteriores.
Figura 13.3. La aproximacin clsica a la inferencia estadstica
El mtodo de verosimilitud, visualizando los datos observados x como
una realizacin de la muestra, dene a la funcin de verosimilitud como
496 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
proporcional a la distribucin de la muestra, pero interpretada como una
funcin de :
1(;r
1
. r
2
. .... r
a
) 1(A
1
. A
2
. .... A
a
; ) .
En este sentido, la funcin de verosimilitud evala la posibilidad, asociada
con los diferentes valores de , de que han sido los verdaderos parmetros
del mecanismo estocstico los que dieron lugar a la realizacin muestral par-
ticular x. NOTE que la proporcionalidad es importante para propsitos
matemticos porque 1(;r
1
. r
2
. .... r
a
) se interpreta como una funcin de ,
pero 1(A
1
. A
2
. .... A
a
; ) es una funcin de A y por lo general tienen di-
mensiones muy diferentes. Una forma equivalente de denir la funcin de
verosimilitud es:
1(;r
1
. r
2
. .... r
a
) := / (x) 1(A
1
. A
2
. .... A
a
; ) ,
donde / (x) slo depende de la realizacin de la muestra x y no de .
Formalmente, la funcin de verosimilitud viene denida por:
1(.; x) := [0. ),
y por lo tanto la verosimiltud no se podra interpretar como la asignacin
de probabilidades a .
El hecho de que el mtodo de mxima verosimilitud est hecho a la me-
dida para el enfoque moderno a la inferencia estadstica se puede ver en el
diagrama. 13.3, donde la distribucin de la muestra se dene a n de in-
corporar toda la informacin relevante contenida en el modelo estadstico
postulado. Esto est en contraste con el mtodo paramtrico de momentos
donde slo la informacin referida a o los momentos de , (r; o) es utilizada.
En un intento por proporcionar una cierta comprensin intuitiva del con-
cepto de funcin de verosimilitud, consideremos el siguiente ejemplo.
Ejemplo 1. (continuacin)
En el caso del modelo Bernoulli, la distribucin muestral toma la forma:
1(A
1
. A
2
. .... A
a
; ) =
a

I=1
, (r
I
; o) =
a

I=1
o
a
I
(1 o)
1a
I
= o

n
I=1
a
I
(1 o)

n
I=1
(1a
I
)
.
La primera igualdad se deduce del supuesto de muestreo de una muestra
aleatoria (variables aleatorias IID) y la segunda del supuesto de probabilidad
9.5. EL MTODO DE MXIMA VEROSIMILITUD 497
de que las A
I
s se distribuyen Bernoulli. La funcin de verosimilitud viene
denida por:
1(; x) o

n
I=1
a
I
(1 o)

n
I=1
(1a
I
)
.
En la gura 13.4 la funcin de verosimilitud 1(; x) se muestra en el
caso en que / (x) = 1000 (elegido para evitar nmeros muy pequeos) y la
realizacin muestral es:
x := (0. 0. 0. 1. 0. 0. 1. 0. 0. 1) .
Como podemos ver, 1(; x) es una funcin continua de , en contraste
con 1(x; ) que es una funcin discreta de x o de forma equivalente
a
=

a
I=1
r
I
.
Figura 13.4. Una funcin de verosimilitud
9.5.2 Estimadores de mxima verosimilitud
Con el n de poder obtener resultados con cierta generalidad limitamos la
discusin a los modelos estadsticos regulares que cumplen las restricciones
Rf1-TRf4 que aseguran la existencia de la informacin de Fisher (ver cap-
tulo 12). La medida en que estas condiciones de regularidad restringen los
modelos de probabilidad se ha discutido en el captulo anterior; ver Gourier-
oux y Monfort (1995) para ms detalles.
Por simplicidad de exposicin y conveniencia de notacin, vamos a con-
siderar el caso en que o es un escalar. La estimacin de mxima verosimilitud
498 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
signica encontrar el valor particular

o = /(x) que maximiza la funcin de
verosimilitud, es decir,
1
_

o; x
_
= max
0
1
_

o; x
_
.

o = /(X) se conoce como el estimador de mxima verosimilitud


(EMV) de o y

o = /(x) como la estimacin de mxima verosimilitud. Hay


varias cosas a destacar en esta denicin:
(a) el EMV puede no existir,
(b) el EMV puede no ser nico,
(c) el EMV pueden no tener una expresin de forma cerrada

o = /(x).
A pesar de los casos patolgicos para los que la existencia y unicidad
del EMV no est garantizada (Gourieroux y Monfort (1995)), en la inmensa
mayora de los casos en la prctica

o existe y es nico.
A n de reducir los casos patolgicos para los que

o puede no existir a
menudo restringimos nuestra discusin a los casos en los que:
Rf5. 1(.; x) := [0. ), es continua en todos los puntos o .
Adems, en un intento por reducir los casos patolgicos para los que

o
puede no ser nica, restringimos nuestro anlisis a los casos en que

o es
identicable:
Rf5. Para todo o
1
,= o
2
donde o
1
, o
2
, , (x;o
1
) ,= , (x;o
1
),
x R
a
A
`.
En el caso donde la funcin de verosimilitud es diferenciable, se puede
encontrar el mximo diferenciando 1(o; x). El EMV se obtiene mediante la
resolucin de las condiciones de primer orden:
d1(o; x)
do
= q
_

o
A\
_
= 0, dado que
d
2
1(o; x)
do
2
[
0=

0
L1
< 0.
A menudo, es preferible mximizar la funcin de log-verosimilitud en su
lugar, porque tienen el mismo mximo (el logaritmo es una transformacin
montona):
dIn1(o; x)
do
= |
_

o
A\
_
=
_
1
|
_
d1(o; x)
do
=
_
1
|
_
q
_

o
A\
_
= 0, dado 1 ,= 0.
Ejemplo 1. (continuacin)
En el caso del modelo Bernoulli la funcin de verosimilitud es:
9.5. EL MTODO DE MXIMA VEROSIMILITUD 499
In1(o; x) = const +
_

a
I=1
r
I
_
In o +
_

a
I=1
(1 r
I
)
_
In (1 o) ,
donde const representa la constante de proportionalidad. Diferenciando
la funcin de log-verosimilitud con respecto a o resulta:
d
do
In1(o; x) =
1
o
_

a
I=1
r
I
_

_
1
1 o
_
_

a
I=1
(1 r
I
)
_
= 0,
o bien
_

a
I=1
r
I
__
1

o
_
=

o
_
:

a
I=1
r
I
_
=

o
A\
=
1
:

a
i=1
A
i
.
NOTA. En Spanos p. 663, la suma despus de la primera igual-
dad est escrita

a
i=1
r
I
; creo que debera escribirse

a
I=1
r
I
.
Como podemos ver, el estimador de mxima verosimilitud (EMV) coin-
cide con el estimador propuesto por los tres mtodos anteriores, el principio
de los momentos coincidentes, mnimos cuadrados y el mtodo paramtrico
de momentos (MPM). Podemos asegurar que en efecto esto es un mximo,
considerando la segunda derivada evaluada en o =

o
A\
. Puesto que

o
A\
0
y :
_

a
i=1
r
i
_
podemos deducir que

o
A\
dene un mximo ya que la
condicin de segundo orden evaluada en

o
A\
es negativa:
d
2
do
2
In1(o; x) =
_

1
o
2
_

a
I=1
r
I
_

_
1
1 o
_
2 _

a
I=1
(1 r
I
)
_
_
0=

0
TL1
< 0.
La funcin puntuacin (score function)
La cantidad
o
o0
In1(o; x) se encontr en el captulo 12 en relacin a la
eciencia completa, pero en ese momento utilizamos el log de la distribucin
de la muestra In, (x;o) en lugar de In1(o; x) para denir la informacin
de Fisher:
1
a
(o) := 1
_
_
J In , (x;o)
Jo
_
2
_
(13.6)
500 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
En trminos de la funcin logaritmo de verosimilitud la desigualdad de
Cramer-Rao toma la forma:
\ c:
_

o
_
_
_
1
_
_
J In , (x;o)
Jo
_
2
__
1
, (13.7)
para cualquier estimador insesgado

o de o.
La funcin : (o; X) :=
o
o0
In1(o; X), cuando se ve como una funcin de X,
se llama funcin puntuacin y goza de las siguientes propiedades:
(sc1) 1 [: (o; X)] = 0,
(sc2) \ c: [: (o; X)] = 1 [: (o; X)]
2
= 1
_

o
2
o0
2
In1(o; X)
_
:= 1
a
(o).
Como se muestra en el captulo anterior, un estimador insesgado

o de o
alcanza la cota mnima de Cramer-Rao si y slo si
_

o o
_
puede expresarse
en la forma:
_

o o
_
= /(o) : (o; X)
para alguna funcin /(o).
Ejemplo 1. (continuacin)
En el caso del modelo Bernoulli la funcin puntuacin toma la forma:
: (o; X) :=
d
do
In1(o; X) =
1
o
_

a
I=1
A
I
_

_
1
1 o
_
_

a
I=1
(1 A
I
)
_
.
Tomando en cuenta el hecho de que:
_

o
A\
o
_
=
_
o (1 o)
:
_
: (o; X) ,
podemos deducir que

o
A\
=
1
a

a
i=1
A
i
es de hecho completamente e-
ciente. Esto se conrma usando la informacin de Fisher:
d
2
In1(o; x)
do
2
=
_

a
i=1
A
i
_
_
1
o
2
_

a
i=1
(1 A
i
)
_
_
1
1 o
_
2
.
1
_

d
2
In1(o; x)
do
2
_
=
:
o (1 o)
=CR(o) =
o (1 o)
:
.
9.5. EL MTODO DE MXIMA VEROSIMILITUD 501
Caso de un solo parmetro
Ejemplo 6. Considere el modelo exponencial simple:
[i] MG estadstico: A
t
= o +n
I
, / N,
[ii] Modelo de probabilidad: =
_
, (r; ) =
_
1
0
exp
_

_
a
0
__
. o 0. r 0
__
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
La distribucin de la muestra toma la forma:
1(A
1
. A
2
. .... A
a
; ) =
a

I=1
, (r
I
; o) =
a

I=1
1
o
exp
_

_
1
o
_
r
I
_
=
_
1
o
_
a
exp
_

_
1
o
_

a
I=1
r
I
_
,
y por lo tanto la funcin de log-verosimilitud es:
In1(o; x) = const :In o
1
o

a
I=1
r
I
,
d
do
In1(o; X) =
:
o
+
1
o
2

a
I=1
r
I
= 0 =

o
A\
=
1
:

a
I=1
A
I
.
Considerando el hecho de que 1 (A
t
) = o, este estimador coincide con los
estimadores sugeridos por el principio de los momentos coincidente, el mtodo
paramtrico de momentos, as como el mtodo de mnimos cuadrados. La
condicin de segundo orden:
d
2
do
2
In1(o; x) =
_
:
o
2

2
o
3
_
0=

0
L1
< 0,
asegura que 1
_

o; x
_
es un mximo y no mnimo o un punto de inexin.
Usando la segunda derivada de la funcin log-verosimilitud podemos obtener
la informacin de Fisher:
1
a
(o) := 1
_

d
2
do
2
In1(o; x)
_
=
:
o
2
9.5.3 Caso multiparmetros
En el caso donde contiene ms de un parmetro, por ejemplo := (o
1
. o
2
),
las condiciones de primer orden para los EMV adoptan la forma de un sistema
de ecuaciones:
502 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
JIn1(o; x)
Jo
1
= 0,
JIn1(o; x)
Jo
2
= 0,
que necesita ser resuelto simultneamente a n de obtener los EMV.
Ejemplo 2. (continuacin)
En el caso del modelo Normal, el supuesto de muestra aleatoria implica
que la funcin de verosimilitud tiene la forma:
1
_
j. o
2
; x
_

I=1
_
1
o
_
2:
exp
_

1
2o
2
(r
I
j)
2
__
=
__
1
o
_
2:
_
a
exp
_

1
2o
2

a
I=1
(r
I
j)
2
__
.
La funcin de log-verosimilitud es:
In 1
_
j. o
2
; x
_
= const
:
2
Ino
2

1
2o
2

a
I=1
(r
I
j)
2
.
Por lo tanto, podemos obtener los EMV de j y o
2
mediante las condiciones
de primer orden:
JIn1(o; x)
Jj
=
1
2o
2
(2)

a
I=1
(r
I
j) = 0,
JIn1(o; x)
Jo
2
=
:
2o
2
+
1
2o
4

a
I=1
(r
I
j) = 0.
Al resolver este sistema para j y o
2
resulta:
j
A\
=
1
:

a
I=1
A
I
y o
2
A\
=
1
:

a
I=1
(A
I
j
A\
)
2
.
Una vez ms, los EMV coinciden con los estimadores sugeridos por los
otros tres mtodos. In1
_

; x
_
para

:=
_
j. o
2
_
es de hecho un mximo ya
que las segundas derivadas en =

toman los siguientes signos:


_
J
2
In1(o; x)
Jj
2
_
[
0=

0
TL1
=
_
:
o
2
_
[
0=

0
TL1
=
:
o
2
< 0,
_
J
2
In1(o; x)
Jo
2
Jj
_
[
0=

0
TL1
=
1
o
4

a
I=1
(r
I
j) [
0=

0
TL1
= 0,
_
J
2
In1(o; x)
Jo
4
_
[
0=

0
TL1
=
:
2o
4

1
o
6

a
I=1
(r
I
j)
2
[
0=

0
TL1
=
:
2
o
6
< 0,
9.5. EL MTODO DE MXIMA VEROSIMILITUD 503
y entonces
_
J
2
In1(o; x)
Jj
2
__
J
2
In1(o; x)
Jo
4
_

_
J
2
In1(o; x)
Jo
2
Jj
_
[
0=

0
TL1
0.
Por el modelo Normal simple las segundas derivadas de la funcin log-
verosimilitud y sus valores esperados son:
_
J
2
In1(; x)
Jj
2
_
=
:
o
2
=
:
o
2
, 1
_

J
2
In1(; x)
Jj
2
_
=
:
o
2
,
_
J
2
In1(; x)
Jo
2
Jj
_
=
1
o
4

a
I=1
(r
I
j) , 1
_

J
2
In1(; x)
Jo
2
Jj
_
= 0,
_
J
2
In1(; x)
Jo
4
_
=
:
2o
4

1
o
6

a
I=1
(r
I
j)
2
, 1
_

J
2
In1(; x)
Jo
4
_
=
:
2o
4
.
Estos resultados sugieren que matriz de informacin de Fisher toma la
forma:
1
a
() :=
_
a
o
2
0
0
a
2o
4
_
.
Por lo tanto, las cotas inferiores de Cramer-Rao para cualesquiera esti-
madores insesgados de j y o
2
son (ver captulo 12):
(a) CR(j) =
o
2
a
(b) CR(o
2
) =
2o
4
a
.
Teniendo en cuenta el hecho de que (vase el captulo 12):
(i) j
A\
~`
_
j.
o
2
a
_
, (ii)
a o
2
L1
o
2
~
2
(: 1).
j
A\
es un estimador insesgado, eciente y consistente de j, pero o
2
A\
no es insesgado, es, sin embargo, consistente y asintticamente Normal y
asintticamente eciente (vase el captulo 12 para los detalles).
En este punto es importante hacer una digresin por unos segundos con
el n de introducir un concepto a veces utilizado en lugar de la matriz de
informacin de Fisher. El concepto se llama la matriz de informacin
observada y se dene por:
J
a
(o) =
_
J
2
In1(; x)
JJ
t
_
.
En el caso del modelo Normal simple esta matriz toma la forma:
504 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
J
a
(o) =
_
a
o
2
1
o
4

a
I=1
(r
I
j)
1
o
4

a
I=1
(r
I
j)
a
2o
4
+
1
o
6

a
I=1
(r
I
j)
2
_
.
Como podemos ver que esto es mucho ms fcil de evaluar porque no hay
esperanzas que deban tomarse.
Antes de que el lector llege a la conclusin errnea de que los tres mtodos
de estimacin proporcionan estimadores idnticos, consideremos el siguiente
ejemplo, donde EMV y los estimadores MPM son diferentes.
Ejemplo 4. (continuacin)
En el caso del modelo Gamma, la distribucin de la muestra toma la
forma:
1(A
1
. A
2
. .... A
a
; c. ,) =
a

I=1
, (r
I
; c. ,) =
a

I=1
_
,
c
r
c1
I
[c]
_
exp
_

_
r
I
,
__
.
La funcin log-verosimilitud con := (c. ,) toma la forma:
In1(; x) = const:In[c]:cIn,+(c 1)
1
2o
2

a
I=1
In r
I

a
I=1
_
r
I
,
_
,
donde [c] es la funcin Gamma (ver Apndice A).
JIn1(; x)
J,
=
:c
,
+
1
,
2

a
I=1
r
I
= 0,
JIn1(; x)
Jc
= :
t
[c] : In , +

a
I=1
In r
I
= 0,
donde
t
[.] :=
o
o:
In [.] se conoce como la funcin di-gamma (vase
Abramowitz y Stegum (1970)). Al resolver la primera ecuacin se obtiene:

,
A\
=
An
c
, donde A
a
=
1
a

a
I=1
A
I
. Sustituyendo esto en la segunda
ecuacin resulta:
| (c) = :
t
[c] : In
A
a
c
+

a
I=1
In A
I
= 0, (13.9)
9.5. EL MTODO DE MXIMA VEROSIMILITUD 505
que no pueden ser resueltas explcitamente para c; pueden resolverse
numricamente. Antes de considerar la cuestin de la evaluacin numrica
vale la pena sealar que estos EMV son diferentes de los estimadores MPM
de c y ,:

,
A1A
=
A
2
a
o
2
, c
A1A
=
o
2
A
a
,
obtenido en la seccin anterior.
Evaluacin numrica
Al igual que en el caso del modelo Gamma simple discutido anteriormente,
cuando se resuelven las condiciones de primer orden para EMV el modelador
a menudo tiene que utilizar mtodos numricos ya que ninguna expresin en
forma cerrada

o = /(X) se puede obtener. El problema es entonces resolver


numricamente la ecuacin funcin puntuacin:
| (o) = 0,
que es una funcin no lineal de o. Hay varios algoritmos numricos que se
pueden utilizar para resolver este problema, que son apropiados para difer-
entes circunstancias. Uno de los algoritmos ms simples y ms utilizado es
el de Newton-Raphson, que podemos describir brevemente de la siguiente
manera.
Paso 1. Elija una solucin inicial (tentativa): o
0
.
Paso 2. El algoritmo de Newton-Raphson mejora esta solucin eligiendo:
o
1
= o
0
[|
t
(o
0
)]
1
| (o
0
) , donde |
t
(o
0
) =
d| (o
0
)
do
.
Esto se basa en tomar una aproximacin de primer orden de Taylor:
| (o
1
) | (o
0
) + (o
0
o
1
) |
t
(o
0
)
igualndola a cero | (o
1
) = 0 y resolvindola para o
1
. Esto proporciona
una aproximacin cuadrtica de la funcin | (o).
Paso 3. Continuar iterando usando el algoritmo:

o
I+1
=

o
I

_
|
t
_

o
I
__
1
|
_

o
I
_
, / = 1. 2. .... ` + 1,
hasta que la diferencia entre

o
I+1
y

o
I
sea menor que un pequeo valor
preasignado c, por ejemplo c = 0.00001, es decir,
506 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN

o
.+1

o
.

< c.
NOTE que
_
|
t
_

o
I
__
es la informacin observada (matriz) encontrada
anteriormente.
Paso 4. El EMV se elige sea el valor

o
.+1
para el que: |
t
_

o
.+1
_
0.
Como se puede ver, este algoritmo requiere la eleccin de una conjetura
inicial para el estimador que a menudo se elige sea el estimador de MPM.
Un algoritmo numrico relacionado, conocido como el mtodo de pun-
tuacin, sustituye |
t
_

o
I
_
con la informacin de Fisher I
a
(o), siendo la justi-
cacin el resultado de convergencia:
1
:
|
t
_

o
I
_
c.c.
1
a
(o) ,
dando el esquema de iteracin:

o
I+1
=

o
I

1
:
_
I
a
_

o
I
__
1
|
_

o
I
_
, / = 1. 2. .... ` + 1.
IMPORTANTE: resulta que todo lo que modelador tiene que hacer para
lograr estimadores asintticamente ecientes es usar cualquiera de los esque-
mas de iteracin anteriores para una iteracin! Una iteracin es suciente
para la eciencia asinttica. Para una discusin extensa de estos algoritmos
numricos utilizados en la econometra, vese Gourieroux y Monfort (1995),
Hendry (1995) y Davidson y McKinnon (1993).
Ejemplo 7
Consideremos el modelo Logstico simple (un parmetro):
[i] MG estadstico: A
I
= 1 (A
I
) +c
I
, / N,
[ii] Modelo de probabilidad: =
_
, (r; o) =
exp((a0))
[1+exp((a0))]
2
. o R 0. r R
_
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
La funcin de log-verosimilitud y las condiciones de primer orden son:
In1(o; x) =

a
I=1
(r
I
o) 2

a
I=1
In [1 + exp ((r
I
o))] ,
dIn1(o; x)
do
= : 2

a
I=1
exp ((r
I
o))
[1 + exp ((r
I
o))]
= 0.
9.5. EL MTODO DE MXIMA VEROSIMILITUD 507
El EMV de o se puede obtener utilizando el algoritmo de Newton-Raphson
con:
|
t
(o) = 2

a
I=1
exp ((r
I
o))
[1 + exp ((r
I
o))]
2
,
y A
a
como un valor inicial para o. Para efectos de comparacin OB-
SERVEMOS que:
_
:
_
A
a
o
_
~
o
`
_
0.
:
2
3
_
, donde
:
2
3
= 3.2899 y
_
:
_

o
1A\
o
_
~
o
` (0. 3) .
Ejemplo 4. (continuacin).
En el caso del modelo Gamma, los EMV de := (c. ,) puede ser
obtenidos a travs del algoritmo de Newton-Raphson con:
|
t
() = :
_

tt
(c)
1
o
1
o
2Anco
o
3
_
,
donde
tt
(.) =
o
2
o:
2
In [.] se conoce como la funcin tri-gamma (vase
Abramowitz y Stegum (1970)). El mtodo de puntuacin simplica esto a:
I
a
() = :
_

tt
(c)
1
o
1
o
c
o
2
_
.
Ambos algoritmos numricos requieren algunas estimaciones iniciales para
(c. ,) para las que el modelador puede utilizar las estimaciones de MPM
(13.10). Usando el algoritmo de Newton-Raphson para evaluar (13.9) se
obtiene el esquema de iteracin:
c
I+1
= c
I
+
1
a

a
I=1
In A
I
In
_
A
a
_

t
[ c
I
] + In [ c
I
]

tt
[ c
I
]
1
c
I
, / = 1. 2. ....
Verosimilitud y la distancia de Kullback-Leibler*
Alguna intuicin sobre lo tratan los EMV se puede obtener al considerar
la relacin entre la funcin de log-verosimilitud y la distancia de Kullback-
Leibler (vase Kullback (1959)). Considere el modelo estadstico simple cuyo
modelo de probabilidad toma la forma:
508 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
= , (r; o) = [j
1
(o) . j
2
(o) . .... j
n
(o)] , que corresponde a [r
1
. r
2
. .... r
n
] , o
Asumiendo que :
I
representa el nmero de A
i
s que toman el valor r
I
, la
funcin log-verosimilitud promedio en este caso toma la forma:
1
:
In1(o; x) =

a
I=1
In , (r
I
; o) =

n
I=1
_
:
I
:
_
In j
I
(o) .
La ltima expresin puede estar relacionada con la informacin de la
distancia de Kullback-Leibler entre dos densidades:
K(,
0
. ,
1
) = 1
_
In
,
0
(r)
,
1
(r)
_
=
_
aR
^
In
,
0
(r)
,
1
(r)
,
0
(r) dr,
encontrada por primera vez en el captulo 6, en relacin a la medicin de la
dependencia. Esta medida en el caso donde las dos distribuciones implicadas
son:

, (x) :=
_
:
1
:
.
:
2
:
. ....
:
n
:
_
y , (r; o) := [j
1
(o) . j
2
(o) . .... j
n
(o)] ,
toma la forma:
K
_

,. ,
_
=

n
I=1
_
:
I
:
_
In
_
(a
I
)
a
j
I
(o)
_
=

n
I=1
_
:
I
:
_
In j
I
(o)+

n
I=1
_
:
I
:
_
In
_
:
I
:
_
.
Teniendo en cuenta el hecho de que el ltimo trmino es una constante,
esto sugiere que una manera equivalente a ver la deduccin del EMV

o
A\
es minimizando la distancia de Kullback-Leibler. Intuitivamente, esto im-
plica que el EMV se obtiene minimizando la distancia entre el modelo de
probabilidad postulado y las frecuencias empricas. Para los conocedores en
matemtica esto se puede escribir de manera ms formal en trminos de la
distancia entre la funcin de distribucin acumulada emprica y la fda pos-
tulada usando la integral de Riemann-Stieltjes (vase Stuart y Ord (1994)):
K
_

1. 1
_
=
_
a
In
_
d

1 (r)
d1 (r; o)
_
d

1 (r) .
9.5. EL MTODO DE MXIMA VEROSIMILITUD 509
Esta observacin refuerza el caso que se argument en el captulo 10 que
la funcin de distribucin acumulada estimada proporciona el puente entre
la teora de la probabilidad y la inferencia estadstica.
Ejemplo
Por conveniencia del argumento asumamos que en el caso del modelo
Bernoulli, toma slo dos valores, digamos = 0.2 ' 0.8; en lugar del
habitual [0. 1]. Recordando que o = 1 (A = 1): Cul es el valor probable
de o que ha dado lugar a la realizacin muestal
x := (0. 0. 0. 1. 0. 0. 1. 0. 0. 1)?
Tomando en cuenta el hecho de que el evento A = 1, se ha producido
slo en tres de los diez casos, la intuicin sugiere que el verdadero valor de
o es ms probable que sea o = 0.2 en lugar de o = 0.8. En trminos de la
distancia de Kullback-Leibler la frecuencia emprica
3
10
est mucho ms cerca
de o = 0.2 que de o = 0.8.
9.5.4 Propiedades de los EMV
Propiedades de muestra nita
Los estimadores de mxima verosimilitud no son insesgados en general
pero en su lugar disfrutan de una propiedad muy til: que son invariantes
con respecto a parametrizaciones funcionales bien comportadas.
[1] Invarianza con respecto a parametrizacin
Para c =g(o) una funcin bien comportada (Borel) de o, el EMV de c
viene dado por:

c
A\
= g
_

o
A\
_
.
Ejemplo 6. (continuacin)
En el caso del modelo Exponencial se especicado anteriormente, a
menudo estamos interesados en c =
1
0
. A partir de esta propiedad del EMV
podemos deducir que el EMV de c es:

c
A\
=
1

o
A\
=
:

n
I=1
A
I
. (13.11)
Con el n de conrmar esto vamos a expresar la funcin de densidad en
trminos de c decir:
510 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
, (r; o) = cexp cr ,
y obtenemos el EMV de c mediante la maximizacin de la funcin log-
verosimilitud:
In1(c; x) = const +: In c c

a
I=1
r
I
.
Dado que
0
0
In1(c; x) =
a

a
I=1
r
I
= 0, el resultado es (13.11).
Esta propiedad es particularmente til en el contexto del enfoque defen-
dido en este libro, porque los parmetros tericos de inters rara vez coinci-
den con los parmetros estadsticos y esta propiedad nos permite deducir los
EMV de los primeros. Tomando en cuenta el hecho de que, en general:
1
_

c
A\
_
,= g
_

o
A\
_
,
podemos pensar en el sesgo en algunos EMV como el precio que tenemos
que pagar por la propiedad invariancia. Por lo tanto, si

o
A\
es un estimador
insesgado de o, es decir, 1
_

o
A\
_
= o, no hay ninguna razn para creer que

c
A\
va a ser un estimador insesgado de c, en general 1
_

c
A\
_
,= c.
[2] Insesgamiento - eciencia completa
En un modelo estadstico regular (vase el captulo 12), si un estimador
insesgado, que tambin alcanza la cota mnima de Cramer-Rao, existe, por
ejemplo

o
l
, entonces coincide con el estimador de mxima verosimilitud

o
A\
,
es decir,

o
l
=

o
A\
.
Ejemplo 8
Consideremos el modelo Poisson simple:
[i] MG estadstico: A
I
= 1 (A
I
) +c
I
, / N,
[ii] Modelo de probabilidad: =
_
, (r; o) =
_
c
0
0
i
a!
_
. o 0. r N
0
= 0. 1. 2. ...
_
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Tomando en cuenta el hecho de que 1 (A
t
) = o, podemos deducir que
el estimador propuesto por los tres ltimos mtodos de estimacin sera:

o
l
=
1
a

a
I=1
A
I
. Usando la linealidad de 1 (.) (ver captulo 3) podemos
demostrar que:
1
_

o
l
_
= o y \ c:
_

o
l
_
=
o
:
.
9.5. EL MTODO DE MXIMA VEROSIMILITUD 511
De la distribucin de la muestra:
1(A
1
. A
2
. .... A
a
; o) =
a

I=1
, (r
I
; o) =
a

I=1
o
a
I
c
0
_
1
r
I
!
_
= o

n
I=1
a
I
c
a0
_
1
r
I
!
_
,
podemos deducir la cota mnima de Cramer-Rao. Teniendo en cuenta:
d
2
do
2
In1(x;o) =
d
do
_
: +
1
o

a
I=1
A
I
_
=
_
1
o
2

a
I=1
A
I
_
.
I
a
(o) = 1
_

d
2
do
2
In1(x;o)
_
=
:
o
=CR(o) =
o
:
.
Esto sugiere que

o
l
es a la vez insesgado y totalmente eciente. En vista
de la propiedad anterior de EMV,

o
l
debe coincidir con el EMV de o. Con
el n de vericar este resultado, vamos a obtener el EMV de o. La condicin
de primer orden:
d
do
In1(x;o) = : +
1
o

a
I=1
A
I
=

o
A\
=
1
:

a
I=1
A
I
.
Este, efectivamente, coincide con el estimador insesgado, completamente
eciente

o
l
.
[3] Suciencia
Como se ha dicho en el captulo 12, el concepto de estadstico suciente
se analiza mejor utilizando el teorema de Factorizacin.
Un estadstic /(X) se dice que es un estadstico suciente para o si y slo
si existen funciones g(/(X) . o) y (X), donde la primera depende de X slo
a travs de /(X), mientras que la ltima es libre de o, de tal manera que la
distribucin de la muestra se factoriza en el producto:
, (x;o) = g(/(X) . o) (X) , para todo x X, o . (13.12)
Esto sugiere que si existe un estadstico suciente /(X), entonces el EMV
es una funcin de l porque:
1(x;o) = [/ (X) (X)] g(/(X) . o) ,
512 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
y la maximizacin de la funcin de verosimilitud es equivalente a max-
imizar g(/(X) . o), que depende de la muestra slo a travs del estadstico
suciente.
Propiedades asintticas (muestra aleatoria)
Vamos a considerar las propiedades asintticas de EMV en el caso de
muestra aleatoria simple cuando
I
a
(o) = :I (o) . (13.13)
Con el n de poder obtener resultados generales necesitamos imponer al-
gunas condiciones de regularidad, adems de Rf1-Rf6 utilizadas hasta ahora.
Rf7. 1 (In , (r;o)) existe,
Rf8.
1
a
In 1(; x)
c.c.
1 (In , (r;o)) para todo o .
[4] Consistencia
(a) Consistencia dbil. Bajo estas condiciones de regularidad, los EMV
son dbilmente consistentes, es decir:
1
_
lim
ao

o
A\
= o
_
= 1, denotado por:

o
A\
c.c.
o.
Vase el captulo 9 para una discusin acerca de estos dos distintos tipos
de convergencia.
[5] Normalidad asinttica
Para Normalidad asinttica de los EMV tenemos que asegurarnos de que,
adems de las condiciones de regularidad Rf1-Rf6, mencionadas anterior-
mente, se cumplen las siguientes condiciones (Gourieroux y Monfort (1995)):
Rf9. La informacin de Fisher para una observacin: 0 <I(o) < ,
donde
I (o) := 1
_
_
dIn, (r;o)
do
_
2
_
= 1
__
d
2
In, (r;o)
do
2
__
,
Rf10. In 1(; x) es dos veces diferenciable en un intervalo abierto alrede-
dor de o.
Bajo las condiciones de regularidad Rf1-Rf10, los EMV son asinttica-
mente normales, es decir:
_
:
_

o
A\
o
_
~
o
` (0. \
o
(o))
donde \
o
(o) denota la varianza asinttica de

o
A\
.
9.5. EL MTODO DE MXIMA VEROSIMILITUD 513
[6] Eciencia asinttica
Bajo las mismas condiciones de regularidad la varianza asinttica de los
estimadores de mxima verosimilitud alcanza la cota mnima asinttica de
Cramer-Rao, que, en vista de (3.13) toma la forma:
\
o
_

o
A\
_
= I
1
(o) .
Ejemplos
(1) El modelo Bernoulli. Los resultados anteriores en relacin con este
modelo indican que:
_
:
_

o
A\
o
_
~
o
` (0. o (1 o)) .
(2) El modelo Exponencial. Los resultados anteriores en relacin con este
modelo indican que:
_
:
_

o
A\
o
_
~
o
`
_
0. o
2
_
.
3) El modelo Normal. A la vista de los resultados en (13.8) se puede
deducir que:
_
:( j
A\
j) ~
o
`
_
0. o
2
_
,
_
:
_
o
2
A\
o
_
~
o
`
_
0. 2o
4
_
.
Propiedades asintticas (muestra no ID, pero independiente)
Las propiedades asintticas anteriores necesitan modicarse en cierta me-
dida en el caso de que la muestra sea independiente pero no idnticamente
distribuida. En este caso, la relacin entre la informacin de observacin
individual de Fisher I(o) y la informacin de Fisher de la muestra I
a
(o) no se
relacionan como en (13.13). En su lugar, las dos estn relacionadas a travs
de:
I
a
(o) =

a
I=1
I
I
(o) , donde I
I
(o) = 1
_
_
dIn, (r
I
;o)
do
_
2
_
, (13.14)
debido a la independencia. Para que las anteriores propiedades se cum-
plan necesitamos imponer determinadas restricciones sobre I
a
(o). Estas re-
stricciones estarn relacionadas con su comportamiento asinttico y, en par-
ticular, su orden de magnitud (ver Spanos (1986), cap. 10). En trminos
brutos estas condiciones equivalen a:
514 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
(1). lim
ao
I
a
(o) = ,
(2). Existe una sucesin c
a

o
a=1
tal que
lim
ao
_
1
c
2
a
1
a
(o)
_
= I
o
(o) donde 0 < I
1
o
(o) < .
La primera condicin asegura consistencia y la segunda asegura Normal-
idad asinttica. La Normalidad asinttica en estas condiciones toma la
forma:
c
a
_

o
A\
o
_
~
o
`
_
0. I
1
o
(o)
_
.
Ejemplo 3. (continuacin)
Considere el modelo de regresin lineal normal simple. Resulta que los
EMV de := (,
0
. ,
1
. o
2
) coinciden con los estimadores principio de momen-
tos coincidentes:

,
0
=

,
1
r,

,
1
=

a
I=1
(
I
) (r
I
r)

a
I=1
(r
I
r)
2
, o
2
=
1
:

a
I=1
(
I
)
2

_
1
a

a
I=1
(
I
) (r
I
r)
_
2
1
a

a
I=1
(r
I
r)
2
(13.15)
Para ver esto vamos a denir la funcin de verosimilitud:
1
_
,
0
. ,
1
. o
2
; y
_


a
I=1
1
o
_
2:
exp
_

1
2o
2
(
I
,
0
,
1
r
I
)
2
_
=
_
o
2
_
a
(2:)

n
2
exp
_

1
2o
2

a
I=1
(
I
,
0
,
1
r
I
)
2
_
.
Como suele ser el caso, para localizar los EMV utilizamos la funcin log-
verosimilitud, que en el presente caso es:
In1(; y) = const
:
2
In o
2

1
2o
2

a
I=1
(
I
,
0
,
1
r
I
)
2
.
Por lo tanto, al resolver las condiciones de primer orden:
9.5. EL MTODO DE MXIMA VEROSIMILITUD 515
JIn 1(; y)
J,
0
=
1
2o
2
(2)

a
I=1
(
I
,
0
,
1
r
I
) = 0,
JIn 1(; y)
J,
1
=
1
2o
2
(2)

a
I=1
(
I
,
0
,
1
r
I
) r
I
= 0,
JIn 1(; y)
Jo
2
=
:
2o
2
+
1
2o
4

a
I=1
(
I
,
0
,
1
r
I
)
2
= 0,
tenemos los EMV (13.15). Para ver las dicultades en relacin con el
orden de magnitud de la matriz de informacin de Fisher la deducimos. Las
segundas derivadas y sus valores esperados producen:
J
2
In 1(; y)
J,
2
0
=
:
o
2
, =1
_

J
2
In 1(; y)
J,
2
0
_
=
:
o
2
,
JIn 1(; y)
J,
2
1
=
1
o
2

a
I=1
r
2
I
, =1
_

JIn 1(; y)
J,
2
1
_
=
1
o
2

a
I=1
r
2
I
,
J
2
In 1(; y)
J,
1
J,
0
=
1
o
2

a
I=1
r
I
, =1
_

J
2
In 1(; y)
J,
1
J,
0
_
=
1
o
2

a
I=1
r
I
,
J
2
In 1(; y)
Jo
2
J,
0
=
1
o
4

a
I=1
n
I
, =1
_

J
2
In 1(; y)
Jo
2
J,
0
_
= 0,
J
2
In 1(; y)
Jo
2
J,
1
=
1
o
4

a
I=1
n
I
r
I
, =1
_

J
2
In 1(; y)
Jo
2
J,
1
_
= 0,
JIn 1(; y)
Jo
4
=
:
2o
4

1
o
6

a
I=1
n
2
I
= 0, =1
_

JIn 1(; y)
Jo
4
_
=
:
2o
4
,
donde n
t
=
t
,
0
,
1
r
t
. Por lo tanto, la matriz de informacin toma
la forma:
I
a
_
,
0
. ,
1
. o
2
_
=
_
_
_
a
o
2
1
o
2

a
I=1
r
I
0
1
o
2

a
I=1
r
I
1
o
2

a
I=1
r
2
I
0
0 0
a
2o
4
_
_
_
(13.16)
Para la consistencia requerimos que esta matriz de informacin converja
a innito como en (1). Esto se logra si:
516 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN

a
I=1
r
2
I

ao
.
Sin embargo, para la normalidad asinttica del estimador

,
1
el modelador
tambin necesita saber la tasa de convergencia de
_

a
I=1
r
2
I
_
con el n de
denir la sucesin de normalizacin c
a

o
a=1
. A falta de dicha informacin l
o ella siempre pueden utilizar:
c
a
=
_

a
I=1
r
2
I
_1
2
=
_

a
I=1
r
2
I
__

,
1
,
1
_
~
o
`
_
0. o
2
_
.
NOTA. En Spanos, p. 674, dice 1
_

0
2
In 1(;y)
0o
2
0
_
=
T
o
2
; creo debera
decir 1
_

0
2
In 1(;y)
0o
2
0
_
=
a
o
2
.
Propiedades asintticas (muestra no aleatoria)*
En el caso de una muestra no aleatoria X
a
:= (A
1
. A
2
. .... A
a
) la infor-
macin de Fisher no satisface (13.13) ni (13.14). La forma ms sencilla de
obtener una forma comparable es a travs del condicionamiento secuencial
utilizado en los captulos 6-8 para muestras no aleatorias. Tomando en cuenta
el hecho de que:
1(A
1
. A
2
. .... A
a
; ) = 1(A
1
;
1
)
a

I=2
1
I
(A
I
[A
I1
. .... A
1
;
I
) , X .
En los casos en que el ndice de dependencia del parmetro pueda ser
restringido por la imposicin de una cierta restriccin de heterogeneidad,
cuya forma dbil es: lim
ao

a
= , la funcin de log-verosimilitud se puede
expresar en la forma:
In1
a
(; x)

a
I=1
In 1
I
(A
I
[A
I1
. .... A
1
; ) , ,
donde por / = 1 la distribucin es marginal inicial 1(A
1
; ). La funcin
puntuacin toma la forma:
:
a
(; x) =
J
J
In1
a
(; x) =

a
I=1
J
J
In 1
I
(A
I
[A
I1
. .... A
1
; ) :=

a
I=1
n
I
(; r) , .
Por lo tanto, viendo :
I
(; .) y n
I
(; .) como funciones de la historia
pasada de A
t+1
:
9.5. EL MTODO DE MXIMA VEROSIMILITUD 517
X
I
:= (A
1
. A
2
. .... A
I
) ,
podemos deducir que para :
0
() = 0:
(i) n
I
(; X
I
) = :
I
(; X
I
) :
I1
(; X
I1
), / = 1. 2. .... :,
(ii) :
a
(; X) =

a
I=1
[:
I
(; X
I
) :
I1
(; X
I1
)],
o de manera equivalente:
:
I
(; X
I
) = :
I1
(; X
I1
) +n
I
(; X
I
), / = 1. 2. .... :.
Estos resultados sugieren que los procesos :
I
(; X
I
)
o
I=1
y n
I
(; X
I
)
o
I=1
son, respectivamente, un proceso martingala y un proceso de diferencia mar-
tingala con respecto a o (X
I1
), ya que:
(iii) 1 (n
I
(; X
I
) [o (X
I1
)) = 0, / = 1. 2. .... :,
(iv) 1 (:
I
(; X
I
) [o (X
I1
)) = :
I1
(; X
I1
), / = 1. 2. .... :;
vase el captulo 8. Adems, :
I
(; X
I
)
o
I=1
es una martingala de media
cero debido a que:
1 (:
I
(; X
I
)) = 1 1 (:
I
(; X
I
) [o (X
I1
)) = 0. / = 1. 2. .... :,
conrmando la propiedad sc1 de la funcin puntuacin antes mencionada.
Dado que el EMV

o
A\
es una raz de la ecuacin de la funcin puntuacin
:
a
(; X) = 0 y :
I
(; X
I
) , o (X
I1
)
o
I=1
es una martingala de media cero
que puede ser escrita como la suma:
:
a
(; X) =

a
I=1
n
I
(; X
I
) ,
podemos usar los teoremas lmite del captulo 9 para probar tanto la
consistencia como la Normalidad asinttica. La forma ms sencilla de ver
esto es denir el proceso (segundo orden) de informacin condicional :

a
(; X) =

a
I=1
1
_
n
2
I
; X
I
[o (X
I1
)
_
,
que tambin es una martingala, porque el proceso de diferencia martingala
n
I
(; X
I
)
o
I=1
se comporta como un proceso no correlacionado (vase el
captulo 8) NOEA que la informacin de Fisher es slo la media de este
proceso, es decir:
I
a
(o) = 1
_
:
2
a
(; X)
_
= 1
a
(; X) .
518 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
Bajo ciertas condiciones regularidad similares a las condiciones de la ma-
triz de informacin en el caso no ID, se puede demostrar que:
(a) [I
a
(o)]
1

a
I=1
n
I
(; X
I
)
c.c.

ao
0.
(b) [I
a
(o)]

1
2

a
I=1
n
I
(; X
I
)
1

ao
` (0. 1) .
Ejemplo 9
Consideremos el modelo autorregresivo Normal:
[i] MG estadstico: A
I
= cA
I1
+n
I
, / N,
[ii] Modelo de probabilidad: =
_
, (r
1
. r
2
. .... r
a
; ) = , (r
1
; )
a

t=2
, (r
I
[r
I1
; ) , (1. 1) R
+
, x R
a
_
,
, (r
1
; ) =
_
1c
2
o
0
_
2j
exp
_

(1c
2
)
2
a
2
I
o
2
0
_
, , (r
I
[r
I1
; ) =
1
o
0
_
2j
exp
_

1
2
(a
I
ca
I1
)
2
o
2
0
_
,
: = (c. o
2
0
), c =
1(A
I1
A
I
)
1(A
2
I1
)
, o
2
0
= 1
_
A
2
I1
_

[1(A
I1
A
I
)]
2
1(A
2
I1
)
[iii] Modelo muestral: (A
1
. A
2
. .... A
a
) es una muestra estacionaria depen-
diente Markov extrada secuencialmente de , (r
I
[r
I1
; ), / N.
La distribucin de la muestra X := (A
1
. A
2
. .... A
a
) se determina a travs
de:
A
1
~`
_
0.
o
2
0
1 c
2
_
,
_
A
I
A
It
_
~`
_
_
_
0
0
_
.
_
_
_
o
2
0
1c
2
_ _
o
2
0
1c
2
_
c
[t[
_
o
2
0
1c
2
_
c
[t[
_
o
2
0
1c
2
_
_
_
_
_
,
/. t = 1. 2. .... :.
La funcin de log-verosimilitud toma la forma:
In1(; x) =
1
2
In
_
1 c
2
_

:
2
In o
2
0

1
2o
2
0
_
d
00
2cd
01
+c
2
d
11
_
,
d
i,)
=

ai
I=)+1
r
I
r
I+i)
, i. , = 0. 1.
Las condiciones de primer orden son:
9.5. EL MTODO DE MXIMA VEROSIMILITUD 519
_
0In 1(;x)
0o
2
0
=
a
2o
2
0
+
1
2o
4
0
d
00
2cd
01
+c
2
d
11
= 0
0In 1(;x)
0c
=
c
(1c
2
)

co
11
2o
01
2o
2
0
= 0,
_
=
o
2
0
=
1
:
_
d
00
2 cd
01
+ c
2
d
11
_
,
__
: 1
:
_
d
11
_
c
3
+
__
: 2
:
_
d
01
_
c
2

_
d
11
+
_
d
00
:
__
c +d
01
= 0.
La primera ecuacin da el EMV de o
2
, pero la segunda es una ecuacin
cbica con tres races, pero la nica relevante es la raz relacionada con el
intervalo (21,1). Aunque hay una solucin de forma cerrada a esta ecuacin
es muy complicada y a menudo c se estima utilizando un algoritmo de aprox-
imacin numrica, como el de Newton-Raphson descrito anteriormente.
La derivacin se puede simplicar de manera signicativa, dejando la
distribucin de la observacin fuera y obtener el EMV aproximado basado
en:
In1(; x) =
: 1
2
In o
2
0

1
2o
2
0

a
I=2
(r
I
cr
I1
)
2
.
Por lo tanto, obtenemos los EMV aproximados resolviendo las condiciones
de primer orden:
JIn 1(; x)
Jc
=
1
o
2
0

a
I=1
(r
I
cr
I1
) r
I1
= 0, = c =

a
I=2
r
I
r
I1

a
I=2
r
2
I1
,
JIn 1(; x)
Jo
2
0
=
: 1
2o
2
0
+
1
2o
4
0

a
I=2
(r
I
cr
I1
)
2
= 0, = o
2
0
=
1
: 1

a
I=2
(r
I
cr
I1
)
2
,
_
J
2
In 1(; x)
Jc
2
_
=
1
o
2
0

a
I=2
r
2
I1
, =1
_

J
2
In 1(; x)
Jc
2
[o (X
I1
)
_
=
1
o
2
0

a
I=2
r
2
I1
,
_
JIn 1(; x)
Jo
2
0
Jc
_
=
1
o
4
0

a
I=2
(r
I
cr
I1
) r
I1
, =1
_

JIn 1(; x)
Jo
2
0
Jc
[o (X
I1
)
_
= 0,
_
JIn 1(; x)
Jo
4
0
_
=
: 1
2o
4
0

1
o
6
0

a
I=2
(r
I
cr
I1
)
2
= 0, =1
_

JIn 1(; x)
Jo
4
0
[o (X
I1
)
_
=
: 1
2o
4
0
.
La matriz de informacin condicional toma la forma:
520 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN

a
_
c. o
2
0
; X
_
=
_
1
o
2
0

a
I=2
r
2
I1
0
0
a1
2o
4
0
_
que recuerda a una de la regresin lineal discutida anteriormente. Te-
niendo en cuenta que:
I
a
(c) = 1
_
1
_

J
2
In 1(; x)
Jc
2
[o (X
I1
)
__
=
1
o
2
0
1
_

a
I=2
r
2
I1
_
=
1
o
2
0
_
o
2
0
1 c
2
_
=
1
1 c
2
.
Por lo tanto, podemos concluir que:
_
:( c c) ~
o
`
_
0.
_
1 c
2
__
,
_
:
_
o
2
0
o
2
0
_
~
o
`
_
0. 2o
4
0
_
.
Heyde (1975) sugiere el uso de la informacin condicional para la normal-
izacin:
_

a
I=2
r
2
I1
( c c) ~
o
`
_
0. o
2
0
_
.
9.5.5 El mtodo de mxima verosimilitud y sus crticos
Los resultados relativos a los EMV discutidos anteriormente justican la
amplia aceptacin de la mxima verosimilitud (ML) como el mtodo elegido
para los propsitos de estimacin. Resulta que hay buenas razones para
que tambin el mtodo ML se preera para propsitos de prueba (vase el
captulo 14). A pesar de la amplia aceptacin del mtodo MV hay tambin
crticos que sealan varios ejemplos en los que el mtodo no produce resulta-
dos satisfactorios. Estos ejemplos incluyen los casos en que (a) el tamao de
la muestra es excesivamente pequeo, (b) las condiciones de regularidad no
se cumplen y (c) el modelo postulado est mal especicado. En cuanto a lo
que se reere a la primera categora de ejemplos, investigando para un buen
estimador en los casos en que el tamao de la muestra es excesivamente pe-
queo, la crtica est completamente fuera de lugar porque el modelador est
buscando el famoso almuerzo gratis. La crtica del mtodo de MV basada en
ejemplos que no cumplen las condiciones de regularidad est tambin fuera
de lugar porque si el modelador busca mtodos con cualquier caracter general
las condiciones de regularidad son inevitables. Sin condiciones de regulari-
dad cada problema de estimacin ser considerado nico; ningn principios
9.5. EL MTODO DE MXIMA VEROSIMILITUD 521
unicador es posible. La tercera categora merece ms discusin, ya que
pone de maniesto un problema importante en la modelacin emprica. En
esta categora clasicamos todos los modelos estadsticos que especican los
parmetros desconocidos que, o bien crecen con el tamao de la muestra
o bien se relacionan con alguna operacin extraamente impuesta tal como
truncamiento o censura de la muestra (vase Cohen (1991)). De esta ltima
categora vamos a considerar el ejemplo por excelencia.
Ejemplo 10
Consideremos el modelo de Neyman y Scott (1948):
[i] MG estadstico: A
i)
= 1 (A
i)
) +c
i)
, i N, , N, donde 1 (A
i)
) = j
i
,
[ii] Modelo de probabilidad: =
_
, (x; ) =
a

i=1
.

)=1
1
o
_
2
c

1
2
2
(a
.
j
.
)
2

. R
a
R
+
, r
i)
R
_
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra independi-
ente.
Los "EMV" se obtienen de la resolucin de las condiciones de primer
orden:
_
_
_
0In 1(;x)
0j
.
=
1
o
2

.
)=1
(A
i)
j
i
) = 0
0In 1(;x)
0o
2
=
aA
2o
2
+
1
2o
4

a
i=1

.
)=1
(A
i)
j
i
)
2
= 0
_
_
_
=
j
i
=
1
`

.
)=1
A
i)
, o
2
=
1
:`

a
i=1

.
)=1
(A
i)
j
i
)
2
=
1
:

a
i=1
:
2
i
,
donde :
2
i
:=
1
a

.
)=1
(A
i)
j
i
)
2
. El argumento comnmente utilizado
contra el mtodo de MV se basa en el resultado de que:
1
_
:
2
i
_
=
(` 1)
`
o
2
= o
2
c.c.

(` 1)
`
o
2
,
y por lo tanto o
2
es un estimador inconsistente de o
2
.
Un momento de reexin, sin embargo, revela que el argumento de incon-
sistencia sobre la base de : , est mal pensado, porque al mismo tiempo,
el nmero de parmetros desconocidos (j
1
. j
2
. .... j
n
) aumenta hasta innito!
El modelador debe ser escptico de cualquier mtodo de estimacin que pro-
porciona un estimador consistente de o
2
sin imponer algunas restricciones
adicionales relativas a lo que ocurre con j
a
cuando : . Consideramos el
522 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
hecho de que el mtodo MV no proporciona estimadores ptimos en los casos
en los que el modelo estadstico est mal especicado como un argumento a
su favor, no en contra!
9.6 Ejercicios
1. Compare los dos primeros momentos crudos de la muestra y los momentos
centrales de la muestra en relacin con los parmetros que pretenden estimar.
2. Compare mnimos cuadrados como mtodo de aproximacin matemtica
y el mtodo estadstico de mnimos cuadrados.
3. Compare y contraste el mtodo de momentos de Pearson con el mtodo
paramtrico de momentos.
4. Explique por qu constituye un anacronismo comparar el mtodo de
mxima verosimilitud con el mtodo paramtrico de momentos.
5. "La comparacin de los estimadores de mxima verosimilitud y del
mtodo paramtrico momentos por razones de eciencia no es un ejercicio
muy interesante." Discuta.
6. Describa los principales inconvenientes del mtodo de Pearson para
deducir un modelo descriptivo.
7. Explique el principio de los momentos coincidentes y comparelo con el
mtodo paramtrico de momentos.
8. Para el modelo estadstico Bernoulli obtenga el estimador de mnimos
cuadrados de o, su distribucin muestral y sus propiedades.
9. Considere el modelo estadsticoNormal simple.
(a) Obtenga los EMV de (j. o
2
) y sus distribuciones muestrales.
(b) Obtenga los estimadores de mnimos cuadrados de (j. o
2
) y sus
distribuciones muestrales.
(c) Compare estos estimadores en trminos de las propiedades ptimas,
insesgamiento, ecacia completa y consistencia.
10. Considere el modelo estadsticoNormal simple con j = 0, es decir, el
modelo de probabilidad es:
=
_
, (r; o) =
1
o
_
2:
exp
_

1
2o
2
r
2
_
. o := o
2
0, rR
_
.
Deducir el EMV de o y compararlo con el estimador:
9.6. EJERCICIOS 523
o
2
=
1
: + 2

a
I=1
A
I
,
en trminos de su ECM.
11. Considere el modelo estadstico simple de Laplace basado en el modelo
de probabilidad:
=
_
, (r; o) =
1
2o
c

1
0
[a[
, o 0, rR
_
.
Deducir el EMV de o y compararlo con los estimadores MPM y de mni-
mos cuadrados.
12. Consideremos el modelo estadstico simple de Pareto basado en el
modelo de probabilidad:
=
_
, (r; o) = or
0
0
r
(0+1)
. o 0, r r
0
0, rR
_
.
13. Exponga las propiedades ptimas de los estimadores de mxima
verosimilitud (muestras nitas y asintticas).
14. Explique la diferencia entre:
(a) informacin de la muestra y de observacin individual de Fisher,
(b) matrices de informacin y de informacin observada de Fisher,.
(c) matrices de informacin y de informacin condicional de Fisher.
15. "El mtodo de mxima verosimilitud minimiza la distancia entre las
probabilidades tericas y sus contrapartes empricas segn su denicin por
la funcin de distribucin acumulada emprica (fdae)." Discuta.
16* Obtenga el esquema iterativo para el mtodo de puntuacin en la
evaluacin del EMV de las condiciones de primer orden en el caso del modelo
logstico simple.
17* Obtenga el esquema iterativo para el mtodo de puntuacin en la
evaluacin del EMV de c uno en el caso del modelo Gamma simple.
18* Explique por qu los procesos :
I
(. X
I
)
o
I=1
y n
I
(. X
I
)
o
I=1
, denidos
en la seccin 5.4, constituyen, respectivamente, un martingala y un proceso
de diferencia martingala con respecto a o (X
I1
).
524 CAPTULO 9. ESTIMACIN II: MTODOS DE ESTIMACIN
Captulo 10
Prueba de hiptesis
10.1 Introduccin
10.1.1 Las dicultades inherentes en el dominio de las
pruebas de hiptesis
Las prueba de hiptesis es una de los ms importantes, pero tambin una de
las partes ms confusas de la inferencia estadstica, por varias razones, entre
ellas las siguientes:
(i) la necesidad de introducir numerosos nuevos conceptos antes de que
uno sea capaz de denir el problema de manera adecuada,
(ii) el hecho de que la discusin actual de libros de texto del problema
constituye un hbrido inepto de dos enfoques fundamentalmente diferentes a
las pruebas (lo que Gigerenzer (1987) llama la "teora hbrida") y
(iii) el hecho de que no existe un mtodo nico para la construccin de
"buenas" pruebas en la mayora de circunstancias, comparable con el mtodo
de estimacin de mxima verosimilitud.
Se hace un intento para mitigar estos problemas mediante la utilizacin
de una serie de tcnicas de enseanza, la ms importante de las cuales es
el desarrollo histrico de las pruebas desde nales del siglo 19. Hay que
decir que esta se utiliza como un recurso de enseanza y no intenta dar
una explicacin completa del desarrollo histrico de las pruebas: una tarea
importante que an no se ha realizado. La dimensin histrica de la prueba se
utiliza principalmente para facilitar el problema de la introduccin de muchos
conceptos demasiado rpido y para poner de maniesto las diferencias entre
525
526 CAPTULO 10. PRUEBA DE HIPTESIS
los enfoques de Fisher y Neyman-Pearson a la prueba.
Como preludio a la discusin resumimos una serie de diferencias funda-
mentales entre la explicacin tradicional de las pruebas y las interpretaciones
propuestas en la discusin que sigue:
(a) la prueba hbrida "forjada" por los libros de texto de estadstica en
la dcada de 1960 es deciente,
(b) la formulacin de Neyman-Pearson no ha superado la de Fisher,
(c) las dos formulaciones son diferentes pero complementarias,
(d) el enfoque de Neyman-Pearson se adapta mejor a las pruebas dentro
de los lmites demarcados por el modelo postulado y
(e) el enfoque de Fisher se adapta mejor a las pruebas fuera de los mismos
lmites.
La discusin en este captulo se entremezcla con ejemplos y algunos de
los conceptos ms difciles se han introducido a travs de ejemplos de este
tipo.
10.1.2 Una vista panormica del captulo
En la seccin 2 discuimos el enfoque de Fisher (a menudo llamado pruebas
de signicancia pura), considerado como una extensin natural de los pro-
cedimientos de prueba heredados de Edgeworth y Pearson. En la seccin 3
se examina el enfoque de Neyman-Pearson, prestando especial atencin a su
relacin con el enfoque de Fisher. La seccin 4 discute brevemente los tres
procedimientos de prueba asinttica: la razn de verosimilitud, puntuacin
eciente y los procedimientos de prueba de Wald. En la seccin 5 de los
dos enfoques se comparan y contrastan. Se argumenta que el enfoque de
Fisher es ms adecuado para la prueba de hiptesis que van ms all de los
lmites demarcados por el modelo estadstico postulado. Por otro lado, el
enfoque de Neyman-Pearson es esencialmente pruebas dentro de los lmites
del modelo estadstico postulado. En este sentido, los dos enfoques, aunque
fundamentalmente diferentes, son considerados como complementarios.
IMPORTANTE: como todas las dems formas de inferencia estadstica,
la prueba de hiptesis comienza con la postulacin por parte del modelador
de un modelo estadstico que pretende describir el mecanismo estocstico que
dio origen a los datos observados en cuestin y por lo tanto los resultados de
inferencia dependen fundamentalmente de la sucienca del modelo estadstico
postulado.
10.2. PRELIMINARES AL ENFOQUE DE FISHER 527
10.2 Preliminares al enfoque de Fisher
La prueba de hiptesis en el principio del siglo 19 alcanz a nada ms que
una comparacin informal entre los valores de los parmetros especicados
por la hiptesis considerada y de las estimaciones correspondientes. Es decir,
la prueba de una hiptesis de la forma:
o = o
0
, (14.1)
tom la forma de comprobar si la discrepancia entre una estimacin

o de
o y el valor especicado o
0
era "cercano a cero" o no, es decir,

o o
0

- 0. (14.2)
Qu tan grande debe ser la diferencia para ser considerada "lo suciente-
mente grande" nunca se formaliz adecuadamente.
En esta primera etapa podemos distinguir varias caractersticas que sern
conservadas en el desarrollo posterior de las pruebas de hiptesis. Estas
caractersticas incluyen:
(i) una nocin primitiva de una hiptesis de inters: o = o
0
y
(ii) una funcin distancia:

o o
0

.
Esta es claramente la prehistoria de la prueba. La historia real de la
prueba comienza con Edgeworth.
10.2.1 Edgeworth
Un ejemplo tpico de un procedimiento de prueba a nales del siglo 19 es pro-
porcionado por Edgeworth (1885) al comparar la diferencia entre dos medias.
La idea fue comparar dos muestras diferentes (o submuestras) para evaluar
si tienen la misma media o no. Una forma de ver este problema es comenzar
con una muestra X := (A
1
. A
2
. .... A
a
) y dividirla en dos submuestras de
tamao :
1
2 y :
2
2 observaciones, respectivamente (: = :
1
+:
1
):
X := (A
1
. A
2
. .... A
a1
. A
a1+1
. .... A
a
) .
El sentido comn y el conocimiento estadstico de la poca sugiri buscar
en los dos primeros momentos submuestrales (a posteriori interpretados como
estimadores momento principio de coincidencia):
528 CAPTULO 10. PRUEBA DE HIPTESIS
j
1
=
1
:
1
a
1

i=1
A
i
, o
2
1
=
1
:
1
a
1

i=1
(A
i
j
1
)
2
, j
2
=
1
:
2
a

i=a
1
+1
A
i
, o
2
2
=
1
:
2
a
1

i=a
1
+1
(A
i
j
2
)
2
,
Edgeworth argument que si la distancia estandarizada entre las dos me-
dias submuestrales es mayor que una constante preespecicada:
(X) :=
[ j
1
j
2
[
_
o
2
1
+ o
2
2
2
_
2, (14.3)
la diferencia entre las dos medias no se puede justicar como "accidental"
y parecer ser signicativa. De dnde proviene la constante? En aquel
entonces la nica distribucin disponible para este tipo de anlisis estadstico
fue la Normal y, de manera inevitable, la constante 2 fue relacionada con
ella. Resulta que la probabilidad de la distribucin Normal ms all del valor
2
_
2 es igual a 0.005; el valor de ocurrencia accidental. Retrospectivamente,
la prueba de Edgeworth podra interpretarse como una prueba de la hiptesis:
j
1
= j
2
= j.
permitiendo la posibilidad de que las varianzas sean diferentes, es decir,
A
I
~`
_
j
1
. o
2
1
_
, / = 1. 2. .... :
1
, A
I
~`
_
j
2
. o
2
2
_
, / = :
1
+ 1. .... :,
en el contexto de un modelo Normal simple:
[i] MG estadstico: A
I
= 1 (A
I
) +n
I
, / N,
[ii] Modelo de probabilidad: =
_
, (r; ) =
1
o
_
2
c

1
2
2
(aj)
2

. := (j. o
2
) R R
+
, rR
_
,
[iii] Modelo muestral: X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
Comparando este resultado con el concepto primitivo de prueba antes de
la poca de Edgeworth, podemos ver que aadi dos caractersticas:
(iii) el concepto de distancia (estandarizada): (X),
(iv) una regla de rechazo: (X) 2
_
2.
Las cuatro caractersticas fueron desarrolladas an ms por Pearson y
posteriormente formalizadas por Fisher en el siglo 20.
10.2. PRELIMINARES AL ENFOQUE DE FISHER 529
10.2.2 Pearson
La primera prueba importante que se extiende tanto a la tradicin estadstica
de Pearson como a la de Fisher (ver captulo 13), es la llamada prueba chi
cuadrada de Pearson. Pearson (1900) propuso esta prueba como una forma
de medir la "bondad de ajuste" en el caso de elegir un modelo descriptivo
de un conjunto particular de datos dentro de la familia Pearson (Pearson
(c. /
0
. /
1
. /
2
)), como se describe en el captulo 13.
Utilizando los primeros cuatro momentos crudos de la "muestra" X :=
(A
1
. A
2
. .... A
a
), el procedimiento de Pearson estima los cuatro parmetros
que denen la familia Pearson. A su vez estas estimaciones

:=
_
c.

/
0
.

/
1
.

/
2
_
selecciona un miembro de la familia Pearson, por ejemplo ,
0
(r), que describe
mejor los datos con ,
0
_
r;

_
, su contraparte emprica. La hiptesis de inters
de Pearson era si la eleccin de ,
0
(r) es vlida, es decir,
, (r) = ,
0
(r) , donde , (r) Pearson (c. /
0
. /
1
. /
2
) (14.5)
Dado que el procedimiento de Pearson alcanz a ajustar una curva en
el histograma, no es sorprendente descubrir que Pearson obtuvo su prueba
al comparar las frecuencias empricas (no las frecuencias relativas) (

,
i
, i =
1. 2. .... :) con las correspondientes frecuencias tericas (,
i
, i = 1. 2. .... :)
(segn lo especicado por ,
0
(r)), donde los intervalos (i = 1. 2. .... :) son
mutamente excluyentes y cubren el rango de los valores de la variable aleato-
ria considerada . La funcin distancia estandarizada tom la forma de suma
de cuadrados estandarizados:
j (X) =
n

i=1
_

,
i
,
i
_
2
,
i
. (14.6)
Se demostr que, suponiendo que la curva de frecuencia terica ,
0
(r) es
apropiada, j (X) tiene una distribucin asinttica chi cuadrada con (:1)
grados de libertad, es decir,
j (X) ~
o

2
(:1) (14.7)
NOTAS:
530 CAPTULO 10. PRUEBA DE HIPTESIS
(i) El uso de las distribuciones asintticas se utiliz rutinariamente du-
rante los siglos 19 y 20. Lo que cambio con el tiempo esta prctica fue el
resultado seminal de Gosset (1908).
(ii) Lo importante de este resultado es que la distribucin (asinttica) no
depende ni de la naturaleza de la curva de frecuencia elegida por los datos
ni del nmero de puntos de datos; es muy sensible, sin embargo, al nmero
de intervalos m.
(iii) El resultado distribucional en (14.7) se obtiene del supuesto implcito
de que la hiptesis de inters es vlida; este es un supuesto que fue hehco
explcitamente por Fisher.
La intuicin sugiere que cuanto mayor sea el valor de j, peor es el ajuste.
Por lo tanto, para un valor dado de j (X), por ejemplo j (x) (basado en los
datos observados x), el modelador decidira si la distancia era lo suciente-
mente grande como para indicar una "mal ajuste" usando la probabilidad de
la cola
2
(:1):
1 (j (X) j (x)) = j. (14.8)
Un pequeo valor de j corresponde a un valor grande de j y, por lo tanto,
cuanto menor sea el valor de j, peor ser el ajuste.
Las contribuciones Karl Pearson a las pruebas se puede resumir de la
siguiente manera:
(a) la ampliacin de la especicacin de la hiptesis de inters,
(b) la deduccin de una funcin distancia, cuya distribucin es libre de
,
0
(r) y,
(c) el uso de la probabilidad de una cola para evaluar la validez de la
hiptesis de inters.
El uso de probabilidad de una cola est implcito en Edgeworth, pero
Pearson lo formaliz al poner en escena de manera explcita la distribucin
(asinttica) de la funcin distancia. Por lo tanto, Pearson, adems de mejorar
algunas de las caractersticas heredadas, agreg algo ms:
(v) la distribucin (14.7) de una funcin de distancia y
(vi) la probabilidad de una cola (14.8).
La lgica del sentido comn de la probabilidad de una cola era que si
el valor de j (X) pasara a pertenecer a una rea de alta probabilidad de la
distribucin chi cuadrado entonces los datos observados pareceran apoyar la
hiptesis de inters, pero si cae en una rea de muy baja probabilidad (en la
remota cola derecha de la distribucin) no la apoya.
10.2. PRELIMINARES AL ENFOQUE DE FISHER 531
A pesar de que la anterior prueba de ajuste fue desarrollada por Pearson
para pruebas dentro de la familia Pearson, cuando se ve en el contexto de
la inferencia estadstica, su aplicabilidad es ms amplia que su mbito de
aplicacin original, como lo ilustra ejemplo siguiente.
Ejemplo
Considere uno de los ejemplos histricos ms importantes usando datos
de Mendel basado en su experimento clsico de mejoramiento de la forma y
el color de las plantas de chcharos. La teora de Mendel sobre la herencia en
relacin con las variables aleatorias A-forma, 1 -color, denida de la siguiente
manera:
A(round) = 0, A(rugoso) = 1, 1 (amarillo) = 0, 1 (verde) = 1,
dio lugar a una distribucin bivariada de la forma:
r 0 1 ,
j
()
0 0.5625 0.1875 0.750
1 0.1875 0.0625 0.250
,
a
(r) 0.750 0.250 1.000
Tabla 14.1. Distribucin de dos variables , (r. )
En una muestra aleatoria de tamao 556, los datos de Mendel dieron
lugar a las frecuencias observadas tal como se indican en el cuadro 14.2.
r 0 1

,
j
()
0
_
315
556
_
= 0.566
_
101
556
_
= 0.182 0.748
1
_
108
556
_
= 0.194
_
32
556
_
= 0.058 0.252

,
a
(r) 0.760 0.240 1.000
Tabla 14.2. Frecuencias relativas observadas
Aplicando la prueba chi cuadrada de Pearson usando las frecuencias es-
peradas:
(0.5625)(556) = 312.75. (0.1875)(556) = 104.25. (0.0625)(556) = 34.75.
532 CAPTULO 10. PRUEBA DE HIPTESIS
j (X) =
_
(315 312.75)
2
312.75
_
+
_
(108 104.25)
2
104.25
_
+
_
(32 34.75)
2
34.75
_
= 0.470.
Utilizando la probabilidad de la cola de
2
(3) se obtiene: 1 (j (X) 0.470) =
0.925.
En vista de este valor, los datos proporcionan un excelente apoyo a la
teora de Mendel. Cabe sealar que muchos estadsticos, incluido Fisher,
consideran estos datos sospechosamente "exactos".
Para concluir este apartado observamos que cuando uno ve la contribucin
de Pearson de forma retrospectiva (desde el punto de vista de la inferencia es-
tadstica moderna y no en el contexto de la estadstica descriptiva de Pearson
(ver captulo 13)), dos cuestiones importantes son evidentes:
(i) las hiptesis son en ltima instancia, proposiciones acerca de la dis-
tribucin y no de los parmetros como tales,
(ii) las pruebas puede ser dentro o fuera de los lmites del modelo estads-
tico postulado.
En el caso de la prueba chi cuadrada dada anteriormente la prueba es
fuera porque la hiptesis va ms all de los lmites del modelo postulado;
prueba su validez.
10.2.3 Gosset
El trabajo seminal de Gosset 1908 proporciona la piedra angular sobre la que
Fisher fund la inferencia estadstica moderna. En ese momento se saba que
en el caso del modelo Normal simple (vase (14.4)), el estimador j =
1
a
a

i=1
A
i
tena la siguiente distribucin "muestral ":
j
a
~`
_
j.
o
2
:
_
=t
_
X; j. o
2
_
:=
o
2
:

1
2
( j
a
j) =
_
:( j
a
j)
o
~` (0. 1) .
Se saba tambin que en el caso de que o
2
se sustituya por el estimador
: =
1
a1
a

i=1
(A
i
j
a
)
2
, la distribucin de la funcin:
10.2. PRELIMINARES AL ENFOQUE DE FISHER 533
t (X; j) =
_
:( j
a
j)
:
` (0. 1) , (14.9)
donde se lee "no se distribuye como." Era bien sabido que era normal
slo asintticamente:
t (X; j) =
_
:( j
a
j)
:
~
o
` (0. 1) . (14.10)
Esto se debe a que t (X; j) =
_
a( j
n
j)
c
es una razn de una variable
aleatoria con distribucin normal y la raz cuadrada de la variable aleatoria
:
2
, cuya distribucin no se conoca. Gosset iba a "adivinar" la distribucin
de :
2
deduciendo sus primeros cuatro momentos crudos y sustituyndolos en
las cuatro ecuaciones de la familia Pearson (ver captulo 13). Este ejerci-
cio le llev a concluir que :
2
muy probablemente tena una distribucin chi
cuadrada. Despus de establecer que j
a
y :
2
no estaban correlacionadas
(y pensar errneamente que era lo mismo que ser independientes), pas a
obtener la distribucin de la relacin (14.9) usando un argumento casi heurs-
ticoa para los estndares actuales. En la terminologa de hoy, usando el lema
7 del captulo 11, t (X; j) es la razn entre dos variables aleatorias inde-
pendientes, el numerador l =
_
a( j
n
j)
o
es normalmente distribuido y el
denominador, \ =
(a1)c
2
o
2
es distribuido chi cuadrado, por lo tanto:
t (X; j) =
_
:( j
a
j)
:
~ St (: 1) , (14.11)
donde St(: 1) designa la distribucin t de Student con (:1) grados de
libertad. Lo ms destacable de este resultado es que, en contraste con (14.10),
fue el primer resultado de muestra nita; un resultado distribucional que era
vlido para cualquier tamao de la muestra, no slo para grandes :.
El resulado de Gosset (14.11) es importante para las pruebas de hiptesis
porque representa la primera cantidad clave (pivotal quantity), la quin-
taesencia de muchos estadsticos de prueba.
Una funcin clave (pivotal function) para o es una funcin montona
de o de la forma (X. o):
(.. .) : X R,
cuya distribucin de "muestreo" est libre de los parmetros desconocidos
(). Es decir, adada la distribucin de la muestra 1(X; ), la distribucin
534 CAPTULO 10. PRUEBA DE HIPTESIS
de (X. o) es la misma para todo .
La funcin (14.11) es clave, porque su distribucin es conocida y est
excenta de los parmetros desconocidos (j. o
2
) del modelo estadstico sub-
yacente porque St(: 1) no involucra estos parmetros. Otra importante
cantidad clave ya ha sido encontrada anteriormente:

_
X. o
2
_
=
(: 1) :
2
o
2
~
2
(: 1) .
Una vez ms su distribucin est libre de parmetros desconocidos.
Un estadstico /(X), a diferencia del concepto de funcin clave, es una
funcin de la forma:
/(.) : X R.
Es decir, no involucra ningn parmetro desconocido (ver captulo 11).
10.2.4 La formulacin de Fisher
El resultado (14.11) fue formalmente comprobado y ampliado por Fisher
(1915) y utilizado subsecuentemente como base para varias pruebas de hipte-
sis asociadas a una serie de diferentes modelos estadsticos en una serie de
trabajos, que culmin con su libro de 1925.
Fisher us el resultado (14.11) para obtener una prueba de lo que l llam:
Hiptesis nula: H
0
: j = j
0
.
En trminos del marco de referencia de la inferencia estadstica moderna,
Fisher consider la cuestin de deducir una prueba para la hiptesis nula
anterior en el contexto del modelo Normal simple (vase (14.4)). Su ra-
zonamiento se bas en la denicin de distancia estandarizada de tal manera
que cuanto ms lejos el "verdadero" valor de j est del valor especicado por
H
0
, cuanto mayor sea la distancia, lleva a:
( j
a
j
0
)
_
c
2
a
=
_
:( j
a
j
0
)
:
.
Fisher lleg a deducir un estadstico de prueba argumentando que a pesar
de que (14.11) sea vlida para el "verdadero" valor de j, bajo el supuesto de
que H
0
es vlida, el verdadero valor es j
0
y se puede inferir:
10.2. PRELIMINARES AL ENFOQUE DE FISHER 535
t (X) =
__
:( j
a
j
0
)
:
_
1
0
~ St (: 1) , (14.12)
donde "
1
0
~" se lee "bajo H
0
se distribuye como".
Un estadstico de prueba. La esencia del resultado de Fisher (14.12)
es que l transform la funcin clave de Gosset t (X. o) en un estadstico
de prueba t (X): la funcin distancia de la muestra (un estadstico) cuya
distribucin es conocida y no depende de los parmetros desconocidos . Esto
se logr deduciendo la distribucin del estadstico t (X.
0
), que no involucra
ningn parmetro desconocido bajo H
0
: =
0
; es decir, deduciendo la
distribucin muestral de t (X. o), asumiendo que la hiptesis nula es vlida .
Utilizando este resultado, Fisher procedi a derivar una medida de "cunto
se desva una realizacin muestral particular de H
0
", sobre la base de la
probabilidad del rea de la cola de la distribucin (14.12) ms all del valor
observado t (x) del estadstico t (X). Esta medida, conocida como el valor
de probabilidad o p-value por brevedad, toma la forma:
1 (t (X) _ t (x) ; H
0
es vlida) = j. (14.13)
Por denicin, el p-value evala el peor escenario posible para la hiptesis
nula en el sentido de que involucra el valor observado del estadstico y las
realizaciones ms dainas para la nula. Mide la probabilidad de observar una
realizacin de la muestra que producira un valor estadstico igual o peor que
el que ya se ha observado. La interpretacin de Fisher del p-value puede ser
considerada como una formalizacin de la opinin heredada:
si el p-value es pequeo, esto implica que o bien la realizacin observada
del estadstico de prueba constituye un suceso muy raro o bien la hiptesis
nula postulada no es vlida.
En los casos en que el p-value es pequeo, la primera opcin se considera
prcticamente imposible y el modelador adopta el punto de vista de que la
hiptesis postulada no es vlida.
En vista del hecho de que cuanto mayor es el valor de t (x), menor es
el p-value, el modelador puede interpretar los valores pequeos de p como
evidencia contra H
0
; cuanto menor sea el valor de p, menos plausible es H
0
.
En cierto sentido, el p-value puede ser interpretado como una medida de qu
tan adecuadamente la hiptesis nula describe el mecanismo que da lugar a
los datos observados. En las primeras etapas de su trabajo, Fisher sugiri
p-values de 0.05 y 0.01 para ser utilizado como umbrales intuitivos. Ms
536 CAPTULO 10. PRUEBA DE HIPTESIS
tarde, sin embargo, insisti en que hay que separar el p-value de la decisin
de aceptar o rechazar H
0
(vase Fisher (1935a, 1956)).
En resumen, Fisher construye obre el trabajo previo de Edgeworth y Pear-
son pero proporciona ms estructura al procedimiento de prueba de hiptesis:
(a) introduciendo explcitamente el concepto de hiptesis nula,
(b) utilizando el concepto de funcin clave (pivotal function),
(c) introduciendo el concepto de distribucin de muestra nita de la clave
bajo H
0
,
(d) formalizando el concepto de p-value,
(e) introduciendo la naturaleza inferencial de la prueba de hiptesis.
En el contexto del enfoque de Fisher, para denir una prueba se requiere
de una "funcin distancia" que utiliza un "buen" estimador del parmetro
en cuestin. Esta es, entonces, transformada en una funcin clave, tal como
(14.11). Esta funcin clave, bajo H
0
, no involucra parmetros desconocidos
y por lo tanto se convierte en un estadstico de prueba. Para tomar una de-
cisin sobre la validez de H
0
, se utiliza una medida de cunto una realizacin
particular se desva de H
0
. Para Fisher, la decisin que se deber tomar es
si la evidencia sugiere que la hiptesis nula es creble o no
Ejemplos
1. En el caso del modelo Normal simple (vase (14.4)), utilizando los
datos de las puntuaciones del cuadro 1.6 (vase el captulo 1), considerar la
prueba de la hiptesis nula:
H
0
: j = 70.
Para los datos de puntuaciones (ver tabla 1.6): j
a
= 71.686, :
2
= 13.606
y : = 70. Sustituyendo estos en la funcin clave (14.12) se obtiene:
t (X) =
_
_
70 (71.686 70)
13.606
_
= 3.824, 1 ([t (X)[ 3.824; j
0
= 70) = 0.00014,
donde el valor 0.00014 se encuentra en las tablas St(69). El p-value rela-
tivamente bajo indica que los datos no apoyan la validez de H
0
.
2. Conjetura de Arbuthnot. La hiptesis ms ampliamente discutida
durante el siglo 18 fue la famosa hiptesis de Arbuthnot (1710), basada en la
observacin de que en la ciudad de Londres, por un perodo de 82 aos con-
secutivos, nacieron sistemticamente ms hombres que mujeres en cualquier
10.2. PRELIMINARES AL ENFOQUE DE FISHER 537
ao; la conjetura de Arbuthnot era que las probabilidades de hombres a mu-
jeres en los recin nacidos no es "justa".La hiptesis de "juego justo" pueden
formularse en el contexto del modelo simple de Bernoulli:
[i] MG estadstico: A
i
= 1 (A
i
) +c
i
. i N,
[ii] Modelo de probabilidad : =
_
, (r; ) = o
a
(1 o)
1a
. o [0. 1] , r = 0. 1
_
, (14.14)
[iii]Modelo muestral : X := (A
1
. A
2
. .... A
a
) es una muestra aleatoria.
La variable aleatoria se dene por: {mujeres}= A = 1, {hombres}= A =
0, y la hiptesis nula se especica como sigue:
H
0
: o = 0.5.
3. La conjetura de N. Bernoulli. N. Bernoulli llevo la conjetura un
paso ms all y propuso las probabilidades 18:17 para los hombres (vase
Hacking (1965)). La conjetura de Bernoulli puede ser formulado en forma de
la hiptesis nula:
H
0
: o = 0.4857.
Las dos hiptesis toman la forma general: H
0
: o = o
0
, o
0
(0. 1).
La funcin distancia que se sugiere en este caso es:

o
a
o
0

, donde

o
a
=
1
a

a
I=1
A
I
; se muestra en el captulo 12 que es el "mejor" estimador de o.
Dado que

o
a
es una variable aleatoria,

o
a
o
0

es un evento cuya probabil-


idad de ocurrencia puede ser evaluada utilizando la distribucin muestral de

o
a
. En el captulo 12, se demostr tambin que

o
a
Binomialmente distribuida
con media o y [o (1 o) ,:], denotado por:

o
a
~ Bi
_
o.
o (1 o)
:
; :
_
.
Esto sugiere que: t (X; j) =
_
a(

0n0
0)
_
0
0
(10
0
)
~Bi((o o
0
) . 1; :). Por lo tanto,
podemos proceder a obtener el estadstico de prueba:
t (X; j) =
_
:
_

o
a
o
0
_
_
o
0
(1 o
0
)
1
0
~ 1i (0. 1; :) . (14.15)
538 CAPTULO 10. PRUEBA DE HIPTESIS
Prueba de la conjetura de Bernoulli. Los datos observados se reeren
al nmero de nacimientos (hombre, mujer) durante el perodo 1974-6 en
Chipre: : = 25928, 13375 hombres y 12553 mujeres.

o
a
=
12553
25928
= 0.48415, t (x) =
_
25928(0.48415 0.4857)
_
0.4857(0.5143)
= 0.49988.
1 ([t (X)[ 0.49988; o = 0.4857) = 0.617.
El alto p-value sugiere que la evidencia es fuerte en favor de H
0
; la con-
jetura de Bernoulli es apoyada por los datos en el caso de Chipre!
Aunque Fisher ofreci inicialmente algunas reglas empiricas en relacin
con los p-values y la solidez de la evidencia a favor o en contra de la hiptesis
nula, posteriormente hizo un gran esfuerzo por explicar que no eran ms que
toscas orientaciones. En la siguiente tabla ofrecemos similares orientaciones
de "reglas empricas " para ayudar a los no iniciados, a sabiendas de que
puede ser fcilmente criticada como ad hoc e injusticada.
j 0.10: datos que indican un fuerte apoyo para H
0
,
0.05 < j < 0.10: datos que indican poco apoyo para H
0
,
0.02 < j < 0.05: datos que indican falta de apoyo para H
0
,
j < 0.01: datos que indican una fuerte falta de apoyo para H
0
.
10.2.5 Resumen
Pruebas en el contexto del enfoque de Fisher comienzan con la especicacin
de una hiptesis nula, cuya forma ms simple es:
H
0
: o = o
0
.
A pesar de las apariencias, una hiptesis nula no es slo una proposi-
cin acerca de un parmetro, ella es, en ltima instancia, una proposicin
sobre el modelo estadstico subyacente y, como tal, puede tomar varias for-
mas diferentes. Para simplicar, nos limitamos a esta forma simple en esta
seccin.
La construccin de una prueba se puede resumir en los siguientes pasos.
10.2. PRELIMINARES AL ENFOQUE DE FISHER 539
Paso 1. Especicar una "distancia", que intuitivamente tiene sentido
para considerar H
0
como vlida cuando esta distancia es "pequea". Por
lo general, esto implica la eleccin de un buen estimador, por ejemplo

o del
parmetro desconocido o y tomar una funcin de la diferencia entre este
estimador y el valor especicado por la hiptesis nula tal como como

o o
0

o
_

o o
0
_
2
.
Paso 2. Transformar la funcin distancia en una funcin clave. Esto
a menudo implica la estandarizacin de la distancia
_

o o
0
_
utilizando la
distribucin de

o bajo H
0
(asumiendo que H
0
es vlida):
t (X) =

o o
0

_
\ c:
_

o
__1
2
o t (X) =
_

o o
0
_
2
\ c:
_

o
_ ,
y determinar la distribucin de t (X). Esto a veces implica la sustitucin
de los parmetros desconocidos y despus deducir la distribucin de t (X)
suponiendo H
0
es vlida. En los casos en los que la distribucin exacta de
t (X) bajo H
0
es desconocida, la aproximamos, en su lugar, con la distribu-
cin asinttica de t (X) bajo H
0
.
Paso 3. Utilizando la distribucin de t (X) bajo H
0
, especicar los p-
values de la siguiente manera:
1 (t (X) _ t (x) ; H
0
es vlida) = j. (14.16)
Por lo tanto, los principales elementos de una prueba de Fisher
t (X) . j son las siguientes:
(i) una hiptesis nula H0,
(ii) un estadstico de prueba t (X),
(iii) la distribucin de t (X) bajo H
0
,
(iv) el p-value 1 (t (X) _ t (x) ; H
0
es vlida) = j,
donde t (x) denota el valor del estadstico de prueba t (X), dada la re-
alizacin muestral particular X = x. El p-value puede ser visto como una
indicacin de que tan satisfactoria es H
0
, dados los datos observados. En
cierto sentido, el p-value representa el peor de los escenarios para la hiptesis
nula, teniendo en cuenta no slo la realizacin muestral observada, sino tam-
bin realizaciones ms desfavorable. La cuestin de la aceptacin o rechazo
de H
0
es un problema aparte y el p-value no debe confundirse con el nivel
540 CAPTULO 10. PRUEBA DE HIPTESIS
de signicancia del marco de referencia de las pruebas de Neyman-Pearson
discutido a continuacin.
10.3 El marco de referencia de Neyman-Pearson
El resumen anterior pone de maniesto una importante limitacin del enfoque
de Fisher:
Cmo debe el modelador elegir el estadstico de prueba t (X)?
Los argumentos de sentido comn utilizados por Fisher no constituyen
un procedimiento ptimo para deducir la "mejor" prueba posible, de forma
anloga a la de un "mejor" estimador. Esto proporcion la motivacin para
Neyman y Pearson (1928a), cuyo objetivo declarado era hacer frente a esta
limitacin del enfoque de Fisher; algo que Fisher nunca Fisher acepto y que
dio lugar a numerosas discusiones acaloradas entre Neyman y Fisher (vase,
por ejemplo, Fisher (1956) ). Neyman y Pearson (b 1928a, de 1933 a, b)
motivaron su propio enfoque de prueba argumentando que Fisher no tena
una base lgica para:
(a) su eleccin de estadsticos de pruebas tales como (14.12) y
(b) su uso del p-value como una medida de la credibilidad otorgada a H
0
por la realizacin muestral.
Estaba claro que para cada hiptesis nula se podra construir varios es-
tadsticos de prueba y el enfoque de Fisher no proporciona una forma de
decidir cul es el ms adecuado entre estas funciones. Su solucin a este
problema fue ver las pruebas de hiptesis como una eleccin entre hiptesis
rivales y as cambiar el enfoque de la prueba de hiptesis de proporcionar
una medida de la cantidad de credibilidad que los datos observados dan a la
hiptesis nula, a decidir si aceptar o rechazar la hiptesis nula sobre la base
de los datos observados. La clave de su enfoque fue la introduccin del con-
cepto de hiptesis alternativa para complementar el concepto de hiptesis
nula y por lo tanto transformar la prueba en una eleccin entre diferentes
hiptesis.
En un intento por mantener nuestros ojos en el bosque vamos a considerar
el desarrollo del argumento de Neyman-Pearson en etapas. Antes de dispon-
ernos a estudiar el procedimiento de Neyman-Pearson vale la pena repetir
una vez ms que subyacente a todo tipo de inferencia estadstica existe (a)
un modelo estadstico (. X) postulado a priori y (b) un conjunto de datos
10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 541
observados x := (r
1
. r
2
. .... r
a
), vistos como una realizacin de la muestra
x := (A
1
. A
2
. .... A
a
); x es un punto en el espacio muestral n-dimensional:
R
a
a
(vanse los captulos 10 - 11).
10.3.1 Etapa I - El concepto de hiptesis alternativa
La hiptesis de inters en conexin con los modelos Normal simple y de
Bernoulli fue de la forma simple:
H
0
: o = o
0
.
La especicacin de Neyman-Pearson de la hiptesis nula y alternativa a
menudo toma la forma:
H
0
: o = o
0
conta H
1
: o ,= o
0
, pero o o
0
. (14.17)
Esta especicacin divide el espacio de parmetros del modelo estads-
tico que se considere, en dos subconjuntos mutuamente excluyentes:

0
:= o
0
y
1
:= o
0
, donde
0

1
= ?,
0
'
1
= .
Ejemplos
(a) En el caso del modelo Normal simple la hiptesis nula H
0
: j =
10, ahora puede ser reconsiderada en la formulacin de Neyman-Pearson en
conjuncin con una hiptesis alternativa, tomando la forma: H
0
: j = 10
contra H
1
: j R 10, donde
0
:= 10 es un nmero nico y
1
:=
R 10; R excluido el nmero 10.
(b) En el caso del modelo simple de Bernoulli la hiptesis nula H
0
: o =
0.5, ahora puede ser reconsiderada en la formulacin de Neyman-Pearson en
conjuncin con una hiptesis alternativa, tomando la forma: H
0
: o = 0.5
contra H
1
: o [0. 1] 0.5, donde
0
:= 0.5 y
1
:= [0. 1] (0.5) es el
intervalo [0. 1] excluyendo el nmero 0.5.
Una formulacin ms general de la especicacin Neyman-Pearson de la
hiptesis nula y la hiptesis alternativa toma la forma:
H
0
: o
0
contra H
1
: o
1
:=
0
. (14.18)
Ejemplos
542 CAPTULO 10. PRUEBA DE HIPTESIS
(i) En el caso del modelo Normal simple (vase (14.4)) la hiptesis
nula y alternativa pueden ser de la forma: H
0
: j [40. 100] contra H
1
: j
R [40. 100], donde
0
:= [40. 100] y
1
:= R [40. 100].
(ii) En el caso del modelo simple de Bernoulli la hiptesis nula y alterna-
tiva pueden ser de la forma: H
0
: o [0. 0.5] contra H
1
: o (0.5. 1].
La especicacin Neyman-Pearson de la hiptesis nula y la alternativa
dada en (14.18), divide, en efecto, el modelo de probabilidad (original) pos-
tulado:
= , (r; o) . o . r R
a
,
en subconjuntos mutuamente excluyentes usando la particin del espacio
de parmetros =
0
'
1
:

0
= , (r; o) . o
0
. r R
a
,
1
= , (r; o) . o
1
. r R
a
.
Esta frmula pone de maniesto el hecho de que las hiptesis nula y
alternativa son en ltima instancia acerca de la distribucin y no de los
parmetros como parece a primera vista. Por lo tanto, asumiendo que la
"verdadera" distribucin de probabilidad para los datos considerados es ,(r),
un manera ms atenta de especicar estas hiptesis es en trminos de sus
modelos de probabilidad implcitos en cada caso:
H
0
: , (r)
0
contra H
1
: , (r)
1
. (14.19)
Hiptesis simples frente a hiptesis compuestas
En el caso de que
0
o
1
incluyan slo un elemento (distribucin), se
dice que la hiptesis nula o la alternativa es simple, respectivamente; de lo
contrario la llamamos compuesta. En los ejemplos (a) y (b) anteriores la
hiptesis nula es simple, pero la alternativa es compuesta. En los ejemplos
(i) y (ii) tanto la hiptesis nula como la alternativa son compuestas.
Ejemplo
Considere el modelo Normal simple (vase (14.4)) y la hiptesis:
Considere el modelo simple normal (vase (14.4)) y las hiptesis:
H
0
:j = j
0
contra H
1
:j = j
1
, (j
1
j
0
) .
Caso A: o
2
es conocido. Las hiptesis nula y alternativa H
0
y H
1
son
simples porque los modelos de probabilidad bajo H
0
y H
1
son, respectiva-
mente:
10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 543

0
= , (r; j
0
) . r R
a
y
1
= , (r; j
1
) . r R
a
.
Es decir, H
0
y H
1
son simples porque
0
y
1
contienen slo un elemento.
Caso B: o
2
es desconocido. En este caso la hiptesis nula: H
0
:j = j
0
es compuesta porque
0
= , (r; j
0
. o
2
) . o
2
R
+
, r R
a
, representa una
familia completa de funciones de densidad, una para cada valor de o
2
0.
De la misma manera, la especicacin:
H
0
:j = j
0
, o
2
= o
2
0
contra H
1
:j = j
1
, o
2
= o
2
1
,
tiene una H
0
simple y una H
1
simple, ya que ambos
0
y
1
son nicos:

0
=
_
,
_
r; j
0
. o
2
0
_
. r R
a
_
y
1
=
_
,
_
r; j
1
. o
2
1
_
. r R
a
_
.
Una forma an ms exible de la especicacin Neyman-Pearson de la
hiptesis nula y alternativa es:
H
0
: o
0
contra H
1
: o
1
,
1

0
= ?. (14.20)
Ejemplos
(i) En el caso del modelo Normal simple la hiptesis nula y alternativa
pueden ser de la forma: H
0
:j = j
0
contra H
1
:j j
0
.
(ii) En el caso de la conjetura de N. Bernoulli, la especicacin de la
hiptesis nula y la hiptesis alternativa sera adoptar la forma: H
0
:j = 0.4857
contra H
1
:j 0.4857. Esto se debe a que slo estamos interesados en las
alternativas en la direccin de un "juego justo".
En estos casos la hiptesis alternativa no est denida en trminos del
complemento de
0
con respecto a , sino como un subconjunto de la misma.
sta es diseada para proporcionar al modelador la exibilidad de ignorar
ciertas partes del espacio de parmetros de ningn inters a n de mejorar
las propiedades de la prueba (en trminos de potencia; vase ms adelante).
10.3.2 Etapa II - La regin de rechazo
El objetivo principal de la prueba se convierte en la formulacin de una regla
de decisin la que, para cualquier realizacin x de la muestra postulada X,
permite al modelador decidir si acepta o rechaza H
0
. En el caso de una
hiptesis nula como se especica en (14.17), la decisin de aceptar o rechazar
544 CAPTULO 10. PRUEBA DE HIPTESIS
H
0
se basar en un estadstico de prueba t (X). En efecto, el estadstico de
prueba implica una particin del espacio muestral en dos conjuntos com-
plementarios C
0
y C
1
, conocidas como las regiones de aceptacin y rechazo,
respectivamente:
C
0
' C
1
= y C
0
C
1
= ?.
Las decisiones de aceptar o rechazar H
0
se pueden especicar en trminos
de estas dos regiones (vase la gura 14.4):
(i) si x C
0
: aceptar H
0
, (ii) si x C
1
: rechazar H
0
.
Figura 14.4. c
c
para una prueba de una cola
Ejemplos
(i) En el caso del modelo Normal simple, la prueba de las hiptesis: H
0
:
j = 70 contra H
1
: j ,= 70, podra basarse en el estadstico de prueba:
t (X) =
__
:( j
a
70)
:
_
1
0
~ St (: 1) ,
y la intuicin sugiere que es probable que la regin de rechazo sea de la
forma:
C
1
= x : [t (X)[ c ,
para alguna c 0 elegido apropiadamente.
10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 545
(ii) En el caso del modelo simple de Bernoulli, la prueba de la conjetura
de Bernoulli:
H
0
: o = 0.48 contra H
1
: o 0.48. (14.21)
t (X) :=
_
_
:( j
a
0.48)
_
0.48(0.52)
_
1
0
~ Bi (0. 1; :) ,
y otra vez la intuicin sugiere que es probable que la regin de rechazo
sea de la forma:
C
1
= x : [t (X)[ c ,
para alguna c 0 elegida apropiadamente.
NOTA. En Spanos, p. 695 esta ltima igualdad se escribe: C
1
=
x : t (X) c; creo debera escrbirse: C
1
= x : [t (X)[ c.
10.3.3 Etapa III - Los dos tipos de errores
En el caso de las dos hiptesis que se han especicado anteriormente la de-
cisin de aceptar o rechazar H
0
es acompaada por la posibilidad de cometer
uno de los dos tipos de errores:
(i) error tipo I: rechazar la hiptesis nula cuando en realidad es vlida,
(ii) error de tipo II: Aceptar la hiptesis nula cuando en realidad no es
vlida.
Es interesante observar que Neyman y Pearson (1928a) critic a Fisher
para reconocer slo el error tipo I haciendo caso omiso del error de tipo II.
Esta crtica, sin embargo, estaba fuera de lugar porque Fisher no vio las prue-
bas de hiptesis como una decisin de aceptar o rechazar H
0
. Consideraba
las pruebas de hiptesis como un procedimiento inferencial que permite al
modelador evaluar el apoyo otorgado por los datos a la hiptesis de que se
trate.
H
0
vlida H
0
no vlida
Aceptar H
0
decisin correcta error tipo II
Rechazar H
0
error tipo I decisin incorrecta
(a) La probabilidad del error tipo I
546 CAPTULO 10. PRUEBA DE HIPTESIS
La probabilidad de error tipo I en un punto o = o
0
, en su forma general
se puede expresar por:
1 (x C
1
; o = o
0
) = c.
Considere el modelo simple de Bernoulli (vase (14.14)) y la hiptesis
especicada por:
H
0
: o = 0.5 contra H
1
: o ,= 0.5.
La intuicin sugiere que la regin de rechazo para H
0
tomar la forma
[o
a
0.5[ c, donde c es alguna constante y la proposicin "cuando en
realidad H
0
es vlida", sugiere que la distribucin relevante para evaluar la
probabilidad del error tipo I es (14.15). Es decir, necesitamos evaluar:
1
_

o
a
0.5

c; H
0
es vlida
_
= c,
para diferentes valoes de c = 0.005, 0.01, 0.02, 0.05, 0.1, 0.2, utilizando
las tablas de probabilidades Binomial
1
:
1
_

o
a
0.5

0.005
_
0.472, 1
_

o
a
0.5

0.050
_
0.239,
1
_

o
a
0.5

0.010
_
0.444, 1
_

o
a
0.5

0.100
_
0.078,
1
_

o
a
0.5

0.020
_
0.388, 1
_

o
a
0.5

0.200
_
0.0024.
NOTE que : = 50. Como podemos ver, haciendo el intervalo alrededor
de

o
a
ms pequeo, la probabilidad de error tipo I aumenta (vase la gura
14.1). La pregunta que surge naturalmente en esta etapa es:
Por qu no simplemente hacemos este intervalo muy grande?
En el caso de que el intervalo sea bastante grande, digamos 0.1 <

o
a
0. 9,
es decir, c = 0.4, la probabilidad de tomar la decisin equivocada es muy
cercana a cero. En particular:
1
_

o
a
0.5

0.4
_
0.000.
El problema con esta sugerencia es que, cuando ampliamos este intervalo
incrementamos la probabilidad de tomar otra decisin incorrecta: aceptar la
hiptesis nula cuando no es vlida (error tipo II ).
1
Cmo obtener estas probabilidades no es importante en esta etapa.
10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 547
Figura 14.1. Denicin de una prueba de Neyman-Pearson
(b) La probabilidad del error de tipo II
La probabilidad de error de tipo II en un punto o = o
1
, en su forma
general se puede expresar por:
1 (x C
0
; o = o
1
) = , (o
1
) .
En el caso del modelo simple de Bernoulli, para poder evaluar la prob-
abilidad del error de tipo II necesitamos la distribucin del estadstico de
prueba (14.15):
t (X) =
_
:
_

o
a
0.5
_
_
o (1 o)
1
1
~ 1i
_
_
:(0.55 0.5)
_
0.55 (1 0.55)
. 1; :
_
. (14.22)
En el caso del error de tipo II, tomar la decisin equivocada signica acep-
tar H
0
; decidir que la diferencia

o
a
0.5

no es "signicativamente distinta
de cero". Utilizando la distribucin (14.22) podemos evaluar la probabilidad
del error tipo II usando los mismos valores de c como para la probabilidad del
error tipo I c = 0.005, 0.01, 0.02, 0.05, 0.1, 0.2, 1
_

o
a
0.5

_ c; o = 0.55
_
=
, (0.55), de la siguiente manera:
548 CAPTULO 10. PRUEBA DE HIPTESIS
1
_

o
a
0.5

0.005
_
0.043, 1
_

o
a
0.5

0.050
_
0.422,
1
_

o
a
0.5

0.010
_
0.089, 1
_

o
a
0.5

0.100
_
0.645,
1
_

o
a
0.5

0.020
_
0.178, 1
_

o
a
0.5

0.200
_
0.984.
A partir de estas probabilidades, podemos ver que a diferencia del error
tipo I, la probabilidad de error tipo II disminuye cuando el intervalo alrededor
de la hiptesis nula se hace ms pequeo.
Cmo interpretar los dos tipos de errores? La interpretacin de Neyman
y Pearson es en trminos de repetir el experimento un gran nmero de veces
(el largo plazo). Es decir, una probabilidad 0.05 de error tipo I signica
que en pruebas repetidas del mismo experimento (modelo estadstico) 5 por
ciento de estos casos sern errneamente rechazados (ver Neyman y Pearson
(1933a)). Esta interpretacin fue el tema central de desacuerdo entre Neyman
y Fisher durante varias dcadas. Fisher sigui insistiendo en que an si este
procedimiento es apropiado para largas sucesiones de pruebas de control de
calidad, es completamente inapropiado para la inferencia cientca (vase
Fisher (1956)).
Regin de rechazo 1 (error tipo I; o = 0.5) 1 (error tipo I; o = 0.55)
1
_
x:

o
a
0.5

_ 0.005
_
0.472, 0.043,
1
_
x:

o
a
0.5

_ 0.010
_
0.444, 0.089,
1
_
x:

o
a
0.5

_ 0.020
_
0.388, 0.178,
1
_
x:

o
a
0.5

_ 0.050
_
0.239, 0.422,
1
_
x:

o
a
0.5

_ 0.100
_
0.078, 0.645,
1
_
x:

o
a
0.5

_ 0.200
_
0.002, 0.984.
La tabla de arriba y la gura 14.1 sugieren que existe un intercambio
(trade-o) entre las probabilidades de los errores tipo I y tipo II: a medida
que disminuye la probabilidad del error tipo I la probabilidad del error tipo
II aumenta y viceversa.
Cmo podemos resolver este problema de intercambio?
10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 549
10.3.4 Etapa IV - Construccin de pruebas ptimas
La solucin de Neyman-Pearson (1928a, b, 1933a, b) es darle ms impor-
tancia a la hiptesis nula que a la alternativa. Esto signica que preferimos
asegurar que la probabilidad de rechazar la hiptesis nula cuando vlida
(error tipo I) es pequea, y luego elegir una prueba que minimice la proba-
bilidad del error tipo II. En el contexto anterior, esto equivale a decidir que
la probabilidad del error tipo I es pequea, por ejemplo c = 0.05 o c = 0.01,
y elegir una prueba que minimice el error tipo II. Es decir, asumiendo que
rechazamos la hiptesis nula cuando [t (X)[ c
c
, para alguna constante c
c
,
elegimos el estadstico de prueba [t (X)[, de tal manera que:
(a) 1 ([t (X)[ c
c
; H
0
vlida) = c,
(b) 1 ([t (X)[ _ c
c
; H
1
(o) vlida) = , (o), para o
1
se minimiza.
NOTA: la notacin H
1
(o) se usa para enfatizar la dependencia de H
1
de
o ya que sta vara en el espacio de parmetros
1
.
La anterior solucin representa una convencin que considera el error tipo
I como mucho ms grave y, por lo tanto, las hiptesis nula y alternativa son
tratadas asimtricamente. Al jar el error tipo I a ser un nmero pequeo,
digamos 0.01, lo consideremoa como mucho ms importante que el error
tipo II. Por lo tanto, consideramos que el error de rechazar la hiptesis nula
cuando es vlida es mucho ms grave que el de aceptar la hiptesis nula
cuando es falsa. Una forma emocionalmente cargada de racionalizar esta
opcin convencional es en trminos de la analoga con una prueba de delito
penal. El jurado en una prueba de delito penal es instruido por
el juez para no encontrar al acusado culpable hasta que se han
convencido de que "ms all de cualquier duda razonable" por la
evidencia presentada en la corte durante las deliberaciones.

You might also like