You are on page 1of 420

Financial Econometrics

Alfonso Novales
Departamento de Economia Cuantitativa
Universidad Complutense
4 de diciembre de 2011
Contents
I Econometrics 9
1 Preliminaries 9
1.1 Momentos poblacionales: momentos de una distribucin de prob-
abilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Media, Varianza, Desviacin Tpica, Covarianza y Coeciente de
correlacin muestrales: . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Distribuciones marginales y condicionadas . . . . . . . . . . . . . 16
1.4 El caso del proceso autoregresivo . . . . . . . . . . . . . . . . . . 17
1.5 Distribuciones condicionales e incondicionales en procesos tem-
porales: El caso del proceso autoregresivo . . . . . . . . . . . . . 18
2 Regression models 18
2.1 Properties of estimators . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Unbiasedness . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Variance-covariance matrix of estimates . . . . . . . . . . 19
2.1.3 Eciency . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.4 Consistency . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.5 Instrumental variables . . . . . . . . . . . . . . . . . . . . 20
2.2 Hypothesis testing . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Stochastic Processes 22
3.1 Some simple stochastic processes . . . . . . . . . . . . . . . . . . 22
3.2 Stationarity, mean reversion, impulse responses . . . . . . . . . . 28
3.3 Numerical exercise: Simulating simple stochastic processes . . . . 30
3.4 Stationarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5 Valoracin por simulacin . . . . . . . . . . . . . . . . . . . . . . 35
3.6 Contrastes de camino aleatorio . . . . . . . . . . . . . . . . . . . 35
3.6.1 Coecientes de autocorrelacin . . . . . . . . . . . . . . . 36
1
3.6.2 Contrastes Portmanteau . . . . . . . . . . . . . . . . . . . 37
3.6.3 Ratios de varianza . . . . . . . . . . . . . . . . . . . . . . 37
3.6.4 Ratios y diferencias de varianzas . . . . . . . . . . . . . . 39
4 Modelos VAR 40
4.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 El modelo VAR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Un modelo estructural . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4 Identicacin en un modelo VAR . . . . . . . . . . . . . . . . . . 44
4.4.1 Identicacin y respuestas del sistema . . . . . . . . . . . 47
4.4.2 Generalizando el orden del VAR . . . . . . . . . . . . . . 48
4.5 Condiciones de estabilidad . . . . . . . . . . . . . . . . . . . . . . 49
4.6 VAR y modelos univariantes . . . . . . . . . . . . . . . . . . . . . 50
4.7 Estimacin de un modelo VAR . . . . . . . . . . . . . . . . . . . 50
4.8 Contrastacin de hiptesis . . . . . . . . . . . . . . . . . . . . . . 51
4.8.1 Contrastes de especicacin . . . . . . . . . . . . . . . . . 51
4.8.2 Contrastes de causalidad . . . . . . . . . . . . . . . . . . . 52
4.9 Representacin MA de un modelo VAR . . . . . . . . . . . . . . 53
4.10 Funciones de respuesta al impulso . . . . . . . . . . . . . . . . . 55
4.11 Descomposicin de la varianza . . . . . . . . . . . . . . . . . . . 57
4.11.1 Identicacin recursiva: la descomposicin de Cholesky . 59
4.12 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.13 Apndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.13.1 Transformando un VAR con covarianza no nula en otro
con tal propiedad . . . . . . . . . . . . . . . . . . . . . . . 61
4.13.2 Las innovaciones de un modelo estructural deben estar
incorrelacionadas entre s. . . . . . . . . . . . . . . . . . . 61
4.13.3 Errata en Enders, pgina 299, . . . . . . . . . . . . . . . . 62
5 Modelos no lineales 62
5.1 Minimos Cuadrados no Lineales . . . . . . . . . . . . . . . . . . . 63
5.2 Aproximacin del modelo . . . . . . . . . . . . . . . . . . . . . . 64
5.2.1 Estimacin de modelos MA(q) . . . . . . . . . . . . . . . 65
5.3 Modelo exponencial con constante. Aproximacin lineal . . . . . 66
5.4 Minimizacin de una funcin . . . . . . . . . . . . . . . . . . . . 67
5.5 Estimacin por Mnimos Cuadrados . . . . . . . . . . . . . . . . 68
5.5.1 Algoritmo de Newton-Raphson . . . . . . . . . . . . . . . 69
5.5.2 Algoritmo de Gauss-Newton . . . . . . . . . . . . . . . . . 69
5.5.3 Condiciones iniciales . . . . . . . . . . . . . . . . . . . . . 70
5.6 Estimador de Mxima Verosimilitud . . . . . . . . . . . . . . . . 71
5.7 Criterios de convergencia . . . . . . . . . . . . . . . . . . . . . . 74
5.8 Dicultades prcticas en el algoritmo iterativo de estimacin . . 75
5.9 Estimacin condicionada y precisin en la estimacin . . . . . . . 76
5.10 Algunos modelos tpicos . . . . . . . . . . . . . . . . . . . . . . . 78
5.10.1 Ejemplo 1: Modelo exponencial sin constante. . . . . . . . 78
5.10.2 Ejemplo 2: Un modelo no identicado . . . . . . . . . . . 81
2
5.10.3 Ejemplo 3: Modelo potencial . . . . . . . . . . . . . . . . 82
5.10.4 Ejemplo 4: Modelo AR(1), sin autocorrelacin . . . . . . 83
5.10.5 Ejemplo 5: Modelo constante, con autocorrelacin . . . . 86
5.10.6 Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.10.7 Ejemplo 6: Estimacin de Mxima Verosimilitud del mod-
elo AR(1) con perturbaciones AR(1) . . . . . . . . . . . . 91
6 Modelos ARCH 99
6.1 Un poco de historia . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Propiedades estadsticas . . . . . . . . . . . . . . . . . . . . . . . 100
6.3 Primeras deniciones y propiedades . . . . . . . . . . . . . . . . . 101
6.4 Momentos incondicionales . . . . . . . . . . . . . . . . . . . . . . 101
6.5 Proceso con residuos ARCH . . . . . . . . . . . . . . . . . . . . . 103
6.6 El modelo ARCH(q) . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.7 El modelo ARCH(1) . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.8 Modelo AR(1)-ARCH(1) . . . . . . . . . . . . . . . . . . . . . . . 108
6.9 Modelos ARMA-ARCH . . . . . . . . . . . . . . . . . . . . . . . 110
6.10 El modelo ARCH(q) de regresin . . . . . . . . . . . . . . . . . . 110
6.11 Modelos ARMA-ARCH . . . . . . . . . . . . . . . . . . . . . . . 111
6.12 Modelos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.12.1 Modelos GARCH(p,q) . . . . . . . . . . . . . . . . . . . . 111
6.12.2 El modelo GARCH(1,1) . . . . . . . . . . . . . . . . . . . 113
6.12.3 Modelo IGARCH . . . . . . . . . . . . . . . . . . . . . . . 114
6.12.4 Prediccin de la varianza futura . . . . . . . . . . . . . . 114
6.12.5 Modelo ARCH(p) . . . . . . . . . . . . . . . . . . . . . . 114
6.12.6 Modelo AR(1)-ARCH(1) . . . . . . . . . . . . . . . . . . . 115
6.12.7 Modelo GARCH(1,1) . . . . . . . . . . . . . . . . . . . . . 115
6.12.8 Modelo EGARCH(p,q) . . . . . . . . . . . . . . . . . . . . 116
6.12.9 Otras especicaciones univariantes en la familia ARCH . 118
6.13 Modelos ARCH en media (ARCH-M) . . . . . . . . . . . . . . . 122
6.14 Contrastes de estructura ARCH . . . . . . . . . . . . . . . . . . . 124
6.15 Contrastes de especicacin . . . . . . . . . . . . . . . . . . . . . 125
6.15.1 Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.16 Estimacin por Cuasi-mxima verosimilitud . . . . . . . . . . . . 132
6.17 Contrastacin de hiptesis . . . . . . . . . . . . . . . . . . . . . . 133
6.18 Modelos de varianza condicional como aproximaciones a difusiones.135
6.19 Modelos de varianza condicional y medidas de volatilidad . . . . 138
6.19.1 Canina, L. y S. Figlewski: The informational content of
implied volatility . . . . . . . . . . . . . . . . . . . . . . 138
6.19.2 Day, T.E. y C.M. Lewis, Forecasting futures market volatil-
ity, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.19.3 Day, T.E. y C.M. Lewis, Stock market volatility and the
information content of stock index options . . . . . . . . 140
6.19.4 Engle, R.F., y C. Mustafa: Implied ARCH models from
option prices: . . . . . . . . . . . . . . . . . . . . . . . . 142
3
6.19.5 Noh, J., R.F. Engle, y A. Kane, Forecasting volatility
and option prices of the S&P500 index . . . . . . . . . . 142
6.19.6 French, K.R., G.W. Schwert, y R.F. Stambaugh, Ex-
pected stock returns and volatility . . . . . . . . . . . . 143
6.20 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.20.1 Libros: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.20.2 Artculos: . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.20.3 1
o
Parte: Estructura temporal de volatilidades. Evidencia
emprica desde los mercados. . . . . . . . . . . . . . . . . 144
6.20.4 2
o
Parte: Transmisin de volatilidades entre mercados . . 144
6.20.5 3
o
Parte: Implicaciones para la cobertura de carteras. . . 145
7 Panel data sets 145
7.1 Estimation approaches . . . . . . . . . . . . . . . . . . . . . . . . 148
7.2 The static linear model . . . . . . . . . . . . . . . . . . . . . . . 150
7.2.1 Pooled OLS estimates . . . . . . . . . . . . . . . . . . . . 150
7.2.2 Hypothesis testing . . . . . . . . . . . . . . . . . . . . . . 154
7.2.3 Generalized pooled least squares estimation . . . . . . . . 154
7.3 The Fixed Eects model . . . . . . . . . . . . . . . . . . . . . . . 155
7.3.1 Testing the signicance of the group eects . . . . . . . . 157
7.3.2 Fixed time eects . . . . . . . . . . . . . . . . . . . . . . . 158
7.4 Within and between estimators . . . . . . . . . . . . . . . . . . . 159
7.4.1 The Within groups estimator . . . . . . . . . . . . . . . . 160
7.4.2 The Between groups estimator . . . . . . . . . . . . . . . 160
7.5 Estimating in rst dierences . . . . . . . . . . . . . . . . . . . . 162
7.6 The Random Eects estimator . . . . . . . . . . . . . . . . . . . 163
7.7 Relationship to other estimators . . . . . . . . . . . . . . . . . . 164
7.7.1 Practical implementation of the Random Eects estimator 166
7.7.2 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.7.3 Testing for random eects . . . . . . . . . . . . . . . . . . 168
7.7.4 Goodness of t in panel data models . . . . . . . . . . . . 170
7.7.5 Instrumental variables estimators of the Random Eects
model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.8 Dynamic linear models . . . . . . . . . . . . . . . . . . . . . . . . 174
7.8.1 Linear autoregressive models . . . . . . . . . . . . . . . . 174
7.8.2 General Method of Moments (GMM) estimation . . . . . 176
7.8.3 Dynamic models with exogenous variables . . . . . . . . . 179
II Risk Measurement 180
8 Volatilidad 180
8.1 Midiendo la volatilidad . . . . . . . . . . . . . . . . . . . . . . . . 180
8.1.1 La medicin del riesgo inherente a un activo . . . . . . . . 180
8.1.2 La importancia de medir el riesgo . . . . . . . . . . . . . . 182
8.1.3 Estadsticos descriptivos en la estimacin del Riesgo . . . 183
4
8.1.4 La varianza como indicador de volatilidad: Limitaciones . 187
8.1.5 Volatilidad histrica, volatilidad GARCH, volatilidad im-
plcita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.1.6 Algunas cuestiones estadsticas previas . . . . . . . . . . . 191
8.1.7 Rentabilidades continuas . . . . . . . . . . . . . . . . . . . 193
8.1.8 Rango esperado de precios bajo el supuesto de Normalidad200
8.1.9 La varianza como variable temporal . . . . . . . . . . . . 203
8.1.10 Rendimientos diarios y bandas de conanza . . . . . . . . 206
8.2 Utilizacin de informacin intrada en la medicin de la volatili-
dad de un activo nanciero . . . . . . . . . . . . . . . . . . . . . 207
8.2.1 Medidas de Parkinson y Garman-Klass . . . . . . . . . . . 207
8.2.2 Uso de rentabilidades intradiarias . . . . . . . . . . . . . . 210
8.2.3 Estacionalidad intra-da en volatilidad . . . . . . . . . . . 211
8.2.4 Agregacin temporal de volatilidades . . . . . . . . . . . . 212
8.2.5 Volatilidad implcita versus volatilidad histrica . . . . . . 213
8.3 Modelizacin y prediccin de la volatilidad . . . . . . . . . . . . . 217
8.3.1 El modelo de alisado exponencial . . . . . . . . . . . . . . 219
8.3.2 El modelo GARCH(1,1) . . . . . . . . . . . . . . . . . . . 220
8.3.3 Estructura temporal de volatilidad . . . . . . . . . . . . . 225
8.3.4 Prediccin de volatilidad . . . . . . . . . . . . . . . . . . . 226
8.3.5 Extensiones . . . . . . . . . . . . . . . . . . . . . . . . . . 227
8.3.6 Estimacin de correlaciones . . . . . . . . . . . . . . . . . 228
8.4 Estimacin de covarianzas condicionales . . . . . . . . . . . . . . 228
8.5 Modelizacin de correlaciones condicionales . . . . . . . . . . . . 229
8.5.1 Modelos de suavizado exponencial (Exponential smoother) 230
8.5.2 Correlaciones dinmicas GARCH (DCC GARCH) . . . . 231
8.5.3 Estimacin por cuasi-mxima verosimilitud . . . . . . . . 232
9 Valor en Riesgo 232
9.1 RiskMetrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
9.2 Varianza de una cartera a partir de activos individuales . . . . . 235
9.2.1 Uso de informacin intrada . . . . . . . . . . . . . . . . . 236
9.3 Incertidumbre paramtrica en el clculo del VaR . . . . . . . . . 236
10 Desviaciones de Normalidad 243
10.1 Contrastes de Normalidad: Jarque-Bera, Kolmogorov, QQ-plots . 243
10.2 La distribucin t de Student estandarizada . . . . . . . . . . . . 243
10.2.1 Estimacin de la densidad t de Student . . . . . . . . . . 244
10.2.2 Estimacin del nmero de grados de libertad por el Mtodo
de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 246
10.2.3 QQ plots para distribuciones t de Student . . . . . . . . . 246
10.2.4 Clculo del valor en riesgo (VaR) bajo una distribucin

t(d)247
10.3 La aproximacin Cornish-Fisher . . . . . . . . . . . . . . . . . . . 248
5
11 Teora de valores extremos (EVT) 249
11.1 Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
11.2 Construccin del QQ-plot bajo la EVT. . . . . . . . . . . . . . . 252
11.3 Clculo del VaR bajo EVT . . . . . . . . . . . . . . . . . . . . . 252
11.4 Prdida esperada (Expected shortfall) . . . . . . . . . . . . . . . 253
11.4.1 Aplicacin prctica de los procedimientos de EVT . . . . 254
11.5 Valoracin de opciones en presencia de asimetra y curtosis. El
modelo Gram-Charlier. . . . . . . . . . . . . . . . . . . . . . . . . 254
11.6 El modelo GARCH de valoracin de opciones . . . . . . . . . . . 258
11.7 Teora de valores extremos (versin 2) . . . . . . . . . . . . . . . 262
11.7.1 Estimacin del modelo . . . . . . . . . . . . . . . . . . . . 263
12 The single-factor model 263
12.1 An introduction to factor models . . . . . . . . . . . . . . . . . . 263
12.2 The structure of the single-factor model . . . . . . . . . . . . . . 266
12.2.1 Characteristics of the single factor model . . . . . . . . . 268
12.3 Estimating portfolio characteristics from a single factor model . . 269
13 Multi-factor models 271
13.1 Style attribution analysis . . . . . . . . . . . . . . . . . . . . . . 272
13.2 Multi-factor models in international portfolios . . . . . . . . . . . 273
13.3 Estimation of fundamental factor models . . . . . . . . . . . . . . 275
13.4 Zero coupon curve estimation . . . . . . . . . . . . . . . . . . . . 276
13.5 A factor model of the term structure by regression . . . . . . . . 277
13.5.1 Regression analysis . . . . . . . . . . . . . . . . . . . . . . 278
13.5.2 A duration vector . . . . . . . . . . . . . . . . . . . . . . 280
13.6 Cointegration analysis . . . . . . . . . . . . . . . . . . . . . . . . 281
13.7 Permanent components . . . . . . . . . . . . . . . . . . . . . . . 281
13.8 Open questions in the analysis of a term structure . . . . . . . . 282
13.9 Permanent-transitory component decomposition . . . . . . . . . . 283
13.9.1 Maximum-likelihood decomposition . . . . . . . . . . . . 284
13.9.2 Granger-Gonzalo decomposition . . . . . . . . . . . . . . 284
13.9.3 Decomposition based on principal component analysis . . 284
13.9.4 Tcnicas de cointegracin en el anlisis de Asset allocation284
14 Principal components 286
14.1 The analytics of PCA . . . . . . . . . . . . . . . . . . . . . . . . 286
14.2 Exercise: Principal components analysis of a set of interest rates 288
14.3 An alternative presentation of PCs: . . . . . . . . . . . . . . . . . 297
14.4 First applications of principal components . . . . . . . . . . . . . 298
14.4.1 Risk decomposition . . . . . . . . . . . . . . . . . . . . . . 298
14.4.2 An application to stock market management . . . . . . . 299
14.5 Present value of a basis point: PV01 . . . . . . . . . . . . . . . . 300
14.5.1 Approximations to PV01 . . . . . . . . . . . . . . . . . . 301
14.5.2 Interest rate risk . . . . . . . . . . . . . . . . . . . . . . . 302
6
14.5.3 Summary of expressions . . . . . . . . . . . . . . . . . . . 303
14.6 Applications of Permanent Components to Fixed Income man-
agement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
14.7 Appendix 1: Principal components . . . . . . . . . . . . . . . . . 309
14.7.1 Lack of scale-invariance in principal components (Mardia,
Kent, Bibby) . . . . . . . . . . . . . . . . . . . . . . . . . 314
14.7.2 Hypothesis testing on eigenvalues and eigenvectors . . . . 314
14.7.3 La capacidad predictiva de las betas histricas . . . . . . 315
14.7.4 Frontera eciente . . . . . . . . . . . . . . . . . . . . . . . 319
14.7.5 Tcnicas sencillas de determinacin de la frontera eciente 323
14.7.6 Apndice: Algunas secciones anteriores, en castellano . . 326
15 Un modelo general de tipos de inters 330
15.1 Discretizacin exacta . . . . . . . . . . . . . . . . . . . . . . . . . 330
15.2 Discretizacin aproximada . . . . . . . . . . . . . . . . . . . . . . 331
15.3 Estimacin por mxima verosimilitud . . . . . . . . . . . . . . . 331
15.3.1 Modelo no restringido . . . . . . . . . . . . . . . . . . . . 331
15.3.2 Merton (1973): , = 0, = 0 . . . . . . . . . . . . . . . . . 332
15.3.3 Vasicek (1977): = 0 . . . . . . . . . . . . . . . . . . . . 333
15.3.4 Cox, Ingersoll, Ross (1985): = 1,2. . . . . . . . . . . . . 333
15.3.5 Dothan: c = 0, , = 0, = 1 . . . . . . . . . . . . . . . . . 334
15.3.6 Movimiento browniano geomtrico: c = 0, = 1 . . . . . 334
15.3.7 Brennan y Schwartz (1980): = 1 . . . . . . . . . . . . . 335
15.3.8 Cox, Ingersoll, Ross (180): c = 0, , = 0, = 8,2. . . . . . 336
15.3.9 Elasticidad de la varianza constante: c = 0. . . . . . . . . 337
15.3.10Condiciones iniciales . . . . . . . . . . . . . . . . . . . . . 337
15.3.11Algoritmos numricos en la estimacin por mxima verosimil-
itud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
15.3.12Algunas simplicaciones . . . . . . . . . . . . . . . . . . . 339
15.3.13Criterios de convergencia . . . . . . . . . . . . . . . . . . 340
15.3.14Dicultades prcticas en el algoritmo iterativo de estimacin341
15.3.15Estimacin condicionada . . . . . . . . . . . . . . . . . . . 342
15.4 Estimacin por mtodo generalizado de los momentos . . . . . . 342
III Stock Market 347
16 El modelo de valoracin de activos 348
16.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
16.2 Deduccin sencilla del modelo CAPM . . . . . . . . . . . . . . . 349
16.3 Deduccin rigurosa del modelo CAPM . . . . . . . . . . . . . . . 352
16.4 El modelo CAPM en la valoracin de inversiones . . . . . . . . . 353
16.5 El CAPM cuando no se permiten ventas (posiciones) a corto . . 354
16.5.1 Modicaciones sobre los prstamos y crditos al tipo sin
riesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
7
16.5.2 Los inversores no pueden prestar ni pedir prestado a un
tipo sin riesgo. . . . . . . . . . . . . . . . . . . . . . . . . 354
16.6 Las carteras de beta-cero . . . . . . . . . . . . . . . . . . . . . . 356
16.7 Se permite prestar, pero no pedir prestado, al tipo de inters sin
riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
16.8 Supuestos alternativos acerca de la capacidad de prestar y pedir
prestado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
16.9 Impuestos sobre la renta. . . . . . . . . . . . . . . . . . . . . . . 360
16.10Activos sin mercado . . . . . . . . . . . . . . . . . . . . . . . . . 361
17 El modelo APT: Introduccin 363
17.1 Una deduccin sencilla del modelo . . . . . . . . . . . . . . . . . 363
17.2 Una deduccin ms rigurosa . . . . . . . . . . . . . . . . . . . . . 365
17.3 Estimacin y contraste . . . . . . . . . . . . . . . . . . . . . . . . 366
17.4 Determinacin simultnea de factores y caractersticas . . . . . . 367
17.5 Un enfoque alternativo . . . . . . . . . . . . . . . . . . . . . . . . 369
17.5.1 Especicacin de los atributos de los activos . . . . . . . . 369
17.5.2 Especicando las inuencias que afectan sobre el proceso
de generacin de rentabilidades . . . . . . . . . . . . . . . 370
17.6 Relaciones entre los modelos CAPM y APT . . . . . . . . . . . . 370
18 Contrastes empricos del modelo de valoracin de activos: In-
troduccin 373
18.1 Contrastes empricos del modelo CAPM . . . . . . . . . . . . . . 374
18.2 Hiptesis del modelo CAPM . . . . . . . . . . . . . . . . . . . . . 374
18.3 Un contraste sencillo . . . . . . . . . . . . . . . . . . . . . . . . . 374
18.4 Algunos contrastes iniciales . . . . . . . . . . . . . . . . . . . . . 375
18.5 Algunos problemas metodolgicos . . . . . . . . . . . . . . . . . . 375
18.6 El contraste de Black, Jensen y Scholes . . . . . . . . . . . . . . 377
18.7 Los contrastes de Fama y MacBeth . . . . . . . . . . . . . . . . . 379
18.8 Dos recientes contrastes del modelo CAPM . . . . . . . . . . . . 380
18.9 Contrastes de la versin neta de impuestos del modelo CAPM . . 381
18.10Algunas dicultades con los contrastes tradicionales de las rela-
ciones de equilibrio en le mercado de activos . . . . . . . . . . . . 382
19 Contratos forward y contratos de futuros 383
19.1 Precios forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
19.2 Arbitraje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
19.3 Costes de acarreo (Costs of carry) . . . . . . . . . . . . . . . . . 386
19.4 El valor de un contrato de futuro . . . . . . . . . . . . . . . . . . 388
19.5 Swaps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
19.6 Precio de un swap de bienes . . . . . . . . . . . . . . . . . . . . . 389
19.7 Valor de un swap de tipos de inters . . . . . . . . . . . . . . . . 390
19.8 Aspectos bsicos de los contratos de futuros . . . . . . . . . . . . 390
19.9 El riesgo de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
8
20 Valoracin de un futuro sobre un bono 393
20.1 Rentabilidad de una posicin en futuros sobre bonos . . . . . . . 395
20.2 Posicin cubierta . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
20.3 Posicin especulativa . . . . . . . . . . . . . . . . . . . . . . . . . 396
20.3.1 Observaciones: . . . . . . . . . . . . . . . . . . . . . . . . 396
20.4 El bono nocional . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
20.4.1 Observaciones: . . . . . . . . . . . . . . . . . . . . . . . . 400
20.5 Futuro sobre MIBOR a 90 das . . . . . . . . . . . . . . . . . . . 400
20.6 Caractersticas del contrato . . . . . . . . . . . . . . . . . . . . . 400
20.6.1 Observaciones: . . . . . . . . . . . . . . . . . . . . . . . . 400
20.7 Cobertura de carteras de renta ja . . . . . . . . . . . . . . . . . 401
20.8 Nmero de contratos necesario . . . . . . . . . . . . . . . . . . . 402
20.9 Anlisis de un caso prctico . . . . . . . . . . . . . . . . . . . . . 405
20.9.1 No hay variaciones en los tipos de inters . . . . . . . . . 405
20.9.2 El tipo de inters aumenta . . . . . . . . . . . . . . . . . . 406
20.9.3 Descenso de tipos . . . . . . . . . . . . . . . . . . . . . . . 407
20.10Cobertura cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . 408
21 La Hiptesis de las Expectativas: Tipos de inters forward 409
21.1 1.1La hiptesis de Expectativas acerca de la formacin de tipos
de inters. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
21.2 1.2El tipo forward como predictor de tipos a corto futuros . . . . 413
21.3 1.3El tipo forward como predictor del tipo a largo . . . . . . . . 414
22 Valoracin por simulacin 417
23 Sobre simulacin de procesos brownianos 418
23.1 Distribucin de los cambios en precio . . . . . . . . . . . . . . . . 418
23.2 Distribucin del logaritmo del precio . . . . . . . . . . . . . . . . 419
23.3 Distribucin de la rentabilidad . . . . . . . . . . . . . . . . . . . 420
Part I
Econometrics
1 Preliminaries
1.1 Momentos poblacionales: momentos de una distribu-
cin de probabilidad.
Toda variable aleatoria est caracterizada por su distribucin de probabilidad,
que no es sino el conjunto de valores posibles de la variable aleatoria, acom-
paados de sus respectivas probabilidades. El modo en que se representa la
9
distribucin de probabilidad depende de que la variable aleatoria en cuestin
sea de naturaleza discreta o continua.
Si denotamos por 1(r
I
) la masa de probabilidad en cada punto r
I
del soporte
\ de la distribucin de probabilidad de una variable aleatoria A, (conjunto de
valores posibles de la variable aleatoria A), y por )(r
I
) la funcin de densi-
dad que la representa, cuando sta existe (distribuciones de tipo continuo), la
esperanza matemtica de la variable A se dene:
1(A) = j
r
=
_
1
1
r)(r)dr;
si la medida de probabilidad es continua, o:
1(A) = j
r
=

r1
r
I
d1(r
I
)
si la medida de probabilidad es discreta. En este ltimo caso, r
I
denota cada
uno de los valores posibles de la variable aleatoria A, en nmero nito o no.
La mediana : est denida por el punto del soporte valor numrico para el
cual se cumple:
_
n
1
)(r)dr =
1
2
en el caso de una variable aleatoria o distribucin de probabilidad continuas,
y:
'cd(A) = inf
_
: [
n

r1
d1(r
I
) =
1
2
_
en el caso de una variable discreta. Esta formulacin de la denicin se
debe a que en distribuciones discretas puede aparecer alguna ambigedad en su
clculo.
La moda es el valor ms probable de una distribucin, es decir, el punto r
1
del soporte \ de la distribucin, tal que:
1(A = r
1
) _ 1(A = r) \r \,
La moda puede no ser nica. No existen condiciones bajo las cuales la
mediana o la moda deban preferirse a la esperanza matemtica como medida
representativa de la distribucin, pero hay que considerar tal posibilidad, de-
pendiendo de las caractersticas de la distribucin de probabilidad.
La esperanza matemtica [suma de los valores numricos ponderada por
probabilidades] de las desviaciones entre los valores del soporte de la distribucin
y su esperanza matemtica es igual a cero:
1(A j
r
) = 1(A) 1(j
r
) = j
r
j
r
= 0
10
El valor numrico que minimiza la expresin: 1
_
(A a)
2
_
es: a = j
r
. El
valor minimizado es la varianza de A.
El valor numrico que minimiza la expresin: E([ A a [) es: a = :.
La varianza de una variable aleatoria (cuando existe), es la esperanza matemtica
del cuadrado de las desviaciones entre los valores de la variable y su esperanza
matemtica:
o
2
r
= 1 (A j
r
)
2
=
_
1
1
(r j
r
)
2
)(r)dr
o
2
r
=

r1
(r
I
j
r
)
2
d1(r
I
)
en distrib uciones continuas y discretas, respectivamente.
La varianza puede escribirse tambin:
o
2
r
= 1
_
(A j)
2
_
= 1
_
A
2
2jA j
2
_
= 1
_
A
2
_
j
2
o
2
r
=

r1
(r
I
j
r
)
2
d1(r
I
) =

r1
r
2
I
d1(r
I
) 2

r1
r
I
j
r
d1(r
I
)

r1
j
2
r
d1(r
I
) =
=

r1
r
2
I
d1(r
I
) 2j
r

r1
r
I
d1(r
I
) j
2
r

r1
d1(r
I
) = 1(r
2
I
) 2j
2
r
j
2
r
= 1(r
2
I
) j
2
r
Como en muchas ocasiones se quiere poner dicho indicador en relacin con
el valor medio de la variable, se preere un indicador que tenga unidades com-
parables a las de la rentabilidad por lo que, cuando hablamos de volatilidad
solemos referirnos a la desviacin tpica: raz cuadrada de la varianza, tomada
con signo positivo:
1T(A) = o
r
=
_
o
2
r
Otros momentos poblacionales son:
Coc)icic:tc dc ariaci o: = 100
o
r
j
r
que considera la desviacin tpica (volatilidad) como porcentaje del nivel
alrededor del cual ucta la variable, lo cual es til al comparar la volatilidad
de variables que tienen una esperanza matemtica diferente; por ej., al comparar
la volatilidad de dos ndices burstiles distintos.
Coc)icic:tc dc a:i:ctria =
1
_
(r j
r
)
3
_
o
3
r
que es positivo cuando la distribucin es asimtrica hacia la derecha, en cuyo
caso la moda es inferior a la mediana, y sta es, a su vez, inferior a la media
aritmtica. El coeciente de asimetra es negativo cuando la distribucin es
asimtrica hacia la izquierda, en cuyo caso la moda es mayor que la mediana,
11
y sta es, a su vez, superior a la media aritmtica. Toda distribucin simtrica
tiene coeciente de asimetra igual a cero.
Coc)icic:tc dc cnrto:i: =
1
_
(r j
r
)
d
_
o
d
r
tambin llamado coeciente de apuntamiento, es un indicador del peso que
en la distribucin tienen los valores ms alejados del centro. Toda distribucin
Normal tiene coeciente de curtosis igual a 3. Un coeciente de curtosis superior
a 3 indica que la distribucin es ms apuntada que la de una Normal teniendo,
en consecuencia, menos dispersin que dicha distribucin. Se dice entonces que
es leptocrtica, o apuntada. Lo contrario ocurre cuando el coeciente de curtosis
es superior a 3, en cuyo caso la distribucin es platicrtica o aplastada. A veces
se utiliza el Coeciente de exceso de curtosis, que se obtiene restando 3 del
coeciente de curtosis.
La covarianza entre dos variables mide el signo de la asociacin entre las
uctuaciones que experimentan ambas. Esencialmente, nos dice si, cuando una
de ellas est por encima de su valor de referencia, p.ej., su media, la otra variable
tiende a estar por encima o por debajo de su respectiva media:
Co(A, 1 ) = 1 [(A 1A)(1 11 )[ = 1(A1 ) 1(A)1(1 )
Siempre se cumple que:
Co(A, 1 ) = 1 [A(1 11 )[ = 1 [(A 1A)1 [
Cuando alguna de las dos variables tiene esperanza cero, entonces:
Co(A, 1 ) = 1 (A1 )
El coeciente de correlacin lineal entre dos variables es el cociente entre su
covarianza, y el producto de sus desviaciones tpicas:
Corr(A, 1 ) =
Co(A, 1 )
_
\ ar(A)
_
\ ar(1 )
Mientras que la covarianza puede tomar cualquier valor, positivo o negativo,
el coeciente de correlacin solo toma valores numricos entre -1 y +1. Esto
ocurre porque, por la desigualdad de Schwarz, la covarianza est acotada en
valor absoluto por el producto de las desviaciones tpicas de las dos variables.
Un caso importante es el de la covariacin entre los valores de una variable
con sus propios valores pasados. As, tenemos, para cada valor entero de /:

|
= Co(A
|
, A
||
), / = 0, 1, 2, 8, ...
sucesin de valores numricos que congura la funcin de autocovarianza de
la variable A
|
, as como su funcin de autocorrelacin:
12
j
|
=
Co(A
|
, A
||
)
\ ar(A
|
)
=

|

0
El primer valor de la funcin de autocovarianza,
0,
es igual a la varianza
de la variable. El primer valor de su funcin de autocorrelacin, j
0
, es siempre
igual a 1.
Dos variables aleatorias son independientes si su funcin de densidad con-
junta es igual al producto de sus funciones de densidad marginales:
)(r, j) = )
l
(r).)
2
(j)
dentro del rango de variacin de ambas variables.
En el caso de distribuciones discretas (aqullas en las que la variable en
estudio toma valores en un conjunto discreto de puntos, que puede ser innito),
dos distribuciones son independientes si:
1(A = r, 1 = j) = 1(A = r).1(1 = j)
En general, en el caso continuo, la funcin de densidad de una variable 1 ,
condicionada en otra variable A viene dada por:
)(j,r) =
)(r, j)
)
2
(r)
pudiendo denirse de modo similar la funcin de densidad de la variable A,
condicionada por la variable 1 .
En el caso discreto, se tiene:
1(1 = j,A = r) =
1
Y
(A = r, 1 = j)
1
Y
(1 = j)
Ver Ejemplo 1.
Es fcil probar que si dos variables aleatorias son independientes, entonces
su covarianza es cero.
La varianza de una suma o de una diferencia de dos variables aleatorias es:
\ ar(A 1 ) = \ ar(A) \ ar(1 ) 2Co(A, 1 )
\ ar(A 1 ) = \ ar(A) \ ar(1 ) 2Co(A, 1 )
de modo que solo si ambas variables son independientes se tiene que la
varianza de su suma es igual a la varianza de su diferencia:
\ ar(A 1 ) = \ ar(A) \ ar(1 )
En tal caso, el riesgo (medido por la desviacin tpica) de una cartera sera
funcin de las ponderaciones con que entran en ella cada uno de los activos que
la conguran y del riesgo de cada uno de dichos activos, pero no dependera de
13
si la posicin adoptada en cada activo es corta o larga, es decir, de si estamos
comprados o vendidos en cada uno de ellos.
Estas expresiones pueden extenderse anlogamente a cualquier combinacin
lineal de: variables. Un ejemplo sera la suma de dichas : variables.
Desigualdad de Chebychev:
1 [q(A)[ =
_
1
1
q(r))(r)dr _ -
2
_
S
)(r)dr
siendo o el conjunto de puntos del soporte de A donde la funcin q es
superior o igual a -
2
. Por tanto,
1 [q(A)[ _ -
2
_
S
)(r)dr = -
2
1
_
q(A) _ -
2

y, nalmente:
1
_
q(A) _ -
2

_
1 [q(A)[
-
2
1.2 Media, Varianza, Desviacin Tpica, Covarianza y Co-
eciente de correlacin muestrales:
En general, contamos con observaciones histricas acerca de una o varias vari-
ables (precios, rentabilidades, etc.) y queremos calcular medidas de posicin
central, de dispersin y de correlacin con el objeto de resumir las propiedades
bsicas de dichos datos.
El conjunto de datos observados dene un histograma de frecuencias, o dis-
tribucin muestral de frecuencias, que contiene toda la informacin disponible
acerca de la variable considerada. Un histograma de frecuencias es similar a una
distribucin de frecuencias, pero es diferente de ella. Para entender la diferen-
cia entre ambos, hemos de comprender el concepto de proceso estocstico, y el
modo de utilizarlo en el anlisis de datos de series temporales.
Un proceso estocstico A
|
, t = 1, 2, 8, ...es una sucesin de variables aleato-
rias, indexadas por la variable tiempo. Las variables aleatorias pueden ser inde-
pendientes entre s o no, y pueden tener la misma distribucin de probabilidad,
o una distribucin de probabilidad diferente.
Cada dato de una serie temporal debe interpretarse como una muestra de
tamao 1 de la distribucin de probabilidad correspondiente a la variable aleato-
ria de ese instante. Por ej., el dato de cierre del IBEX35 (suponiendo que
disponemos de datos de cierre diarios) de hoy es una realizacin, es decir, una
muestra de tamao 1 de la variable aleatoria precio de la cesta IBEX35 (como
ndice) el da de hoy. La distribucin de probabilidad de esta variable puede
ser diferente de la variable aleatoria IBEX35 hace un ao por tener, por ejem-
plo, una esperanza matemtica menor, una volatilidad mayor, o no ser Normal,
mientras que hace un ao s lo era.
Vamos a suponer inicialmente que las variables A
|
tienen todas la misma
distribucin de probabilidad, y son independientes entre s. Este es el caso ms
14
sencillo, y constituye un proceso de ruido blanco. Slo en este caso est to-
talmente justicado la utilizacin de momentos muestrales como caractersticas
de la variable A. Esta observacin debe servir como llamada de atencin al
lector, dada la excesiva frecuencia con que se calculan estadsticos muestrales,
calculados con datos histricos, para representar caractersticas de una vari-
able; por ej., la desviacin tpica de la rentabilidad burstil de un determinado
mercado.
Las medidas de posicin central y dispersin anlogas a la esperanza, vari-
anza y desviacin tpica son:
r =

n
I=l
r
I
:
; o
2
r
=

n
I=l
(r
I
r)
2
: 1
; 1T
r
= o
2
r
mientras que la covarianza y coeciente de correlacin muestrales son:
Co(A, 1 ) =
1
T
T

|=l
(r
|
r) (j
|
j) =
1
T
T

|=l
r
|
j
|
r j
La media, varianza, mediana, covarianza y coeciente de correlacin mues-
trales satisfacen propiedades similares a las ya mencionadas para sus anlogos
poblacionales. Entre ellas:
La suma de las desviaciones de la variable respecto de su media, es igual
a cero:
n

I=l
(r
I
r) =
n

I=l
r
I

I=l
r = : r : r = 0
Como consecuencia de lo anterior, la media muestral de las diferencias
r
I
r, i = 1, 2, ..., : es igual a cero.
Si una de las dos variables, A o 1 tiene esperanza cero, tenemos:
Co(A, 1 ) =
1
T
T

|=l
r
|
j
|
= 1(A1 )
La varianza de A puede escribirse:
1
:
n

I=l
(r
I
r)
2
=
1
:
n

I=l
r
2
I
2
1
:
n

I=l
r
I
r
1
:
n

I=l
r
2
=
1
:
n

I=l
r
2
I
r
2
Al igual que en el caso de una distribucin de probabilidad, otras medidas
utilizadas en la representacin de una muestra son:
Coc)icic:tc dc ariaci o: = 100
1T
r
r
15
Coc)icic:tc dc a:i:ctria =
l
T

T
|=l
(r
|
r)
3
1T
3
r
Coc)icic:tc dc cnrto:i: =
l
T

T
|=l
(r
|
r)
d
1T
d
r
siendo T el tamao muestral.
El recorrido o rango es la diferencia entre el mayor y el menor valor obser-
vados de una variable. Los cuartiles son los datos que dividen a la muestra, una
vez ordenada crecientemente, en cuatro submuestras de igual tamao (aproxi-
madamente). El segundo cuartil es la mediana. El rango intercuartlico es la
distancia entre los cuartiles primero y tercero. Estos estadsticos tienen la vir-
tud de no verse afectados por la presencia de valores atpicos. De modo anlogo
se denen los deciles y percentiles.
En una variable temporal, las funciones de autocovarianza y autocorrelacin
muestrales se denen:

|
= Co(A
|
, A
||
) =
1
T
T

|=|l
(r
|
r) (r
||
r)
j
|
= Corr(A
|
, A
||
) =
Co(A
|
, A
||
)
_
o
2
r
_
o
2
r
=
l
T

T
|=|l
r
|
r
||
r
2
o
2
r
siendo siempre:
0
= \ ar(A
|
) y j
0
= 1.
1.3 Distribuciones marginales y condicionadas
Consideremos la distribucin de probabilidad bivariante,
A
l
2 1 0 1 2
A
2
1 2,24 0 2,24 4,24 0
0 0 1,24 2,24 0 2,24
2 0 8,24 2,24 0 6,24
donde A
l
puede tomar valores -2,-1,0,1,2, mientras que A
2
puede tomar val-
ores -1, 0,2. El cuadro recoge probabilidades; por ejemplo, 1 [A
l
= 1, A
2
= 0[ =
1,24. Las 15 probabilidades del cuadro suman 1.
La distribucin marginal de A
l
es,
\ a|orc: dc A
l
2 1 0 1 2
Ii o/a/i|idadc: 2,24 4,24 6,24 4,24 8,24
con 1(A
l
) = 1,2, \ ar(A
l
) = 1,28,siendo la distribucin de A
2
,
\ a|orc: dc A
2
1 0 2
Ii o/a/i|idadc: 8,24 ,24 11,24
con 1(A
2
) = 7,12, \ ar(A
2
) = 268,144.
La distribucin d eprobabilidad de A
l
condicional en un valor numrico de
A
2
es,
16
\ a|orc: dc A
l
2 1 0 1 2
Si A
2
= 1 1,4 0 1,4 1,2 0
Si A
2
= 0 0 1, 2, 0 2,
Si A
2
= 2 0 8,11 2,11 0 6,11
con 1(A
l
,A
2
= 1) = 0, 1(A
l
,A
2
= 0) = 8,, 1(A
l
,A
2
= 2) = 0,11.
Luego 1(A
l
,A
2
) es una variable aleatoria que toma valores 0, 3/5, 9/11,
con probabilidades respectivas: 8/24, 5/24, 11/24. Por tanto, su esperanza
matemtica es 1/2, que coincide con 1(A). Este es un resultado general, pues
siempre se tiene,
1 [1 (A
l
,A
2
)[ = 1(A
l
)
Las dos variables que hemos analizado no son independientes, pues ninguna
de ellas satisface la condicin de que su distribucin marginal coincida con su
distribucin condicionada en cualquier valor de la otra. Dicho de otro modo, el
valor que toma una variable A
2
es informativo acerca de los posibles valores de
la otra variable A
l
.
1.4 El caso del proceso autoregresivo
Especialmente interesante en el anlisis de datos nancieros es el modelo au-
toregresivo,
j
|
= c
0
c
l
j
|l
n
|
, 1 < c
l
< 1
donde suponemos que n
|
es un proceso sin autocorrelacin (correlacin tem-
poral consigo mismo). Es decir, Corr(n
|
, n
||
) = 0 \/.
En estas condiciones, si n
|
sigue una distribucin Normal n
|
~ (0, o
2
u
),
entonces j
|
sigue una distribucin
j
|
~ (
c
0
1 c
l
,
o
2
u
1 c
2
l
)
Esta es la distribucin marginal o incondicional, de j
|
.
Por otra parte, condicional en la historia pasada de j
|
, sin incluir el dato de
fecha t, la distribu8in de probabilidad condicional de j
|
es,
j
|
~ (c
0
c
l
j
|l
, o
2
u
)
que tiene una menor varianza. De hecho, la varianza incondicional de j
|
es tanto mayor cuanto ms se acerque el parmetro c
l
a 1, creciendo dicha
varianza sin lmite. Sin embargo, la varianza condicional es siempre o
2
u
, con
independencia del valor numrico del parmetro c
l
.
La varianza condicional de j
|
es igual a la varianza de n
|
, o
2
u
, mientras que
la varianza incondicional de j
|
es siempre mayor que o
2
u
.
Adems,
1(j
|
,j
|l
) = c
0
c
l
j
|l
; 1(j
|
) =
c
0
1 c
l
17
1.5 Distribuciones condicionales e incondicionales en pro-
cesos temporales: El caso del proceso autoregresivo
Especialmente interesante en el anlisis de datos nancieros es el modelo au-
toregresivo,
j
|
= c
0
c
l
j
|l
n
|
, 1 < c
l
< 1
donde suponemos que n
|
es un proceso sin autocorrelacin (correlacin tem-
poral consigo mismo). Es decir, Corr(n
|
, n
||
) = 0 \/.
En estas condiciones, si n
|
sigue una distribucin Normal n
|
~ (0, o
2
u
),
entonces j
|
sigue una distribucin
j
|
~ (
c
0
1 c
l
,
o
2
u
1 c
2
l
)
Esta es la distribucin marginal o incondicional, de j
|
.
Por otra parte, condicional en la historia pasada de j
|
, sin incluir el dato de
fecha t, la distribu8in de probabilidad condicional de j
|
es,
j
|
~ (c
0
c
l
j
|l
, o
2
u
)
que tiene una menor varianza. De hecho, la varianza incondicional de j
|
es tanto mayor cuanto ms se acerque el parmetro c
l
a 1, creciendo dicha
varianza sin lmite. Sin embargo, la varianza condicional es siempre o
2
u
, con
independencia del valor numrico del parmetro c
l
.
La varianza condicional de j
|
es igual a la varianza de n
|
, o
2
u
, mientras que
la varianza incondicional de j
|
es siempre mayor que o
2
u
.
Adems,
1(j
|
,j
|l
) = c
0
c
l
j
|l
; 1(j
|
) =
c
0
1 c
l
2 Regression models
2.1 Properties of estimators
2.1.1 Unbiasedness
Explanatory variables are supposed to be deterministic in elementary Econo-
metrics, to show unbiasedness of Least squares estimates of linear models.
In more general treatments, the alternative assumption is made: 1(n,A) =
0, which means: 1(r
I|
.n
s
) = 0\t, :, which we usually know as strict exogeneity.
It is usually hard to make a strong argument on the validity of that condition.
It is easy to gure out why can it fail to hold, but it is much harder to argue
in its favor.
Since

, = , (A
0
A)
l
A
0
n
18
The condition implies:
1(

,) = , 1
_
(A
0
A)
l
A
0
n

= , 1
_
(A
0
A)
l
A
0
1(n,A)

= ,
But, should we care about unbiasedness in Economics, being a property that
relates to the universe of possible samples?
2.1.2 Variance-covariance matrix of estimates
If the vector error term has covariance matrix,
\ ar(n) = o
2
u

The variance-covariance matrix of least squares estimates is,


\ ar(

,) = o
2
u
(A
0
A)
l
(A
0
A)(A
0
A)
l
(1)
If de not allow for a scalar factor o
2
u
, which is not necessary, then \ ar(n) =
and \ ar(

,) = (A
0
A)
l
(A
0
A)(A
0
A)
l
.
To estimate we will need to use residuals from some initial estimation.
So, we can start by using OLS, and use the residuals to estimate the structure
we assume in .
If, for instance, we postulate that 1(n
I
.n

) = 0\i ,= ,, while 1(n


I
.n

) = /.
I
for i = ,, we will then run a regression of the square OLS residuals on ., without
intercept.
Whether we identify o
2
u
with / and with a diagonal matrix with .
I
along
the diagonal, or make those elements equal to /.
I
and skip the o
2
u
factor, is
irrelevant.
There are special cases, those in which is almost diagonal, when the
variance-covariance matrix reduces to o
2
u
(A
0
A)
l
, but it is unfortunate that
this matrix is widely presented in a rst discussion of least squares methods
in econometrics textbooks as being the variance covariance matrix of the least
squares estimator.
The elements of o
2
u
(A
0
A)
l
are biased estimates of the variances and co-
variances of the least squares estimator, not bearing any specic relationship
with the unbiased o
2
u
(A
0
A)
l
(A
0
A)(A
0
A)
l
values. The biased, standard
estimates may be either larger or smaller than the unbiased ones without any
special reason.
Nothing is lost by computing (1) in all situations.
2.1.3 Eciency
The standard, eciency properties of least squares shown in introductory courses
emerge from its coincidence with Maximum Likelihood under a Normal distri-
bution for the error term, and provided we have a right specication for the
variance-covariance matrix of the error term.
The rst condition is unlikely in many situations in Economics.
19
In general, eciency is shown only under deterministic or strictly exogenous
explanatory variables.
Heteroscedasticity leads to lack of eciency in least squares estimation.
It does not bias the estimates or produce inconsistency.
Autocorrelation in static models has similar implications
Dealing with Heteroscedasticity or autocorrelation as usual (Feasible GLS)
is usually subject to important sample errors
= Use OLS and compute robust variance-covariance matrix of estimates:
White, Newey-West
In general, it is hard to gure out the properties of least squares estimates.
=we need to worry about consistency and precision (related to eciency).
2.1.4 Consistency
Consistency is a one-sample property, and all it requires is: j lim
_
l
T
A
0
n
_
= 0
|
.
j lim(

,) = ,j lim
_
_
1
T
A
0
A
_
l
_
1
T
A
0
n
_
_
= ,
_
j lim
_
1
T
A
0
A
_
l
_
_
j lim
_
1
T
A
0
n
__
= ,
Under light conditions (law of large numbers) this condition will hold if the
error term is uncorrelated with the set of explanatory variables.
It is important that we now do not need exogeneity.
All we need is lack of correlation between regressors and error term, i.e., we
do not need zero autocorrelation at all leads and lags of A and n.
Situations when correlation is not zero:
Simultaneity
Errors in variables
Dynamic models with autocorrelated errors
2.1.5 Instrumental variables
We then need instrumental variables, 7, satisfying 1(7,n) = 0, .at the same
time 1(7.A) ,= 0.
We lose consistency if the rst condition fails to hold, and we lose precision
because the correlation between 7 and A is less than one (otherwise, we would
still have the lack of consistency situation).
In most cases, it is usually hard to gure out what are valid instruments
outside the model, and often, models are silent with respect to valid instruments.
Models with expectations, or dynamic panel data models suggest instru-
ments that are already present in the model.
Precision means that standard errors are small relative to estimated para-
meters.
Precision depends, among others on: the quantity and quality of data, pa-
rameter stability.
20
2.2 Hypothesis testing
Most often, we compare nested models, and versions of likelihood ratio tests are
appropriate
We should specically worry about testing hypothesis in the face of low
precision estimates.
Do not run hypothesis tests in the face of estimates obtained with low pre-
cision
Low precision in estimation leads to a bias in the results of any given test
by too often not rejecting the null hypothesis (any null hypothesis)
So, when running signicance tests, we would tend to conclude for non in-
formative explanatory variables to often.
The t-statistic for signicance ids the ratio between the estimated coecient
and its estimated standard error. The t-statistic can be too low, leadgin to not
rejecting the null hypothesis of lack of signicance if: i) the estimated coecient
is small to the point of being numerically irrelevant, ii) the standard deviation
is large enough, i.c., precision is very low, even if the estimated coecient is
numerically sizeable, iii) both, i) and ii).
Summarizing the sample information regarding the validity of a given null
hypothesis in the value of a single test statistic value is too much information
is an excessive reduction of the available information
Always examine residuals (or t) from restricted and unrestricted models
Relative to signicance tests:
statistical signicance of a given coecient and economic relevance (or
quantitative relevance) of the accompanying variable are very dierent
concepts
to evaluate the relevance of an estimated coecient, multiply it by the
standard deviation of the associated variable, and divide by the standard
deviation of the dependent variable. Or do a similar computation for the
whole sample range or the interquartilic intervals of r and j.
we can never test for the information content of a given variable in the
context of a multiple regression model
we can only test for whether a given variable adds information to that
contained in the other explanatory variables already included in the model
to test for information content in an absolute sense, we should estimate a
simple regression model
the estimated coecient in a simple regression is a biased estimate of the
partial eect of r. But is is an unbiased estimate of the global eect (direct
eect plus indirect eects) on j of a change in r.
each estimated coecient in a multiple regression is an unbiased estimate
of the partial eect (conditional on the other explanatory variables) on j
of a change in r. It is a biased estimate of the eect on j of a change in r.
21
A few time series concepts
Economics is full of statements relating the dynamic properties of key vari-
ables. For instance, we may say that ination is very persistent, that aggregate
consumption and GNP experience cyclical uctuations, or that hours worked
and productivity move independently from each other. These statements have
direct implications in terms of the time series representations of these variables.
Sometimes we are more specic, as when we state that stock exchange returns
are white noise, thereby justifying the usual belief that they are unpredictable.
The unpredictability statement comes from the fact that the forecast of a white
noise process, no matter how far into the future, is always the same. That
forecast is equal to the mean of the white noise process, which would likely be
assumed to be zero in the case of asset returns. If returns are logarithmic, i.e.,
the rst dierence of logged market prices, then prices themselves would follow
a random walk structure. These properties cannot be argued separately from
each other, since they are just two dierent forms of making the same statement
on stock market prices. We may also say at some point that the economy is
likely to repeat next year its growth performance from the previous year, which
incorporates the belief that annual GNP growth follows a random walk, its best
one-step ahead prediction being the last observed value. A high persistence
in real wages or in ination could be consistent with rst order autoregressive
models with an autoregressive parameter close to1. We briey review in this
section some concepts regarding basic stochastic processes, of the type that are
often used to represent the behavior of economic variables.
3 Stochastic Processes
3.1 Some simple stochastic processes
A stochastic process is a sequence of random variables indexed by time. Each of
the random variables in a stochastic process, corresponding to a given time index
t, has its own probability distribution. These distributions can be dierent, and
any two of the random variables in a stochastic process may either exhibit
dependence of some type or be independent from each other.
A white noise process is,
j
|
= -
|
, t = 1, 2, 8, ...
where -
|
, t = 1, 2, ... is a sequence of independent, identically distributed
zero-mean random variables, known as the innovation to the process. A white
noise is sometimes dened by adding the assumption that -
|
has a Normal
distribution. The mathematical expectation of a white noise is zero, and its
variance is constant: \ ar(j
|
) = o
2
:
. More generally, we could consider a white
noise with drift, by incorporating a constant term in the process,
j
|
= a -
|
, t = 1, 2, 8, ...
22
with mathematical expectation 1(j
|
) = a, and variance: \ ar(j
|
) = o
2
:
.
The future value of a white noise with drift obeys,
j
|s
= a -
|s
,
so that, if we try to forecast any future value of a white noise on the basis
of the information available
1
at time t, we would have:
1
|
j
|s
= a 1
|
-
|s
= a,
because of the properties of the -
|
-process. That is, the prediction of a future
value of a white noise is given by the mean of the process. In that sense, a white
noise process is unpredictable. The prediction of such process is given by the
mean of the process, with no eect from previously observed values. Because
of that, the history of a white noise process is irrelevant to forecast its future
values. No matter how many data points we have, we will not use them to
forecast a white noise.
A random walk with drift is a process,
j
|
= a j
|l
-
|
, t = 1, 2, 8, ... (2)
so that its rst dierences are white noise. If j
|
= ln(1
|
) is the log of some
market price, then its return r
|
= ln(1
|
) ln(1
|l
), will be a white noise, as
we already mentioned. A random walk does not have a well dened mean or
variance.
In the case of a random walk without drift, we have,
j
|s
= j
|sl
-
|s
, : _ 1
so that we have the sequence of forecasts:
1
|
j
|l
= 1
|
j
|
1
|
-
|l
= j
|
,
1
|
j
|2
= 1
|
j
|l
1
|
-
|2
= 1
|
j
|l
= j
|
and the same for all future variables. In this case, the history of a random
walk process is relevant to forecast its future values, but only through the last
observation. All data points other than the last one are ignored when forecasting
a random walk process.
First order autoregressive processes, AR(1), are of the form,
j
|
= jj
|l
-
|
, [ j [< 1,
and can be represented by,
1
That amounts to constructing the forecast by application of the conditional expectation
operator to the analytical representation of the future value being predicted, where the con-
ditional expectation is formed with respect to the sigma algebra of events known at time
t.
23
j
|
=
1

s=0
j
s
-
|s
the right hand side having a nite variance under the assumption that
\ ar(-
|
) = o
2
:
only if [j[ < 1. In that case, we would have:
1(j
|
) = 0; \ ar(j
|
) =
o
2
:
1 j
2
Predictions from a rst order autoregression can be obtained by,
1
|
j
|l
= j1
|
j
|
1
|
-
|l
= jj
|
,
1
|
j
|2
= 1
|
(jj
|l
) 1
|
-
|2
= j
2
1
|
j
|l
= j
2
j
|
and, in general,
1
|
j
|s
= j
s
j
|
, : _ 1
which is the reason to impose the constraint [ j [< 1. The parameter j is
sometimes known as the persistence of the process. As the previous expression
shows, an increase or decrease in j
|
will show up in any future j
|s
, although
the inuence of that j
|
-value will gradually disappear over time, according to
the value of j. A value of j close to 1 will therefore introduce high persistence
in the process, the opposite being true for j close to zero.
The covariance between the values of the rst order autoregressive process
at two points in time is:
Co(j
|
, j
|s
) = j
s
\ ar(j
|
), : ? 0,
so that the linear correlation is:
Corr(j
|
, j
|s
) =
Co(j
|
, j
|s
)
\ ar(j
|
)
= j
s
which dies away at a rate of j. In an autoregressive process with a value of
j close to 1, the correlation of j
|
with past values will be sizeable for a number
of periods.
A rst order autoregressive process with constant has the representation,
j
|
= a jj
|l
-
|
, [ j [< 1,
Let us assume by now that the mathematical expectation exists and is nite.
Under that assumption, 1j
|
= 1j
|l
, and we have:
1j
|
= a 1(jj
|l
) 1-
|
= a j1j
|
so that: 1j
|
=
o
l
. To nd out the variance of the process, we can iterate
on its representation:
24
j
|
= a jj
|l
-
|
= a j(a jj
|2
-
|l
) -
|
=
a(1 j j
2
... j
sl
) j
s
j
|s

_
j
sl
-
|sl
... j
2
-
|2
j-
|l
-
|
_
and if we proceed indenitely, we get
j
|
= a(1 j j
2
...)
_
... j
2
-
|2
j-
|l
-
|
_
since lim
s!1
j
s
j
|s
= 0.
2
Then, taking the variance of this expression:
\ ar(j
|
) = \ ar
_
... j
2
-
|2
j-
|l
-
|
_
=
1

s=0
j
2s
o
2
:
=
o
2
:
1 j
2
so that the variance of the j
|
-process increases with the variance of the
innovation, o
2
:
, but it is also higher the closer is j to 1.
Si el proceso siguiese una estructura dependiente de su pasado, pero del tipo:
j
|
= c
0
c
l
j
|l
-
|
t = 1, 2, ..., 1 < c
l
< 1
sus propiedades seran bastante distintas, con:
j
|
= c
0
1 c
|
l
1 c
l
c
s
l
j
0

|

s=l
c
|s
l
-
s
y si consideramos que el proceso ha durado innitos perodos,
1(j
|
) =
c
0
1 c
l
; \ ar(j
|
) =
o
2
:
1 c
2
l
estaran bien denidas, son constantes, y el proceso es estacionario. Se de-
nomina proceso autoregresivo de primer orden.
Los momentos condicionales de este proceso son,
1
|l
(j
|
) = c
0
c
l
j
|l
; \ ar(j
|
) = o
2
:
Como se ve, la esperanza condicional es cambiante en el tiempo, en funcin
de la informacin disponible en cada instante. La esperanza incondicional es
la mejor prediccin que podramos proporcionar del proceso j
|
sin disponer de
informacin muestral para el mismo, pero conociendo la estructura estocstica
de dicho proceso, incluidos los valores numricos de los parmetros. Si dis-
pusiramos de muestra pero ignorsemos el proceso estocstico que sigue j
|
,
podramos sustituir

0
l
1
por la media muestral. Esta es la mejor prediccin
en cuanto a minimizar el error cuadrtico medio de la prediccin, pero no es la
2
This is the limit of a random variable, and an appropriate limit concept must be used. It
suces to say that the power of j going to zero justies the zero limit for the product random
variable.
25
prediccin ptima, que es c
0
c
l
j
|l
y requiere estimaciones de los parmetros.
Esta prediccin minimiza el error cuadrtico medio condicional.
Por otra parte, la varianza condicional, que es constante, es siempre inferior
a la varianza incondicional. La diferencia entre ambas es tanto mayor cuanto
ms se aproxima el valor numrico del coeciente c a 1 1. En ambos lmites,
adems, la varianza del proceso autoregresivo de primer orden tiende a innito.
A future value of the rst order autoregression can be represented:
j
|s
= a jj
|sl
-
|s
, [ j [< 1, : _ 1,
which can be iterated to,
j
|s
= a(1 j j
2
... j
sl
) j
s
j
|

_
j
sl
-
|l
j
s2
-
|2
... -
|s
_
so that its forecast is given by,
j
|s
= a
1 j
s
1 j
j
s
j
|
So, as the forecast horizon goes to innity, the forecast converges to,
lim1
|
j
|s
=
a
1 j
the mean of the process.
As j approaches 1, the rst order autoregression becomes a random walk,
for which this expression would give an innite variance. This is because if we
repeat for the random walk the same argument we have made here, we get,
j
|
= a j
|l
-
|
= a (a j
|2
-
|l
) -
|
=
a: j
|s
(-
|sl
... -
|2
-
|l
-
|
)
so that the past term j
|s
does not die away no matter how far we move
back into the past, and the variance of the sum in brackets increases without
bound as we move backwards in time. The random walk process has an innite
variance. Sometimes, it can be assumed that there is a known initial condition
j
0
. The random walk process can then be represented:
j
|
= a j
|l
-
|
= a (a j
|2
-
|l
) -
|
=
= ... = at j
0
(-
l
... -
|2
-
|l
-
|
)
with 1(j
|
) = j
0
ta and \ ar(j
|
) = to
2
:
. Hence, both moments change over
time, the variance increasing without any bound.
Ello se debe a que el ltimo sumando en la representacin anterior,

|
s=l
-
s
,
es un ejemplo de tendencia estocstica. Cuanto mayor sea el nmero de obser-
vaciones consideradas, mayor ser la varianza muestral del camino aleatorio: un
26
camino aleatorio tiene menor varianza a lo largo de una hora que a lo largo de
un da, a lo largo de un da que a lo largo de una semana, etc.. El aumento de
la varianza a lo largo del tiempo no tiene nada que ver con el trmino tj que
siendo determinista, tiene varianza cero.
However, if we compare in a same graph time series realizations of a random
walk together with some stationary autoregressive processes, it will be hard to
tell which is the process with an innite variance.
Esto es lo que ocurrir con la inmensa mayora de los precios cotizados en los
mercados nancieros. Aunque la presencia de tendencias estocsticas se produce
generalmente junto con estructuras ms complejas que la de un camino aleatorio,
la implicacin acerca de una varianza creciente con el tiempo se mantiene cuando
se aaden a sta componentes autoregresivos o de medias mviles para j
|
. Para
evitarlo, caracterizamos la volatilidad de un mercado o de un activo analizando
el comportamiento de la rentabilidad que ofrece a lo largo del tiempo, no de su
precio o cotizacin.
En este caso, la tendencia estocstica aparece debido al coeciente unitario
del retardo de j
|
en la ecuacin que explica el comportamiento de esta variable.
En el lenguaje estadstico, se dice que el proceso j
|
tiene una raz unitaria.
La diferenciacin elimina las tendencias estocsticas, pues tendramos,
j
|
j
|l
= ^j
|
= j -
|
, t = 1, 2, ...
con 1(j
|
) = j, \ ar(j
|
) = o
2
:
, para todo t.
Como veremos ms adelante, el concepto de proceso browniano est bastante
ligado al de camino aleatorio. Por tanto, la armacin anterior es coherente con
establecer la hiptesis de que la rentabilidad de un determinado activo sigue un
proceso browniano, pero no tanto con efectuar dicha hiptesis sobre su precio.
La diferenciacin elimina asimismo las tendencias deterministas, como fcil-
mente puede comprobarse algebraicamente. De este modo, si el precio de un
determinado activo tiene una tendencia temporal determinista lineal, su primera
diferencia estar libre de dicha tendencia,
j
|
= ,
0
,
l
t -
|
cuya primera diferencia es:
^j
|
= j
|
j
|l
= ,
l
(-
|
-
|l
)
Un proceso con una tendencia determinista cuadrtica sigue trayectorias con
formas parablicas, cncavas o convexas, dependiendo del signo del coeciente
del trmino de segundo grado. Su primera diferencia presentar una tendencia
lineal, mientras que su segunda diferencia estar libre de tendencia. Un proceso
con una tendencia determinista representada por un polinomio de grado tres
puede tener ciclos. La primera diferencia de este proceso tendr una tendencia
cuadrtica.
Si consideramos una tendencia de grado 2:
27
j
|
= ,
0
,
l
t ,
2
t
2
-
|
cuya primera diferencia es:
^j
|
= j
|
j
|l
= (,
l
,
2
) 2,
2
t (-
|
-
|l
)
siendo su segunda diferencia:
^
2
j
|
= ^j
|
^j
|l
= j
|
2j
|l
j
|2
= 2,
2
(-
|
2-
|l
-
|2
)
De modo anlogo, un proceso puede tener asimismo varias races unitarias.
Los tipos de inters ya son rentabilidades, por lo que tienen, generalmente,
un orden de no estacionariedad (es decir, un nmero de tendencias) menos
que las series de ndices burstiles o de precios de derivados, por ejemplo. En
ocasiones, sin embargo, algunas series de precios son no estacionarias de orden
2 (tienen 2 races unitarias), por lo que incluso las rentabilidades pueden ser no
estacionarias, presentando una raz unitaria.
3.2 Stationarity, mean reversion, impulse responses
A stochastic process is stationary when the distribution of /-tuples (j
|1
, j
|2
, ..., j
|
!
)
is the same with independence of the value of / and of the time periods t
l
, t
2
, ..., t
|
considered. It is a property of any stationary stochastic process that the forecast
of a future value converges to its mean as the forecast horizon goes to innity.
This is obviously fullled in the case of a white noise process. Another char-
acteristic is that any time realization crosses the sample mean often, while a
nonstationary process would spend arbitrarily large periods of time at either
side of its sample mean. As we have seen above for the rst order autoregres-
sion, the simple autocorrelation function of a stationary process, made up by the
sequence of correlations between any two values of the process, will go to zero
relatively quickly, dieing away very slowly for processes close to nonstationarity.
When they are not subject to an stochastic innovation,
3
stationary autore-
gressive processes converge smoothly and relatively quickly to their mathemat-
ical expectation. The j
|
-process will converge to
o
l
either from above or from
below, depending on whether the initial value, j
0
, is above or below
o
l
. The
speed of convergence is given by the autoregessive coecient. When the process
is subject to a nontrivial innovation, the convergence in the mean of the process
will not be easily observed. This is the case because the process experiences
a shock through the innovation process every period, which would start a new
convergence that would overlap the previous one, and so on. Under normal
circumstances we will just see a time realization exhibiting uctuations around
the mathematical expectation of the process, unless the process experiences a
huge innovation, or the starting condition j
0
is far enough from
o
l
, in units of
its standard deviation,
_
c
2
z
l
2
.
3
That is, if the inovation .I has zero variance.
28
The property of converging to the mean after any stochastic shock is called
mean reversion, and is characteristic of stationary processes. In stationary
processes, any shock tends to be corrected over time. This cannot be appreci-
ated because shocks to j
|
are just the values of the innovation process, which
take place every period. So, the process of mean reversion following a shock
gets disturbed by the next shock, and so on. But the stationary process will
always react to shocks as trying to return to its mean. Alternatively, a non
stationary process will tend to depart from its mean following any shock. As a
consequence, the successive values of the innovation process -
|
will take j
|
every
time farther away from its mean.
An alternative way of expressing this property is through the eects of purely
transitory shocks or innovations. A stationary process has transitory responses
to purely transitory innovations. On the contrary, a nonstationary process may
have permanent responses to purely transitory shocks. So, if a stationary vari-
able experiences a one-period shock, its eects may be felt longer than that,
but will disappear after a few periods. The eects of such a one-period shock
on a nonstationary process will be permanent. A white noise is just an in-
novation process. The value taken by the white noise process is the same as
that taken by its innovation. Hence, the eects of any innovation last as long
as the innovation itself, reecting the stationary of this process. The situation
with a random walk is quite dierent. A random walk takes a value equal to
the one taken the previous period, plus the innovation. Hence, any value of the
innovation process gets accumulated in successive values of the random walk.
The eects of any shock last forever, reecting the nonstationary nature of this
process. In a stationary rst order autoregression, any value of the innovation
-
|
gets incorporated into j
|
that same period. It will also have an eect of size
j-
|
on j
|l
. This is because j
|l
= jj
|
-
|l
so, even if -
|l
= 0, the eect of
-
|
would still be felt on j
|l
through the eect it previously had on j
|
.
This argument suggests how to construct what we know as an impulse re-
sponse function. In the case of a single variables, as with the stochastic processes
we consider in this section, that response is obtained by setting the innovation
to zero every period except by one, in which the impulse is produced. At that
time, the innovation takes a unit value.
4
The impulse response function will
be the dierence between the values taken by the process after the impulse in
its innovation, and those that would have prevailed without the impulse. The
response of a white noise to an impulse in its own innovation is a single unit
peak at the time of the impulse, since the white noise is every period equal
to its innovation, which is zero except at that time period. In the case of a
general random walk, a zero innovation would lead to a random walk growing
constantly at a rate dened by the drift a from a given initial condition j
0
. If
at time t

the innovation takes a unit value, the random walk will increase by
that amount at time t

, but also at any future time. So the impulse response is


4
When working with several variables, responses can be obtained for impulses in more
than one variable. To make the size of the responses comparable, each innovation is supposed
to take a value equal to its standard deviation, which may be quite dierent for dierent
innovations.
29
in this case a step function, that takes the value 1 at t

and at any time after


that. Consider now a stationary rst order autoregression. A unit innovation
at time t

will have a unit response at that time period, and a response of size
j
s
each period t :, gradually decreasing to zero.
Another important characteristic of economic time series is the possibil-
ity that they exhibit cyclical uctuations. In fact, rst order autoregressive
processes may display a shape similar to that of many economic time series, al-
though to produce regular cycles we need a second order autoregressive processes,
j
|
= j
l
j
|l
j
2
j
|2
-
|
,
with -
|
being an innovation, a sequence of independent and identically dis-
tributed over time. Using the lag operator: 1
s
j
|
= j
|s
in the representation
of the process:
j
|
j
l
j
|l
j
2
j
|2
=
_
1 j
l
1 j
2
1
2
_
j
|
= -
|
,
The dynamics of this process is characterized by the roots of its characteristic
equation,
1 j
l
1 j
2
1
2
= (1 `

1) (1 `

1) = 0
which are given by:
`

, `

=
j
l

_
j
2
l
4j
2
2j
2
Stationary second order autoregressions have the two roots of the charac-
teristic equation smaller than 1. A root greater than one in absolute size will
produce an explosive behavior. A root equal to one also signals nonstationarity,
although the sample realization will not be explosive. It will display extremely
persistent uctuations, very rarely crossing its mean, as it was the case with a
random walk. This is very clear in the similar representation of a random walk:
(1 1) j
|
= -
|
.
Since the characteristic equation is now of second degree, it might have as
roots two conjugate complex numbers. When that is the case, the autoregressive
process displays cyclical uctuations. The response of j
|
to an innovation -
|
will also display cyclical uctuations, as we will see in dynamic macroeconomic
models below.
3.3 Numerical exercise: Simulating simple stochastic processes
The Simple_simul.xls EXCEL book presents simulations of some of these simple
stochastic processes. Column A in the Simulations spreadsheet contains a time
index. Column B contains a sample realization of random numbers extracted
from a (0, 1) distribution. This has been obtained from EXCEL using the se-
quence of keys: Tools/Data Analysis/Random Number Generator and selecting
as options in the menu number of variables =1, observations = 200, a Normal
30
distribution with expectation 0 and variance 1, and selecting the appropriate
output range in the spreadsheet.
A well constructed random number generator produces independent real-
izations of the chosen distribution. We should therefore have in column B 200
independent data points from a N(0,1), which can either be interpreted as a sam-
ple of size 200 from a N(0,1) population, or as a single time series realization
from a white noise where the innovation follows a N(0,1) probability distribu-
tion. The latter is the interpretation we will follow. At the end of the column,
we compute the sample mean and standard deviation, with values of 0.07 and
1.04, respectively. These are estimates of the 0 mathematical expectation and
unit standard deviation with this sample. Below that, we present the standard
deviation of the rst and the last 100 observations, of 1.09 and .98. Estimates
of the variance obtained with the full sample or with the two subsamples seem
reasonable. A dierent sample would lead to dierent numerical estimates.
Panel 2 contains sample realizations from three dierent random walks with-
out drift, The only parameter in such processes is the variance of the innovation,
which takes values 1, 25 and 100, respectively. At a dierence of a white noise,
an initial condition is needed to generate a time series for a random walk, be-
cause of the time dependence between successive observations, as can be seen
in (2) . The three sample realizations are graphed in the RandomWalks spread-
sheet. All exhibit extreme persistence, crossing the sample mean just once in
200 observations. We know by construction that these three processes lack a
well dened mean and have a time increasing variance. We can always compute
sample averages and standard deviations, as shown in the spreadsheet at the
end of the series, but it is not advisable to try to interpret such statistics. In
particular, in this case, by drawing dierent realization for the white noise in
column B, the reader can easily check how sample mean and standard devia-
tions may drastically change. In fact, standard deviations are calculated in the
spreadsheet for the rst and last 100 sample observations, and they can turn
out to be very dierent, and dierent from the to
2
:
theoretical result. The point
is we cannot estimate that time-varying moment with much precision.
Panel 3 compares a random walk to three rst-order autoregressive processes,
with autoregressive coecients of 0.99, 0.95 and 0.30. As mentioned above, a
random walk can be seen as the limit of a rst order autoregression,as the
autoregressive coecient converges to 1, although the limit presents some dis-
continuity since, theoretically, autoregressive processes are stationary so long
as the autoregressive coecient is below 1 in absolute value, while the random
walk is nonstationary. The autoregressive processes will all have a well-dened
mean and variance, which is not the case for the limit random walk process.
0.99. The sample time series realizations for the four processes are displayed
in the AR-processes spreadsheet, where it can be seen that sample dierences
between the autoregressive process with the 0.99 coecient and the random
walk are minor, in spite of the theoretical dierences between the two processes.
In particular, the autoregressive process crosses its sample mean in very few
occasions. That is also the case for the 0.95-autoregressive process, although its
mean reverting behavior is very clear at the end of the sample. On the other
31
hand, the time series realization from the 0.30-autoregressive process exhibits
the typical behavior in a clearly stationary process, crossing its sample mean
repeatedly.
Panel 4 presents sample realizations from two white noise processes with drift
and N(0,1) innovations. As shown in the enclosed graph, both uctuate around
their mathematical expectation, which is the value of the constant dening the
drift, crossing their sample means very often. Panel 5 contains time series
realizations for two random walk processes with drift. These show in the graph
in the form of what could look as deterministic trends. This is because the
value of the drifts, of 1.0 and 3.0, respectively, is large, relative to the innovation
variance which is of 25 in both cases. If the value of the drift is reduced, or
the variance of the innovation increased, the shape of the time series would
be dierent, since the uctuations would then dominate over the accumulated
eect of the drift, as the reader can check by reducing the numerical values of
the drift parameters
5
used in the computation of these two columns.
Panel 6 presents realizations of a stationary rst order autoregression with
coecient of .90. In the second case we have not included an innovation process,
so that it can be considered as a deterministic autoregression. It is interesting
to see in the enclosed graph the behavior of a stationary process: starting from
an initial condition, in the absence of an innovation, the process will always
converge smoothly to its mathematical expectation. That is not the case in the
stochastic autoregression, just because the innovation variance, of 25, is large
relative to the distance between the initial condition, 150, and the mathematical
expectation, 100. The reader can check how reducing the standard deviation
used in column S from 5 to 0.5, the pattern of the time series changes drastically,
and the convergence process becomes then evident.
Panel 7 contains realizations for second order autoregressions. The rst two
columns present sample realizations from stationary autoregressions,
Model 1: j
|
= 10 .6j
|l
.8j
|2
-
|
, -
|
~ (0, 1) (3)
Model 2: j
|
= 80 1.2j
|l
.j
|2
-
|
, -
|
~ (0, 1) (4)
and are represented in an enclosed graph. The two time series display uc-
tuations around their sample mean of 100, which they cross a number of times.
The second time series, represented in red in the graph can be seen to exhibit
a more evident stationary behavior, with more frequent crosses with the mean.
The next three columns present realizations for nonstationary second order au-
toregressions. There is an important dierence between them: the rst two
correspond to processes:
Model 3 : j
|
= .7j
|l
.8j
|2
-
|
, -
|
~ (0, 1) (5)
Model 4 : j
|
= 1.j
|l
.j
|2
-
|
, -
|
~ (0, 1) (6)
5
Or signicantly increasing the innovation variance. What are the dierences beetwen both
cases in terms of the values taken by the process?
32
that contain exactly a unit root, the second one being stable.
6
The rots of
the characteristic equation for Model 3 are 1 and -0.3, while those for Model 2
are 1 and 0.5. The last autoregression
Model 5 : j
|
= .8j
|l
1.2j
|2
-
|
, -
|
~ (0, 1) (7)
has a root greater than one, which produces an explosive behavior. The two
roots are -0.95 and 1.25.
The Impulse responses spreadsheet contains the responses to a unit shock
for the stochastic processes considered above: a random walk, three rst-order
autoregressions, two stationary second-order autoregressions, and three nonsta-
tionary second-order autoregressions. The innovation in each process is sup-
posed to take a zero value in each case for ten periods, to be equal to 1, the
standard deviation assumed for the innovation in all cases at t

= 11, and be
again equal to zero afterwards. We compare that to the case when the in-
novation is zero at all time periods. Impulse responses are computed as the
dierence between the time paths followed by each process under the scenario
with a shock at t

= 11, and in the absence of that shock. The rst-order


autoregressions are supposed to start from an initial condition j
0
= 100, when
their mathematical expectations is zero, so in the absence of any shock, they
follow a smooth trajectory gradually converging to zero at a speed determined
by its autoregressive coecient. The second order autoregressions are assumed
to start from j
0
= j
l
= 100, which is also their mathematical expectations. So,
in the absence of any shock, the processes would stay at that value forever.
7
The rst graph to the right displays impulse responses for a random walk
as well as for the three rst order autoregressions considered above, with coe-
cients 0.99, 0.95 and 0.30. A random walk has the constant, permanent impulse
response that we mentioned above when describing this process. The responses
of the rst order autoregressions can be seen to gradually decrease to zero from
the initial unit value. The response is shorter the lower it is the autoregres-
sive coecient. For high autoregressive coecients, the process shows strong
persistence, which makes the eects of the shock to last longer.
The second graph shows the impulse responses of the two stationary second-
order autoregressions. As the reader can easily check, the characteristic equation
for Model 1 has roots -0.32 and 0.92, so it is relatively close to nonstationarity.
The characteristic equation for Model 2 has roots 0.6 0.874 17i, with modulus
0.5. This dierence shows up in a much more persistent response of Model 1.
The complex roots of Model 2 explain the oscillatory behavior of the impulse
response of this model.
The third graph displays impulse responses for the three nonstationary sec-
ond order autoregressions. In the two cases when there is a unit root (Models
6
The two polynomials can be written as 1 o
1
1 o
2
1
2
= (1 1)(1 A1), the second
root being 1A. The reader just need to nd the value of A in each case.
7
We could have done otherwise, like starting the rst-order autoregresisons at their mathe-
matical expectation, and the second-order autoreegressions outside their expected values. The
reader can experiment with these changes.
33
3 and 4), the graph shows a permanent response to the purely transitory, one-
period shock. The response of Model 5 is explosive because of having one root
above 1, and its values are shown on the right Y-axis.
3.4 Stationarity
Wald decomposition: Any linearly regular stochastic process j
|
admits are
presentation:
j
|
= )(t)
1

s=0
a
s
-
|s
with -
|
white noise, and a
:
= 0 for : r, for some r, possibly innite.
In this representation )(t) is a purely deterministic function, i.e., it is perfectly
predictable from its own past, and other than for this component, the stochastic
process j
|
admits a possibly innite MA representation.
But we also know that such a MA representation can be inverted, provided
the roots of the lag polynomial satisfy the appropriate requirements, to obtain
a possibly innite AR representation.
A stochastic process is said to have a unit root if the characteristic equation
of its AR representation has such a root. A stochastic process may have more
than one unit root.
The rst dierence of a process having a unit root is stationary. A stochastic
process is said to be integrated of order d, if its d-th order dierence is stationary.
Characteristics of a stationary process:
It has nite variance
Its simple and partial autocorrelation functions converge to zero quickly
The time series realization crosses its sample mean level often
A one-period shock has purely transitory eects
Its forecast converges to its mathematical expectations as the forecast
horizon goes to innity
Characteristics of a non-stationary stochastic process
Its variance increases with the sample size
Its autocorrelation functions do not go to zero quickly
The number of periods between successive crosses with its sample mean
is innity
A one-period shock has permanent eects
Its forecast does not converge to its mathematical expectation as the fore-
cast horizon goes to innity
34
3.5 Valoracin por simulacin
La valoracin de una opcin mediante simulacin se ajusta a la idea general
de simular el precio del subyacente desde el instante en que se valora la opcin
hasta el vencimiento de la misma. En el caso de una opcin Europea, basta con
considerar en cada simulacin el precio resultante al nal de la serie temporal
simulada, que coincide con el instante de vencimiento de la opcin. Mediante un
elevado nmero de realizaciones simuladas, podemos aproximar la distribucin
de probabilidad del precio del activo subyacente al vencimiento de la opcin. De
este modo, obtenemos el valor intrnseco de la opcin a vencimiento para cada
realizacin y, por tanto, una aproximacin a la distribucin de probabilidad de
dicho valor intrnseco. De dicha distribucin de probabilidad inferimos un pre-
cio actual para la opcin a partir de un determinado mecanismo de valoracin:
una posibilidad es calcular la esperanza matemtica de la distribucin de prob-
abilidad del valor intrnseco a vencimiento, y descontarlo al instante en que se
efecta la valoracin.
En el caso de otros tipos de opciones, puede utilizarse, en general, un pro-
cedimiento anlogo, si bien teniendo en cuenta a) todos los posibles instantes de
ejercicio, b) el valor intrnseco en cada uno de ellos, c) el descuento apropiado
a utilizar.
Sin embargo, hay otras posibilidades: una, interesante, consistira en consid-
erar los tipos de inters como estocsticos, y simular simultneamente los tipos
de inters y el precio del subyacente, una vez que hubiramos recogido en el
modelo la dependencia entre ambos. Por ejemplo,
j
|
= ,
0
,
l
r
|
-
|
r
|
= c
0
c
l
r
|l
-
2|
con (-
l|
, -
2|
) ~
__
0
0
_
,
_
o
2
l
o
l2
o
l2
o
2
2
__
. Tngase en cuenta que, en un
modelo de estas caractersticas, la relacin entre los tipos de inters r
|
y la
rentabilidad del activo subyacente j
|
se produce por dos vas: una, explcita,
por la presencia de los tipos en la ecuacin de la rentabilidad; otra, implcita,
por la correlacin entre las innovaciones de ambas ecuaciones.
En el caso en que la rentabilidad y los tipos tengan estructuras de volatilidad
condicional no trivial, entonces podramos establecer un modelo ARCH bivari-
ante, en el que se pueden recoger las dependencias tanto entre rentabilidades
como entre volatilidades.
3.6 Contrastes de camino aleatorio
Existen en la literatura distintas deniciones de camino aleatorio, no todas
equivalentes entre s. Una denicin requiere que las rentabilidades sean in-
dependientes e idnticamente distribuidas. Esta denicin, que puede resultar
interesante en determinados contextos, no lo es tanto cuando tratamos la posible
predicitibilidad de la serie de rentabilidades. La razn es que una estructura de
35
heterocedasticidad condicional (la varianza depende en cada perodo de las re-
alizaciones recientes de la serie de rentabilidades), por ejemplo, introduce clara
dependencia temporal, pero no por ello permite predecir la serie de rentabili-
dades si, por ejemplo, mantiene una estructura de ruido blanco con este tipo de
heterocedasticidad.
Una denicin ms general [Granger y Mortensen (1970)] se basa en las
condiciones: a) esperanza matemtica constante y b) ausencia de correlacin
serial. En este caso, la prediccin lineal ptima de ua rentabilidad futura es su
esperanza incondicional, que estamos suponiendo constante.
Si pretendemos contrastar la hiptesis la de que la serie de rentabilidades
obedece una estructura de camino aleatorio, tenemos que introducir condiciones
adicionales [ver Lo y MacKinlay (1988)].
Una tercera denicin [Samuelson (1965)] es: 1[r
|l
,1
|
[ = j para cierta
constante j y para todo instante t y toda historia pasada: 1
|
= r
|I
, i _ 0.
La tercera denicin implica la segunda, siempre que las rentabilidades ten-
gan varianza nita. La diferencia entre ambas es menor. Los contrastes de
camino aleatorio que utilizan funciones de autocorrelacin se basan en la se-
gunda denicin. Suponiendo varianza nita, si un test de este tipo rechaza la
segunda denicin, rechaza tambin la tercera denicin.
3.6.1 Coecientes de autocorrelacin
La manera ms directa de contrastar si un determinado proceso estocstico tiene
naturaleza de camino aleatorio, o lo que es lo mismo, la hiptesis de martingala,
es analizando los coecientes de correlacin entre dos variables constituyentes de
dicho proceso estocstico en dos instantes distintos de tiempo. Bajo la hiptesis
nula, todos los coecienets de autocorrelacin deberan ser nulos, lo que complica
en cierta medida el diseo del contraste, pues el nmero de hiptesis a contrastar
es potencialmente ilimitado. Pero, una vez ms, para llevar a cabo el contraste
nos habremos de servir de sus anlogos muestrales, en cuyo clculo perdemos
observaciones muestrales, por el hecho de tener que retardar la serie temporal
de datos.
Fuller (1976) caracteriza la distribucin asinttica del vector de los :primeros
coecientes de autocorrelacin, siendo sta Normal multivariante:
_
T j
|
(0, 1) (8)
En muestras nitas, si el proceso estocstico tiene estructura de camino
aleatorio (RW1-Taylor antiguo), con varianza nita o
2
y momentos de orden
seis nitos, se tiene:
1 ( j
|
) =
T /
T(T 1)
O(T
2
)
\ ar( j
|
) =
T /
T
2
O(T
2
)
Co ( j
|
, j
l
) = O(T
2
)
36
Por tanto, los coecientes de autocorrelacin muestrales de un camino aleato-
rio estn sesgados a la baja.
8
En muestras pequeas, tal sesgo puede ser impor-
tante. Para evitar el sesgo, Fuller (1976) propone la correccin:
j
|
= j
|

T /
(T 1)
2
_
1 j
2
|
_
,
con:
T
T /
j
|
(0, 1)
1 ( j
|
) = O(T
2
)
3.6.2 Contrastes Portmanteau
Para recoger adecuadamente un concepto de camino aleatorio que implica que
todos los coecientes de autocorrelacin son cero, Box y Pierce (1970) pro-
pusieron un contraste conjunto basado en el estadstico:
Q
n
=
n

|=l
j
2
|
Bajo la hiptesis nula (RW1), (8) implica que:

Q
n
=

n
|=l
j
2
|
se distribuye
como una
2
n
. Ljung y Box (1978) propusieron una correccin en muestras
nitas:
Q
0
n
= T(T 2)
n

|=l
j
2
|
T /
Al agregar los coecientes de autocorrelacin al cuadrado, el contraste tiene
potencia frente a diversas alternativas. Sin embargo, la eleccin del orden :
es ambigua, y puede condicionar los resultados del contraste. Si se utiliza un
: pequeo, puede no detectarse la autocorrelacin de orden superior. Si se
utiliza : grande, el contraste pierde potencia debido a la acumulacin de auto-
correlaciones no signicativas. Si se dispone de una alternaitva concreta, puede
disearse un contarste con mejores propiedades estadsticas.
3.6.3 Ratios de varianza
Recordando que las rentabilidades continuas son aditivas, es decir, que la rentabil-
idad sobre 2 perodos es la suma de las rentabilidades sobre cada uno de ellos:
r
2
|
= r
l
|
r
l
|l
, tenemos la razn de varianzas a 2 perodos,
8
La razn es que un coeciente de autocorrelacin se estima mediante productos cruzados
de desviaciones respecto de la media muestral. Como dichas desviaciones suman cero, una
desviacin positiva tender a venir seguida de desviaciones negativas, y viceversa.
37
1\ (2) =
\ ar(r
2
|
)
2\ ar(r
l
|
)
=
\ ar(r
l
|
r
l
|l
)
2\ ar(r
l
|
)
=
2\ ar(r
|
) 2Co(r
l
|
, r
l
|l
)
2\ ar(r
l
|
)
= 1 j
l
que est determinada por el primer valor de la funcin de autocorrelacin
simple.
Si las rentabilidades son ruido blanco (white noise), el coeciente de auto-
correlacin de orden 1 es igual a cero, y la razn de varianzas es igual a 1. Con
autocorrelacin positiva, la razn de varianzas ser mayor que uno, siendo infe-
rior a la unidad si las rentabilidades estn negativamente autocorrelacionadas,
lo que es infrecuente en datos nancieros.
Para contrastar la signicatividad de este estadstico, puede utilizarse la
distribucin asinttica:
_
2:(1\ (2) 1) ~ (0, 2)
que sugiere que,
1\ (2) ~ (1,
1
:
)
por lo que, manteniendo un 95% de conanza, la razn de varianzas de orden
2 no debera separarse de 1.0 en ms del doble del inverso del tamao muestral.
Existe un contraste ms amplio, que incorpora los coecientes de autocor-
relacin hasta orden . La razn de varianzas es entonces:
1\ () =
\ ar(r
j
|
)
\ ar(r
l
|
)
= 1 2
jl

I=l
_
1
i

_
j
I
que muestra que el ratio de varianzas 1\ () es una combinacin lineal de
los 1 primeros coecientes de autocorrelacin, tomados con ponderaciones
decrecientes. En el caso = 2 tenemos la expresin que antes vimos para 1\ (2).
Nuevamente, si el proceso es ruido blanco, el ratio de varianzas 1\ () es igual
a 1 para todo .
Si, por ejemplo, se trata de un proceso autoregresivo de primer orden,
r
|
= cr
|l
-
|
se tiene:
1\ () = 1 2
jl

I=l
_
1
i

_
j
I
= 1
2
1 c
_
c
c
j


c c
j
(1 c)
_
una expresin que puede utilizarse para disear un contraste de camino
aleatorio teniendo una estructura AR(1) como hiptesis alternativa.
38
3.6.4 Ratios y diferencias de varianzas
A partir de una serie de precios 1
|
, t = 0, 1, ..., 2:, de longitud 2: 1, si deno-
tamos por j
|
a la serie de logaritmos, j
|
= ln(1
|
), t = 1, 2, ..., 2:.Supongamos el
modelo:
j
|
= j -
|
, -
|
~ i., i.d., (0, o
2
)
tenemos los estimadores de j y o
2
:
j = r =
1
2:
2n

I=l
(j
|
j
|l
) =
1
2:
(j
2n
j
0
)
o
2
o
=
1
2:
2n

I=l
(j
|
j
|l
j)
2
o
2
b
=
1
2:
n

I=l
(j
2|
j
2|2
2 j)
2
done o
2
b
hace uso de la naturaleza de camino aleatorio de r
|
bajo la hiptesis
nula, puesto que la varianza puede entonces estimarse a partir de la mitad de
los incrementos de las observaciones de orden par. Los tres estimadores son
consistentes:
_
2:
_
o
o
o
2
_
~ (0, 2o
d
)
_
2:
_
o
b
o
2
_
~ (0, 4o
d
)
Como o
2
o
es un estimador asintticamente eciente bajo la hiptesis nula
(RW1), podemos utilizar el clsico argumento de Hausman, para mostrar que la
varianza asinttica de la diferencia de un estimador consistente y un estimador
asintticamente eciente es simplemente la diferencia de las varianzas asintticas
de ambos estimadores. por tanto, si denotamos 1

\ (2) = o
2
b
o
2
o
, tenemos el
estadstico de Diferencia de varianzas de orden 2:
_
2:1

\ (2) ~ (0, 2o
d
)
por lo que la hiptesis nula de camino aleatorio puede contrastarse utilizando
cualquier estimador consistente de o
d
como, por ejemplo, 2
_
o
2
o
_
2
. Entonces, el
estadstico estandarizado,
_
:1

\ (2),
_
o
d
sigue una distribucin N(0,1) bajo la
hiptesis nula.
De modo similar, el estadstico de razn de varianzas que se obtiene mediante
1

\ (2) = o
2
b
, o
2
o
sigue una distribucin:
_
2:(1

\ (2) 1) ~ (0, 2)
39
como puede probarse a partir de una aproximacin de Taylor de primer orden
o mediante el llamado mtodo delta.
En consecuencia, el estadstico estandarizado
_
2:(1

\ (2)1),
_
2 =
_
:(1

\ (2)
1) sigue una distribucin (0, 1). Lo y MacKinley (1988) sugieren utilizar un
contraste basado en esta distribucin. Sin embargo, aunque suele preferirse el
estadstico ratio de varianzas al de diferencia de varianzas, por estar libre de es-
cala, ambos conducen a las mismas conclusiones, puesto que si se utiliza 2
_
o
2
o
_
2
para estimar 2o
d
, se tiene:
1

\ (2)
_
o
d
=
o
2
b
o
2
o
o
2
o
=
_
1

\ (2) 1
_
~
_
0,
1
:
_
La potencia de este tipo de contrastes aumenta si se reduce la posible pres-
encia de heterocedasticidad en los datos.
Las deniciones y estadisticos pueden extendersea intervalos de ms de 2
perodos, con:
j = r =
1
:
2j

|=l
(j
|
j
|l
) =
1
:
(j
jn
j
0
)
o
2
o
=
1
:
jn

|=l
(j
|
j
|l
j)
2
o
2
b
=
1
:
n

|=l
(j
j|
j
j|j
j)
2
y las distribuciones:
_
:1

\ () ~ (0, 2( 1)o
d
)
_
:(1

\ () 1) ~ (0, 2( 1))
siendo el nmero de perodos. Dos renamientos mejoran las propiedades
de muestras nitas de estos contrastes. Uno consiste en estimar:
o
2
c
=
1

2
:
nj

|=j
(j
|
j
|j
j)
2
y el segundo en corregir un sesgo en los estimadores o
2
o
y o
2
c
antes de dividir
uno por otro.
4 Modelos VAR
4.1 Introduccin
Utilizamos un modelo del tipo vector autoregresivo (VAR) cuando queremos
caracterizar las interacciones simultneas entre un grupo de variable. Un VAR
40
es un modelo de ecuaciones simultneas formado por un sistema de ecuaciones
de forma reducida sin restringir. Que sean ecuaciones de forma reducida quiere
decir que los valores contemporneos de las variables del modelo no aparecen
como variables explicativas en las distintas ecuaciones. El conjunto de variables
explicativas de cada ecuacin est constituido por un bloque de retardos de cada
una de las variables del modelo. Que sean ecuaciones no restringidas signica
que aparece en cada una de ellas el mismo grupo de variables explicativas.
As, en un modelo vectorial autoregresivo de primer orden, VAR(1), las
variables explicativas de cada ecuacin son: una constante, ms un retardo
de cada una de las variables del modelo. Si el modelo pretende explicar el
comportamiento temporal de 3 variables, habra 3 variables explicativas, ms
constante, en cada ecucin, para un total de 12 coecientes a estimar. Si el
modelo fuera de segundo orden, VAR(2), habra 7 coecientes a estimar en cada
una de las 3 ecuaciones que componen el modelo VAR. Como puede verse, todas
las variables son tratadas simtricamente, siendo explicadas por el pasado de
todas ellas.
Pueden incluirse tambin como variables explicativas algunas variables de
naturaleza determinista, como una posible tendencia temporal, variables cticias
estacionales, o una variable cticia de tipo impulso o escaln, que sirve para
llevar a cabo un anlisis de intervencin en el sistema. Por ltimo, podra
incluirse como explicativa una variable, incluso en valor contemporneo, que
pueda considerarse exgena respecto a las variables que integran el modelo VAR.
El modelo VAR es muy til cuando existe evidencia de simultaneidad entre
un grupo de variables, y que sus relaciones se transmiten a lo largo de un
determinado nmero de perodos. Al no imponer ninguna restriccin sobre la
versin estructural del modelo, no se incurre en los errores de especicacin que
dichas restricciones pudieran causar al ejercicio emprico. De hecho, la principal
motivacin detrs de los modelos VAR es la dicultad en identicar variables
como exgenas, como es preciso hacer para identicar un modelo de ecuaciones
simultneas.
Por el contrario, en un modelo VAR todas las variables se tratan de igual
modo: el modelo tienen tantas ecuaciones como variables, y los valores retar-
dados de todas las ecuaciones aparecen como variables explicativas en todas
las ecuaciones. Una vez estimado el modelo, puede procederse a excluir algu-
nas variables explicativas, en funcin de su signicacin estadstica, pero hay
razones para no hacerlo. Por un lado, si se mantiene el mismo conjunto de vari-
ables explicativas en todas las ecuaciones, entonces la estimacin por mnimos
cuadrados ordinarios ecuacin por ecuacin es eciente, por lo que el proceso
de estimacin del modelo es verdaderamente sencillo. Por otro, la presencia de
bloques de retardos como variables explicativas hace que la colinealidad entre
variables explicativas sea importante, lo que hace perder precisin en la esti-
macin del modelo y reduce los valores numricos de los estadsticos tipo t de
Student.
41
4.2 El modelo VAR(1)
En el caso ms simple, con slo dos variables y un retardo, el modelo VAR
2
(1)
es,
j
l|
= ,
l0
,
ll
j
l|l
,
l2
j
2|l
n
l|
(9)
j
2|
= ,
20
,
2l
j
l|l
,
22
j
2|l
n
2|
o, en forma matricial,
_
j
l|
j
2|
_
=
_
,
l0
,
20
_

_
,
ll
,
l2
,
2l
,
22
__
j
l|l
j
2|l
_

_
n
l|
n
2|
_
(10)
donde los trminos de error satisfacen,
1(n
l|
) = 1(n
2|
) = 0, \t
1(n
l|
n
ls
) = 1(n
2|
n
2s
) = 1(n
l|
n
2s
) = 0, \t ,= :
\ ar
_
n
l|
n
2|
_
=
_
o
2
l
o
l2
o
l2
o
2
2
_
= , \t (11)
En el modelo VAR anterior, valores negativos de ,
l2
y ,
2l
tienden a inducir
correlacin negativa entre j
l|
e j
2|
si bien no la garantizan.
Un shock inesperado en j
2|
, en la forma de un valor no nulo de la innovacin
n
2|
, adems de afectar a j
2|
, inuye sobre j
l|
, a travs de de la correlacin
entre las innovaciones de ambas variables. En general, una sorpresa en j
2|
vendr acompaada de un valor no nulo de la innovacin n
l|
, salvo en el caso
excepcional en que o
u1u2
= 0. Estos efectos se propagan en el tiempo debido a
la presencia de los valores retardados como variables explicativas.
En general, un modelo VAR se especica,
1
|
=
0

1

s=l

s
1
|s
n
|
(12)
donde 1
|
es un vector columna :r1, 1 es el orden del modelo VAR, o
nmero de retardos de cada variable en cada ecuacin, y n
|
es un vector :r1 de
innovaciones, es decir, procesos sin autocorrelacin, con \ ar(n
|
) = , constante.
El elemento (i, ,)en la matriz
s
, 1 _ : _ 1 mide el efecto directo o efecto
parcial de un cambio en 1

en el instante t sobre la variable explicativa al cabo


de : perodos, 1
I,|s
. El elemento i-simo en n
|
es el componente de 1
I|
que no
puede ser previsto utilizando el pasado de las variables que integran el vector
1
|
.Con esta notacin el modeloVAR(1) se escribira: 1
|
=
0

l
j
|l
n
|
.
4.3 Un modelo estructural
Es til interpretar el modelo VAR como forma reducida de un modelo estruc-
tural,
42
j
l|
= c
l0
c
ll
j
2|
c
l2
j
l|l
c
l3
j
2|l
-
l|
(13)
j
2|
= c
20
c
2l
j
l|
c
22
j
l|l
c
23
j
2|l
-
2|
donde j
l|
, j
2|
son variables estacionarias, y -
l|
, -
2|
son innovaciones, pro-
cesos ruido blanco con esperanza cero y varianzas o
2
:1
, o
2
:2
. Este es un modelo
de ecuaciones simultneas con la nica peculiaridad de que sus dos variables
son endgenas. Un shock inesperado en j
2|
, en la forma de un valor no nulo
de la innovacin estructural -
2|
, afecta directamente a j
2|
, pero tambin inuye
sobre j
l|
a travs de la presencia de j
2|
como variable explicativa en la primera
ecuacin. Adems, este efecto se propaga en el tiempo, debido a la presencia
de los valores retardados como variables explicativas. Es natural pensar que los
trminos de error del modelo estructural estn mutuamente incorrelacionados,
puesto que la correlacin contempornea entre j
l|
e j
2|
ya est capturada por la
presencia de sus valores contemporneos como variables explicativas en ambas
ecuaciones. Por tanto, suponemos que Co(-
l|
, -
2|
) = o
:1,:2
= 0.
Si dicha covaraizna no fuese cero, el sistema podra transformarse en otro
sistema, observacionalmente equivalente, con tal propiedad (ver Apndice).
De forma resumida, la representacin matricial del modelo estructural ante-
rior puede escribirse,
1j
|
= I
0
I
l
j
|l
-
|
con,
1 =
_
1 c
ll
c
2l
1
_
; I
0
=
_
c
l0
c
20
_
; I
l
=
_
c
l2
c
l3
c
22
c
23
_
y si suponemos que la matriz 1 tiene inversa, lo cual requiere que c
ll
c
2l
,= 1,
tenemos,
j
|
= 1
l
I
0
1
l
I
l
j
|l
1
l
-
|
=
0

l
j
|l
n
|
donde,
1
l
=
1
1 c
ll
c
2l
_
1 c
ll
c
2l
1
_
n
|
=
_
n
l|
n
2|
_
= 1
l
-
|
= 1
l
_
-
l|
-
2|
_
=
1
1 c
ll
c
2l
_
-
l|
c
ll
-
2|
-
2|
c
2l
-
l|
_
, (14)

l
=
_
,
ll
,
l2
,
2l
,
22
_
=
1
1 c
ll
c
2l
_
c
l2
c
ll
c
22
c
l3
c
ll
c
23
c
22
c
2l
c
l2
c
23
c
l3
c
2l
_
(15)

0
=
_
,
l0
,
20
_
=
1
1 c
ll
c
2l
_
c
l0
c
ll
c
20
c
20
c
2l
c
l0
_
(16)
con lo que habremos pasado a la forma reducida, o modelo VAR.
43
Como puede verse, si los trminos de error del modelo estructural eran ruido
blanco, tambin los trminos de error del modelo VAR tandrn estructura ruido
blanco. Sin embargo, las innovaciones del VAR estarn correlacionadas entre s,
puesto que,
\ ar
_
n
l|
n
2|
_
=
1
(1 c
ll
c
2l
)
2
_
o
2
:1
c
2
ll
o
2
:2
c
2l
o
2
:1
c
ll
o
2
:2
c
2l
o
2
:1
c
ll
o
2
:2
c
2l
o
2
:1
o
2
:2
_
de modo que, incluso si los trminos de error del modelo estructural es-
tn incorrelacionados, o
:1:2
= 0, las perturbaciones del modelo VAR tendrn
correlacin no nula, a no ser que c
ll
= c
2l
= 0.
Es importante examinar las relaciones entre los parmetros de ambos mode-
los, que son, en el caso del modelo VAR(1), las 6 relaciones entre los parmetros
, y los parmetros c que aparecen en (??) y (15), ms las 3 relaciones entre los
elementos de las respectivas matrices de covarianzas,
o
2
u1
=
1
(1 c
ll
c
2l
)
2
_
o
2
:1
c
2
ll
o
2
:2
_
o
2
u2
=
1
(1 c
ll
c
2l
)
2
_
o
2
:2
c
2
2l
o
2
:1
_
o
u1u2
=
1
(1 c
ll
c
2l
)
2
_
c
2l
o
2
:1
c
ll
o
2
:2
_
4.4 Identicacin en un modelo VAR
Denition 1 Recuperacin de los parmetros del modelo estructural a partir
de estimaciones de los parmetros del modelo en forma reducida.
La estimacin de un modelo VAR(1) bivariante proporciona valores numri-
cos para 9 parmetros: las dos constantes ms los cuatro coecientes en las
variables retardadas, ms los 3 parmetros de la matriz de covarianzas del vec-
tor n
|
en (11). Sin embargo, el modelo estructural consta de 10 parmetros: las
dos constantes, los 6 coecientes, y los 3 parmetros de la matriz de covarian-
zas del vector -
|
, por lo que no es posible recuperar los parmetros del modelo
estructural. Recordemos que los dos trminos de perturbacin del modelo en
forma estructural tienen correlacin cero.
En el ejercicio 1 se prueba que el modelo estructural recursivo bivariante de
orden 1,
j
l|
= c
l0
c
ll
j
2|
c
l2
j
l|l
c
l3
j
2|l
-
l|
(17)
j
2|
= c
20
c
22
j
l|l
c
23
j
2|l
-
2|
est exactamente identicado, es decir, que sus parmetros pueden recuper-
arse de forma nica a partir de las estimaciones del modelo VAR asociado. Este
44
es un modelo interesante, en el que se consigue identicar todos los parmetros
del modelo estructural a partir de las estimaciones de la forma reducida (modelo
VAR), introduciendo la hiptesis de que la variable j
l|
afecta a la variable j
2|
nicamente con un retardo, mientras que la direccin de inuencia de j
2|
hacia
j
l|
se maniesta ya dentro del mismo perodo.
No slo se pueden recuperar estimaciones de todos los parmetros que apare-
cen en el modelo estructural. Tambin las series temporales de los residuos del
modelo estructural pueden recuperarse a partir de los residuos obtenidos en la
estimacin del modelo VAR, mediante las relaciones,
n
2|
=
-
2|
1 c
ll
c
2l
; n
l|
=
-
l|
c
ll
-
2|
1 c
ll
c
2l
Un modelo ms restringido,
j
l|
= c
l0
c
ll
j
2|
c
l2
j
l|l
c
l3
j
2|l
-
l|
j
2|
= c
20
c
23
j
2|l
-
2|
implicara que la variable j
l|
no afecta ni de forma contempornea, ni re-
tardada, a la variable j
2|
, por lo que sta puede considerarse exgena respecto
de j
l|
, puesto que Cov(-
l
, -
2
) = 0. Examinando los modelos anteriores, es fcil
ver que las dos restricciones que hemos impuesto, c
2l
= c
22
= 0 hacen que en el
modelo VAR, ,
2l
= 0, restriccin que puede contrastarse utilizando el estads-
tico tipo t habitual de dicho coeciente, sin ms que las dicultades habituales
en el uso de este estadstico.
Al haber introducido una restriccin ms, el modelo estructural est ahora
sobreidenticado, es decir, hay ms de una manera de recuperar valores numri-
cos para los parmetros de dicho modelo, a partir de las estimaciones numricas
del modelo VAR.
Ms dicultades plantea el modelo,
j
l|
= c
l0
c
ll
j
2|
c
l2
j
l|l
-
l|
j
2|
= c
20
c
2l
j
l|
c
23
j
2|l
-
2|
que est asimismo sobreidenticado, habiendo todo un continuo de maneras
de recuperar las estimaciones de los parmetros del modelo estructural. Sin
embargo, en este caso no hay ninguna restriccin contrastable sencilla que nos
permita discutir esta representacin. En este caso, las restricciones del modelo
estructural introducen restricciones no lineales entre los parmetros del modelo
VAR. Una posible estrategia consiste en estimar el modelo VAR sujeto a las
restricciones no lineales generadas por las condiciones de sobreidenticacin.
El problema de obtener las innovaciones estructurales a partir de las las es-
timaciones de los residuos del modelo VAR equivale a la posibilidad de disponer
de valores numricos para los elementos de la matriz 1, puesto que -
|
= 1n
|
.
Esta matriz tiene unos en la diagonal principal, pero no es simtrica, por lo
que tiene /
2
/ parmetros por determinar. Adems, debemos encontrar las
45
/ varianzas de las innovaciones estructurales; recurdese que sus covarianzas
son nulas. As, tenemos /
2
parmetros del modelo estructural, que querramos
recuperar a partir de los
_
/
2
/
_
,2 elementos de \ ar(n
|
). Necesitamos, por
tanto,
_
/
2
/
_
,2 restricciones adicionales, si queremos tener alguna posibili-
dad de identicar el modelo. En el caso de un modelo VAR(1) con 2 variables,
hemos de imponer
_
2
2
2
_
,2 = 1 restricciones para identicar el sistema exac-
tamente, como hemos constatado en los ejemplos anteriores. En un modelo con
3 variables necesitaramos imponer
_
8
2
8
_
,2 = 8 restricciones. El nmero de
restricciones necesarias para identicar el modelo es independiente del orden de
retardos del modelo VAR.
Si imponemos condiciones de recursividad en un modelo con 3 variables,
tenemos,
n
l|
= -
l|
n
2|
= c
2l
-
l|
-
2|
n
3|
= c
3l
-
l|
c
32
-
2|
-
3|
que implica imponer 3 restricciones sobre los elementos de la matriz 1
l
, por
lo que el modelo estara, en principio, exactamente identicado. Esta estructura
recursiva es consistente con una estructura de covarianzas que se conoce como
de tipo Cholesky, dado que la matriz que transforma el vector - en el vector
n es triangular inferior. La recursividad mediante una matriz 1 trinagular
inferior o superior, como en este caso, proporciona siempre el nmero exacto de
restricciones que se precisan para identicar un modelo VAR, que es de /
2
/.
Hay conjuntos alternativos de restricciones, como,
n
l|
= -
l|
c
l3
-
3|
n
2|
= c
2l
-
l|
-
2|
n
3|
= c
32
-
2|
-
3|
que tambin lograra la identicacin exacta del modelo.
Otro tipo de restricciones consistira en imponer un determinado valor numrico
para una respuesta. Por ejemplo, podemos pensar que la innovacin -
2|
tiene
un efecto unitario sobre j
l|
. Esto equivaldra a suponer c
ll
= 1en la matriz:
-
|
= 1n
|
=
_
1 c
ll
c
2l
1
_
n
|
Una posibilidad diferente consistira en identicar el modelo estructural im-
poniendo restricciones sobre la matriz de covarianzas, ya sea imponiendo un
valor numrico para la varianza de -
l|
, la varianza de -
2|
, o la covarianza entre
ambos. Este tipo de restricciones conduce generalmente a soluciones mltiples
(aunque en nmero nito), por lo que el modelo estructural est en tal caso,
sobreidenticado.
46
Por ltimo, puede conseguirse la identicacin imponiendo restricciones ra-
zonables entre los valores numricos de los parmetros estructurales. Por ejem-
plo, puede imponerse una condicin de simetra, c
ll
= c
2l
, o cualquier otra
que resulte adecuada en la aplicacin que se analiza. En el caso del modelo
de 2 variables, esta condicin de simetra de efectos conduce asimismo a una
condicin de igualdad de varianzas para las innovaciones estructurales, lo que
no ocurre en modelos con ms de 2 variables.
4.4.1 Identicacin y respuestas del sistema
Otra manera de entender los problemas de identicacin es la siguiente: supong-
amos que, sin considerar el posible modelo estructural, hemos estimado un mod-
elo VAR(1) bivariante, (10) , en el que queremos calcular cmo reacciona cada
variable ante una innovacin en una de ellas, lo que denominamos como fun-
ciones de respuesta al impulso. Sera poco adecuado, sin embargo, calcular las
respuestas a un impulso en una de las innovaciones, n
l
, por ejemplo, sin que
n
2
experimente ningn impulso, pues ambas innovaciones estn correlacionadas
entre s. Por tanto, hemos de transformar primero el modelo estimado en otro
modelo en que los trminos de error, siendo innovaciones, estn incorrelaciona-
dos entre s. Para ello, podramos seguir una estrategia similar a la discutida
ms arriba, proyectando por mnimos cuadrados una de los dos innovaciones,
n
l|
, por ejemplo, sobre n
2|
,
n
l|
= jn
2|
a
|
cuyo residuo a
|
, denido por a
|
= n
l|
jn
2|
, estara incorrelacionado, por
construccin, con n
2|
.
Premultiplicando el modelo (10) por la matriz
_
1 j
0 1
_
, tendramos,
j
l|
= (,
l0
j,
20
) jj
2|
(,
ll
j,
2l
)j
l|l
(,
l2
j,
22
)j
2|l
a
|
j
2|
= ,
20
,
2l
j
l|l
,
22
j
2|l
n
2|
Co( a
|
, n
2|
) = 0,
un modelo en el que la variable j
2
tiene efectos contemporneos sobre j
l
. Este
es el modelo estructural exactamente identicado (17) que antes consideramos.
En este modelo, tiene sentido preguntarse por las respuestas de ambas vari-
ables a una perturbacin en a
|
o en n
2|
, puesto que ambos estn incorrela-
cionados, por construccin. En respuesta a un impulso en n
2|
, ambas variables
reaccionarn en el mismo instante, y tambin en perodos siguientes, hasta que
dichas respuestas decaigan a cero. En cambio, en respuesta a una perturbacin
en a
|
, j
l
responder en el mismo perodo y perodos siguientes, mientras que j
2
slo responder en perodos siguientes al de la perturbacin.
47
4.4.2 Generalizando el orden del VAR
Como es sabido, dada una matriz simtrica, denida positiva, como , existe
una nica matriz triangular inferior , con unos en su diagonal principal, y
una nica matriz diagonal 1, con elementos positivos a lo largo de su diagonal
principal, tal que admite una descomposicin,
= 1
0
Si consideramos la transformacin lineal del vector de error precisamente
con esta matriz, -
|
=
l
n
|
, tenemos,
\ ar (-
|
) = 1(-
|
-
0
|
) = 1(
l
n
|
n
0
|
_

l
_
0
) = 1(
l

l
_
0
) = 1,
que es una matriz diagonal, por lo que, a diferencia de los componentes del
vector n, los elementos del vector - estn incorrelacionados entre s. Deshaciendo
la transformacin, tenemos,
n
|
=
_
_
_
_
_
_
n
l|
n
2|
n
3|
...
n
||
_
_
_
_
_
_
= -
|
=
_
_
_
_
_
_
1 0 0 ... 0
a
l2
1 0 ... 0
a
l3
a
23
1 ... 0
... ... ... ... ...
a
l|
a
2|
a
3|
... 1
_
_
_
_
_
_
_
_
_
_
_
_
-
l|
-
2|
-
3|
...
-
||
_
_
_
_
_
_
por lo que,
-
||
= n
||
a
l|
-
l|
a
2|
-
2|
... a
|l,|
-
|l,|
(18)
Si los coecientes a
l|
, a
2|
, ..., a
|l,|
se obtienen mediante una estimacin de
mnimos cuadrados ordinarios de la ecuacin (18), que tiene a n
||
como variable
dependiente, y a -
l|
, -
2|
, ..., -
|l,|
como variables explicativas,
-
||
= n
||
a
l|
-
l|
a
2|
-
2|
... a
|l,|
-
|l,|
(19)
entonces tendremos, por construccin, 1(-
||
.-
l|
) = 1(-
||
.-
2|
) = ... = 1(-
||
.-
|l,|
) =
0. Dicho de otra manera, si estimamos regresiones de cada innovacin n
I|
sobre
todas las que le preceden dentro del vector n y nos quedamos con el residuo de
dicha regresin, llammosle -
I|
, tendremos un componente de n
I|
que, por con-
struccin, estar incorrelacionado con n
l|
, n
2|
, ..., n
Il,|
. Ntese que los espacios
generados por las variables n
l|
, n
2|
, ..., n
Il,|
y por las variables -
l|
, -
2|
, ..., -
Il,|
son los mismos, es decir, que ambos conjuntos de variables contienen la misma
informacin. La nica diferencia entre ambos es que las variables n
l|
, n
2|
, ..., n
Il,|
tiene correlaciones no nulas, mientras que las variables -
l|
, -
2|
, ..., -
Il,|
estn
incorrelacionadas entre s.
48
4.5 Condiciones de estabilidad
Si resolvemos recursivamente el modelo VAR(1) tenemos,
1
|
=
0

l
1
|l
n
|
=
0

l
(
0

l
1
|2
n
|l
) n
|
=
= (1
|

l
)
0

2
l
1
|2
(
l
n
|l
n
|
) =
= (1
|

l

2
l
...
nl
l
)
0

n
l
1
|n

nl

I=0

I
l
n
|I
Como puede verse, para la estabilidad del sistema es preciso que las sucesivas
potencias de la matriz
l
decaigan hacia cero, pues de lo contrario, el futuro
lejano tendra efectos sobre el presente, en contra de la rpida amortiguacin
temporal de efectos inherente a todo proceso estacionario. Esto requiere que las
races del polinomio caracterstico de dicha matriz [ 1
|

l
` [= 0, caigan fuera
del crculo unidad, condicin anloga a la que se tiene para un proceso autore-
gresivo univariante. Recordemos que en este modelo: =
_
,
ll
,
l2
,
2l
,
22
_
.
Cuando se cumplen las condiciones de estabilidad, tomando lmites, tenemos,
1
|
= j
1

I=0

I
l
n
|I
donde j = 1(1 ) es el vector de esperanzas matemticas, que viene dado
por,
j = (1
|

l
)
l

0
Adems,
\ ar(1
|
) = 1
_
(1
|
j)
2

= 1
_
1

I=0

I
l
n
|I
_
2
=
1

I=0

I
l
(\ ar(n
|I
))
_

I
l
_
0
=
1

I=0

I
l

I
l
_
0
En el caso bivariante, j
l
= 1(n
l|
), j
2
= 1(n
2|
), con
j =
_
j
l
j
2
_
=
_
1
2

_
,
ll
,
l2
,
2l
,
22
__
l
_
,
l0
,
20
_
=
1
^
_
,
l0
(1 ,
22
) ,
l2
,
20
,
20
(1 ,
ll
) ,
2l
,
l0
_
siendo ^ = (1 ,
ll
)(1 ,
22
) ,
l2
,
2l
, y
\ ar(1
|
) =
1

I=0
_
,
ll
,
l2
,
2l
,
22
_
I
_
o
2
u1
o
u1u2
o
u1u2
o
2
u2
__
,
ll
,
l2
,
2l
,
22
_
I0
Un modelo VAR estable dene momentos incondicionales para cada una de
las variables del vector 1
|
. En ese caso, hay que distinguir entre la distribucin
y los momentos incondicionales y condicionales del vector 1
|
49
4.6 VAR y modelos univariantes
Es til asimismo pensar en trminos de cules son los modelos univariantes que
se deducen de una representacin VAR, en lnea con el trabajo de Zellner y
Palm (19xx). En este sentido, si partimos de un VAR(1), como (10), escrito en
funcin del operador de retardos,
j
l|
= ,
l0
,
ll
1j
l|
,
l2
1j
2|
n
l|
j
2|
= ,
20
,
2l
1j
l|
,
22
1j
2|
n
2|
tenemos,
j
2|
=
,
20
,
2l
1j
l|
n
2|
1 ,
22
1
con lo que,
(1 ,
ll
1) j
l|
= ,
l0
,
l2
1
,
20
,
2l
1j
l|
n
2|
1 ,
22
1
n
l|
y, nalmente,
(1 ,
ll
1) (1 ,
22
1) j
l|
= [(1 ,
22
) ,
l0
,
l2
,
20
[[(1 ,
22
1) n
l|
,
l2
n
2|l
[
que es un proceso ARMA(2,1).
4.7 Estimacin de un modelo VAR
Como ya hemos mencionado, en ausencia de restricciones, la estimacin por
mnimos cuadrados, ecuacin por ecuacin, de un modelo VAR produce esti-
madores ecientes a pesar de que ignora la informacin contenida en la matriz
de covarianzas de las innovaciones. Junto con el hecho de que la colinealidad
entre las variables explicativas no permite ser muy estricto en la interpretacin
de los estadsticos t, sugiere que es preferible mantener todas las variables ex-
plicativas iniciales en el modelo.
El estimador es consistente siempre que los trminos de error sean innova-
ciones, es decir, procesos ruido blanco, pues en tal caso, estarn incorrelaciona-
dos con las variables explicativas, por la misma razn que en un modelo univari-
ante. Por tanto, la ausencia de autocorrelacin en los trminos de error de todas
las ecuaciones es muy importante. Tomando ambos hechos conjuntamente, es
fcil concluir que debe incluirse en cada ecuacin como variable explicativas, el
menor nmero de retardos que permita eliminar la autocorrelacin residual en
todas las ecuaciones. Existen contrastes del tipo de razn de verosimilitud sobre
el nmero de retardos a incluir en el [modelo.
Un modelo VAR no se estima para hacer inferencia acerca de coecientes
de variables individuales. Precisamente la baja precisin en su estimacin, de-
saconseja cualquier anlisis de coecientes individuales. Tiene mucho sentido,
50
por el contrario, el anlisis conjunto de los coecientes asociados a un bloque
de retardos en una determinada ecuacin.
Bajo hiptesis de Normalidad del vector de innovaciones, el logaritmo de la
funcin de verosimilitud es,
| =
T/
2
(1 ln2)
T
2
ln [

[
siendo

la estimacin de la matriz de covarianzas del vector de innovaciones
n,

=
1
T
T

|=l
n
|
n
0
|
una matriz simtrica, denida positiva, por construccin.
4.8 Contrastacin de hiptesis
4.8.1 Contrastes de especicacin
Uno de los contrates ms habituales en un modelo VAR es el relativo al nmero
de retardos que deben incluirse como variables explicativas. Hay que tener en
cuenta que en cada ecuacin entra un bloque de retardos de todas las vari-
ables del vector j. Si, por ejemplo, trabajamos con 4 variables y establecemos
un orden 3 para el VAR, tendremos 12 variables explicativas, ms el trmino
constante, en cada ecuacin, con un total de 52 coecientes en el sistema de
ecuaciones, ms 10 parmetros en la matriz de varianzas-covarianzas de las in-
novaciones. El nmero de parmetros a estimar crece muy rpidamente con el
nmero de retardos. Si pasamos de 3 a 4 retardos, tendramos 68 coecientes
ms los 10 parmetros de la matriz de covarianzas. Por eso ya comentamos con
anterioridad que debe incluirse en cada ecuacin el menor nmero de retardos
que permita eliminar la autocorrelacin del trmino de error de todas ellas.
Existe un contraste formal de signicacin de un conjunto de retardos, que
utiliza un estadstico de razn de verosimilitudes,
` = (T /)(ln [
1
[ ln [
S1
[
donde [
1
[, [
S1
[ denotan los determinantes de las matrices de covari-
anzas de los modelos restringido y sin restringir, respectivamente. Si queremos
contrastar si un cuarto retardo es signicativo, deberamos estimar el modelo
con 3 y con 4 retardos, y construir el estadstico anterior, que tiene una dis-
tribucin chi-cuadrado con un nmero de grados de libertad igual al nmero
de restricciones que se contrastan. Al pasar del modelo con 3 retardos al mod-
elo con 4 retardos, hay que aadir un retardo ms de cada variable en cada
ecuacin, por lo que el nmero de restricciones es igual al incremento en el
nmero de retardos, por el nmero de variables al cuadrado.
51
Sin embargo, no puede olvidarse que la eleccin del nmero de retardos debe
tener muy en cuenta la eliminacin de autocorrelacin residual en los resid-
uos. Los estadsticos anteriores no examinan este importante aspecto y, por
tanto, no deben utilizarse por s slos. En consecuencia, una buena estrategia
es comenzar de un nmero reducido de retardos, y examinar las funciones de
autocorrelacin de los residuos, junto con estadsticos del tipo Ljung-Box o Box-
Pierce para contrastar la posible existencia de autocorrelacin, lo que requerira
aumentar el nmero de retardos y con ello, el nmero de parmetros a estimar.
Lamentablemente, sin embargo, es muy poco probable que pueda eliminarse la
autocorrelacin residual con menos de 4 retardos cuando se trabaja con datos
trimestrales, o con menos de 12 retardos, cuando se trabaja con datos mensuales.
Una estrategia distinta para encontrar el orden del modelo VAR consiste
en examinar los denominados criterios de Informacin, que son determinadas
correcciones sobre el valor muestral de la funcin logaritmo de Verosimilitud.
Los ms conocidos son los de Akaike y Schwartz,
1C = 2
|
T
2
:
T
o1C = 2
|
T
:
ln(T)
T
siendo : = /(dj/) el nmero de parmetros estimados en el modelo VAR.
d es el nmero de variables exgenas, j el orden del VAR, y / el nmero de
variables. En ocasiones, se ignora el trmino constante, y los criterios anteriores
se aproximan por,
1C = T ln [ [ 2:
o1C = T ln [ [ :ln(T)
siendo el nmero de parmetros que se estima, y la matriz de covarianzas
de los residuos. Estos estadsticos se calculan para una sucesin de modelos con
distinto nmero de retardos y se comparan, seleccionando aqul modelo que
produce un menor valor del estadstico.
Un estadstico de razn de verosimilitudes como el antes descrito puede uti-
lizarse para contrastar cualquier tipo de hiptesis, y no slo la signicacin de
grupos de variables, siempre que el modelo restringido est anidado dentro del
modelo sin restringir.
4.8.2 Contrastes de causalidad
Un contraste especialmente interesante es el conoce como de causalidad en el
sentido de Granger: supongamos que estamos explicando el comportamiento
de una variable j utilizando su propio pasado. Se dice que una variable .
no causa a la variable j si al aadir el pasado de . a la ecuacin anterior no
aade capacidad explicativa. El contraste consiste en analizar la signicacin
52
estadstica del bloque de retardos de . en la ecuacin mencionada, y la hiptesis
nula es que la variable . no causa, en el sentido de Granger, a la variable j.
En realidad, la propuesta inicial de Granger haca referencia a que la predic-
cin de j basada en el pasado de las dos variables j y ., sea estrictamente mejor
(es decir, con menos error) que la prediccin de j basada exclusivamente en su
propio pasado. As, se dira que la variable . no causa a la variable j si se tiene,
1(j
|
, j
|l
, j
|2,
...; .
|l
, .
|2
, ...) = 1(j
|
, j
|l
, j
|2,
...)
Sin embargo, esta propiedad no suele analizarse; se contrasta exclusivamente
la signicacin del bloque de retardos de . en la ecuacin de j, y se supone que
si dicho bloque de variables es signicativo, contribuir a mejorar la prediccin
de la variable j. Esta manera de proceder se basa en que, analticamente, es
evidente que la presencia del bloque de retardos de . en la ecuacin de j hace
que la esperanza de j condicional en el pasado de las dos variables, j y ., sea
distinta de la esperanza de j condicional en su propio pasado exclusivamente,
si bien esta propiedad terica no siempre se maniesta en resultados prcticos,
y es bien sabido que un buen ajuste no necesariamente conduce a una buena
prediccin.
El contraste puede llevarse a cabo utilizando el estadstico 1 habitual en
el contraste de signicacin de un bloque de variables, o mediante el estads-
tico de razn de verosimilitudes anterior. Con ms de dos variables, existen
muchos posibles contrastes de causalidad y en algunos casos, el estadstico de
razn de verosimilitudes puede resultar ms til que el estadstico 1, al per-
mitir contrastar la exclusin de algn bloque de retardos en varias ecuaciones
simultneamente.
Asimismo, el contraste de causalidad o, lo que es lo mismo, el contraste
de signicacin de un bloque de retardos puede llevarse a cabo mediante un
estadstico de razn de verosimilitudes, en el que el modelo restringido excluye
un grupo de retardos de una ecuacin
4.9 Representacin MA de un modelo VAR
Para simplicar la notacin, sin perder ningn elemento relevante del modelo, en
esta seccin ignoramos la presencia de constantes en las ecuaciones del modelo
VAR. Un modo de justicar tal ausencia es pensar que las variables del modelo
estn en diferencias con respecto a sus respectivas medias muestrales.
Todo modelo VAR admite una representacin de medias mviles (MA),
1
|
=
1

s=0
1
s
n
|s
a la que se llega tras sucesivas sustituciones de 1
|s
en (12) . La repre-
sentacin MA puede obtenerse asimismo en funcin de las innovaciones estruc-
turales. Esta representacin permite resumir las propiedades de las relaciones
cruzadas entre las variables que componen el vector 1
|
, que queda represen-
tado como una combinacin lineal de valores actuales y pasados del vector de
53
innovaciones. La simultaneidad vuelve a quedar palpable en el sentido de que
cualquier innovacin n
I|
afecta a todas las variables 1
,|s
.
Si volvemos al modelo de dos variables de orden 1, tenemos,
_
j
l|
j
2|
_
=
_
,
l0
,
20
_

_
,
ll
,
l2
,
2l
,
22
__
j
l|l
j
2|l
_

_
n
l|
n
2|
_
que, como vimos, puede escribirse,
_
j
l|
j
2|
_
=
_
j
l
j
2
_

s=0
_
,
ll
,
l2
,
2l
,
22
_
s
_
n
l|s
n
2|s
_
y, en trminos de las innovaciones del modelo estructural, incorrelacionadas
entre s,
_
j
l|
j
2|
_
=
_
j
l
j
2
_

1
1 c
ll
c
2l
1

s=0
_
,
ll
,
l2
,
2l
,
22
_
s
_
1 c
ll
c
2l
1
__
-
l|s
-
2|s
_
= (20)
=
_
j
l
j
2
_

s=0
_
c
ll
(:) c
l2
(:)
c
2l
(:) c
22
(:)
__
-
l|s
-
2|s
_
= j
1

s=0
1(:)-
|s
donde,
_
c
ll
(:) c
l2
(:)
c
2l
(:) c
22
(:)
_
=
1
1 c
ll
c
2l
_
,
ll
,
l2
,
2l
,
22
_
s
_
1 c
ll
c
2l
1
_
(21)
Existe un procedimiento recursivo para obtener las matrices de coecientes
de la representacin de medias mviles que utiliza la relacin que buscamos,
1
|
=
l
1
|l
...

1
|
n
|
= (1
|

l
1
2
1 ...

)
l
n
|
=
= (c
0
c
l
1 c
2
1
2
...)n
|
de modo que tenemos,
1
|
= (1
|

l
1
2
1 ...

)(c
0
c
l
1 c
2
1
2
...) =
= c
0
(c
l

l
c
0
)1 (c
2

l
c
l

2
c
0
)1
2
...
que conduce a,
c
0
= 1
|
; c
l

l
c
0
= 0; c
2

l
c
l

2
c
0
= 0; ...
de donde, nalente, obtenemos:
54
c
0
= 1
|
c
l
=
l
c
2
=
l
c
l

2
...
c
s
=
l
c
sl

2
c
s2
...

c
s
que pueden utilizarse para calcular recursivamente las matrices de coe-
cientes de la representacin de medias mviles.
Si trabajamos con un modelo VAR(1), es facil ver de lo anterior que las
matrices c
s
son las sucesivas potencias de la matriz
l
.
4.10 Funciones de respuesta al impulso
La ecuacin (20) es la representacin de medias mviles del modelo VAR(1)
bivariante. Los coecientes de la sucesin de matrices 1(:) representan el im-
pacto que, a lo largo del tiempo, tienen sobre las dos variables del modelo j
l|
e j
2|
una perturbacin en las innovaciones -
l|
, -
2|
. Por ejemplo, los coecientes
c
l2
(:) reejan el impacto que en los distintos perodos :, : _ 1, tiene sobre j
l
una perturbacin del tipo impulso en -
2
.
Es decir, consideramos que -
2
est en su valor de equilibrio, cero, excepto
en un perodo, en que toma un valor igual a 1; como consecuencia, tanto j
l
como j
2
reaccionan, porque -
2|
aparece en ambas ecuaciones en (20), y dicha
respuesta se extiende a varios perodos, hasta que la sucesin c
l2
(:) se hace
cero. La sucesin de valores numricos c
l2
(:) se conoce como la respuesta de
j
l
a un impulso en -
2
. El efecto, multiplicador o respuesta a largo plazo es la
suma

1
s=0
c
l2
(:). Esta suma existe si las variables son estacionarias, pues en
tal caso ha de cumplirse que [

1
s=0
c
l2
(:) [< .
El problema al que nos enfrentamos al tratar de calcular las funciones de
respuesta al impulso es que, si bien contamos con estimaciones numricas de los
parmetros ,
I
, i, , = 1, 2, desconocemos los parmetros c
ll
y c
2l
que aparecen
en (21). En el modelo recursivo que antes vimos, se tiene c
2l
= 0. Adems, se
prueba en el ejercicio 1 que en este modelo el parmetro c
ll
puede recuperarse
mediante c
ll
= o
u1u2
,o
2
u2
. En ese caso, n
2|
= -
2|
y n
l|
= -
l|
c
ll
-
2|
=
-
l|
c
ll
n
2|
.
Las funciones de respuesta al impulso slo puden obtenerse bajo restricciones
de identicacin de este tipo. La que hemos descrito es la ms habitual, y equiv-
ale a admitir que una de las dos variables afecta a la otra slo con retraso, si bien
permitimos que en la otra direccin haya respuesta contempornea. Estaremos
caracterizando las respuestas del sistema a un impulso en cada una de las in-
novaciones del modelo estructural o, lo que es lo mismo, en la innovacin n
2|
y
en n
l|
c
ll
n
2|
. Esta ltima es la componente de n
l|
que no est explicada por
n
2|
o, si se preere, la componente de n
l|
que no est correlacionada con n
2|
9
.
9
En general, si proyectamos &
1I
sobre &
2I
, el coeciente estimado ser igual a
Cor(u
1
,u
2
)
p
1 ar(u
2
)
.
55
De hecho, si c
2l
= 0, entonces n
l|
c
ll
n
2|
es, precisamente, igual a la
perturbacin estructural -
l|
.
Como hemos visto, las funciones de respuesta al impulso slo pueden obten-
erse despus de haber introducido restricciones acerca del retraso con que unas
variables inciden sobre otras. Esta eleccin condiciona bastante, en general, el
aspecto de las funciones de respuesta, excepto si las innovaciones del modelo
VAR, n
l|
y n
2|
estn incorrelacionadas, en cuyo caso, coinciden con las innova-
ciones del modelo estructural.
Las funciones de respuesta al impulso generan una gran cantidad de nmeros,
pues se calcula el impacto que, en cada instante futuro tendra, sobre cada
variable del modelo, un impulso en una determinada innovacin, y ello puede
repetirse para las innovaciones en cada una de las ecuaciones. Por eso, suelen
representarse en varios grcos, cada uno de los cuales incluye las respuestas
a travs del tiempo, de una determinada variable a un impulso en cada una
de las innovaciones; de este modo se tiene tantos grcos como variables en
el modelo, cada uno de ellos conteniendo tantas curvas como variables. Alter-
nativamente, pueden construirse grcos, cada uno de los cuales representa la
respuesta temporal de todas las variables del modelo a un impulso en una de
las innovaciones. Nuevamente hay tantos grcos como variables, cada uno de
ellos conteniendo tantas curvas como variables. El inconveniente del segundo
tipo de representacin es que las respuestas de las distintas variables dependen
de sus respectivas volatilidades, por lo que la comparacin de las respuestas
de dos variables diferentes a un determinado impulso no permite decir cul de
las variables responde ms. Recordando que la desviacin tpica es una medida
adecuada del tamao de toda variable aleatoria de esperanza nula, debemos
dividir las respuestas de cada variable por su desviacin tpica antes de repre-
sentarlas en un mismo grco. Tampoco un impulso de tamao unidad tiene el
mismo signicado en cada variable, por lo que conviene calcular las respuestas
normalizadas a un impulso de tamao igual a una desviacin tpica en cada
innovacin.
Consideremos un VAR(1) sin constante (es decir, las variables tiene esper-
anza igual a cero),
_
_
j
l|
j
2|
j
3|
_
_
=
_
_
0, 0 0
0, 1 0, 1 0, 8
0 0, 2 0, 8
_
_
_
_
j
l|l
j
2|l
j
3|l
_
_

_
_
n
l|
n
2|
n
3|
_
_
y supongamos que antes del instante t
0
las innovaciones toman un valor
cero en todos los perodos, las variables estn en sus niveles de equilibrio, j
I
=
j

I
= 0, i = 1, 2, 8. En dicho instante, la innovacin n
l|0
toma un valor unitario,
n
l|0
= 1, y vuelve a ser cero en los perodos siguientes. Cul es la respuesta
del sistema?
En el instante t
0
,
Pero &
1I
=
s
1t
+o
11
s
2t

y &
2I
=
s
2t
+o
21
s
1t

, por lo que Cc(&


1
, &
2
) =
o
11

2
z
2
+o
21

2
z
1
(1o
11
o
21
)
2
56
_
_
j
l|0
j
2|0
j
3|0
_
_
=
_
_
n
l|0
n
2|0
n
3|0
_
_
=
_
_
1
0
0
_
_
por lo que j
2|0
e j
3|0
estarn en sus niveles de equilibrio, j
2
= j

2
= 0, j
3
=
j

3
= 0, mientras que j
l|0
= j

l
1 = 1.
Posteriormente,
_
_
j
l|0l
j
2|0l
j
3|0l
_
_
=
_
_
0, 0 0
0, 1 0, 1 0, 8
0 0, 2 0, 8
_
_
_
_
j
l|0
j
2|0
j
3|0
_
_

_
_
n
l|0l
n
2|0l
n
3|0l
_
_
=
=
_
_
0, 0 0
0, 1 0, 1 0, 8
0 0, 2 0, 8
_
_
_
_
j

l
1
j

2
j

3
_
_

_
_
0
0
0
_
_
=
_
_
0,
0, 1
0
_
_
_
_
j
l|02
j
2|02
j
3|02
_
_
=
_
_
0, 0 0
0, 1 0, 1 0, 8
0 0, 2 0, 8
_
_
_
_
j
l|0l
j
2|0l
j
3|0l
_
_

_
_
n
l|02
n
2|02
n
3|02
_
_
=
=
_
_
0, 0 0
0, 1 0, 1 0, 8
0 0, 2 0, 8
_
_
_
_
0,
0, 1
0
_
_

_
_
0
0
0
_
_
=
_
_
0, 2
0, 06
0, 02
_
_
que van proporcionando la primera columna de las matrices que obtenemos
calculando las sucesivas potencias de la matriz de coecientes
l
.
De este modo, tendramos las respuestas del sistema a sorpresas en las in-
novaciones del modelo VAR. Si queremos calcular las respuestas a innovaciones
estructurales, debemos utilizar la representacin,
_
j
l|
j
2|
_
=
_
j
l
j
2
_

1
1 c
ll
c
2l
1

s=0
_
,
ll
,
l2
,
2l
,
22
_
s
_
1 c
ll
c
2l
1
__
-
l|s
-
2|s
_
y examinar la sucesin denida en (21).
Ntese que en este modelo VAR las respuestas al impulso iniciales (en t = 0)
son todas nulas.
4.11 Descomposicin de la varianza
Si utilizamos la representacin MA para obtener predicciones de las variables
j
l
, j
2
, tenemos,
1
|
j
|n
= 1
|
_
j
l|n
j
2|n
_
= j
1

s=n
1(:)-
|ns
donde 1 es la misma matriz que aparece en (20).
57
por lo que el error de prediccin es,
c
|
(:) = j
|n
1
|
j
|n
=
_
j
1

s=0
1(:)-
|ns
_

_
j
1

s=n
1(:)-
|ns
_
=
nl

s=0
1(:)-
|ns
=
=
_
(c
ll
(0)-
l|n
... c
ll
(: 1)-
l|l
) (c
l2
(0)-
2|n
... c
l2
(: 1)-
2|l
)
(c
2l
(0)-
l|n
... c
2l
(: 1)-
l|l
) (c
22
(0)-
2|n
... c
22
(: 1)-
2|l
)
_
cuya varianza es,
\ ar
_
c
l|
(:)
c
2|
(:)
_
=
_
o
2
:1

nl
s=0
c
ll
(:)
2
o
2
:2

nl
s=0
c
l2
(:)
2
o
2
:1

nl
s=0
c
2l
(:)
2
o
2
:2

nl
s=0
c
22
(:)
2
_
que, inevitablemente, aumentan con el horizonte de prediccin. La expresin
anterior nos permite descomponer la varianza del error de prediccin en dos
fuentes, segn tenga a -
l
o a -
2
como causa. Con ello, estamos examinando
el inevitable error de prediccin en cada variable a un determinado horizonte,
y atribuyndolo a la incertidumbre acerca de la evolucin futura en cada una
de las variables. Es, por tanto, una manera de hacer inferencia acerca de las
relaciones intertemporales entre la variables que componen el vector j. Para
ello, se expresan los componentes de cada varianza en trminos porcentuales,
_
o
2
:1

nl
s=0
c
ll
(:)
2
\ ar (c
l|
(:))
;
o
2
:2

nl
s=0
c
l2
(:)
2
\ ar (c
l|
(:))
_
j
_
o
2
:1

nl
s=0
c
2l
(:)
2
\ ar (c
2|
(:))
;
o
2
:2

nl
s=0
c
22
(:)
2
\ ar (c
2|
(:))
_
Si una variable es prcticamente exgena respecto a las dems, entonces
explicar casi el 100% de la varianza de su error de prediccin a todos los
horizontes posibles. Esto es lo ms habitual a horizontes cortos, mientras que a
horizontes largos, otras variables pueden ir explicando un cierto porcentaje de
la varianza del error de prediccin.
La descomposicin de la varianza est sujeta al mismo problema de iden-
ticacin que vimos antes para las funciones de respuesta al impulso, siendo
necesario introducir alguna restriccin como las consideradas en la seccin an-
terior. Nuevamente, si la correlacin entre las innovaciones del VAR es muy
pequea, la ordenacin que se haga de las variables del vector j o, lo que es lo
mismo, las restricciones de exclusin de valores contemporneos que se introduz-
can sern irrelevantes. En general, sin embargo, tales restricciones condicionan
muy signicativamente la descomposicin de la varianza resultante. De hecho,
con las restricciones de identicacin de la seccin anterior, -
2
explica el 100%
de la varianza del error de prediccin un perodo hacia adelante en la variable
j
2
. Si, en vez de dicha restriccin, excluyramos j
2|
de la primera ecuacin,
entonces -
l
explicara el 100% de la varianza del error de prediccin un perodo
hacia adelante en la variable j
l
.
58
4.11.1 Identicacin recursiva: la descomposicin de Cholesky
Para eliminar la correlacin contempornea existente entre las innovaciones n
|
de distintas ecuaciones, podemos transformar el vector n
|
en un vector c
|
medi-
ante la transformacin denida por la descomposicin de Cholesky de la matriz
de covarianzas , = \ ar(n
|
). Esta descomposicin nos proporciona una ma-
triz triangular inferior G tal que GG
0
= . Como consecuencia, G
l
G
0l
= 1,
y el sistema VAR puede escribirse,
1
|
=
1

s=0

s
n
|s
=
1

s=0
(
s
G)
_
G
l
n
|s
_
=
1

s=0

s
c
|s
(22)
con

s
=
s
G, c
|s
= G
l
n
|s
, \ ar (c
|s
) = G
l
\ ar(n
|s
)G
l0
= 1.
El efecto de c
I|
sobre 1
,|s
viene medido por el elemento (,, i) de la matriz

s
. La sucesin de dichos elementos, para 1 _ : _ proporciona la respuesta
dinmica de la variable 1

a una innovacin en la variable 1


I
. esto se conoce
como funcin de respuesta de 1

a un impulso sorpresa en 1
I
. Como c
I|
es
el error de prediccin un perodo hacia adelante en 1
I|
, la representacin MA
ortogonalizada nos permite computar el error de prediccin de 1
I|
, :-perodos
hacia adelante, en el instante t:1, a travs del elemento i-simo en le vector

nl
s=0

s
c
|s
. Su varianza, el elemento i-simo en la diagonal de

nl
s=0

0
s
,
puede escribirse,

1
=l

nl
s=0
a
s
(i, ,) a
s
(,, i) , siendo a
s
(i, ,) el elemento (i, ,)
genrico de la matriz element

s
. Al aumentar :, a partir de : = 1, esta de-
scomposicin de la varianza del error de prediccin de 1
I|n
entre las / variables
del vector 1
|
se conoce como descomposicin de la varianza de 1
I|
. Proporciona
una estimacin de la relevancia de cada variable del sistema para explicar los
errores de prediccin de las uctuaciones futuras en 1
I|
.
4.12 Ejercicios
Considere el modelo estructural recursivo,
j
l|
= c
l0
c
ll
j
2|
c
l2
j
l|l
c
l3
j
2|l
-
l|
j
2|
= c
20
c
22
j
l|l
c
23
j
2|l
-
2|
donde j
l|
afecta a j
2|
slo con cierto retraso. Note que este modelo permite
identicar el trmino de error -
2|
a partir de las observaciones de la variable
j
2|
. Pruebe que este modelo est exactamente identicado, en el sentido de que
todos sus coecientes, as como las varianzas de los dos trminos de error pueden
recuperarse a partir de la estimacin del modelo VAR(1) en estas dos variables.
,
l0
= c
l0
c
ll
c
20
; ,
ll
= c
l2
c
ll
c
22
; ,
l2
= c
l3
c
ll
c
23
;
,
20
= c
20
; ,
2l
= c
22
; ,
22
= c
23
;
o
2
u1
= o
2
:1
c
2
ll
o
2
:2
; o
2
u2
= o
2
:2
; o
u1,u2
= c
ll
o
2
:2
;
59
sistema que puede resolverse para obtener los 9 parmetros del modelo es-
tructural recursivo.
Muestre que en este modelo, no slo se pueden recuperar estimaciones de
todos los parmetros que aparecen en el modelo estructural, sino tambin las
series temporales de los trminos de error -
l|
y -
2|
.
60
4.13 Apndice
4.13.1 Transformando un VAR con covarianza no nula en otro con
tal propiedad
Supongamos que en el sistema,
j
l|
= c
l0
c
ll
j
2|
c
l2
j
l|l
c
l3
j
2|l
n
l|
j
2|
= c
20
c
2l
j
l|
c
22
j
l|l
c
23
j
2|l
n
2|
se tiene: Co(n
l|
, n
2|
) = o
l2
,= 0. Si estimamos la proyeccin: n
2|
=
,n
l|
-
2|
por mnimos cuadrados, tendremos: , =
c12
c
2
1
, con Co(-
2|
, n
l|
) = 0.
Premultiplicando el sistema por la matriz
_
1 0
, 1
_
, se tiene:
j
l|
= ,
l0
j
2|
n
l|
j
2|
=
, ,
20
1 ,,
l0
j
l|

1
1 ,,
l0
-
2|
cuyos dos trminos de error tiene covarianza nula, como queramos.
4.13.2 Las innovaciones de un modelo estructural deben estar incor-
relacionadas entre s.
De hecho, si dicha covarianza no fuese nula, podramos transformar el modelo
del siguiente modo: proyectaramos uno de los dos errores, -
2|
, por ejemplo,
sobre -
l|
,
-
2|
= j-
l|
a
|
teniendo que el residuo a
|
, denido por a
|
= -
2|
j-
l|
, estara incorrela-
cionado, por construccin, con -
l|
.
Si representamos el modelo estructural en forma matricial,
_
1 c
ll
c
2l
1
__
j
l|
j
2|
_
=
_
c
l0
c
20
_

_
c
l2
c
l3
c
22
c
23
__
j
l|l
j
2|l
_

_
-
l|
-
2|
_
y premultiplicamos por la matriz
_
1 0
j 1
_
, tendramos,
j
l|
= c
l0
c
ll
j
2|
c
l2
j
l|l
c
l3
j
2|l
-
l|
(23)
(1 jc
ll
)j
2|
= (c
20
jc
l0
) ( j c
2l
)j
l|
(c
22
jc
l2
)j
l|l
(c
23
jc
l3
)j
2|l
a
|
un modelo VAR en el que, una vez despejramos j
2|
en la segunda ecuacin,
sera indistinguible del modelo (13) con Co(-
l|
, a
|
) = 0. Siempre debemos es-
tar considerando esta ltima representacin con errores ortogonalizados, por lo
que la condicin de ausencia de correlacin entre los errores de las distintas
ecuaciones en el modelo VAR estructural debe satisfacerse siempre.
61
4.13.3 Errata en Enders, pgina 299,
\ ar(1
|
) = 1
_
(1
|
j)
2

= 1
_
1

I=0

I
l
n
|I
_
2
=
1

I=0

2I
l
(\ ar(n
|I
)) = (1
|

2
l
)
l

\ ar(1
|
) = (1
2

2
l
)
l
=
1
'
_
,
2l
,
l2
,
2
22
(,
ll
,
22
),
l2
(,
ll
,
22
),
2l
,
2l
,
l2
,
2
ll
_
con ' =
_
1
_
,
2l
,
l2
,
2
ll
_ _
1
_
,
2l
,
l2
,
2
22
_
(,
ll
,
22
)
2
,
l2
,
2l
.
5 Modelos no lineales
Es bien conocido que el estimador de Mnimos Cuadrados Ordinarios de un
modelo de relacin lineal,
j
|
= r
0
|
, n
|
, t = 1, 2, ..., T (24)
viene dado por la expresin matricial,

, = (A
0
A)
l
A1
siendo A la matriz Tr/ que tiene por columnas las T observaciones de cada
una de las / variables explicativas contenidas en el vector r
|
, e 1 el vector
columna, de dimensin T, formado por las observaciones de j
|
. Este estimador,
que es lineal (funcin lineal del vector 1 ), es insesgado. Es el de menor varianza
entre los estimadores lineales si la matriz de covarianzas de los trminos de error
tiene una estructura escalar,
\ ar(n) = o
2
u
1
T
Si, adems de tener dicha estructura de covarianzas, el trmino de error
tiene una distribucin Normal, entonces el estimador de Mnimos Cuadrados
coincide con el estimador de Mxima Verosimilitud, siendo entonces eciente:
estimador de menor varianza, entre todos los estimadores insesgados, sea cual
sea su dependencia respecto del vector de 1 .
Supongamos que se pretende estimar la relacin,
j
|
= )(r
|
, ,) n
|
, (25)
donde )(r
|
, ,) es una funcin no lineal de los componentes del vector /r1, ,.
Si )(r
|
, ,) es no lineal nicamente en las variables explicativas r
|
, un cambio de
variable permite transformar el modelo anterior en un modelo lineal. Excluimos,
sin embargo, inicialmente, la estimacin de relaciones implcitas, representables
a partir de un modelo general del tipo,
q(j
|
, r
|
, ,) n
|
,
62
5.1 Minimos Cuadrados no Lineales
El procedimiento de Mnimos Cuadrados no Lineales en este modelo consiste en
resolver el problema de optimizacin:
min
0
o1(

0) = min
0
T

|=l
n
|
_

0
_
= min
0
T

|=l
[j
|
)(r
|
, ,)[
2
resolver el sistema de ecuaciones,
_
0)(r
|
, ,)
0,
_
0
j =
_
0)(r
|
, ,)
0,
_
0
)(A, ,)
donde el vector gradiente es Tr/, y )(A, ,) es Tr1. Este sistema puede
no tener solucin, o tener mltiples soluciones. A diferencia del estimador de
Mnimos Cuadrados aplicado a un modelo lineal, el estimador no es insesgado.
La matriz de covarianzas del estimador resultante es:
\ ar(

0) = o
2
u
_
_
0)(r
|
, ,)
0,
_
0
_
0)(r
|
, ,)
0,
_
_
l
que se reduce a la de la seccin anterior en el caso de un modelo lineal.
Si quisiramos aplicar Mnimos Cuadrados directamente, en el modelo ex-
ponencial,
j
|
= )(r
|
, 0) n
|
= c ,
l
c
o
2
rt
n
|
con 0 = (c, ,
l
, ,
2
) , tendramos que resolver el problema,
min
0
o1(

0) = min
0
T

|=l
_
n
|
_

0
__
2
= min
0
T

|=l
_
j
|
(c ,
l
c
o
2
rt
)

2
que conduce a las condiciones de optimalidad,

j
|
= cT ,
l

c
o
2
rt

j
|
c
o
2
rt
= c

c
o
2
rt
,
l

c
2o
2
rt

j
|
r
|
c
o
2
rt
= c

r
|
c
2o
2
rt
,
l

r
|
c
2o
2
rt
que carece de solucin explcita, por lo que debe resolverse por procedimien-
tos numricos.
63
5.2 Aproximacin del modelo
Un primer enfoque consiste en estimar la aproximacin lineal del modelo (2) ,
alrededor de una estimacin inicial,
j
|
= )(r
|
,

,)
_
0)(r
|
, ,)
0,
_
o=

o
_
,

,
_
n
|
,
que consiste en estimar, por el procedimiento habitual de Mnimos Cuadra-
dos, la relacin lineal,
j

|

_
0)(r
|
, ,)
0,
_
o=

o
, n
|
,
donde la variable j

|
se genera numricamente mediante su denicin. j

|
=
j
|
)(r
|
,

,)
_
J}(rt,o)
Jo
_
o=

o

,, y hay que generar asimismo datos para cada
una de las / variables denidas por el gradiente
_
J}(rt,o)
Jo
_
o=

o
.
La estimacin es,

, =
_
_
0)(r
|
, ,)
0,
_
0
o=

o
_
0)(r
|
, ,)
0,
_
o=

o
_
l _
0)(r
|
, ,)
0,
_
0
o=

o
j

donde el vector gradiente es una matriz de pseudo-datos, de dimensin Tr/,


e j

es un vector Tr1.
El estimador puede escribirse tambin,

, =

,
_
_
0)(r
|
, ,)
0,
_
0
o=

o
_
0)(r
|
, ,)
0,
_
o=

o
_
l _
0)(r
|
, ,)
0,
_
0
o=

o
n.
Este resultado es muy interesante, pues permite poner en prctica un pro-
cedimiento iterativo, en el que, en cada etapa, los errores calculados a partir de
la estimacin

, se utilizan para calcular la correccin que hay que introducir en
el vector de estimaciones en dicha etapa.
El estimador resultante tras la convergencia del procedimiento tiene una
distribucin asinttica Normal, con esperanza matemtica igual al verdadero
vector de parmetros ,, y su matriz de covarianzas puede estimarse por,
o
2
u
_
_
0)(r
|
, ,)
0,
_
0
o=

o
_
0)(r
|
, ,)
0,
_
o=

o
_
l
(26)
con o
2
u
=
l
T|

T
|=l
n
2
|
,siendo el residuo n
|
= j
|
)(r
|
,

,).
64
5.2.1 Estimacin de modelos MA(q)
Una aplicacin interesante de este procedimiento consiste en la estimacin de
estructuras de medias mviles en modelos lineales de series temporales. Como
ejemplo, consideremos un modelo MA(2),
j
|
= -
|
0
l
-
|l
0
2
-
|2
que puede aproximarse linealmente por,
-
|
-
0
|

_
0
l
0
0
l
_
_
0-
|
00
l
_
0=00

_
0
2
0
0
2
_
_
0-
|
00
2
_
0=00
siendo 0
0
=
_
0
0
l
, 0
0
2
_
una estimacin inicial de los parmetros del modelo.
En este modelo se tiene,
0-
|
00
l
= -
|l
;
0-
|
00
2
= -
|2
por lo que podemos escribir la aproximacin anterior como,
-
0
|
0
0
l
_
0-
|
00
l
_
0=00
0
0
2
_
0-
|
00
2
_
0=00
= 0
l
_
0-
|
00
l
_
0=00
0
2
_
0-
|
00
2
_
0=00
-
|
es decir,
-
0
|
0
0
l
-
0
|l
0
0
2
-
0
|2
= 0
l
-
0
|l
0
2
-
0
|2
-
|
que conduce a estimar el modelo lineal de regresin,
n
|
= 0
l
r
l|
0
2
r
2|
-
|
donde,
n
|
= -
0
|
0
0
l
-
0
|l
0
0
2
-
0
|2
r
l|
= -
0
|l
r
2|
= -
0
|2
Para obtener los errores en este caso, se jan los 2 primeros igual a su
esperanza matemtica, cero, y se utiliza la propia expresin del modelo '(2),
escrito en la forma,
-
|
= j
|
0
0
l
-
|l
0
0
2
-
|2
para generar la serie temporal -
0
|
, t = 1, 2, ....T.
65
5.3 Modelo exponencial con constante. Aproximacin lin-
eal
Consideremos nuevamente la estimacin del modelo exponencial:
j
|
= c ,
l
c
o
2
rt
n
|
= )(r
|
, 0) n
|
con 0 = (c, ,
l
, ,
2
) . El gradiente de la funcin ) que dene la relacin entre
variable dependiente e independiente, es,
0)(r
|
, 0)
00
=
_
1, c
o
2
rt
, ,
l
r
|
c
o
2
rt
_
0
por lo que la aproximacin lineal al modelo original es,
j
|
)(r
|
,

0)
_
0)(r
|
, 0)
00
_
0
0=

0
_
0

0
_
n
|
, t = 1, 2, ..., T,
que deniendo variables:
j

|
= j
|
)(r
|
,

0)
_
0)(r
|
, 0)
00
_
0
0=

0 = j
|


,
l

,
2
c

o
2
rt
.
l|
= c

o
2
rt
.
2|
=

,
l
r
|
c

o
2
rt
conduce a estimar el modelo,
j

|
= c ,
l
.
l|
,
2
.
2|
n
|
, t = 1, 2, ..., T (27)
A partir de unas estimaciones iniciales denotadas por el vector

0 =
_
c,

,
l
,

,
2
_
,
generamos observaciones numcas para la variable j

|
, as como para las varaibles
.
l|
, .
2|
, y procedemos a estimar el modelo (27) , obteniendo las nuevas estima-
ciones numricas de los tres parmetros. Con ellos, podramos volver a obtener
observaciones numricas de j

|
, .
l|
, .
2|
, e iterar el procedimiento.
Como hemos visto antes, este procedimiento puede tambin ponerse en prc-
tica estimando la regresin de los residuos sobre el vector gradiente:
n
|
= c
0
c
l
.
l|
c
2
.
2|
Tanto el clculo del vectror de residuos como la generacin de datos para
el vector gradiente dependern de la estimacin concreta disponible en ese mo-
mento, y procederemos a la actualizacin de valores numricos de los parmet-
ros, mediante:
c
n
= c
nl


c
0
;

,
l,n
=

,
l,nl


c
l
;

,
2,n
=

,
2,nl


c
2
siendo n
|
= j
|
)(r
|
,

0
nl
).
66
5.4 Minimizacin de una funcin
Supongamos que queremos hallar el valor del vector de parmetros 0 que min-
imiza una funcin 1 (0) . A partir de una estimacin inicial del valor de dicho
vector,

0
nl
, aproximamos la funcin 1 (.) .
1 (0) 1
_

0
n
_

_
\1
_

0
n
__
0
_
0

0
n
_

1
2
_
0

0
n
_
0
_
\
2
1
_

0
n
__ _
0

0
n
_
= ' (0)
Si quisiramos minimizar la funcin ' (0) ,resolveramos el sistema de ecua-
ciones,
' (0) =
_
\1
_

0
n
__

_
\
2
1
_

0
n
__ _
0

0
n
_
= 0
que conduce a,
0 =

0
n

_
\
2
1
_

0
n
__
l
_
\1
_

0
n
__
valor numrico que puede tomarse como la nueva estimacin,

0
nl
. Por
supuesto, convendr comprobar que el Hessiano \
2
1
_

0
n
_
es denido positivo.
Este es un algoritmo iterativo, conocido como algoritmo de Newton-Raphson.
Converge en una sla etapa al mnimo local cuando la funcin 1 (0) es cuadrtica.
En los dems casos, no hay ninguna seguridad de que el algoritmo vaya a con-
verger. Incluso si lo hace, no hay seguridad de que converja al mnimo global,
frente a hacerlo a un mnimo local. Adems, no es posible saber si el lmite
alcanzado es o no un mnimo de naturaleza local. Por eso, conviene repetir
el ejercicio partiendo de condiciones iniciales muy distintas para, si converje,
certicar que lo hace a un mnimo local peor que el alcanzado previamente.
Las iteraciones continan hasta que se satisfacen las condiciones de conver-
gencia que hallamos disedo. Estas pueden ser una combinacin de condiciones
de diverso tipo,
_

0
n

0
nl
_
0
_

0
n

0
nl
_
< -
l
_
\1
_

0
n
__
0
_
\1
_

0
n
__
< -
2
1
_

0
n
_
1
_

0
nl
_
< -
3
En este tipo de algoritmos puede utilizarse un parmetro ` de longitud de
paso, para tratar de controlar la velocidad de convergencia y, con ello, posibilitar
que nos aproximemos al mnimo global, o que no abandonemos demsiado pronto
una determinada regin del espacio paramtrico:
0 =

0
n
`
_
\
2
1
_

0
n
__
l
_
\1
_

0
n
__
67
5.5 Estimacin por Mnimos Cuadrados
En este caso tenemos,
1 (0) =
T

|=l
(j
|
)(r
|
, ,))
2
= o1(,)
y la regla iterativa,

,
n
=

,
nl

_
\
2
1
_

,
nl
__
l
_
\1
_

,
nl
__
es fcil ver que,
\1
_

,
nl
_
=
0o1(,)
0,
= 2
T

|=l
0)(r
|
, ,)
0,
n
|
\
2
1
_

,
nl
_
=
0
2
o1(,)
0,0,
0
= 2
T

|=l
_
0)(r
|
, ,)
0,
__
0)(r
|
, ,)
0,
_
0
2
T

|=l
0
2
)(r
|
, ,)
0,0,
0
n
|
en este caso, el algoritmo de Newton-Raphson consiste en:

,
n
=

,
nl

_
T

|=l
_
0)(r
|
, ,)
0,
__
0)(r
|
, ,)
0,
_
0

0
2
)(r
|
, ,)
0,0,
n
|
_
l
_
T

|=l
0)(r
|
, ,)
0,
n
|
_
El estimador resultante es asintticamente insesgado, con matriz de covari-
anzas,
o
2
u
_
\
2
1
_

0
n
__
l
estimndose el parmetro o
2
u
del modo antes referido, mediante el cociente
de la Suma de Cuadrados de los errores de ajuste y el nmero de grados de
libertad del modelo.
El algoritmo de Gauss-Newton consiste en ignorar la presencia de la segunda
derivada en la matriz inversa anterior, y considerar el esquema iterativo,

,
n
=

,
nl

_
T

|=l
_
0)(r
|
, ,)
0,
__
0)(r
|
, ,)
0,
_
0
_
l
_
T

|=l
0)(r
|
, ,)
0,
n
|
_
Al despreciar la segunda derivada, este algoritmo entra en dicultades cuando
la supercie a optimizar no tiene suciente curvatura que, como veremos ms
adelante, son las situaciones que en trminos estadsticos, corresponden a iden-
ticacin imperfecta de los parmetros del modelo.
68
El inters de este segundo algoritmo estriba en que la expresin matricial
que aparece en el segundo sumando corresponde con las estimaciones de mn-
imos cuadrados del vector de errores, calculado con las estimaciones actuales,
sobre las variables denidas por el vector gradiente
J}(rt,o)
Jo
, que son /. Las
estimaciones resultantes son las correcciones a introducir sobre las actuales es-
timaciones del vector , para tener la siguiente. La matriz de covarianzas del
estimador resultante responde de nuevo a la expresin (26) .
5.5.1 Algoritmo de Newton-Raphson
Consideremos de nuevo la estimacin del modelo exponencial. Si denotamos
por 1 (0) la funcin Suma de Cuadrados de Residuos, tenemos el gradiente y
matriz hessiana,
\1 (0) = 2

0) (r
|
, 0)
00
n
|
= 2

0)
|
00
n
|
= 2

_
1, c
o
2
rt
, ,
l
r
|
c
o
2
rt
_
n
|
\
2
1 (0) = 2

_
0)
|
00
__
0)
|
00
_
0
2

0
2
)
|
00
2
n
|
=
= 2
T

|=l
_
_
1 c
o
2
rt
,
l
r
|
c
o
2
rt
c
o
2
rt
c
2o
2
rt
,
l
r
|
c
2o
2
rt
,
l
r
|
c
o
2
rt
,
l
r
|
c
2o
2
rt
,
2
l
r
2
|
c
2o
2
rt
_
_
2
T

|=l
_
_
0 0 0
0 0 r
|
c
o
2
rt
0 r
|
c
o
2
rt
,
l
r
2
|
c
o
2
rt
_
_
n
|
=
= 2
T

|=l
_
_
1 c
o
2
rt
,
l
r
|
c
o
2
rt
c
o
2
rt
c
2o
2
rt
r
|
c
o
2
rt
n
|
,
l
r
|
c
2o
2
rt
,
l
r
|
c
o
2
rt
r
|
c
o
2
rt
_
,
l
c
o
2
rt
n
|
_
,
l
r
2
|
c
o
2
rt
_
,
l
c
o
2
rt
n
|
_
_
_
y el algoritmo de Newton-Raphson consiste en actualizar los valores numri-
cos de los parmetros mediante el esquema,

0
n
=

0
nl

_
\
2
1
_

0
nl
__
l
\1
_

0
nl
_
5.5.2 Algoritmo de Gauss-Newton
Este algoritmo es una versin simplicada del anterior, sustituyendo la matriz
hessiana por el producto,
T

|=l
_
0)
|
00
_
0=

0
_
0)
|
00
_
0
0=

0
teniendo as el esquema de actualizacin,

0
n
=

0
nl

_
T

|=l
_
0)
|
00
_
0=

0r1
_
0)
|
00
_
0
0=

0r1
_
l
_
T

|=l
0)(r
|
, ,)
0,
n
|
_
69
por lo que en este modelo, tenemos el esquema iterativo,

0
n
=

0
nl

_
_
T

|=l
_
_
1 c
o
2
rt
,
l
r
|
c
o
2
rt
c
o
2
rt
c
2o
2
rt
,
l
r
|
c
2o
2
rt
,
l
r
|
c
o
2
rt
,
l
r
|
c
2o
2
rt
,
2
l
r
2
|
c
2o
2
rt
_
_
_
_
l
_
_
T

|=l
_
_
n
|
c
o
2
rt
n
|
,
l
r
|
c
o
2
rt
n
|
_
_
_
_
Pero lo veraderamente interesante del algoritmo de Gauss-Newton es que
la actualizacin en el estimador puede llevarse a cabo mediante una regresin
de los errores de ajuste, calculados con el estimador actualmente disponible,
sobre el vector gradiente de la funcin ) . Los coecientes estimados en esta
regresin auxiliar se aaden a los actuales valores numricos de los parmetros
para obtener el nuevo estimador, y se contina de modo iterativo hasta lograr
a convergencia del algoritmo.
5.5.3 Condiciones iniciales
En algunos casos, puede comenzarse de estimaciones iniciales sencialles, pero no
demasiado. La estructura de este modelo sugiere comenzar de ,
2
= 0, con lo que
desaparecera el trmino exponencial, y c = 0, con lo que tendramos ,
l
= j, y
residuos: n
|
= j
|
j. Sin embargo, en este caso, las matrices a invertir en los
algoritmos de Newton- Raphson y Gauss-Newton resultan, respectivamente:
2
T

|=l
_
_
1 1 jr
|
1 1 r
|
n
|
jr
|
jr
|
r
|
n
|
jr
|
r
2
|
j n
|
j
2
r
2
|
_
_
= 2
T

|=l
_
_
1 1 jr
|
1 1 r
|
j
|
2 jr
|
jr
|
r
|
j
|
2 jr
|
r
2
|
jj
|
2 j
2
r
2
|
_
_
;
T

|=l
_
_
1 1 jr
|
1 1 jr
|
jr
|
jr
|
j
2
r
2
|
_
_
siendo la segunda de ellas singular.
Afortunadamente, las condiciones de optimalidad del procedimiento de Mn-
imos Cuadrados no Lineales nos sugiere cmo obtener estimaciones iniciales ra-
zonables, que garanticen un buen comportamiento de los algoritmos iterativos.
Para ello, notemos que la primera condicin puede escribirse,
c = :(j) ,
l
:(c
o
2
rt
)
que, sustituida en la segunda, nos proporciona,
:(j
|
c
o
2
rt
) = :(c
o
2
rt
):(j) ,
l
_
:(c
o
2
rt
)

2
,
l
:(c
2o
2
rt
)
Dado un valor numrico de ,
2
, tenemos,
,
l
=
:(j
|
c
o
2
rt
) :(c
o
2
rt
):(j)
:(c
2o
2
rt
) [:(c
o
2
rt
)[
2
70
que, como es habitual, tiene la forma de cociente entre una covarianza y una
varianza muestrales.
La ltima condicin de optimalidad nos dice,
:
_
j
|
r
|
c
o
2
rt
_
= c:
_
r
|
c
2o
2
rt
_
,
l
:
_
r
|
c
2o
2
rt
_
que proporcionara otra eleccin de ,
l
,
,
l
=
:(j
|
r
|
c
o
2
rt
) :(r
|
c
2o
2
rt
):(j)
:(r
|
c
2o
2
rt
) [:(r
|
c
2o
2
rt
)[
2
Podramos optar por escoger el valor numrico de ,
l
con cualquiera de ellas,
o aqul valor numrico comn a ambas expresiones, si existe. Se tratara entonces
de caracterizar la interseccin, si existe, de las dos curvas como funcin del
parmetro ,
l
, para la eleccin hecha del parmetro ,
2
.
5.6 Estimador de Mxima Verosimilitud
Otra estrategia de estimacin consiste en utilizar un procedimiento de Mxima
Verosimilitud, lo que requiere establecer un determinado supuesto acerca del
tipo de distribucin que sigue el trmino de error (innovacin) del modelo. El
estimador resultante es eciente supuesto que la hiptesis acerca del tipo de
distribucin sea correcta. En el caso de que supongamos que n
|
~ (0, o
2
u
), la
funcin de verosimiltud es,
1(,, o
2
u
) =
_
1
2o
2
u
_
T/2
oxp
_

1
2o
2
u
T

|=l
(j
|
)(r
|
, ,))
2
_
y su logaritmo,
ln1(,, o
2
u
) =
T
2
ln2
T
2
lno
2
u

1
2o
2
u
T

|=l
(j
|
)(r
|
, ,))
2
cuyo gradiente, de dimensin / 1 hay que igualar a 0
|l
para obtener la
estimacin de Mxima Verosimilitud. Su matriz de covarianzas es la inversa de
la matriz de informacin,
\ ar
_

,
1\
_
=
_
1(,, o
2
u
)

l
=
_
1
0
2
ln1(0)
0
2
0
_
l
=
_
T

|=l
1
0
2
ln|
|
(0)
0
2
0
_
l
donde 0 =
_
,, o
2
u
_
y ln|
|
(0) denota el logaritmo de la funcin de densidad
correspondiente a un perodo de tiempo.
Es fcil probar que esta matriz es diagonal a bloques, en , y o
2
u
, por lo que
la estimacin del vector , y del parmetro o
2
u
son independientes, siendo por
tanto, estadsticamente eciente llevarlas a cabo por separado.
En el aso del modelo exponencial:
71
ln1(j
|
, r
|
, 0, o
2
u
) =
T
2
ln2
T
2
lno
2
u

1
2o
2
u
T

|=l
_
j
|
(c ,
l
c
o
2
rt
)
_
2
tendremos el conocido resultado de que la eleccin de valores numricos
para los componentes de 0 que maximiza la funcin de verosimilitud resultante
coinciden con los valores numricos que minimizan la suma de cuadrados de los
errores de estimacin.
En este procedimiento, sin embargo, a diferencia de la estimacin por Mni-
mos Cuadrados, consideramos la estimacin de la varianza del trmino de error,
o
2
u
, simultneamente con la de los parmetros que componen el vector 0. La
ecuacin de optimalidad correspondiente nos dir, como tambin es habitual,
que la estimacin de mxima verosimilitud de dicho parmetro se obtiene divi-
diendo por T la suma de cuadrados de los residuos que resultan al utilizar las
estimaciones de mxima verosimilitud de los parmetros que entran en 0.
Si queremos maximizar el logaritmo de la funcin de verosimilitud, ten-
dremos 1 (0) = ln1(,, o
2
u
) y el algoritmo Newton-Raphson es,

0
n
=

0
nl

_
0
2
ln1(0)
0000
0
_
l
0=

0r1
.
_
0 ln1(0)
00
_
0=

0r1
y el estimador resultante es asintticamente insesgado, con distribucin Nor-
mal y matriz de covarianzas,
\ ar
_

0
n
_
=
_
0
2
ln1(0)
0000
0
_
l
0=

0r
El algoritmo conocido como quadratic hill-climbing consiste en sustituir en
cada iteracin la matriz hessiana por,
\
2
1
_

0
nl
_
j1
|
de modo que sea siempre denida positiva. Cuando esta correccin se intro-
duce en el algoritmo de Gauss-Newton, se tiene el algoritmo de Marquardt.
El algoritmo de scoring consiste en sustituir la matriz hessiana del logaritmo
de la verosimilitud, por su esperanza matemtica, la matriz de informacin
cambiada de signo, lo que simplica mucho su expresin analtica y, por tanto,
los clculos a efectuar en cada etapa del algoritmo,

0
n
=

0
nl

_
1(

0
nl
)
_
l
0=

0r1
.
_
T

|=l
0 ln|
|
(0)
00
_
0=

0r1
y la matriz de covarianzas del estimador resultante es, por supuesto, la in-
versa de la matriz de informacin.
El algoritmo de Gauss-Newton, aplicado a la estimacin por mxima verosimil-
itud, es,
72

0
n
=

0
nl

_
T

|=l
_
0 ln|
|
(0)
00
__
0 ln|
|
(0)
00
_
0
_
l
0=

0r1
.
_
T

|=l
0 ln|
|
(0)
00
_
0=

0r1
En este caso, el algoritmo Gauss-Newton est justicado por la conocida
propiedad terica de la funcin de verosimilitud,
1
_
_
0 ln1(0)
00
__
0 ln1(0)
00
_
0
_
=
_
1
0
2
ln1(0)
0
2
0
_
l
En el caso del modelo exponencial, el gradiente de la funcin logaritmo de
la verosimilitud es,
\ln1(j
|
, r
|
, 0, o
2
u
) =
1
o
2
u
_
_
_
_
_

T
|=l
n
|

T
|=l
c
o
2
rt
n
|

T
|=l
,
l
r
|
c
o
2
rt
n
|

T
2c
2
r

l
2(c
2
r
)
2

n
2
|
_
_
_
_
_
y la matriz hessiana es,
H =
1
o
2
u
T

|=l
_
_
_
_
_
_
1 c
o
2
rt
,
l
r
|
c
o
2
rt

l
c
2
r

T
|=l
n
|
c
o
2
rt
c
2o
2
rt
,
l
r
|
c
2o
2
rt

l
c
2
r

T
|=l
c
o
2
rt
n
|
,
l
r
|
c
o
2
rt
,
l
r
|
c
2o
2
rt
,
2
l
r
2
|
c
2o
2
rt

l
c
2
r

T
|=l
,
l
r
|
c
o
2
rt
n
|

l
c
2
r

T
|=l
n
|

l
c
2
r

T
|=l
c
o
2
rt
n
|

l
c
2
r

T
|=l
,
l
r
|
c
o
2
rt
n
|
T
2(c
2
r
)
2

l
(c
2
r
)
3

n
2
|
_
_
_
_
_
_
Al tomar esperanza matemtica en los elementos de la matriz hessiana y
cambiar su signo, obtenemos la matriz de informacin, que tendr ceros en la
ltima la y columna, correspondientes a la estimacin de o
2
u
, excepto en su
elemento diagonal.
1
_
0, o
2
u
_
=
1
o
2
u
T

|=l
_
_
_
_
1 c
o
2
rt
,
l
r
|
c
o
2
rt
0
c
o
2
rt
c
2o
2
rt
,
l
r
|
c
2o
2
rt
0
,
l
r
|
c
o
2
rt
,
l
r
|
c
2o
2
rt
,
2
l
r
2
|
c
2o
2
rt
0
0 0 0
T
2(c
2
r
)
2
_
_
_
_
que demuestra que el estimador de mxima verosimilitud de dicho modelo es
estadsticamente independiente de los estimadores de los restantes parmetros,
lo que no sucede con los estimadores de mxima verosimilitud de estos entre s,
que tienen covarianzas no nulas.
73
5.7 Criterios de convergencia
Antes de ello, vamos a establecer criterios de convergencia: decimos que el algo-
ritmo iterativo anterior ha convergido, y detenemos el procedimeitno numrico
de estimacin, cuando se cumple alguna de las siguientes condiciones:
el valor numrico de la funcin objetivo vara menos que un cierto umbral
previamente establecido al pasar de una estimacin

0
nl
, a la siguiente,

0
n
,
el gradiente de la funcin objetivo, evaluado en la nueva estimacin, \1
_

0
n
_
,
es pequeo, en el sentido de tener una norma reducida. Para comprobar el
cumplimiento de esta condicin, puede utilizarse la norma eucldea: raiz
cuadrada de la suma de los cuadrados de los valores numricos de cada
componente del gradiente, o puede utilizarse el valor numrico de cualquier
forma cuadrtica calculada con el vector gradiente y una matriz denida
positiva.
la variacin en el vector de estimaciones es inferior a un umbral pre-
viamente establecido. Para comprobar esta condicin utilizaramos una
norma del vector diferencia

0
n

0
nl
,
se ha alcanzado el mximo nmero de iteraciones establecido en el pro-
grama de clculo numrico que lleva a cabo la actualizacin de estima-
ciones descrita en (76) . Esto se hace con el objeto de que el programa
de estimacin no contine iterando durante un largo perodo de tiempo,
especialmente, si no est mejorando signicativamente la situacin de es-
timacin.
El programa de estimacin puede disearse para que se detenga cuando se
cumple uno cualquiera de estos criterios, o todos ellos. Es importante puntu-
alizar, por tanto, que al estimar mediante un algoritmo numrico, el investigador
puede controlar: i ) las estimaciones iniciales, ii ) el mximo nmero de itera-
ciones a efectuar, y iii ) el tamao del gradiente, iv) la variacin en el vector
de parmetros y v) el cambio en el valor numrico de la funcin objetivo por
debajo de los cuales se detiene la estimacin. Cuando se utiliza una rutina
proporcionada por una librera en un determinado lenguaje, dicha rutina incor-
pora valores numricos para todos los criterios sealados, que pueden no ser
los que el investigador preferira, por lo que es muy conveniente poder variar
dichos parmetros en la rutina utilizada. Alternativamente, lo que es mucho
ms conveniente, el investigador puede optar por escribir su propio programa
de estimacin numrica.
Estos aspectos afectan asimismo a la presentacin de los resultados obtenidos
a partir de un esquema de estimacin numrica: como generalmente no sabemos
si hemos alcanzado un ptimo local o global, esto debe examinarse volviendo
a repetir el ejercicio de estimacin a partir de condiciones inniciales sustan-
cialmente diferentes de las utilizadas en primer lugar, con objeto de ver si se
74
produce la convergencia, y cual es el valor de la funcin objetivo en dicho punto.
Conviene repetir esta prueba varias veces. Asimismo, cuando se presentan es-
timaciones, deberan acompaarse de la norma del graidnet en dicho punto, as
como de los umbrales utilizados para detener el proceso de estimacin, tanto
en trminos del vector gradiente, como de los cambios en el vector de estima-
ciones, o en el valor numrico de la funcin objetivo, como hemos explicado en
el prrafo anterior.
5.8 Dicultades prcticas en el algoritmo iterativo de es-
timacin
Cuando se utilizan algoritmos numricos para la maximizacin de la fun-
cin de verosimilitud es frecuente encontrar situaciones en las que el al-
goritmo numrico encuentra dicultades para encontrar una solucin al
problema de optimizacin. Es muy importante que, en todos los casos en
que la rutina de estimacin o de optimizacin se detenga, examinemos cul
es el criterio de parada que ha actuado. Cuando el programa se ha escrito
de modo que se detenga cuando se cumple alguno de los criterios antes
sealados, conviene incluir en el programa un mensjae que haga explcito
cul de los criterios ha conducido a su parada, de modo que reduzcamos
el umbral asociado a dicho criterio.
Si la razn es que se ha excedido el mximo nmero de iteraciones prop-
uesto en el programa, siempre se debe volver a ejecutar dicho programa.
En la mayora de los casos, es razonable elevar el nmero mximo de it-
eraciones y, posiblemente, comenzar a partir del vector de parmetros en
el que se haya detenido.
En ocasiones la rutina numrica itera un nmero reducido de veces y,
sin exceder del mximo nmero de iteraciones, se detiene en un punto
muy prximo al que hemos utilizado como condiciones iniciales. Esto
puede deberse a que los umbrales de parada que hemos seleccionado, o
que estn escritos como valores por defecto en la rutina que implemente el
algoritmo numrico son demasiado grandes. As, en los primeros clculos,
los cambios en las estimaciones o en el valor de la funcin objetivo son
inferiores a dichos umbrales, y el algoritmo se detiene. Deben reducirse
dichos umbrales y volver a estimar.
Si el programa se detiene sin exceder el mximo nmero de iteraciones,
es importante comparar los valores paramtricos en los que se detiene,
con los que se utilizaron como condiciones iniciales. Esta comparacin
que, lamentablemente, no suele efectuarse, muestra frecuentemente que
en alguno de los parmetros el algoritmo no se ha movido de la condicin
inicial. Salvo que tengamos razones slidas para creer que dicha condicin
inicial era ya buena, esto signica que, o bien el algoritmo est teniendo
dicultades para encontrar en que sentido mover en la direccin de di-
cho parmetro para mejorar el valor numrico de la funcin objetivo, o
75
no ha tenido suciente posibilidad de iterar en esa direccin, dadas las
dicultades que encuentra en otras direcciones (o parmetros). En estos
casos quiz conviene ampliar el nmero mximo de iteraciones, y quiz
tambin reducir la tolerancia del algoritmo (la variacin en 0 o en 1 que
se ha programado como criterio de parada), para evitar que el algoritmo
se detenga demasiado pronto.
Todo esto no es sino reejo, en general, de un exceso de parametrizacin,
que conduce a que la supercie que representa la funcin objetivo, como
funcin de los parmetros, sea plana en algunas direcciones (o parmet-
ros). Esto hace que sea dicil identicar los valores numricos de cada
uno de los parmetros del modelo por separado de los dems, por lo que el
algoritmo encuentra dicultades en hallar una direccin de bsqueda en la
que mejore el valor numrico de la funcin objetivo. Una variacin, incluso
si es de magnitud apreciable, en la direccin de casi cualquier parametro,
apenas vara el valor numrico de la funcin objetivo. Por eso, el algoritmo
no encuentra un modo de variar los valores paramtricos de modo que la
funcin objetivo cambie por encima de la tolerancia que hemos jado, y
se detiene. En estos casos, el gradiente va a ser tambin muy pequeo,
que puede ser otro motivo por el que el algoritmo se detenga. De hecho,
la funcin objetivo vara de modo similar (poco, en todo caso) tanto si
el algoritmo vara uno como si cambia varios parmetros, que es lo que
genera el problema de identicacin, similar al que se obtiene en el mod-
elo lineal general cuando existe colinealidad entre alguna de las variables
explicativas. Las dicultades en la convergencia del algoritmo producidas
por una excesiva sobreparametrizacin del modelo se reejan en unas ele-
vadas correlaciones de los parmetros estimados. Como en cualquier otro
problema de estimacin, conviene examinar no slo las varianzas de los
parmetros estimados, sino tambin las correlaciones entre ellos.
Otra dicultad puede presentarse en la forma de cambios muy bruscos
en el estimador. Ello se corrige introduciendo en el algoritmo (76) un
parmetro ` que se conoce como longitud de salto,
0 =

0
0
`
_
\
2
1
_

0
0
__
l
\1
_

0
0
_
(28)
Hay que tener en cuenta que posiblemente est incorporado en el programa
una determinada magnitud para `, que el investigador puede alterar cuando
observe cambios bruscos en el vector de parmetros.
5.9 Estimacin condicionada y precisin en la estimacin
Para tratar estas situaciones, cuando se identican uno o dos parmetros al-
tamente correlacionados con los dems, puede llevarse a cabo una estimacin
condicionada, jando valores alternativos de dichos parmetros a lo largo de
una red, maximizando la verosimilitud respecto de los dems, y comparando
76
resultados para alcanzar el mximo absoluto. En otras ocasiones, sin necesidad
de incurrir en dicultades numricas, se aprecia que imponer un valor unmrico
para uno o dos parmetros simplica enormemente la estructura del modelo a
estimar, por ejemplo, hacindola linear. Si este es el caso, puede establecerse
una red de bsqueda en dichos parmetros y, para cada uno de ellos, estimar
el modelo lineal resultante. Se resuelve as un conjunto de muchos problemas
simples, frente a la alternativa de resolver un nico problema complicado que
es, en ocasiones, mucho ms difcil.
Una limitacin de esta estrategia de estimacin, que tantas veces simplica
el problema computacional, es que no nos proporciona una estimacin de la var-
ianza para el parmetro o los parmetros sobre los que se ha hecho la estimacin
condicional. Segn cul sea el grado de simplicacin alcanzado, podramos no
tener varianzas para ninguno de los parmetros. Esto sugiere una cuestin an
ms profunda, acerca del signicado real de las varianzas proporcionadas por
el problema de estimacin. En realidad, lo que el investigador quiere tener es
una medida del grado de precisin obtenido en su estimacin, y ello bien puede
depender del objetivo nal de la estimacin del modelo. Por ejemplo, consid-
eremos el habitual problema de calcular la volatilidad implcita de una opcin.
Obtener las sensibilidades de la respuesta a dicha pregunta a variaciones en el
valor de alguno de los parmetros que se ja equivale a determinar un rango de
conanza para el parmetro que se estima.
Consideremos que el subyacente de una opcin call cotiza a 100, que el precio
de ejercicio de la misma es 95, el tipo de inters, supuesto constante hasta el
vencimiento, es 7,5%, el plazo residual es 3 meses, y el preico de la opcin es de
10. La inversin de la frmula de Black Scholes (BS) proporciona una volatilidad
de 31,3%. Este no es un problema estadstico, y no se ha llevado a cabo ningn
proceso de muestreo. Sin embargo, el usuario que conoce la limitacin del
modelo BS por los supuestos que incorpora, puede estar dispuesto a aceptar un
rango de valores de volatilidad que no generen un precio terico que se separe
en ms de 0,25 del precio observado en el mercado. Ello le llevar a considerar
un rango de volatilidades entre 29,8% y 32,7%.
La misma idea puede aplicarse en un problema de estimacin para evaluar
la precisin con que se ha estimado un determinado parmetro. En funcin de
la utilidad que se vaya a dar al modelo, el usuario puede determinar que est
dispuesto a aceptar variaciones de hasta un 1% alrededor del valor de la funcin
objetivo que ha obtenido en su estimacin. Se trata entonces de perturbar el
valor numrico del parmetro cuya precisin se quiere medir, y estimar condi-
cionando en dicho valor mientras que el valor resultante para la funcin objetivo
satisfaga la condicin prejada. Se obtiene as numericamente, un intervalo de
conanza alrededor de la estimacin inicialmente obtenida. En principio, esta
regin no tiene por qu coincidir con la tradicional regin de conanza. Puede
resultar extrao hablar de regiones de conanza paramtricas en el caso del
clculo de la volatilidad implcita pues, como hemos dicho, no es realmente un
problema estadstico. Existe un razonamiento distinto del anterior, con ms
base estadstica que conduce asimismo a una regin de conanza paramtrica.
Para ello, consideremos que el usuario de la expresin BS, consciente de que
77
el tipo de inters relevante no va a permanecer constante hasta vencimiento,
y desconociendo su evolucin establece un conjunto de posibles escenarios de
evolucin de los tipos, cada uno acompaado de una probabilidad que recoge
la mayoor o menor verosimilitud asignada a dicho escenario, e identica cada
escenario con distintos niveles constantes del tipo de inters. Calculando la
volatilidad implcita para cada nivel de tipos de inters considerado, mientras
se mantienen constantes los restantes parmetros, generaramos una distribu-
cin de probabilidad para la volatilidad implcita. Por supuesto, este argumento
se puede generalizar el caso en que la incertidumbre a priori se recoge en la forma
de una distribucin de probabilidad multivariante para el vector de parmetros
sobre los que se condiciona en el proceso de estimacin.
5.10 Algunos modelos tpicos
5.10.1 Ejemplo 1: Modelo exponencial sin constante.
Consideremos ahora la estimacin del modelo,
j
|
= cc
ort
n
|
= )(r
|
, 0) n
|
con 0 = (c, ,) . El gradiente de la funcin ) que dene la relacin entre
variable dependiente e independiente, es,
0)(r
|
, 0)
00
=
_
c
ort
, cr
|
c
ort
_
0
Es importante apreciar la expresin analtica de las derivadas parciales de
esta funcin,
0j
0r
= c,c
ort
,
0
2
j
0r
2
= c,
2
c
ort
,
Como la funcin exponencial es positiva con independencia del signo de ,
y de r
|
, tenemos que la primera derivada tendr el signo del producto c,,
mientras que la segunda derivada tendr el signo del parmetro c. Esto nos
puede dar pautas para la eleccin de condiciones iniciales. Por ejemplo, si la
nube de puntos de j
|
sobre r
|
tiene un perl decreciente y convexo, tendramos
un valor positivo de c, debido a la convexidad, junto con un valor negativo de
,.
Aproximacin lineal por lo que la aproximacin lineal al modelo original es,
j
|
)(r
|
,

0)
_
0)(r
|
, 0)
00
_
0
0=

0
_
0

0
_
n
|
, t = 1, 2, ..., T,
que, deniendo las variables j

|
= j
|
)(r
|
,

0)
_
J}(rt,0)
J0
_
0
0=

0
.

0, .
l|
=
c

ort
, .
2|
= cr
|
c

ort
, puede escribirse:
78
j

|
= c.
l|
,.
2|
n
|
, t = 1, 2, ..., T, (29)
A partir de unas estimaciones iniciales denotadas por el vector

0 =
_
c,

,
_
,
generamos observaciones numricas para la variable j

|
, as como para las vari-
ables .
l|
, .
2|
, y procedemos a estimar el modelo (20) , obteniendo las nuevas
estimaciones numricas de c y ,. Con ellos, podramos volver a obtener series
temporales para las variables j

|
, .
l|
, .
2|
, e iterar el procedimiento.
Como es sabido, este procedimiento puede tambin ponerse en prctica es-
timando la regresin,
n
|
= c
l
.
l|
c
2
.
2|
y procediendo a la actualizacin de valores numricos de los parmetros,
c
n
= c
nl


c
l
;

,
n
=

,
nl


c
2
siendo n
|
= j
|
)(r
|
,

0
nl
).
Algoritmo de Newton-Raphson Si denotamos por 1 (0) la funcin Suma
de Cuadrados de Residuos,
min
0
o1(

0) = min
0
T

|=l
n
|
_

0
_
= min
0
T

|=l
(j
|
)(r
|
, 0)
2
= min
0
T

|=l
_
j
|
cc
ort
_
2
que conduce a las condiciones de optimalidad,

j
|
c
ort
= c

c
2ort

j
|
r
|
c
ort
= c

r
|
c
2ort
donde la primera condicin sugiere tomar como estimacin inicial,
c =
:(jc
or
)
:(c
2or
)
mientras que de la segunda condicin tenemos:
c =
:(jrc
or
)
:(rc
2or
)
79
Ejercicio prctico: Estimacin de una funcin de demanda de dinero
Considerando nuevamente la funcin Suma de Cuadrados de Residuos,
min
0
o1(

0) = min
0
T

|=l
n
|
_

0
_
= min
0
T

|=l
(j
|
)(r
|
, 0)
2
= min
0
T

|=l
_
j
|
cc
ort
_
2
Vamos apensar en la aplicacin a la estimacin de una funcin de demanda de
dinero:
_
'
|
1
|
_
J
= cc
ot
c
t
n
|
, t = 1, 2, ..., T, c 0, , < 0
Comenzamos generando una serie temporal de datos simulando la tasa de
inacin a partir de un proceso i., id., (
t
, o
2
t
), y para el tmrino de error del
modelo a partir de un proceso (0, o
2
u
). Por ltimo, generamos la serie temporal
de datos para los saldos monetarios reales utilizando la estructura del modelo
y las series temporales de inacin y de n
|
, una vez que hemos jado valores
numricos para los parmetros c y ,.
Con las series temporales j
|
, r
|

T
|=l
, podemos estimar el modelo siguiendo
varios procedimientos:
Utilizando la instruccin "fminu" o "fminunc" de Matlab, para minimizar
la suma de cuadrados de los residuos o errores de ajuste 'i:
o,o

T
|=l
_
_
1t
1t
_
J
cc
ot
c
t
_
2
.
Utilizando la instruccin "fsolve" de Matlab, que encuentra las raices o
soluciones de una ecuacin lineal o no lineal, lo que se puede aplicar al
sistema formado por las dos condiciones de optimalidad o de primer orden
del problema de minimizacin de la suma de cuadrados de los errores,
2
T

|=l
_
_
'
|
1
|
_
J
cc
ot
c
t
_
c
ot
c
t
= 0
2
T

|=l
_
_
'
|
1
|
_
J
cc
ot
c
t
_
c
t
|
c
ot
c
t
= 0
Utilizando el algoritmo de Gauss-Newton (33), con expresiones analticas
para el gradiente (80) y el hessiano (81) de la funcin objetivo, que es
la Suma de Cuadrados de los errores de ajuste. tenemos el gradiente y
matriz hessiana,
\1 (0) = 2

0) (r
|
, 0)
00
n
|
= 2

0)
|
00
n
|
= 2

_
c
ort
, cr
|
c
ort
_
n
|
(30)
80
\
2
1 (0) = 2
T

|=l
_
c
2ort
cr
|
c
2ort
r
|
cc
2ort
c
2
r
2
|
c
2ort
_
2
T

|=l
_
0 r
|
c
ort
r
|
c
ort
r
2
|
cc
ort
_
n
|
(31)
= 2
T

|=l
_
c
2ort
r
|
c
ort
_
cc
ort
n
|
_
r
|
c
ort
_
cc
ort
n
|
_
r
2
|
cc
ort
_
cc
ort
n
|
_
_
por lo que el algoritmo de Newton-Raphson sera,

0
n
=

0
nl

_
T

|=l
_
c
2ort
r
|
c
ort
_
cc
ort
n
|
_
r
|
c
ort
_
cc
ort
n
|
_
r
2
|
cc
ort
_
cc
ort
n
|
_
_
_
l
_
T

|=l
_
c
ort
cr
|
c
ort
_
n
|
_
(32)
mientras que el algoritmo de Gauss-Newton sera,

0
n
=

0
nl

_
T

|=l
_
c
2ort
cr
|
c
2ort
cr
|
c
2ort
c
2
r
2
|
c
2ort
_
_
l
_
T

|=l
_
c
ort
cr
|
c
ort
_
n
|
_
(33)
Utilizando el algoritmo de Gauss-Newton (33), con evaluacin numrica
de las derivadas parciales que aparecen en el gradiente (80) y el hessiano
(84) de la funcin objetivo, que es la Suma de Cuadrados de los Errores:
0)
0r
I
= lim
:!0
)(r
l
, .., r
I
-, .., r
n
) )(r
l
, .., r
I
-, .., r
n
)
2-
, i = 1, 2, ..., :
siendo las derivadas segundas:
J
2
}
Jr1Jr
=
J
Jr
, donde q =
J}
Jr1
, de modo que:
0
2
)
0r
I
0r

= lim
:!0
)(r
l
, .., r
I
-, .., r

-, .., r
n
) )(r
l
, .., r
I
-, .., r

-, .., r
n
) )(r
l
, .., r
I
-, .., r

-, .., r
n
) )(r
l
, .., r
I
-, .., r

-, .., r
n
)
4-
2
5.10.2 Ejemplo 2: Un modelo no identicado
Supongamos, por ltimo, que pretendemos estimar el modelo,
j
|
= c ,
l
,
2
r
|
n
|
en el que la aplicacin del algoritmo de Newton-Raphson resulta en,
_
_
1 ,
2
r
|
,
l
r
|
,
2
r
|
,
2
2
r
2
|
,
l
,
2
r
2
|
,
l
r
|
,
l
,
2
r
2
|
,
2
l
r
|
2
_
_

_
_
0 0 0
0 0 r
|
0 r
|
0
_
_
n
|
mientras que el algoritmo de Gauss-Newton consistira en,
_
_
1 ,
2
r
|
,
l
r
|
,
2
r
|
,
2
2
r
2
|
,
l
,
2
r
2
|
,
l
r
|
,
l
,
2
r
2
|
,
2
l
r
|
2
_
_
81
5.10.3 Ejemplo 3: Modelo potencial
Las condiciones de optimalidad correspondientes a la estimacin por mnimos
cuadrados del modelo potencial,
C
|
= ,
l
,
2
1
~
|
n
|
son,
T

|=l
(C
|
,
l
,
2
1
~
|
) = 0
T

|=l
(C
|
,
l
,
2
1
~
|
) 1
~
|
= 0
,
2
T

|=l
(C
|
,
l
,
2
1
~
|
) 1
~
|
ln1
|
= 0
que constituyen las ecuaciones normales del problema de estimacin. De las
dos primeras ecuaciones, obtenemos,
T

|=l
C
|
= T,
l
,
2
T

|=l
1
~
|
=T:(C) = T,
l
,
2
T:(1
~
) =,
l
= :(C) ,
2
:(1
~
)
T

|=l
C
|
1
~
|
= ,
l
T

|=l
1
~
|
,
2
T

|=l
1
2~
|
=T:(C1
~
) = T:(C):(1
~
) ,
2
T:(1
~
)
2
,
2
T:(1
2~
) =
= ,
2
=
:(C1
~
) :(C):(1
~
)
:(1
2~
) :(1
~
)
2
El primer resultado sugiere que la estimacin del trmino independiente se
obtenga, una vez estimados ,
2
y , de modo similar a como se recupera el
trmino independiente en la estimacin de un modelo lineal.
Lo ms interesante es observar que la segunda ecuacin sugiere estimar el
parmetro ,
2
en funcin de momentos muestrales de algunas funciones del
consumo y la renta. Para calcular dichos momentos precisamos conocer el
parmetro , pero tambin podemos poner en marcha una bsqueda de red
puesto que, por las caractersticas de la funcin de consumo, dicho parmetro
ha de ser positivo y no muy elevado. Por tanto, una red que cubra el inter-
valo (0., 2.0) puede ser suciente. De hecho, para valor numrico admisible
de podemos utilizar la expresin anterior para estimar ,
2
,sin necesidad de
optimizar, y despus utilizar la primera condicin de optimalidad para estimar
,
l
.
82
5.10.4 Ejemplo 4: Modelo AR(1), sin autocorrelacin
Encuentre las expresiones analticas del estimador de Mxima Verosimilitud y
de su matriz de varianzas y covarianzas, en el modelo AR(1):
j
|
= c cj
|l
-
|
, t = 1, 2, ...
1-
|
= 0, 1(-
|
-
|s
) = 0 \: ,= 0, 1(-
2
|
) = o
2

La distribucin de probabilidad de j
|
condicional en su propio pasado es

_
c cj
|l
, o
2

_
. Es decir, una vez observado el valor numrico de j
|
, el
valor esperado de j
|l
es c cj
|
, y la varianza de los posibles valores de j
|l
alrededor de c cj
|
es o
2

. Como puede apreciarse, la esperanza condicional es


una variable aleatoria, tomando valores numricos cambiantes en el tiempo. La
varianza condicional de j
|
es igual a la varianza de la innovacin, o
2

, reejando
el hecho de que es sta la nica fuente de error en la prediccin del valor de j
|
un perodo hacia adelante.
Esto es vlido para todo t _ 2. Son embargo, para t = 1 no podemos
condicionar j
l
en ningn valor previo, por lo que no podemos hablar de su
distribucin condicional. La distribucin marginal, absoluta o incondicional
de j
l
es
_
o
l
,
c
2

l
2
_
; es decir, que si no contamos con ninguna observacin
previa, el valor esperado de j
l
es
o
l
, y la dispersin esperada alrededor de dicho
valor es de
c
2

l
2
, mayor de la que tendramos si dispusisemos de la observacin
del perodo anterior. Ntese que: 1 (1
|l
j
|
) = 1(c cj
|l
) = c c1j
|l
,
pero 1j
|l
=
o
l
, por lo que: 1 (1
|l
j
|
) = c c
o
l
=
o
l
= 1j
|
, lo cual
no hace sino comprobar que se cumple en este ejemplo concreto, la conocida
propiedad: 1j
|
= 1 (1
|l
j
|
) .
La funcin de verosimilitud muestral puede escribirse:
1(j
l
, j
2
, ..., j
T
) = 1(j
l
)1(j
2
,j
l
)1(j
3
,j
2
)...1(j
T
,j
Tl
)
de modo que,
ln1 = ln(j
l
)
T

2
ln1(j
|
,j
|l
) =
=
_

1
2
ln2
1
2
ln
o
2
:
1 c
2

1 c
2
2o
2
:
_
j
l

c
1 c
_
2
_

T 1
2
ln2

T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c cj
|l
)
2
El problema de maximizacin de esta funcin se simplica si ignoramos los
primeros trminos, que proceden de la distribucin marginal de j
l
, 1(j
l
), y
consideramos:
83
ln1

=
T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c cj
|l
)
2
(34)
que es la funcin de verosimilitud condicionada en el valor numrico de j
l
,
frente a la anterior, que era la funcin de verosimilitud exacta. Las condiciones
de maximizacin de esta funcin de verosimilitud condicionada, que resultan de
igualar a cero su gradiente, son,
0 ln1

0c
=
1
o
2
:
T

2
(j
|
c cj
|l
) = 0 =
T

2
n
|
= 0
0 ln1

0c
=
1
o
2
:
T

2
(j
|
c cj
|l
)j
|l
= 0 =
T

2
n
|
j
|l
= 0
0 ln1

0o
2
:
=
T 1
2
1
o
2
:

1
2 (o
2
:
)
2
T

2
(j
|
c cj
|l
)
2
=
T 1
2
1
o
2
:

1
2 (o
2
:
)
2
T

2
n
|
2
=
1
2 (o
2
:
)
2
T

2
_
o
2
:
n
|
2
_
= 0
donde hemos utilizado el hecho de que, para estimaciones numricas de c
y c, la diferencia j
|
c cj
|l
es igual al residuo, n
|
. Vemos, por tanto, que
las estimaciones de mxima verosimilitud condicionada de c y c son aquellos
valores numricos que generan unos residuos de suma cero, a la vez que estn
incorrelacionados con j
|l
. Ello signica que son residuos con correlacin nula
con las dos variables explicativas del modelo, (1, j
|l
) y coincide, en consecuen-
cia, con el estimador de mnimos cuadrados ordinarios del modelo AR(1), que
utilizara datos desde t = 2 hasta T.
Por otra parte, la tercera ecuacin nos proporciona el estimador de mxima
verosimilitud condicionada de o
2
:
:
o
2
:
=

T
2
n
|
2
T 1
ligeramente diferente del estimador de mnimos cuadrados del model AR(1),
que habra sido: o
2
:
=
P
J
2
ut
2
T2
.
Si sustituimos la expresin de o
2
:
en (84) , tenemos:
ln1

=
T 1
2
ln2
T 1
2
ln
T

2
n
|
2

T 1
2
ln(T 1)
T 1
2

T
2
n
|
2
T

2
n
|
2
=
=
_

T 1
2
ln2
T 1
2
ln(T 1)
T 1
2
_

T 1
2
ln
T

2
n
|
2
84
que se conoce como funcin de verosimilitud condicional concentrada, y que
muestra que maximizar ln1

equivale, claramente, a minimizar la suma de


cuadrados de residuos,

T
2
n
|
2
.
La matriz de informacin del estimador de mxima verosimilitud es la in-
versa de la matriz de informacin, para lo que hemos de obtener las derivadas
segundas,
0
2
ln1

0c
2
=
1
o
2
:
T

2
(1) =
T 1
o
2
:
0
2
ln1

0c
2
=
1
o
2
:
T

2
j
2
|l
=1
_
0
2
ln1

0c
2
_
=
T 1
o
2
:
_
o
2
:
1 c
2

c
2
(1 c)
2
_
0
2
ln1

0 (o
2
:
)
2
=
T 1
2
1
(o
2
:
)
2

1
(o
2
:
)
3
T

2
n
|
2
=1
_
0
2
ln1

0 (o
2
:
)
2
_
=
T 1
(o
2
:
)
2
0
2
ln1

0c0c
=
1
o
2
:
T

2
j
|l
=1
_
0
2
ln1

0c0c
_
=
T 1
o
2
:
c
1 c
0
2
ln1

0c0o
2
:
=
1
(o
2
:
)
2
T

2
n
|
=1
_
0
2
ln1

0c0o
2
:
_
= 0
0
2
ln1

0c0o
2
:
=
1
(o
2
:
)
2
T

2
n
|
j
|l
=1
_
0
2
ln1

0c0o
2
:
_
= 0
donde, para obtener la esperanza matemtica en la ltima lnea, hemos
utilizado:
1
_
0
2
ln1

0c0o
2
:
_
= 1
_
1
|l
_
0
2
ln1

0c0o
2
:
__
=
1
(o
2
:
)
2
1
_
1
|l
_
T

2
n
|
j
|l
__
=
=
1
(o
2
:
)
2
1
_
T

2
j
|l
(1
|l
n
|
)
_
= 0
por lo que,
_
_
c

c
o
2
:
_
_
~
_
_
_
_
c
c
o
2
:
,
o
2
:
T 1
_
_
_
1
o
l
0
o
l
c
2
z
l
2

o
2
(l)
2
0
0 0
l
2c
2
z
_
_
_
l
_
_
_
_
donde la matriz de varianzas y covarianzas debera evaluarse en los estima-
ciones de mxima verosimilitud obtenidas para los tres parmetros del modelo.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habra
que iterar mediante,
85

0
n
=

0
nl

_
_
_
T 1

T
2
j
|l

T
2
n
|

T
2
j
|l

T
2
j
2
|l

T
2
n
|
j
|l

T
2
n
|

T
2
n
|
j
|l
l
(c
2
z
)
3

T
2
_
o
2
:
n
|
2
_
_
_
_
l
_
_
_

T
2
n
|

T
2
n
|
j
|l

l
2c
2
z

T
2
_
o
2
:
n
2
|
_
_
_
_
donde 0 denota el vector de parmetros, 0 =
_
c, c, o
2
:
_
, mientras que el
algoritmo de scoring, ms sencillo, aproxima el hessiano del logaritmo de la
funcin de verosimilitud por la matriz de informacin,

0
n
=

0
nl

1
T 1
_
_
_
1
o
l
0
o
l
c
2
z
l
2

o
2
(l)
2
0
0 0
l
2c
2
z
_
_
_
l _
_
_

T
2
n
|

T
2
n
|
j
|l

l
2c
2
z

T
2
_
o
2
:
n
2
|
_
_
_
_
y el algoritmo de Gauss-Newton, que no requiere calcular segundas derivadas,
pero incurre en un mayor error de aproximacin numrico, consistira en:

0
n
=

0
nl
o
2
:
_
_
_

T
2
n
2
|

T
2
n
2
|
j
|l

l
2c
2
z

T
2
n
|
_
o
2
:
n
2
|
_

T
2
n
2
|
j
|l

T
2
n
2
|
j
2
|l

l
2c
2
z

T
2
n
|
j
|l
_
o
2
:
n
2
|
_

l
2c
2
z

T
2
n
|
_
o
2
:
n
2
|
_

l
2c
2
z

T
2
n
|
j
|l
_
o
2
:
n
2
|
_
l
dc
2
z

T
2
_
o
2
:
n
2
|
_
2
_
_
_
l
.
.
_
_
_

T
2
n
|

T
2
n
|
j
|l

l
2c
2
z

T
2
_
o
2
:
n
2
|
_
_
_
_
5.10.5 Ejemplo 5: Modelo constante, con autocorrelacin
Encuentre las expresiones analticas del estimador de Mxima Verosimilitud y
de su matriz de varianzas y covarianzas, en el modelo constante con autocor-
relacin:
j
|
= c n
|
, t = 1, 2, ...,
n
|
= jn
|l
-
|
= 0 1-
|
= 0, 1 (-
|
-
s
) = 0, \: ,= 0, 1(-
2
|
) = o
2
:
El modelo puede escribirse en funcin de la innovacin del mismo,
j
|
= c(1 j) jj
|l
-
|
que muestra que, dado j
|l
, la distribucin de probabilidad de j
|
condicional
en su propio pasado es
_
c(1 j) jj
|l
, o
2
:
_
. Es decir, una vez observado
el valor numrico de j
|
, el valor esperado de j
|l
es c(1 j) jj
|l
, y la
varianza de los posibles valores de j
|l
alrededor de dicho valor esperado es o
2
:
.
La esperanza condicional es una variable aleatoria, tomando valores numricos
cambiantes en el tiempo. La varianza condicional de j
|
es igual a la varianza de
86
la innovacin, o
2
:
, reejando el hecho de que es sta la nica fuente de error en
la prediccin del valor de j
|
un perodo hacia adelante.
Esto es vlido para todo t _ 2. Son embargo, para t = 1 no podemos
condicionar j
l
en ningn valor previo, por lo que no podemos hablar de su
distribucin condicional. La distribucin marginal, absoluta o incondicional de
j
l
es
_
c,
c
2
z
l
2
_
; es decir, que si no contamos con ninguna observacin previa,
el valor esperado de j
l
es
o
l
, y la dispersin esperada alrededor de dicho valor
es de
c
2
z
l
2
, mayor de la que tendramos si dispusisemos de la observacin del
perodo anterior.
La funcin de verosimilitud muestral puede escribirse:
1(j
l
, j
2
, ..., j
T
) = 1(j
l
)1(j
2
,j
l
)1(j
3
,j
2
)...1(j
T
,j
Tl
)
de modo que,
ln1 = ln(j
l
)
T

2
ln1(j
|
,j
|l
) =
=
1
2
ln2
1
2
lno
2
u

1
2o
2
u
j
2
l

T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c(1 j) jj
|l
)
2
=
=
T
2
ln2
T
2
lno
2
:

1
2
ln(1 j
2
)
1 j
2
2o
2
:
(j
l
c)
2

1
2o
2
:
T

2
(j
|
c(1 j) jj
|l
)
2
donde hemos utilizado el hecho de que la distribucin incondicional de j
l
es
(0, o
2
u
).
Esta funcin de verosimilitud es similar, pero no idntica, a la que llegaramos
estableciendo la hiptesis de Normalidad directamente sobre la innovacin del
modelo, -
|
. En efecto, si -
|
i.,i.d., (0, o
2
:
), tendramos:
ln1 =
T
2
ln2
T
2
lno
2
:

1
2o
2
:
T

l
-
2
|
=
=
T
2
ln2
T
2
lno
2
:

1
2o
2
:
[j
l
c(1 j) jj
0
[
2

1
2o
2
:
T

2
(j
|
c(1 j) jj
|l
)
2
en la que j
0
, no observable, sera un parmetro ms a estimar. Utilizando
la representacin de la innovacin del modelo: -
|
= j
|
c(1 j) jj
|l
, las
condiciones de optimalidad seran,
87
0 ln1
0c
=
1 j
o
2
:
_
(j
l
c(1 j) jj
0
)
T

2
-
|
_
= 0
0 ln1
0j
=
1
o
2
:
_
(j
l
c(1 j) jj
0
) (j
0
c)
T

2
-
|
(j
|l
c)
_
= 0
0 ln1
0o
2
:
=
T
2
1
o
2
:

1
2 (o
2
:
)
2
T

2
(j
|
c(1 j) jj
|l
)
2
= 0
Una vez ms, calcularemos el estimador de Mxima Verosimilitud condi-
cional en la primera observacin, que tomaremos como dada.
ln1

=
T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
-
2
|
=
=
T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c(1 j) jj
|l
)
2
con condiciones de optimalidad:
0 ln1

0c
=
1 j
o
2
:
T

2
(j
|
c(1 j) jj
|l
) = 0 =
T

2
-
|
= 0
0 ln1

0j
=
1
o
2
:
T

2
(j
|
c(1 j) jj
|l
) (j
|l
c) = 0 =
T

2
-
|
(j
|l
c) = 0
0 ln1

0o
2
:
=
T 1
2
1
o
2
:

1
2 (o
2
:
)
2
T

2
(j
|
c(1 j) jj
|l
)
2
=
=
1
2 (o
2
:
)
2
T

2
(o
2
:
-
2
|
) = 0 =o
2
:
=

T
2
-
2
|
T 1
Las dos primeras condiciones muestran que el estimador de MV condi-
cionada puede obtenerse estimando por Mnimos Cuadrados Ordinarios el mod-
elo: j
|
= ,
0
,
l
j
|l
-
|
, pues las estimaciones numricas resultantes gener-
aran residuos -
|
con suma cero, e incorrelacionados con la variable explicativa
de dicha regresin, j
|l
, satisfaciendo as las dos primeras de las condiciones
de optimalidad anteriores. Posteriormente, la estimacin de o
2
:
se obtendra
a partir de la tercera condicin. Una vez estimado el modelo, los parmetros
del modelo original se obtendran mediante las condiciones de identicacin:
j =

,
l
, c =

o
0
l

o
1
. Como sabemos, la estimacin de mnimos cuadrados puede
efectuarse, excepto para el trmino constante, estimando el modelo en desvia-
ciones respecto de la media: j
|
= ,
l
j
|l
-
|
, en el que una vez estimado

,
l
,
88
que resultara numricamente igual a la estimacin en el modelo que incluye
un trmino constante, tendramos:

,
0
= j

,
l
j. Finalmente, recuperaramos
j y c a partir de las expresiones previas. Como 1j = c, esperararmos que
j c, por lo que la expresin c =

o
0
l

o
1
debe proporcionar un buen estimador
del trmino independiente.
La matriz de informacin del estimador de mxima verosimilitud es la in-
versa de la matriz de informacin, para cuyo calculo hemos de obtener la es-
perana matemtica de los elementos del hessiano de la funcin logaritmo de la
verosimilitud condicionada,
0
2
ln1

0c
2
=
T 1
o
2
:
(1 j)
2
0
2
ln1

0j
2
=
1
o
2
:
T

2
(j
|l
c)
2
=1
_
0
2
ln1

0j
2
_
=
T 1
o
2
:
o
2
u
0
2
ln1

0 (o
2
:
)
2
=
T 1
2
1
o
d
:

1
o
6
:
T

2
-
|
2
=1
_
0
2
ln1

0 (o
2
:
)
2
_
=
T 1
2o
d
:
0
2
ln1

0c0j
=
1
o
2
:
T

2
[(j
|l
c) (1 j) -
|
[ =1
_
0
2
ln1

0c0c
_
= 0
0
2
ln1

0c0o
2
:
=
1 j
o
d
:
T

2
-
|
=1
_
0
2
ln1

0c0o
2
:
_
= 0
0
2
ln1

0c0o
2
:
=
1
o
d
:
T

2
-
|
(j
|l
c) =1
_
0
2
ln1

0c0o
2
:
_
= 0
1
_
0
2
ln1

0c0o
2
:
_
= 1
_
1
|l
_
0
2
ln1

0c0o
2
:
__
= 1
_
1
|l
_
T

2
-
|
n
|l
__
= 0
donde en la ltima igualdad hemos utilizado el hecho de que n
|l
depende
de -
|l
, -
|2
, -
|3
, ..., pero no de -
|
ni de sus valores futuros.
Por tanto,
_
_
c
j
o
2
:
_
_
~
_
_
_
_
c
j
o
2
:
,
o
2
:
T 1
_
_
_
(1 j)
2
0 0
0
c
2
z
l
2
0
0 0
l
c
2
z
_
_
_
l
_
_
_
_
donde la matriz de varianzas y covarianzas debera evaluarse en los estima-
ciones de mxima verosimilitud obtenidas para los tres parmetros del modelo.
La estructura diagonal de la matriz de informacin muestra que los estimadores
de los tres parmetros son independientes entre s. Ello hace que en, este mod-
elo, una estimacin condicional que generase estimaciones numricas de unos
parmetros condicionales en estimaciones de los otros, sera tan eciente como
la estimacin simultnea de todos ellos.
89
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habra
que iterar mediante,

0
n
=

0
nl
o
2
:
_
_
_
(T 1) (1 j)
2

T
2
[n
|l
(1 j) -
|
[ (1 j)

T
2
-
|

T
2
[n
|l
(1 j) -
|
[

T
2
n
2
|l

T
2
-
|
n
|l
(1 j)

T
2
-
|

T
2
-
|
n
|l
l
c
2
z

T
2
_
l
2
o
2
:
-
|
2
_
_
_
_
l
.
.
_
_
_
(1 j)

T
2
-
|

T
2
-
|
n
|l

l
2c
2
z

T
2
(o
2
:
-
2
|
)
_
_
_
El algoritmo de scoring, ms sencillo, aproxima el hessiano del logaritmo de
la funcin de verosimilitud por la matriz de informacin,

0
n
=

0
nl

1
T 1
_
_
(1 j)
2
0 0
0 o
2
u
0
0 0
l
2c
2
z
_
_
l
_
_
_
(1 j)

T
2
-
|

T
2
-
|
n
|l

l
2c
2
z

T
2
(o
2
:
-
2
|
)
_
_
_ =

0
nl

1
T 1
_
_
_
l
l

T
2
-
|
l
c
2
r

T
2
-
|
n
|l

T
2
(o
2
:
-
2
|
)
_
_
_
y el algoritmo de Gauss-Newton, con mayor error de aproximacin numrico,
consistira en:

0
n
=

0
nl

_
_
_
(1 j)
2

T
2
-
2
|
(1 j)

T
2
-
2
|
n
|l

l
2c
2
z

T
2
-
|
(o
2
:
-
2
|
)
(1 j)

T
2
-
2
|
n
|l

T
2
(-
|
n
|l
)
2

l
2c
2
z

T
2
-
|
n
|l
(o
2
:
-
2
|
)

l
2c
2
z

T
2
-
|
(o
2
:
-
2
|
)
l
2c
2
z

T
2
-
|
n
|l
(o
2
:
-
2
|
)
l
dc
4
z

T
2
(o
2
:
-
2
|
)
2
_
_
_
l
.
.
_
_
_
(1 j)

T
2
-
|

T
2
-
|
n
|l

l
2c
2
z

T
2
(o
2
:
-
2
|
)
_
_
_
5.10.6 Ejercicio
1. Obtener la estimaciones, por el Mtodo Generalizado de Momentos, de los
parmetros c, j, o
2
:
del modelo de regresin constante con errores AR(1).
Solucin: Utilizaramos el hecho de que, bajo el supuesto de que el modelo
est correctamente especicado, se tienen las propiedades: 1j
|
= c, \ ar(j
|
) =
o
2
u
, j =
cou(t,t1)
\ o:(t)
, o
2
:
= o
2
u
_
1 j
2
_
, por lo que, sustituyendo momentos
poblacionales por muestrales en las igualdades anteriores, tendramos,
c =
1
T
T

l
j
|
; j =

T
l
(j
|
j) (j
|l
j)

T
l
(j
|
j)
2
o
2
u
=
1
T
T

l
(j
|
j)
2
; o
2
:
= o
2
u
_
1 j
2
_
=
_
1
T
T

l
(j
|
j)
2
_
_
_
1
_

T
l
(j
|
j) (j
|l
j)

T
l
(j
|
j)
2
_
2
_
_
90
La estimacin de j coincide con la estimacin de mnimos cuadrados que
hemos propuesto ms arriba. No as la de o
2
:
ni la de o
2
u
. Tampoco ser exacta-
mente coincidente la estimacin del trmino independiente c si bien, el argumeo
efectuado al presentar el estimador de Mxima Verosimilitud garantiza que la
diferencia entre los valores numricos de ambos estimadores no ser muy elevada
en muestras grandes.
5.10.7 Ejemplo 6: Estimacin de Mxima Verosimilitud del modelo
AR(1) con perturbaciones AR(1)
Consideramos en esta seccin la estimacin de Mxima Verosimilitud y de su ma-
triz de varianzas y covarianzas, del modelo AR(1) con trmino de error AR(1):
j
|
= cj
|l
n
|
, t = 1, 2, ... (35)
n
|
= jn
|l
-
|
= 0 1-
|
= 0, 1(-
|
-
|s
) = 0 \: ,= 0, 1(-
2
|
) = o
2
:
donde como se ve, hemos supuesto, por simplicidad, que no hay trmino
independiente. Bajo el supuesto de que 1-
|
= 0, se tiene: 1j
|
= 1n
|
= 0. El
clculo de la varianza de j
|
es bastante ms complejo. Para ello, representamos
Para t _ 2, el modelo puede escribirse:
j
|
= (c j) j
|l
cjj
|2
-
|
(36)
que es un modelo cuyo trmino de error no presenta autocorrelacin. En con-
secuencia, la presencia de los retardos de la variable dependiente como variables
explicativas no deteriora las propiedades estadsticas del estimador de mnimos
cuadrados de los parmetros del modelo:
j
|
= ,
l
j
|l
,
2
j
|2
-
|
donde tendramos nicamente el problema de identicar o recuperar los
parmetros c, j del modelo original a partir de estimaciones de ,
l
, ,
2
. Esto
se debe a que los parmetros c, j entran de forma totalmente simtrica en el
modelo transformado (86) de modo que un vez que hubiramos obtenido una
solucin

c, j del sistema:
c j =

,
l
cj =

,
2
podramos intercambiar los valores numricos de ambos parmetros y ten-
dramos otra solucin. Por tanto, existensiempre dos soluciones, y el modelo se
dice que est subidenticado.
Para obtener la expresin analtica de la varianza del proceso (35), utilizamos
el hecho de que la varianza de un proceso 1(2) es
(lo
2
)c
2
z
(lo
2
)[(lo
2
)
2
o
1
[
. Como en
nuestro caso, ,
l
= c j, ,
2
= cj, tenemos:
91
\ ar (j
|
) =
(1 cj)
(1 cj)
_
(1 cj)
2
(c j)
2
_o
2
:
Si dispusiramos de algn tipo de informacin adicional acerca de alguna
caracterstica de la distribucin de probabilidad de j
|
, quiz podramos iden-
ticar los dos parmetros por separado. Este no es el caso, sin embargo de
que conociramos, al menos aproximadamente, la relacin existente entre las
volatilidades de j
|
y -
|
pues, como puede verse en la expresin anterior, dicha
relacin debe ser igual al valor numrico de la fraccin que en ella aparce, pero
ambos parmetros entran de forma simtrica, por lo que intercambiarlos no al-
tera el valor numrico de la volatilidad relativa de ambas variables. Algo similar
ocurrira para cualquier informacin relativa al valor numrico de cualquier es-
tadstico de j
|
, cuya expresin analtica depende de ,
l
y ,
2
, por lo que c y j
entran siempre de modo simtrico.
Cuestin distinta sera si dispusiramos de alguna informacin acerca de la
volatilidad relativa de j
|
y n
|
puesto que, como \ ar(n
|
) =
c
2
z
l
2
, tendramos:
\ ar (j
|
)
\ ar(n
|
)
=
(1 cj)
_
1 j
2
_
(1 cj)
_
(1 cj)
2
(c j)
2
_
que es distinto para las combinaciones de valores numricos
_

c, j
_
y
_
j,

c
_
.
Por ejemplo, si c = 0, 6; j = 0, 0, tendramos: \ ar (j
|
) = , 28\ ar(n
|
), mientras
que si c = 0, 0; j = 0, 6, tendramos: \ ar (j
|
) = 17, 62\ ar(n
|
).
La funcin de verosimilitud muestral del proceso (8) puede escribirse:
1(j
l
, j
2
, ..., j
T
) = 1(j
l
, j
2
)1(j
3
,j
2
, j
l
)1(j
d
,j
3
, j
2
)...1(j
T
,j
Tl
, j
T2
)
donde la necesidad de condicionar ahora la funcin de densidad de cada
observacin en los valores numricos tomados por las dos observaciones previas
es bastante evidente.
Ignorando el primer factor, tenemos la funcin de verosimilitud condicional
en (j
l
, j
2
), cuyo logaritmo es,
ln1 = ln(j
l
)
T

2
ln1(j
|
,j
|l
) =
=
1
2
ln2
1
2
ln
o
2
:
1 c
2

T 1
2
ln2
1
2
lno
2
:

1 c
2
2o
2
:
j
2
l

1
2o
2
:
T

2
(j
|
c cj
|l
)
2
=
=
T
2
ln2
T
2
lno
2
:

1
2
ln
_
1 c
2
_

1 c
2
2o
2
:
j
2
l

1
2o
2
:
T

2
(j
|
c cj
|l
)
2
92
El problema de maximizacin de esta funcin se simplica si ignoramos los
trminos tercero y cuarto, que proceden de la distribucin marginal de j
l
, 1(j
l
),
y consideramos:
ln1

=
T

3
ln1(j
|
,j
|l
, j
|2
) =
T 2
2
ln2
T 2
2
lno
2
:

1
2o
2
:
T

2
(j
|
(j c) j
|l
jcj
|2
)
2
cuyas condiciones de optimalidad son,
0 ln1

0c
=
1
o
2
:
T

3
[(j
|
(j c) j
|l
jcj
|2
) (j
|l
jj
|2
)[ =
1
o
2
:
T

3
(j
|l
jj
|2
) -
|
= 0
0 ln1

0j
=
1
o
2
:
T

3
(j
|l
cj
|2
) -
|
= 0
0 ln1

0o
2
:
=
T 2
2o
2
:

1
2 (o
2
:
)
2
T

2
(j
|
(j c) j
|l
jcj
|2
)
2
=
T 2
2o
2
:

1
2 (o
2
:
)
2
T

2
-
|
2
= 0
Por tanto, las estimaciones de Mxima Verosimilitud Condicionada de j y
c son aquellos valores numricos que generan unos residuos incorrelacionados
simultneamente con j
|l
cj
|2
y j
|l
jj
|2
, lo que vuelve a mostrar la
simetra existente entre estos parmetros. Escribiendo el modelo (86) en la
forma,
j
|
jj
|l
= c(j
|l
jj
|2
) -
|
vemos que la primera condicin sugiere estimar por Mnimos Cuadrados Or-
dinarios esta ecuacin en variables cuasidiferenciadas para obtener la estimacin
MVC del parmetro c. Por otra parte, la segunda ecuacin sugiere obtener el
estimador MVC del parmetro j estimando por MCO la ecuacin:
j
|
cj
|l
= j(j
|l
jj
|2
) -
|
que tambin equivale a (86) . Por ltimo, la tercera ecuacin nos proporciona
el estimador de Mxima Verosimilitud Condicionada de o
2
:
:
o
2
:
=

T
3
-
|
2
T 2
Esta interpretacin sugiere que el estimador MVC puede obtenerse esti-
mando la regresin en variables transformadas j
|
= j
|
jj
|l
, para un de-
terminado valor numrico de j, para obtener la estimacin de c, y utilizar sta
para llevar a cabo la transformacin: j
|
= j
|


cj
|l
para estimar j como
el coeciente en un modelo AR(1) en esta variable. Esta ltima transformada
puede interpretarse como el residuo del modelo AR(1) original, dada la esti-
macin

c. Ha de notarse, sin embargo, que tal esquema precisara de un valor
93
inicial para uno de los dos parmetros, c o j, para comenzar a partir de l
estimando, sucesiva y recursivamente, cada uno de ellos. Tal procedimiento it-
erativo aproximara el estimador MVC. Sin embargo, ste requiere la estimacin
simultnea de ambos parmetros, como sugiere la solucin del sistema de ecua-
ciones de optimalidad anterior. El esquema iterativo puede conducir o no a la
misma solucin que la solucin simultnea que requiere, en todo caso, de un
algoritmo numrico. Ambas soluciones coincidirn si el modelo propuesto es la
especicacin correcta, pero no en caso contrario, y el investigador nunca puede
estar seguro de este aspecto en su trabajo emprico. Tambin coincidirn si los
estimadores MVC de ambos parmetros fuesen independientes.
La matriz de informacin del estimador de mxima verosimilitud es la in-
versa de la matriz de informacin, para lo que hemos de obtener las derivadas
segundas,
0
2
ln1

0j
2
=
1
o
2
:
T

3
n
2
|l
=1
_
0
2
ln1

0j
2
_
=
T 2
o
2
:
o
2
:
1 j
2
=
T 2
1 j
2
0
2
ln1

0c
2
=
1
o
2
:
T

3
(j
|l
jj
|2
)
2
=1
_
0
2
ln1

0c
2
_
=
T 2
o
2
:
o
2
:
1 c
2
0
2
ln1

0 (o
2
:
)
2
=
T 2
2
1
(o
2
:
)
2

1
(o
2
:
)
3
T

3
-
|
2
=1
_
0
2
ln1

0 (o
2
:
)
2
_
=
T 2
(o
2
:
)
2
0
2
ln1

0j0c
=
1
o
2
:
T

3
[-
|
j
|2
(j
|l
cj
|2
) (j
|l
jj
|2
)[
0
2
ln1

0j0o
2
:
=
1
(o
2
:
)
2
T

3
-
|
(j
|l
jj
|2
) =1
_
0
2
ln1

0j0o
2
:
_
= 1
_
1
|l
_
0
2
ln1

0j0o
2
:
__
= 0
0
2
ln1

0c0o
2
:
=
1
(o
2
:
)
2
T

3
-
|
(j
|l
cj
|2
) =1
_
0
2
ln1

0c0o
2
:
_
= 1
_
1
|l
_
0
2
ln1

0c0o
2
:
__
= 0
donde hemos utilizado la propiedad:
1 [-
|
(j
|l
jj
|2
)[ = 1 (1
|l
[-
|
(j
|l
jj
|2
)[) = 1 [(j
|l
jj
|2
) 1
|l
-
|
[ = 0
as como la propiedad anloga cuando la transformacin de variables utiliza
el parmetro c. Asimismo:
94
1
_
(j
|l
jj
|2
)
2
_
= 1
_
1

s=0
c
s
-
|sl
_
2
=
o
2
:
1 c
2
1 [-
|
(j
|l
jj
|2
)[ = 1
_
-
|
1

s=0
c
s
-
|sl
_
= 1 (-
|
-
|l
c-
|
-
|2
...) = 0
1 (-
|
j
|2
) = 1
_
-
|
1

s=0
c
s
n
|s2
_
= 0
1 [(j
|l
cj
|2
) (j
|l
jj
|2
)[ = 1
_
n
|l
1

s=0
c
s
-
|sl
_
= 1
__
1

I=0
j
I
-
|I
__
1

s=0
c
s
-
|s
__
=
=
o
2
:
1 cj
Por tanto,
_
_
c

c
o
2
:
_
_
~
_
_
_
_
c
c
o
2
:
,
o
2
:
T 2
_
_
_
c
2
z
l
2
l
l
0
l
l
l
l
2
0
0 0
l
2c
2
z
_
_
_
l
_
_
_
_
donde la matriz de varianzas y covarianzas debera evaluarse en los estima-
ciones de mxima verosimilitud obtenidas para los tres parmetros del modelo.
ELa estructura de esta matriz de informacin prueba que, si bien los estimadores
de MVC de los parmetros c y j son independientes del estimador MVC de o
2
:
,
sin embargo los dos primeros no son independientes entre s.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habra
que iterar mediante,

0
n
=

0
nl

_
_
_

T
3
(j
|l
jj
|2
)
2

T
3
[-
|
j
|2
n
|l
(j
|l
jj
|2
)[

T
3
-
|
n
|l

2l

T
3
n
2
|l

T
3
-
|
(j
|l
jj
|2
)

T
3
-
|
n
|l

T
3
-
|
(j
|l
jj
|2
)
l
c
4

T
3
_
l
2
o
2
:
-
|
2
_
_
_
_
l
.
.
_
_
_

T
3
(j
|l
jj
|2
) -
|

T
3
n
|l
-
|

l
2c
2

T
2
_
o
2
:
-
|
2
_
_
_
_
mientras que el algoritmo de scoring, ms sencillo, aproxima el hessiano del
logaritmo de la funcin de verosimilitud por la matriz de informacin,

0
n
=

0
nl

1
T 1
_
_
_
1
o
l
0
o
l
c
2
z
l
2

o
2
(l)
2
0
0 0
l
2c
2
z
_
_
_
l _
_
_

T
3
(j
|l
jj
|2
) -
|

T
3
n
|l
-
|

l
2c
2

T
2
_
o
2
:
-
|
2
_
_
_
_
95
y el algoritmo de Gauss-Newton, an ms simple, pero con mayor error de
aproximacin numrico, consistira en:

0
n
=

0
nl

_
_
_

T
3
(j
|l
jj
|2
)
2
-
2
|

T
3
(j
|l
jj
|2
) -
2
|
n
|l

l
2c
4

T
2
_
o
2
:
-
|
2
_
(j
|l
jj
|2
) -
|

T
3
(j
|l
jj
|2
) -
2
|
n
|l

T
3
n
2
|l
-
2
|

l
2c
4

T
2
_
o
2
:
-
|
2
_
n
|l
-
|

l
2c
4

T
2
_
o
2
:
-
|
2
_
(j
|l
jj
|2
) -
|

l
2c
4

T
2
_
o
2
:
-
|
2
_
n
|l
-
|
l
dc
8

T
2
_
o
2
:
-
|
2
_
2
_
_
_
l
.
.
_
_
_

T
3
(j
|l
jj
|2
) -
|

T
3
n
|l
-
|

l
2c
4

T
2
_
o
2
:
-
|
2
_
_
_
_
Sesgo asinttico en el modelo AR(1) con autocorrelacin Consider-
amos otra vez la estimacin del modelo AR(1) con residuos autocorrelacionados,
asimismo mediante una estructura AR(1):
j
|
= c ,j
|l
n
|
, t = 1, 2, ..., [ , [< 1
n
|
= jn
|l
-
|
= 0 [ j [< 1, 1-
|
= 0, 1(-
|
-
|s
) = 0 \: ,= 0, 1(-
2
|
) = o
2
:
Comencemos notando que, dados los lmites que hemos supuesto mpara los
valores numricos de los parmetros , y j, j
|
y n
|
admiten las representaciones:
j
|
=
1

s=0
,
s
n
|s
; n
|
=
1

I=0
j
I
-
|I
;
Ahora bien, tambin tenhemos una representacin de j
|
en funcin de la
innovacin del modelo:
j
|
= (, j) j
|l
,jj
|2
-
|
(37)
Si multiplicamos esta expresin por j
|l
, sumamos de 8 a T y divimos por

T
2
j
2
|l
, tenemos,

,
1cO
=
l
T

T
3
j
|
j
|l
l
T

T
3
j
2
|l
= (, j) ,j
l
T

T
3
j
|l
j
|2
l
T

T
3
j
2
|l

l
T

T
3
-
|
j
|l
l
T

T
3
j
2
|l
Ahora, tomando lmites en probabilidad y notando que:
j lim
1
T
T

3
j
|
j
|l
= 1 (j
|
j
|l
) = j lim
1
T
T

3
j
|l
j
|2
tenemos:
96
j lim

,
1cO
= (, j) (,j) j lim

,
1cO

j lim
l
T

T
3
-
|
j
|l
j lim
l
T

T
3
j
2
|l
La ltima fraccin es igual a cero, yan que el numerador converge a 1 (-
|
j
|l
)
y ya hemos visto que j
|l
es combinacin lineal de -
|l
, -
|2
, ..., pero no de -
|
.
As, tenemos,
j lim

,
1cO
=
, j
1 ,j
= ,
j
_
1 ,
2
_
1 ,j
que, como puede comprobarse, est entre 1 y 1.
Por tanto,
oc:qo a sint otico
_

,
1cO
_
= j lim

,
1cO
, =
j
_
1 ,
2
_
1 ,j
de modo que si j 0, el estimador

,
1cO
sobreestima a ,, subestimando el
verdadero valor del parmetro cuando j < 0.
Consideremos ahora el estimador de j :
j
1cO
=
l
T

T
3
n
|
n
|l
l
T

T
3
n
2
|l
siendo n
|
= j
|

,
1cO
.j
|l
.
Para obtener el lmite en probabilidad del estimador j
1cO
notemos, en
primer lugar, que:
n
2
|l
=
_
j
|l

,j
|2
_
2
= j
2
|l
2

,j
|l
j
|2


,
2
j
2
|2
=
= j
2
|l
2

,
_

,j
|2
n
|l
_
j
|2


,
2
j
2
|2
Dividimos por T, sumamos y tomamos lmites en probabilidad, obteniendo:
j lim
1
T
T

3
n
2
|l
= j lim
1
T
T

3
j
2
|l
2j lim
_

,
2
_
j lim
_
1
T
T

3
j
2
|2
_

2j lim
_

,
_
j lim
_
1
T
T

3
n
|l
j
|2
_
j lim
_

,
2
_
j lim
_
1
T
T

3
j
2
|2
_
es decir,
j lim
1
T
T

3
n
2
|l
=
_
1
_
j lim

,
_
2
_
j lim
1
T
T

3
j
2
|l
2j lim
_

,
_
j lim
_
1
T
T

3
n
|l
j
|2
_
97
pero el ltimo trmino es igual a 1 ( n
|l
j
|2
) , que es igual a cero por ser
j
|2
una variable explicativa en la regresin en la que se gener el residuo de
mnimos cuadrados n
|l
.
En segundo lugar:
n
|
n
|l
=
_
j
|

,
1cO
.j
|l
__
j
|l

,
1cO
.j
|2
_
=
= j
|
j
|l

,j
2
|l

,j
|
j
|2


,
2
j
|l
j
|2
de modo que:
j lim
1
T
T

3
n
|
n
|l
=
_
1 j lim

,
2
_
j lim
1
T
T

3
j
|l
j
|2

_
j lim

,
_
j lim
1
T
T

3
j
2
|l
(38)

_
j lim

,
_
j lim
1
T
T

3
j
|
j
|2
Pero, utilizando la representacin (87) , tenemos:
j lim
1
T
T

3
j
|
j
|2
= j lim
1
T
T

3
(, j) j
|l
j
|2
,jj lim
1
T
T

3
j
2
|2
j lim
1
T
T

3
-
|
j
|2
(39)
donde el ltimo trmino converge a 1 (-
|
j
|2
) , que es igual a cero porque
j
|2
depende de -
|2
y anteriores, pero no de -
|
.
Sustituyendo (80)en (88) tenemos:
j lim
1
T
T

3
n
|
n
|l
=
_
1
_
j lim

,
_
2

_
j lim

,
_
(, j)
_
j lim
1
T
T

3
j
|
j
|l
j lim

,
_
j lim
1
T
T

3
j
2
|l
_
,j
_
j lim

,
_
j lim
1
T
T

3
j
2
|2
=
=
_
1
_
j lim

,
_
2

_
j lim

,
_
(, j)
_
_
j lim

,
_
j lim
1
T
T

3
j
2
|l
j lim

,
_
j lim
1
T
T

3
j
2
|l
_
,j
_
j lim

,
_
j lim
1
T
T

3
j
2
|2
=
=
_
_
j lim

,
_
3

_
j lim

,
_
2
(, j) ,j
_
j lim

,
_
_
j lim
1
T
T

3
j
2
de modo que:
j lim( j
1cO
) =
_
j lim

,
_
3

_
j lim

,
_
2
(, j) ,j
_
j lim

,
_
1
_
j lim

,
_
2
Proposition 2 j lim( j
1cO
) = ,j
o
lo
98
Demostracin:
j lim( j
1cO
) =
1
1
_
o
lo
_
2
, j
1 ,j
_
_
, j
1 ,j
_
2

(, j)
2
1 ,j
,j
_
=
=
1
1
_
o
lo
_
2
, j
1 ,j
_
_
, j
1 ,j
_
2
1
_
(,j) = ,j
, j
1 ,j
Corollary 3 En consecuencia, tenemos: oc:qo a sint otico ( j
1cO
) = j lim j
1cO

j = j
lo
2
lo
Corollary 4 plim
_

,
1cO
j
1cO
_
= , j
Como muestra el ltimo corolario, la suma de ambos parmetros se estima
consistentemente, a pesar del sesgo asinttico en que se incurreal estimar por
MCO cada uno de ellos. Una vez ms, hay que observar que, aunque el prob-
lema de correlacin no nual entre variables explicativas y trmino de error se
produce tan slo en la primera ecuacin del modelo, que tiene a j
|
por variable
dependiente, ambos parametros se estiman inconsistentemente.
Hay que notar tambin que la estimacin j
1cO
puede subestimar de modo
apreciable la autocorrelacin existente en n
|
.Adems, no es posible evaluar dicha
autocorrelacin nicamente a partir de j
1cO
pues dicha estimacin numrica
puede estar muy sesgada hacia cero. Como consecuencia, el estadstico Durbin-
Watson est sesgado asintticamente a la baja cuando j 0.
Proposition 5 oc:qo a sint otico ( c
1cO
) = j lim c
1cO
c = cj
lo
lo
Demostracin:
oc:qo a sint otico ( c
1cO
) = j lim c
1cO
c = j lim
__
1

,
1cO
_
j
_
c =
_
1 j lim

,
1cO
_
1j c =
=
_
1 , j
1 ,
2
1 ,j
_
c
1 ,
c =
_
1 j
1 ,
1 ,j
1
_
c = jc
1 ,
1 ,j
6 Modelos ARCH
6.1 Un poco de historia
Los modelos ARCH aparecen en los aos 80 con el objeto de recoger los episodios
de agrupamiento temporal de volatilidad que suele observarse en las series de
rentabilidad de casi todo mercado nanciero. Desde entonces, su variedad y
99
su aplicacin prctica ha crecido de manera espectacular. En realidad, hay
precursores ms antiguos[Bachelier (1900) y Mandelbrot(1963,1967)], trabajos
en los que comenz a caracerizarse las propioedades estadsticas de los precios
de activos nancieros.
6.2 Propiedades estadsticas
Los modelos que hemos analizado hasta ahora mantenan el supuesto de que la
innovacin tiene una varianza constante en el tiempo, a pesar de que la esperanza
condicional es cambiante. Sin embargo, para agentes aversos al riesgo, que
toman sus decisiones en un rgimen de incertidumbre, la varianza condicional,
es decir, la varianza de la distribucin de los rendimientos en cada instante
futuro de tiempo, juega un papel de la mayor importancia. Este es el aspcto
que modelizamos en este captulo.
Las caractersticas ms relevantes de las series nancieras recogidas con fre-
cuencias elevadas [Ruiz (1994)], son:
1) ausencia de estructura regular dinmica en la media, lo que aparece re-
ejado en estadsticos Ljung-Box generalmente no signicativos,
2) distribuciones leptocrticas o exceso de curtosis,
3) suelen ser simtricas, aunque tambin se encuentran en algunos casos
coecientes de asimetra signicativamente distintos de cero,
4) agrupamiento de la volatilidad sobre intervalos de tiempo, lo cual se reeja
en funciones de autocorrelacin simple signicativas para los cuadrados de las
variables,
5) persistencia en volatilidad: los efectos de un shock en volatilidad tardan
un tiempo en desaparecer.
6) efecto apalancamiento: se observa una respuesta asimtrica de la volatil-
idad al nivel de los rendimientos, en el sentido de que
Muchos de estos efectos quedan recogidos en los modelos ARCH, GARCH,
EGARCH, que vamos a analizar. Estos modelos recogen en sus formulaciones
la idea de que existen agrupaciones de volatilidad, es decir, que fuertes uc-
tuaciones inesperadas en los mercados tienden a venir seguidas de perodos de
iguales caractersticas, mientras que perodos de estabilidad tienden a venir
seguidos de perodos asimismo estables. Los modelos de esta familia recogen
este comportamiento inercial en volatilidad a la vez que el comportamiento
dinmico, con autocorrelacin que suelen presentar las series nancieras.
Una de las contribuciones importantes de la literatura de procesos ARCH es
mostrar que las variaciones que aparentemente se producen en la volatilidad de
las series temporales econmicas pueden expliacrse mediante una determinada
forma de dependencia no lineal, que permite adems predecir dichos cambios
en volatilidad sin necesidad de recurrir a la modelizacin explcita de cambios
estructurales en la varianza.
Frente a estas observaciones empricas, frmulas de valoracin del tipo Black-
Scholes suponen una volatilidad constante para el precio del activo subyacente,
que permite dudicr la expresin analtica del precio terico de una opcin Euro-
100
pea sobre dicho activo. La frmula BS es utilizada habitualmente para deducir
de ella la volatilidad implcita, forzando el precio que de ella se deriva a coin-
cidri con el precio observado en el mercado. La volatilidad implcita as obtenida
se interpreta como el nivel de volatilidad vigente en el mercado desde el mo-
mento de inversin de la frmula BS hasta el vencimiento de la opcin. Sin
embargo, no siendo dicha volatilidad constante en el tiempo, es cuestionable la
interpretacin del valor numrico obtenido para la volatilidad implcita. Suele
interpretarse como una expectativa de mercado y en trminos del valor medio
de volatildad vigente para el perodo mencionado, pero tal interpretacin no
est justicada por el anlisis 1o.
Para poder proceder al estudio emprico de este tipo de modelos de varianza
condicional cambiante en datos reales, es preciso concretar antes la estructura
de las funciones de esperanza y varianza condicionales, lo que pasamos a hacer
a continuacin.
6.3 Primeras deniciones y propiedades
6.4 Momentos incondicionales
Los momentos de los procesos 1CH han sido analizados en Engel(1982), Mil-
hoj(1985), Bollerslev(1986) entre muchos otros. Para su clculo, es clave la ley
de iteracin de expectativas: dadas dos sigma-lgebras \
l
, \
2
, con \
l
_ \
2
y
una variable aleatoria escalar j, se tiene:
1 (j [ \
l
) = 1 [1 (j [ \
2
) [ \
l
[
En nuestro caso, las dos sigma-lgebras son las generadas por la historia
pasada de las variables del modelo, en dos instantes distintos de tiempo. un
caso particular de esta ley que resulta especialmente til es cuando \
l
= c,
pues entonces,
1 (j) = 1 [1 (j [ \
2
)[
que relaciona un moomento incondicional y un momento condicional.
Sea -
|
(0) un proceso estocstico, denido en tiempo discreto, cuyas es-
peranza y varianza condicionales dependen de un vector de parmetros 0, de
dimensin :. Sea 0
0
el verdadero valor de dicho vector de parmetros. Ini-
cialmente, consideramos que -
|
(0) es escalar, aunque la generalizacin al caso
multivariante es relativamente simple.
Denotamos por 1
|l
la esperanza matemtica condicional en la sigma-
lgebra \
|l
generada por las realizaciones pasadas de las variables observables
en el instante t1 o anteriores, que dene el conjunto de informacin disponible
en t 1.
Denition 6 Decimos que -
|
(0) sigue un proceso ARCH si su esperanza
condicional es igual a cero:
101
1
|l
-
|
(0
0
) = 0, t = 1, 2, 8, ...
y su varianza condicional,
/
2
|
(0
0
) = \ ar
|l
[-
|
(0
0
)[ = 1
|l
_
-
2
|
(0
0
)

= q (-
|l
, -
|2
, ...)
depende, en forma no trivial, del sigma-lgebra \
|l
generada por las ob-
servaciones pasadas. La notacin /
2
|
hace referencia al hecho de que trabajamos
con un segundo momento del proceso estocstico. Debe apreciarse que, a pesar
del subndice temporal, /
2
|
es una funcin de variables pertenecientes al instante
t 1 o anteriores.
La esperanza y varianza incondicionales del proceso -
|
(0
0
) son la esperanza
matemtica de los momentos anlogos condicionales,
1(-
|
) = 1 (1
|l
-
|
) = 0
\ ar (-
|
) = 1-
2
|
= 1
_
1
|l
-
2
|
_
= 1/
2
|
El proceso estandarizado:
.
|
(0
0
) =
-
|
(0
0
)
_
/
2
|
tendr esperanza condicional igual a cero, y varianza condicional igual a uno,
1
|l
.
|
(0
0
) = 0, t = 1, 2, 8, ...
\ ar
|l
[.
|
(0
0
)[ = \ ar
|l
_
-
|
(0
0
)
_
/
2
|
_
=
1
/
2
|
\ ar
|l
[-
|
(0
0
)[ = 1, t = 1, 2, 8, ...
Sus momentos incondicionales sern, por tanto, iguales a los momentos
condicionales, que son constantes:
1(-
|
) = 1 (1
|l
-
|
) = 0; \ ar [.
|
(0
0
)[ = 1, t = 1, 2, 8, ...
Por tanto, si bien la varianza condicional cambia en el tiempo, la varianza
incondicional es constante, por lo que el proceso 1CH es incondicionalmente
homocedstico. Hay que notar, adems, que la variable aleatoria .
|
(0
0
) es
independiente del pasado de -
|
(0
0
) , pues la presencia de
_
/
2
|
en su denicin
no hace sino reducir su varianza
10
a 1.
10
Alternativamente, podramos denir el proceso ARCH mediante,
jI = .III
con .I .(0, 1),independiente en el tiempo, y I
2
I
(0
0
) j (.
I1
, .
I2
, ...). Con esta no-
tacin, la armacin del texto equivaldra a decir que .I y II son independientes, como
claramente ocurre.
102
Si aadimos el supuesto de Normalidad condicional para -
|
, y suponemos
que la distribucin condicional de .
|
(0
0
) tiene momento de cuarto orden nito,
se tendr, por la desigualdad
11
de Jensen:
1
_
-
d
|
(0
0
)

= 1
_
.
d
|
(0
0
)

1
_
/
d
|
(0
0
)

_ 1
_
.
d
|
(0
0
)
_
1
_
/
2
|
(0
0
)
_
2
= 1
_
.
d
|
(0
0
)
_
1
_
-
2
|
(0
0
)
_
2
Por tanto, el coeciente de curtosis del proceso ARCH -
|
(0) ser,
1
_
-
d
|
_
[1 (-
2
|
)[
2
_ 1
_
.
d
|
_
= 8
y la desigualdad se cumplir como igualdad slo en el caso de una varianza
condicional constante. En caso contrario, si la distribucin de .
|
(0
0
) es Normal,
entonces la distribucin incondicional de -
|
ser leptocrtica.
Por otra parte, si la distribucin condicional de -
|
es Normal, se tiene para
todo entero impar : que 1 (-
n
|
(0
0
)) = 1 [1
|l
(-
n
|
(0
0
))[ = 1(0) = 0, por lo
que el coeciente de asimetra de -
|
es nulo. Al ser -
|
una variable aleatoria
continua, esto implica que su densidad es simtrica.
6.5 Proceso con residuos ARCH
Aunque nos centremos en las propiedades del proceso -
|
(0), en general, ten-
dremos un proceso j
|
(0
0
), objeto de estudio, cuya esperanza condicional ser
una funcin de 0
0
,
1
|l
j
|
= j
|l
(0
0
)
En general, entendemos que j
|
representa el rendimiento ofrecido por un
activo nanciero, cuyo valor actual descomponemos mediante una identidad, en
dos componentes: a) el componente anticipado, j
|l
(0
0
) , que pudimos haber
previsto en base a informacin pasada, y b) la innovacin en el proceso de
rentabilidad. Es sta ltima la que se supone que tiene una estructura de tipo
ARCH.
Denotemos por -
|
(0
0
) el residuo de dicha relacin, o error de prediccin
un perodo hacia adelante,
j
|
= j
|l
(0
0
) -
|
(0
0
) =-
|
(0
0
) = j
|
j
|l
(0
0
)
que satisface,
1
|l
[-
|
(0
0
)[ = 0
y supongamos que tiene la estructura ARCH denida en (??).
Para el proceso j
|
tendremos,
11
El lector puede comprobar la facilidad con que obtiene este resultado utilizando la notacin
propuesta en el pie de pgina previo.
103
1
|l
j
|
= j
|l
(0
0
) ,
\ ar
|l
j
|
= 1
|l
[j
|
1
|l
j
|
[
2
= 1
|l
[-
|
(0
0
)[
2
= \ ar
|l
[-
|
(0
0
)[ = /
2
|
por lo que su varianza condicional coincide con la de -
|
(0
0
) , mientras que
su varianza incondicional es,
\ ar(j
|
) = 1
_
/
2
|
_
En consecuencia, mientras que los momentos incondicionales son constantes
en el tiempo aunque, como veremos, pueden no existir, los momentos incondi-
cionales cambian a lo largo del tiempo. Un modelo ARCH consta de: a) una
ecuacin representando el modo en que la esperanza condicional del proceso
vara en el tiempo, b) una ecuacin mostrando el modo en que su varianza
condicional cambia en el tiempo, y c) una hiptesis acerca de la distribucin
que sigue la innovacin de la ecuacin que describe el proceso seguido por su
esperanza matemtica.
6.6 El modelo ARCH(q)
La estructura bsica de este modelo es,
j
|
= -
|
/
|
/
2
|
= c
0

j

I=l
c
I
j
2
|I
, c
0
0, c
I
_ 0,
j

I=l
c
I
_ 1
donde, una vez ms, suponemos que -
|
es un proceso ruido blanco, con
1(-
|
) = 0, \ ar(-
|
) = 1. Por simplicidad, estamos suponiendo asimismo que la
variable j
|
carece de autocorrelacin, as como de la imposibilidad de utilizar
otras variables que puedan explicar su evolucin temporal. En todo caso, la
escasa estructura dinmica que se observa en datos frecuentes de rentabilidades
de mercados nancieros justica la simplicidad en la especicacin de la ecuacin
de la media del proceso j
|
. Alternativamente, si el investigador detecta algunas
variables que pueden explicar el comportamiento de j
|
, posiblemente incluyendo
algunos retardos de la propia variable, entonces /
2
|
sera la varianza condicional
del trmino de error del modelo que explica el comportamiento de j
|
. Esto es lo
que haremos en algunos modelos analizados en las prximas secciones.
Aunque no son necesarias, las restricciones de signo de los coecientes de
la ecuacin de varianza garantizan que la varianza condicional ser positiva en
todos los perodos. En realidad, lo que necesitamos es que, una vez que el modelo
haya sido estimado, genere una serie de varianzas positiva, lo cual es compatible
con que alguno de los coecientes c
I
sean negativos. Esto debe tomarse como
un contraste de validez del modelo, que no sera aceptable si generase varianzas
estimadas negativas. Es preferible no imponer las restricciones en la estimacin
104
del modelo, y poder contrastar la propiedad del modo que hemos descrito, que
estimar bajo las restricciones de signo.
La restriccin sobre la suma de los coecientes de la ecuacin de varianza
garantiza que el proceso sea estacionario en varianza. Para ello, es necesario
que las races del polinomio caracterstico,
c
0
c
l
. c
2
.
2
... c
j
.
j
= 0
estn fuera del crculo unidad, es decir, tengan valor absoluto mayor que uno
o, si son complejas, mdulo mayor que la unidad. Cuando son no-negativas, ello
es equivalente a la condicin sobre su suma.
De acuerdo con este modelo, una sorpresa en j
|
importante en magnitud,
positiva o negativa, har que la varianza del proceso sea elevada durante un
cierto nmero de perodos.
Si, condicional en \
|l
, -
|
sigue una distribucin Normal, la distribucin
condicional de j
|
ser asimismo Normal, pues j
|
= -
|
_
c
0

j
I=l
c
I
j
2
|I
y el
componente dentro de la raz es conocido en t 1. Se tiene, adems,
\ ar (j
|
,j
|l
, j
|2
, ....) = 1
_
j
2
|
,j
|l
, j
|2
, ....
_
= c
0

j

I=l
c
I
j
2
|I
Por el contrario, su distribucin incondicional no es fcilmente caracterizable,
debido a la nolinealidad de la relacin entre j
|
y -
|
. De hecho al no seguir
incondicionalmente una distribucin Normal, no se tiene la equivalencia entre
ausencia de correlacin e independencia, como veremos en detalle en el caso del
modelo 1CH(1). Es fcil probar, sin embargo, que sus momentos de orden
impar son todos igual a cero, por lo que dicha distribucin es simtrica.
Deniendo
|
= j
2
|
/
2
|
, que cumple 1 (
|
) = 0, este proceso puede escribirse,
j
2
|
= c
0

j

I=l
c
I
j
2
|I

|
por lo que pasamos a tener un proceso AR(q) en el cuadrado de la variable a
explicar, j
|
, que podran ser los rendimientos que ofrece un determinado activo
nanciero. Esta es otra interpretacin del modelo ARCH() cuando no hay
estructura de variables explicativas en la ecuacin de la media del proceso.
La varianza incondicional de este proceso es,
o
2

= \ ar j
|
=
c
0
1

j
I=l
c
I
Aunque los sucesivos valores de j
|
estn incorrelacionados, no son indepen-
dientes, debido a la relacin que existe entre sus segundos momentos.
Para evitar trabajar con un elevado nmero de parmetros en ocasiones en
que se percibe una alta persistencia en volatilidad, suele utilizarse una repre-
sentacin,
105
/
2
|
= c
0
c
l
j

I=l
n
I
j
2
|I
, n
I
=
( 1) i
l
2
( 1)
,
j

I=l
n
I
= 1
Este es el modelo 1CH() restringido, introducido ya por Engle(1982). En
todo caso, la estructura lineal en los coecientes de los retardos en la ecuacin de
la varianza pude contrastarse, frente a la alternativa formada por una estructura
libre de coecientes, siguiendo los mtodos que describiremos ms adelante.
Taylor (1986) prueba que la funcin de autocorrelacin simple de j
2
|
cuando
el proceso j
|
tiene una estructura 1CH() presenta la misma conguracin
que la funcin de autocorrelacin simple de un proceso 1(), lo que puede
servir para detectar este tipo de estructura.
6.7 El modelo ARCH(1)
Un caso especialmente interesante surge cuando = 1, teniendo el modelo
1CH(1), que puede escribirse:
j
|
= -
|
/
|
= -
|
_
c
0
c
l
j
2
|l
siendo -
|
un proceso ruido blanco con varianza igual a 1.
Su esperanza y varianza condicionales son,
1
|l
j
|
=
_
_
c
0
c
l
j
2
|l
_
1
|l
(-
|
) = 0
\ ar
|l
(j
|
) = 1
|l
j
2
|
=
_
c
0
c
l
j
2
|l
_
1
|l
(-
2
|
) = c
0
c
l
j
2
|l
por lo que la varianza condicional vara, en funcin de la realizacin del
proceso j
|
.
La ley de iteracin de expectativas nos dice, 1 (-
|
) = 1 [1 (-
|
[ 1
|l
)[ , pero
como la especicacin del modelo incluye el supuesto 1 (-
|
[ \
|l
) = 0, se tiene
que 1 (-
|
) = 0, lo cual es cierto para todo modelo 1CH().
Al ser independiente en el tiempo, -
|
tambin es independiente de valores
pasados de j
|
, por lo que la esperanza y varianza marginal o incondicional de
j
|
son:
1 (j
|
) = 1
_
-
|
_
c
0
c
l
j
2
|l
_
= 1 (-
|
) 1
_
_
c
0
c
l
j
2
|l
_
= 0
\ ar (j
|
) = 1
_
j
2
|
_
= 1
_
-
2
|
_
1
_
c
0
c
l
j
2
|l
_
= c
0
c
l
1
_
j
2
|l
_
donde hemos utilizado nuevamente la independencia estadstica de -
|
e j
|l
.
Si [ c
l
[< 1, el proceso j
|
es estacionario, con 1
_
j
2
|
_
= 1
_
j
2
|l
_
, lo que
implica que,
106
\ ar (j
|
) =
c
0
1 c
l
que, a diferencia de lo que ocurre con la varianza incondicional, es constante
en el tiempo.
La autocovarianza de orden t, t _1 del proceso 1CH(1) es:
1 (j
|
j
|r
) = 1
_
-
|
_
c
0
c
l
j
2
|l
j
|r
_
= 1 (-
|
) 1
_
_
c
0
c
l
j
2
|l
j
|r
_
= 0
por lo que el proceso 1CH(1) no est autocorrelacionado, es decir, no
existen relaciones lineales entre sus valores en distintos instantes de tiempo.
Sin embargo, su cuadrado, j
2
|
, s est autocorrelacionado. Por ejemplo, su
autocovarianza de orden 1 es:

l
_
j
2
|
_
= 1
_
j
2
|
j
2
|l
_
= 1
__
j
2
|

c
0
1 c
l
__
j
2
|l

c
0
1 c
l
__
=
=
c
0
1 c
l
_
1j
2
|
1j
2
|l
_

_
c
0
1 c
l
_
2
1
_
j
2
|
j
2
|l
_
pero: j
2
|
= -
2
|
_
c
0
c
l
j
2
|l
_
, y ya hemos visto que: 1j
2
|
= c
0
c
l
1
_
j
2
|l
_
,
por lo que,

l
_
j
2
|
_
=
c
0
1 c
l
2
c
0
1 c
l

_
c
0
1 c
l
_
2
1
_
-
2
|
_
c
0
c
l
j
2
|l
_
j
2
|l

=
=
_
c
0
1 c
l
_
2

_
c
0
1
_
j
2
|l
_
c
l
1
_
j
d
|l
_
y de, hecho, puede probarse [Taylor (1986)] que la funcin de autocorrelacin
simple del cuadrado de un proceso 1CH() tiene las mismas caractersticas
que la funcin de autocorrelacin simple de un proceso 1().
Por otra parte, podemos repetir en este caso particular el anlisis que hicimos
antes para el caso general, acerca del momento de cuarto orden. La condicin
necesaria para la existencia del cuarto momento del proceso 1CH(1) es 3c
2
l
<
1.Bajo este supuesto, y aadiendo la hiptesis de Normalidad de -
|
, tenemos,
1(j
d
|
) = 1
_
-
d
|
_
c
0
c
l
j
2
|l
_
2
_
= 8
c
2
0
(1 c
l
)
1 8c
2
l
por lo que la autocovarianza de orden 1 de j
2
|
es:

l
_
j
2
|
_
=
2c
2
0
c
l
(1 c
l
)
2
(1 8c
2
l
)
que es no nula.
107
Bajo estos supuestos, la curtosis del proceso 1CH(1) es nita, e igual a:
Cnrto:i:(j
|
) =
1
_
j
d
|
_
1 (j
2
|
)
2
= 8
1 c
2
l
1 8c
2
l
siendo igual a innito en caso contrario. Si c
l
0, entonces la curtosis
es mayor que 3 y, por tanto, mayor que la de la distribucin (0, 1), por lo
que el proceso 1CH tiene colas ms gruesas que dicha distribucin. Esta es
una propiedad conocida de las series nancieras. Por otra parte, que el modelo
ARCH no imponga necesariamente una varianza nita es deseable en el sentido
de que esta debe ser una propiedad del verdadero proceso generador de datos
que aparezca en los resultados de la estimacin.
La ausencia de autocorrelacin del proceso 1CH le hace deseable para
la modelizacin de series temporales nancieras. La hiptesis de mercados
ecientes se describe en ocasiones como la incapacidad de predecir rentabil-
idades futuras a partir de rentabilidades pasadas. Si una rentabilidad r
|
es
un proceso 1CH puro (es decir, sin variables explicativas), entonces se tiene
1 (r
|
[ 1
|l
) = 1 (r
|
) = 0. Por tanto, la existencia de efectos 1CH no con-
tradice esta versin de la hiptesis de mercados ecientes.
La presencia de efectos 1CH no afecta, tericamente, a la prediccin de
valores futuros del proceso, aunque se gana eciencia y se obtienen estimaciones
puntuales distintas, una vez que se modelizan estos efectos. En cualquier caso,
el potencial de un modelo 1CH estriba en que proporciona una medida de
riesgo cambiante en el tiempo, que puede ser un input importante en otro tipo
de anlisis, como por ejemplo, si se quiere cuanticar la remuneracin que en
un determinado mercado se ofrece al riesgo que se asume en el mismo.
Sin embargo, este modelo es susceptible de provocar algunos problemas de
signo. En particular, los valores numricos de la serie temporal de volatilidad
/
2
|
que resultan del proceso de estimacin, deben ser todos positivos.
Como el proceso 1CH carece de autocorrelacin y tiene media cero, es
dbilmente estacionario si existe su varianza. Una propiedad notable de este
proceso es que puede no ser dbilmente estacionario (porque su varianza no
exista) y, sin embargo, ser estrictamente (o fuertemente) estacionario pues para
este ltimo concepto no es precisa la existencia de momentos.
6.8 Modelo AR(1)-ARCH(1)
Comencemos recordando el modelo 1(1) sin perturbaciones 1CH,
j
|
= cj
|l
-
|
, [ c [< 1
siendo -
|
un proceso ruido blanco, con 1 (-
|
) = 0, \ ar (-
|
) = o
2
:
. En este
modelo se tienen momentos condicionales,
1
|l
j
|
= cj
|l
,
\ ar
|l
j
|
= \ ar
|l
-
|
= o
2
:
108
mientras que los momentos incondicionales son,
1j
|
= 0,
\ ar (j
|
) =
o
2
:
1 c
2
Como puede verse, la expresin de la esperanza condicional recoge el hecho
de que es posible prever este proceso si se dispone de sus valores pasados. Como
consecuencia, la varianza condicional es inferior a la varianza incondicional.
Ms generalmente, el modelo 1(1) con perturbacin 1CH(1) es,
j
|
= cj
|l
-
|
, [ c [< 1
1
|l
-
|
= 0, \ ar
|l
-
|
= /
2
|
= c
0
c
l
-
2
|l
El supuesto [ c [< 1 garantiza que el proceso es estacionario en media. Su
varianza ser positiva en todos los perodos si restringimos los valores de los
parmetros mediante c
0
_ 0, c
l
_ 0.
La esperanza y varianza condicionales de j
|
son,
1
|l
j
|
= cj
|l
,
\ ar
|l
j
|
= \ ar
|l
-
|
= c
0
c
l
-
2
|l
= c
0
c
l
(j
|
cj
|l
)
2
La varianza incondicional es nita si c
l
< 1, y los momentos incondicionales,
son entonces,
1 j
|
= 0,
\ ar j
|
=
c
0
1 c
2
l
La varianza condicional puede escribirse,
/
2
|
o
2
= c
l
_
-
2
|l
o
2
_
de modo que la varianza condicional excede de la varianza incondicional
siempre que la inovacin (o sorpresa) al cuadra, es mayor que su esperanza
incondicional, o
2
.
Aunque las innovaciones estn incorrelacionadas a travs del tiempo, no son
independientes, puesto que estn relacionadas a travs de sus momentos de or-
den 2. Aunque j
|
sigue una distribucin condicional Normal, su distribucin
conjunta con valores en otros instantes de tiempo, no lo es. Tampoco su distribu-
cin de probabilidad incondicional o marginal es Normal, si bien ser simtrica,
si la distribucin de probabilidad condicional de -
|
lo es. Si -
|
tiene ua distribu-
cin condicional Normal, entonces su cuarto momento incondicional exceder
109
de 3o
d
, por lo que la distribucin marginal de -
|
tendr colas ms gruesas que
la Normal. Su momento de orden cuatro ser nito siempre que 8c
2
l
< 1.
En muchas aplicaciones empricas, el orden del modelo ARCH que es preciso
utilizar para recoger la dependencia temporal en la varianza es elevado, por lo
que es til considerar una representacin ms simple de este tipo de estructuras:
6.9 Modelos ARMA-ARCH
El anlisis anterior puede generalizarse a cualquier modelo univariante de se-
ries temporales de la familia ARIMA, en el que puede tener perfecto sentido
epecicar que la varianza del trmino de error es vcambiante en el tiempo. Por
ejemplo, el modelo 1(j) 1CH(:) es,
j
|
= c
l
j
|l
c
2
j
|2
... c

j
|
-
|
, [ c [< 1
1
|l
-
|
= 0, \ ar
|l
-
|
= /
2
|
= c
0
c
l
-
2
|l
c
2
-
2
|2
... c
n
-
2
|n
6.10 El modelo ARCH(q) de regresin
Consideremos un modelo dinmico de regresin lineal,
j
|
= r
0
|
, -
|
, t = 1, 2, ..., T
siendo r
|
un vector /r1 de variables explicativas que pueden incluir retardos
de la variable dependiente. El modelo 1CH de regresin especica, condi-
cional en las observaciones pasadas de la variable dependiente y de las variables
explicativas, el trmino de error del modelo anterior se distribuye,
-
|
[ \
|l
~ (0, /
2
|
)
siendo,
/
2
|
= c
0
c
l
-
2
|l
... c
j
-
2
|j
con c
I
_ 0,

j
I=l
c
I
_ 1, para asegurar que la varianza resultante sea posi-
tiva en todos los perodos. Como -
|l
= j
|l
r
0
|l
,, se tiene que /
2
|
es una
funcin de la informacin contenida en \
|l
. Una vez ms, al ser la varianza
condicional del perodo t una funcin creciente de la magnitud de las ltimas
innovaciones, se produce el clustering o agrupamiento temporal de volatilidades.
El orden de la representacin ARCH es un indicador de la persistencia de los
shocks en varianza.
En muchas aplicaciones empricas, el orden del modelo ARCH que es preciso
utilizar para recoger la dependencia temporal en la varianza es elevado, por lo
que es til considerar una representacin ms simple de este tipo de estructuras:
110
6.11 Modelos ARMA-ARCH
6.12 Modelos GARCH
6.12.1 Modelos GARCH(p,q)
En muchos casos, la especicacin 1CH que recoge la estructura de autocor-
relacin en varianza precisa de un elevado nmero de retardos. Para evitar que
el alto nmero de coefcientes en trminos autoregresivos, generalmente bastante
relacionados, produzca una importante prdida de precisin en su estimacin,
se ha propuesto una parametrizacin alternativa, restringida, dependiente de un
nmero reducido de parmetros. El modelo G1CH(j, ) de Bollerslev (1986)
es,
j
|
= -
|
/
|
/
2
|
= c
0

j

I=l
c
I
j
2
|I

I=l
,

/
2
|
, c
0
0, c
I
, ,

_ 0,
j

I=l
c
I

I=l
,

< 1
Las condiciones anteriores garantizan (si bien no son necesarias) que la vari-
anza condicional estimada sea positiva en todos los perodos. En realidad, Nel-
son y Cao (1992), mostraron condiciones ms dbiles que garantizan varianza
positiva en todos los perodos. por ejemplo, en un G1CH(1, 2), es suciente
que: c
0
0, c
l
_ 0, ,
l
_ 0, ,
l
c
l
c
2
_ 0. Este modelo puede transformarse
en un modelo 1CH de orden innito [Bera y Higgins, Volatility], restringido
en sus parmetros.
En la especicacin anterior hemos supuesto, nuevamente por simplicidad,
que j
|
carece de autocorrelacin, as como que no disponemos de variables
epclicativas para le esperanza condicional de dicho proceso. Los mismos co-
mentarios que hicimos acerca del modelo 1CH() aplican a este caso.
La esperanza matemtica del proceso G1CH(j, ) es cero, y su varianza,
\ ar j
|
=
c
0
1

j
I=l
c
I

I=l
,

=
c
0
1 c(1) ,(1)
y la distribucin es nuevamente leptocrtica e incondicionalmente homo-
cedstica.
Con la misma denicin de la inovacin que antes hicimos, tenemos, /
2
|
=
j
2
|

|
, y el proceso G1CH(j, ) puede escribirse,
j
2
|
= c
0
(c(1) , (1)) j
2
|l
, (1)
|l

|
o, lo que es lo mismo,
(1 c(1) , (1)) j
2
|
= c
0
(1 , (1))
|
y es necesario que todas las races del polinomio 1c(1) , (1) estn fuera
del crculo unidad para que el proceso sea estacionario. En tal caso, su varianza
incondicional ser nita, y estar dada por la expresin anterior.
111
El modelo G1CH(j, ) puede escribirse,
j
2
|
= c
0

:

I=l
_
c
I
,

_
j
2
|I

I=l
,

_
j
2
|
/
2
|
_

_
j
2
|
/
2
|
_
,
c
0
0, c
I
, ,

_ 0,
j

I=l
c
I

I=l
,

< 1
siendo r = max(j, ). Nuevamente, 1
_
j
2
|
/
2
|
_
= 0, por lo que puede con-
siderarse como la innovacin en la ecuacin anterior. En consecuencia, un mod-
elo G1CH(j, ) para la rentabilidad j
|
puede interpretarse como un modelo
1' para j
2
|
. Aunque su estimacin como tal proceso 1' sera ine-
ciente, sin embargo las expresiones habituales para la prediccin en modelos
1' son utilizables.
Examinemos el clculo del a varianza incondicional en el caso del proceso
G1CH(1, 1),
\ ar(-
|
) = 1
_
-
2
|
_
= 1
_
1
_
-
2
|
[ \
|l
_
= 1(/
2
|
) =
= c
0
c
l
1
_
-
2
|l
_
,
l
1
_
/
2
|l
_
= c
0
(c
l
,
l
) 1
_
-
2
|l
_
que es una ecuacin en diferencias en 1
_
-
2
|
_
que si converge, tiene como
lmite,
\ ar j
|
=
c
0
1 c
l
,
l
lo cual ocurre siempre y cuando c
l
,
l
< 1. En el caso general, la condicin
necesaria y suciente de existencia de la varianza incondicional es c(1), (1) =

j
I=l
c
I

I=l
,

< 1. Bollerslev(1986) proporciona condiciones analticas


sobre los parmetros del modelo para garantizar la existencia de momentos en
un proceso G1CH(j, ).
Si j
|
sigue un proceso G1CH(j, ), su cuadrado, j
2
|
tiene una funcin
de autocorrelacin simple anloga a la de un proceso 1'(j

, ), con j

=
maxj, , parmetros autoregresivos c
I
= c
I
,
I
, y parmetros de media
mvil, 0

= ,

, para , = 1, 2, ..., . Precisamente esta similitud con los modelos


1' hace que se utilicen tcnicas de identicacin para los modelos 1CH y
G1CH basadas en las funciones de autocorrelacin simple y parcial, del mismo
modo que se hace en el anlisis del tipo Box-Jenkins, pero esta vez utilizando
los cuadrados de los residuos. Sin embargo, la dependencia estadstica de los
procesos de varianza condicional hace que la estimacin de dichas funciones sea
poco eciente.
El modelo ms habitual dentro de esta clase es el G1CH(1, 1):
112
6.12.2 El modelo GARCH(1,1)
Este es un modelo de suavizado exponencial de la varianza, anlogo a los que
consideramos para la volatilidad condicional,
j
|
= -
|
/
|
/
2
|
= . cj
2
|l
,/
2
|l
con c 0, . 0, , _ 0, c , < 1.
En este modelo, la varianza condicional es,
\ ar
|l
j
|
= /
2
|
mientras que la varianza incondicional es:
\ ar j
|
=
.
1 c ,
Los retardos medio y mediano en /
2
|
son,
Io tardo :cdio =

1
I=l
ic
I

1
I=l
c
I
=
1
1 ,
Io tardo:cdia:o =
ln2
ln,
El modelo G1CH(1, 1) puede escribirse:
j
2
|
= . (c ,) j
2
|l
,
_
j
2
|l
/
2
|l
_

_
j
2
|
/
2
|
_
donde los dos ltimos trminos tienen esperanza condicional igual a cero,
por lo que este modelo es, en muchos aspectos, similar al modelo 1'(1, 1).
De hecho, el modo de identicar una estructura G1CH(1, 1) es porque las
funciones de autocorrelacin simple y parcial de los cuadrados de j
|
tengan el
aspecto de las funciones correspondientes a un proceso 1'(1, 1). La funcin
de autocorrelacin simple del proceso G1CH(1, 1) es:
j (1) = c
1 c, ,
2
1 2c, ,
2
j (/) = (c ,)
|l
j (1) , / 1
Como ocurra con el modelo 1CH(), aunque la distribucin condicional
de este proceso es Normal cuando lo es la innovacin -
|
, su distribucin incondi-
cional no es conocida. Sabemos, sin embargo, que su esperanza es cero y su
varianza viene dada por la expresin anterior. Es fcil probar que sus momen-
tos impares son nulos y, por tanto, la distribucin es simtrica. Adems, es
leptocrtica.
113
Si -
|
es Normal y ,
2
2c, 8c
2
< 1, entonces su coeciente de curtosis es:
Cnrto:i:(j
|
) = 8
6c
2
1 ,
2
2c, 8c
2
si el denominador es positivo.
6.12.3 Modelo IGARCH
En algunas aplicaciones se tiene un valor de c(1) ,(1) muy cercano a la
unidad, lo que conduce al modelo G1CH(j, ) Integrado, denotado como
IGARCH(p,q) [Engle y Bollerslev (1986)]. En l, el polinomio autorregresivo
en la ecuacinde la varianza tiene una raz exactamente igual a 1. En el caso
particular j = 1, = 1, el modelo IGARCH puede escribirse:
j
|
= -
|
/
|
/
2
|
= . /
2
|l
c
_
j
2
|l
/
2
|l
_
, t = 1, 2, ...
lo que hace que un shock en la varianza condicional sea persistente, no
desapareciendo nunca su efecto, a diferencia de lo que ocurre en el modelo
G1CH(1, 1). Adems, la varianza no muestra reversin a la media, por lo que
transcurren perodos largos antes de que la varianza vuelva a tomar su valor
promedio. Esto es totalmente paralelo a la diferencia que existe entre modelos
1' y 11' en lo relativo a las respuestas a una innovacin transitoria.
El proceso puede escribirse tambin,
j
2
|
= . /
2
|l
c
_
j
2
|l
/
2
|l
_

_
j
2
|
/
2
|
_
, t = 1, 2, ...
Este proceso no es dbilmente estacionario, puesto que su varianza incondi-
cional no es nita. Sin embargo, si .0, el proceso es estrictamente estacionario
y ergdico [Nelson (1990)].
6.12.4 Prediccin de la varianza futura
En esta seccin desarrollamos epxresiones analticas para el clculo de la predic-
cin /-perodos hacia delante, de la varianza
6.12.5 Modelo ARCH(p)
Teniendo en cuenta la expresin de su varianza incondicional, el modelo 1CH()
puede representarse,
/
2
|
o
2

=
j

I=l
c
I
_
j
2
|I
o
2

_
,
por lo que,
114
1
|
/
2
|l
= o
2


jl

I=0
c
I
_
j
2
|I
o
2

_
,
1
|
/
2
|2
= o
2

c
l
_
j
2
|l
o
2

jl

I=2
c
I
_
j
2
|I
o
2

_
En general,
1
|
/
2
|l
= o
2


jl

I=0
c
I
_
1
|
/
2
|I
o
2

_
,
donde 1
|
/
2
s
=

/
2
s
para : _ t, donde

/
2
s
denota el valor ajustado para la
varianza condicional en el perodo : en la estimacin del modelo ARCH.
6.12.6 Modelo AR(1)-ARCH(1)
Escribiendo la ecuacin que representa la evolucin temporal de j
|
en este mod-
elo en un instante de tiempo futuro, tenemos,
j
||
= c
|
j
|

|

I=l
c
|I
-
|l
de modo que la prediccin ptima de la varianza condicional de j
||
en el
instante t es,
\ ar
|
j
||
= c
0
c
l
1
|
_
/
2
|Il
o
2
_
= c
2
|l

I=0
o
2I
c
|l
l
_
/
2
|l
o
2
_
|l

I=0
c
2I
c
I
l
que es claramente dependiente del conjunto de informacin disponible en el
instante t. Sin embargo, al aumentar el horizonte de prediccin, la dependencia
respecto de /
2
|l
o
2
va reducindose, y la expresin de prediccin de la varianza
puede aproximarse por,
\ ar
|
j
||
= c
2
|l

I=0
o
2I
que es la expresin que utilizaramos para prever la varianza incondicional
en ausencia de estructura 1CH en la innovacin del proceso.
6.12.7 Modelo GARCH(1,1)
Mediante sucesivas iteraciones, es fcil probar [Engle y Bollerslev (1986)] que la
prediccin de la varianza que se deduce de un modelo G1CH(1, 1), a partir
de la prediccin un perodo hacia adelante, es:
115
1
|
/
2
||
=
.
1 c ,
(c ,)
|l
_
1
|
/
2
|l

.
1 c ,
_
que converge, segn se aleja el horizonte de prediccin, a la varianza incondi-
cional,
.
loo
.
Las predicciones de volatilidad que se obtienen de un modelo como ste
pueden utilizarse para valorar una opcin utilizando la frmula de Black-Scholes.
Para ello, una vez obtenidas las predicciones de la volatilidad diaria desde el
instante actual hasta el vencimiento de la opcin, obtendramos la volatilidad
media que, anualizada, utilizaramos en la expresin de Black-Scholes:
1
T t
T|

|=l
1
|
/
2
||
=
.
1 c ,

1
T t
T|

|=l
(c ,)
|l
_
1
|
/
2
|l

.
1 c ,
_
=
=
.
1 c ,

_
1
|
/
2
|l

.
1 c ,
_
1
T t
(c ,)
1 (c ,)
T|
1 c ,
En el modelo 1G1CH(1, 1), la prediccin de la varianza es:
1
|
/
2
||
= . (/ 1) /
2
|
1
|
/
2
||
= ./ cj
2
|
(1 c) /
2
|
que no converge a la varianza condicional, pues crece linealmente con el hor-
izonte de prediccin. De hecho, puede observarse en esta expresin que una
perturbacin en la varianza del instante T, incluso si resulta ser de carcter
transitorio, se extrapola a las predicciones de la volatilidad a todos los hor-
izontes.Sin embargo, Kleigbergen y Van Dijk (1993) han sugerido que, tanto
en el modelo GARCH como en el IGARCH, las predicciones de la varianza se
obtengan mediante simulacin del modelo.
6.12.8 Modelo EGARCH(p,q)
Los modelos anteriores recogen adecuadamente las propiedades de distribuciones
de colas gruesas, y de agrupamiento de volatilidades, pero son simtricos: en
ellos, la varianza condicional depende de la magnitud de las innovaciones re-
tardadas, pero no de su signo. Para recoger los efectos apalancamiento ob-
servados en series nancieras fue propuesto el modelo exponencial GARCH, o
1G1CH(j, ):
j
|
= -
|
/
|
ln/
2
|
= .
j

I=l
,
I
ln/
2
|I

=l
0

q (-
|
)
116
donde los -
|
tienen todos distribucin N(0,1), y carecen de correlacin se-
rial, y q (-) = c- c([ - [ 1 ([ - [)) , de modo que ln(/
2
|
) sigue un proceso
1'(, j), que debe satisfacer las condiciones de estacionariedad habituales
en estos modelos. Generalmente, se utiliza en esta formulacin el error es-
tandarizado, es decir, dividido por su desviacin tpica condicional. En tal caso,
1 ([ - [) =
_
2
t
.
12
La sucesin q (-
|
) es independiente, con esperanza cero y
varianza constante, si es nita.
La persistencia en volatilidad viene indicada por el parmetro ,, mientras
que c mide la magnitud del efecto apalancamiento. En este modelo se espera que
c < 0, lo que implicara que innovaciones negativas tuviesen un mayor impacto
sobre la volatilidad que innovaciones positivas de igual tamao. El trmino en
c-
|
permite la existencia de correlacin entre el trmino de error y las varainzas
condicionales futuras. Si, por ejemplo, c = 0 y c < 0, entonces un -
|
negativo
hara que el error fuese negativo, y que la innovacin en el proceso de varaizna
fuese positiva. Por ltimo, la innovacin en la varianza condicional es lineal a
trozos en -
|
con pendientes 0
I
(c c) cuando -
|
es positivo, y 0
I
(c c) cuando
-
|
es negativo, lo que genera la asimetra en la varianza condicional.
Como caso particular, cuando es Normal, la ecuacin de la varianza en el
modelo 1G1CH(1, 1) es:
j
|
= -
|
/
|
ln/
2
|
= . , ln/
2
|l
c-
|l
0
_
[ -
|l
[
_
2,
_
puesto que, en tal caso, 1 (-
|
) =
_
2,, que es un proceso estacionario si
[ , [< 1, y como varianza condicional,
\ ar
|l
j
|
= c
.
1{
como puede verse tomando esperanzas en la ecuacin que dene el proceso.
Por otra parte, la esperanza y varianza incondicionales o marginales pueden
aproximarse a partir de:
1
_
lnj
2
|
_
= 1, 27
.
1 ,
\ ar
_
lnj
2
|
_
=

2
2


2
c
2
_
1
2
t
_
1 ,
2
12
1 j .I j=
_
1
1
j .I j
1
p
2
c
s
2
t
2
o.I = 2
_
1
0
1
p
2
c
u
o& =
= 2
1
p
2
_
c
u
t
j
1
0
_
=
_
2

where we have made the change of variable .


2
I
2 = &I
117
Las expresiones para la prediccin de la varianza s perodos hacia adelante
son bastante complejas [ver Ruiz (1994) o Nelson (1991)] para el caso del modelo
1G1CH(1, 0)].
6.12.9 Otras especicaciones univariantes en la familia ARCH
En todas las especicaciones que siguen, mantenemos la hiptesis simplicadora
de que carecemos de variables epxlicativas para j
|
. En caso contrario, /
2
|
repre-
sentara la varianza condicional de -
|
, on de j
|
.
El modelo G1CH(1, 1) no recoge a plena satisfaccin las caracterstica
de asimetra y curtosis que se observan en series nancieras. Para resolver
el problema de la curtosis, suele utilizarse una distribucin t en lugar de una
distribucin Normal para las innovaciones. Por otra parte, existe una versin
asimtrica del modelo G1CH (Engle 1990, Review of Financial Studies), el
modelo G1CH, que trata de recoger de modo ms apropiado la asimetra
de las series nancieras. El modelo G1CH(1, 1) es:
j
|
= -
|
/
|
/
2
|
= . c(j
|l
)
2
,/
2
|l
con . 0, c 0, , 0.
En este modelo, c < 0 signica que los shocks negativos sobre los rendimien-
tos incrementan ms la volatilidad condicional que los shocks positivos, lo que
constituye el efecto apalancamiento, que es habitual en los mercados nancieros
(Black (1976), Christie (1982)), para lo que tambin fue propuesto el modelo
que consideramos a continuacin.
Taylor (1986) y Schwert (1989a,b) han propuesto que sea la desviacin tpica
quien dependa del valor absoluto de los residuos:
j
|
= -
|
/
|
/
2
|
= c
0

j

I=l
c
I
[ -
|I
[

I=l
,

/
2
|
, c
0
0, c
I
, ,

_ 0,
j

I=l
c
I

I=l
,

< 1
Alternativamente, Higgins y Bera (1992) han propuesto una clase de modelos
ms general, denominada 1CH (Non-linear 1CH):
j
|
= -
|
/
|
/
~
|
= c
0

j

I=l
c
I
[ -
|I
[
~

I=l
,

/
~
|
, c
0
0, c
I
, ,

_ 0,
j

I=l
c
I

I=l
,

< 1
que, para =1, genera el modelo anterior.
Si este modelo se modica para pasar a:
118
j
|
= -
|
/
|
/
~
|
= c
0

j

I=l
c
I
[ -
|I
/ [
~

I=l
,

/
~
|
, c
0
0, c
I
, ,

_ 0,
j

I=l
c
I

I=l
,

< 1
para alguna constante no nula /, las innovaciones en t dependern del
tamao, pero tambin del signo, de las innovaciones pasadas.
La formulacin del modelo NARCH con =2 es un caso especial del modelo
ARCH Cuadrtico(QARCH) con = 1, j = 1, introducido por Sentana (1991),
en el que la varianza condicional se modeliza a travs de una forma cuadrtica
de las innovaciones retardadas:
j
|
= -
|
/
|
/
2
|
= . cj
2
|l
,j
|l
,
que, con el objeto de garantizar la no-negatividad de la varianza condicional,
puede escribirse en funcin de parmetros /, c, d, tales que:
c
l
= d 0; . = /
2
d c 0; , = 2/d ? 0
por lo que eligiendo c 0, d 0 se garantiza c
l
0, . 0, mientras que ,
tendr el mismo signo que /.
La varianza incondicional derivada de este modelo se obtiene tomando es-
peranzas en la ecuacin de /
2
|
, teniendo:
1/
2
|
= . c1j
2
|l
,1j
|l
que implica,
\ ar(j
|
) = . c\ ar (j
|l
)
ya que 1j
|l
= 0. Suponiendo estacionariedad, llegamos a,
\ ar j
|
=
.
1 c
El modelo Q1CH(1, 1) puede generalizarse al modelo GQ1CH(1, 1),
que recoge bastante apropiadamente las caractersticas de volatilidad de los
rendimientos nancieros:
j
|
= -
|
/
|
/
2
|
= . cj
2
|l
0j
|l
,/
2
|l
,
que comprende como caso particular al modelo G1CH(1, 1) cuando 0 = 0.
La varianza incondicional que se deriva de este modelo es igual a la del modelo
G1CH(1, 1),
119
\ ar j
|
=
.
1 c ,
Ambos modelos generan una asimetra igual a cero. Genera una mayor
curtosis el modelo generalizado GQ1CH(1, 1).
Una versin sencilla de dicho modelo es el 1CH a:i: ctrico (1CH)
[Engle (1990)], siendo el modelo 1CH(1,1):
/
2
|
= . cj
2
|l
0j
|l
,/
2
|l
,
donde un valor negativo de signica que rendimientos positivos incrementan
la volatilidad menos que rendimientos negativos (apalancamiento).
Otra especicacin es el modelo Non-linear asymmetric GARCH, o NA-
GARCH. El modelo G1CH(1, 1) es
/
2
|
= . c
_
-
|l

_
/
|l
_
0-
|l
,/
2
|l
,
Un ltimo modo de introducir efectos asimtricos es a travs de la especi-
cacin:
/
~
|
= .
j

I=l
_
c

I
1 (-
|I
0) [ -
|I
[
~
c

I
1 (-
|I
_ 0) [ -
|I
[
~

=l
,

/
~
|
donde 1 denota una funcin indicatriz que toma el valor 1 cuando se da
la condicin que aparece dentro del parntesis, y toma el valor cero en caso
contrario.
El modelo T/rc:/o|d 1CH (T1CH) [Zakoian (1990)] corresponde al
caso =1,
/
|
= .
j

I=l
_
c

I
1 (-
|I
0) [ -
|I
[ c

I
1 (-
|I
_ 0) [ -
|I
[

=l
,

/
|
Glosten, Jagannathan y Runkle (1993) proponen trabajar con =2. Su
modelo, conocido por sus iniciales, GJ1, permite una respuesta cuadrtica de
la volatilidad a las sorpresas recibidas en el mercado, con distintos coecientes
para las malas noticias y para las buenas noticias, a la vez que mantiene la
hiptesis de que la menor volatilidad se alcanzar cuando no haya sorpresas,
/
2
|
= .
j

I=l
_
c

I
1 (-
|I
0) -
2
|I
c

I
1 (-
|I
_ 0) -
2
|I

=l
,

/
2
|
En realidad, no es preciso incluir las dos variables indicadores, pudiendo
utilizarse,
120
/
2
|
= .
j

I=l
_
c
I
-
2
|I
c

I
1 (-
|I
_ 0) -
2
|I

=l
,

/
2
|
Los parmetros c no son los mismos en ambos modelos, si bien existe una
relacin entre ambos. En el primer caso, c

I
mide el efecto de una innovacin
pasada negativa, mientras c

I
mide el efecto de una innovacin pasada positiva;
en el segundo caso, el efecto de una innovacin pasada negativa es c
I
c

I
mientras que el de una innovacin positiva es c
I
. Un valor positivo de c

I
en esta
representacin indicara que una innovacin negativa genera mayor volatilidad
que una innovacin positiva de igual tamao, y la interpretacin contraria se
tendra para un valor negativo de c

I
.
En el caso = j = 1, se tendra, con esta segunda formulacin,
/
2
|
= . (c 1
|l
) -
2
|l
,/
2
|l
donde el signo del parmetro es libre mientras que . 0, c, , _ 0, [ver
Engle y Ng (19xx)], y la variable cticia 1
|
se dene igual a 1 si -
|
< 0, e igual
a cero en caso contrario. La varianza incondicional de este proceso es,
\ ar j
|
=
.
1 c , ,2
Este modelo incluye como caso particular al modelo G1CH(1, 1) cuando
=0. Cuando ,= 0, el modelo explica posibles asimetras en la varianza de j
|
:
valores positivos de los parmetros c

I
implican mayores respuestas de la volatili-
dad ante innovaciones negativas (malas noticias) que ante innovaciones positivas
(buenas noticias), mientras que lo contrario ocurre para valores negativos de los
parmetros c

I
. Sin embargo, en mercados de renta ja, la interpretacin de
buenas y malas noticias es la opuestas, por lo que cabra esperar coecientes c

I
positivos.
Una representacin bastante genrica, propuesta por Henstchel (1995), es,
/
X
|
1
`
= .
j

I=l
c
I
/
|l
[) (-
|I
)[
i

I=l
,
I
/
X
|l
1
`
) (-
|I
) = [ -
|
/ [ c (-
|
/)
en la que se sustituye
|

t
l
X
por ln/
|
cuando ` = 0. De esta formulacin
pueden obtenerse muchas especicaciones como casos particulares. As,
` = i = 2 y / = c = 0 =G1CH
` = i = 2 y / = 0 =GJ1 G1CH
` = i = 1 y / = 0, [ c [_ 1 =T1CH
` = i = 1, [ c [_ 1 =G1CH
121
` = 0, i = 1 y / = 0 =1G1CH
` = i ,= 0 y / = c = 0 =1CH
` = i = 2 y c = 0 =G1CH
` = i ,= 0 y c = 0 =o: |i:car G1CH [1:q|c q(1008)[
` = i ,= 0 y / = 0, [ c [_ 1 =11CH(:j::ctric 1oncr rc/)[1i:q ct a|(1008)[
Otros dos modelos propuestos recientemente son el otrnctnra| 1CH (oT1CH),
de Harvey, Ruiz y Sentana (1992), y el onitc/i:q 1CH (o\1CH) [Cai,
Journal of Business and Economic Statistics (1994)], que postula que la variable
en estudio se ajusta a una variedad de modelos ARCH, entre los cuales se mueve
de acuerdo con la estructura de una cadena de Markov, lo cual puede ser til
para recoger episodios como el hundimiento de los mercados de valores obser-
vados en octubre de 1987 y agosto de 1998 [Campbell y Harrtschell, Journal of
Financial Economics (1992)].
6.13 Modelos ARCH en media (ARCH-M)
Por ltimo, en todos estos modelos pueden introducirse medias no nulas, lo que
conduce a los modelos ARCH de regresin. Para ello, la primera ecuacin se
substituye por,
j
|
= j
|
n
|
= r
0
|
, n
|
n
|
= -
|
/
|
En particular, resulta de gran inters contrastar si, cuando j
|
es la rentabil-
idad de un activo o mercado, una de las potenciales variables explicativas r
|
es precisamente la varianza condicional o la desviacin tpica condicional esti-
madas, /
|
, con coeciente positivo, lo que sugerira que la rentabilidad del activo
aumenta con el nivel de riesgo que impone al inversor.
En tal caso, tenemos los modelos denominados en media: ARCH-M y
GARCH-M o sus variantes [Engle, Lilien, Roobins (1987)], en los que una vari-
able explicativa es /
2
|
, o /
|
. La presencia de esta variable introducir auto-
correlacin en el proceso de rentabilidades, j
|
, a diferencia de los procesos sin
estructura en media que hemos analizado en las secciones precedentes.
En general, estos modelos son del tipo,
j
|
(0) =
0
cq
_
/
2
|
(0) , 0
_
o,
j
|
(0) = r
0
|
, cq
_
/
2
|
(0) , 0
_
122
donde suponemos que q es una funcin montona de la varianza condicional,
con q (c, 0) = 0, es decir, que la funcin es no nula unicamente si la varianza
condicional es cambiante en el tiempo.
La interpretacin del trmino cq
_
/
2
|
(0) , 0
_
es de una prima de riesgo, por la
que un incremento en la varianza de la rentabilidad conduce a un aumento en la
rentabilidad esperada. La posible existencia de tales primas en los mercados de
divisas, as como en la formacin de la estructura temporal de tipos de inters
ha sido y es motivo de un amplio nmeor de estudios.
Para analizar las propiedades de este tipo de modelos, consideremos una
versin sencilla,
j
|
= c/
2
|
-
|
, co: -
|
[ \
|l
~ (0, /
2
|
)
/
2
|
= c
0
c
l
-
2
|l
que permite escribir,
j
|
= cc
0
cc
l
-
2
|l
-
|
donde -
|
es un proceso 1CH(1). A partir de esta expresin, utilizando
1
_
-
2
|l
_
= c
0
, (1 c
l
) , se tiene,
1 (j
|
) = c
c
0
1 c
l
que puede interpretarse como la esperanza incondicional de la rentabilidad
de mantener un activo con riesgo.
De modo anlogo, tenemos,
\ ar (j
|
) =
c
0
1 c
l

(cc
l
)
2
2c
2
0
(1 c
l
)
2
(1 8c
2
l
)
(40)
Si no hay prima por riesgo, tendramos: \ ar (j
|
) = c
0
, (1 c
l
) . Por tanto,
el segundo componente en (40) indica la presencia de una prima de riesgo, que
hace que la dispersin de j
|
aumente. Finalmente, el efecto ARCH-en media
introduce autocorrelacin en j
|
, puesto que, n el caso del modelo,
j
|
= c/
|
-
|
, co: -
|
[ \
|l
~ (0, /
2
|
)
/
2
|
= c
0
c
l
-
2
|l
se tienen los coecientes de autocorrelacin,
j
l
= Corr(j
|
, j
|l
) =
2c
3
l
c
2
c
0
2c
2
l
c
2
c
0
(1 c
l
) (1 8c
2
l
)
j
|
= Corr(j
|
, j
||
) = c
|l
l
j
l
, / = 2, 8, ....
123
Examinando las expresiones de j
l
y j
2
se aprecia que la regin admisible
para (j
l
, j
2
) es muy restrictiva.
En aplicaciones prcticas, las funciones ms utilizadas son: q
_
/
2
|
_
= /
2
|
, q
_
/
2
|
_
=
_
/
2
|
, q
_
/
2
|
_
= ln
_
/
2
|
_
.
Bollerslev, Engle y Woolridge (1988) consideraron la versin multivariante
de este modelo en el contexto del modelo de valoracin de activos, CAPM.
6.14 Contrastes de estructura ARCH
Dada una relacin del tipo: j
|
= r
|
, -
|
,el contraste de los Multiplicadores de
Lagrange (ML) propuesto por Engle (1982) considera la hiptesis nula:
-
|
[ \
|l
~ (0, o
2
)
donde 1
|
denota la informacin disponible en el instante t, y siendo r
|
un
vector de variables debilmente exgenas, o retardos de la variable dependiente.
El inters de un contraste del tipo de los Multiplicadores de Lagrange ('1)
reside en que, como es conocido, requiere nicamente la estimacin del modelo
restringido y, en este caso, la estimacin del modelo bajo la hiptesis nula es muy
simple. La hiptesis alternativa es que los residuos tienen una estructura de tipo
1CH(). Engle (1984) prob que T veces el 1
2
de la regresin del cuadrado de
los residuos obtenidos bajo la hiptesis nula, -
2
|
, sobre una constante y retardos
de los propios residuos al cuadrado, -
2
|l
, -
2
|2
, ..., -
2
|j
sigue, bajo la hiptesis
nula, una distribucin chi-cuadrado, con un nmero de grados de libertad igual
al nmero de retardos incluidos en dicha regresin auxiliar, . La intuicin del
contraste es bastante evidente: si la varianza de la perturbacin es constante,
entonces no podr ser prevista a partir de los valores de los residuos pasados,
cuyas uctuaciones sern puramente aleatorias. Si, por el contrario, hay efectos
ARCH, residuos recientes de elevado valor absoluto tendern a sugerir un residuo
corriente de elevada magnitud. Existe capacidad predictiva en la magnitud de
los residuos pasados acerca de la magnitud de los residuos futuros. Dicho de
otro modo, el valor absoluto del residuo mostrar autocorrelacin temporal.
Sin embargo, la posible omisin de un regresor en el modelo de la media
condicional, as como no tener en cuenta alguna no-linealidad o cierta autocor-
relacin, conducira a un rechazo de la hiptesis nula, sugiriendo la presencia de
estructura 1CH, incluso si sta no existe, disminuyendo con ello el tamao
del contraste. Otra forma de llevar a cabo este contraste consiste en excluir la
constante de la regresin auxiliar, restar una estimacin de la varianza incondi-
cional de la variable dependiente o
2
, y utilizar la mitad de la Suma Residual
(suma de cuadrados de residuos) como estadstico de contraste. Otra posibili-
dad es un contraste del tipo portmanteau, como el de Ljung y Box (1978), para
-
2
|
.
Como los parmetros del modelo 1CH() deben ser positivos, el contraste
debera ser de una cola, aunque para un orden superior a 1, no es sencilla
su puesta en prctica [Demos y Sentana (1991)]. Otra dicultad es que el
contraste ML no tiene siempre mucha potencia cuando la alternativa es el modelo
124
G1CH(1, 1), debido a la imposibilidad de identicar c
l
y ,
l
por separado
cuando el modelo GARCH es prximo al modelo incluido en H
0
., De hecho,
el contrate ML para G1CH(1, 1) es idntico al correspondiente al modelo
1CH(1), y algo similar ocurre para cualquier modelo G1CH(j, ). Por
otra parte, no es vlido utilizar un test de Wald en el modelo G1CH(1, 1),
que se basara en el ratio t del coeciente c
l
pues, en presencia de estructura
ARCH, dicho estadstico no sigue una distribucin t de Student. El contraste
RV tiene la dicultad de que la distribucin del estadstico bajo la hiptesis
nula no es fcil de caracterizar, pero parece ser muy potente.
Por ltimo, un contraste til es el de insesgadez de las previsiones de volatil-
idad generadas por el modelo, para lo que se estima por mnimos cuadrados
una regresin de j
2
|
sobre las varainzas /
2
|
, en la que se esperara encontrar una
pendiente igual a 1 y una ordenda en el origen no signicativa. Desviaciones de
esta hiptesis conjunta pueden indicar preblemas de especicacin en el modelo
de la varianza condicional [Pagan y Schwert (1990)].
6.15 Contrastes de especicacin
Los contrastes de Normalidad de la innovacin -
|
pueden basarse en los residuos
normalizados, una vez estimada la serie temporal de las varianzas condicionales.
Tests habituales son: Jarque-Bera y Kolmogorov-Smirnov. Tambin puede pen-
sarse en un contraste mediante la
2
de Pearson.
La ausencia de sesgo en las estimaciones puede contrastarse mediante una
regresin del cuadrado de la variable sobre una constante y las estimaciones de
la varianza [Pagan y Schwert (1990)],
j
2
|
= /
0
/
l
1
|l
j
2
|
Bajo una correcta especicacin, los residuos de esta regresin no deberan
presentar autocorrelacin. Como las predicciones de la volatilidad un perodo
hacia adelante deberan ser insesgadas, puede contrastarse la hiptesis nula:
H
0
: /
0
= 0, /
l
= 1. Adems, el 1
2
de esta regresin puede utilizarse como una
medida de bondad de ajuste.
Para poner en prctica las posibles desviaciones de Normalidad que puedan
detectarse, se ha propuesto sustituir el supuesto de Normalidad en la estimacin
de Mxima Verosimilitud por las distribuciones t de Student, la distribucin
estndar generalizada (11G), que incluye a la anterior como caso particular, y
la distribucin t generalizada, que incluye a ambas.
En general, los contrastes a llevar a cabo consisten en:
a) contrastes de existencia de autocorrelacin en media en los errores del
modelo mediante tcnicas Box-Jenkins,
b) contrastes de existencia de efectos 1CH no modelizados mediante
tcnicas Box-Jenkins aplicadas a los cuadrados de los residuos del modelo
de la media,
125
c) contrastes tipo Wald y de razn de verosimilitudes sobre la especi-
cacin de la ecuacin de la media,
d) contrastes de efectos asimtricos en la ecuacin de la varianza, mediante
el uso de variables cticias de signo,
e) contrastes de variables omitidas en la ecuacin de la varianza,
f) contraste de posible existencia de efectos ARCH en media.
La familia de estadsticos Ljung-Box para el contraste de autocorrelacin
puede utilizarse tanto sobre los errores como sobre sus cuadrados (en este ltimo
caso como contraste de estructura ARCH). Su forma es,
Q(/) = T
|

I=l
T 2
T i
j
2
I
siento j
I
el coeciente de autocorrelacin de orden i. Bajo la hiptesis nula,
Q(/) se distribuye como una chi-cuadrado con / grados de libertad.
Un contraste usualmente potente es el de los Multiplicadores de Lagrange,
que utiliza una regresin de los residuos al cuadrado sobre una constante y sus /
primeros retardos. El producto del tamao muestral por el 1
2
de dicha regresin
se distribuye como una
2
con / grados de libertad. Sin embargo, este contraste
no permite discriminar entre estructuras 1CH y G1CH.
Estos contrastes se utilizan asimismo para evaluar un modelo ARCH ya
estimado. En ese caso, hay que utilizar, lgicamente, los residuos de la ecuacin
de la media, estandarizados por la desviacin tpica condicional estimada, /
|
.
Los contrastes tipo Wald para variables omitidas consisten en estimar el
modelo ms general, y contrastar la signicacin conjunta de los parmetros que
distinguen el modelo restringido del modelo general. El contraste de razn de
verosimilitudes estima ambos modelos: restringido y sin restringir, y compara
la signicatividad de la diferencia en los logaritmos de los mximos valores
alcanzados por la funcin de verosimilitud en ambos casos. Para ello, se utiliza
el resultado:
1\ = 2 (ln1
1
ln1
S1
)
se distribuye asintticamente, bajo la hiptesis nula, como una
2
con un
nmero de grados de libertad igual al nmero de restricciones que se contrastan.
Para el contraste de asimetras se utilizan los contrastes de signo propp-
puestos por Engle y Ng (1993): Deniendo unas variables cticias o

|l
que
toma el valor 1 si el residuo del perodo anterior -
|l
fue negativo, y el valor
cero en caso contrario, y o

|l
,que toma el valor 1 si el residuo del perodo an-
terior -
|l
fue positivo, y el valor cero en caso contrario, y deniendo el residuo
estandarizado .
|
(0) =
:t(0)
|t(0)
se estiman las regresiones,
126
Modelo I:
.
2
|
= ,
0
,
l
o

|l
H
0
: ,
l
= 0,
Modelo II:
.
2
|
= ,
0
,
l
o

|l
-
|l
H
0
: ,
l
= 0,
Modelo III:
.
2
|
= ,
0
,
l
o

|l
-
|l
H
0
: ,
l
= 0,
Modelo IV:
.
2
|
= ,
0
,
l
o

|l
,
2
o

|l
-
|l
,
3
o

|l
-
|l
H
0
: ,
l
= ,
2
= ,
3
= 0,
utilizando un estadstico tipo t en los tres primeros casos, y un estadstico
tipo 1 en el ltimo caso. Dada la posible existencia de autocorrelacin y het-
erocedasticidad residual en los residuos estandarizados, dede utilizarse en los
contrastes las varianzas de los parmetros estimadas del modo propuesto por
Newey-West, que resultan robustas a la presencia de estos dos efectos.
Las correlaciones entre los residuos estandarizados y sus cuadrados pueden
sugerir asimismo posibles asimetras, y se utilizan a tal n.
6.15.1 Estimacin
La estimacin se lleva a cabo, generalmente, por mxima verosimilitud, para lo
que suponemos una determinada densidad )(.
|
(0) , j) para el trmino de error
tipicado,
.
|
(0) =
-
|
(0)
/
|
(0)
=
j
|
j
|
(0)
[/
2
|
(0)[
l/2
que tiene esperanza cero y varianza uno. Dado un vector de observaciones
j
l
, j
2
, ..., j
T
, el logaritmo de la funcin de verosimilitud para la observacin t
es:
|
|
(j
|
; j) = ln
_
)(.
|
(0) , j)
1
2
ln
_
/
2
|
(0)
_
_
127
donde el ltimo trmino es el Jacobiano de la transformacin que pasa de
las innovaciones estandarizadas a las observaciones muestrales, que en el caso
multivariante se convertir en:
|
|
(j
|
; j) = ln
_
)
_
-
|
(0) [I
|
(0)[
l
; j
__

1
2
ln [
|
(0) [
donde I es una matriz no singular, de igual dimensin que , tal que II
0
=
. Es bien sabido que para toda matriz denida positiva existe tal matriz
I. Si la matriz es diagonal, aunque con elementos diferentes a lo largo de la
diagonal principal, entonces I es la matriz diagonal que tiene por elementos la
raiz cuadrada de los elementos en la diagonal de . Como los elementos de esta
ltima, los /
2
|
(0) son todos positivos, no hay ninguna dicultad en este tipo de
clculo.
Por otra parte, utilizando un argumento estndar para la descomposicin
del error de prediccin, la funcin de verosimilitud para la muestra completa
puede escribirse como la suma de los logaritmos de la funcin de verosimilitud
condicional:
1
T
(j
l
, j
2
, ..., j
T
) =
T

|=l
|
|
(j
|
; c) (41)
cuya maximizacin generar estimadores de MV de los parmetros del mod-
elo, c = (0, j) .
Si la funcin de densidad condicional y las funciones que recogen los modelos
de la media y la varianza son diferenciables, el estimador de MV se obtiene
resolviendo el sistema de :/ ecuaciones:
o
T
(j
l
, j
2
, ..., j
T
; c) =
T

|=l
:
|
(j
|
; c) = 0 (42)
donde :
|
(j
|
; c) = \
r
|
|
(j
|
; c) es el vector score correspondiente a la obser-
vacin t. Si denotamos por )
0
(.
|
(0) ; j) la derivada parcial de la funcin )
respecto de su primer argumento, tendremos,
\
0
|
|
(j
|
; c) =
)
0
(.
|
(0) ; j)
) (.
|
(0) ; j)
\
0
.
|
(0)
1
2
\
0
/
2
|
(0)
/
2
|
(0)
expresin en la que hay que incorporar:
\
0
.
|
(0) =
\
0
-
|
(0)
_
/
2
|
(0)

1
2
-
|
(0)
\
0
/
2
|
(0)
[/
2
|
(0)[
3/2
y la resolucin del conjunto de :/ ecuaciones (42) habr de ser numrica.
Para proceder con la estimacin MV hay que establecer una determinada
hiptesis acerca del tipo de distribucin que sigue la innovacin. Si se considera
que obedece a una distribucin Normal, tenemos:
128
) (.
|
(0)) =
1
_
2
oxp
_

.
|
(0)
2
2
_
=
1
_
2
oxp
_

1
2
(j
|
j
|
(0))
2
_
En este caso, como la distribucin est totalmente determinada por sus dos
primeros momentos, slo la media y varianza condicionales aparecen en la fun-
cin de verosimilitud (41) , por lo que c = 0, y la funcin score adopta la forma:
:
|
(j
|
; 0) = \
0
j
|
(0)
-
|
(0)
_
/
2
|
(0)

1
2
\
0
/
2
|
(0)
_
/
2
|
(0)
_
-
|
(0)
2
/
2
|
(0)
1
_
En este caso, puede probarse [Hamilton (1994)] que la expresin analtica
del score es,
:
|
(j
|
; 0) =
-
|
(0)
2
/
2
|
(0)
2 [/
2
|
(0)[
2
_

_
2

n
=l
c

-
|
r
|
1
-
2
|l
...
-
2
|n
_

_
r
|
-
|
,/
2
|
0
nl
_
donde ambos vectores columna tienen dimensin r1, siendo = / :1,
con / el nmero de variables explicativas en el modelo de la media, y : el
nmero de retardos del modelo 1CH(:).
El gradiente de la funcin de verosimilitud puede entonces expresarse analti-
camente como la suma de los scores,
\ln1 =
T

|=l
:
|
(j
|
; 0)
o puede tambin evaluarse numricamente a travs de derivadas numricas
de la funcin de verosimilitud.
Es habitual suponer que el error del modelo tiene distribucin condicional
Normal, en cuyo caso,
ln1 =
T
2
ln2
1
2
T

|=l
ln/
2
|

1
2
T

|=l
-
2
|
/
2
|
en el que hay que substituir las expresiones de -
|
y /
2
|
que se obtienen de la
especicacin del modelo para la esperanza y la varianza condicionales de j
|
. En
realidad, las funciones de densidad que entran en esta expresin de la funcin
de verosimilitud son funciones de densidad condicionales, debido a la presencia
de /
2
|
= q (-
|l
, -
|2
, ...) en la densidad correspondiente a -
|
. As, el logaritmo
de la funcin de verosimilitud condicional en las primeras : observaciones es,
129
T

|=nl
ln)(j
|
, r
|
, r
|l
, ..., j
|l
, ...) =
T
2
ln(2)
1
2
T

|=nl
ln(/
2
|
)
1
2
T

|=nl
ln
_
_
j
|
j
|l
(0)
_
2
/
2
|
_
siendo : el orden de un proceso 1CH, o el nmero de retardos de la
varianza condicional en el caso de un modelo G1CH. En el caso de un modelo
ARCH, para calcular el valor numrico de la funcin de verosimilitud, se utiliza,
/
2
|
= .c
l
-
2
|l
...c
n
-
2
|n
= .c
l
_
j
|l
j
|2
(0)
_
2
...c
n
_
j
|n
j
|nl
(0)
_
2
Por ejemplo, en el caso de un simple modelo 1CH(1), con
j
|
= -
|
, -
|
~ (0, /
2
|
)
/
2
|
= c
0
c
l
-
2
|l
la funcin logaritmo de la funcin de Verosimilitud condicional es,
ln1 =
T

|=nl
ln)(j
|
, r
|
, r
|l
, ..., j
|l
) =
T
2
ln2
1
2
T

|=l
ln
_
c
0
c
l
j
2
|l
_

1
2
T

|=l
j
2
|
c
0
c
l
j
2
|l
En el caso de un modelo G1CH(1, 1), utilizaramos,
/
2
|
= . c-
2
|l
,/
2
|l
= . c
_
j
|l
j
|2
(0)
_
2
,/
2
|l
a partir de un valor inicial /
2
0
=
.
loo
. En el caso de un modelo G1CH
de orden superior, actuaramos de modo alogo, inicializando todos los retardos
precisos de la varianza condicional en el valor numrico de la varianza incondi-
cional.
Como se observa, las funciones de verosimilitud de los modelos 1CH son
no lineales en los parmetros del modelo, por lo que la estimacin de Mxima
Verosimilitud, que es el procedimiento de estimacin habitualmente utilizado,
requiere el uso de algoritmos numricos de optimizacin. Para llevar a cabo tales
procedimientos, es preciso dar valores iniciales a los parmetros del modelo. Los
parmetros de la ecuacin del primer momento condicional de j
|
se obtienen
mediante estimacin de dicha ecuacin, ignorando la presencia de estructura
del tipo 1CH.
Para dar valores iniciales a los parmetros de la ecuacin de la varianza
condicional, existen varias posibilidades: una posibilidad consistira en tomar
para la constante la varianza incondicional obtenida para el trmino de error
de la ecuacin de la media, que se ha estimado previamente para inicializar los
parmetros de dicha ecuacin. En este caso, habra que dar valores iniciales a
todos los restantes parmetros de la ecuacin de la varianza. Otra alternativa
consiste en dar valores razonables a los parmetros de la ecuacin de la varianza,
130
como c = .10, , = .80 en el caso de un modelo G1CH(1, 1), pero entonces
hay que dar a la constante . un valor inicial: . = (1 c ,)o
2
:
, siendo o
2
:
la
varianza estimada para el trmino de error de la ecuacin de j
|
.
Si el modelo G1CH no tiene estructura 1CH en media, entonces la es-
timacin por separado de los parmetros en la ecuacin de la esperanza condi-
cional y de los que entran en la ecuacin de la varianza condicional es eciente.
Ello se debe a que la matriz de informacin presenta una estructura diagonal
a bloques en ambos subvectores de parmetros. Esto no ocurre en el modelo
1G1CH.
Para tratar de recoger toda la leptocurtosis de la distribucin emprica, se
utiliza en ocasiones la distribucin t estandarizada con grados de libertad j2:
) (.
|
(0)) =
1
_
(j 2)
I
_
ql
2
_
I
_
q
2
_
1
_
/
2
|
1
_
1
:t(0)
q2
_
(ql)/2
donde I denota la funcin Gamma. La distribucin t es simtrica alrededor
de cero, y converge a la Normal cuando j . Para valores j4 tiene colas
ms gruesas que la Normal, con coeciente de curtosis igual a 8(: 2),(: 4),
que es superior a 3. El logaritmo de la funcin de verosimilitud condicional en
las primeras : observaciones es,
T

|=nl
ln)(j
|
, r
|
, r
|l
, ..., j
|l
, ...) = T ln
_
I
_
ql
2
_

l/2
I
_
q
2
_ (j 2)
l/2
_

1
2
T

|=nl
ln(/
2
|
)

j 1
2
T

|=nl
ln
_
1
_
j
|
j
|l
(0)
_
2
/
2
|
(j 2)
_
Se utiliza asimismo la distribucin t-Gc:cra|i.ada, que depende de 2 parmet-
ros y es simtrica, con densidad absolutamente continua, con esperanza 0 y
varianza 1. Su funcin de densidad puede escribirse,
) (-
|
) =
j
2{1
_
l

,
l
2s
_
_
1
[ -
|
[

_
(
1

1
2s
)
donde j 0, : 0 son parmetros a estimar que han de satisfacer: j4: 0.
El parmetro { es { =
q
I(
1

)
q
I(
1
2s
)
q
I(
3

)
q
I(
1
2s

)
y 1(.) , I(.) denotan las funciones Beta
y Gamma, respectivamente.
Se utiliza tambin la Distribucin Generalizada de Error [Nelson (1991)]:
) (.
|
(0)) =
j
`
1
2
l
1
_
1
I
_
l
q
_ oxp
_

1
2
[
.
|
(0)
`
[
q
_
, co: ` =

_
1
2
2/n
I
_
l
q
_
I
_
3
q
_
131
que para j=2 coincide con la densidad Normal. Para j<2, esta distribucin
tiene colas ms gruesas que la Normal, mientras que para j2 tiene colas ms
nas que la distribucin Normal. Esta densidad fue propuesta en un anlisis de
rentabilidades diarias del mercado de valores, en exceso de las ofrecidas por el
activo sin riesgo. Para ello, Nelson (1991) especic el modelo
r
|
= a /r
|l
/
2
|
n
|
con n
|
= -
|
/
|
, siendo -
|
independiente, Normal(0,1). Suponiendo una es-
tructura 1G1CH(1, 1) para la varianza condicional, tendramos,
ln/
2
|
= . , ln/
2
|l
c
-
|l
/
|l
0
_
[
-
|l
/
|l
[
_
2

_
y, suponiendo una funcin de densidad generalizada, el logaritmo de la fun-
cin de verosimilitud sera,
ln1 = T
_
ln
j
`

_
1
1
j
_
ln2 lnI
_
1
j
__

1
2
T

|=l
_
[
_
r
|
a /r
|l
c/
2
|
_
`/
|
[
_
q

1
2
T

|=l
ln/
2
|
donde, para evaluar la funcin ln1 es preciso, una vez ms, generar datos
para la varianza condicional como en otros casos, utilizando iterativamente la
expresin que dene la varianza condicional del proceso 1G1CH,
ln/
2
|l
= . , ln/
2
|
c
-
|
/
|
0
_
[
-
|
/
|
[
_
2

_
con,
-
|
=
r
|
a /r
|l
c/
2
|
/
|
a partir de valores paramtricos (a, /, , ., ,, c, 0) iniciales. Los valores ini-
ciales de la varianza condicional (uno slo en este caso), se jan igual a su
esperanza matemtica, 1/
2
|
=
.
lo
.
En otros casos [Engle y Gonzlez-Rivera (1991)] se ha propuesto utilizar un
procedimiento de estimacin semiparamtrico.
6.16 Estimacin por Cuasi-mxima verosimilitud
En muchos casos en el mbito de los mercados nancieros, la hiptesis de Nor-
malidad del trmino de error de la ecuacin de la media de una rentabilidad
no es aceptable.Uuna posibilidad consiste en estiomar el modelo por mxima
verosimilitud bajo un supuesto distinto acerca de la distribucin de dicho tr-
minon de error, ya sea mediante una distribucin t de Student, una distribucin
G11, una mixtura de Normales, etc.. Alternativamente, si se supone Normal-
idad en el clculo de la funcin de verosimilitud, el estimador que resulta es de
132
Cuasi-mxima verosimilitud, que es consistente, pero no eciente. Todo lo que
se precisa para este resultado es que las ecuaciones de la esperanza y varianza
condicionales se hayan especicado correctamente, lo cual puede resumirse en
las condiciones,
1
_
-
2
|
,r
|
, j
|l
, j
|2
, ...
_
= 0; \ ar
_
-
2
|
,r
|
, j
|l
, j
|2
, ...
_
= 1.
La prdida de eciencia en la estimacin se debe precisamente a la desviacin
respecto de la Normal, de la verdadera distribucin de probabilidad del trmino
de error del modelo. En tal caso, debe utilizarse una estimacin de la matriz de
covarianzas de los parametros que sea robusta a desviaciones de Normalidad,
como la propuesta por Bollerslev y Wooldridge (1992).
Esta estrategia de estimacin es similar a Mxima Verosimilitud, pero re-
quiere corregir las desviaciones tpicas resultantes. La distribucin asinttica
del estimador es,
_
T
_

0 0
_
(0, 1
l
o1
l
)
donde,
o = j lim
T!1
1
T
T

|=l
:
|
(0) :
|
(0)
0
siendo :
|
(0) el vector score, mientras que la matriz D es,
1 = j lim
T!1
1
T
T

|=l
1
_
0:
|
(0)
00
0
[ r
|
, j
|l
, j
|2
, ...
_
Ambas pueden estimarse consistentemente evaluando numricamente el vec-
tor score bajo los parmetros resultantes en la estimacin [ver Hamilton (1994)],
obtenindose desviaciones tpicas asintticamente robustas a errores de especi-
cacin en la densidad del trmino de error, tomando races cuadradas del pro-
ducto,
l
T

1
l
T

o
T

1
l
T
. Si el modelo est correctamente especicado y la dis-
tribucin del trmino de error es normal, entonces o = 1, y resulta la matirz
de covarianzas asinttica habitual del estimador de Mxima Verosimilitud.
6.17 Contrastacin de hiptesis
Crowder prob ya en 1976 que, bajo determinadas condiciones de regularidad, el
estimador MV es consistente y tiene distribucin asinttica Normal en modelos
con observaciones dependientes. Si la densidad condicional est correctamente
especicada y el verdadero vector de parmetros c
0
est en el interior del espacio
paramtrico considerado, un argumento del tipo utilizado en el Teorema Central
del Lmite conduce a:
T
l/2
_

c
T
c
0
_
(0,
l
0
)
133
siendo la matriz de covarianzas asinttica del estimador MV igual a la inversa
de la matriz de informacin, evaluada en el verdadero vector de parmetros:

0
= T
l
T

|=l
1 [\
r
: (j
|
; c
0
)[
que es inferior a la matriz de covarianzas de cualquier otro estimador. En la
prctica, se obtiene un estimador consistente de
0
evaluando el anlogo mues-
tral en el vector estimado de parmetros

c
T
, es decir, sustituyendo 1 [\
r
: (j
|
; c
0
)[
por \
r
:
_
j
|
;

c
T
_
. Adems, las segundas derivadas tienen generalmente esper-
anza nula, y pueden omitirse. Por ltimo, bajo el supuesto de que la densidad
est correctamente especicada, se tiene la igualdad
0
= 1
0
, siendo:
1
0
= T
l
T

|=l
1
_
: (j
|
; c
0
) : (j
|
; c
0
)
0

(43)
es decir, que la esperanza del producto del gradiente por s mismo propor-
ciona asimismo un estimador de la matriz de covarianzas asinttica. Nueva-
mente, esta expresin se evaluara en el vector estimado de parmetros.
En la estimacin de modelos ARCH suelen utilizarse derivadas numricas,
pues las derivadas analticas son bastante complejas. El estimador propuesto
en (48) tiene la ventaja de que slo precisa derivadas de primer orden, pues
las derivadas numricas de segundo orden suelen ser bastante inestables. En
general, el vector de parmetros de un modelo ARCH puede particionarse:
0
0
=
_
0
0
l
, 0
0
2
_
, donde el primer subvector es el que aparece en el modelo de la esper-
anza condicional, mientras que el segundo es quien aparece en la determinacin
de la varianza condicional. Es, adems, posible probar que, en algunos casos,
la matriz de informacin es diagonal a bloques con esta particin. Como con-
secuencia, pueden calcularse estimadores asintticamente ecientes para uno de
los subvectores, a partir de una estimacin consistente para el otro. As, puede
estimarse el modelo de la media por MCO (debe utilizarse un estimador consis-
tente), para obtener un estimador asintticamente eciente de los parmetros
de la varianza condicional a partir de los residuos MCO de la ecuacin de la
media. Sin embargo, la prdida de eciencia en los coecientes del modelo de
la media puede ser importante.
Las desviaciones tpicas habituales no son apropiadas, debido a la presencia
de heterocedasticidad, por lo que deben corregirse del modo sugerido por White
(1980). En particular, la habitual desviacin tpica para los valores de la funcin
de autocorrelacin (1,T) puede ser muy sesgada en presencia de estructuras
ARCH.
La diagonalidad a bloques de la matriz de informacin no se cumple, sin
embargo, en el modelo EGARCH ni en los modelos ARCH-M. En estos cassos,
para obtener una estimacin consistente es preciso que las funciones que rep-
resentan la meia y varianza condicionales estn correctamente especicadas, y
estimadas simultneamente.
134
Si se quiere contrastar una hiptesis nula de inters, del tipo: H
0
: r (c
0
) =
0,siendo el rango | de la funcin r inferior a :/, el estadstico de Wald adopta
la forma:
\
T
= T.r
_

c
T
_
0
_
_
\
r
r
_

c
T
__
C
l
T
_
\
r
r
_

c
T
__
0
_
l
r
_

c
T
_
siendo C
T
una estimacin consistente de la matriz de covarianzas del vec-
tor de parmetros bajo la hiptesis alternativa. Bajo la hiptesis nula, y si
se satisfacen las condiciones de regularidad, el estadstico de Wald tiene una
distribucin chi-cuadrado con (: /) | grados de libertad, el nmero de
parmetros bajo la hiptesis alternativa.
Tambin puede utilizarse un contraste de RV (Razn de verosimilitudes),
cuyo estadstico seguir una distribucin asimismo chi-cuadrado con (:/) |
grados de libertad, el nmero de restricciones (nmero de parmetros bajo la
hiptesis alternativa).
La contrastacin de hiptesis acerca de parmetros de la ecuacin de varianza
condicional est sujeta a dos dicultades: a) en primer lugar, dichos parmetros
deben ser positivos, por lo que, como ya hemos dicho, los contrastes ecientes
deberan ser de una cola, b) en segundo lugar, existen a veces problemas de
identicacin, a los que ya hemos hecho referencia, por lo que la matriz de
informacin se hace singular. En el modelo G1CH(1, 1), bajo la hiptesis
nula: H
0
: c
l
= 0, los parmetros . y ,
l
no estn identicados.
De igual modo, en el modelo 1CH ', el coeciente de la varianza (o
desviacin tpica) condicional est identicado slo si dicha varianza es cam-
biante en el tiempo, por lo que no es posible un contraste del tipo habitual para
la hiptesis conjunta de presencia de efectos 1CH, junto con la signicacin
del coeciente de la ecuacin de la media.
Otra cuestin de indudable relevancia se reere a las propiedaddes en mues-
tras nitas de los estimadores de mxima verosimilitud de modelos 1CH. As,
por ejemplo, con errores condicionalmente Normales, la estimacin de c
l
,
l
resulta sesgada a la baja y asimtrica a la derecha en muestras nitas. El sesgo
en la suma de los coecientes proviene de un sesgo a la baja en la estimacin de
,
l
, junto con un sesgo al alza en la estimacin de c
l
.
6.18 Modelos de varianza condicional como aproximaciones
a difusiones.
Denotemos por 1
|
el precio de un activo, y por o
|
la volatilidad instantnea
de su rendimiento. Consideremos la representacin conjunta de la evolucin
seguida por (1
|
, o
|
) a partir de valores iniciales (1
0
, o
0
) por medio del proceso
en tiempo continuo,
d1
|
= j1
|
dt 1
|
o
|
d\
l,|
d
_
lno
2
|

= ,
_
lno
2
|
c

dt cd\
2,|
(44)
135
donde \
l,|
y \
2,|
denotan movimientos brownianos independientes de las
condiciones iniciales, que satisfacen:
_
d\
l,|
d\
2,|
_
_
d\
l,|
d\
2,|
_
=
_
1 j
j 1
_
dt
es decir, con correlacin igual a j.
Aunque los datos se observan nicamente a intervalos de tiempo discretos,
es muy til formular representaciones continuas de los precios de un activo. Es
til, en particular, para anlisis tericos en la formacin de precios de opciones.
El lema de Ito permite escribir la ecuacin anterior como:
dj
|
=
_
j
o
2
|
2
_
dt o
|
d\
l,|
donde j
|
= ln(1
|
).
Si un modelo terico propone la representacin acontinua anterior, es posi-
ble formular un proceso ARCH cuyas realizaciones muestrales sean indistin-
guibles de las generadas por el proceso de difusin cuando el intervalo de tiempo
transcurrido entre observaciones sea muy reducido? Melino y Turnbull (1990)
utilizan una aproximacin de Euler para probar que la difusin (44) puede aprox-
imarse por:
j
||
= j
|

_
j
o
2
|
2
_
/ /
l/2
o
|
7
l,||
, t = /, 2/, 8/, ... (45)
ln
_
o
2
||
_
= ln
_
o
2
|
_
/,
_
ln
_
o
2
|
_
c

/
l/2
c7
2,||
, t = /, 2/, 8/, ...
siendo (7
l,|
, 7
l,|
) una variable aleatoria Normal bivariante, con vector de
esperanzas (0,0), y matriz de covarianzas:
\ ar
_
7
l,|
7
2,|
_
=
_
1 j
j 1
_
Este proceso converge, efectivamente, a la difusin de la que hemos partido,
cuando / tiende a cero. En efecto, es fcil ver que,
/
l
1
|
_
j
||
j
|
ln
_
o
2
||
_
ln
_
o
2
|
_
_
=
_
j
c
2
t
2
,
_
ln
_
o
2
|
_
c

_
/
l
\ ar
|
_
j
||
j
|
ln
_
o
2
||
_
ln
_
o
2
|
_
_
=
_
o
2
|
o
|
jw
o
|
w
2
_
que reproducen el proceso de media y la matriz de difusin en (44). Sin
embargo, este no es estrictamente un proceso ARCH, pues o
2
|
es la varianza
condicional de j
||
j
|
dada toda la realizacin continua del proceso (no ob-
servable), pero no es la varianza condicional, dada la informacin reocgida a
intervalos discretos de tiempo.
136
Para obtener un modelo 1CH aproximado a la difusin anterior, reem-
plazamos la segunda ecuacin del sistema (45) por:
ln
_
o
2
||
_
= ln
_
o
2
|
_
/,
_
ln
_
o
2
|
_
c

/
l/2
q (7
l,||
) , t = /, 2/, 8/, ...
para una funcin q (.) medible, con 1
_
[ q (7
2,||
) [
2o

< para algn


c 0, y
\ ar
_
7
l,|
q (7
l,|
)
_
=
_
1 jc
jc 1c
2
_
(46)
Para completar la formulacin de la aproximacin ARCH, necesitamos una
especicacin para la funcin q(.). Puesto que,
1 ([ 7
l,|
[) =
_
2

; 1 (7
l,|
[ 7
l,|
[) = 0; \ ar ([ 7
l,|
[) = 1
2

una posible especicacin es,


q (7
l,|
) = jw7
l,|
w
_
1 j
2
1 2,
_
[ 7
l,|
[
_
2

_
que corresponde al modelo 1G1CH.
Alternativamente, podra haberse escogido,
q (7
l,|
) = jw7
l,|
w
_
1 j
2
2
_
7
2
l,|
1
_
que tambin satisface (46).
Tambin se puede contestar a la pregunta inversa: Dado un modelo 1CHcul
es el proceso de difusin que mejor lo aproxima? Para ello, consideremos, a modo
de ejemplo, una estructura de martingala con error G1CH(1, 1):
j
||
= j
|
o
|
/.
||
= j
|
-
||
y:
o
2
||
= ./
_
1 0/ c/
l/2
_
o
2
|
/
l/2
c-
2
||
que tiende a un modelo 1G1CH(1, 1) cuando / 0.
Como se prueba en Nelson (1990a),
/
l
1
|
_
j
||
j
|
o
2
||
o
2
|
_
=
_
0
. 0o
2
|
_
/
l
\ ar
|
_
j
||
j
|
o
2
||
o
2
|
_
=
_
o
2
|
0
0 2c
2
o
d
|
_
para el que puede probarse que la difusin aproximada es,
137
dr
|
= o
|
d\
l,|
do
2
|
=
_
. 0o
2
|
_
dt
_
2co
2
|
d\
2,|
donde \
l,|
y \
2,|
denotan movimientos brownianos independientes, lo cual
puede utilizarse para estimar un proceso de difusin, y luego comparar parmet-
ros.
6.19 Modelos de varianza condicional y medidas de volatil-
idad
Las estructuras 1CH tienen el atractivo de recoger, de modo bastante ade-
cuado, la agrupacin de episodios de alta volatilidad que se observa en series
temporales nancieras de alta frecuencia.
Foster y Nelson (1992) probaron que, incluso si la varianza no cambia a lo
largo de un mes, el procedimiento de utilizar promedios de rentabilidades diarias
al cuadrado como estimador de volatilidad es ineciente y sesgado. Parkinson
(1980) sugiri utilizar un estimador basado en los precios alto y bajo para aprox-
imar la varianza de un proceso de camino aleatorio continuo, lo que se demuestra
ms eciente que el uso de observaciones de nal de perodo. Otra alternativa
es el clculo de volatilidades implcitas a travs de la frmula de valoracin
de opciones de BS, pero si la varianza condicional del precio de la opcin es
cambiante en el tiempo, no es evidente qu se obtienen de dicha frmula. Day
y Lewis (1992) muestran que para opciones sobre el ndice burstil, un modelo
GARCH(1,1) simple para la varianza condicional del rendimiento implcito en el
ndice proporciona informacin estadsticamente signicativa, que es adicional
a las estimaciones de volatilidad implcita de BS. En esta misma lnea, Engle y
Mustaf (1992) probaron que ...
Buena parte de la investigacin reciente [Amin y Ng (1992), Heston (1993),
Hull y White (187), Melino y Turnbull (1990), Scott (1987) y Wiggins (1987)] se
ha destinado a desarrollar frmulas tericas de valoracin de opciones en pres-
encia de volatilidad estocstica. Aunque una expresin analtica de los precios
resultantes puede obtenerse slo en algunos casos relativamente sencillos, es gen-
eralmente cierto en todos ellos que cuanto ms voltil es el activo subyacente,
ms elevado es el precio resultante para la opcin.
6.19.1 Canina, L. y S. Figlewski: The informational content of im-
plied volatility
Review of Financial Studies,(1008)
En este trabajo se analiza la capacidad que tiene la volatilidad implcita
obtenida a partir de opciones sobre o\1100 para predecir la volatilidad futura
de dicho ndice. El inters del anlisis se basa en el hecho de que la volatilidad
implcita se interpreta, generalmente, como la prediccin del mercado acerca
del nivel de volatilidad futuro. Se encuentra que la capacidad de la volatilidad
138
implcita para predecir la volatilidad futura es mnima, tanto cuando se trabaja
con todas las opciones existentes (que garantizan una liquidez mnima y que no
incumplen las relaciones bsicas que deben satisfacer los precios de las opciones),
como cuando se trabaja con clases de opciones, segn su vencimeinto y su precio
de ejercicio.
Una posible explicacin de este resultado negativop sera la posible dicultad
para prever la volatilidad durante el perodo muestral analizado en el mercado
considerado. Sin embargo, cuando se utiliza la desviacin tpica anualizada
del logartimo de las rentabilidades del o\1100 sobre una ventana mvil de
60 das previos al momento de clculo de la volatilidad implcita, se encuentra
que esta medida de volatilidad histrica tiene cierta capacidad de prever la
volatilidad futura. La amplitud de la ventana considerada no es crtica en estos
resultados. Sin embargo, esta medida de volatilidad histrica incumple el test
de racio:a|idad de la prediccin.
En el trabajo se considera asimismo la posibilidad de que la volatilidad
implcita incorpore la informacin contenida en la volatilidad recientemente ob-
servada en el mercado, rechazando asimismo dicha hiptesis.
6.19.2 Day, T.E. y C.M. Lewis, Forecasting futures market volatil-
ity,
The Journal of Derivatives, winter 1993.
Se compara la capacidad predictiva de diversos mtodos para anticipar la
volatilidad del precio en el mercado de futuros sobre petrleo. Para ello, se
calcula la volatilidad condicional resultante de un modelo GARCH para el precio
del futuro sobre el barril de petrleo, as como la volatilidad implcita a partir
de opciones ca|| sobre dicho futuro.
Se encuentra que ambas medidas contienen cierta capacidad explicativa sobre
la volatilidad futura del precio del futuro. Se considera asimismo la posibilidad
de utilizar un modelo EGARCH, pero no se detecta evidencia de efectos asimtri-
cos en volatilidad. Como las volatilidades GARCH se calculan para cada uno
de los das que quedan entre el instante de valoracin y el vencimiento, dichas
predicciones deben consolidarse en un nico nivel de volatilidad asociado al da
de vencimiento de la opcin. En el trabajo se utiliza un promedio simple de
las volatilidades prevista para cada uno de dichos dias, pero es claro que po-
dran utilizarse otras alternativas. Cada da se estima el modelo GARCH con
una ventana mvil, se obtienen las previsiones para cada uno delos das desde
el ltimo contenido en la muestra hasta el vencimiento de la opcin, y se cal-
cula su promedio. Este procedimiento de ventana mvil permite generar una
serie temporal de prediccin GARCH de la volatilidad para el instante (da) de
vencimiento de la opcin.
La capacidad predictiva de una serie temporal de volatilidades se estima
mediante el ajuste de una regresin,
o
2
1,|l
= /
0
/
l
o
2
J,|l
j
|l
139
donde o
2
1,|l
denota la volatilidad realizada (observada) durante los pero-
dos desde que se calcula la prediccin hasta el vencimiento de la opcin, y o
2
J,|l
es la prediccin de dicha volatilidad, calculada con informacin hasta el instante
t.
Las volatilidades GARCH y EGARCH incumplen la propiedad de reacional-
idad, mientras que las volatilidades implcitas satisfacen dicha propiedad. La
cuarta medida utilizada es una medida ingenua, pero sus resultados son peores
que los obtenidos con la volatilidad implcita. Una peculiaridad no discutida en
el trabajo es que el modelo GARCH que se utiliza es un modelo con componente
en media, siendo un G1CH(1, 1) ', mientras que el modelo EGARCH no
tiene tal componente, incorporando en cambio una estructura 1(1) en rentabil-
idad.
Se muestra asimismo que las predicciones extra-muestrales a partir de mod-
elos tipo GARCH no contienen informacin que no estuviese ya recogida en la
serie temporal de volatilidad implicita. Las predicciones que se obtienen lle-
vando a cabo ajustes de sesgo predictivo o combinando predictores no tienen un
comportamiento signicativamente mejor que la volatilidad implcita sin ajus-
tar.
Para calcular la volatlidad implcita se utiliza la tcnica de rbol binomial,
dado que las opciones sobre futuro de barril de petrleo permiten el ejercicio
anticipado, al ser opciones Americanas.
6.19.3 Day, T.E. y C.M. Lewis, Stock market volatility and the
information content of stock index options
Journal of Econometrics (1992), 52:267-287.
Este trabajo compara la capacidad predictiva de modelos GARCH y EGARCH
estimados para el ndice S&P100 acerca de la volatilidad futura del exceso de
rentabilidad ofrecido por el ndice. A pesar de disponer de observaciones di-
arias, el trabajo se lleva a cabo con rentabilidades semanales. Para evitar (a la
vez que estimar) posibles efectos dia de la semana, el estudio se realiza tanto
con los datos correspondientes a los mircoles, como con los correspondientes a
los viernes. Otra razn para ello es evitar la autocorrelacin existente en datos
diarios que, aparentemente surge por problemas de negociacin no simultnea
en el ndice (nonsynchronous trading). Se utilizan dos series de rentabilidad se-
manal: por un lado, las rentabilidades (sin ajustar), que se obtienen de los datos
de cierre; por otro, las estimaciones del nivel del ndice implcito en el precio de
opciones call sobre dicho ndice. Slo se reportan los resultados obtenidos con
la primera de las medidas.
Se eliminan los precios diarios de opciones con menos de 100 contratos de
negociacin, o aquellas cuyo precio a cierre de mercado diere sustancialmente
del precio de ejercicio (en ms de $15). Se eliminan asimismo las opciones
conprecio de mercado muy reducido (inferior a 0,25$), porque la horquilla bid-ask
es entonces un porcentaje muy elevado del precio de la opcin. Los dividendos
efectivamente pagados a posteriori se toman como proxy de las expectativas de
dividendos a recibir durante la vida de la opcin. Para estimar la volatilidad
140
implcita se utiliza la frmula Black-Scholes ajustada de una tasa constante de
dividendos.
Las predicciones obtenidas a partir de volatilidades condicionales deducidas
de modelos GARCH y EGARCH se comparan con la volatilidad implcita,
interpretada como estimador de la volatilidad del ndice a vencimiento de la
opcin.
Resumir los precios observados para todas las opciones negociadas sobre el
ndice en determinado momento requiere cierto trabajo estadstico. Si denota-
mos por C
|
(o
0
(t)) el precio terico de una opcin con tiempo a vencimiento t
y precio de ejercicio indicado por /, dada una estimacin o
0
(t) de la volatili-
dad de la rentabilidad del ndice hasta el instante de vencimiento de la opcin,
construimos la funcin objetivo,
1
r
=
:

|=l
[c
|r
(C
|r
C
|
(o
0
(t)))[
2
donde c
|r
denota la proporcin del volumen de negociacin que se lleva a
cabo en opciones con vencimiento t que corresponde al contrato con precio de
ejercicio /, y
r
es el nmero de precios de ejercicio diferentes de opciones con
vencimiento t. Por tanto, la funcin de prdida anterior se asocia al vencimiento
t.
En cada iteracin, la nueva estimacin de la volatilidad viene dada por,
o (t) = o
0
(t)
_
(\A)
0
(\A)

l
(\A)
0
(\1 )
siendo \ la matriz diagonal
r
r
r
que tiene por elementos el porcentaje
de volumen de negociacin en las opciones call con vencimiento t en cada uno
de los precios de ejercicio negociados, A es un vector
r
r1 que contiene las
derivadas parciales de los precios de las opciones call respecto de la volatilidad
del subyacente, o
0
(t) . Por ltimo, 1 es un vector
r
r1 cuyos elementos son
las diferencias entre precios tericos, calculados con la estimacin o
0
(t) dela
volatilidad, y los precios de mercado.
La volatilidad histtica con cuyas realizaciones se comparan las predicciones
de volatilidad se calcula de dos maneras diferentes: a) mediante el cuadrado de
la rentabilidad semanal, y b) mediante la varianza de las rentabilidades diarias,
multiplicada por el nmero de dias de negociacin en dicha semana.
Los resultados apuntan a que la volatilidad implcita contiene informacin
no contenida en la volatilidad condicional que se deriva de los modelos GARCH
y EGARCH. Se obtiene asimismo el resultado dual: la volatilidad condicional
que surge de los modelos GARCH y EGARCH contiene informacin adicional
a la incorporada en la volatilidad implcita. Por tanto, ambas deben combinarse
al predecir la volatilidad futura del ndice. La volatilidad condicional obtenida
a partir del modelo EGARCH no contiene informacin signicativa que no est
ya incorporada en la volatilidad condicional del modelo GARCH.
Se utiliza un procedimientoo de ventanas mviles, al igual que en el trabajo
anterior, para obtener predicciones de volatilidad a partir de modelos GARCH
141
y EGARCH. Las estimaciones de estos modelos parecen ser insesgadas, al con-
trario de lo que ocurre con las volatilidades implcitas. Sin embargo, la volatili-
dad semanal parece difcil de predecir, y los ajustes entre prediccin de volatili-
dad y volatilidad observada futura no presentan valores muy altos del estadstico
1
2
. Los modelos GARCH parecen ofrecer mejores resultados que los modelos
EGARCH.
6.19.4 Engle, R.F., y C. Mustafa: Implied ARCH models from
option prices:
Estimacin de los procesos estocsticos que para la volatilidad de un activo se
deducen de los precios de las opciones que tienen a dicho activo como subya-
cente. Se supone que dicha volatilidad responde a una representacin del tipo
GARCH. Se propone estimar el modelo GARCH mediante un procedimiento
de minimizacin de los cuadrados de los errores en precio; para ello, partiendo
de unas pre-estimaciones para los parmetros del modelo GARCH, se obtiene
por simulacin el precio de la opcin, y se compara con su precio de mercado.
Inicialmente, se toma como funcin objetivo la suma de los cuadrados de las
diferencias en precio, que se minimiza, iterando en el espacio de parmetros
GARCH. La propuesta se generaliza en la forma de un mtodo de mnimos
cuadrados generalizados, ponderando los errores cometidos en el precio de cada
opcin de manera inversa a la precisin con que se calcula su precio terico.
Conocer la persistencia de la volatilidad es importante para los agentes que
operan en un mercado de derivados, en el que estarn dispuestos a pagar un
precio ms alto poropciones de largo plazo si perciben que los shocks actuales
en volatilidad son altos y permanentes, en relacin con la vida residual de la
opcin.
Se obtiene que la persistencia de los shocks de volatilidad que se obtiene en
el modelo que se inere a partir de precios de opciones del o\100es similar
a la que se estima a partir de datos histricos sobre el ndice. Sin embargo,
la persistencia despus del crash burstil de 19 Octubre 2987 se estima como
signicativamente ms dbil.
6.19.5 Noh, J., R.F. Engle, y A. Kane, Forecasting volatility and
option prices of the S&P500 index
Journal of Derivatives, (1994), 17-30.
Este trabajo compara la capacidad de la volatilidad implcita, con la de
la volatilidad condicional, paraanticipar la volatildad futura de la rentabilidad
ofrecida por el ndice o\100. La comparacin se efecta mediante la gestin de
una cartera de straddles, llevada a cabo utilizando las predicciones de volatilidad
proporcionadas por ambos mtodos.
El modelo GARCH se supone que rep resenta la volatilidad condicional
del error de un modelo 1(1) para la rentabilidad del ndice o\100. En el
modelo de volatilidad condicional se incorpora una correccin por el nmero de
dias naturales transcurridos entre dos das sucesivos de negociacin.
142
Los procedimientos para resumir en una nica medida de volatilidad las
predicciones dle modelo GARCH, as como para trabajar con todas las op-
ciones negociadas, son los mismos que se han expuesto para otros trabajos.
Una aportacin de este trabajo es obtener predicciones de volatilidad implcita
mediante relacioens lineales de la misma sobre sus valores previos, obtenidos
tanto a partir de opciones put como de opciones call, de la rentabilidad pasada
del mercado, y de 2 variables cticias que tratan de incorporar el efecto da de
la semana que se ha observado en volatilidad los lunes y viernes.
Se construyen straddles con al menos 15 dias hasta vencimiento, y una nego-
ciacin mnima de 100 contratos diarios. Se considera cada da el straddle con
precio de ejercicio ms cercano al ndice o\100. Se usa el tipo de inters en
Letras del Tesoro a un mes de vencimiento como tipos de inters sin riesgo. Si
la prediccin del precio del straddle es superior al precio de mercado, se compra
dicho straddle. En caso contrario, se vende. Invertimos $100 en el contrato ms
at-the money. Cuando se vende un straddle, se invierte el dinero en el activo
sin riesgo.
En sucesivas repeticiones del ejercico de simulacin, se aplican ltros, com-
prando o vendiendo nicamente si la diferencia entre precio terico y precio de
mercado es superior a $0,05 o $0,25 sin que esto afecte al resultado fundamental,
que es que las predicciones de volatilidad del modelo GARCH generan benecios
signicativos, superiores a los costes de transaccin.
6.19.6 French, K.R., G.W. Schwert, y R.F. Stambaugh, Expected
stock returns and volatility
Journal of Financial Economics (1987), 19, 3-29.
En este trabajo se examina la relacin entre rentabilidades de activos de
renta variable, y la volatilidad del mercado. Se encuentra evidencia favorable a
lque la prima de riesgo esperada (denida como diferencia entre la rentabilidad
esperada de una determinada cartera de renta variable y la rentabilidad ofrecida
por una cartera de letras del Tesoro), depende positivamente del componente
predecible de la volatilidad de la rentabilidad del activo de renta variable.
Se encuentra asimismo una relacin negativa entre el componente no antici-
pado de la rentabilidad del mercado y el cambio no anticipado en la volatilidad
de la rentabilidad. Este resultado proporciona evidnecia indirecta a favor de
una relacin positiva entre primas de riesgo y volatilidad.
6.20 Referencias
6.20.1 Libros:
Mills, T.C., The econometric modelling of nancial time series, Cambridge U.
Press, 1993
Taylor, S., Modelling nancial time series, Wiley, Nueva York, 1986.
Novales, A., Econometra, McGraw-Hill, 1993, 1996.
Campbell, J.Y., A.W. Lo, y A.C.MacKinlay, The Econometrics of nancial
markets, Princeton U. Press, 1997.
143
6.20.2 Artculos:
Bollerslev, T., R.F. Engle y J.M. Wooldridge, A capital asset pricing model with
time-varying covariances, Journal of Political Economy, 96, 1, 116-132, 1988.
Engle, R.F. y M. Rothschild, ARCH models in Finance, Journal of Econo-
metrics, 52, 5-59, 1992.
Bollerslev, T., R.F. Engle y D.B. Nelson, ARCH models, The Handbook of
Econometrics, vol.4, captulo 11, 1994.
Ruiz, E., Modelos para series temporales heterocedsticas,Cuadernos econmi-
cos de ICE, 1994.
Engle, R.F., T. Ito, y W.L. Lin, Meteor showers or heat waves? Het-
eroskedastic intra daily volatility in the foreign exchange market, Econometrica,
58, 525-542, 1990.
Engle,R. y T.Bollerslev, 1986, Modelling the persistence of conditional vari-
ances, Econometric Reviews, 5, 1-50.
Bollerslev,T., R.Y.Chou y K.F.Kroner, 1992, ARCH modeling in nance:
A review of the theory and empirical evidence, Journal of Econometrics, 52,
5-59.
Engle, R.F., 1982, Autoregressive conditional heteroskedasticity with esti-
mates of the variance of U.K. ination, Econometrica, 50, 987-1008.
Engle, R.F., D.Lilien y R.Robins, 1987, Estimating time varying risk premia
in the term structure: the ARCH-M model, Econometrica, 55, 391-408.
Engle, R.F., 1982, Autoregressive conditional heteroskedasticity with esti-
mates of the variance of UK ination, Econometrica, 50, 4.
Bollerslev, T., 1986, Generalized autoregressive conditional heteroskedastic-
ity, Journal of Econometrics, 31.
6.20.3 1
o
Parte: Estructura temporal de volatilidades. Evidencia
emprica desde los mercados.
Bessembinder, Coughenour, Seguin, Smoller: Is there a term structure of
volatilities? Reevaluating the Samuelson hypothesis, The Journal of Deriv-
atives, winter 1996, 45-58.
Heynen, Kemna, Vorst, Analysis of the term structure of implied volatili-
ties, The Journal of Business, v.29, 1994,
Xu y Taylor, The term structure of volatility implied by foreign exchange
options, Journal of Financial and Quantitative Analysis, 1994.
6.20.4 2
o
Parte: Transmisin de volatilidades entre mercados
Koutmos y Tucker, Temporal relationships and dynamic interactions between
spot and futures stock markets, Journal of Futures Markets, 1996
Iihara, Hato y Tokunaga, Intraday return dynamics between the cash and
futures markets in Japan, Journal of Futures Markets, 1996
144
6.20.5 3
o
Parte: Implicaciones para la cobertura de carteras.
Myers, Estimating time-varying optimal hedge ratioson futures markets, Jour-
nal of Futures Markets, 1991.
Engle y Chowdhury, Implied ARCH models from option prices, Journal
of Econometrics, 1992.
Noh, Engle y Kane, Forecasting volatility and option prices of the S&P 500
index, Journal of Derivatives, 1994.
Lien y Luo, Multiperiod hedging in the presence of conditional heteroskedas-
ticity, Journal of Futures Markets, 1994
7 Panel data sets
Economic data sets that combine time series and cross sections are increasingly
being available. Sometimes, they are created by a researcher that collects data
on a given set of variables over a period of time for a set of countries. But
often, they are produced because a cross section of individuals or rms are
followed over time, and the values of some of their characteristics and decisions
are collected in what is known as a Panel Data set. Examples of the latter are:
National Longitudinal Surveys on Labor Market Experience (NLS) http://www.bls.gov/nls/nlsdoc.htm,
Michigan Panel Study of Income Dynamics (PSID) http://psidonline.isr.umich.edu/
in which 8,000 families and 15,000 individuals, interviewed periodically
from 1968 to the present.
The Bank of Spain puts together the Encuesta Financiera de las Familias,
http://www.bde.es/estadis/e/e.htm, a still short panel data on nan-
cial decisions.
British Household Panel Survey (BHPS), http://www.iser.essex.ac.uk/ulsc/bhps,
follows several thousand housegholds (over 5,000) anually, since 1991.
German Socioeconomic Panel Data (GSOEP), http://dpls.dacc.wisc.edu/apdu/gsoep_cd_TOC.html,
Medical Expenditure Panel Survey (MEPS), http://www.meps.ahrq.gov/
Current Population Survey(CPS), http://www.census.gov/eps/, is a monthly
survey of about 50,000 households. Each household is interviewed each
month over a 4-month period, followed by a 8-month period without in-
terviews, to be interviewed again afterwards. These are known as rotation
panels.
A panel data has a cross section () and a time dimension (T). Depending
on the type of panel Usually, the time dimension of the panel (T) is short,
with a very large cross-sectional dimension (). In that case, we search for
consistency of estimates along the -dimension. This is because panel data are
usually oriented toward cross-section analysis, and heterogeneity across units
145
is the central focus of the analysis. However, other possibilities also exist, like
having relatively long time series for a short number of countries.
The general, linear panel data model is of the form:
j
I|
= r
0
I|
,
I
.
0
I
c -
I|
, i = 1, 2, ..., , t = 1, 2, ..., T
in which variables in vector r
I|
change over time and across individuals,
while those in vector .
I
change only across individuals while remaining constant
over time for each individual. The specication above is generally designed for
a large , short T. The model above would then imply estimation of a large
number of parameters, so it is usually assumed that coecients are the same
for all individuals, to allow for enough degrees of freedom. An example would
estimate how family income, as well as the age and the level of education of the
household head help aect family savings:
)a:i|j :ai:q:
I|
= c ,
l
i:co:c
I|
,
2
aqc
I|
,
3
cdnc
I|
n
I|
A panel data is very dierent of a SURE system of equations. In the latter,
we have a set of equations with a dierent endogenous variable in each one
of them. In a panel data we have always the same endogenous variable. We
could see it as a system of equations for each time period, but it has a tight
structure, that determines the correlation structure of the error term,as we will
see later, contrary to what happens in a SURE system where we have to proceed
by assumption. A panel data set is said to be balanced when all individuals are
observed for the same number of time periods, while it is unbalanced when the
opposite happens. If there is some self-selection, with individuals deciding when
to be interviewed, or some systematic decision on when to interview subjects,
then estimates may easily be biased. This requires some special treatment.
Some examples:
ln(naqc
I|
) = ,
0
,
0
101
|
,
2
102
|
,
3
co:jntcr
I|
,
d
oxpcr
I|

,
5
cdnc
I|
,
6
)c:a|c
I
n
I|
which is considered by Wooldridge (2002) to estimate the eect of computer
usage (measured by hours of use in year t) on wages. The dummy variable
)c:a|c
I
is invariant through time, as it might be the case with the number of
years of education (cdnc
I|
). Two dummy variables, invariant across the cross-
section, are also included to allow for a time eect on wages. This specication
allows for intercepts specic of each decision unit, while slope coecients are
assumed to be the same for each individual. We could also allow for cross eects
by introducing the product of some explanatory variables like co:jntcr
I|
and
)c:a|c
I
.
A diculty when working with panel data is that since we repeatedly observe
the same units, it is usually no longer appropriate to assume that observations
are independent, which may complicate the analysis in dynamic and nonlinear
models. On the other hand, an advantage is that it allows us to deal with
146
unobserved characteristics, and to identify certain facts at the individual level.
Panel data are not only suitable to model why individuals behave dierently,
but also to model why a given unit behaves dierently at dierent points in time.
The double dimension structure of the panel data allows for testing hypothesis
that could not be addressed in either a single cross-section or in a single set
of time series: does consumption increase by 2% because everybody increases
consumption by 2% or because half of the population increases consumption by
4%?. Ben-Porath (1973) observed that over time, 50% of women appear to be
working at any time period. However, it is unclear whether these are always the
same women or rather, each woman has a probability of 1/2 of being working at
any time period. The two possibilities would have very dierent policy implica-
tions. Another typical example refers to the possibility of separating economies
of scale from technological change. The former could be explored in a cross
section, while the second is a proper hypothesis for tine series data, although
then, the two eects would be confused. Usually constant returns to scales is
assumed and then the time series data is used to test for technological change.
A panel data can provide information on both issues at the same time.
Panel data techniques have clear advantages in dealing with unobserved in-
dividual characteristics. Consider estimates of a Cobb-Douglas production func-
tion with data on a number of rms. Suppose the true model is,
j
I|
= j r
0
I|
, :
I
,
|l
-
I|
where :
I
is the management quality for rm i, which is assumed to be
constant over time. The unobserved :
I
variable is expected to be negatively
correlated with the other explanatory variables, since a high quality manage-
ment will possibly require a more ecient use of inputs. Therefore, excluding
:
I
from the estimation because of not being observable will bias estimates for
the other parameters. With panel data, we can consider a rm specic eect,
dened as c
I
= j:
I
,
|l
, and even hope to estimate its size, although it will
be impossible to identify ,
|l
by itself.
Similarly, a xed time eect can be included in the model to capture the
eect of all (observed and unobserved) variables that do not vary across the
individual units. A nal, more technical advantage, is that panel data models
provide internal instruments for regressors that are endogenous, or are subject
to measurement error. Usually, it can be argued that some transformations of
the original variables are uncorrelated with the models error term while being
correlated with the explanatory variables themselves. This is interesting, since
external instruments, which are often harder to justify, or for which data may
be hard to nd, may not be needed. For instance, if r
I|
is correlated with an
omitted explanatory variable c
I
(which will then be part of the error term), it
can be argued that r
I|
r
I
, where r
I
is the time average for individual i, is
uncorrelated with c
I
and hence, it provides a valid instrument for r
I|
.
147
7.1 Estimation approaches
The individual or group time-invariant eects in .
I
may be observed, like sex,
race, location, or unobserved, like family specic characteristics, individual het-
erogeneity in skill or preferences, all of them being constant over time. If .
I
is observed for all individuals, the model can be handled easily, as a standard
regression model, to estimate vectors , and c in,
j
I|
= r
0
I|
,
I
.
0
I
c -
I|
, i = 1, 2, ..., , t = 1, 2, ..., T
which is identied by the standard condition,
1(-
I|
,r
I|
, .
I
) = 0\i, t
This condition implies,
1(j
I|
,r
I|
, .
I
) = r
0
I|
,
I
.
0
I
c, i = 1, 2, ..., , t = 1, 2, ..., T
As in any regression model, this expectation is what we are interested on.
Often, the error term -
I|
is also assumed to be independent and identically
distributed over individuals and over time, with mean zero and variance o
2
:
.
Obviously, in the usually available short panels, the individual specic eects
cannot be consistently estimated. Besides, the small number of observations
would lead to a huge loss of precision. Hence, we need to collapse the linear
combination of individual characteristics .
0
I
c into a single number, .
0
I
c = c
I
,
j
I|
= r
0
I|
,
I
c
I
-
I|
, i = 1, 2, ..., , t = 1, 2, ..., T
We then substitute our interest on the previous conditional expectation, 1(j
I|
,r
I|
, .
I
),
by a focus on:
1 (j
|
,r
I|
) = 1 (c
I
,r
I|
) r
0
I|
,
An important complication arises under standard estimation procedures
when .
I
is unobservable. Examples include the determination of wages on the
basis of experience and education, with no observation of the productivity of
the worker, or a study on health status of individuals with no data on usage
of health services.Also, the determination of prots at the rm level lacking
data on the quality of management. We cannot then compute the expectation
conditioned on the values of these unobserved variables.
Here, there are two possibilities: if we are willing to accept the Mean-
independence assumption, that the unobserved individual characteristics are
independent of the variables in r
I|
: 1 (c
I
,r
I|
) = j
I
, constant, we will have,
1 (j
|
,r
I|
) = j
I
r
0
I|
,
and the model has an error term with two dierent components,
j
I|
= j
I
r
0
I|
, [-
I|
(c
I
j
I
)[
148
Under the Mean independence assumption, this specication does not pose
serious estimation diculties. This leads to the Random Eects model.
However, in many applications it may be natural to believe that .
I
and r
I|
will be correlated, so that 1 (c
I
,r
I|
) = j
I
/(r
I|
), and this dependence will be
incorporated into the error term,
j
I|
= j
I
r
0
I|
, [-
I|
(c
I
1 (c
I
,r
I|
) /(r
I|
))[
This leads to the Fixed Eects model. The correlation between explana-
tory variables and the error term will then lead to inconsistent least-squares
estimates, so whenever there is reason to believe that unobserved individual ef-
fects are correlated with the observed explanatory variables, we need to explore
alternative estimation approaches.
13
The estimation approach suggested depends on the assumptions on the cor-
relations between -
I|
and either .
I
c or c
I
.
Pooled regression: Vector .
I
contains only a constant term, the same for
all individuals in the sample. Ordinary least squares estimates of the
common parameters c and , in
j
I|
= c r
0
I|
, -
I|
using all the data on all the individuals for all time periods are then consis-
tent and ecient.
Fixed eects: If some .
I
are unobserved, but correlated with some r
I|
, we
have,
j
I|
= r
0
I|
, c
I
-
I|
where c
I
= .
0
I
c captures all individual specic eects. The least squares
estimator of , is biased and inconsistent, because of the omitted variable bias.
The Fixed Eects approach considers c
I
as an individual-specic constant
term in the regression. The term "xed" does not refer to the individual eect
being non-stochastic but rather, to being correlated with the variables in r
I|
.
It will be impossible with this specication to distinguish between c
I
and any
other individual eect that is constant over time, so can just hope to identify a
single individual-specic eect. The estimation approach in this situation will
13
We are usually interested in estimating the partial eects:
01[jIa
I
]
0a
I
= o

, ) = 1, 2, ..., I )cv o|| t


after correcting for individual characteristics. These marginal eects can be identied even if
the conditional mean is not. For instance, it is possible to identify the eects on earnings of
an additional year of schooling, controlling for individual eects, even though the individual
eects and the conditional mean are not identied.
149
consist of transforming the data so as to get rid of the individual eects pro-
ducing the inconsistent estimates. We can estimate constant individual specic
eects, c
I
, that can be treated in estimation as unknown parameters, and the
model is referred to as the Fixed Eects model. Because of these data transfor-
mations, we will have some diculty in identifying the eects of time-invariant
characteristics, like race or gender.
Random eects: If the unobserved heterogeneity can be assumed to be
uncorrelated with any other explanatory variable, and we assume that
individual eects can be jointly considered as .
0
I
c = j c
I
, with c
I
~
[0, o
2
o
[, the model can then be written,
j
I|
= r
0
I|
,1(.
0
I
c,r
I|
)[.
0
I
c1(.
0
I
c,r
I|
)[-
I|
= r
0
I|
,j(c
I
-
I|
) = r
0
I|
,jn
I|
where n
I|
= c
I
-
I|
, with c
I
being an individual specic element similar to
-
I|
, except for the fact that there is a single draw for c
I
that enters the regression
identically every period. Individual intercepts are then treated as draws from a
distribution with mean c and variance o
2
o
. The essential assumption is that these
draws are independent of the explanatory variables in r
I|
. The error term has
then two components, a time invariant component, c
I
, and the -
I|
component,
which is uncorrelated over time. It is sometimes referred to as Random eects
model or Error Components model.
The presence of the c
I
component in the error term induces necessarily some
autocorrelation structure, even if the original error term in the model -
I|
was
independent over time and across individuals, since:
1(n
I|
.n
Is
) = 1 [(c
I
-
I|
) (c
I
-
Is
)[ = o
2
o
i) t ,= : a:d = o
2
o
o
2
:
i) t = :
7.2 The static linear model
7.2.1 Pooled OLS estimates
Consider the general panel data model,
j
I|
= .
0
I
c r
0
I|
, -
I|
, i = 1, 2, ..., ; t = 1, 2, ..., T
where we assume that individual characteristics are either observable, or
non-observable but uncorrelated with the variables in r
I|
.
Suppose that we are willing to make the crucial assumption:
1 (.
0
I
c,A
I
) = j \i
Then,
j
I|
= j r
0
I|
, [-
I|
(.
0
I
c 1 (.
0
I
c,A
I
))[ , i = 1, 2, ..., ; t = 1, 2, ..., T
150
and we will have the same vector of coecients across individuals or decision
units. Here A
I
includes both, the observable .
I
and the r
I|
variables. We can
then write the panel data model as the system:
j
l|
= r
0
l|
, n
l|
, t = 1, 2, ..., T
l
j
2|
= r
0
2|
, n
2|
, t = 1, 2, ..., T
2
...
j
|
= r
0
|
, n
|
, t = 1, 2, ..., T

with error term: n


I|
= -
I|
(.
0
I
c 1 (.
0
I
c,A
I
)) , and we can think of the
model as having a single regression with:
A =
_
_
_
_
A
l
A
2
...
A

_
_
_
_
; j =
_
_
_
_
j
l
j
2
...
j

_
_
_
_
; , =
_
c
,
_
where each A
I
matrix is T
I
x/, while j
I
is T
I
x1.
But the central point of this model is that the assumption we have made
on 1 (.
0
I
c,A
I
) = j is inappropriate in most panel data situations, in which the
opposite will be likely to occur.
The pooled OLS estimator consists of applying OLS to the stacked j and A
above:

,
1OJS
=
_

I=l
A
0
I
A
I
_
l
_

I=l
A
0
I
j
I
_
=
_

I=l
T

|=l
r
0
I|
r
I|
_
l
_

I=l
T

|=l
r
0
I|
j
I|
_
The properties of the alternative estimators will depend on two things: a)
the stochastic characteristics of the errror term in the original model, -
I|,
and /)
the relationship between the unobservable, ommitted individual characteristics,
and the variables included in the model.
Regarding the rst point, alternative possibilities are:
The r
I|
are contemporaneously exogenous: 1(-
I|
,r
I|
) = 0
A stronger assumption: The r
I|
are strictly exogenous: 1(-
I|
,r
Is
) =
0 \t, :
Strict exogeneity fails if r
I|
= (1, j
I|l
), because: 1(-
I|
,r
Il,
r
I2
, ..., r
IT
) =
1(-
I|
,j
0
, j
l
, ..., j
Tl
) = -
I|
For the OLS estimator to be consistent we need lack of correlation between
explanatory variables and error term, together with existence of second order
moments of explanatory variables.
Consistency
151
The estimator is consistent for under conditions: i) 1(r
0
I|
n
I|
) =
0
|
, t = 1, 2, ..., T, ii) ra:/
_
1(

T
|=l
r
0
I|
r
I|
)
_
= /,with an asymptotic probability
distribution:
_

,
1OJS
,
_

J

_
0,
l
1
l
_
where = 1(A
0
I
A
I
) is estimated by

=
l

I=l
A
0
I
A
I
, and 1 =
\ ar(A
0
I
n
I
) = 1(A
0
I
n
I
n
0
I
A
I
) is estimated by

1 =
l

I=l
A
0
I
n
I
n
0
I
A
I
,
14
so that
the covariance matrix is estimated by:
15
(

,
1OJS
) =
1

_
1

I=l
A
0
I
A
I
_
l
_
1

I=l
A
0
I
n
I
n
0
I
A
I
__
1

I=l
A
0
I
A
I
_
l
=
_

I=l
T

|=l
r
I|
r
0
I|
_
l
_
_

I=l
_
T

|=l
r
I|
n
I|
_

I=l
_
T

|=l
r
I|
n
I|
_
0
_
_
_

I=l
T

|=l
r
I|
r
0
I|
_
l
Eciency
It will not be an ecient estimator, because the structure of the error term
induces autocorrelation: 1(n
I|
n
Is
) = o
2
u
when t ,= :. The variance-covariance
matrix above incorporates the fact that unobserved individual characteristics
introduce autocorrelation in the error term. The practical consequence of the
described autocorrelation is that with the panel data we have less information
than with T independent observations.
Unobservable individual eects We now suppose that some of the indi-
vidual eects are not observable, and we include them into a single variable c
I
.
Let us denote n
I|
= -
I|
c
I
, i = 1, 2, ..., ; t = 1, 2, ..., T. That would have two
implications:
1. if any of the unobservables in c
I
is correlated with any of the r
I|
variables,
then condition i) above will no longer hold, and the pooled least squares
estimate will be biased and inconsistent,
14
This is the generalization of the standard variance-covariance matrix for the OLS estima-
tor: (
^
o
C1S
) = (A
0
A)
1
(A
0
A)(A
0
A)
1
15
Since A
.
=
_
_
a
.11
... a
.1T
... ... ...
a
.I1
... a
.IT
_
_
, then:

^
.=1
A
0
.
A
.
=

^
.=1
_
_

T
I=1
a
2
.1I
...

T
I=1
a
.1I
a
.II
... ... ...

T
I=1
a
.II
a
.1I
...

T
I=1
a
2
.II
_
_
,the same IaI matrix we obtain
from adding up over i = 1, 2, ..., . and over time the IaI matrices of products:
a
.I
a
0
.I
=
_
_
a
.1I
...
a
.II
_
_
_
a
.1I
... a
.II
_
152
2. estimating by pooled least-squares we have that the presence of individual
eects in the error term introduces a specic form of autocorrelation,
because error terms corresponding to a same individual will be correlated
with each other:
1(n
I|
n
Is
) = o
2
o
, t ,= :
The estimate of the variance-covariance matrix proposed in White (19xx) is
robust against possible cross correlation among error terms across equations in
the same time period, or against a dierent variance for the error term in each
equation (time-varying variances). The conditional variance is also allowed to
depend on A
I
arbitrarily. However, it does not take into account the possible
autocorrelation of the error term, as it will be the case if we estimate by Pooled
least-squares the Fixed Eects model. This is taken into account in the esti-
mate proposed above. Alternatively, we can follow the Newey-West approach
to obtain a panel-robust estimate of the variance-covariance matrix:
(

,
1OJS
) =
_

I=l
A
0
I
A
I
_
l
_

I=l
A
0
I
n
I
n
0
I
A
I
__

I=l
A
0
I
A
I
_
l
=
_

I=l
T

|=l
r
I|
r
0
I|
_
l
_

I=l
T

|=l
T

s=l
( n
I|
r
I|
) ( n
Is
r
Is
)
0
__

I=l
T

|=l
r
I|
r
0
I|
_
l
If the conditional covariance of n
I|
is independent of r
Is
for all :, then,
(

,
1OJS
) =
_

I=l
T

|=l
r
I|
r
0
I|
_
l
_
T

|=l
T

s=l
_

I=l
n
I|
n
Is
_
r
I|
r
0
Is
__

I=l
T

|=l
r
I|
r
0
I|
_
l
We need to be aware of the fact that the term robust applied to the variance-
covariance matrix produced by some statistical packages may refer to just the
correction for heteroskedasticity. However, in many relevant cases, the impor-
tant eect in panel data is the autocorrelation induced by the repeated obser-
vations in a same individual.
Example: Using the Cornwell-Ruport (1988) data set, Green (6ed.), p187,
example 9.1, show estimates of the returns to schooling by an equation in which
logged wages are explained by working experience, their squared value, weeks
worked, years of education, and a set of dummy variables to represent whether
a given worker: has a blue collar occupation, works in manufacturing industry,
resides in the south, resides in an SMSA, is married, the wage is set by a union
contract, is a female, is black. The sample is made of 595 workers, which are
followed over a 7-year period, 1976-1982. Each year of education is estimated
to increase wages by 5.67%. OLS standard errors are in this example of similar
size to Whites robust standard errors, while both of them are about half size
153
of the Panel robust standard errors. It means that ignoring the within-group
correlations in this case matters a lot, substantially aecting inference through
the implied autocorrelation of the error term.
The model can also be estimated using individual sample means, for a sample
of 595 observations. We will still have the inconsistency of least-squares esti-
mates in the xed eects model, but the within-group autocorrelation now dis-
appears. Table 9.2 in Green (6ed.) shows similar coecient estimates. Whites
robust standard errors are now similar to the Panel robust standard errors for
the whole Panel data sample.
7.2.2 Hypothesis testing
Linear hypothesis of the form: H
0
: 1, = r can be tested by the usual Wald
statistic:
\ = (1, r)
0
_
1(

,
1OJS
)1
0
_
(1, = r)
that obeys a chi-square distribution with degrees of freedom, being the
number of rows in 1 and r (the number of independent restrictions being tested).
7.2.3 Generalized pooled least squares estimation
When we have some structure on the form of the conditional covariance matrix
of n
I
, we can prefer to use GLS estimation, in search of improved eciency.
Since we use random sampling, the unconditional covariance matrix should be
the same for each observation unit: \ = 1(n
I
n
0
I
), a TxT matrix. As usual, the
numerical values of the elements in the variance-covariance will be unknown, and
we will have to estimate them rst, then moving into what is usually known as
Feasible GLS estimation (1G1o).
Remember we have one equation for each time period, with observa-
tions in each equation. It is important to bear in mind that consistency of
GLS estimator needs of a stronger condition on lack of correlation between
explanatory variables and error terms. Now, each element in A
I
must be un-
correlated with n
I
[Wooldridge (2002)]. This is because for consistency we now
need j lim
_
l

I=l
A
0
I
\n
I
_
= 0. A typical case when this will not hold is in
dynamic panel data estimates under autocorrelation of the error term.
To construct the G1o estimator, we would follow the standard practice of
pre-multiplying the equation by \
l/2
, and:

,
cJS
=
_

I=l
A
0
I
\A
I
_
l
_

I=l
A
0
I
\j
I
_
The reason to need a more strict condition on lack of correlation to show
consistency is that we now need: 1(A
0
I
\n
I
) = 0
|
.The asymptotic distribution
is:
154
_

,
cJS
,
_

J

_
0,
l
1
l
_
where = 1(A
0
I
\
l
A
I
) and 1 = 1(A
0
I
\
l
n
I
n
0
I
\
l
A
I
) which are estimated
by using a consistent estimate

\ of \ , computed using the residuals from a rst-
step set of consistent, but inecient least squares regressions.
In most applications, it is natural to assume that: 1(A
0
I
\
l
n
I
n
0
I
\
l
A
I
) =
1(A
0
I
\
l
A
I
) , which implies 1 = and hence, the asymptotic variance of

,
cJS
becomes: (

,
cJS
) =
l
, =
_
1(A
0
I
\
l
A
I
)

l
,, which can be esti-
mated by:

(

,
cJS
) = (

I=l
A
0
I
\
l
A
I
). This assumption essentially requires
conditional homoskedasticity (constant conditional variances and covariances),
i.c., that the expectation 1(n
0
I
\
l
A
I
) does not depend on A
I
.
7.3 The Fixed Eects model
This model embeds the idea that all the unobservable individual eects for each
observation are aggregated in a single term c
I
.Under the assumption that:
1(c
I
,A
I
) = /(A
I
),
is constant over time, that constant being the Fixed individual Eect, each
individual eect c
I
can be treated as an unknown parameter to be estimated,
and we get a linear regression model in which the intercept is allowed to vary
across individuals,
j
I|
= c
I
r
0
I|
, n
I|
,
with
n
I|
= -
I|
(c
I
/(A
I
)) , nit/ -
I|
~ i., i.d.(0, o
2
:
)
The model will usually imply a rather large number of regressors which
it could lead to a noticeable loss of precision. It can be implemented in a
simpler way by taking into account that individual eects disappear if we apply
the Within transformation, to transform the data in deviations with respect
to individual means. Taking averages in the previous equation: n
I
= -
I

(c
I
/(A
I
)) , so that n
I|
n
I
= -
I|
-
I
, and:
j
I|
j
I
= (r
I|
r
I
)
0
, (-
I|
-
I
), i = 1, 2, ..., ; t = 1, 2, ..., T
Applying least squares to this model, we get the Within estimator of the
Fixed Eects model,

,
JJ
=
_

I=l
T

|=l
(r
I|
r
I
)
0
(r
I|
r
I
)
_
l

I=l
T

|=l
(r
I|
r
I
)
0
(j
I|
j
I
);
155
The estimator will be consistent as if 1[(r
I|
r
I
)-
I|
[ = 0.This will
hold if r
I|
is uncorrelated with -
I|
and r
I
has no correlation with the error
term. These are implied by strict exogeneity of the regressors:
1(r
I|
-
Is
) = 0 \t, :
Strict exogeneity precludes the inclusion in r
I|
of lagged dependent vari-
ables or variables that depend upon the history of j
I|
. For instance, explaining
labour supply of an individual, we may want to include as a regressor years of
experience, but experience will clearly depend upon the persons labour history.
By applying the Within transformation, the individual specic constant
characteristics will have dropped from the model. Individual eects can later
be recovered by,
c
I
= j
I
r
I
0

,
JJ
, i = 1, 2, ...,
which are unbiased, but will not be consistent if just the cross-section di-
mension tends to innity. For consistency we will need T . The reason
that these are not consistent as if T is short is that that leaves us with
a very limited amount of information to estimate each individual xed eect,
and r and j averages do not converge to any well dened limit as the number
of individuals increases. This is an interesting situation in which it is possible
to estimate the , coecients consistently, even if the c
I
cannot be estimated
consistently because of a short time dimension.
As we can see, we can just recover a single c
I
variable for each individual,
which is the reason why the specic eects for a same infdividual need to be
considered as aggregated in a single variable c
I
.
If there are some observed individual eects .
I
, their joint inuence can be
recovered by regression,
( j
I
r
I
0

,
JJ
) = .
0
I

_
c
I
-
I
r
I
0
_

,
JJ
,
__
leading to consistent estimates of if each variable in vector . is uncorrelated
with -
I|
and with c
I
. As in the case of the unobservable, time invariant individual
eects, the estimated coecient will not be very reliable with a short time
dimension T .
The variance-covariance matrix,
\ ar(

,
JJ
) = o
2
t
_

I=l
T

|=l
(r
I|
r
I
)
0
(r
I|
r
I
)
_
l
assumes that individual eects are independent across individuals and time.
Unless T is large, this will underestimate the true variance. The reason is that
the error covariance matrix in the transformed regression is singular (since the
T transformed errors for each individual add up to zero), and the variance of
-
I|
-
I
is (T 1),To
2
:
, rather than o
2
:
. If, for instance, T = 8, then the variance
156
of -
I|
-
I
will be
2c
2
z
3
. A consistent estimator for o
2
:
can obtained from the
Within groups estimation,
o
2
:
=
1
(T 1)

I=l
T

|=l
(j
I|
c
I
r
0
I|

,
JJ
)
2
=
1
(T 1)

I=l
T

|=l
_
(j
I|
j
I
) (r
I|
r
I
)
0

,
JJ
_
2
although the appropriate number of degrees of freedom would be (T1)/,
and we will have to introduce a correction factor.
A panel-robust estimate of the variance-covariance matrix is,
(

,
1OJS
) =
_

I=l
T

|=l
(r
I|
r
I
) (r
I|
r
I
)
0
_
l
_
T

|=l
T

s=l

I=l
(-
I|
-
I
) (-
Is
-
I
)
0
(r
Is
r
I
) (r
I|
r
I
)
0
_
.
.
_

I=l
T

|=l
(r
I|
r
I
) (r
I|
r
I
)
0
_
l
A variance for individual eects can be obtained from:
\ ar( c
I
) =
o
2
t
T
r
0
I
\ ar(

,
JJ
) r
I
showing that estimates of individual eects c
I
are inconsistent, since even
though \ ar(

,
JJ
) converges to zero with , that is not the case with the rst
term in \ ar( c
I
). This is because of estimating each individual eect with a
small number T of observations.
Dening individual dummy variables (1
I
= 1,if i = ,, , = 1, 2, ..., , and
1
I
= 0 otherwise) the model can also be written,
j
I|
=

=l
c

1
I
r
0
I|
, -
I|
which is known as the least squares dummy variable (LSDV) estimator. As men-
tioned above, a limitation of this model is that all time invariant, unobservable
individual eects get confused with each other in a single c
I
variable for each
individual, and we are just able to estimate their aggregate inuence over j
I|
.
7.3.1 Testing the signicance of the group eects
Even though we can use the above results to tests for signicance of either one
of the individual eects, the natural hypothesis is to test that they are all equal
to each other. If that is the case, the restricted model leads to the pooled least
squares estimate, and we have an 1-test,
1( 1, T /) =
(1
2
JS1\
1
2
1OJS
),( 1)
(1 1
2
JS1\
),(T /)
157
The correction for the 1-test comes from the fact that in the Pooled OLS
estimator we have T / 1 coecients, while in the 1o1\ estimator we
estimated T / coecients, with a dierence of 1.
7.3.2 Fixed time eects
The model can be extended to accommodate xed time eects through time
dummy variables. However, to avoid perfect collinearity, we should just include
T 1 of the possible time eects. Alternatively, we can specify the model,
j
I|
= r
0
I|
, j c
I
c
|
-
I|
, nit/

I=l
c
I
=
T

|=l
c
|
= 0
Least-squares estimates of the slopes , can be obtained by a regression of
j

I|
on vector r

I|
, with,
j

I|
= j
I|
j
I
j
|
j
where j
I
= T
l

T
|=l
j
I|
, j
|
=
l

|=l
j
I|
, j =
l
T
l

|=l

T
|=l
j
I|
,
and similar expressions apply to vector r.
Once we have estimates for the vector ,, we can recover estimates for the
remaining parameters from,
j = j r
0

,
c
I
= ( j
I
j) ( r
I
r)
0

,
c
|
= ( j
|
j) ( r
|
r)
0

,
The variance-covariance matrix is obtained from the standard cross-moment
product of transformed explanatory variables, with an estimate of o
2
:
being
obtained from o
2
:
= 1oo,[T (1) (T 1) /1[. As we will see below,
there are more general models allowing for time eects.
Example: Green (6ed.), ex. 9.4, estimates the model in the previous ex-
ample, for logged wages, with a constant intercept and T 1 time dummies.
The constant individual characteristics: education, sex (female-dummy) and
race (white-dummy), need to be dropped now, so that we lose the main inter-
est of estimating the returns to education. Pooled least squares estimates are
obtained for an initial specication that includes a single, common intercept
and no time dummies. A second model includes again a single intercept but
also time dummies. A third specication allows allowing for individual specic
intercepts and no xed time eects, while a nal model allows for both, xed
time and individual characteristics. In this nal specication, we need to drop
an additional time dummy variable, because the Experience variable is a nat-
ural time trend. The signicance of individual eects and/or xed time eects
can now be tested by comparing the Residual Sums of Squares of appropriately
chosen specications. Green also suggests comparing the conventional estimate
158
and the robust estimate, the latter with data in group mean deviations form, of
the variance-covariance matrices as a specication test for the individual eects
model. If the specication is correct, there should not be any heterogeneity in
the error term and hence, not heteroscedasticity or autocorrelation left. In the
example, robust standard errors are of the order of 20 times as large as the
conventional ones, clearly pointing out to misspecication errors.
7.4 Within and between estimators
The original Panel data specication,
j
I|
= c
I
r
0
I|
, -
I|
can be written in terms of group means,
j
I
= c
I
r
0
I
, -
I
and in deviations from group means:
j
I|
j
I
= (r
I|
r
I
)
0
, (-
I|
-
I
)
All three models could be consistently estimated (although possibly not ef-
ciently) by least-squares. Consider the overall second order matrices,
o
|o|ol
rr
=

I=l
T

|=l
(r
I|
r) (r
I|
r)
0
; o
|o|ol
r
=

I=l
T

|=l
(r
I|
r) (j
I|
j)
0
the within group matrices,
o
uI||In
rr
=

I=l
T

|=l
(r
I|
r
I
) (r
I|
r
I
)
0
; o
uI||In
r
=

I=l
T

|=l
(r
I|
r
I
) (j
I|
j
I
)
0
and the between-groups matrices,
o
bt|uttn
rr
=

I=l
T

|=l
( r
I
r) ( r
I
r)
0
= T

I=l
( r
I
r) ( r
I
r)
0
;
o
bt|uttn
r
=

I=l
T

|=l
( r
I
r) ( j
I
j)
0
= T

I=l
( r
I
r) ( j
I
j)
0
Notice that:

I=l
T

|=l
(r
I|
r
I
) ( r
I
r)
0
=

I=l
_
T

|=l
(r
I|
r
I
)
_
( r
I
r)
0
= 0
159
because the inside bracket is equal to zero. Therefore, we have,

I=l
T

|=l
(r
I|
r) (r
I|
r)
0
=

I=l
T

|=l
(r
I|
r
I
) (r
I|
r
I
)
0
T

I=l
( r
I
r) ( r
I
r)
0
so that,
o
|o|ol
rr
= o
uI||In
rr
o
bt|uttn
rr
, o
|o|ol
r
= o
uI||In
r
o
bt|uttn
r
,
7.4.1 The Within groups estimator
The Within-groups estimator is dened,

,
uI||In
=
_
o
uI||In
rr

l
o
uI||In
r
=
_

I=l
T

|=l
(r
I|
r
I
) (r
I|
r
I
)
0
_
l
_

I=l
T

|=l
(r
I|
r
I
) (j
I|
j
I
)
_
so that it is the OLS estimator in the model,
j
I|
j
I
= (r
I|
r
I
)
0
, (-
I|
-
I
) , 1, 2, ...,
where the possible individual specic intercepts have cancelled out. For that
reason, it yields consistent estimates of the panel data model under the Fixed
Eects assumption, whereas the Pooled OLS and the Between estimator that
we are about to see, do not. The Within Groups estimator is the same as
the Fixed Eects estimator and the Least-Squares Dummy Variable estimator
that we saw above. It can also be thought of as estimating regressions from
dependent and time-varying independent variables on individual dummies and
estimating a regression between the residuals from these auxiliary regressions.
Of course, the limitation of this approach is the impossibility to estimate the
coecients of time-invariant individual characteristics like race and gender.
7.4.2 The Between groups estimator
The Between groups estimator above is obtained applying least squares to the
data averaged for each individual, in deviations from the global sample average,
j
I
j = ( r
I
r)
0
, (c
I
-
I
) , 1, 2, ...,
so that,

,
bt|uttn
=
_

I=l
( r
I
r)
0
( r
I
r)
_
l
_

I=l
( r
I
r)
0
( j
I
j)
_
=
_
o
bt|uttn
rr

l
o
bt|uttn
r
This estimator is a cross section regression with data points.The Between
groups estimator uses just the cross-sectional variation in the data, while the
160
pooled OLS estimator uses variation both over time and across individuals. The
Between groups estimator uses only information on how each individual diers
from the global average, ignoring the variation over time for each individual in
the sample.
An interesting feature of the Between estimator is that it tends to reduce the
eect of measurement errors, since it uses time averages. It would be consistent
with T but that is un unlikely condition in most panel data sets.
Strong exogeneity is needed for consistency, since we need the individual
means r
I
to be uncorrelated with c
I
. Sucient, although not necessary con-
ditions for consistency are: 1(c
I
r
I|
) = 0\t, and 1(-
I|
r
Is
) = 0\:, t. These are
of course very strict assumptions. The problem is that the transformation in
dierences with respect to group or individual means does not solve the issue of
the possible correlation between unobserved individual characteristics and ob-
served explanatory variables: 1(c
I
,A
I
) = /(A
I
). Mundlak (1978) analyzes the
case when it can be assumed that such expectation is a function of the group
means: 1(c
I
,A
I
) = r
0
I
. We would then have: j
I|
= j r
0
I|
, r
0
I
-
I|
,
and taking averages: j
I
= r
0
I
(, ) -
I
, so that with the Between estimator
we would be estimating the sum , ,a biased estimator of the partial eects
, we are interested on.
Even when it is consistent, the Between estimator will be inecient, since it
does not exploit the structure of autocorrelation and heteroscedasticity in the
error term.
Relationship among estimators
The least-squares estimator can be written,

,
|o|ol
=
_
o
|o|ol
rr

l
o
|o|ol
r
=
_
o
uI||In
rr
o
bt|uttn
rr

l
_
o
uI||In
r
o
bt|uttn
r

=
=
_
o
uI||In
rr
o
bt|uttn
rr

l
_
o
uI||In
rr

,
VI||In
o
bt|uttn
rr

,
1t|uttn
_
and if we dene:
1
V
=
_
o
uI||In
rr
o
bt|uttn
rr

l
o
uI||In
r
1
1
= 1 1
V
=
_
o
uI||In
rr
o
bt|uttn
rr

l
_
o
uI||In
rr
o
bt|uttn
rr

_
o
uI||In
rr
o
bt|uttn
rr

l
o
uI||In
r
=
=
_
o
uI||In
rr
o
bt|uttn
rr

l
o
bt|uttn
r
then,

,
|o|ol
= 1
V

,
V
1
1

,
1
so that the least-squares estimater can be written as a matrix linear convex
combination of the Within and the Between estimators:

,
|o|ol
= 1

,
uI||In

(1 1)

,
bt|uttn
. We will later see that it is not the only estimator admitting
such a representation.
161
7.5 Estimating in rst dierences
An alternative transformation that eliminates individual eects is to take time
dierences in the model, obtaining:
^j
I|
= ^r
0
I|
, ^-
I|
, i = 1, 2, ..., , t = 2, 8, .., T
even though if the error term of the original model was a white noise, the
error term in the rst-dierenced model will have a MA(1) structure, with rst-
order autocorrelation. So, we have changed the autocorrelation structure of the
error term.
Estimating in First dierences is useful no matter whether the Random
Eects or the Fixed Eects models are appropriate. Estimating in First dier-
ences may be specially indicated in panels with a very short time dimension,
for which individual sample means may be subject to important sampling error.
However, a limitation of this approach is again the impossibility to estimate the
coecients in any time invariant explanatory variable.
Consistency of the First-dierences estimator requires,
1 [(-
I|
-
I,|l
) , (r
I|
r
I,|l
)[ = 0
a stronger condition than 1 [-
I|
,r
I|
[ = 0, but weaker than the strong exo-
geneity condition that is need for consistency of the Within estimator.
We have,
\ ar(^-
I|
) = o
2
H
where H is a symmetric, (T 1)x(T 1) matrix whose elements are equal to
+2 along the main diagonal, equal to -1 in the two diagonals next to the main
diagonal, and equal to -1 everywhere else.
The least squares estimator is:

, =
_

I=l
(^r
I|
) (^r
I|
)
0
_
l
_

I=l
(^r
I|
) (^j
I|
)
_
\ ar(

,) = o
2
:
_

I=l
(^r
I|
) (^r
I|
)
0
_
l
_

I=l
(^r
I|
) H (^r
I|
)
0
__

I=l
(^r
I|
) (^r
I|
)
0
_
l
This approach will provide consistent, although inecient, estimates. Ma-
trices in these expressions have T 1 rows. An alternative would be to use the
Newey-West robust estimate of the variance-covariance matrix, since we know
the exact order of autocorrelation in the error term.
Since the structure of the covariance matrix of the error term is known, we
could also try to improve eciency by using Generalized least squares:

, =

, =
_

I=l
(^r
I|
) H
l
(^r
I|
)
0
_
l
_

I=l
(^r
I|
) H
l
(^j
I|
)
_
162
In practice, it is usually the case that Generalized least squares estimates
in levels and in rst dierences are noticeably dierent, which suggests the
existence of unobservable individual eects that bias the estimation in levels.
This approach is not preferable to other estimation methods.
It is specically appropriate for estimation of Treatment eects in two-period
panels, with a specication like,
j
I|
= c
I
r
0
I|
, 0o
|
-
I|
,
with t = 1, 2, where o
|
= 0 in t = 1, and o
|
= 1 in t = 2. The rst period is
the before-treatment period, while the second period comes after the treatment
has been applied. The treatment eect is:
1 [^j
I|
[ (^r
I|
= 0)[ = 0,
which it can therefore be estimated as the constant in the model in rst
dierences.
The rst-dierences estimator is less ecient that the Within estimator for
T 2 if -
I|
is i., i.d.. It coincides with the between estimator in panels with
T = 2, since: j
Il
j = j
Il

12
2
=
1112
2
and j
I2
j = j
I2

12
2
=
1112
2
,
and similarly for the r
I|
variables. Under the assumption that the -
I|
are i.,i.d.,
then it can be shown that the GLS estimator of the First-dierences model
equals the Within estimator. However, the First-Dierenced model estimates
the rst dierenced equation by OLS and it is therefore less ecient than the
Within estimator.
7.6 The Random Eects estimator
Under this approach, we view all the factors that aect the dependent variable
and have not been included as regressors, as being included in the random error
term. The usual assumption for this model is that the unobserved c
I
-terms are
independently and identically distributed across individuals. The model is then,
j
I|
= j r
0
I|
, (c
I
-
I|
), -
I|
~ i., i.d.(0, o
2
:
), c
I
~ i., i.d.(0, o
2
o
)
with assumptions:
1(-
I|
,A) = 1(c
I
,A) = 0, \i
1(-
2
I|
,A) = o
2
:
1(c
2
I
,A) = o
2
o
1(-
I|
c

,A) = 0 \i, ,, t
1(-
I|
-
s
,A) = 0 \t ,= :, i ,= ,
1(c
I
c

,A) = 0 \i ,= ,
163
Even if -
I|
is uncorrelated, there will be some serial correlation in the error
terms c
I
-
I|
, coming from the c
I
component. We assume that the components
c
I
and -
I|
are independent from each other, as well as independent of the
explanatory variables r
Is
for all time periods t, :. This leads to a particular form
of time correlation, and the standard OLS covariance matrix is inappropriate,
while the estimator itself is inecient. For each individual i, all error terms can
be stacked as the Tx1 column vector: c
I
1
T
-
I|
, with covariance matrix,
\ ar (c
I
1
T
-
I|
) = \ = o
2
o
1
T
1
0
T
o
2
:
1
T
=
_
_
_
_
_
_
o
2
:
o
2
o
o
2
o
... o
2
o
o
2
o
o
2
o
o
2
:
o
2
o
... o
2
o
o
2
o
... ... ... ... ...
o
2
o
o
2
o
... o
2
:
o
2
o
o
2
o
o
2
o
o
2
o
... o
2
o
o
2
:
o
2
o
_
_
_
_
_
_
To compute the GLS estimator, we transform the data by premultiplying
each vector of variables by \
l
, where:
\
l
= o
2
:
_
1
T

o
2
o
o
2
:
To
2
o
1
T
1
0
T
_
= o
2
:
__
1
T

1
T
1
T
1
0
T
_
c
1
T
1
T
1
0
T
_
where: c =
c
2
z
c
2
z
Tc
2
c
. Since 1
T

l
T
1
T
1
0
T
transforms the data in deviations
from their individual means and
l
T
1
T
1
0
T
takes individual means, the GLS esti-
mator for , can be written as,

,
cJS
=
_

I=l
T

|=l
(r
I|
r
I
)
0
(r
I|
r
I
) cT

I=l
( r
I
r)
0
( r
I
r)
_
l
_

I=l
T

|=l
(r
I|
r
I
)
0
(j
I|
j
I
) cT

I=l
( r
I
r)
0
( j
I
j)
_
Two special cases deserve some discussion:
when T , the unobserved becomes observable, and it is unlikely that
c
I
can be constant, unless it is not random. The Fixed Eects estimator
would then be ecient, and it would coincide with GLS,
if o
2
:
,o
2
o
0, then the stochastic component is dominated by c
I
, which
are constant over time, so we are left again with the Fixed Eects estima-
tor. In these two cases, the GLS estimator coincides with the Fixed Eects
estimator.
7.7 Relationship to other estimators
As it was the case with the Pooled OLS estimator, we can show that the Random
Eects GLS estimator is a vector convex linear combination of the Between and
the Fixed Eects estimators.
164
From the general expression for the GLS estimator, it can be shown that,

,
cJS
= (1
|
^)

,
1
^

,
JJ
where:
^ =
_
o
uI||In
rr
co
bt|uttn
rr

l
o
uI||In
rr
=
= cT
_

I=l
T

|=l
(r
I|
r
I
)
0
(r
I|
r
I
) cT

I=l
( r
I.
r)
0
( r
I.
r)
_
l
_

I=l
(r
I.
r
I
)
0
(r
I.
r
I
)
_
with c being the parameter that we dened above: c =
c
2
z
c
2
z
Tc
2
c
.
The matrix ^ is proportional to the inverse of the covariance matrix of

,
1
,
so that the GLS estimator is a matrix-weighted average of the Between and the
Within estimators, where the weight depends on the relative variances of the
two estimators, the more accurate estimator receiving the heavier weight.
The Between estimator discards the time series information in the data set.
The GLS estimator is the optimal combination of the Between and the Within
estimators, and is therefore more ecient than either one of them. The POLS
estimator is also a linear combination of the two estimators, as seen in previous
sections, which diers from the previous one by the presence of the c parameter
in the denition of the ^ weight. It is a special case of the previous linear
combination, for c = 1. Hence, the Pooled OLS estimator is not the ecient
linear combination of the Between and the Fixed Eects estimators. GLS will
be more ecient than OLS, as usual.
It is easy to see that for c = 0 we get the Fixed Eects or Within estimator,
since then, ^ = 0. As we saw above, since c 0 when T , it follows that
the Random Eects and the Fixed Eects estimators are equivalent for large
T. If c = 1, the GLS estimator reduces to the Pooled OLS estimator. The c
parameter can be thought of as being the relevance given to variation across
individuals in the panel. The Fixed Eects or Within estimator, with c = 0,
ignores that variation. The Pooled least squares estimator, with c = 1, assigns
to variation across individuals the same importance as to the variation over time
among observations from a given individual, without taking into account that
some of their variability comes from variation in c
I
across individuals.
The GLS estimator will be unbiased if the explanatory variables are inde-
pendent of all -
I|
and all c
I
. It will be consistent for or T or both tending to
innity if in addition to i ) 1[(r
I|
r
I
)-
I|
[ = 0 we also have ii ) 1( r
I
-
I|
) = 0,
and even most importantly, iii ) 1( r
I
c
I
) = 0. These conditions are also required
for the Between estimator to be consistent (Verbeek).
Under weak regularity conditions, the Random eects estimator,

,
1J
, also
known as the Balestra-Nerlove estimator, is asymptotically Normal, with co-
variance matrix,
165
\ ar(

,
1J
) = o
2
:
_

I=l
T

|=l
(r
I|
r
I
)
0
(r
I|
r
I
) cT

I=l
( r
I
r)
0
( r
I
r)
_
l
which shows that the Random Eects estimator is more ecient than the
Fixed Eects estimator as long as c 0. The gain in eciency is due to the use
of the between variation in the data ( r
I
r) as it appears in the second term in
the expression of the variance-covariance matrix. The covariance matrix above
is obtained when estimating by OLS the transformed model (??).
We must remember that if we do not feel very condent on the analytical
structure we are imposing on the variance-covariance matrix of the error term,
we can always proceed by applying ordinary least-squares and a robust inference
by using an appropriately corrected empirical covariance matrix, as explained
in previous sections.
7.7.1 Practical implementation of the Random Eects estimator
An easy way to compute the GLS estimator is obtained by applying OLS to
transformed variables:
j
I|
j
I
= j(1 ) (r
I|
r
I
)
0
, -
I|
where = 1 c
l/2
, so that a xed proportion of the individual means is
subtracted from the data to obtain the transformed model.
The error term in this transformed regression is still i., i.d. over individuals
and over time. Again, = 1 (c = 0) corresponds to the Fixed Eects or Within
estimator, while = 0 corresponds to the Pooled OLS estimator. As T
, 1, and we get the Fixed Eects estimator.
We need estimates of the variances of the two error components c
I
and -
I
,to
implement GLS. To that end, we use the variance of the Fixed Eects residuals,
with denominator T / as the estimate of o
2
:
. The denominator relfects
the fact that we are estimating intercepts and / slope coecients. The error
variance for the Between regression is o
2
o
o
2
:
,T, which can be consistently
estimated by,
o
2
1
=
1
/

I=l
( j
I
j
1
r
0
I

,
1
)
2
This leads to a consistent estimator for o
2
o
:
o
2
o
= o
2
1

1
T
o
2
:
Again, the correction for degrees of freedom can be achieved by subtracting
/ 1 from the denominator of o
2
1
.
As an alternative, Green (6 ed.) proposes the equality,
166
o
2
1OJS
= o
2
:
o
2
o
to compute an estimate of o
2
o
after estimating by POLS and Fixed Eects.
The Residual sum of squares from the Pooled OLS estimator must be divided
by T / 1, since there is a single intercept.
7.7.2 Summary
The Between estimator exploits the dierences between individuals, and
it is determined as OLS in a regression of individual averages. Consis-
tency, for , requires two types of conditions: i ) 1( r
I
c
I
) = 0, and
ii ) 1( r
I
-
I
) = 0, which will usually require explanatory variables to be
uncorrelated with the individual eects c
I
, as well as strictly exogenous.
The Fixed Eects (or Within) estimator exploits the dierences within
individuals, and it is determined as OLS in a regression using all observa-
tions in deviations from individual means. It is consistent for T or
provided 1[(r
I|
r
I
)-
I|
[ = 0. This requires explanatory variables
to be strictly exogenous, but it does not impose any restrictions upon the
relationship between r
I|
and c
I
.
The OLS estimator exploits both dimensions, although less than eciently.
It is determined as OLS in the original model, and it can be written as
a convex linear combination of the two previous estimators. Consistency
for T or requires that 1[r
I|
(-
I|
c
I
)[ = 0. This requires
explanatory variables to be uncorrelated with c
I
, but it does not impose
that they are strictly exogenous. It suces with r
I|
and -
I|
to be contem-
poraneously uncorrelated. It also requires explanatory variables to have
no correlation with the unobservable individual eects c
I
.
The Random eects estimator combines the information in the Between
and the Within estimators in an ecient way. It is consistent for T
or under the combined conditions that imply consistency for the
Between and the Within estimators. It can be obtained as the ecient
weighted average of the Within and the Between estimators, or as the
OLS estimator in a regression with variables transformed as j
I|
j
I
,
with = 1 c
l/2
= 1
_
c
2
z
c
2
z
Tc
2
c
.
Fixed Eects estimation is a conditional analysis, measuring the eects of
r
I|
on j
I|
, controlling for the individual eects c
I
. Prediction is possible
only for individuals in the particular sample being used, and even then
it is only possible if the panel is long enough that c
I
can be consistently
estimated. Random Eects estimation is instead an example of marginal
analysis or population averaged analysis, as the individual eects are in-
tegrated out as i., i.d. random variables. The Random Eects estimator
can be applied outside the sample. If the true model is a Random Eects
167
model, then whether to perform a conditional or marginal analysis will
vary with the application. If analysis is for a random sample of countries,
then one uses random eects, but if one is intrinsically interested in the
particular countries in the sample, then one does Fixed Eects estimation
even though this can entail a loss of eciency. However, if some unob-
served individual specic eects are correlated with regressors, then the
Random Eects estimator does not make sense, being inconsistent, and
we will need either the Fixed Eects estimator or the First Dierences
estimator.
7.7.3 Testing for random eects
The treatment applied to the individual eects can imply substantial dierences
in numerical estimates in the usual case in which the time dimension of the panel
data is small. The Fixed eects approach 1(j
I|
,r
I|
) = r
0
I|
, c
I
is conditional
upon the values for c
I
. It considers the distribution of j
I|
given c
I
, where the c
0
I
:
can be estimated. This makes sense if the individuals in the sample are "one of a
kind", and cannot be taken as random draws from some underlying population.
That would be the case if the number of units is relatively small. Inferences
are made with respect to the eects that happen to be included in the sample.
The Random eects approach 1(j
I|
,r
I|
) = r
0
I|
, is not conditional upon the
individual c
0
I
: but "integrates them out". We are then not usually interested in
the value of c
I
for a given individual. Inferences are made with respect to the
population characteristics.
Even if we are interested in a large number of individual units and the
Random eects approach seems appropriate, we may prefer the Fixed eects
estimator if r
I|
is clearly correlated with c
I
, since that would lead to inconsistent
least-squares estimators as used in the Random eects estimator. This problem
disappears in the Fixed eects estimator because c
I
is eliminated from the
model.
Hausman test Hausman (1978) suggested a test for the null hypothesis that
r
I|
and c
I
are uncorrelated. Two estimators are compared: one that it is con-
sistent under both the null and alternative hypothesis, and a second estimator
which is consistent only under the null hypothesis. A signicant dierence be-
tween both estimators is interpreted as the null hypothesis not being true. In
our case, the Fixed Eects estimator is consistent with independence of the pos-
sible correlation between r
I|
and c
I
, while the Random Eects estimator will
be consistent and ecient only if the null hypothesis of lack of correlation is
true. Usually, to compare the two estimators, we would have to compute the
covariance between the two estimates.
The essential result in Hausman (1978) is that the covariance between an
ecient estimator and its dierence with respect to an inecient estimator is
zero. Hence, since the Random Eects estimator is ecient under the null, then
if the null hypothesis is true, we will have:
168
Co(

,
1J
,

,
JJ

,
1J
) = 0
so that,
Co(

,
1J
,

,
JJ
) = \ ar(

,
1J
)
and therefore,
\ ar(

,
JJ

,
1J
) = \ ar(

,
JJ
) \ ar(

,
1J
)
and the test statistic is computed as:
H = (

,
JJ

,
1J
)
0
_
\ ar(

,
JJ
) \ ar(

,
1J
)
_
l
(

,
JJ

,
1J
)
where the two variance-covariance matrices must be substituted by their re-
spective estimates. Under the null hypothesis, the statistic follows a chi-squared
distribution with / degrees of freedom, where / is the number of elements in ,.
A word of caution: the matrix in square brackets may not be positive denite
in small samples. We should in that case conclude that the covariance matrices
are not dierent, thereby not rejecting the Random eects model, since if the
two estimators were dierent, then the statistic should be positive and relatively
large. Even if the statistic turned out to be negative, we would still be able to
implement the test for a subset of elements in ,. Another strategy would be to
move to asymptoticalley equivalent versions of the test statistic. One of them
is,
H = (

,
JJ

,
1
)
0
_
\ ar(

,
JJ
) \ ar(

,
1
)
_
l
(

,
JJ

,
1
)
Hausman test can be applied to any other pair of estimators with properties
similar to the ones we have used here, as the estimator in First dierences versus
the Pooled OLS estimator, since, in the absence of Random Eects, the POLS
estimator is ecient.
Alternative tests for the comparison between the Fixed Eects and
the Random Eects models When we introduced the Between estima-
tor, we mentioned Mundlak (1978) assumption that the conditional expectation
1(c
I
,A
I
) can be assumed to be a function of the group means: 1(c
I
,A
I
) = r
0
I
. That led to the model:
j
I|
= j r
0
I|
, r
0
I
-
I|
Mundlaks assumption preserves the specication of the Random Eects
model while modelling the correlation between individual eects and the ob-
served time varying explanatory variables. This specication is also a com-
promise between the Fixed Eects model and the Random Eects model, the
dierence between them coming from the vector of coecients . Hence, a sig-
nicance test for this vector of coecients is an alternative to the Hausman
169
specication testy described above, so long as the assumption on 1(c
I
,A
I
) is
approximately correct.
An asymptotically equivalent way to implement the specication test is to
perform the Wald test of = 0 in the auxiliary OLS regression,
j
I|
j
I
= (1 ) j (r
I|
r
I
)
0
,
l
(r
I|
r
I
)
0
n
I|
where is the same parameter used in the alternative implementation of the
Random Eects estimator, which is a special case for = 0. If instead, the Fixed
Eects estimator is appropriate, then the error term (n
I|
= (1 )c
I
(-
I|
-
I
))
will be correlated with the regressors, and additional functions of the regressors
such as (r
I|
r
I
) may have signicant coecients in the previous equation.
Breusch and Pagan (1980) proposed a Lagrange multiplier type of test for
signicance of random eects, H
0
: o
2
o
= 0, versus the alternative that it is
positive, based on OLS residuals. We therefore, test for lack of autocorrelation
in the sum -
I|
c
I
. The Lagrange multiplier statistic,
1' =
T
2(T 1)
_

I=l
_

T
|=l
-
I|
_
2

I=l

T
|=l
-
2
I|
1
_

_
2
=
T
2(T 1)
_

I=l
_
T-
I

I=l

T
|=l
-
2
I|
1
_
2
follows a chi-square distribution with one degree of freedom. The residuals
in this expression come from the restricted model, estimated with OLS.
Example: Green (6ed., examples 9.5 and 9.6) applies this test for the logged
wages model that excludes the time invariant characteristics, and also computes
estimates of the variance component parameters.
7.7.4 Goodness of t in panel data models
Goodness of t under panel data has peculiar features, since we want to weight
dierently the ability of a model to explain the Between and the Within vari-
ation in the data. On the other hand, the 1
2
is appropriate only under OLS
estimation. It is standard to use a 1
2
dened as the square of the correlation
between the actual and tted values, which is always in [0, 1[, and collapses to
the usual 1
2
under OLS estimation. Since Total variation can be decomposed
into Between and Within variation:
1
T
T

|=l

I=l
(j
I|
j)
2
=
1
T
T

|=l

I=l
(j
I|
j
I
)
2

I=l
( j
I
j)
2
The Fixed Eects estimator is constructed to explain the Within variations,
and it maximizes the Within 1
2
:
1
2
uI||In
=
_
corr
_
j
JJ
I|
j
JJ
I
, j
I|
j
_
2
=
_
corr
_
(r
I|
r
I
)

,
JJ
, j
I|
j
__
2
170
The Between estimator maximizes the Between 1
2
:
1
2
bt|uttn
=
_
corr
_
j
1
I
, j
_
2
=
_
corr
_
r
0
I

,
1
, j
__
2
The OLS estimator maximizes the Overall goodness of t:
1
2
out:oll
= [corr j
I|
, j
I|
[
2
where j
I
=
l
T

T
|=l
j
I|
and j
I
=
l
T

j
I|
where the intercept terms are
omitted. If we take into account the variation explained by the estimated
intercepts c
I
, then the xed eects estimator captures perfectly the between
variation. This however, does not mean that it ts the data well, since it is only
that the dummy variables capture the data perfectly, and that should not be
incorporated into a goodness of t measure.
The point is that it is possible to dene Within, Between and Overall
1
2
measures for any arbitrary estimator, using tted values j
I|
and averages
j
I
=
l
T

T
|=l
j
I|
and j
I
=
l
T

T
|=l

I=l
j
I|
, omitting intercept terms. As we
have mentioned, for the Fixed Eects estimator, this would ignore the variation
captured by the c
I
individual intercept estimates.
For the Random Eects estimator, the Within, the Between and the Overall
1
2
will necessarily be smaller than for the Fixed Eects, Between and OLS
estimators, respectively. This again, shows that goodness of t measures by
themselves are not adequate to choose between alternative (potentially non-
nested) specications of the model.
Example: Verbeek (p. 358), logged wages. RATS program.
7.7.5 Instrumental variables estimators of the Random Eects model
As we have seen, the use of the Fixed Eects estimator to solve the problem
of correlation between explanatory variables and individual eects may be un-
desirable, if we are interested in the eect of time invariant variables on the
dependent variable.
The Fixed Eects estimator can be written:

,
JJ
=
_

I=l
T

|=l
(r
I|
r
I
)
0
r
I|
_
l
_

I=l
T

|=l
(r
I|
r
I
)
0
j
I|
_
which can be interpreted as an instrumental variable estimator in model:
j
I|
= j r
0
I|
, c
I
-
I|
where each explanatory variable is instrumented by its value in deviations
from the individual specic mean. Since

I=l

T
|=l
[(r
I|
r
I
)
0
c
I
[ =

I=l
_

T
|=l
(r
I|
r
I
)
0
_
c
I
=
0, then all that it is needed for consistency is 1 [(r
I|
r
I
)
0
-
I|
[ = 0 , which is
implied by the strict exogeneity of the r
I|
variables. If a particular element in
r
I|
happens to be uncorrelated with c
I
, it can be used as its own instrument
without taking dierences with respect to the individual mean. That is the case
171
of time invariant eects, whose eect on the dependent variable can therefore
be estimated under this approach.
The Hausman and Taylor estimator A more general approach was in-
troduced by Hausman and Taylor (1981), in the line of the Random Eects
estimate, as follows: The random eects approach to the linear model:
j
I|
= r
0
I|
, .
0
I
c -
I|
is based on the assumption that the unobserved individual specic eects .
I
are uncorrelated with the included variables r
I|
. This is a major shortcoming,
since it is a very strong assumption to make. However, the Random Eects treat-
ment allows for observed time-invariant characteristics, to appear explicitely in
the estimated model, while the Fixed Eects estimator does not, since they are
absorbed into the xed eects. Hausman and Taylors (1981) estimator sug-
gests a way to overcome the rst limitation while accommodating the second
advantage, and using only the information in the model.
These authors consider the model
j
I|
= r
0
lI|
,
l
r
0
2I|
,
2
.
0
lI
c
l
.
0
2I
c
2
(-
I|
n
I
)
where r
l
is a /
l
-vector, r
2
is a /
2
-vector, .
l
is a |
l
-vector, .
2
is a |
2
-vector,
and all individual eects in .
I
are assumed to be observed. Unobserved eects
would be contained into the individual-specic random term n
I
. Variables with
the 2-index are correlated with n
I
, while those carrying the 1-index are assumed
to be uncorrelated with n
I
. Hence, OLS and GLS estimates will be biased and
inconsistent. Assumptions on random terms are:
1(n
I
,r
lI|
, .
lI
) = 0, a|t/onq/ 1(n
I
,r
2I|
, .
2I
) ,= 0
\ ar (n
I
,r
lI|
, r
2I|
, .
lI
, .
2I
) = o
2
u
;
Co (-
I|
, n
I
,r
lI|
, r
2I|
, .
lI
, .
2I
) = 0;
\ ar (-
I|
n
I
,r
lI|
, r
2I|
, .
lI
, .
2I
) = o
2
= o
2
:
o
2
u
;
Corr (-
I|
n
I
, -
Is
n
I
,r
lI|
, r
2I|
, .
lI
, .
2I
) = j = o
2
u
,o
2
The group mean deviations r
lI|
r
lI
, r
2I|
r
2I
can be used as /
l
/
2
instrumental variables. Since .
l
is uncorrelated with the disturbances, it can be
used as a set of |
l
instrumental variables for themselves. So, we need another |
2
instrumental variables. Hausman and Taylor show that the individual (group)
means for r
l
can be used as such, so the identication condition
16
is /
l
_ |
2
.
Feasible GLS is better than OLS, and it is also an improvement on the simple
instrumental variable estimator, which is consistent, but inecient.
16
To estimate the original model, Hausman and Taylor suggest using a
1.I
, :
1.
, a
2.I
a
2
and a
1.
as instruments. We can use time averages of those time-varying regressors that
are uncorrelated with c
.
as instruments for the time-invariant regressors. The identication
condition is then that we have enough of those instruments: I
1
|
2
.
172
Taking deviations from group means:
j
I|
j
I
= (r
lI|
r
lI
)
0
,
l
(r
2I|
r
2I
)
0
,
2
(-
I|
-
I
)
which can be consistently estimated by LS, in spite of the correlation be-
tween r
2
and n. This is, of course, the Fixed Eects, Least-Squares Dummy
Variable (LSDV) estimator. However, it would not identify the values of coef-
cients for time invariant variables. It is also inecient, since r
l|
is needlessly
instrumented.
We can describe four steps to compute the Hausman and Taylor instrumental
variable estimator, the rst three of which provide us with the c-parameter
neded to transform the data and compute the estimator in a last step.
Step 1: Obtain the LSDV (xed-eects) estimator of , = (,
l
, ,
2
) based
on r
l
and r
2
. The residual variance from this step is a consistent estimator
of o
2
:
.
Step 2: Form the within groups residuals c
I|
from LSDV regression in
Step 1. Stack the group (individual) means, conveniently repeated, in a
full sample length data vector, c

I|
= c
I
, i = 1, 2, ..., , t = 1, 2, ..., T. The
residuals are computed excluding the estimate of the constant term. These
are used as the dependent variable in an instrumental variable regression
on .
l
and .
2
with instrumental variables .
l
and r
l
(assuming /
l
_ |
2
).
Time invariant variables are repeated T times in the data matrices in this
regression. This provides a consistent estimator of c
l
, c
2
.
Step 3: The residual variance from step 2 is a consistent estimator of
o
2
= o
2
o
o
2
:
,T. From this estimator and the estimator of o
2
:
from step
1, we deduce an estimator: o
2
o
= o
2
o
2
:
,T, and compute the weight for
the GLS estimator: c =
_
c
2
z
Tc
2
c
c
2
z
Step 4: A weighted instrumental variable estimator. Consider the full set
of explanatory variables: n
0
I|
= (r
0
lI|
, r
0
2I|
, .
0
lI
, .
0
2I
) , for which we have :T
observations. We perform the usual GLS transformation as for the random
eects model: n
0
I|
= n
0
I|
(1

c) n
0
I
, j

I|
= j
I|
(1

c) j
I
, and collect these
transformed data in a matrix \

and a column vector j

. For the time-


invariant variables, the group mean is equal to the original variable, and
the transformation just multiplies the original data by 1

c. The instru-
mental variables are:
0
I|
=
_
(r
0
lI|
r
lI
)
0
, (r
0
2I|
r
2I
)
0
, .
0
lI
, r
0
lI

. These are
stacked as rows in an :Tx(/
l
/
2
|
l
|
2
) matrix \. For the third and
fourth sets of instruments, the time invariant variables and group means
are repeated for each time period for that individual or group. The in-
strumental variable estimator would be:
_

,
0
, c
0
_
0
1\
=
__
\
0
\ )(\
0
\ )
l
(\
0
\

_
l
__
\
0
\ )(\
0
\ )
l
(\
0
j

_
173
For the sake of comparison, the 1G1o random-eects
17
estimator would be:
_

,
0
, c
0
_
0
1J
= (\
0
\

)
l
\
0
j

.
The instrumental variable is consistent if the data is not weighted, that is,
if \, rather than \

, is used in estimation. But that would be inecient, in


the same way as OLS is inecient in estimation of the simpler random eects
model.
7.8 Dynamic linear models
7.8.1 Linear autoregressive models
Consider an autoregressive panel data model with a vector of exogenous ex-
planatory variables:
j
I|
= c
I
j
I,|l
r
0
I|
, -
I|
, -
I|
~ i., i.d.(0, o
2
:
)
Here the problem is that the lagged dependent variable will depend upon
c
I
irrespective of how we treat the individual eect c
I
. To see this, assume, for
simplicity, that there are not exogenous explanatory variables:
j
I|
= c
I
j
I,|l
-
I|
, -
I|
~ i., i.d.(0, o
2
:
)
Denoting j
I,l
=

T
|=2
j
I,|l
,(T 1), dierent from j
I
= (1,T)

T
|=l
j
I,|
,
the Fixed Eects estimator is:

JJ
=

(j
I|
j
I
)(j
I|l
j
I,l
)

(j
I|l
j
I,l
)
2
=
l
(Tl)

(-
I|
-
I
)(j
I|l
j
I,l
)
l
(Tl)

(j
I|l
j
I,l
)
2
which will be biased and inconsistent for and xed T. This is because
the last term in the right-hand side does not have expectation zero due to the
correlation between j
I,l
and -
I
, and it does not converge to zero. In fact Nickell
(1981), Hsiao (2003) show that:
j lim
1
T

(-
I|
-
I
)(j
I|l
j
I,l
) =
o
2
:
T
2
(T 1) T
T
(1 )
2
,= 0
Notice that the inconsistency is not produced by any assumption we can
make on the c
I
, since it gets eliminated in the transformation, but rather, by the
fact that the Within transformed lagged dependent variable is correlated with
the Within transformed error.
18
Therefore, at a dierence of what happens in
17
This denotes the Feasible GLS estimator of the Random Eects model, the noe we de-
scribed in the Implementation section.
18
Cc(j
.,I1
, c
.
+.
.
) = o
2
c
+Cc(j
.,I2
, c
.
+.
.
), and the Covariance would converge, for
T large, to

2
c
1
.
174
a static model, the Fixed Eects estimator does not solve the inconsistency in
a dynamic model.
On the other hand, if T , then the expression above converges to zero,
and the Fixed Eects estimator is consistent if both T and . But
in nite samples, this lack of consistency can be a serious problem. For instance,
if = 0., then we have, as :
j lim
JJ
= 0.2 i) T = 2
j lim
JJ
= 0.04 i) T = 8
j lim
JJ
= 0.88 i) T = 10
To avoid the inconsistency, we make a dierent transformation to eliminate
the individual eects c
I
, by taking First dierences:
j
I|
j
I,|l
= (j
I,|l
j
I,|2
) (-
I|
-
I,|l
), t = 2, 8, ..., T -
I|
~ i., i.d.(0, o
2
:
)
Once again, least squares would be inconsistent in this model because of the
correlation between j
I,|l
and -
I,|l
, even when T . But the transforma-
tion suggests an instrumental variable approach (Anderson and Hsiao (1981))
so long as -
I|
does not exhibit autocorrelation, since j
I,|2
is clearly correlated
with the explanatory variable, but not with the error term,

1\
=

I=l

T
|=2
(j
I|
j
I|l
)j
I,|2

|=3
(j
I|l
j
I,|2
)j
I,|2
A standard argument shows that consistency of this instrumental variable
estimator depends on j lim
l
(T2)

I=l

T
|=3
(-
I|
-
I,|l
)j
I|2
= 0 for either
, T or both going to . Anderson and Hsiao suggested an alternative instru-
mental variable estimator, using j
I,|2
j
I,|3
as instrumental variable:

1\
=

I=l

T
|=3
(j
I|
j
I|l
)(j
I,|2
j
I,|3
)

I=l

|=3
(j
I|l
j
I,|2
)(j
I,|2
j
I,|3
)
which will be consistent if j lim
l
(Tl)

I=l

T
|=3
(-
I|
-
I,|l
)(j
I|2
j
I,|3
)
= 0 for either , T or both going to . As in the previous estimator, this
condition will hold whenever -
I|
lacks serial correlation. If there are exogenous
regressors in the model, then not only their contemporaneous and lagged values,
but also their future values, are valid instruments as well. If they are prede-
termined, their contemporaneous and lagged values will be valid instruments.
The number of instruments increases with time, and it can easily get very large.
However, the latter set of instruments requires an additional lag, and hence, we
lose an additional sample period.
The instrumental variable estimator is,

0
1\
=
_
_
_
n

I=l
^A
0
I
7
I
__
n

I=l
7
0
I
7
I
_
l
_
n

I=l
7
0
I
^A
I
_
_
_
l
_
_
_
n

I=l
^A
0
I
7
I
__
n

I=l
7
0
I
7
I
_
l
_
n

I=l
7
0
I
^j
I
_
_
_
175
where the A matrix includes the lagged endogenous variable in addition to
possible predetermined or exogenous variables, and 7 is the matrix of chosen
instruments. The variance-covariance matrix is,
\ ar
_

0
1\
_
= o
2
.:
_
_
_
n

I=l
^A
0
I
7
I
__
n

I=l
7
0
I
7
I
_
l
_
n

I=l
7
0
I
^A
I
_
_
_
l
where an estimate for o
2
.:
could be obtained from the residual sum of squares
of the diferenced model: o
2
.:
= 1oo,[(T 2)[. But this will be an under-
estimate, since it ignores the fact that the dierence operator introduces rst
order serial correlation. In fact, the previous footnote suggests that the previous
calculation will be an approximate estimate of 2o
2
:
. But there is also the addi-
tional problem that the observations are autocorrelated. Hence, the standard
IV variance-covariance matrix is inappropriate, and we must use,
\ ar(

0
1\
) =
_
_
_
n

I=l
^A
0
I
7
I
__
n

I=l
7
0
I
7
I
_
l
o
2
:
_
n

I=l
7
0
I
G7
I
__
n

I=l
7
0
I
7
I
_
l
_
n

I=l
7
0
I
^A
I
_
_
_

with
19
G being a TrT matrix: G =
_
_
_
_
2 1 0 ...
1 2 ... 0
0 ... ... 1
... 0 1 2
_
_
_
_
,where,
=
_
_
_
n

I=l
^A
0
I
7
I
__
n

I=l
7
0
I
7
I
_
l
_
n

I=l
7
0
I
^A
I
_
_
_
l
While one could discuss whether it is preferable to use levels or dierences as
instruments, the Generalized Method of Moments provides a unied approach
to instrumental variable estimation.
7.8.2 General Method of Moments (GMM) estimation
Rather than arguing about which instrumental variable estimator we should use,
a GMM argument would lead us to using both instruments, while eliminating
the disadvantage of reduced sample sizes.
The two previous instrumental variable estimators use the moment condi-
tions: 1 [(-
I|
-
I,|l
)(j
I|2
j
I,|3
)[ = 0 and 1 [(-
I|
-
I,|l
)j
I|2
[ = 0. Arel-
lano and Bond (1991) suggest that the list of instruments can be extended by
exploiting additional moment conditions and letting their number vary with t ,
thereby increasing eciency. For instance, when T = 4, we have, for t = 2 the
moment condition:
20
19
\ ov(.
.2
.
.1
) = 2o
2
s
, Cc(.
.2
.
.1
, .
.3
.
.2
) = o
2
s
20
Assuming there is an initial j
0
observation. Otherwise, we would have one moment
condition less at each point in time,
176
1[(-
I2
-
Il
)j
I0
[ = 0
while for t = 8, we have:
1[(-
I3
-
I2
)j
Il
[ = 0
1[(-
I3
-
I2
)j
I0
[ = 0
and, for t = 4 :
1[(-
Id
-
I3
)j
I0
[ = 0
1[(-
Id
-
I3
)j
Il
[ = 0
1[(-
Id
-
I3
)j
I2
[ = 0
So, in general, we have a matrix of instruments:
7
I
=
_
_
_
_
[j
I,0
[ 0 ... 0
0 [j
I0
, j
Il
[ ... 0
... ... 0
0 ... ... [j
I0
, j
Il
, ..., j
I,T2
[
_
_
_
_
and the vector of transformed error terms:
^-
I
=
_
_
-
I2
-
Il
...
-
I,T
-
I,Tl
_
_
and a set of 1 2 8 ... (T 1) =
(Tl)T
2
moment conditions:
21
1[7
0
I
^-
I
[ = 1[7
0
I
(^j
I
^j
I,l
)[ = 0
Since the number of moment conditions will usually exceed the number of
unknown parameters, as it is the case in this example, we will minimize the
quadratic form:
min
~
_
1

I=l
7
0
I
(^j
I
^j
I,l
)
_
0
\

_
1

I=l
7
0
I
(^j
I
^j
I,l
)
_
where \

is a symmetric, positive denite weighting matrix which will


depend on the sample size, . Dierentiating with respect to and solving:
21
With T = 4 time observations, we will have 6 instruments or orthogonality conditions if
there is an initial condition j
.0
, and 3 such conditions if there is not known initial condition
j
.0
.
177

c11
=
__

I=l
^j
0
I,l
7
I
_
\

I=l
7
0
I
^j
I,l
__
l
__

I=l
^j
0
I,l
7
I
_
\

I=l
7
0
I
^j
I
__
This estimator is consistent for any choice of positive denite weighting ma-
trix \

so long as orthogonality (moment) conditions are true. GMM theory


shows that the optimal choice of weighting matrix, in order to minimize the
variance-covariance matrix of the resulting estimator, is the inverse of the co-
variance matrix of the sample moments:
j lim
!1
\

= [\ ar(7
0
I
^-
I
)[
l
= [1(7
0
I
^-
I
^-
I
7
I
)[
l
If no restrictions are imposed upon the covariance matrix, then it can be
estimated by the sample average of a function of the residuals - from a consistent
initial estimate. Usually, this is obtained with the identity matrix as the initial
weighting matrix:

\
o|

=
_
1

I=l
7
0
I
^-
I
^-
I
7
I
_
l
where -
I
denote the residuals from an initial GMM estimate obtained with
an identity as weighting matrix: \

= 1.
The general GMM approach does not need that the -
I|
be i., i.d. over
individuals, and the optimal weighting matrix is estimated without imposing
such constraint. However, the moment conditions are valid only under lack of
autocorrelation. And if autocorrelation is present, there is no point in computing
a robust estimate of the variance-covariance matrix of estimates, since they will
be inconsistent.
Under weak regularity conditions, the GMM estimator for is asymptoti-
cally Normal for and xed T, with covariance matrix,
j lim
!1
_
_
_

I=l
^j
0
I,l
7
I
__
1

I=l
7
0
I
^-
I
^-
I
7
I
_
l
_

I=l
7
0
I
^j
I,l
_
_
_
l
With i., i.d. errors, the middle term reduces to,
o
2
:
\
o|

= o
2
:
_
1

I=l
7
0
I
G7
I
_
l
with G being the TrT matrix we introduced above, so long as there is no
autocorrelation in the error term. Alvarez and Arellano (2003) show that the
GMM estimator is also consistent when both, and T tend to innity despite
the fact that the number of moment conditions tends to innity with the sample
size.
178
For large T, however, the GMM estimator will be close to the Fixed Eects
estimator, which provides a more attractive alternative.
7.8.3 Dynamic models with exogenous variables
In the case of the more general model:
j
I|
= c
I
j
I,|l
r
0
I|
, -
I|
, -
I|
~ i., i.d.(0, o
2
:
)
we will have dierent instruments as a function of the assumptions we make
on the r
I|
variables. If they are assumed to be strictly exogenous, in the sense
of being uncorrelated with all error terms at all time periods, we will also have:
1(r
I|
^-
Is
) = 0 \:, t, so that r
Il
, r
I2
, ..., r
IT
can be added as instruments to
the model in rst dierences. But that would make the number of rows in 7
I
too large. Almost the same amount of information can be obtained if we use
the rst dierenced r
I|
as their own instruments. Then, we would be imposing
moment conditions:
1(^r
I|
^-
I|
) = 0, \t
and the matrix of instruments can be written:
7
I
=
_
_
_
_
[j
I,0
, ^r
0
I2
[ 0 ... 0
0 [j
I0
, j
Il
, ^r
0
I3
[ ... 0
... ... 0
0 ... ... [j
I0
, j
Il
, ..., j
I,T2
, ^r
0
IT
[
_
_
_
_
If the r
I|
variables are not strictly exogenous, but only predetermined:
1(r
I|
-
Is
) = 0, \: _ t. Then, 1 [(r
I|
r
I,|l
) (-
I|
-
I,|l
)[ ,= 0, and only
r
I,|l
, ..., r
Il
are valid instruments for the rst-dierenced equation in period t
. The moment conditions imposed would then be:
1(r
I,|
^-
I|
) = 0, )or , = 1, 2, ..., t 1, )or cac/ t
Usually, one should expect to have a mixture of some exogenous and some
predetermined variables to be used as instruments. Arellano and Bond (1995)
explain how this approach can be integrated into the instrumental variable es-
timator of Hausman and Taylor (1981). They also discuss how information in
levels of original variables can also be used in estimation.
Example: Verbeek
Verbeek refers to the estimation of a demand for labour equation based on
data from 2800 large Belgium rms over 1986-1994. Using a theoretical model
of union bargaining as reference, the authors estimate a static version:
log 1
I|
= ,
0
,
l
log n
I|
,
2
log 1
I|
,
3
log 1
I|
,
d
log n
|
n
I|
179
where n
|
denotes the industry average real wage, acting as an indicator of
the reference negotiation wage level for unions, 1
I|
is the stock of capital and
1
I|
is output, as well as adynamic version of the demand equation,
log 1
I|
= ,
0
,
l
log n
I|
,
2
log 1
I|
,
3
log 1
I|
,
d
log n
|
log 1
I,|l
c
I
-
I|
where it is assumed that the error term has two components, the rst one be-
ing unobservable rm-specic time-invariant heterogeneity. If we rst-dierence
the equation, then ^log 1
I,|l
will be correlated with ^-
I|
. In addition, it is very
likely that wages and employment are jointly bargained, wages then becoming
an endogenous explanatory variable in the previous equation. Therefore,
1(^log n
I|
^-
I|
) ,= 0,
and we need to use an instrumental variables approach. Valid instruments
for ^log n
I|
are log n
I,|2
, log n
I,|3
, ... while log 1
I,|2
, log 1
I,|3
, ... could be
valid instruments for ^log 1
I,|l
. Hence, the number of instruments increases
with t .
Estimation Labour demand equation [Konings and Roodhooft (1997)]
Dependent variable: log 1
I|
Static model Dynamic model
log 1
I,|l
0.60(0.04)
log 1
I|
0.021(0.000) 0.008(0.00)
log n
I|
1.78(0.60) 0.66(0.10)
log n
|
0.16(0.07) 0.04(0.088)
log 1
I|
0.08(0.011) 0.078(0.006)
Test for overidentifying restrictions 20.7(d) = 1, j = 0.018) 1.66(d) = 20, j = 0.006)
Number of observations
The p-values for both models are close to 1%. The estimated short-run
wage elasticity of labour demand is -0.66%, but the long-run elasticity is -1.64%,
higher than it had been estimated with macro data.
22
Part II
Risk Measurement
8 Volatilidad
8.1 Midiendo la volatilidad
8.1.1 La medicin del riesgo inherente a un activo
La medicin del riesgo incorporado en un determinado activo es, sin duda, uno
de los problemas ms importantes de la economa nanciera. El nivel de riesgo
22
Although there were several diculties with the way the data had been constructed. See
original article in De Economist.
180
es una de las caractersticas de un activo que, junto con su rentabilidad esperada,
su liquidez, etc..determinan las decisiones ptimas de inversin de los agentes.
Es habitual identicar la medicin del riesgo con la varianza que ofrece la serie
temporal de rentabilidad del activo. En el caso de un mercado nanciero, el
riesgo suele medirse mediante la varianza de las variaciones en el ndice corre-
spondiente (rentabilidades) observadas con una determinada frecuencia (hora,
da, semana, mes). Podemos incluso hablar de volatilidad intrada (dentro del
da de negociacin) si examinamos las variaciones en precio (o en ndice) muy
frecuentemente; por ejemplo, para todas las operaciones cruzadas.
Sin embargo, pocas veces reexionamos sucientemente acerca de lo que
estamos midiendo. Conviene pensar acerca de qu queremos medir, y si la
varianza es una medida adecuada de riesgo.
La primera cuestin es que existen distintos tipos de riesgo, que requieren
medidas diferentes: riesgo sistemtico o no diversicable dentro del mercado,
riesgo especico del activo o riesgo diversicable en el mercado. Adems del
riesgo-precio o riesgo de reinversin, tenemos el riesgo de mercado, el riesgo de
liquidez, el riesgo de crdito o de contrapartida, etc.. Por tanto, es importante
saber qu tipo de riesgo queremos medir en cada caso. En mercados de renta
variable, el riesgo-beta es til para muchos nes. En otras ocasiones, todo lo
que queremos es un umbral mximo de prdidas en la forma de un Valor en
Riesgo, es decir, un determinado percentil de la distribucin de probabilidad de
la rentabilidad esperada de una cartera en un horizonte estipulado previamente.
Cunado analizamos un mercado concreto, el Riesgo total de un activo puede
descomponerse en un componente de Riesgo sistemtico o de mercado, y un
componente de Riesgo especco. Por ej., las acciones del mercado continuo
de Madrid, tienen un componente de riesgo explicado por el propio mercado,
representado por el ndice. Tienen tambin un segundo componente de riesgo
que no puede explicarse por el riesgo del mercado. Algo similar ocurre con cada
una de las referencias que cotiza en el mercado secundario de deuda pblica
espaol. De modo anlogo a la consideracin de un activo como parte de un
mercado, a un nivel de agregacin superior, puede considerarse cada ndice de
un mercado de valores internacionales como un activo individual, y resolver el
problema de diversicacin de cartera o asset allocation.
Tambin en este caso podramos hablar de un componente de riesgo global
o de mercado, as como de un componente de riesgo especco de cada ndice.
El componente de riesgo de mercado es un riesgo sistemtico, que no puede
eliminarse mediante la inversin en activos distintos del mismo mercado. Por
eso decimos que dicho riesgo no es diversicable. Viene caracterizado por la
beta del activo, que se estima mediante procedimientos de regresin entre las
rentabilidades del activo y del mercado, ambas descontadas de la rentabilidad
ofrecida por el activo libre de riesgo. Este es el modelo CAPM. De este modo,
este componente no diversicable del riesgo del activo est determinado por la
covariacin de su rentabilidad con la rentabilidad del ndice del mercado al que
pertenece.
Por el contrario, el componente de riesgo especco mide un riesgo no vin-
culado al mercado al que pertenece el activo. Este es un riesgo que puede
181
eliminarse por diversicacin, si existe una variedad de activos sucientemente
rica en el mercado. Este componente del riesgo puede deberse, en unos casos, a
las caractersticas del emisor, y en otras, a las caractersticas tcnicas del activo.
Entre el primer grupo, tenemos el riesgo especco que se percibe en las
acciones de una determinada empresa, por las inversiones que ha asumido, la
gestin de sus directivos, etc.. En el caso de una divisa, un fuerte deterioro de
su balanza por cuenta corriente, o de sus cuentas pblicas, su situacin poltica,
etc., pueden sugerir una posible devaluacin, lo que reducira signicativamente
la rentabilidad de un inversor extranjero.
Una liquidez reducida es otro componente del riesgo especco de un activo, si
bien en ocasiones es todo un mercado el que est sujeto a una reducida liquidez.
Por ej., la mayor parte de una emisin de deuda privada puede estar en manos
de un gran fondo, que no la saca al mercado. Los propietarios del resto de la
emisin se enfrentan a un riesgo de liquidez.
En el segundo grupo, tenemos aspectos como el riesgo de precio en renta
ja, por desconocer los tipos de inters futuros a que podremos invertir los
cupones recibidos sobre un bono. Hablamos entonces de riesgo precio, o riesgo
de reinversin. A igualdad de condiciones, un bono cupn cero tiene un menor
componente de riesgo, debido a la ausencia de reinversiones, si bien est sujeto
en cualquier caso a riesgo-precio, por cuanto que desconocemos las posibles
uctuaciones que pueda experimentar su precio. Por supuesto que un activo de
renta variable est sujeto a estas consideraciones, adems de las propias de su
emisor, por lo que tiene riesgo de mercado o riesgo-precio, riesgo de emisor, etc..
Distinguir entre estos tipos de riesgo y disponer de procedimientos para
la estimacin de cada uno de ellos es un aspecto importante de la gestin de
carteras.
8.1.2 La importancia de medir el riesgo
Disponer de medidas numricas del nivel de riesgo asociado a la inversin en
un determinado activo nanciero durante un determinado perodo de tiempo es
una herramienta clave en muchos aspectos de la gestin de carteras. Algunos
ejemplos notables son,
Gestin de carteras mediante el anlisis rentabilidad/riesgo: Markowitz.
Este enfoque, supone que los inversores tienen preferencias dependientes de
dos argumentos: riesgo y rentabilidad esperada preriendo, entre dos activos que
ofrecen igual rentabilidad esperada, aqul que ofrece un menor riesgo y entre
dos activos que ofrecen igual riesgo, aqul que ofrezca una mayor rentabilidad
esperada.
Por tanto, tales inversores pueden estar dispuestos a asumir un mayor nivel
de riesgo, si reciben tambin una mayor rentabilidad, aunque no cualquier com-
binacin es preferible: estos inversores tendrn un mapa de curvas de utilidad
constante en el plano (riesgo, rentabilidad esperada). Cada una de estas curvas
es el lugar geomtrico de los pares de valores para dichas variables que ofrecen
un mismo nivel de utilidad. Curvas ms elevadas en dicho plano corresponden
a niveles de utilidad superiores.
182
Una vez que dispusiramos de valores numricos para el nivel de riesgo y la
rentabilidad esperada de cada uno de los activos disponibles, el inversor elegira
aqul que preere a los dems. Aunque habr, generalmente un activo preferible
al resto, un anlisis que comparase nicamente los activos individualmente entre
s ignorara la posibilidad de construir carteras diversicadas, como estudiaremos
posteriormente. Esta es la base del anlisis de carteras propuesto por Markowitz.
Pero antes de poder escoger una inversin (activo o cartera), hemos de hacer
frente a dos dicultades: 1) por un lado, lo que interesa al inversor es la rentabil-
idad esperada, para cada activo, a lo largo del perodo en que se va a llevar a
cabo la inversin, 2) por otro, el riesgo no es observable, por lo que hemos de
utilizar alguna medida del mismo, para lo que generalmente se identica riesgo
con volatilidad. Es muy importante observar que, desde el punto de vista de
la teora nanciera, ambas deberan ser medidas hacia el futuro y, sin embargo,
suelen ser inadecuadamente sustituidas por medidas histricas.
Valoracin de opciones:
El precio de una opcin depende de: a) el precio de ejercicio de la opcin,
b) el tiempo que resta hasta su vencimiento, c) el tipo de inters del activo
sin riesgo, d) los dividendos ofrecidos por el activo subyacente, si los hay, e) el
precio del activo subyacente, f ) su volatilidad, que no es observable.
Para evaluar si el precio de mercado de una opcin es correcto ha de dispon-
erse de una estimacin de la volatilidad del activo subyacente. Para ello, se
necesita la volatilidad estimada del precio del subyacente durante el perodo
residual hasta el vencimiento de la opcin. Con dicha medida, podramos uti-
lizar alguno de los modelos disponibles que, condicionado en la validez de las
hiptesis en l incorporadas, nos proporcionara el precio terico de la opcin.
La comparacin con su precio de mercado nos permitira evaluar el inters que
pueda tener tomar posiciones cortas o largas en la misma.
Cobertura de riesgos en inversiones a largo plazo:
El diseo de estrategias de cobertura de carteras depende crucialmente de la
estimacin del riesgo de los activos que conguran la cartera. Adems, en este
caso, tan importante como las medidas de volatilidad de los mercados del activo
subyacente y del activo que se utiliza en la cobertura, es la medida de covariacin
entre ambos. De hecho, es ya habitual hablar de un riesgo de correlacin entre
activos.
La utilizacin de medidas de volatilidad y de covariacin alternativas puede
conducir a estrategias de cobertura bastante diferentes, lo que implicar a)
costes bastante distintos para las mismas y b) resultados asimismo diferentes,
que pueden depender del tipo de evolucin temporal seguido por la cotizacin
del activo subyacente.
8.1.3 Estadsticos descriptivos en la estimacin del Riesgo
En general, contamos con observaciones histricas acerca de una o varias vari-
ables (precios, rentabilidades, etc.) y queremos calcular medidas de posicin
central, de dispersin y de correlacin con el objeto de resumir las propiedades
bsicas de dichos datos.
183
El conjunto de datos observados dene un histograma de frecuencias, o dis-
tribucin muestral de frecuencias, que contiene toda la informacin disponible
acerca de la variable considerada. Un histograma de frecuencias es similar a una
distribucin de frecuencias, pero es diferente de ella. Para entender la diferen-
cia entre ambos, hemos de comprender el concepto de proceso estocstico, y el
modo de utilizarlo en el anlisis de datos de series temporales.
Un proceso estocstico A
|
, t = 1, 2, 8, ...es una sucesin de variables aleato-
rias, indexadas por la variable tiempo. Las variables aleatorias pueden ser inde-
pendientes entre s o no, y pueden tener la misma distribucin de probabilidad,
o una distribucin de probabilidad diferente.
Cada dato de una serie temporal debe interpretarse como una muestra de
tamao 1 de la distribucin de probabilidad correspondiente a la variable aleato-
ria de ese instante. Por ej., el dato de cierre del IBEX35 (suponiendo que
disponemos de datos de cierre diarios) de hoy es una realizacin, es decir, una
muestra de tamao 1 de la variable aleatoria precio de la cesta IBEX35 (como
ndice) el da de hoy. La distribucin de probabilidad de esta variable puede
ser diferente de la variable aleatoria IBEX35 hace un ao por tener, por ejem-
plo, una esperanza matemtica menor, una volatilidad mayor, o no ser Normal,
mientras que hace un ao s lo era.
Vamos a suponer inicialmente que las variables A
|
tienen todas la misma
distribucin de probabilidad, y son independientes entre s. Este es el caso ms
sencillo, y constituye un proceso de ruido blanco. Slo en este caso est to-
talmente justicado la utilizacin de momentos muestrales como caractersticas
de la variable A. Esta observacin debe servir como llamada de atencin al
lector, dada la excesiva frecuencia con que se calculan estadsticos muestrales,
calculados con datos histricos, para representar caractersticas de una vari-
able; por ej., la desviacin tpica de la rentabilidad burstil de un determinado
mercado.
Example 7 La importancia de calcular indicadores de variabilidad en relacin
a una medida de posicin central. El Cuadro 1 presenta algunos estadsticos bsi-
cos para los ndices burstiles: NIKKEI 225, DAX 30, MILAN, MCI-SWISS,
CAC 40, FTSE 100, S&P 500, MEXICO IPC, MERVAL, BOVESPA y CHILE
GENERAL durante agosto de 1999, mientras que el Cuadro 2 presenta algunos
de estos mismos estadsticos para cada uno de los aos comprendidos entre 1993
y 1999 (de este ltimo, slo los primeros 8 meses). Con objeto de valorar el
riesgo asociado a la inversin en cada uno de los mercados de renta variable
cuyos ndices se recogen en el cuadro, queremos valorar cules de ellos son ms
voltiles, y cules lo son menos.
Example 8 Enseguida apreciamos que no toda la informacin estadstica que
presenta el Cuadro 1 es til para el gestor de riesgos: conocer la media o la
mediana de cada ndice nos da una idea de su nivel durante dicho mes pero, por
s solas, no nos dicen si agosto de 199 fue un mes especialmente bueno, o malo, o
neutral. Mucho menos nos dan ninguna indicacin de riesgo. Adems de que las
184
diferencias de nivel dicultan la comparacin de los estadsticos, su clculo en
variables tendenciales (no estacionarias) se presta a una difcil interpretacin.
Sin embargo, podemos comparar media muestral y mediana para cada ndice;
vemos que, o bien coinciden prcticamente, o la mediana es mayor, como ocur-
rira en distribuciones asimtricas hacia la izquierda, signicando que los valores
menores (las cotizaciones bajas) se alejan de la media ms que los valores altos.
Esto es lo que ocurre en Nikkei, Dax, MCI-Swiss, CAC40 y FTSE100. Este
hecho es relevante respecto al clculo de probabilidades en las colas, como es el
caso del Valor en Riesgo, para el que habra que tener en cuenta la asimetra de
estas distribuciones. Sin embargo, hay que tener presente que estamos tratando
an con cotizaciones, no con rentabilidades.
Vemos asimismo que todos los ndices tiene un exceso de curtosis negativo,
es decir, menos curtosis que una distribucin Normal.
Tampoco las cotizaciones mxima o mnima, por s solas, son muy informati-
vas. Ni siquiera el rango muestral lo es, a pesar de que ya establece un intervalo
de valores cubierto por la variable. Sin embargo, parece evidente que su posi-
ble inters descansa en expresarlo como porcentaje de una medida de posicin
central. En esta comparacin, ya aparecen CAC, Merval y Bovespa como los
ndices de mayor variabilidad, seguidos de cerca por DAX. Hay que observar,
sin embargo, que un rango amplio no implica volatilidad si los valores separados
de la media no aparecen apenas en la muestra; por tanto, una limitacin del
rango es que slo utiliza como informacin los valores mximo y mnimo. No
estamos considerando todava la distribucin de frecuencias o de probabilidades
a lo largo de todos los valores numricos includos en el rango de variacin de
cada ndice.
Una medida similar es la relacin entre rango centrado del 80% y media: de
acuerdo con ella, CAC y Merval continan reejando una mayor variabilidad en
agosto 1999. Miln, DAX y Bovespa tambin reejan una apreciable, aunque
menor, variabilidad [Ver Cuadro 2]. Ahora hemos descartado los valores muy
separados de la media, tanto por encima como por debajo, y estamos analizando
la amplitud del rango en el que recaen el 80% de los valores muestrales. Bovespa
tom valores muy alejados de la cotizacin media, pero, sin embargo, como
indica su rango intercuartlico que luego analizaremos, el 50% de sus valores
quedaba bastante agrupado en torno a la media.
Establecemos as una diferencia entre valores normales y valores extremos.
Si los valores extremos del rango de variacin aparecen con relativa frecuencia,
entonces un rango como el del 80% tender a ser ms amplio que si los valores
separados de la media aparecen infrecuentemente. Por tanto, si un ndice que
tiene un rango total amplio pasa a tener un rango del 80% relativamente ms
estrecho (como es el caso de Bovespa) ello se debe a que los valores extremos
ocurren con poca frecuencia. Si la amplitud del rango del 80% es relativamente
mayor que la del rango total, en relacin con otros ndices, se deber a que si
bien los valores separados de la media no son demasiado extremos, ocurren con
una relativa frecuencia. Este es el caso del ndice de Miln.
Nuevamente, la desviacin tpica ni la varianza por s solas nos proporcionan
185
informacin relevante, pero s el coeciente de variacin, que incide en presentar
Merval y CAC como los ndices ms voltiles, a la vez que al Chile general como
el menos voltil en ese mes. La ventaja de estos estadsticos es que utilizan toda
la informacin disponible, a travs de la frecuencia con que aparece cada uno de
los valores (o de los subintervalos) observados. Pero la volatilidad es un concepto
relativo: Supongamos que la varianza del IGBM a lo largo de un cierto perodo
ha sido de 1.261, mientras que la varianza del ndice NIKKEI, en el mismo
perodo, ha sido de 4.225. Puede decirse que el NIKKEI ha sido ms voltil?
No, porque no tiene sentido comparar las varianzas por s solas. Supongamos
que el IGBM ha tenido una cotizacin media en dicho perodo de 7.255, mientras
que el ndice NIKKEI se situ en 15.256 en media. Cul ha sido ms voltil?
Podemos comparar las desviaciones tpicas, siempre como proporcin del nivel
medio respecto al cual se han calculado. El uso de desviaciones tpicas como
porcentaje de la media permite la comparacin entre mercados o activos, o
tambin comparar la volatilidad en un mismo mercado en distintos instantes de
tiempo. Este es el coeciente de variacin:
= 100
:
r
r
Como vemos en el Cuadro, el cociente de variacin nos proporciona un ranking
de ndices, de acuerdo con su volatilidad, no muy diferente del proporcionado
por el rango del 80%.
Alternativamente, cuando se pretende comparar variables medidas en difer-
entes unidades, es til tipicar o estandarizar las variables, restando de cada
observacin la media muestral, y dividiendo por la desviacin tpica. Medi-
ante esta transformacin, eliminamos las unidades de cada variable, por lo que
pueden ser comparables entre s, en trminos de volatilidad. De hecho, bajo
el supuesto de que la serie temporal relativa a cada una de las variables est
compuesta de observaciones independientes, extradas de una determinada dis-
tribucin, con esperanza j y varianza o
2
constantes, las variables tipicadas
tienen esperanza cero y varianza igual a uno. El carcter de la distribucin no
juega ningn papel en este resultado.
Cuando se pretende inspeccionar en un grco la posible correlacin entre
variables, es asimismo til utilizar esta transformacin. Esto corrige, adems el
efecto que producira el que los distintos ndices toman magnitudes diferentes,
lo que hara que, en un grco de sus niveles, se observasen las uctuaciones de
tan slo uno o dos de ellos, apareciendo los dems como lneas suaves.Despus
de este pormenorizado anlisis, no podramos dudar en calicar de ndices ms
voltiles durante agosto de 1999 a Merval y CAC, seguidos de cerca por DAX y
Bovespa. Los ndices ms estables habran sido el Nikkei y Mexico IPC y, muy
especialmente (y quiz sorprendentemente) el Chile General.
Por supuesto que el anlisis de volatilidad de un mes puede estar condi-
cionado por acontecimientos especcos de dicho mes, y no ser extrapolable en
el tiempo. En efecto, en una perspectiva temporal ms amplia, nuestros resul-
tados son distintos: Los ndices lationamericanos, Bovespa, Mexico IPC, Chile
general y Merval estn, ao tras ao, entre los ms voltiles, mientras que, por
186
el lado estable, tan slo el S&P500 ofrece sistemticamente una baja volatilidad
[ver Cuadros 3 y 4].
8.1.4 La varianza como indicador de volatilidad: Limitaciones
En una poblacin estadstica, la varianza es el promedio ponderado (con pesos
dados por la masa de probabilidad en cada punto del soporte) de la desviacin
cuadrtica entre un punto extrado al azar del soporte de la distribucin (donde
la probabilidad de extraccin es igual a la masa de probabilidad en cada punto) y
la esperanza matemtica. En una muestra, la varianza es el promedio ponderado
de las desviaciones cuadrticas respecto a la media muestral. Las ponderaciones
son las frecuencias relativas de observacin de los datos.
Por tanto, la desviacin tpica, raz cuadrada de la varianza, puede inter-
pretarse (pero no es exactamente igual) como el tamao medio de las desvia-
ciones de una variable alrededor de un valor de referencia, ya sea su esperanza
matemtica (en el caso de la poblacin), o su media muestral (en el caso de
la muestra). En el caso de una variable aleatoria para la que se disponen de
observaciones a travs del tiempo, la desviacin tpica puede interpretarse como
el tamao medio de sus uctuaciones. Por consiguiente, cuando se trabaja con
variables aleatorias de esperanza (o media muestral) igual a cero, la desviacin
tpica es un buen indicador del tamao de dicha variable.
La varianza y la desviacin tpica (poblacional o muestral) slo tienen sentido
frente a una medida de posicin central de la distribucin de probabilidad,
que sirve de referencia. Sin embargo, no siempre las medidas de posicin son
estables en el tiempo. Cuando no lo son, el uso de la varianza como indicador
de volatilidad queda en entredicho, como iremos viendo sucesivamente.
Hay distintas situaciones en que estos problemas ocurren:
cuando existe una tendencia en la serie de datos, ya sea de naturaleza
determinista o aleatoria. En tal caso, el primer problema es que, general-
mente, no tiene sentido calcular la varianza a partir de una muestra, pues
la medida de posicin central no est bien denida, variando signicativa-
mente con la longitud de la muestra.
la segunda dicultad estriba en que, en presencia de una tendencia deter-
minista, el nivel seleccionado como referencia para el comportamiento de
la variable, que habitualmente es la media o la mediana muestrales, no
ser representativo de la evolucin de la variable: si la tendencia es cre-
ciente, la primera parte de la muestra estar sistemticamente por debajo
de la media, mientras que la segunda parte estar sistemticamente por
encima. El estadstico de posicin central no representa ni la primera ni
la segunda parte de la muestra. Si calculamos la varianza muestral como
indicador de volatilidad en este caso, imputaremos como tal lo que no
es sino tendencia, y podramos llegar a armar, errneamente, que una
variable es muy voltil, cuando lo que presenta es una fuerte tendencia
determinista. De hecho, la varianza de una variable tendencial puede ser
elevada incluso si sta apenas experimenta uctuaciones. En presencia
187
de una tendencia lineal, la varianza est midiendo la tasa de crecimiento;
lo sorprendente es que este aspecto, que es positivo si estamos hablando
del precio o cotizacin de un activo, ser considerado negativo, al ser im-
putado como volatilidad y, por tanto, como riesgo asociado a la inversin
en el mismo. Ver Grco.
algo similar ocurre en presencia de tendencias estocsticas (es decir, de
races unitarias). Ya hemos visto que en tales procesos la varianza crece
con el tiempo, por lo que el clculo de su anlogo muestral no proporciona
mucha informacin acerca del riesgo inherente a la toma de posicin en un
activo cuyo precio presenta tal caracterstica. En tal caso, la varianza de
la primera diferencia es bastante ms til. Si el precio o cotizacin tiene
una nica raz unitaria, su variacin (ganancia o prdida de capital), es
decir, la rentabilidad, es estacionaria. Este es el caso del comportamiento
de los precios en muchos mercados.
cuando, aun no existiendo tendencia, se ha producido un cambio de nivel
en la media. En este caso, la media calculada con toda la muestra no
representar ni la primera parte de ella, ni la segunda. Lo que ocurre
es que la media ha sido distinta en la primera y segunda submuestras,
y deberamos recoger este hecho. De lo contrario, estaremos imputando
como volatilidad lo que no es sino una ruptura en la media de la variable
en estudio.
Por un lado, la rentabilidad que interesa al inversor es la rentabilidad que
espera obtener durante el horizonte de su inversin, por lo que, en realidad,
debera utilizar una prediccin de la rentabilidad durante dicho perodo.
Generalmente, los modelos tericos (seleccin de cartera de Markovitz, val-
oracin de opciones de Black-Scholes) se basan en una medida de riesgo
esperado durante el horizonte dela inversin, que es substituida general-
mente por una medida histrica de riesgo, y sta es calculada como la
varianza muestral, sin llevar a cabo el tipo de prediccin requerido por el
modelo terico.Para ello, el anlisis de series temporales es imprescindible:
especicando y estimando un modelo estadstico para la serie temporal de
rentabilidades, podramos obtener tal previsin. El modelo en cuestin
debera incorporar todas aquellas variables que se considera que pueden
inuir sobre la rentabilidad del activo, si bien entonces necesitaremos pr-
ever asimismo el comportamiento de tales factores durante el horizonte
de inversin. Una alternativa consiste en utilizar un modelo univariante
de series temporales (por ej., segn el enfoque Box-Jenkins), conando en
que dicho modelo capture sucientemente bien la dinmica de la evolucin
temporal de la rentabilidad a lo largo del horizonte de inversin; otra posi-
bilidad consistira en utilizar modelos vectoriales autoregresivos (VAR).
Por otro, tampoco el nivel de riesgo del activo es observable, pero se identi-
ca riesgo con volatilidad. Ha sido asimismo tradicional asociar la volatil-
idad a un momento de segundo orden de la distribucin de probabilidad o
188
de frecuencias de una determinada rentabilidad. As, la identicacin entre
volatilidad y varianza o, ms precisamente, entre volatilidad y desviacin
tpica, es habitual. Por tanto, la volatilidad se dene con respecto a un
nivel de referencia, generalmente la esperanza matemtica de la rentabil-
idad analizada, que es una medida de posicin central. Pero hay otras
medidas que pueden ser tiles bajo condiciones de asimetra: mediana,
moda, percentiles, etc. De hecho, veremos ms adelante que la identi-
cacin entre volatilidad y desviacin tpica no conduce a una medida
adecuada del riesgo asumido en la inversin en un determinado activo.
Asimismo, en la prctica habitual se entiende que el riesgo es una carac-
terstica relativamente estable de un activo (en el caso del riesgo especco,
no diversicable) o de un mercado (en el caso del riesgo sistemtico, diver-
sicable) que puede, por tanto, estimarse a partir de datos histricos, uti-
lizando la desviacin tpica de la rentabilidad de un activo. Sin embargo,
debemos hacernos varias preguntas: es el nivel de riesgo o de volatilidad
estable en el tiempo? deberamos medir volatilidad sobre perodos rel-
ativamente breves de tiempo, obteniendo as una medicin numrica que
evoluciona de manera ms o menos suave?
El uso que habitualmente se hace de la desviacin tpica como indicador
de volatilidad/riesgo, se fundamenta en el supuesto de Normalidad de
la variable cuya volatilidad hemos calculado. Por ejemplo, la varianza
estimada en un instante determinado puede utilizarse para construir un
intervalo de conanza para los valores que puede tomar la rentabilidad
que est siendo objeto de anlisis. Sin embargo, la gran mayora de las
rentabilidades de activos nancieros no siguen una distribucin Normal,
con clara evidencia de asimetra y exceso de curtosis.
Si llevamos a cabo una inversin con un determinado horizonte, es ha-
bitual considerar que el riesgo asumido viene medido por la varianza de
la suma de las variaciones diarias en precio (rentabilidades continuas di-
arias). Asimismo, es habitual aproximar dicha varianza multiplicadndo
la varianza diaria, supuesta constante, por el nmero de das contenidos
en el horizonte de inversin. Sin embargo, este procedimiento no es cor-
recto si el proceso con el que trabajamos (precios o rentabilidades) pre-
senta autocorrelacin, en cuyo la varianza no es aditiva temporalmente.
Esta prctica conduce a sobre-estimacion (bajo autocorrelacin negativa)
o sub-estimacin (bajo autocorrelacin positiva) de la volatilidad de la
rentabilidad en estudio.En tal situacin, conviene utilizar una estructura
temporal de volatilidades (volatilidad como funcin del horizonte), ms
que trabajar con una volatilidad constante para todos los plazos de inver-
sin
otra matizacin que conviene hacer acerca del uso de la varianza es que
sta mide toda la uctuacin que experimenta una variable (sea precio
o rentabilidad), y seguramente querremos pensar que el riesgo es slo
189
una parte (quiz la parte no predecible) de dicha uctuacin (esto ser
analizado en detalle en la Seccin 4.i). Como caso extremo, una funcin
trigonomtrica como j
|
= .:c:
_
2
|
T
_
, t = 1, 2, ..., T, para una constante
dada, experimenta uctuaciones de un tamao arbitrario, determinado
por el valor de A, pero son de naturaleza puramente determinista. Ello
signica que el valor de j
|s
en cualquier perodo futuro es perfectamente
predecible en el instante t. Perfectamente predecible signica que el er-
ror de prediccin es cero; adems, la informacin muestral disponible
en el instante t sera irrelevante, pues no necesitaramos utilizarla para
obtener dicha prediccin. Las uctuaciones en este proceso podran ser
arbitrariamente grandes, pues bastara para ello con alterar el valor de las
constantes. A pesar de que un activo cuyo precios siguiese tal compor-
tamiento, no implicara riesgo alguno para el inversor, la varianza de dicho
proceso podra resultar arbitrariamente grande.
8.1.5 Volatilidad histrica, volatilidad GARCH, volatilidad implcita
En denitiva, si bien es til discutir acerca de la eleccin ptima de uno entre un
conjunto propuesto de indicadores de volatilidad, hay que tener en cuenta que la
eleccin de una medida adecuada de volatilidad no naliza con el anlisis de las
medidas hasta ahora analizadas. Un indicador de tal tipo es una medida de la
volatilidad de un precio o una rentabilidad. Sin embargo, el concepto de riesgo
que interesa al inversor es el del tamao de la componente de la uctuacin que
experimenta la rentabilidad de un activo que no es predecible con la informacin
disponible en el momento de efectuar la inversin.
Por tanto, una primera solucin consiste en especicar modelos de prediccin
de rentabilidades. En ellos, la rentabilidad de un determinado activo se hace
depender de su propio pasado (como en el caso de los modelos ARIMA), o de
la evolucin de un cierto conjunto de indicadores, por ejemplo:
r
|
= ,
0
,
l
r
|l
,
2
r
|2
n
|
, n
|
~ (0, o
2
u
)
con
r
|l
= ,
0
,
l
r
|
,
2
r
|l
n
|l
,
en el perodo t 1, siendo todas las variables conocidas excepto n
|l
o,
r
|
= ,
0
,
l
r
|l
,
2
.
|l
n
|
, n
|
~ (0, o
2
u
)
con
r
|l
= ,
0
,
l
r
|
,
2
.
|
n
|l
Las variables explicativas de la volatilidad podran aparecer en el instante t,
r
|
= ,
0
,
l
r
|
,
2
.
|
n
|
, n
|
~ (0, o
2
u
)
190
pero entonces antes de poder predecir la evolucin futura de la rentabilidad
de nuestro activo, deberamos utilizar modelos de prediccin de las variables
explicativas, puesto que,
r
|l
= ,
0
,
l
r
|l
,
2
.
|l
n
|l
Una vez estimado dicho modelo de prediccin de la rentabilidad, la varianza
del residuo resultante proporciona una indicacin del tamao medio de la compo-
nente no predecible de la uctuacin temporal que experimenta la rentabilidad.
Esta estrategia de clculo de un indicador de volatilidad todava mantiene
una limitacin: se supone que la volatilidad es constante en el tiempo. Esto
puede superarse en la prctica, pues el modelo se re-estimara continuamente, y
la estimacin resultante para la desviacin tpica residual cambiara en el tiempo.
Una mejor opcin proviene del uso de modelos de varianza condicional, ARCH,
GARCH, EGARCH, AGARCH, que analizaremos en detalle ms adelante,
r
|
= ,
0
,
l
r
|
,
2
.
|
n
|
, n
|
~ (0, /
|
)
/
|
= c
0
c
l
/
|l
c
2
n
2
|l
c
3
r
|
Estos modelos tratan de cuanticar una medida de volatilidad con dos car-
actersticas importantes: a) es cambiante en el tiempo, b) se reere tan slo
al tamao de la componente no predecible de la uctuacin de la variable en
estudio. Por tanto, es adecuada a nuestros intereses.
8.1.6 Algunas cuestiones estadsticas previas
Contrastes de Normalidad Bera y Jarque propusieron el contraste de Nor-
malidad que lleva su nombre, que utiliza los coecientes de asimetra AS y de
curtosis K:
1J = T
_
o
2
6

(1 8)
2
24
_
que se distribuye como una chi-cuadrado con 2 grados de libertad.
Este es un contraste paramtrico de la hiptesis de Normalidad, existiendo
asimismo varios contrastes no paramtricos, quiz ms aconsejables:
el contraste de Kolmogorov-Smirnov, que se basa en el supremo de los val-
ores absolutos de las diferencias entre la funcin de distribucin emprica
y la funcin de distribucin terica de una variable Normal de esperanza
y varianza iguales a las muestrales. Para ello se divide el rango observado
en intervalos pequeos, y se comparan los valores de ambas funciones en
uno de los extremos de cada intervalo.
el contraste chi-cuadrado o de Pearson, basado en la comparacin de las
frecuencias terica y emprica en cada uno de los subintervalos en que se
ha dividido previamente el rango de valores observados.
191
Al igual que muchos contrastes cuyo estadstico hace intervenir al tamao
muestral de modo multiplicativo, el contraste de Bera-Jarque tiene una pecu-
liaridad, y es que para tamaos muestrales elevados, el estadstico del contraste
toma un valor alto, que puede conducir al rechazo de la hiptesis nula en de-
masiadas ocasiones. Dicho de otro modo, para muestras grandes, el contraste
tiene un tamao muy superior al terico.
Intervalo de conanza para la varianza Si la poblacin de la que se extrae
una muestra aleatoria simple es Normal, con esperanza j y varianza o
2
, ambas
constantes, y :
2
r
denota la cuasi-varianza muestral, el cociente
(nl)s
2
o
c
2
sigue una
distribucin
2
nl
. Por tanto, si observamos una muestra de 25 observaciones
sucesivas de una rentabilidad que estamos dispuestos a suponer que evoluciona
independientemente en el tiempo, y calculamos una cuasi-varianza muestral de
12,5, tendremos que
(2d)(l2,5)
c
2
se distribuye como una
2
2d
.
Por tanto, tendremos:
0, 0 = 1
_
12, 4 _
(24)(12, )
o
2
_ 80, 4
_
= 1
_
7, 61 _ o
2
_ 24, 10
_
un intervalo no muy preciso, que tendramos que tener en cuenta al establecer
nuestras conclusiones acerca de la volatilidad de un mercado. Por supuesto,
que el nmero de datos utilizados es muy importante para la precisin de la
estimacin y, como consecuencia, para la amplitud del intervalo de conanza.
Si la cuasi-varianza de 12,5 hubiese sido obtenida a partir de 10 datos, entonces
l25
c
2
se distribuira como una
2
l0
, y tendramos:
0, 0 = 1
_
8, 2 _
12
o
2
_ 20,
_
= 1
_
6, 10 _ o
2
_ 88, 46
_
Sesgos al estimar la desviacin tpica La cuasi-varianza muestral
l
Tl

T
|=l
r
2
|
,
calculada a partir de una muestra aleatoria simple, es decir, una muestra cuyos
elementos son independientes entre s, es un estimador insesgado de la varianza
poblacional. Por tanto, 1
_
l
Tl

T
|=l
r
2
|
_
= o
2
:
. Esto es vlido para cualquier
poblacin con esperanza y varianza constantes. Sin embargo, la estimacin que
deducimos para la desviacin tpica tomando la raz cuadrada de la estimacin
de la varianza no es insesgada, debido a que la esperanza matemtica de una fun-
cin no lineal no es igual al valor de la funcin en dicha esperanza matemtica.
De hecho, la desigualdad de Jensen nos dice que: 1 [q(A)[ _ q (1A) si la fun-
cin q es cncava, y lo contrario ocurre si la funcin q es convexa. Si calculamos
la desviacin tpica muestral como la raz cuadrada (funcin cncava) de la var-
ianza muestral: 1T(r) =
_
l
Tl

T
|=l
r
2
|
, en promedio (aunque no para el valor
numrico obtenido en una sola muestra) ser menor que la desviacin tpica
poblacional, ya que por la desigualdad de Jensen:
192
1 (1T(r)) = 1
_
_

_
1
T 1
T

|=l
r
2
|
_
_
_

_
1
_
1
T 1
T

|=l
r
2
|
_
o
2
:
El sesgo de sobre-estimacin as cometido al estimar la desviacin tpica
puede evaluarse en el caso de una poblacin Normal.
Una medida no paramtrica de volatilidad Se dice que una variable
aleatoria A es ms voltil que otra variable 1 si se tiene:
1 ([ A [ c) 1 ([ 1 [ c) \c 0
Sin embargo, este concepto slo permite establecer un ranking de variables
de acuerdo con su volatilidad, pero no asignar un valor numrico a la misma.
Adems, no es fcil que la condicin anterior se satisfaga, sino ms bien, que
para algunos valores numricos de c se tendr la ordenacin reseada, y para
otros, la contraria, por lo que no podremos arma que A es ms voltil que 1 ,
ni tampoco que 1 es ms voltil que A. End enitiva, es poco verosimil que
este concepto introduzca un orden completo entre distribuciones.
Si aplicamos este concepto a la sucesin de variables aleatorias que conguran
un proceso estocstico, tendremos que el proceso A
|
se hace ms voltil si se
tiene que:
1 ([ A
|l
[ c) 1 ([ A
|
[ c) \c 0
Si el proceso sigue una distribucin Normal con esperanza constante, la
condicin anterior slo se producir si: o
2
|l
o
2
|
, por lo que estaramos de
nuevo en el criterio de la varianza.
8.1.7 Rentabilidades continuas
Hay varias razones estadsticas que justican el uso de rentabilidades, en vez de
precios o cotizaciones, al analizar los mercados nancieros. Una, importante, es
la general ausencia de estacionariedad en los precios de los activos nancieros,
as como en los ndices de los principales mercados, que puede reejarse de
diversas formas: presencia de tendencias estocsticas, presencia de tendencias
deterministas en los precios de mercado, volatilidad cambiante en el tiempo, etc..
Una tendencia determinista es una funcin exacta del tiempo, generalmente
lineal o cuadrtica. Una tendencia estocstica es un componente estocstico
cuya varianza tiende a innito con el paso del tiempo.
Si una variable presenta una tendencia determinista, su valor esperado ten-
der a aumentar o disminuir continuamente, con lo que ser imposible mantener
el supuesto de que la esperanza matemtica de la sucesin de variables aleato-
rias que congura el proceso estocstico correspondiente a dicha variable, es
constante. En consecuencia, tampoco podr mantenerse que la distribucin de
193
probabilidad de dichas variables es la misma a travs del tiempo. Sin embargo,
si efectuamos una correcta especicacin de la estructura de dicha tendencia,
podr estimarse y extraerse del precio, para obtener una variable estacionaria,
que no presentara las dicultades antes mencionadas. Un ejemplo claro es la
tendencia cuadrtica en el ndice SP500, que puede estimarse mediante un poli-
nomio de grado 2 del tiempo, con coeciente positivo en la segunda potencia,
o100
|
= a /t ct
2
n
|
Las diferencias entre los valores del ndice y los que toma dicha funcin
determinista del tiempo podran servirnos como la versin sin tendencia del
ndice SP500 y, como se ve en los grco / : de la pestaa SP500 trend en el
archivo Indices_work.xls, ambas versiones de la variable son de naturaleza muy
diferente. Ene ste caso, el graco ilustra que la eliminacin de la tendencia
cuadrtica determinista deja un comportamiento un tanto extrao, que podemos
admitir de carcter estocstico, que habra que modelizar. La volatilidad de la
serie SP500 haci el nal de la muestra,. que es enorme en trminos histricos,
queda claramente reejada al eliminar la tendencia determinista.
Mayor dicultad entraa el caso en que una variable precio incluye una ten-
dencia estocstica pues, en tal caso, su esperanza y varianza no estn denidas.
La presencia de una tendencia estocstica requiere transformar la variable, gen-
eralmente en primeras diferencias temporales, o tomando las diferencias entre
las observaciones correspondientes a una misma estacin cronolgica, en el caso
de una variable estacional. La transformacin mediante diferencias resulta bas-
tante natural en el anlisis de datos nancieros, por cuanto que la primera
diferencia del logaritmo de un precio, es la rentabilidad del activo. Por esto es
que tambin la transformacin logartmica es utilizada habitualmente cuando
se trabaja con precios o ndices de mercado. En el caso del SP500, el grco de
la rentabilidad, obtenida como priemra diferencia logartmica muestra perodos
de mayor y de menor volatilidad, como sucede con todo activo nanciero.
Como prcticamente ningn precio o ndice nanciero es estacionario, el uso
indiscriminado de un estadstico como la varianza o la desviacin tpica como
indicador de riesgo conduce a medidas sesgadas al alza.
Rentabilidad en mercados cotizados en tipos de inters Si se trabaja
con datos de un mercado que cotiza en TIRes o en tipos de inters, como sucede
con un mercado interbancario, calculamos la rentabilidad de dicho mercado
considerando la variacin en el precio de una cartera invertida en el mismo. La
rentabilidad en dicho mercado no es el tipo de inters cotizado, excepto si se
mantiene el activo a vencimiento. Si queremos generar la rentabilidad sobre un
periodo de tiempo, actuamos del siguiente modo: generamos un ndice de precios
sobre 100, mediante la expresin: 1
:
= 100,(1 r
|
), y calculamos la variacin
porcentual o logartmica en dichos precios. Por ejemplo, si una rentabilidad
cotizada se ha reducido de 5,32% a 4,25%, la cartera habr incrementado su
valoracin en el mercado. El descenso de tipos se puede evaluar por medio de:
194
1
|
1
|l
1
|l
=
l00
l:t

l00
l:t1
l00
l:t1
=
l00
l,00d25

l00
l,0532
l00
l,0532
=
0, 0288 04, 0487
04, 0487
=
0, 0476
04, 0486
= 0, 010264
y la revalorizacin habr sido del 1,02%.
Un procedimiento ms simple, aunque quiz ms dicil de recordar, consiste
en sumar 1 a las rentabilidades porcentuales cotizadas y calcular su tasa de
variacin:
1
|
100
=
_
1 r
|
1 r
|l
_
l
1 =
1
l
|
1
l
|l
=
_
1, 042
1, 082
_
l
1 = 1, 0102641 = 0, 010264
obtenindose en ambos casos la misma rentabilidad, de 1,0264%.
Rentabilidad continua equivalente Distinguimos entre rentabilidades por-
centuales y rentabilidades logartmicas. Estas ltimas se conocen asimismo
como rentabilidades continuas.
Rentabilidad porcentual:
1
|
= 100
1
|
1
|l
1
|l
Rentabilidad logartmica:
r
|
= 100(ln1
|
1
|l
)
donde vemos la diferencia en la transformacin logartmica a que antes nos
referamos.
Ambas rentabilidades son aproximadamente iguales si 1
|
es pequea, puesto
que:
r
|
100
= ln1
|
ln1
|l
= ln
1
|
1
|l
= ln(1
1
|
100
) ~
1
|
100
mientars que la relacin exacta entre ambas, siempre vlida, est dada por:
ln(1
1
|
100
) =
r
|
100
y r
|
se dice que es la rentabilidad continua equivalente a 1
|
.
Example 9 Las rentabilidades porcentuales de los ndices burstiles S&P 500,
DAX30, NIKKEI, FTSE100 en el mes de agosto de 1999, fueron de -0,63%,
3,31%, -2,38%, 0,23%, mientras que las rentabilidades logartmicas en igual
perodo fueron: -0,63%, 3,26%, -2,41%, 0,23%. Las diferencias son pequeas
sobre perodos cortos de tiempo, as como en perodos de estabilidad de los mer-
cados, pues entonces las rentabilidades son menores.
195
La transformacin logartmica en presencia de varianza cambiante
en el tiempo La transformacin logartmica aminora la heterocedasticidad,
fenmeno que consiste en que la varianza de un proceso cambia en el tiempo,
en funcin de unos factores determinantes, r
|
. Por ejemplo, en el modelo: j
|
=
c
r
0
t
out
, donde n
|
es Normal(0,o
2
u
), y las variables r
|
son deterministas, j
|
tiene
una distribucin lognormal, ya que su logaritmo es Normal: lnj
|
= r
0
|
, n
|
.
Este es un modelo bastante natural, en que el logaritmo de la variable en estudio
se hace depender de una combinacin lineal de distintos factores explicativos,
as como de un trmino estocstico, no representable en trminos de factores
observables. La combinacin lineal r
0
|
, representa el componente de j
|
que
podemos explicar, mientras que n
|
representa el componente de j
|
que queda
sin explicar.
Bajo esta representacin, tendramos:
\ ar(j
|
) = \ ar(c
ut
)(c
r
0
t
o
)
2
= (c
r
0
t
o
)
2
c
c
2
r
_
c
c
2
r
1
_
por lo que j
|
tiene heterocedasticidad. Sin embargo, su logaritmo es homo-
cedstico, es decir, tiene varianza constante en el tiempo, puesto que:
\ ar(lnj
|
) = \ ar(n
|
) = o
2
u
Como aplicacin, este argumento sugiere que, incluso si la varianza de 1
|
(en realidad, la varianza de 1+1
|
/100) es cambiante en el tiempo, de acuerdo
con la evolucin de ciertos factores r
|
, la varianza de r
|
tender a presentar tal
caracterstica en mucha menor medida.
Comparacin de volatilidades entre activos o entre mercados.
Example 10 El Cuadro 5 muestra algunas caractersticas estadsticas de las
rentabilidades logartmicas diarias de los ndices burstiles que venimos con-
siderando.
Hay que observar que, contrariamente al anlisis de volatilidad de las cotiza-
ciones, en este caso no conviene tomar los rangos de variacin como porcentaje
de la media. La razn es que, en la mayora de los mercados, la rentabilidad
promedio durante un intervalo de tiempo se aproximar a cero, por lo que los co-
cientes rango/media sern arbitrariamente grandes, sesgando cualquier posible
interpretacin. Lo mismo ocurre con el coeciente de variacin. Precisamente,
una ventaja de trabajar con rentabilidades es que carecen de unidades, siendo
homogneas a lo largo de distintos ndices, con independencia de los niveles
medios alrededor de los que estos ucten, por lo que no es preciso ponerlas
en relacin con la media. Por otra parte, cuando la media muestral es pe-
quea, como ocurre con rentabilidades de mercados nancieros sobre perodos
de tiempos reducidos, la varianza puede calcularse, aproximadamente, como el
promedio de los cuadrados de los valores tomados por la variable (el promedio
de las rentabilidades observadas, al cuadrado).
196
Centrndonos en el mes de agosto de 1999, el rango observado de rentabil-
idades en las bolsas latinoamericanas [Cuadro 6, pestaa Agosto 1999 en el
archivo Indices_work.xls] tiende a ser superior al del resto, con la excepcin del
ndice Chile-general. Esto sucede tanto con el rango total como con el rango del
80% o el rango intercuartlico. Por otra parte, las rentabilidades de los ndices
de Miln, MCI-Swiss y S&P 5000 ofrecieron un comportamiento ms estable
que la del resto de los mercados considerados, con rangos de rentabilidades ms
reducidos.
En una escala temporal ms amplia, los rankings anuales de volatilidad de
rentabilidades muestran que FTSE100, Miln, MCI-Swiss y S&P 5000 han sido
los ndices con rentabilidades menos voltiles, con Bovespa, Merval y Mexico
IPC como los ms voltiles. Los Cuadros 7 y 10 contienen este tipo de informa-
cin, el primero a travs de la varaianza de las rentabilidades diarias observadas
durante el ao, y el segundo calculando la volatilidad como promedio de rentabil-
idades diarias al cuadrado [ver pestaa Anuales en el archivo Indices_work.xls].
El supuesto de rendimientos lognormales Se dice que una variable aleato-
ria A, denida sobre el subespacio de nmeros reales positivos, sigue una dis-
tribucin de probabilidad Lognormal cuando la variable aleatoria que se obtiene
como su logaritmo neperiano, 1 = |:(A), sigue una distribucin Normal(j,o
2
).
En tal caso, la funcin de densidad de 1 es:
)(j) =
1
o
_
2
c

(,)
2
2o
2
, < j <
y la funcin de densidad de A,
)(r) =
1
r
_
2
c

(ln o,)
2
2o
2
, r 0
La esperanza y varianza de A son:
1(A) = c

1
2
c
2
; \ ar(A) = c
2c
2
_
c
c
2
1
_
Es habitual suponer que el proceso seguido por el precio o cotizacin de un
activo es tal que el rendimiento porcentual bruto correspondiente a un perodo
sigue una distribucin lognormal, es decir, que su logaritmo, el tipo continuo,
tiene una distribucin Normal:
r
|
100
= ln(1
1
|
100
) ~
_
j, o
2
_
Una ventaja de suponer una distribucin lognormal para el rendimiento por-
centual es que asegura que 1+1
|
/100 sea no negativo, lo que no ocurrira si
supusiramos Normalidad de 1
|
.
Pero conviene recordar que la distribucin lognormal no es simtrica de modo
qeu bajo este supuesto, el tamao medio de las rentabilidades por encima de la
media es superior al promedio de las rentabilidades por debajo de la media.
Bajo este supuesto, la esperanza y varianza de la rentabilidad simple 1
|
son:
197
1(1
|
,100) = c

1
2
c
2
1; \ ar(1
|
,100) = c
2c
2
_
c
c
2
1
_
estas frmulas son muy tiles para obtener predicciones a partir de modelos
estimados para los logaritmos de los rendimientos, pues si j es la prediccin para
el logaritmo del rendimiento y o
2
es la varianza condicional estimada para dicho
logaritmo del rendimiento (es decir, la varianza de la innovacin del proceso para
el logaritmo del rendimiento), entonces la prediccin para el propio rendimiento
y la varianza asociada, que nos servir para construir intervalos de conanza
para dicha prediccin, se obtienen a partir de las expresiones anteriores.
En el otro sentido, si :
l
y :
2
son la esperanza y varianza del proceso de
rentabilidades, los momentos anlogos para el logaritmo de la rentabilidad son,
1(r
|
) = ln
_
_
:
l
1
_
1
n2
|ln1|
2
_
_
; \ ar(r
|
) = ln
_
1
:
2
[1 :
l
[
2
_
Agregacin temporal de rentabilidades continuas La transformacin
logartmica hace que podamos obtener rentabilidades continuas compuestas me-
diante sumas. Supongamos que queremos calcular la rentabilidad sobre dos
perodos. Observando que:
r
l
|
100

r
l
|l
100
= ln
1
|
1
|l
ln
1
|l
1
|2
= ln1
|
ln1
|l
ln1
|l
ln1
|2
=
= ln1
|
ln1
|2
= ln
1
|
1
|2
= r
2
|
vemos que la rentabilidad continua a 2 perodos es, simplemente, la suma
de las rentabilidades continuas a 1 perodo obtenidas durante los dos ltimos
perodos. Algo similar ocurre para inversiones llevadas a cabo durante : y :
perodos de tiempo, respectivamente, siendo : un mltiplo de : (: = /:),
pero siempre que las rentabilidades sean continuas. En ese caso, la suma de las
rentabilidades continuas obtenidas durante los ltimos / intervalos de tiempo,
cada uno de ellos de duracin : perodos, es igual a la rentabilidad continua
obtenida durante los ltimos : perodos.
Por el contrario, la suma de rentabilidades porcentuales sobre / perodos de
tiempo de longitud : no proporciona exactamente la rentabilidad porcentual
sobre un intervalo de longitud :, y el error de aproximacin va aumentando con
/.
Es importante observar que, para realizar la agregacin temporal de las
rentabilidades de tipo continuo no es preciso suponer independencia temporal
de las mismas.
No ocurre lo mismo si queremos hacer la misma extrapolacin temporal para
las volatilidades:
198
\ ar
_
r
2
|
100
_
= \ ar
_
r
l
|
100

r
l
|l
100
_
= \ ar
_
r
l
|
100
_
\ ar
_
r
l
|l
100
_
2Co
_
r
l
|
100
,
r
l
|l
100
_
por lo que la varianza de la rentabilidad durante un perodo amplio no es
igual a la suma de las varianzas de las rentabilidades durante los perodos ms
cortos comprendidos en el intervalo amplio. La diferencia entre ambos clculos
estriba en que el segundo ignora las covarianzas entre cada par de rentabilidades
sobre perodos cortos.
Por tanto, si dichas rentabilidades fuesen independientes, sus covarianzas
seran nulas, y tendramos que la varianza sobre el horizonte largo sera igual a
la varianza de las rentabilidades sobre los perodos cortos.
Recordemos, adems, que la suma de variables aleatorias Normales, inde-
pendientes o no, sigue asimismo una distribucin de probabilidad Normal. Por
tanto, si suponemos que las rentabilidades continuas durante un perodo son
independientes y obedecen a la misma distribucin
Normal, tendremos, a lo largo de T perodos:
r
|
r
|l
r
|2
... r
|Tl
100
~ (Tj, To
2
)
de modo que la rentabilidad porcentual (o simple) a lo largo del intervalo de
tiempo (t T, t) tiene por esperanza y varianza:
1
_
1
|
100
_
= c
T
1
2
Tc
2
1; \ ar
_
1
|
100
_
= c
2TTc
2
_
c
Tc
2
1
_
Si las rentabilidades no fuesen independientes a lo largo del tiempo, su suma
tendra una distribucin Normal, pero su varianza no sera tan sencilla como
To
2
. Como antes, un anlisis similar aplica a intervalos de tiempo : y :, con
: = /:.
Este anlisis sugiere, por tanto, que un modo de contrastar la independencia
de rentabilidades consiste en analizar si la varianza muestral aumenta lineal-
mente con la amplitud de la ventana muestral. En variables con covariacin
positiva, al agregar temporalmente tendremos un crecimiento ms que lineal de
la varianza, y lo contrario ocurrir bajo covariacin negativa.
Agregacin de volatilidades en una cartera. La volatilidad de una cartera
no es simplemente el resultado de agregar la volatilidad de los activos que la
componen, a diferencia de lo que ocurre con las rentabilidades. Podra pensarse
en construir un indicador agregado de volatilidad ponderando las volatilidades
de los activos individuales, de acuerdo con los pesos con que cada activo entra
en el ndice o la cartera. Este procedimiento ignora la existencia de covariacin
entre la rentabilidad de los distintos activos: la volatilidad del indice conjunto no
es igual a la suma ponderada de las volatilidades. Para calcular una estimacin
de la volatilidad de una cartera debe calcularse la forma cuadrtica resultante de
199
utilizar la matriz de varianzas y covarianzas de las rentabilidades de los activos
individuales.
Esto se debe a que toda cartera no es sino el resultado de distribuir un capital
entre / activos:
=
l

2
...
|
= r
l
r
2
... r
|

donde r
I
, i = 1, 2, .., / son las proporciones del capital invertidas en cada
activo i, que suman 1. La rentabilidad de la cartera, que es una variable aleato-
ria, ser una combinacin lineal de las rentabilidades de los activos individuales
(asimismo aleatorias a priori), utilizando como ponderaciones los porcentajes
invertidos en cada uno de ellos:
r
c
= r
l
r
l
r
2
r
2
... r
|l
r
|l
r
|
r
|
de modo que la rentabilidad esperada de la cartera ser:
r
c
= r
l
r
l
r
2
r
2
... r
|l
r
|l
r
|
r
|
Precisamente porque la varianza de una suma no es igual a la suma de var-
ianzas, la varianza (volatilidad) de la cartera no puede obtenerse componiendo
de un modo similar la varianza (volatilidad) de los activos individuales. Por el
contrario, hemos de escribir la rentabilidad de la cartera como:
r
c
= (r
l
, r
2
, ..., r
|
)
_
_
_
_
_
_
r
l
r
2
r
3
...
r
|
_
_
_
_
_
_
de manera que:
\ ar(r
c
) = (r
l
, r
2
, ..., r
|
)

_
_
_
_
_
_
r
l
r
2
r
3
...
r
|
_
_
_
_
_
_
donde es la matriz de varianzas-covarianzas de las rentabilidades de los
activos que forman parte de la cartera. El resultado de esta operacin es un
escalar (un nmero).
8.1.8 Rango esperado de precios bajo el supuesto de Normalidad
Si la rentabilidad de un activo obedece a una distribucin Normal, la proba-
bilidad de que dicha rentabilidad se site entre su esperanza matemtica y un
rango alrededor de ella de ms o menos una desviacin tpica, es del 68,26%.
Pasa a ser del 95,46% cuando el intervalo tiene dos desviaciones tpicas de am-
plitud, y es del 99,87% para tres desviaciones tpicas. El intervalo de conanza
200
del 95% est delimitado por la esperanza matemtica ms y menos 1,96 veces la
desviacin tpica, mientras que el intervalo de conanza del 99% est delimitado
por la esperanza matemtica ms y menos 2,33 veces la desviacin tpica.
La cotizacin media del IBEX35 durante diciembre de 1997 fue de 7.152,52.
A lo largo del mismo mes, la volatilidad diaria de las cotizaciones, medida
por su desviacin tpica, fue de 91,93. Bajo el supuesto de que la cotizacin
del ndice sigue una distribucin Normal con esperanza y varianza constantes,
los fundamentos estadsticos que acabamos de recordar nos permitiran con-
struir intervalos de conanza para las cotizaciones de das futuros, llevando a
izquierda y derecha de la cotizacin mensual media, tomada como prediccin de
la cotizacin en das sucesivos, un determinado nmero de veces su desviacin
tpica. Esto nos producira intervalos de conanza que cambiaran a travs del
tiempo segn fuesen variando la prediccin puntual de la cotizacin futura, y la
desviacin tpica muestral.
Si creemos que el proceso de cotizaciones no es estacionario, entonces tal
ejercicio es bastante cuestionable, puesto que se basa en la hiptesis de que la
distribucin de probabilidad del proceso de cotizaciones que se analiza es rela-
tivamente estable. En general, la ausencia de estacionariedad va a aparecer en
la forma de esperanza y varianza cambiantes en el tiempo, por lo que interva-
los centrados alrededor de una cotizacin media histrica pueden ser muy poco
representativos de la evolucin futura del mercado.
Existe un modo razonable de construir intervalos de valores esperados bajo
los supuestos que hemos hecho acerca de la distribucin de probabilidad de las
rentabilidades continuas.
Retomemos la hiptesis de que ln(11
|
) o, lo que es lo mismo, ln(1
|
,1
|l
),
se distribuye como una Normal(j,o
2
) y, por estabilidad temporal, lo mismo
ocurre con ln(1
|l
,1
|
). Ello signica que, una vez que ln(1
|
) es conocido,
entonces podemos considerar que ln(1
|l
) se distribuye como una Normal( j
ln(1
|
), o
2
).
Para ello, es importante observar que la desviacin tpica de las rentabili-
dades fue, a lo largo de diciembre de 1997, de 0,0135363. Como primera aproxi-
macin, vamos a ignorar la rentabilidad diaria media durante diciembre de 1997,
que fue de 0,198%, y en cuya repeticin quiz el inversor no quiera conar. Este
es el parmetro j de la expresin anterior, que supondremos igual a cero, por
lo que centraremos nuestro intervalo exclusivamente alrededor de ln(1
|
).
En tales condiciones, el rango de cotizaciones del 68,26% para el da siguiente
de mercado (primer da de mercado de enero) es de:
ln(712, 2)
_
1(0, 018868) < lno < ln(712, 2)
_
1(0, 018868)
es decir,
8, 8616887 < lno < 8, 88876
7.06, 4 < o < 7.20, 0
201
siendo el ltimo un clculo aproximado.
El rango de cotizaciones del 95,46% para el da siguiente de mercado es de:
ln(712, 2) 1, 06
_
1(0, 018868) < lno < ln(712, 2) 1, 06
_
1(0, 018868)
es decir:
8, 848147 < lno < 8, 002208
6.061, < o < 7.848, 8
mientras que el rango del 99% est determinado por:
ln(712, 2) 2, 88
_
1(0, 018868) < lno < ln(712, 2) 2, 88
_
1(0, 018868)
es decir:
8, 848680 < lno < 8, 006760
6.080, < o < 7.881, 7
lgicamente, ms amplio que el anterior.
Por ltimo, el rango del 99% para cinco das de negociacin (una semana)
despus, es:
ln(712, 2) 2, 88
_
(0, 018868) < lno < ln(712, 2) 2, 88
_
(0, 018868)
es decir:
8, 80460 < lno < 8, 0474
6.666, < o < 7.67, 2
Puede observarse que:
los intervalos construidos no son centrados en torno a la cotizacin del da,
7.152,52, como consecuencia del supuesto de lognormalidad, que hace ms
probables aumentos importantes que descensos importantes (es decir, el
incremento medio esperado es mayor que el descenso medio esperado),
la amplitud de los intervalos aumenta con el grado de conanza que quer-
emos tener en que el intervalo construido contenga a la cotizacin que se
pretende anticipar,
la amplitud de los intervalos aumenta con el horizonte temporal para el
cual establecemos la prediccin.
202
Con este procedimiento podemos aprovecharnos de la aditividad de las rentabil-
idades continuas. Recordemos que esta propiedad garantiza que la rentabilidad
continua sobre un determinado perodo de tiempo puede obtenerse agregando las
rentabilidades continuas sobre subperodos del mismo. Adems, si las rentabil-
idades continuas son independientes, y cada una de ellas sigue una distribucin
Normal, todas ellas con igual esperanza y varianza, entonces su suma obedece
asimismo una distribucin Normal, con esperanza y varianza igual a la esperanza
y varianza de cada una de las rentabilidades sobre un subperodo, multiplicadas
por el nmero de rentabilidades incluido en el perodo amplio.
Por tanto, si quisisemos tomar en consideracin el incremento diario medio
en rentabilidad, estimado en un 0,198%, cuando calculamos un rango admisi-
ble para dentro de una semana, lo que haramos sera aadir 5 veces 0,00198
al logaritmo de la cotizacin actual, 7.152,52, antes de tomar 2,33 veces a su
izquierda y a su derecha, la desviacin tpica, de 0,0135363.
As,
[|:(712, 2) (0, 00108)[ 2, 88
_
(0, 018868) < |:o <
< [ln(712, 2) 0 (, 00108)[ 2, 88
_
(0, 018868)
es decir,
6.781, 8 < o < 7.71,
8.1.9 La varianza como variable temporal
Una generalizacin importante en el anlisis de datos nancieros, consiste en
considerar los estadsticos muestrales no como constantes, sino siendo a su vez
funciones del tiempo, en cuyo caso estaremos interesados en disponer de series
temporales de los mismos. Si identicamos volatilidad con desviacin tpica,
slo generando series temporales de la varianza de su rentabilidad podremos
hablar de variaciones en la volatilidad de dicho activo.
Sin embargo, la varianza es un momento poblacional o muestral y, como tal
es constante. Cmo podemos generar una serie temporal para la varianza?
Utilizando las denominadas ventanas muestrales, que son submuestras cortas,
cada una de las cuales se obtiene a partir de la previa, aadiendo un ltimo dato,
y prescindiendo del primero. La amplitud de la ventana ha de ser suciente como
para creer que, con cada una de ellas podemos estimar el parmetro en cuestin
(por ej., la varianza) con suciente aproximacin. De este modo, estaremos
generando un valor numrico de la varianza en cada instante para el cual tenemos
un dato. Slo perderemos un nmero de observaciones iniciales, igual al nmero
de ellas incluidas en cada ventana. Si, por ej., cada ventana consta de 20 datos,
entonces podremos generar datos de varianza a partir de la observacin 21.
Hay que mantener un equilibrio, no siempre fcil, al decidir la amplitud de
la ventana que se utiliza en el clculo de la varianza: por un lado, una ventana
ms corta tendr ms posibilidad de utilizar una media estable, y representar
203
mejor la situacin actual, pero la varianza resultante ser bastante voltil, entre
otras cosas, porque no la estimaremos con suciente precisin. Por otro, una
ventana amplia proporcionar una medida de volatilidad suave, pero calculada
respecto a una medida de referencia posiblemente no constante. En la valoracin
de opciones, se recomienda generalmente utilizar una ventana de longitud igual
al perodo que resta hasta el vencimiento de la opcin.
Example 11 El Grco 1 presenta la volatilidad del NIKKEI, medida a travs
del promedio de las rentabilidades diarias, al cuadrado, calculadas con datos de
1 mes de mercado. Por tanto, se han utilizado ventanas mviles de 22 datos (por
simplicidad, se han utilizado el mismo nmero de datos, incluso en presencia
de festivos). Las desviaciones tpicas son anualizadas. La elevada volatilidad
de algunos meses de agosto y octubre en aos recientes aparece claramente en
el grco. Este es un mercado con un nivel de volatilidad relativamente alto.
Pero lo ms signicativo en l son las uctuaciones que experimenta su nivel
de volatilidad (por ej., mensual). En este mercado, la volatilidad es muy er-
rtica. Por comparacin, en el Grco 2 se muestra asimismo la serie temporal
de volatilidades, calculadas sobre una ventana mvil de 3 meses (66 sesiones).
Puede apreciarse que la serie temporal de volatilidad calculada con una ventana
muestral ms amplia es ms suave que la calculada con una ventana muestral
ms corta. Esto siempre ocurre as, por construccin. Este grco contina
mostrando notables variaciones en el nivel de volatilidad.
Los grcos 3 y 4 superponen las series temporales de volatilidades, con
ventanas trimestrales, para el ndice MILAN por un lado, y el DAX 30 y MCI-
Swiss por otro, en ambos casos, para un perodo largo: enero 1990 a septiembre
1999. Los grcos sugieren que existe cierta asociacin entre las uctuaciones
que experimenta la volatilidad en estos mercados, aunque la relacin es menos
que perfecta. Tanto el DAX como el MCI-Swiss han sido algo menos voltiles
que el ndice de Miln, pudiendo apreciarse una mayor diferencia en el caso
del ndice suizo, que alcanza niveles de volatilidad claramente inferiores. El
Grco 5 presenta la volatilidad comparada del Nikkei y del ndice S&P 500,
pudiendo apreciarse la mucha mayor uctuacin experimentada por el nivel de
volatilidad del mercado japons. Adems, los momentos lgidos de volatilidad
en el Nikkei no parecen venir acompaados de una situacin similar en el ndice
estadounidense.
Sin embargo, si nos interesa el grado de asociacin existente entre los niveles
de volatilidad en dos mercados, es difcil apreciarlo en un grco temporal. Es
mucho ms til considerar nubes de puntos de volatilidades para los mismos
pares de ndices, que aparecen en los Grcos 6, 7 y 8 desde enero de 1996. Se
aprecia en ellos que existe una apreciable asociacin entre los niveles de volatili-
dad de los ndices europeos, si bien no tanto entra la volatilidad experimentada
por el Nikkei y la del S&P 500, como ya sugera el grco temporal. Si bien
es fcil imaginar una relacin aproximadamente unitaria entre los niveles de
204
volatilidad de los ndices MCI-Swiss, Miln y DAX, la situacin es menos clara
en la comparacin entre las bolsas de Tokio y Nueva York.
Sera interesante estimar modelos estadsticos de relacin (regresin) entre
estos pares de volatilidades: por un lado, un modelo que relacionase sus niveles
en cada da de la muestra podra conducir a una pendiente prxima a la unidad
en el caso de las comparaciones entre mercados europeos. Ello sera, adems,
consistente con la idea de que existe quiz un factor de volatilidad que explica
una buena parte de los niveles de volatilidad en estos mercados. En la com-
paracin Nikkei vs. S&P 500, la relacin parece estar bastante condicionada
por los episodios de alta volatilidad que han sido comunes a ambos mercados.
Por ltimo, el Grco 9 ilustra que la asociacin entre los niveles de volatilidad
trimestral es bastante mayor que la existente entre los niveles de volatilidad
mensual, como quiz cabra esperar.
El mayor inters que presenta el clculo de la varianza en la forma de una se-
rie temporal es que, con ella, podemos plantearnos la prediccin de la volatilidad
futura, que discutiremos en detalle ms adelante. Un segundo aspecto de impor-
tancia reside en la capacidad que nos prestan las series temporales de cuanticar
el grado de asociacin de la volatilidad en distintos mercados, as como las car-
actersticas dinmicas de su relacin. Si detectamos que una mayor volatilidad
en un ndice de mercado, como Dow Jones, anticipa un aumento de volatilidad
en otro ndice, como el DAX, quiz podamos utilizar dicha informacin para
mejorar nuestras predicciones de la volatilidad en este ltimo mercado.
Ahora bien, sobre qu intervalo de tiempo debe estimarse la volatilidad? Ya
hemos dicho que la eleccin de una longitud para la ventana muestral dista de
ser trivial. En algunos casos, como cuando se quiere extrapolar hacia el futuro
(predecir) volatilidad, es habitual utilizar una misma longitud en su clculo que
la del perodo sobre el que se quiere predecir. Esto es ms evidente en algunos
casos, como los conos de volatilidad que veremos en la Seccin XX, que en otros.
Que no haya unanimidad sobre cuestiones de este tipo ayuda a generar mercado,
pues distintos agentes valorarn la volatilidad de distinta manera, entre otras
cosas, porque estn interesados en distintos horizonte de inversin.
Pero, incluso jado un intervalo temporal debemos de dar a todas las ob-
servaciones pasadas la misma relevancia en el clculo de la volatilidad? Puede
parecer razonable ponderar ms las observaciones ms recientes. Utilizando las
potencias de un factor `, 0<`<1 , conseguimos que las observaciones vayan
perdiendo importancia cuanto ms se alejan en el tiempo.
La medida de volatilidad es entonces:
o
2
=

_
1
A
n

I=l
`
I
r
2
|I
donde : es el nmero de datos utilizado en el clculo de la volatilidad, y:
A =

n
I=l
`
I
= `
lX
r
lX
, que se reduce a: A =
l
lX
cuando no ponemos un lmite
al nmero de datos utilizado. En tal caso, el uso del factor ` substituye a la
necesidad de jar de antemano un nmero de observaciones para el clculo de
205
la volatilidad. Reducir el valor de ` equivale a acortar el intervalo temporal
utilizado en la estimacin.
Un anlisis similar podra aplicarse al clculo de la correlacin entre dos
rentabilidades:
j =
1
A
n

I=l
`
I
r
|I
j
|I
con el objeto de aminorar el efecto de acontecimientos relativamente alejados.
Example 12 El Cuadro 9 muestra este clculo, aplicado a la volatilidad del
DAX 30 y el ndice MEXICO IPC durante 1999 (hasta 16/8), utilizando como
pesos las potencias de 0,97 y 0,66, alternativamente. Puede apreciarse que los
niveles de volatilidad disminuyen, en este caso, al aplicar las ponderaciones
relativas y tanto ms cuanto menor es la ponderacin, es decir, cuanto ms se
descuentan los valores ms alejados en el tiempo. Esto se debe a que durante
el perodo considerado, los niveles de volatilidad fueron superiores al comienzo
que al nal de la muestra.
8.1.10 Rendimientos diarios y bandas de conanza
Exercise 13 Este tipo de anlisis proporciona una primera evaluacin acerca
de si un dato de mercado de un da concreto, puede considerarse como anmalo.
Los Grcos 7 y 8 muestran, la rentabilidad del ndice S&P 500 (variacin en
cotizacin), junto con las bandas de conanza del 99%. El primer grco cubre
desde enero 1990 a septiembre 1999, mientras que el segundo comienza en enero
1997.
En segundo lugar, este tipo de evaluaciones es claramente importante al
disear estrategias de cobertura, pues establecemos armaciones acerca del
rango esperado de uctuacin de la rentabilidad de un determinado activo. Es
asimismo importante al calcular el Valor en riesgo de un determinado activo o
mercado.
En este sentido, debe notarse que, aunque nos hemos limitado a calcular
intervalos de conanza, en realidad disponemos de una distribucin de prob-
abilidad centrada alrededor de la ltima cotizacin o precio observados. Por
consiguiente, no slo podemos construir el rango de uctuacin esperado a un
determinado nivel de conanza, sino que tambin podemos asociar probabili-
dades a cada uno de los posibles eventos, dentro o fuera de dicho rango.
Este anlisis se ha basado en dos supuestos:
Independencia de las rentabilidades sobre subperodos no solapados. Este
supuesto facilita enormemente el clculo. Sin embargo, no es necesario, y
podra substituirse por una determinada parametrizacin de las correla-
ciones existentes entre rentabilidades de subperodos sucesivos.
206
Normalidad de las rentabilidades continuas. En muchas ocasiones, tal
supuesto no resulta admisible para variables de rentabilidad nanciera,
como hemos visto ya en algunos ejemplos. En ocasiones, las distribuciones
de frecuencias presentan cierto grado de asimetra. Ms frecuentemente,
en el caso de variables nancieras, la distribucin muestral o de frecuencias
de las rentabilidades observadas presenta desviaciones respecto de su valor
central que son mayores de lo que la Normalidad podra explicar. Dicho
de otro modo, las colas de la distribucin son muy gruesas o los valores
extremos demasiado frecuentes, en relacin con la distribucin Normal.
8.2 Utilizacin de informacin intrada en la medicin de
la volatilidad de un activo nanciero
8.2.1 Medidas de Parkinson y Garman-Klass
Generalmente, entendemos por volatilidad de un activo nanciero el valor anu-
alizado de un indicador de variabilidad de su tasa de rendimiento. Tradicional-
mente, se ha tomado como como indicador de variabilidad la desviacin tpica
aunque, posteriormente, se han ido introduciendo otras medidas alternativas
de volatilidad que se consideran superiores en trminos de eciencia informa-
tiva, algunas de las cuales discutimos en esta seccin, dejando las restantes para
captulos sucesivos. Se entiende que la volatilidad es una medida del riesgo del
activo, aunque ya hemos adelantado algunas razones para tomar con precaucin
dicha interpretacin.
Enlazando con los estadsticos hasta ahora considerados, extendamos el cl-
culo de la volatilidad histrica de una variable, que puede hacerse, disponiendo
de la informacin relativa a un da de negociacin, a travs de:
1) Con precios de cierre (u otro dato representativo del da)
2) Con precios de apertura y cierre
3) Con los precios mximo y mnimo
4) Con el mximo, mnimo, apertura y cierre
5) Con precios bid y ask (en otro sentido)
Si disponemos de precios cotizados continuamente, como ocurre cuando
hemos almacenado todas las transacciones realizadas a lo largo de un da de
mercado:
\ o|ati|idad : \ =
_
22

_
1
T 1
T

|=l
(r
|
r)
2
donde r denota la rentabilidad media del da. La segunda raz calcula la
desviacin tpica de la rentabilidad a lo largo de dicho da de mercado, mientras
que el producto por la raz de 252 anualiza dicha volatilidad.
La rentabilidad media sobre un perodo reducido de tiempo, como el tran-
scurrido entre dos transacciones, ser muy pequea, en cuyo caso, podemos
calcular la volatilidad, muy aproximadamente, como:
207
\ o|ati|idad : \ =
_
22

_
1
T 1
T

|=l
r
2
|
En el caso de que dispongamos de precios de cierre (o cualquier otro dato
nico por da) observados con regularidad inferior a la diaria:
\ o|ati|idad : \ =
_

_
1
T 1
T

|=l
(r
|
r)
2
donde r denota la rentabilidad media durante los T das considerados en
el clculo. Si, por ejemplo, son datos de cierre observados el ltimo dia de
negociacin de cada mes, tendremos = 22, T = 21.
Con el mximo y mnimo de la sesin [Parkinson (1980)], el rango se dene
como la diferencia entre los logaritmos de los precios mximo H
|
y mnimo 1
|
diarios,
1
|
= ln(H
|
) ln(1
|
)
y mide, aproximadamente, el porcentaje en el que el precio mximo excede
del mnimo. Puede probarse que,
11
2
|
= 4 ln(2)o
2
por lo que un estimador natural de la volatilidad, basado en el rango obser-
vado es,
o
2
=
1
4 ln(2)
_
1
T
T

l
1
2
|
_
es decir,
\ o|ati|idad : \ =
_
22

T
|=l
_
ln(H
|
,1
|
)
2
_
T4 ln 2
Con apertura, cierre, mximo y mnimo [Garman-Klass]:
\ o|ati|idad : \ =
_
22

T
|=l
l
2
_
ln(H
|
,1
|
)
2
_
0, 886

T
|=l
_
ln(C
|
,
|
)
2
_
T
Nota: 2 ln(2)-1 = 0,386.
Las medidas de volatilidad de Parkinson y Garman-Klass producen impor-
tantes ganancias de eciencia: con un nmero de datos 5 7 veces menor,
generan estimaciones de la varianza poblacional que son igualmente precisas
que las que se obtienen con datos diarios de cierre.
208
Para un da cualquiera, puede utilizarse como proxy de la volatilidad:
o
2
:,|
=
1
4 ln(2)
1
2
|
.8611
2
|
Este estimador es, generalmente, menos errtico que la rentabilidad diaria
al cuadrado, y tiene ms persistencia que las rentabilidades diarias. Ello sugiere
la posibilidad de utilizar el estimador basado en el rango para validar el modelo
de prediccin de varianza,
o
2
:,|l
= c ,o
2
|l
n
|l
Alternativamente, podramos utilizar el rango en la prediccin de volatili-
dades, como en,
o
2
|l
= . c1
2
|
,o
2
|
1
2
|
dependiendo de cul sea nuestro objetivo.
Example 14 El Cuadro 9 presenta la comparacin entre estas medidas de
volatilidad y la volatilidad ms estndar, calculadas para las cotizaciones de
BBV, TELEFONICA, ENDESA y REPSOL, desde 9/10/97 a 10/11/99.
Para tratar de tener en cuenta que las medidas de apertura/cierre y mx-
imo/mnimo se obtienen en un intervalo inferior a 24 horas, suele ajustarse la
volatilidad resultante por
_
24,8, . De este modo, las medidas Parkinson y
Garman-Klass de volatilidad de BBV aumentan a 3,80% y 3,75%, respectiva-
mente.
Algunas observaciones:
a) Ntese en todas estas deniciones la diferencia entre das hbiles y das
naturales.
b) El trading de activos es un proceso que, en muchos casos, tiene lugar
de modo continuo a lo largo del da. Sin embargo, se observa en momentos
discretos de tiempo.
c) Los valores de trading overnight no se registran, por lo que los valores
realmente observados como alto y bajo no son necesariamente el mximo y
mnimo realmente producidos a lo largo de las 24 horas. Esto produce un sesgo
a la baja en el estimador del alto, y un sesgo al alza en la estimacin del bajo.
El rango de precios queda subestimado, siendo un subintervalo del verdadero
rango de precios.
d) Este sesgo que se produce por generar un proceso discreto a partir de un
proceso que es realmente continuo, es algo signicativo en la medida de Parkin-
son, y queda bastante atenuada en la medida de Garman-Klass. La direccin
del sesgo no es evidente cuando se utilizan exclusivamente datos de cierre.
e) El sesgo puede ser importante en el caso de las opciones.
f) Ejercicios de simulacin sugieren que la mayor liquidez del mercado tiende
a reducir el sesgo, lo que prsta en tal situacin mayor justicacin al uso de las
medidas de Parkinson, y Garman-Klass [ver Wiggins, J. (1992)]
209
8.2.2 Uso de rentabilidades intradiarias
Si observamos los precios negociados de un activo a intervalos regulares de
tiempo, podemos denir,
1
|/n
= ln(o
|/n
) ln(o
|(l)/n
)
donde suponemos : observaciones diarias, para estimar la varianza diaria,
o
2
n,|l
=
n

=l
1
2
|/n
que podra utilizarse, nuevamente, en la validacin de modelos de previsin
de volatilidad, en sustitucin del cuadrado de la rentabilidad diaria, o utilizarse
directamente en la prediccin de volatilidad. Segn aumenta el nmero de
observaciones intradia :, la medida de varianza realizada anterior converge a
la verdadera varianza diaria.
El uso de rentabilidades intradia se ve condicionado en el caso de activos
poco lquidos por la imposibilidad de observar el precio con mucha frecuencia.
Lo que obtenemos entonces no es el precio fundamental del activo, que no es
observable, sino una secuencia de precios bid y ask [ver simulacin en Figure 2.7
en Christoersen]. Los precios diarios intrada pueden contener mucha volatili-
dad esprea, que no existe en el precio fundamental del activo, por los rebotes
observados en las transacciones entre precios bid y ask. Como consecuencia,
las medidas de varianza realizada basadas en rentabilidades intrada pueden
tener tambin este problema, especialmente en mercados poco lquidos. En
un contexto de limitada liquidez, el mximo puede calcularse como el mximo
realmente observado menos la mitad del spread bid-ask, mientras el mnimo es
calculado como el mnimo realmente observado ms la mitad del spread bid-ask.
Sin embargo, en ausencia de fricciones, las medidas de varianza basadas en el
rango de precios contienen informacin equivalente nicamente a la contenida
en 4 rendimientos horarios intrada. Lamentablemente, es difcil extender la
idea a la estimacin de covarianzas y correlaciones, a diferencia de lo que sucede
con las medidas de varianza realizada como veremos ms adelante.
Por el contrario, las medidas basadas en el rango observado son relativamente
inmunes a este problema. En todo caso, dado que la existencia de ticks impide
que los precios ucten de modo continuo, haciendo que se tienda a sobreestimar
la volatilidad [ver Ball, C.A., (1988)], este sesgo se suele corregir en la medida
de Parkinson por medio del ratio c = d,1, siendo d el tamao del tick,
la volatilidad diaria estimada, y P el precio del activo. Si c _1,77, se utiliza
/=0,50
_
t
c
, mientras que si c<1,77, se utiliza /=
_
1 c
2
,6.
La hiptesis de Normalidad del logaritmo de o
2
n,|l
suele no rechazarse end
atos intrada, por lo que podemos utilizar un modelo de prediccin basado en
la volatilidad realizada,
lno
2
n,|l
= c j lno
2
n,|
n
|l
, co: n
|l
~ (0, o
2
u
)
210
Cuando se utiliza un modelo de previsin en logaritmos, conviene recordar
que,
n
|l
~ (0, o
2
u
) =1 (c
ut+1
) = c
c
2
r
/2
por lo que en un modelo autoregresivo como el anterior,
1
|
o
2
|l
= 1
|
c
o In c
2
rt
ut+1
= c
o In c
2
rt
.1
|
c
ut+1
=
_
o
2
n,|
_

c
oc
2
r
/2
8.2.3 Estacionalidad intra-da en volatilidad
Tratar de caracterizar pautas de estacionalidad, tanto en rentabilidad como
en volatilidad, puede producir informacin de enorme inters para un inversor.
Ha sido muy popular durante mucho tiempo buscar efectos estacionales en las
rentabilidades ofrecidas por los mercados de valores. As, existe el denominado
efecto Enero, mes en el que las Bolsas tienden a ofrecer una rentabilidad superior
a la de otros meses, debido a la recomposicin de carteras de muchos inversores,
que liquidaron parte de las mismas antes de nal de ao por razones scales.
Asimismo, se ha debatido durante mucho tiempo la existencia de efectos esta-
cionales entre semana o efectos das de la semana, armando algunos autores
que existe efecto lunes en algunos mercados.
Menos estudiada ha sido la posible existencia de pautas estacionales en
volatilidad. Evidentemente, la posible existencia de tales pautas sera asimismo
un fenmeno muy a tener en cuenta por todos los que gestionan riesgo de uno
u otro modo.
Parece, sin embargo, bastante probada la existencia de pautas estacionales
de volatilidad intrada, que se reejan en una mayor volatilidad en el perodo
siguiente a la apertura del mercado, un descenso en las horas centrales del da,
y un incremento posterior, segn se acerca la hora de cierre.
A este perl en forma de l de la volatilidad a lo largo del da de negociacin
suele venir unido un perl similar de los volmenes negociados. Por tanto,
las pautas de negociacin tienen mucho que ver con esta posible regularidad
horaria en la volatilidad de algunos mercados. Una de las guras adjuntas,
acompaada de una tabla, tomadas de Daigler (19xx), muestra el perl medio
de la volatilidad intra-da, cuando se agrupan los precios en intervalos de 15
minutos. Se utiliza como medidas de volatilidad: la desviacin tpica de las
rentabilidades, la medida de Garman-Klass (que veremos ms adelante), y el
nmero de ticks observados en cada intervalo de tiempo. En todos los casos
se tiene un perl en forma de l, si bien el mximo local de volatilidad no se
produce en el instante de cierre del propio mercado de futuros, sino algo antes,
coincidiendo con el cierre del mercado de contado. La tabla que se acompaa
es de este mismo trabajo. Dos grcos tomados de Lafuente (1999) presentan
la volatilidad del IBEX 35, as como del futuro sobre este ndice, en dos tramos
horarios: 11 a 12 de la maana, y 12 a 13 horas, aprecindose claramente la
mayor volatilidad al comienzo del da. En las tablas que se acompaan, se
presenta nuevamente evidencia a favor de un perl de volatilidad en forma de
211
l a lo largo del da. Chan, Chan y Karolyi (19xx), presentan una evidencia de
estacionalidad intra-da similar a la mencionada.
8.2.4 Agregacin temporal de volatilidades
En Finanzas, suele agregarse a lo largo de un determinado perodo de referencia,
generalmente anual, la estimacin de la volatilidad obtenida a lo largo de un
perodo de tiempo ms breve. La anualizacin de la volatilidad permite com-
parar el riesgo de varios activos, independientemente del intervalo de tiempo
considerado en su anlisis.
La anualizacin puede conseguirse a partir de la volatilidad calculada para
cada perodo de una determinada frecuencia, sin ms que multiplicar por la raz
cuadrada del nmero de datos de dicha frecuencia que hay en un ao.
As, si se utilizan datos diarios, y o
2
denota una estimacin de la variabilidad
diaria (varianza u otra medida), entonces se toma 252o
2
como estimacin de la
variabilidad (varianza) anual (252 es el nmero aproximado de das de mercado
dentro de un ao), y
_
22o como estimacin de la volatilidad anual. Con datos
semanales, la volatilidad anual se obtiene a partir de la desviacin tpica de los
datos semanales mediante:
_
2o, mientras que si se dispone de datos mensuales,
la volatilidad tpica anual se obtiene a partir de la desviacin tpica de los
datos mensuales mediante:
_
12o. Se procede de igual modo si se trabaja con
indicadores de volatilidad alternativos a la desviacin tpica. Una vez obtenido
un indicador de volatilidad, genricamente denotado por o
2
, se extrapolara a
una medida anual del modo que acabamos de describir.
En general, dada una desviacin tpica calculada con datos de una deter-
minada frecuencia, si queremos obtener la estimacin de la desviacin tpica
sobre un intervalo de tiempo que comprende observaciones de las utilizadas
en el clculo de dicha desviacin tpica, multiplicamos por
_
. Esto es lo que
hicimos en el prrafo anterior.
As, si hemos estimado o
2
con datos diarios, entonces:
la Volatilidad semanal se estima por:
_
o
la Volatilidad mensual se estima por:
_
21o
la Volatilidad anual se estima por:
_
22o
Como ya discutimos en la Seccin 3.d, esta prctica habitual de extrapolar
una estimacin de la volatilidad a un intervalo amplio de tiempo es aplicable en
rigor slo al clculo de la volatilidad de rentabilidades continuas, y se basa en la
hiptesis de que los datos bsicos utilizados, ya sean rentabilidades mensuales,
diarias, horarias, etc. son independientes.
Si se est calculando la varianza de las rentabilidades, deben ser independi-
entes stas, no necesariamente los precios o cotizaciones que las generaron. Esto
se corresponde con la extendida idea de que el logaritmo del precio de un activo
nanciero tiene una estructura estocstica de camino aleatorio. En tal caso, la
rentabilidad de dicho activo, denida como la primera diferencia del logaritmo
del precio, es un ruido blanco. Es decir, la serie temporal de rentabilidades
obedece a un proceso formado por variables aleatorias independientes e idnti-
camente distribuidas, posiblemente con distribucin Normal, etc., y el mtodo
212
de extrapolacin de la varianza es correcto.
Sin embargo, la existencia de autocorrelacin en el proceso estocstico de
rentabilidades hace que las rentabilidades de perodos sucesivos no sean inde-
pendientes, y el mtodo lineal de extrapolacin de varianzas resulta sesgado.
Cuando las rentabilidades estn autocorrelacionadas, la acumulacin de var-
ianzas es un estimador sesgado del riesgo. En el caso de tipos de inters, ex-
iste generalmente elevada autocorrelacin positiva, mientras que en rentabili-
dades burstiles diarias de valores individuales se detecta, en ocasiones, auto-
correlacin negativa. Como la varianza de una suma de variables es igual a la
suma de varianzas ms el doble de su covarianza, tenderemos a subestimar la
varianza de la rentabilidad sobre el horizonte temporal amplio en el caso de
autocorrelacin positiva (creeremos que, sobre el perodo amplio, la rentabili-
dad es menos voltil de lo que realmente es), y a sobre-estimarla en el caso de
autocorrelacin negativa (creeremos que es ms voltil de lo que realmente es).
Por tanto, la habitual agregacin temporal de volatilidades est directamente
relacionada con la posible presencia de autocorrelacin en la series temporal de
rentabilidades. A su vez, la existencia de autocorrelacin ofrece la posibilidad
de predecir rentabilidades. Por el contarrio, en ausencia de correlacin serial, la
rentabilidad (supongamos que logartmica) es un ruido blanco, y la prediccin
ptima de cualquier valor futuro es cero, lo que equivale a decir que la prediccin
de cualquier precio futuro es el ltimo precio observado, ya que el logaritmo del
precio tiene entonces una estructura de camino aleatorio. Por ltimo, la pre-
dictibilidad de las rentabilidades (o la posible capacidad del analista de redecir
una rentabilidad futura no nula) o la predictibilidad de los precios de un activo
(o la posible capacidad de predecir un precio diferente del actual) contradicen la
hiptesis de mercados ecientes, segn la cual el precio de mercado de un activo
recoge, en cada momento, toda la informacin disponible (por tanto, actual o
pasada) relevante acerca de la formacin de precios futuros.
En denitiva, la agregacin de volatilidades descansa en la independencia
temporal de las rentabilidades del activo en cuestin, lo que equivale a que el
precio de dicho activo obedezca a una estructura de camino aleatorio. Existen
distintos enfoques estadsticos para el contraste de dicha hiptesis, que pueden
verse en la seccin 3.6
8.2.5 Volatilidad implcita versus volatilidad histrica
La volatilidad implcita es la estimacin de volatilidad que se obtiene al imponer
el precio observado en el mercado en una expresin terica de valoracin que
hace depender el precio de dicho activo de una sola componente no observada,
su volatilidad (adems de depender de otras componentes observables). En
general, nos interesa calcular volatilidades implcitas, porque para este tipo de
derivados disponemos de modelos de valoracin del tipo descrito.
Al efectuar este ejercicio, se est suponiendo que el modelo terico de valo-
racin del activo es correcto, y que el mercado forma expectativas de volatilidad
utilizando ecientemente la informacin de que dispone. Ello hace que el precio
de mercado resuma de manera adecuada toda la informacin disponible acerca
213
del activo.
Estamos interesados en obtener volatilidades implcitas por dos razones:
Una vez determinada la volatilidad cotizada en el mercado para un deter-
minado subyacente, podremos poder evaluar si una determinada opcin
est subvalorada, correctamente valorada o sobrevalorada por el mercado,
lo que podra sugerir diversas estrategias de inversin, y
Generalmente, nos interesa utilizar la volatilidad implcita en un sentido
temporal, pues si podemos obtener buenas previsiones de la volatilidad
implcita futura de un determinado activo, dispondremos de previsiones
de precios futuros de las opciones sobre dicho subyacente. En esta lnea,
pueden establecerse diversos ejercicios:
a) para tener un indicador de la percepcin del mercado acerca de la volatil-
idad de un activo y poder analizar el modo en que dicha percepcin cambia en
el tiempo,
b) utilizar la serie temporal de la volatilidad implcita para especicar un
modelo univariante predictivo de la volatilidad implcita futura, para lo que
necesitaremos haber calculado la volatilidad implcita durante todos los das a
travs de un largo perodo de tiempo,
c) para ponerla en relacin con alguna de las medidas de volatilidad histrica:
estas son las medidas que se basan exclusivamente en precios de mercado histri-
cos del subyacente, sin utilizar modelo de valoracin alguno, como ocurre con
una desviacin tpica estimada a travs de ventanas muestrales, o la medida de
Gorman-Klass, por ej..
Puesto que las frmulas tericas de valoracin de un producto derivado son
funciones altamente no lineales de sus argumentos y, en particular, de la volatil-
idad, la resolucin de la ecuacin que iguala el precio terico (es decir, el que
se obtiene de la frmula) con el precio observado en el mercado para obtener
la volatilidad no puede llevarse a cabo analticamente, siendo preciso recurrir a
algoritmos numricos, del tipo de los que analizaremos en mdulos posteriores.
La volatilidad implcita no hace sino reejar la visin del mercado acerca
del grado de incertidumbre que entraa la evolucin temporal de la rentabilidad
que ofrece un activo. Cambios en la informacin disponible (resultados de una
empresa, intervenciones de poltica econmica, publicacin de algn dato clave
sorprendente) pueden incidir sobre tal percepcin.
Existe una importante distincin entre ambos tipos de volatilidad: por un
lado, tenemos la volatilidad histrica, que mira hacia el pasado, y se basa exclu-
sivamente en informacin histrica del precio o de la rentabilidad cuya volatil-
idad se pretende calcular. Por otra parte, la volatilidad implcita afecta a la
valoracin de un producto derivado y, en consecuencia, mira hacia el futuro,
tratando de estimar una caracterstica no observable, por cuanto que an no se
ha realizado, como es la volatilidad futura del subyacente.
Slo si pensramos que la volatilidad futura es igual a la pasada estaramos
estimando el mismo concepto, aunque por mtodo distintos, que nos propor-
cionarn valores numricos diferentes. Por otra parte, la volatilidad histrica,
214
calculada en forma de serie temporal a travs de ventanas mviles, como de-
scribimos anteriormente, tambin podra utilizarse para predecir la volatilidad
futura. Por tanto, ambos conceptos pueden ponerse en relacin. La mayor difer-
encia estriba en la forma de calcular las volatilidades. Por un lado, en la forma
de desviacin tpica; por otro, resolviendo en una formula como la de Black-
Scholes de modo que el precio terico resultante coincida con el observado en el
mercado.
Una hiptesis interesante estriba en si la volatilidad implcita responde a
variaciones en la volatilidad histrica. La intuicin es que si se produce una
variacin en la rentabilidad de un activo que modica su volatilidad histrica,
el mercado puede percibir un mayor riesgo futuro, lo que debera elevar el precio
de las opciones sobre el mismo, conduciendo a una mayor volatilidad implcita.
Sin embargo, la respuesta no es evidente. Algunos estudios realizados [Anlisis
Financiero no.50, febrero]
\ o|ati|idadi:j|icita
|l
\ o|ati|idadi:j|icita
|
=
= ,(\ o|ati|idad/i:t orica
|
\ o|ati|idad/i:t orica
|l
)
Trabajando con datos para el bono nocional, en dicho trabajo se encuentran
coecientes de determinacin en torno a 0,77, y pendientes estimadas prximas
a 0,80.
Hay que tener en cuenta que la existencia de una relacin estadstica estable
entre volatilidad histrica e implcita no precisa que los niveles de volatilidad es-
timados por cada uno de los dos procedimientos coincidan. De hecho, esperamos
ms bien lo contrario; en todo caso, no importa que ambos niveles de volatil-
idad sean los mismos, sino que variaciones en el nivel de volatilidad histrica
anticipen cambios en el nivel de volatilidad implcita, que puedan utilizarse para
la gestin de carteras.
Conos de volatilidad Una vez que se dispone de la serie temporal de rentabil-
idades de un activo, puede calcularse su volatilidad muestral sobre intervalos de
distinta amplitud temporal. Queremos representar el modo en que la volatilidad
vara con la amplitud de dichos intervalos temporales. Ya sabemos que, bajo
supuestos de independencia temporal de las rentabilidades, la varianza sera una
funcin lineal de la amplitud del intervalo. Sin embargo, esta es una hiptesis
que no siempre se cumple.
Para ello, seleccionamos distintas amplitudes para ventanas muestrales: se-
mana, quincena, mes, trimestre, semestre, o ao, y calculamos en cada perodo
la volatilidad de la rentabilidad ofrecida por dicho activo desde el comienzo de
cada una de dichas ventanas. De este modo, construimos una serie temporal de
volatilidades para cada una de las ventanas seleccionadas.
Asi, jada una determinada amplitud temporal, por ej., un mes, vemos cmo
ha ido cambiando la volatilidad a travs del tiempo: si estamos a 15 de noviem-
bre de 2001, y disponemos de datos desde comienzos de enero de 1996, em-
pezaramos calculando la volatilidad muestral para todo el mes de enero de
215
1996, por ejemplo (el comienzo es relativamente arbitrario), e iramos aadi-
endo un da al nal de la muestra, y quitando un da al comienzo de la misma,
para volver a calcular la volatilidad registrada a lo largo de un mes de mercado.
El procedimiento puede seguir hasta el ltimo dato disponible. De este modo
habremos generado una serie temporal de volatilidad, a lo largo de un mes,
desde el 1 de enero de 1996, hasta el 15 de octubre de 2001.
En esta ocasin, sin embargo, no nos detenemos en analizar la variacin
temporal de la volatilidad, sino en estudiar algunos de sus estadsticos descrip-
tivos, pues queremos analizar cmo cambian las propiedades de la volatilidad
al cambiar la amplitud del intervalo de tiempo considerado. De hecho, vamos a
considerar los valores que conguran la serie temporal de volatilidades de una
determinada ventana como valores extrados al azar de la distribucin de prob-
abilidad de la varianza correspondiente a dicha ventana. Inicialmente, tomamos
los valores mximo y mnimo de las volatilidades as calculadas, y los repre-
sentamos en la vertical sobre el eje de abscisas, en el punto correspondiente a
1 mes. El mismo procedimiento puede llevarse a cabo para cada una de las
ventanas escogidas: para intervalos de 1 semana, comenzaramos nuevamente al
inicio de enero de 1996, obteniendo un mximo y un mnimo de las volatilidades
calculadas sobre un rango temporal de una semana.
De este modo tendramos una serie temporal para cada una de las volatili-
dades calculadas sobre intervalos de: una semana, dos semanas, un mes, trimestre,
semestre, o ao, y podramos calcular su mximo y su mnimo. Cuando se rep-
resentan dichos mximos y mnimos, se observa generalmente, que la volatilidad
mxima es mayor en los intervalos menores (una semana) que en los intervalos
amplios de tiempo. Por otra parte, la volatilidad mnima es menor asimismo
cuando se calcula sobre intervalos breves de tiempo que cuando se calcula sobre
intervalos amplios. Algo similar ocurre cuando tomamos percentiles simtricos
para cada una de las series temporales de volatilidad, por ejemplo, percentiles
5% y 95%: el primero ser menor para ventanas de una semana que para las
de un mes, mientras que el percentil 95% ser generalmente superior en las
ventanas ms cortas.
Esto se debe a que la volatilidad toma valores ms extremos cuanto menor es
el intervalo de tiempo sobre el que se ha calculado. Es como si las distribuciones
de frecuencias de las distintas volatilidades tuviesen ms curtosis cuanto menor
fuese la amplitud de la ventana correspondiente. Dicho de otro modo, el rango
de valores de volatilidad calculados sobre una semana, tiende a incluir al rango
de volatilidades calculado sobre un mes, ste al rango calculado sobre tres meses,
y as sucesivamente. De este modo, habremos obtenido un cono de volatilidad.
Los conos de volatilidad desempean un papel importante cuando se quiere
apreciar si una opcin est relativamente cara o barata en el mercado. Para
ello, se trata de comparar la volatilidad implcita en el precio de mercado de la
opcin, con el rango de volatilidades que histricamente se ha estimado sobre
un perodo de tiempo igual al que queda hasta la expiracin de la opcin.
Si, por ejemplo, la volatilidad implcita cuando queda un mes para la ex-
piracin de la opcin est por debajo del percentil 10 de la distribucin de
frecuencias de las volatilidades que hemos calculado sobre intervalos de un mes,
216
diremos que el mercado est infravalorando dicha opcin, puesto que est dando
un precio que se corresponde con una volatilidad que es poco creble que se pro-
duzca, por lo reducido de su cuanta.
Esto signica que, en base a la experiencia histrica, la volatilidad que cabra
esperar es superior a la que el mercado espera. Si no hay razones para que as
resulte, habra que pensar que la opcin est barata. Lo contrario ocurrira si
la volatilidad implcita fuese superior al percentil 90, por ej.. Salvo que hu-
biese razones para esperar una volatilidad excesivamente alta para los registros
histricos, habra que pensar que el mercado est sobrevalorando dicha opcin.
Al construir un cono de volatilidad cabra introducir un ajuste si realmente
existe una discrepancia permanente entre los niveles de volatilidad histrica e
implcita.
Los percentiles escogidos determinan el nmero de seales que puedan obten-
erse acerca de posibles situaciones de mispricing (error en precio). Percentiles
menos extremos producirn ms seales de precio incorrecto, pero tambin
mayor nivel de riesgo, porque las seales tendern a ser incorrectas ms fre-
cuentemente. Seleccionar unos determinados percentiles es similar a seleccionar
un determinado nivel de riesgo para el clculo del VaR.
El Grco presenta el cono de volatilidad para el SP500 calculado con datos
de enero 1997 a agosto 1997, con percentiles 10 y 90, para el S&P 500. El
Grco 12, tomado de Lamothe (Opciones Financieras, McGraw-Hill), ilustra
la comparacin con el precio real de la opcin, en el caso del bono nocional.
8.3 Modelizacin y prediccin de la volatilidad
Repasamos en este documento distintas alternativas para la modelizacin y pre-
visin de la volatilidad en mercados nancieros. Generalmente, consideramos
que trabajamos con series temporales de rentabilidades de activos nancieros ob-
servadas frecuentemente, pues entonces cuando resulta habitual observar volatil-
idades cambiantes en el tiempo. En el caso ms sencillo, consideramos que la
rentabilidad obedece al proceso estocstico,
1
|l
= o
|l
.
|l
, con .
|l
~ i., i.d., (0, 1)
El objetivo fundamental de la modelizacin de la evolucin temporal de la
volatilidad consiste en lograr que las rentabilidades estandarizadas al cuadrado
1
2
|
,o
2
|
muestren ausencia de correlacin temporal. La autocorrelacin en las
rentabilidades al cuadrado podra venir a travs de la evolucin de o
2
|
, por lo
que al corregir las rentabilidades del posible efecto persistente de la volatilidad,
la autocorrelacin en las rentabilidades al cuadrado debera desaparecer.
Si las propias rentabilidades tienen autocorrelacin (lo que es poco habitual
en datos frecuentes), realizaremos este ejercicio de modelizacin con el cuadrado
de las innovaciones del modelo que explica la evolucin temporal de 1
|
. Es decir,
modelizaremos la evolucin temproal de la desviacin tpica o de la varianza de
dichas innovaciones, y pretenderemos que sus valores normalziados carezcan de
autocorrelacin. Por tanto, la funcin de autocorrelacin de las rentabilidades
217
estandarizadas al cuadrado es un estadstico fundamental en este anlisis de
modelizacin de la varianza.
Una caracterstica de los mercados nancieros es que suelen observarse in-
tervalos concretos de tiempo en los que sistemticamente se produce cada da
una alta volatilidad, seguidos de perodos de reducida volatilidad. Esto se man-
iesta en que el cuadrado de las rentabilidades diarias tenga generalmente una
alta autocorrelacin. En efecto, ntese que con datos de frecuencia relativa-
mente alta, la rentabilidad media de un activo es practicamente cero, por lo que
el cuadrado de la rentabilidad es una aproximacin a la varianza. En consecuen-
cia, si queremos prever el nivel de volatilidad el prximo da de mercado, una
sencilla posibilidad es utilizar como previsin la volatilidad media observada en
los ltimos : das de mercado,
o
2
|l
=
1
:
nl

I=0
1
2
|I
En esta expresin se ha incorporado ya el supuesto habitual de que, traba-
jando con rentabilidades en frecuencias altas, la rentabilidad media es prctica-
mente cero. Adems, su estimacin numrica podra introducir mayor distorsin
que la incorporacin directa de una valor medio nulo. Una ventaja de esta expre-
sin es que nos permite generar una estimacin del nivel de volatilidad al cierre
del mercado en el perodo t, sin necesidad de efectuar ningn clculo adicional.
Tiene varias desventajas:
no es claro cmo debe elegirse el nmero de das : . Este nmero suele de-
nominarse amplitud de la ventana. Un nmero reducido tender a generar
una serie temporal de volatilidad muy errtica, mientras que un nmero
elevado de das generar una serie de volatilidad que puede considerarse
excesivamente suave. La eleccin de la amplitud de ventana debe de-
pender de la utilizacin que quiera hacerse de la previsin de volatilidad
resultante.
la serie de volatilidades reacciona al alza slo despus de que se haya
observado en el mercado una rentabilidad diaria elevada. En este sentido,
su naturaleza no es tanto la de anticipar el comportamiento futuro de la
volatilidad, como el de reejar el comportamiento reciente de la misma.
precisamente por esta razn, es un indicador que va reaccionando a incre-
mentos de volatilidad con cierto retraso, pues se trata de un promedio de
los niveles de volsatilidad en los ltimos : das de mercado.
pondera por igual cada uno de los : das utilizados en su calculo. Ello
hace que la presencia de un da de alta volatilidad elevar la previsin de
volatilidad la primera ocasin en que dicha rentabilidad se utilice en el
clculo, y tender a mantener la volatilidad elevada durante : das, re-
ducindose nuevamente de manera drstica. La funcin de autocorrelacin
de las rentabilidades al cuadrado sugiere bastante persistencia, siendo por
218
tanto contraria a estas variaciones bruscas al inicio y al nal del perodo
de : dias.
8.3.1 El modelo de alisado exponencial
Al igual que cualquier otro momento de una distribucin, la varianza otorga
a todas las observaciones disponibles la misma ponderacin. Por tanto, las
desviaciones respecto del nivel de referencia tienen la misma importancia tanto
si se produjeron recientemente como si se produjeron hace ya algn tiempo.
Esto puede no ser totalmente deseable en el anlisis de mercados nancieros.
En ocasiones, es conveniente abandonar este supuesto, dando pie a esquemas
con ponderaciones, del tipo,
o
2
|l
=
nl

I=0
c
I
1
2
|I
donde 1
s
= ln(1
s
,1
sl
), es la rentabilidad de un determinado activo -
nanciero, c
I
0,

nl
I=0
c
I
= 1, y 1 < i < , < :1 =c
I
c

. Esta expresin
calcula la varianza como media ponderada de las rentabilidades al cuadrado.
No utiliza las desviaciones respecto de la rentabilidad media, porque se supone
que en datos de alta frecuencia, sta es despreciable.
Si los pesos no suman uno, hay que dividir en la expresin anterior por su
suma. En ocasiones se utilizan como pesos las potencias de una constante `
comprendida entre 0 y 1, lo que conduce a,
o
2
|l
= (1 `)
1

I=0
`
I
1
2
|I
(47)
y que en la prctica es preciso truncar:
o
2
|l
= (1 `)
nl

I=0
`
I
1
2
|I
`
n
o
2
0
donde el ltimo trmino, que es funcin de la volatilidad en un perodo
inicial, o
2
0
, pierde relevancia con el paso del tiempo.
Cuando cuando se utiliza un modelo como el anterior para generar una serie
temporal de volatilidad histrica, es necesario estimar la volatilidad inicial o
2
0
, lo
que puede hacerse de dos modos: 1) mediante la varianza de las rentabilidades
previas a dicha fecha, que pasara a ser tomada como origen de tiempo; es
decir, utilizamos una primera submuestra (por ejemplo, 200 observaciones) para
calcular dicha varianza y comenzamos a extrapolar la varianza en el tiempo
partir de la observacin 201; 2) alternativamente, suele partirse de un valor
inicial igual a la varianza muestral de la serie temporal, es decir, se substituye o
2
0
en la expresin anterior por la varianza muestral,
l
T

T
s=l
1
2
s
, que se interpreta
como el nivel de volatilidad de largo plazo, obteniendo:
219
o
2
|l
= (1 `)
nl

I=0
`
I
1
2
|I
`
n
_
1
T
T

s=l
1
2
s
_
La suma de los pesos en el primer trmino a la derecha de la igualdad es,
(1 `)
nl

I=0
`
I
= (1 `)
1 `
n
1 `
= 1 `
n
por lo que la suma total de los pesos en el miembro derecho de la expresin
anterior es igual a 1, como debera suceder.
Un simple clculo en (47) muestra la relacin,
o
2
|l
= `o
2
|
(1 `) 1
2
|
que suele denominarse como modelo de alisado exponencial. De acuerdo con
este modelo, si el nivel de volatilidad estimado un determinado da es del 1%, y
la variacin porcentual en precio dicho da es del 2%, utilizando un parmetro
` = 0.00, estimaramos una volatilidad para el da siguiente de 1,14%. Este
es el modelo utilizado por RiskMetrics que calcula la volatilidad del prximo
dia, mediante un promedio ponderado del nivel de volatilidad que calculamos
previamente para hoy, y el cuadrado de la rentabilidad del mercado hoy. Risk-
Metrics utiliza sistemticamente un valor numrico ` = 0.04, por considerar que
las estimaciones no dieren mucho entre diferentes activos.
Este modelo tiene alguna ventaja adicional, como es el hecho de que no nece-
sita una gran cantidad de datos, pues las potencias de ` sern prcticamente
cero al cabo de 100 perodos. Adems, una vez calculada la volatilidad para un
determinado da, la frmula de actualizacin anterior no precisa utilizar nue-
vamente los datos histricos. El modelo considera esencialmente un horizonte
innito, no estando sujeto a los problemas de eleccin del nmero de das :
que se utilizan en la estimacin de volatilidad mediante ventanas mviles. Por
ltimo, es un modelo simple, que slo tiene un parmetro para estimar, `.
8.3.2 El modelo GARCH(1,1)
Un inconveniente del modelo previo es que no incluye una constante, por lo que
el modelo no proporciona un nivel de referencia para la volatilidad a largo plazo.
El modelo mejora si se incorpora un nivel de volatilidad de largo plazo, o
2
, que
recibe una cierta ponderacin en la expresin de la varianza,
o
2
|l
= o
2

nl

I=0
c
I
1
2
|I
donde ahora, la suma de los pesos c
I
debera ser igual a 1 . Este es un
modelo 1CH(:). Si denotamos . = o
2
, tenemos,
220
o
2
|l
= .
nl

I=0
c
I
1
2
|I
El modelo GARCH(1,1) combina las dos ideas anteriores en la expresin,
o
2
|l
= o
2
c1
2
|l
,o
2
|l
que requiere que c , < 1 para que la varianza sea estable. En caso
contrario, el peso aplicado a la varianza de largo plazo sera negativo. El alisado
exponencial de la seccin anterior, utilizado en RiskMetrics, es un caso particular
del modelo G1CH(1, 1), cuando c , = 1 y = 0.
El modelo GARCH(1,1) puede escribirse tambin,
o
2
|
= . c1
2
|l
,o
2
|l
que nos permitira prever la volatilidad del prximo da a partir de la volatil-
idad prevista para hoy y de la rentabilidad observada al cierre del mercado:
o
2
|l
= . c1
2
|
,o
2
|
Por ejemplo, si hemos estimado el modelo,
o
2
|
= 0, 000002 0, 181
2
|l
0, 86o
2
|l
tendramos,
= 1 c , = 0, 01; o
2
=
.
1 c ,
= 0, 0002,
Al considerar las uctuaciones en volatilidad, si la volatilidad estimada para
un determinado da es de o
|
= 1, 6/, y ese da el precio del activo nanciero vara
un 1% al alza o a la baja, estimaramos para el da siguiente una volatilidad,
o
2
|
= 0, 000002 0, 18 (0, 0001) 0, 86 (0, 00026) = 0, 0002816
que equivale a una volatilidad diaria del 1,53%.
Mediante sustituciones reiteradas, el modelo puede escribirse en la forma,
o
2
|
= . ., .,
2
c1
2
|l
c,1
2
|2
c,
2
1
2
|3
,
3
o
2
|3
que es similar al alisado exponencial, excepto en que asigna una ponderacin
tambin a la varianza de largo plazo. En el lmite, tenemos,
o
2
|
=
.
1 ,
c
1

s=l
,
sl
1
2
|s
que hace depender la volatilidad o
2
|
de una constante y de las rentabilidades
histricas al cuadrado, con ponderaciones decrecientes, segn nos alejamos hacia
221
el pasado. El parmetro , es la tasa a la cual el tamao de las rentabilidades
pasadas (o su volatilidad, si se quiere, pues estn al cuadrado) inciden sobre la
volatilidad actual del activo. Esta expresin puede truncarse al cabo de unos
cuantos perodos, sin incurrir en un grave error de aproximacin.
De acuerdo con este modelo,
o
2
= 1
_
o
2
|l
_
= . c1
_
1
2
|
_
,1
_
o
2
|
_
= . co
2
,o
2
por lo que, la volatilidad incondicional, o volatilidad de largo plazo es,
o
2
=
.
1 c ,
El modelo anteriormente estimado implica un nivel de volatilidad de largo
plazo o
2
, de
_
0, 0002 = 1, 41/. Esta expresin muestra que el nivel de volatili-
dad a largo plazo no est bien denido en el modelo de RiskMetrics, que impone
c, = 1. Ello afectar ms a las previsiones de volatilidad a largo plazo que a
corto plazo. Que esto sea o no importante depende de que creamos que existe
un nivel de volatilidad media relativamente estable, a la cual revierte el mercado
cada vez que se separa del mismo al alza o a la baja. Por el contrario, el modelo
GARCH puede escribirse,
o
2
|l
= (1 c ,) o
2
c1
2
|
,o
2
|
= o
2
c(1
2
|
o
2
) ,(o
2
|
o
2
)
que expresa que la previsin de la varianza el prximo da se obtiene cor-
rigiendo el nivel de volatilidad de largo plazo, en funcin de que la rentabilidad
al cuadrado y el nivel de volatilidad en t hayan estado por encima o por debajo
del nivel de largo plazo.
Estimacin del modelo de volatilidad por mxima verosimilitud Bajo
el supuesto de Normalidad para las rentabilidades logartmicas, 1
|
= o
|
.
|
, con
.
|
~ i., i.d.(0, 1), tendemos la funcin de verosimilitud,
1 =
T

|=l
_
1
_
2o
2
|
oxp
_
1
2
|
2o
2
|
_
_
cuya maximizacin equivale a maximizar su logaritmo neperiano,
ln1 =
T
2
ln(2)
1
2
T

|=l
_
lno
2
|

1
2
|
o
2
|
_
que se puede maximizar bien mediante algoritmos numricos, o bien medi-
ante procedimientos de bsqueda. En todo caso, lo primero que hemos de hacer
es substitutir en la expresin anterior la volatilidad o
2
|
por un determinado
modelo dependiente de un vector de parmetros 0. En las prximas secciones
veremos cmo se lleva a cabo este proceso. Como en cualquier otro problema de
estimacin, hemos de tener en cuenta que estamos maximizando la verosimilitud
bajo el supeusto de estabilidad paramtrica, lo que puede condicionar el nmero
de observaciones utilizado en dicho proceso de estimacin.
222
Quasi-mxima verosimilitud El supuesto de Normalidad no es facilmente
sostenible cuando se trabaja con rentabilidades de activos nancieros. El mtodo
de quasi-mxima verosimilitud consiste en maximizar el logaritmo de la funcin
de verosimilitud bajo el supuesto de Normalidad, pues el estimador resultante
es consistente incluso cuando la verdadera distribucin condidional de 1
|
no es
Normal, siempre que las ecuaciones de la media y la varianza condicionales de
1
|
estn bien especicadas. Unicamente hay que prestar atencin al clculo de
la matriz de covarianzas de los estimadores resultantes.
Primer caso: rentabilidades incorrelacionadas con media cero Supong-
amos que las rentabilidades obtenidas en la unidad temporal de observacin
carecen de autocorrelacin, lo que puede contrastarse a partir de un examen
de sus funciones de autocorrelacin simple y parcial, as como llevando a cabo
contrastes formales del tipo Ljung-Box o Box-Pierce.
Para estimar los parmetros del modelo en una hoja de clculo, se estima
inicialmente o
2
|0
por alguno de los dos procedimientos que mencionamos antes,
y comienza la recursin a partir de dicho instante temporal, despus de haber -
jado valores iniciales para los parmetros c, ,, .. Una vez evaluada la funcin de
verosimilitud para los valores parmetricos inicialmente escogidos (condiciones
iniciales), se trata de buscar en el espacio paramtrico con el objeto de obtener
los valores que maximizan la funcin de verosimilitud,
ln1(., c, ,) =
T
2
ln(2)
1
2
T

|=l
_
lno
2
|
(., c, ,)
1
2
|
o
2
|
(., c, ,)
_
Finalmente, la varianza de largo plazo, o
2
, se estima a partir de las expresiones
anteriores y las estimaciones obtenidas para c, ,, .: o
2
= .,(1 c ,).
La alternativa denominada variance targetting consiste en jar un nivel
de volatilidad de largo plazo o
2
, por ejemplo igual a la varianza muestral, y
utilizando la expresin analtica de la varianza a largo plazo para jar . =
o
2
(1 c ,), estimando as slo 2 parmetros, c y ,.
Si queremos estimar un modelo de alisado exponencial como el utilizado en
RiskMetrics, se ja . = 0, c = 1 `, , = `, y se efecta una bsqueda sobre el
valor numrico de `, ` (0, 1),en la funcin
ln1(`) =
T
2
ln(2)
1
2
T

|=l
_
lno
2
|
(`)
1
2
|
o
2
|
(`)
_
Segundo caso: rentabilidades posiblemente correlacionadas, con
media no nula Como alternativa, consideremos la posibilidad de que las
rentabilidades obedezcan al modelo
1
|
= j
0
j
l
1
|l
-
|
que recoge la presencia de autocorrelacin, es decir, de dependencia temporal
en las rentabilidades. Tendra sentido entonces hacer el supuesto de estructura
223
GARCH de volatilidad, pero ahora sobre la innovacin -
|
del proceso estocstico
de rentabilidades, por lo que o
2
|
sera ahora: o
2
|
= \ ar(-
|
), con funcin de
verosimilitud,
1 =
T

|=l
_
1
_
2o
2
|
oxp
_
-
2
|
2o
2
|
_
_
con,
ln1 =
T
2
ln(2)
1
2
T

|=l
_
lno
2
|

-
2
|
o
2
|
_
= co:: lantc
1
2
T

|=l
_
lno
2
|

(1
|
j
0
j
l
1
|l
)
2
o
2
|
_
y la estimacin del modelo se lleva a cabo buscando en los parmetros
c, ,, ., j
0
, j
l
.
En este caso habra que tener en cuenta que el procedimiento nos dara la
evolucin temporal de la volatilidad de la innovacin -
|
, el componente no pre-
decible de la rentabilidad, que es la volatilidad de 1
|
condicional en su pasado,
pero no su volatilidad incondicional. En todo caso, la volatilidad incondicional
(un nmero) es la media de la volatilidad condicional (una variable). La relacin
entre las volatilidades incondicionales de la Rentabilidad y su innovacin es,
\ ar(1
|
) =
\ ar(-
|
)
1 j
2
l
Contrastes del modelo de volatilidad Un contraste del modelo consiste
en un test de ausencia de autocorrelacin en las rentabilidades al cuadrado, 1
2
|
.
Puesto que hemos pretendido recoger los cambios en volatilidad a lo largo del
tiempo, no deberia existir tal autocorrelacin. Para ello hemos de utilizar las
rentabilidades normalizadas o estandarizadas al cuadrado,
1
2
t
c
2
t
. Para un contraste
riguroso, puede utilizarse el conjunto de estadsticos del tipo Ljung-Box,
T
|

I=l
T 2
T i

2
I
que se distribuye como una
2
|
.
Contrastes relevantes son asimismo los pertenecientes a la familia de tests de
razn de verosimilitudes, que permiten contrastar un modelo restringido frente
a una alternativa ms general, del cual el primero se obtiene imponiendo deter-
minadas restricciones. El estadstico del contraste es,
11T = 2 [ln1
1
ln1
1
[
y tiene una distribucin asinttica igual a una chi-cuadrado con grados de
libertad igual al nmero de restricciones que transforman el modelo ms general
en el modelo restringido.
224
Otro contraste habitual consiste en analizar si la serie temporal de varianza,
o
2
|
, es un predictor insesgado de la rentabilidad al cuadrado futura,
1
2
|l
= c ,o
2
|l
n
|l
Se dice que o
2
|l
es un predictor insesgado de 1
2
|l
si c = 0 y , = 1. Sin
embargo, conviene notar que,
\ ar
|
1
2
|l
= 1
|
_
(1
2
|l
o
2
|l
)
2

= 1
|
_
_
o
2
|l
_
.
2
|l
1
__
2
_
=
= o
d
|l
1
|
_
_
.
2
|l
1
_
2
_
= o
d
|l
(i 1)
siendo i la curtosis de la innovacin del proceso GARCH, .
|
,que sera igual a
3 si suponemos Normalidad condicional: .
|
~ i., i.d., (0, 1). El valor numrico
de la expresin anterior puede ser elevado, por lo que el cuadrado de la rentabil-
idad de un perodo 1
2
|l
es, generalmente, una proxy muy contaminada de la
varianza condicional o
2
|l
. Por ello, puede ser preferible utilizar medidas intrada
en la estimacin de la volatilidad.
8.3.3 Estructura temporal de volatilidad
Consideremos una opcin que vence en t . Podemos utilizar la expresin
anterior para predecir el nivel medio de volatilidad del activo subyacente durante
dicho perodo, mediante,
\ o|ati|idad a /ori.o:tc jcriodo: =

_
1

I=0
1o
2
|I
Cuando este ejercicio se lleva a cabo para opciones sobre el mismo activo
subyacente, con distinta fecha de vencimiento, se tiene una Estructura Temporal
de Volatilidades. Esta es la relacin entre las volatilidades implcitas de las
opciones y su vencimiento residual.
Cuando se utiliza el modelo GARCH, se obtiene un perl creciente o decre-
ciente, precisamente por su propiedad de reversin al nivel medio de volatilidad.
Por tanto, este modelo predice una curva de volatilidades bien creciente o de-
creciente respecto del vencimiento de las opciones.
Puede calcularse asimismo cual sera el efecto sobre cada una de dichas
previsiones, de una variacin por ejemplo, de un 1% en la volatilidad actual del
activo subyacente. Esta variacin en volatilidad no ser la misma para todos
los vencimientos, y tendr un perl anlogo al de la Estructura Temporal de
Volatilidades, lo que debera tenerse en cuenta al computar la exposicin de
una cartera de opciones a variaciones en volatilidad del activo subyacente. Al
hacer una simulacin de este tipo y calcular una vega, no debera suponerse una
variacin anloga en volatilidad a lo largo de todos los vencimientos.
225
8.3.4 Prediccin de volatilidad
El modelo G1CH(1, 1) puede escribirse,
o
2
|
o
2
= c
_
1
2
|l
o
2
_
,
_
o
2
|l
o
2
_
es decir,
o
2
||
o
2
= c
_
1
2
||l
o
2
_
,
_
o
2
||l
o
2
_
que conduce a,
1
_
o
2
||
o
2
_
= (c ,)
_
o
2
||l
o
2
_
puesto que, 11
2
||l
= o
2
||l
.La previsin de volatilidad / das hacia el
futuro es,
1
|
_
o
2
||
_
o
2
= (c ,)
|l
_
o
2
|l
o
2
_
donde o
2
|l
es nuestra estimacin de volatilidad para el prximo da, que
puede calcularse con la informacin de que disponemos en el perodo t.
La suma c , se denomina persistencia en volatilidad. Si la volatilidad
actual es ms alta que el nivel de largo plazo o
2
, la previsin ser a la baja,
y lo contrario ocurrir si el nivel actual es de reducida volatilidad. Cuando
c, < 1, el ltimo trmino va perdiendo importancia, y la prediccin converge
a la varianza de largo plazo, al aumentar el horizonte de la prediccin. La
velocidad de convergencia est inversamente relacionada con la proximidad de
c ,a 1. Se dice que este modelo tiene reversin al nivel medio de volatilidad,
o
2
, a una tasa 1 c ,.
Por el contrario, en el modelo de alisado exponencial utilizado por RiskMet-
rics c , = 1, y la prediccin a cualquier horizonte coincide con la varianza
actual:
1
|
_
o
2
||
_
= o
2
|l
\/
por lo que este modelo tiene persistencia igual a 1. Se espera que todo
shock en volatilidad persista para siempre, y cualquier incremento observado
en volatilidad elevar la previsin de volatilidad de todos los perodos futuros
en la cuanta del shock. El modelo de RiskMetrics extrapola la situacin de
volatilidad actual a todos los perodos en el futuro, mientras que el modelo
GARCH genera una reversin al nivel medio de volatilidad a largo plazo.
Algo ms delicada es la prediccin de la volatilidad de la rentabilidad acu-
mulada a lo largo de / das de mercado. Ntese la diferencia con el ejercicio
anterior, en el que se prevea la rentabilidad diaria /-perodos hacia adelante.
En trminos de rentabilidades continuas, sabemos que dicha rentabilidad acu-
mulada ser, por construccin, la suma de las rentabilidades continuas obtenidas
para cada uno de los das del perodo. Bajo el supuesto de que las rentabilidades
son temporalmente independientes, tendremos,
226
1
|
_
|

I=l
1
|I
_
2
=
|

I=l
1
|
o
2
|I
de manera que con RiskMetrics tenemos,
1
|
_
|

I=l
1
|I
_
2
= /o
2
|l
mientras que con el modelo GARCH tenemos,
1
|
_
|

I=l
1
|I
_
2
= /o
2

I=l
(c ,)
Il
_
o
2
|l
o
2
_
que es distinta de la expresin anterior. Si partimos de un mismo nivel de
o
2
|l
,la prediccin del model GARCH ser superior a la de RiskMetrics si y slo
si el nivel de o
2
|l
es inferior al nivel de largo plazo, o
2
.
8.3.5 Extensiones
Modelo GARCH(p,q):
o
2
|l
= o
2

I=l
c
I
1
2
|lI

j

=l
,

o
2
|l
Modelo GARCH de componentes, que permite variacin temporal en el
nivel de varianza de largo plazo,
|l
:
o
2
|l
=
|l
c(1
2
|

|
) ,(o
2
|

|
)

|l
= . c
u
(1
2
|
o
2
|
) ,
u

|
Efecto apalancamiento (leverage): El argumento bsico es que una rentabil-
idad negativa de una acin implica una caida en el valor de mercado de
la empresa, lo que aumenta su apalancamiento nanciero, aumentando su
nivel de riesgo (a igual nivel de deuda). Podemos modicar el modelo
GARCH(1,1) para recoger este efecto de varias maneras:
o
2
|l
= . c1
2
|
c0
_
1

|
1
2
|
_
,o
2
|
donde 1

|
es una variable cticia que toma el valor 1 cuando la rentabilidad
es negativa, siendo igual a cero en caso contrario. Denida de este modo, una
rentabilidad 1 tiene una contribucin al nivel de volatilidad el perodo siguiente
de c1
2
|
, si dicha rentabilidad fue positiva, y de c(1 0) 1
2
|
si fue negativa Este
modelo se conoce como GJR-GARCH.
227
Bajo el supuesto mantenido de que la rentabilidad sigue un proceso: 1
|
=
o
|
.
|
, con .
|
~ i., i.d.(0, 1), otra posibilidad es el modelo NGARCH,
o
2
|l
= . c(1
|
0o
|
)
2
,o
2
|
= . co
2
|
(.
|
0)
2
,o
2
|
de modo que, si 0 0, noticias positivas tienen menos impacto sobre la
varianza que noticias negativas. La persistencia de la varianza en este modelo
es c
_
1 0
2
_
,, mientras que el nivel de varianza de largo plazo es: o
2
=
.
lo(l0
2
)o
.
Una ltima posibilidad es el modelo GARCH exponencial, o EGARCH:
lno
2
|l
= . c(c1
|

_
[ 1
|
[
_
2,
_
, lno
2
|
que presenta efecto apalancamiento si cc < 0. Por otra parte, la especi-
cacin logartmica garantiza que la varianza resultante ser positiva en todos
los perodos. En la expresin anterior,
_
2, aparece por ser la esperanza
matemtica del valor absoluto de la rentabilidad:
_
2, = 1([ 1
|
[).
Inclusin de variables explicativas, como el efecto n de semana, medi-
ante una variable cticia que tome el valor 1 los lunes, as como tras das
festivos, anuncios macroeconmicos, reuniones de la Fed, etc. Tambin po-
dra considerarse la inclusin de un ndice de volatilidad tipo VIX cuando
queremos prever la volatilidad del subyacente de las opciones con las que
se ha calculado dicho ndice.
8.3.6 Estimacin de correlaciones
Los modelos anteriores pueden tranformarse al clculo de correlaciones medi-
ante,
co
|
= `co
|l
(1 `) n
|l

|l
en el caso del alisado exponencial, o
co
|
= . ,co
|l
cn
|l

|l
en el caso del modelo G1CH(1, 1).
Con un alisado exponencial de parmetro ` = 0, 0, y correlacin actual de
0,60, supongamos que las volatilidades diarias estimadas para dos activos son
o
u
=1% y o
u
=2%. Su covarianza sera 0,000012. Si se producen variaciones
diarias en precios de 0,5% y 2,5%, respectivamente, las nuevas varianzas seran,
0,981% y 2,028%. El nuevo coeciente de correlacin sera 0,6044.
8.4 Estimacin de covarianzas condicionales
La representacin ms sencilla de una covarianza cambiante en el tiempo sera,
228
o
I,|l
=
1
:
nl

s=0
1
I,|ls
1
,|ls
con las limitaciones que ya conocemos por la presencia de la amplitud de
ventana :, donde estamos incorporando el supuesto de que las rentabilidades
tienen media cero, lo que ser muy aceptable en datos de alta frecuencia. Este
tipo de modelizacin puede genrar excesiva variabilidad en la serie de covarian-
zas.
Alternativamente, podemos introducir persistencia mediante un suavizado
exponencial en covarianzas,
o
I,|l
= (1 `) 1
I,|
1
,|
`o
I,|
(48)
que tiene la limitacin que ya vimos en el caso de estimacin de la varianza,
en el sentido de que no existe un nivel de referencia que puediera interpretarse
como la covarianza a largo plazo. Por tanto, al igual que en aqul caso, este
modelo implica que no existe reversin a la media en las covarianzas. En todo
caso, este es el modelo utilizado por RiskMetrics, con ` = 0, 04.
Ejemplo: Con un alisado exponencial de parmetro ` = 0, 0, y una cor-
relacin lineal en t de 0,60, supongamos que las volatilidades diarias estimadas
para dos activos son o
I,|
= 1/ y o
,|
= 2/. Por tanto, su covarianza sera
0,000012. Si se observan durante ese da t variaciones diarias en sus precios de
0,5% y 2,5%, respectivamente, las nuevas varianzas seran, 0,981% y 2,028%. El
nuevo coeciente de correlacin sera 0,6044.
Por el contrario, el modelo GARCH(1,1) de covarianza presenta reversin en
media,
o
I,|l
= . c1
I,|
1
,|
,o
I,|
segn el cual la covarianza revertir a su nivel de largo plazo,
o
I
=
.
1 c ,
Imponer los mismos parmetros de persistencia, c y , para los distintos ac-
tivos garantiza una matriz de covarianzas denida positiva, lo que entendemos
como matriz de covarianzas internamente consistente.
23
Sin embargo, tal ho-
mogeneidad puede ser una restriccin poco razonable, por lo que consideramos
ahora modelos que no la imponen.
8.5 Modelizacin de correlaciones condicionales
La correlacin condicional, cociente entre la covarianza condicional y la raiz
cuadrada del producto de varianzas condicionales, podra modelizarse utilizando
23
Hay consistencia interna cuando .
0

I+1
. 0 para toda cartera denida por le vector
de ponderaciones ..
229
en el numerdaor y denominador del cociente que dene cada coeciente de cor-
relacin condicional una expresin del tipo (48) , pero esto est sujeto a distintas
limitaciones.
Es preferible seguir el siguiente razonamiento: Como:
o
I,|l
= o
I,|l
o
,|l
j
I,|l
tenemos, en notacin matricial,

|l
= 1
|l
I
|l
1
|l
donde 1
|l
es una matriz con desviaciones tpicas condicionales en la diag-
onal y ceros fuera de la diagonal, y I
|l
es una matriz con unos en la diagonal,
y con las correlaciones condicionales fuera de dicha diagonal principal.
Suponemos que las volatilidades de cada activo ya han sido estimadas pre-
viamente. Por tanto, estandarizamos las rentabilidades,
.
I,|l
=
1
I,|l
o
I,|l
, \i, t
por lo que las variables .
I,|l
tienen desviacin tpica condicional igual a 1.
Por tanto, la covarianza condicional entre dos cualesquiera de ellas coincide con
su correlacin condicional.
8.5.1 Modelos de suavizado exponencial (Exponential smoother)
Suponemos que la evolucin dinmica de la correlacin est guiada por las vari-
ables auxiliares
I,|l
, que juegan el papel de covarianzas condicionales, y que
se actualizan a partir de valores iniciales mediante el esquema,

I,|l
= (1 `) .
I,|
.
,|
`
I,|
\i, ,
obtenindose la correlacin condicional entre dos rentabilidades mediante el
esquema:
j
I,|l
=

I,|l
_

II,|l
_

,|l
lo que asegura que dicha correlacin estar siempre en el intervalo (1, 1).
El algoritmo recursivo anterior puede inicializarse tomando como valor inicial

I,l
el promedio de los productos .
I,|
.
,|
a lo largo de toda la muestra. Esto
es til en el caso en que queremos estimar a posterior cmo ha variado dicha
correlacin condicional. En alguna otra situacin podemos no querer imponer
como condicin inicial la media de toda la muestra, y preferimos utilizar el
promedio de un nmero inicial de observaciones, 50 por ejemplo, y actualizar

I,|
a partir de la observacin siguiente, desechando los primeros 50 datos. La
condicin inicial para las varianzas condicionales
II,l
debe ser 1 en el caso de
que queramos utilizar toda la informacin muestral aunque, alternativamente,
tambin podemos utilizar una submuestra inicial, del modo que acabamos de
describir.
230
En notacin matricial,
Q
|l
= (1 `) .
|
.
0
|
`Q
|
8.5.2 Correlaciones dinmicas GARCH (DCC GARCH)
Para permitir reversin a la media en las correlaciones condicionales, podemos
utilizar,

I,|l
= j
I
c
_
.
I,|
.
,|
j
I
_
,
_

I,|
j
I
_
y nuevamente utilizamos la expresin,
j
I,|l
=

I,|l
_

II,|l
_

,|l
para calcular los coecientes de correlacin condicional. Las condiciones
iniciales para las variables
I,|l
pueden escogerse como en el modelo anterior.
En este modelo estamos restringiendo a que los parmetros de persisten-
cia de las correlaciones, c y , sean los mismos para cualquier par de activos.
La persistencia en los coecientes de correlacin condicional ser por tanto la
misma para cada par de activos, aunqnue no seran iguales los niveles de dichos
coecientes de correlacin. Tampoco ser igual la persistencia en correlacin a
la persistencia en volatilidad, que puede ser distinta para distintos activos.
Aunque el parmetro j
I
, que es especco a cada par de activos, puede
tratarse como un parmetro ms a estimar, junto con c y ,, puede tener sen-
tido imponer en el modelo reversion a un nivel de correlacin de largo plazo,
1(.
I,|
.
,|
), que podemos denotar por j
I
, teniendo entonces el modelo:

I,|l
= j
I
c
_
.
I,|
.
,|
j
I
_
,
_

I,|
j
I
_
En notacin matricial, este modelo es:
Q
|l
= 1(.
|
.
0
|
)(1 c ,) c(.
|
.
0
|
) ,Q
|
que para dos activos resulta,
_

ll,|l

l2,|l

l2,|l

22,|l
_
=
_
1 j
l2
j
l2
1
_
(1c,)c
_
.
2
l,|
.
l,|
.
2,|
.
l,|
.
2,|
.
2
2,|
_
,
_

ll,|

l2,|

l2,|

22,|
_
En ambos casos, la matriz Q
|l
es denida positiva por construccin, por
lo que tambin lo sern las matrices de covarianzas
|l
y de correlaciones
I
|l
.
24
Una ventaja de este modelo es que sus parmetros pueden estimarse en
varias etapas: Primero estimamos los parmetros de los modelos de volatilidad
condicional univariantes por los procedimientos vistos en secciones previas. A
24
Ntese que: 1
__
:
2
1,I
:
1,I
:
2,I
:
1,I
:
2,I
:
2
2,I
__
=
_
1 j
12
j
12
1
_
231
continuacin, estandarizamos las rentabilidades y estimamos la matriz de cor-
relaciones incondicionales que, en este caso sencillo consta de un slo parmetro
j
I
=
l
T

.
l,|
.
2,|
. Finalmente, estimamos los parmetros c y ,, que determi-
nan la persistencia en los coecientes de correlacin.
8.5.3 Estimacin por cuasi-mxima verosimilitud
Apelando al procedimeinto de Cuasi-mxima verosimilitud, tiene sentido traba-
jar bajo el supuesto de Normalidad. El logaritmo de la funcin de verosimilitud
es entonces,
ln1 =
1
2
T

|=l
_
ln(1 j
2
l2,|
)
.
2
l,|
.
2
2,|
2j
l2,|
.
l,|
.
2,|
1 j
2
l2,|
_
en la que la correlacin condicional j
l2,|
se obtiene a partir del modelo
particular de correlacin que se utilice y la regla de normalizacin escogida, que
sern distintos en el modelo de alisado exponencial y en el modelo DCC. Como
ya dijimos antes, el algoritmo numrico puede inicializarse con
ll,0
=
22,0
=
1,
l2,0
= T
l

T
|=l
.
l,|
.
2,|
. Ntese que estamos utilizando en todo momento
las rentabilidades estandarizadas, para lo que utilizamos modelos de volatilidad
univariante que hayamos estimado previamente. Se trata, por tanto, de una
estimacin secuencial, que resulta bastante sencilla, aunque a riesgo de perder
eciencia estadstica. Pero la estimacin simultnea se puede hacer facilmente
imposible.
En el caso de un vector de : activos, la funcin a maximizar sera,
ln1 =
1
2

|
_
ln [ I
|
[ .
0
|
I
l
|
.
|
_
9 Valor en Riesgo
El Valor en Riesgo responde a la pregunta: cul es la revalorizacin por encima
de la cual va a estar nuestra cartera con una probabilidad de 1 j/ , o un
porcentaje 1 j/ de das? Dicha rentabilidad ser, generalmente negativa,
por lo que la pregunta puede formularse: cul es el nivel de prdida que ser
sobrepasado slo con una probabilidad del j/,o un porcentaje j/ de los das?
Para posiciones largas, tal prdida se producir ante una cada del precio de
la cartera de magnitud poco habitual, mientras que en una posicin corta, la
prdida se producir ante una elevacin del precio en cuanta poco habitual. El
VaR puede calcularse para perodos de inversin de un da o tambin superiores,
como una semana o un mes.
Sea ^\ (|) la variacin en el valor de los activos de una posicin nanciera
entre t y t |, medida en unidades monetarias. En t, esta cantidad es aleatoria,
y denotamos por 1
l
(r) la funcin de distribucin de ^\ (|). Denimos el VaR
nominal de una posicin larga en el horizonte de | das, con probabilidad j,
como la cantidad \ a1 que satisface las dos igualdades equivalentes:
232
j = 1 [^\ (|) _ \ a1[ = 1
l
(\ a1) (49)
Para valores reducidos de la probabilidad j, el \ a1 ser habitualmente
negativo, representando una prdida. Por supuesto, la interpretacin dual es
que con probabilidad 1 j, el propietario de dicha posicin experimentar bien
una prdida igual o inferior a \ a1, o un benecio.
Para una posicin corta, tendramos:
j = 1 [^\ (|) _ \ a1[ = 1 1 [^\ (|) _ \ a1[ = 1 1
l
(\ a1)
y para una j pequea, tal cantidad ser positiva. Por tanto, la cola izquierda de
la distribucin de 1
l
(r) es la relevante para posiciones largas, mientras que la
cola derecha es la relevante para las posiciones cortas. Asimismo, la denicin
(40) es vlida para posiciones cortas si utilizamos la distribucin de ^\ (|).
Por tanto, es suciente analizar los mtodos de clculo del \ a1 para posiciones
largas. Ntese que esta armacin no tiene nada que ver con la posible simetra
del a distribucin de ^\ (|), que no es preciso que se produzca.
Para una distribucin univariante, 1
l
(r) y una probabilidad j, 0 < j < 1, la
cantidad:
r

= inf r [ 1
l
(r) _ j
es el cuantil j-simo de 1
l
(r), donde inf denota la menor de las cantidades
que satisface la desigualdad indicada. Si se conociese la distribucin 1
l
(r),
entonces el \ a1 sera simplemente el cuantil j-simo de 1
l
(r). Sin embargo,
esta distribucin se desconoce en la prctica, y el clculo del \ a1 requiere
estimar 1
l
(r) o su cuantil j-simo.
Tambin cabe enfocar el clculo del VaR en trminos de rentabilidades: cul
es el nivel de rentabilidad por encima del cual va a estar nuestra cartera con
una probabilidad de 1 j/ , o un porcentaje 1 j/ de das? Por lo tanto, el
VaR es el valor numrico que resuelve la ecuacin,
1(1 < \ a1) = j
Si podemos suponer que la rentabilidad maana sigue una distribucin Nor-
mal con media cero y varianza o
2
c
, entonces, tendramos,
1
_
1
o
c
<
\ a1
o
c
_
= j =1
_

\ a1
o
c
_
= j =\ a1 = o
c
1
l
(j)
Si la prediccin de la varianza de la rentabilidad es 9% y j = 00/,tendramos:
\ a1 = (.08)(2.88) = .07 7/.Como se ve, para el clculo del Valor en
Riesgo, todo lo que necesitamos es una prediccin de la volatilidad de la rentabil-
idad del activo al horizonte para el cual se quiere calcular el VaR. El clculo del
VaR es, precisamente, una de las razones por las que conviene disponer de un
buen modelo de prediccin de volatilidad.
233
La cuanta en unidades monetarias del \ a1 es igual al \ a1 de la distribucin
de rentabilidades, multiplicado por el valor de la posicin. En ocasiones se utiliza
la aproximacin:
\ a1 = (\ a|or cartcra) . [\ a1(rc:ta/i|idadc: log arit:ica:)[
~
=
~
= (\ a|or cartcra) . (oxp[\ a1(rc:ta/i|idadc: log arit:ica:)[ 1)
Es importante observar que, como tantos otros conceptos nancieros, el \ a1
se reere a la distribucin prevista para las rentabilidades de la cartera, en el
horizonte jado. Por tanto, se trata de prever la posible evolucin de la dis-
tribucin de probabilidad de la rentabilidad del activo o cartera en el horizonte
en que se quiere calcular el VaR.
Limitaciones del VaR:
No entra en consideraciones sobre cul pueda ser la prdida esperada en
caso de que el activo o la cartera caigan por encima del nivel indicado
por el VaR. Esto se conoce como Expected Shortfall, y ser analizado ms
adelante.
Cuando se calcula a un horizonte determinado, por ejemplo, en un mes, es
preciso suponer que la composicin de la cartera va a quedar inalterada,
lo cual no es muy razonable.
Asimismo, se supone que la estructura de la matriz de covarianzas es in-
variante a lo largo del horizonte temporal de clculo del VaR. Cuando no
es asi, es preciso reconstruir histricamente el precio de la cartera cada
vez que se cambia su composicin, para modelizar su varianza. Alternati-
vamente, hemos de modelizar la volatilidad de los activos individuales que
pueden entrar a formar parte de nuestra cartera.
Tampoco es muy evidente como seleccionar el horizonte de clculo o el
umbral de probabilidad.
Existen distintos enfoques para el clculo del VaR: i ) el modelo lineal, ii )
el VaR histrico, y iii ) el mtodo de simulacin de Monte Carlo, y slo para
el primero de ellos es necesario el supuesto de Normalidad, lo cual es bastante
conveniente.
9.1 RiskMetrics
Para el clculo del \ a1, RiskMetrics supone que la rentabilidad diaria continua
de la cartera sigue una distribucin Normal: r
|
[ 1
|l
~ (j
|
, o
2
|
), con:
j
|
= 0;
o
2
|
= co
2
|l
(1 c)r
2
|l
; 0 < c < 1
234
Equivalentemente, el logaritmo del precio: j
|
= ln(1
|
), obedece un proceso
IGARCH(1,1) sin constante: j
|
j
|l
= a
|
, con a
|
= o
|
-
|
, y -
|
~ (0, 1). El
valor de c suele tomarse en el intervalo (0, 0; 1) , siendo 0,94 un valor bastante
habitual.
Una propiedad interesante de esta distribucin es su facilidad para el calculo
de la distribucin sobre horizontes temporales:
9.2 Varianza de una cartera a partir de activos individ-
uales
Si tenemos una cartera de : activos denida mediante pesos .
I
,con rentabilidad
1
c,|l
=
n

I=l
1
I,|l
la varianza de la rentabilidad de la cartera puede escribirse en notacin
matricial (con : = 2),
o
2
c,|l
= .
|l
. = (.
l
, .
2
)
_
o
2
l,|l
o
2
l2,|l
o
2
l2,|l
o
2
2,|l
__
.
l
.
2
_
siendo la matriz de covarianzas de las rentabilidades de los activos indi-
viduales.
Si suponemos Normalidad, tendramos,
\ a1
c
|l
= o
c,|l
1
l
(j)
El clculo del VaR de una cartera requiere, por tanto, disponer de estima-
ciones de las covarianzas o de las correlaciones entre las rentabilidades de los
activos que la integran, lo que ha suscitado la necesidad de generar mtodos que
simpliquen la alta dimensionalidad de este problema.
Una estrategia consiste en establecer un nmero reducido de factores que
explique todas las correlaciones. Este punto ser comentado en detalle ms
adelante. Baste ahora decir que, en un caso extremo, si se cuenta con una cartera
de activos de renta variable bien diversicada dentro de un mismo mercado,
podemos utilizar la varianza del ndice de mercado como factor,
o
2
c,|l
= ,
2
c
o
2
1,|l
donde o
2
1,|l
denota la prediccin de la varianza de la rentabilidad del ndice
de mercado, y ,
c
es la beta de la cartera.
En general, si contamos con una lista de r factores y .
J
denota la exposicin
a cada factor de riesgo, y
J
|l
su matriz de covarianzas condicional, tendramos,
o
2
c,|l
= .
J

J
|l
.
J
La exposicin o sensibilidad al riesgo debera estimarse mediante una proyec-
cin de la rentabilidad de la cartera sobre los factores de riesgo seleccionados.
235
9.2.1 Uso de informacin intrada
9.3 Incertidumbre paramtrica en el clculo del VaR
Once we start thinking about the moments of the distribution of returns as
evolving over time, then a specic model to describe their time evolution is
needed. Historical time series data will be used to estimate the parameters in
such a model. Unfortunately, we often tend to act as if estimated parameter
values were the true values, thereby ignoring parameter uncertainty. This note
deals with the implications for risk management of parameter uncertainty and it
suggests a specic way of dealing with it. For that description, we will consider
the case of a portfolio manager that constructs a portfolio with two assets.
In our rst example, the fund manager can either invest in the US or the
Canadian stock markets, represented here by the S&P500 and Toronto Stock
Exchange (TSE) indexes. We are at December 31, 2001, and we have a daily
sample available of closing quotes, starting at January 3, 1997. Under the
statistically acceptable assumption that there is no serial correlation in daily
returns, we start by tting a GARCH(1,1) model for each index,
o
2
l|
= 1.001 0 0.100-
2
l,|l
0.884o
2
l,|l
)or o\100
o
2
2|
= 0.621 0 0.078-
2
2,|l
0.880o
2
2,|l
)or To1
and use them to standardize daily returns, [FIGURE 1]
0 200 400 600 800 1000 1200 1400
-6
-5
-4
-3
-2
-1
0
1
2
3
4
Standardized S&P500 returns
We now use a Dynamic Conditional Correlation specication to describe the
time evolution of the correlation between both assets,
236

I,|
= `
I,|l
(1 `) r
I|l
r
|l
, i, , = 1, 2, t = 1, 2, ..., T
j
I,|
=

l2,|
_

ll,|

22,|
, t = 1, 2, ..., T
where r
I|
, i = 1, 2 denotes the standardized returns: r
I|
= r
I|
,o
l|
. The
sample linear correlation between both standardized returns is 0,70.
The simplicity of this model is that the correlation depends on a single
parameter. It also has some limitations since the implied correlation coecient
does lacks a well dened mean and exhibits a nonstationary behavior.
Under the assumption of joint Normality of the pair of standardized returns
we can maximize the joint likelihood,
1 = T,2 ln 2 1,2 ln(1 j
2
l2,|
)
T

|=l
r
2
I|
r
2
|
2j
l2,|
r
I|
r
|
1 j
2
l2,|
to obtain the estimate of `. The maximum likelihood estimate (MLE) turns
out to be:

` = 0.001. The implied Integrated Conditional Correlation is, [FIG-
URE 2]
0 200 400 600 800 1000 1200 1400
0.62
0.64
0.66
0.68
0.7
0.72
0.74
0.76
0.78
0.8
Integrated Dynamic Conditional Correlation
The focus of this note falls on the degree of uncertainty on this estimate, and
the eect that such uncertainty might have on our conclusions about the Value
at Risk (VaR) of a given portfolio made up by the two assets. To evaluate our
uncertainty on the value of `, we could, on the one hand, rely on the Normal
Asymptotic distribution of the maximum likelihood estimate to obtain a con-
dence interval for `. But we see two limitations of this approach: rst, we need
237
to choose a specic condence level, and there is really not guidance whatsoever
as to what the right choice might be; second, by nature, that approach is going
to produce a region of acceptable values of ` that is symmetrically distributed
around the MLE.
We follow a computational approach rather than an statistical one, to select
a region of acceptable values of `.We start by choosing the maximum level of
reduction of the likelihood function, relative to its maximum. This decision
looks at rst glance as being analogue to the choice of a condence level in
the statistical approach, but a dierence of the latter, the choice of numerical
deterioration can be made with independence of the estimation problem. A
maximum deterioration of 1% might be acceptable for most models. When that
is not the case, a choice of 5% will generally be a reasonable alternative.
The gure above shows the change in likelihood function as we change the
value of `. The maximum acceptable value is ` = 1. At that point, the model
collapses to the Constant Conditional Correlation model. The rst graph pro-
vides us with a clear picture of the ability of the available sample to identify
with precision the value of the ` parameter. For instance, ` = 0.01 implies a de-
terioration in the likelihood function of 4.56%, while` = 0.00 leads to a decrease
in likelihood of 5.25%. The horizontal red line shows the level corresponding to
a 1% decrease in the maximized value of the likelihood. The second graph is an
enlarged version of the rst one, for the (0.9675;1.0005) interval. [FIGURES 3
and 4]
238
0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1
-885
-880
-875
-870
-865
-860
-855
-850
-845
-840
-835
Likelihood as a function of lambda
0.965 0.97 0.975 0.98 0.985 0.99 0.995 1 1.005
-847
-846
-845
-844
-843
-842
-841
-840
-839
-838
-837
Likelihood as a function of lambda
Allowing for up to a 1% decrease in likelihood would lead us to consider
values of ` in the range (0.9975;1.000). A 5% deterioration in likelihood would
239
lead us to consider a range of values (0.9000;1.000).
But we suppose that the whole point of the exercise is for the risk manager
to gure out what is the portfolio of the two indexes with the minimum 1% VaR
at 10 day horizon on January 23, 1997. [FIGURE 5]
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.062
0.064
0.066
0.068
0.07
0.072
0.074
Dynamic Correlation VaR as a function of weight of asset 1
0.9
.969
.9915
1.0
As we can see in the graph, the VaR values for any portfolio made up by
the two indexes is essentially the same, no matter we use ` = 0.001, the
MLE, or ` = 1.000, i.e., the CCC model representation of correlation. Both
approaches suggest that the portfolio with the minimum VaR is the equally
weighted portfolio.
Furthermore, when ` takes the lowest 1% admissible value of 0.0000, the dif-
ference in VaR is still negligible. When ` is equal to the lowest admissible value
under a 5% deterioration in Likelihood, changes in VaR are more notorious,
with the lowest VaR, that still corresponds to the equally weighted portfolio,
being 6.24% versus the 6.64% VaR obtained for this portfolio under the MLE
value of `. In summary, accepting a 1% deterioration of Likelihood, the VaR
of the equally weighted portfolio would range between 6.56% and 6.64%, while
if we allow for a 5% deterioration, the VaR would range between 6.24% and
6.64%, as already mentioned.
We see rst, that the choice of optimal portfolio, in the sense of minimizing
VaR is independent of the choice of ` in the acceptable range of values; second,
that the uncertainty on the value of 1% VaR is negligible for the 1% bound. For
the 5% bound the change in VaR estimate is more signicant. Out of a 10 million
$US, the 5%-Likelihood interval for ` would lead to a potential loss threshold
of 624.000-664.000 $US over the 10-day period, according to the estimated 1%
VaR.
Needless to say, these results may change over time. For the last day in the
240
sample, December 31, 2001, the same exercise as above leads to: [FIGURE 6]
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.066
0.068
0.07
0.072
0.074
0.076
0.078
Dynamic Correlation VaR as a function of weight of asset 1
weight asset 1
0.9
.969
.9915
1.0
where we can see that: i ) the portfolio with the lowest VaR is no longer the
equally weighted portfolio, ii ) the Constant Conditional Correlation produces
now a lower VaR than any of the Dynamic Conditional Correlation VaRs, iii )
the VaR is not monotonic in the value of ` : it is lowest for ` = 1, at 6,79%,
then higher for ` = 0.001 and ` = 0.000, for which it is indistinguishable at
6,90%, and highest for ` = 0.060, at 6.96%. The dierence between extreme
VaRs is lower than in the previous exercise.
In these exercises we have seen that there is a range of admissible VaR levels,
as a consequence of having a range of admissible values of the single parameter
`. VaR values are not monotonic in `,but we can characterize the lowest and the
highest admissible VaR. We now want to go one step further and characterize
a probability distribution on the range of VaR values. To do so, we propose
transforming the area under the likelihood function in Figure 4 into a density.
The idea is to make the probability ratio for each pair of admissible values of `
to be equal to the ratio of values of the likelihood function.
When we implement this procedure for 10000 simulations, the histogram of
lambda values replicates the shape of the likelihood function, as it should be
expected by construction, while the histogram of VaR values reects the dierent
probabilities over the VaR range. This empirical density of VaR captures the
fact that VaR is not monotonic on `.Note: In the next Figures, the numbers in
the vertical axis should be divides by 10000 to get empirical probabilities.
241
0.965 0.97 0.975 0.98 0.985 0.99 0.995 1 1.005
0
100
200
300
400
500
600
lambdas
-0.0756 -0.0755 -0.0754 -0.0753 -0.0752 -0.0751 -0.075 -0.0749 -0.0748
0
200
400
600
800
1000
1200
1400
random VaRs
This exercise should be run in real time: Compute the MLE of ` with data
up to today, calculate past VaR, but evaluate future VaR on the basis of the
MLE estimate of `. A similar exercise in the past would have been performed
on the basis of a dierent MLE of `.
Some open questions remain: i ) compare the results with what could be
obtained evaluating the uncertainty through the variance-covariance matrix of
the MLE, ii ) extend the result to introduce uncertainty on VaR, iii ) extend
242
the methodology to the case of more than one parameter (think about how to
simulate from a multivariate density).
10 Desviaciones de Normalidad
10.1 Contrastes de Normalidad: Jarque-Bera, Kolmogorov,
QQ-plots
Junto a los contrastes de Normalidad habituales, del tipo Jarque-Bera, o con-
trastes no-paramtricos, del tipo Kolmogorov-Smirnov o de Fisher, existen los
gracos QQ (quantile-quantile), en el que se representa los cuantiles de la mues-
tra de una variable, contra los cuantiles que se obtendran de una distribucin
Normal. Se utilizan habitualmente las rentabilidades estandarizadas mediante
un modelo de volatilidad previamente estimado, que se comparan con una Nor-
mal(0,1). Esto se hace porque siendo la heterocedasticidad tan habitual en
series temporales nancieras, especialmente en rentabilidades, se supone inicial-
mente su existencia, estimando un modelo para la misma y corrigendo de dicho
efecto, pues el QQ-plot contrasta el ajuste con una distribucin normal de var-
ianza constante (de hecho, de varianza unitaria). Para ello, se ordena en orden
creciente la muestra y se establece la red de valores i , 0 < i _ T . A contin-
uacin, el grco QQ se obtiene representando el cuantil
I.5
T
de la distribucin
de rentabilidades
25
, en ordenadas, contra 1
l
(
I.5
T
), en abscisas.
10.2 La distribucin t de Student estandarizada
Un candidato habitual para modelizar desviaciones de la Normal, es utilizar
la distribucin t de Student, t(d). Esta distribucin admite algunas variantes.
Recordemos que la funcin de densidad t de Student es:
)
|(J)
(r; d) =
I
_
Jl
2
_
I
_
J
2
_ _
do
2
_
1
1
d
(r j)
2
o
2
_

1+d
2
, d 2,
con esperanza igual a j, varianza igual a o
2
=
J
J2
, asimetra igual a cero y
exceso de curtosis igual a
6
Jd
.
La densidad t de Student habitual est centrada en el origen, con funcin de
densidad:
)
|(J)
(r; d) =
I
_
Jl
2
_
I
_
J
2
_ _
do
2
_
1
1
d
r
2
o
2
_

1+d
2
, d 2,
con los mismos momentos que la anterior, excepto la esperanza matemtica,
que es cero.
25
El cuantil c% de una distribucin de probabilidad es el valor numrico del soporte de dicha
distribucin que deja a su izquierda una probabilidad menor o igual a c%. En distribuciones
con componentes discretos, tal denicin puede estar sujerta a ambiguedades.
243
Si estandarizamos la variable aleatoria r,suponiendo que sigua la distribucin
t de Student anterior con : . =
rJ(r)
1T(r)
_
J2
J
, esta nueva variable sigue una
densidad del mismo perl que la t de Student, pero con varianza unitaria. Se
conoce como distribucin t de Student estandarizada, que denotamos

t(d), cuya
densidad depende nicamente del parmetro d, que denominamos grados de
libertad de la distribucin:
26
)

|(J)
(.; d) =
I
_
Jl
2
_
I
_
J
2
_ _
(d 2)
_
1
.
2
d 2
_

1+d
2
, d 2
que tiene colas ms gruesas que una Normal. Esta distribucin es simtrica
alrededor del origen, con esperanza igual a cero, varianza igual a 1, coeciente
de asimetra nulo y un exceso de curtosis igual a
6
Jd
. Al igual que sucede con la
distribucin t de Student habitual, al aumentar el nmero de grados de libertad,
d , la distribucin converge a una Normal(0,1).
Por tener esta ltima distribucin una varianza igual a 1, debe utilizarse para
rentabilidades que han sido estandarizadas mediante una varianza condicional
previamente estimada.
En ocasiones, la densidad t de Student se representa en funcin de tres
parmetros,
)
|(i)
(r; i, `, j) =
I
_
il
2
_
I
_
i
2
_
_
`
i
_
1
`(r j)
2
i
_

1+:
2
siendo i un parmetro que caracteriza el perl de la funcin de densidad,
j indica su localizacin, y ` su dispersin, con 1(r) = j, \ ar(r) =
l
X
i
i2
. El
parmetro i juega el papel de d en la expresin anterior, mientras que ` es el
inverso de o
2
. Centrada en el origen, la densidad es:
)
|(i)
(r; i, `) =
I
_
il
2
_
I
_
i
2
_
_
`
i
_
1
`r
2
i
_
En tal caso, la distribucin t de Student estandarizada es:
)

|(i)
(r; i) =
I
_
il
2
_
I
_
i
2
_
1
_
(i 2)
_
1
.
2
i 2
_

1+:
2
10.2.1 Estimacin de la densidad t de Student
Si modelizamos las rentabilidades como,
26
Esta distribucin se obtiene a partir de la distribucin : de Student:
)n(&) =
(
r
2
)

r1
2

p
r
_
1 + &
2
_

r
2
,
haciendo primero el cambio de variable: t = &
p
a 1 y posteriormente el cambio: t =
i

,
y denotando o = a 1.
244
1
|
= o
|
.
|
con .
|
~

t(d), e ignoramos el hecho de que la serie temporal de varian-
zas es una estimacin sujeta a error estadstico, podemos tratar el rendimiento
estandarizado como una nica variable aleatoria. Al tener .
|
una varianza uni-
taria, podemos utilizar la distribucin t de Student estandarizada, y tenemos la
verosimilitud,
ln1
l
=
T

|=l
ln
_
)

|(J)
(.; d)
_
= T
_
lnI
_
d 1
2
_
lnI
_
d
2
_

ln
2
ln
d 2
2
_

1
2
T

|=l
(1 d) ln
_
1
(1
|
,o
|
)
2
d 2
_
Este sera un procedimiento de Quasi-mxima Verosimilitud, al estimar
por separado los parmetros del modelo de varianza, que se utilizan para es-
tandarizar las rentabilidades, y luego el parmetro de grados de libertad de la
funcin de densidad utilizando la verosimilitud anterior.
Si, por el contrario, queremos estimar el parmetro d simultneamente con
los parmetros de los modelos de varianza, debemos ajustar la distribucin para
tener en cuenta la varianza. Para ello, suponiendo que las rentabilidades tienen
esperanza nula, utilizariamos la distribucin t de Student estndar, ya que la
varianza no es unitaria, teniendo, para un valor d 2:
)
|(J)
(1
|
; d) =
I
_
Jl
2
_
I
_
J
2
_ _
(d 2)o
2
|
_
1
1
d 2
1
|
2
o
2
|
_

1+d
2
=
I
_
Jl
2
_
I
_
J
2
_ _
(d 2)o
2
|
_
1
.
2
|
d 2
_

1+d
2
, d 2,
y, por tanto, la funcin de verosimilitud,
ln1
2
=
T

|=l
ln
_
)

|(J)
(.
|
; d)
_
= ln1
l

|=l
lno
2
|
2
Por ejemplo, supongamos que tratamos con un nico activo (quiz una
cartera de activos, cuyas ponderaciones se han mantenido constantes durante el
perodo muestral), cuya rentabilidad sigue un proceso GARCH(1,1) con lever-
age, del tipo:
o
2
|l
= . c(1
|
0o
|
)
2
,o
2
|
= . co
2
|
(.
|
0)
2
,o
2
|
El logaritmo de la funcin de verosimilitud, que se tratara de maximizar,
sera entonces:
245
ln1
l
=
T

|=2
ln
_
)

|(J)
(.; d)
_
= T
_
lnI
_
d 1
2
_
lnI
_
d
2
_

ln
2
ln
d 2
2
_

.
T

|=2
ln
_
. co
2
|l
(.
|l
0)
2
,o
2
|l
_
.(1 d).
.
T

|=2
ln
_
1
1
d 2
1
2
|
. co
2
|l
(.
|l
0)
2
,o
2
|l
_
ignorando, en todo caso, la primera observacin. El algoritmo numrico de
clculo de la funcin de verosimilitud debe inicializarse con una eleccin para
o
l
, para lo que puede utilizarse la varianza incondicional a lo largo del perodo
muestral, aunque esta puede ser una opcin discutible en algunos casos.
10.2.2 Estimacin del nmero de grados de libertad por el Mtodo
de Momentos
Teniendo en cuenta la expresin de la curtosis que antes vimos para la dis-
tribucin t de Student de una serie de rentabilidades estandarizadas, podemos
utilizar la lgica del mtodo de momentos para estimar el nmero de grados de
libertad de dicha distribucin mediante,
d =
6
1C
4
siendo 1C el exceso de curtosis muestral.
Si trabajamos con rentabilidades sin estandarizar, podemos utilizar la ex-
presin anterior del exceso de curtosis, pero tambin la expresin de la varianza,
que conduce a:
d =
2o
2
o
2
1
y podra plantearse un problema de optimizacin para minimizar luna forma
cuadrtica con las holguras de ambas ecuaciones.
10.2.3 QQ plots para distribuciones t de Student
Hemos visto que la distribucin

t(d) estandarizada puede obtenerse a partir de
la distribucin t(d) ordinaria mediante el cambio de variable:
. =
r j
o
_
d 2
d
,
246
donde r sigue una distribucin t(d) ordinaria, y . sigue una distribucin

t(d)
estandarizada,
27
con )

|(J)
(.; d) = )
|(J)
(.(r); d)o
_
J
J2
.
Pero la relacin entre sus cuantiles es ms sencilla. El j-cuantil de la dis-
tribucin t de Student estandarizada es el valor numrico j denido mediante:
j = 1
_
)

|(J)
(.; d) < j
_
o, lo que es lo mismo, j =

t
l

(d).
Por simplicidad, en lo sucesivo, denotamos

t
l

(d) = )
l

|(J),
(.; d), t
l

(d) =
)
l
|(J),
(.(r); d)
Suponiendo que trabajamos con rentabilidades estandarizadas (por tanto,con
varianza unitaria), tenemos:
1
_

t
l

(d) < j
_
= 1
_
t
l

(d)
_
d 2
d
< j
_
= 1
_
t
l

(d) < j
_
d
d 2
_
= 1
_
t
l

(d) < j
_
,
donde hemos denido: j = j
_
J
J2
, de modo que:
j = t
l

(d) = j
_
d
d 2
=

t
l

(d)
_
d
d 2
Por tanto, los cuantiles de la distribucin estandarizada

t(d) pueden calcu-
larse, en funcin de los cuantiles anlogos de las distribucin no estandarizada,
utilizando la relacin:

t
l

(d) =
_
J2
J
t
l

(d), y el QQ-plot para juzgar la


adecuacin del ajuste proporcionado por una densidad

t(d) puede construirse
tomando en abscisas los valores numricos
_
J2
J
t
l
15
J
(d) y en ordenadas, las
rentabilidades estandarizadas, .
I
.
10.2.4 Clculo del valor en riesgo (VaR) bajo una distribucin

t(d)
Una vez que tenemos estimado el modelo
1
|l
= o
|l
.
|l
, co: .
|l
~

t(d)
el VaR se calcula utilizando su denicin:
\ a1

|l
= o
|l

t
l

(d) = o
|l
_
d 2
d
t
l

(d)
27
Recordemos que si j = I(a), la densidad j(j) se obtiene a partir de la densidad )(a)
mediante: j(j) = )(I
1
(j))
ui
u
.
247
10.3 La aproximacin Cornish-Fisher
Una limitacin importante de la distribucin t-Student en la modelizacin de
las rentabilidades condicionales est originada por su dependencia de un slo
parmetro, el nmero de grados de libertad, d. Ello no permite reproducir ni
el tipo de asimetra ni el elevado grado de curtosis que sera deseable explicar
en las rentabilidades estandarizadas empricas. Una alternativa consiste en uti-
lizar la aproximacin de Cornish-Fisher, que permite mayor exibilidad en los
valores numricos de los momentos de la distribucin de rentabilidades, y que
puede aproximar el comportamiento de muchas densidades distintas de la Nor-
mal. La expresin de Cornish-Fisher proporciona aproximaciones a los cuantiles
de una distribucin de rentabilidades estandarizadas, a partir de estimaciones
numricas de su asimetra y curtosis. Incorpora posibles asimetras mediante
la consideracin de un coeciente de asimetra no nulo. Una limitacin de este
enfoque es que puede verse inuido por rentabilidades estandarizadas prximas
a cero, lo cual puede resolverse mediante la Teora de Valores Extremos, que
examinamos ms adelante.
La aproximacin Cornish-Fisher a la inversa de la funcin de distribucin de
una variable (0, 1) es,
C1
l

= 1
l

l
6
_
_
1
l

_
2
1
_

2
24
_
_
1
l

_
3
81
l

2
l
86
_
2
_
1
l

_
3
1
l

_
siendo
l
el coeciente de asimetra y
2
el exceso de curtosis de las rentabili-
dades estandarizadas, y 1 la funcin de distribucin (0, 1). Esta expresin nos
proporciona el cuantil de Cornish-Fisher mediante un desarrollo en serie de Tay-
lor alrededor de la distribucin Normal. Cuando ambos coecientes (asimetra
y curtosis) son cero, tenemos el cuantil (0, 1).
Consideremos, por ejemplo, el VaR 1%. Bajo Normalidad, tenemos: 1
l
.0l
=
2.88. Alternativamente, la aproximacin de Cornish-Fisher del cuantil 1% es:
C1
l

= 2, 88 0, 74
l
0, 24
2
0, 88
2
l
Supongamos que la asimetra es:
l
= 1 y el exceso de curtosis:
2
= 4.
Tendramos entonces,
C1
l

= 2, 88 0, 74 4(0, 24) 0, 88 = 4, 41
Una vez obtenida la aproximacin Cornish-Fisher, el VaR puede calcularse,
\ a1

|l
= o
|l
C1
l

y en el ejemplo anterior:
\ a1

|l
= 4, 41o
|l
casi el doble de lo que habramos obtenido suponiendo la Normalidad de los
rendimientos estandarizados.
248
11 Teora de valores extremos (EVT)
La aproximacin de Cornish-Fisher proporciona estimaciones de los cuantiles de
la distribucin de rendimientos estandarizados a partir de estimaciones de los
coecientes de asimetra y de exceso de curtosis de dicha distribucin. Pero las
estimaciones de estos estadsticos pueden estar excesivamente condicionadas por
el amplio conjunto de rentabilidades en el entorno de cero, lo que entenderamos
por rentabilidades "estndar". Por esta razn puede ser conveniente un enfoque
basado nicamente en los rendimientos ms extremos.
Adems, el mayor riesgo al que se enfrenta una cartera es la ocurrencia
repentina de una rentabilidad negativa extremadamente grande, por lo que es-
timar con precisin la probabilidad de tales sucesos es la esencia de la gestin
de riesgos.
El resultado bsico sobre el que se basa la EVT es que la cola extrema de una
amplia familia de distribuciones 1 puede describirse aproximadamente por una
distribucin relativamente sencilla, la llamada distribucin de Pareto. La teora
se basa en el supuesto de independencia e idntica distribucin de los rendimien-
tos. Como la dependencia temporal surge en muchos casos debido a la persis-
tencia en volatilidades, es conveniente trabajar con rendimientos estandarizados
mediante un modelo de volatilidad condicional previamente estimado:
.
|l
= 1
|l
,o
|l
que, generalmente, ya podemos suponer i., i.d., con esperanza nula y varianza
unitaria.
Por otra parte, los rendimientos en perodos de tiempo relativamente largos
se aproximan a la distribucin Normal, por lo que la EVT tiene mayor inters
para rendimientos observados a alta frecuencia. Por tanto, este enfoque se utiliza
con rentabilidades de alta frecuencia, estandarizadas.
Supongamos que un rendimiento estandarizado sigue la distribucin incondi-
cional 1, y consideremos la probabilidad de que el rendimiento . observado un
determinado instante, excediendo de un cierto umbral n, lo haga en menos de
una cuanta r. Esto es lo que se conoce como una distribucin de probabilidad
truncada, que podemos calcular:
28
1
u
(r) = 1[. _ n r [ n < .[ = 1[. n _ r [ n < .[ =
=
1 (n < . _ n r)
1(. n)
=
1(n r) 1(n)
1 1(n)
Es una funcin paramtrica del umbral jado, n, y, como acabamos de ver,
puede escribirse en funcin de la distribucin de rendimientos estandarizados 1.
El resultado fundamental de la EVT es que para casi toda distribucin 1 ,
la distribucin condicional 1
u
converge a la distribucin generalizada de Pareto,
G(r; , ,) :
28
Se dice truncada, porque es la densidad a la derecha del umbral &.
249
1
u
(r) - G(r; , ,) = 1
_
1
r
,
_
con _ 0, , 0.
En particular, este resultado aplica a la mayora de las distribuciones con
colas pesadas, como la t de Student. Para la Normal, el parmetro sera igual a
0, mientras que para distribuciones con colas ligeras, no muy tiles en Finanzas,
el parmetro sera negativo.
29
11.1 Estimacin
Si en la expresin:
1
u
(r) =
1(n r) 1(n)
1 1(n)
hacemos el cambio de variable: j = r n, tenemos:
1(j) = 1 [1 1(n)[ [1 1
u
(j n)[
Si T denota el tamao muestral total, y T
u
el nmero de observaciones que
exceden del umbral n,el trmino [1 1(n)[ puede estimarse mediante el co-
ciente T
u
,T. Utilizando la aproximacin anterior, tenemos, para los valores que
exceden del umbral n, la distribucin:
1(j) = 1
T
u
T
_
1
(j n)
,
_
l/
Vamos a utilizar este resultado para estimar el parmetro , que determina
el grosor de la cola de la distribucin 1, por mxima verosimilitud. Para ello,
suponemos que para valores de j superiores al umbral n, es decir, para j n,
la funcin anterior puede aproximarse por:
30
1(j) = 1 1(j)j
l/
- 1 cj
l/
con funcin de densidad:
)(j) =
1

cj
l/l
La aproximacin se basa en el hecho de que la funcin 1(j) vara lentamente
con j para la mayora de las distribuciones 1, por lo que podemos suponerla
constante. De este modo, tenemos en 1(j) - 1 cj
l/
una expresin aprox-
imada para el valor de un amplio conjunto de funciones de distribucin en su
cola superior.
29
Cuando = 0, la distribucin se reduce a G(a; , o) = 1 exp(ao) para valores
a &, mientras que para valores negativos de la distribucin vuelve a adoptar la forma:
G(a; , o) = 1
_
1 +
i
c
_
, pero esta vez denida nicamente en el intervalo: & a &o.
30
En esta aproximacin, la funcin 1(j) es: 1(j) =
Tr
T
_
c

_
1
_
1 +
cu

_
1
250
Utilizando la denicin de distribucin condicional tenemos la funcin de
densidad de rendimientos a la derecha del umbral n:
)(j,j n) =
)(j)
1(j n)
Recordemos que, esencialmente, una funcin de densidad truncada se obtiene
normalizando la funcin de densidad original por la probabilidad existente en la
regin que se considera tras el truncamiento (en este caso, la regin a la derecha
del umbral n).
Suponiendo independencia de los rendimientos, tenemos la verosimilitud:
1 =
Tr

I=l
)(j
I
)
1 1(n)
=
Tr

I=l
_
1

cj
l/l
I
cn
l/
_
para las observaciones j
I
n. Por tanto, el logaritmo de dicha funcin es:
ln1 =
Tr

I=l
_
ln
_
1

1
_
lnj
I

1

lnn
_
Derivando respecto de e igualando a cero, tenemos el estimador de Hill del
parmetro de grosor de cola:

=
1
T
u
Tr

I=l
ln
_
j
I
n
_
Ya solo nos falta estimar el parmetro c de la aproximacin a la distribucin
1. Para ello, notamos que:
1(n) = 1
T
u
T
= 1 cn
l/
lo que nos lleva al estimador:
c =
T
u
T
n
l/
por lo que nuestra estimacin de la funcin de distribucin para observa-
ciones que exceden del umbral n es:
1(j) = 1 cj
l/
= 1
T
u
T
_
j
n
_
l/
(50)
Por tanto, bajo el supuesto que antes hicimos, tenemos estimadores sencillos,
sin tener que recurrir a la optimizacin numrica de la funcin de verosimilitud.
Eleccin del umbral n
La eleccin del umbral n es siempre delicada. Si escogemos un umbral ex-
cesivamente pequeo, entonces estaremos trabajando con algunos rendimientos
no excesivamente atpicos, y la aproximacin funcional a la cola de la distribu-
cin en que nos hemos basado puede no ser sucientemente buena para dichos
251
valores numricos. Si, por el contrario, escogemos un umbral excesivamente el-
evado, tendremos muy pocas observaciones para estimar los parmetros de la
distribucin, por lo que tendremos baja precisin en la estimacin de dichos
parmetros y, consecuentemente, en los clculos posteriores de Valor en Riesgo,
Prdida Esperada y otros, que veremos a continuacin. Una regla relativamente
habitual es elegir un umbral que deje un 5% de los datos en la cola de la dis-
tribucin, aunque en funcin del nmero de observaciones con que contemos,
podramos variar dicho criterio.
11.2 Construccin del QQ-plot bajo la EVT.
Hemos desarrollado la EVT para la cola derecha de la distribucin. Por tanto,
para aplicar dicha teora a rendimientos hemos de trabajar con prdidas, no con
rentabilidades.Si denimos la prdida estandarizada:
j
I
=
1
I
o
I
tenemos, a partir de (50) para el cuantil 1 j, denido como es habitual,
por: 1(j) = 1 j, que:
1 j = 1
T
u
T
_
j
n
_
l/
por lo que dicho cuantil es:
j = 1
l
l
= n
_
T
u
T
1
j
_

y el QQ-plot se construye utilizando los pares de puntos:


A
I
, 1
I
=
_
n
_
T
u
T
1
j
_

, j
I
_
=
_
n
_
T
u
i 0,
_

, j
I
_
ya que j se estima mediante: j =
I0,5
T
. Las coordenadas j
I
del QQ-plot son
las (T
u
,T) mayores prdidas realmente observadas en la muestra.
11.3 Clculo del VaR bajo EVT
El clculo del VaR es ahora sencillo:
\ a1

|l
= o
|l
1
l
l
= o
|l
n
_
T
u
T
1
j
_

que puede compararse con el que habramos calculado bajo Normalidad:


\ a1

|l
= o
|l
1
l

. Como puede verse, hay dos diferencias: a) utilizamos la


probabilidad 1 j en el clculo del cuantil, y b) no cambiamos de signo.
La razn por la que hemos usado en el VaR de EVT el cuantil 1 j es
porque el cuantil para el que 100j/ de las prdidas son superiores (que ser
252
generalmente negativo) es, cambiado de signo, el cuantil para el que 100(1j)/
de las rentabilidades estandarizadas (no prdidas) es inferior.
11.4 Prdida esperada (Expected shortfall)
El VaR proporciona informacin acerca del nmero de prdidas que puede ex-
ceder de dicho nivel, pero no acerca de su cuanta. Sin embargo, dicha magnitud
es muy importante en la gestin de riesgos, pues es la que, en denitiva, puede
determinar el resultado de la gestin de cartera.
De hecho, un mismo VaR al 1%, por ejemplo, puede ser compatible con
perles en la cola de la densidad muy diferentes. En realidad, querramos tner
informacin acerca de toda la cola de la distribucin, pero eso tampoco sera
til. Un camino intermedio consiste en el clculo de la prdida esperada, tambin
llamda en ocasiones el TailVaR, que se dene:
1o

|l
= 1
|
_
1
|l
[ 1
|l
< \ a1

|l

medido en trminos de rentabilidades logartmicas, no en trminos nomi-


nales.
En el caso de una distribucin Normal, tenemos:
1o

|l
= 1
|
_
1
|l
[ 1
|l
< \ a1

|l

= o
|l
c(\ a1

|l
,o
|l
)
1(\ a1

|l
,o
|l
)
donde c denota la funcin de densidad y 1 la funcin de distribucin de una
(0, 1). Pero en el caso de la Normal, ya sabemos que: \ a1

|l
= o
|l
1
l

,
por lo que:
1o

|l
= o
|l
c(\ a1

|l
,o
|l
)
1(\ a1

|l
,o
|l
)
= o
|l
c
_
1
l

_
j
La ratio entre Prdida Esperada y VaR es:
1o

|l
\ a1

|l
=
c
_
1
l

_
j1
l

Si, por ejemplo, j = 0.01, tenemos: 1


l

- 2, 88, por lo que:


1o

|l
\ a1

|l
=
c
_
1
l

_
j1
l

=
(2)
l/2
oxp[(2, 88)
2
,2[
0, 01(2, 88)
- 1, 1
En la distribucin Normal, esta ratio converge a 1 segn j converge a cero.
En general, para distribuciones con cola gruesa, la ratio
JS

t+1
\ o1

t+1
ser superior
al valor de la Normal, Para la distribucin de EVT, cuando j tiende a 0, dicha
ratio converge a:
1o
0
|l
\ a1
0
|l
=
1
1
253
de modo que, cuanto ms gruesa sea la cola, mayor ser la ratio de Prdida
Esperada a VaR.
11.4.1 Aplicacin prctica de los procedimientos de EVT
1. Comenzamos estandarizando las rentabilidades utilizando un modelo de
volatilidad previamente estimado, y convirtindolas en prdidas estandarizadas,
mediante un simple cambio de signo.
2. Fijado un umbral de signicacin (1% 5%, por ejemplo) calculamos el
umbral n calculando el percentil correspondiente en las rentabilidades
estandarizadas (no en las prdidas estandarizadas). El umbral ser una
rentabilidad negativa.
3. Estimamos el parmetro de grosor de cola. Hemos de utilizar el umbral
n cambiado de signo, positivo, puesto que estamos trabajando ahora con
la distribucin de las prdidas.
4. Calculamos 1
l
l
= n
_
Tr
T
l

y multiplicamos por la volatilidad de cada


da para obtener el \ a1.
5. Para generar un QQ-plot, representamos las T
u
rentabilidades estandarizadas
menores (las ms negativas, recordemos que estamos modelizando la cola
izquierda de la distribucin de rentabilidades) frente a los cuantiles de las
distribucin que queremos utilizar como referencia en el QQ-plot. En el
caso de la 1\ T, los cuantiles estn dados por 1
l
l
= n
_
Tr
T
l

11.5 Valoracin de opciones en presencia de asimetra y


curtosis. El modelo Gram-Charlier.
El precio de una opcin call debe ser igual al valor esperado y descontado de su
pago a vencimiento, donde la expectativa se calcula de acuerdo con la distribu-
cin libre de riesgo:
c = c
:T
1

|
['ar(o
|T
A, 0)[
El modelo de Black Scholes Merton supone que las rentabilidades diarias del
activo subyacente se distribuyen independientemente en el tiempo, de acuerdo
con una distribucin Normal con esperanza y varianza constantes, (j, o
2
). En
tal caso, la rentabilidad sobre el horizonte a vencimiento de la opcin seguir
una distribucin (Tj, To
2
), y el precio del activo subyacente al vencimiento
de la opcin ser: o
|T
= o
|
c
1
t+1t+J
.
Esto conduce a:
254
c = c
:T
_
1
1
'ar(o
|
c
r

A, 0))(r

)dr

=
= c
:T
_
1
In(/St)
o
|
c
r

)(r

)dr

_
1
In(/St)
A)(r

)dr

donde r

denota la variable riesgo-neutro correspondiente a la rentabildad


del activo subyacente entre t y t T. La integral anterior resulta:
c
1S1
= c
:T
_
o
|
c
:T
1(d) A1(d o
_
T)
_
= o
|
1(d) Ac
:T
1(d o
_
T)
donde 1 denota la funcin de distribucin de la variable (0, 1), y d =
In(St/)T(:c
2
/2)
c
p
T
.
La paridad put-call es una relacin de ausencia de arbitraje, que no precisa
de ningn modelo de valoracin:
o
|
j = c Ac
:T
y, junto con la expresin anterior para el precio de la opcin call, conduce al
precio de la opcin put:
c
1S1
= c Ac
:T
o
|
= Ac
:T
1(o
_
T d) o
|
1(d)
255
En el caso en que el activo reparte una tasa de dividiendos ( u otro tipo de
rentas) constante, anual, igual a , la expresin para d es: d =
In(St/)T(:jc
2
/2)
c
p
T
,
puesto que el inversor que tiene la opcin en su cartera recibe al vencimiento
de la opcin tan slo el activo subyacente,pero no la renta que su posesin ha
generado desde que se compr la opcin.
En consecuencia, de acuerdo con el modelo BS, el precio de una opcin call
es una funcin: c
1S
= c(o
|
, r, A, T, ; o) y, si disponemos de una muestra de :
opciones negociadas un determinado da sobre un mismo activo subyacente, la
volatilidad de dicho subyacente puede estimarse mediante el problema:
'i:
c
'o1
1S1
= 'i:
c
1
:
n

I=l
_
c
n||
I
c
1S1
(o
|
, r, A
I
, T
I
, ; o)
_
2
La volatilidad implcita se dene:
o
uI
1S1
= c
l
1S1
(o
|
, r, A, T, ; o)
que puede calcularse para cada opcin por separado. De acuerdo con el
modelo BSM, dicha volatilidad debera sernica para cada activo subyacente,
con independencia del vencimiento del opcin considerada, o de su precio de
ejercicio. Sin embargo, se observa que esto no es as, apareciendo sonrisas o
muecas de volatilidad. En el primer caso, la curva de volatilidad sobre el grado
de Moneyness describe una curva cncava, indicando la infravaloracin de las
opciones muy out-of-the-money por parte del modelo BSM, debido a un exceso
de curtosis en la distribucin de rentabilidades del activo subyacente. La mueca
reeja una infravaloracin de una cola del mercado por parte del modelo BSM,
habitualmente la formada por las opciones muy in-the-money. Estadsticamente,
se debe a una asimetra en la distribucin de rentabilidades del activo subya-
cente. En consecuencia, las opciones put muy out-of-the-money estn asimismo
infravaloradas por el modelo BSM.
Consideremos ahora la existencia de asimetra y curtosis en la distribucin
de rentabilidades del activo subyacente. Es sencillo ver que los coecientes
de asimetra y curtosis de la rentabilidad sobre un perodo de longitud T se
relacionan con los coecientes de las rentabilidades diarias mediante:
lT
=

ll
,
_
T,
2T
=
2l
,T. Por tanto, si denimos la rentabilidad estandarizada:
.
T
=
1
|l,|T
Tj
_
To
tenemos: 1
|l,|T
= Tj
_
To..
Si suponemos ahora que las rentabilidades estandarizadas siguen una dis-
tribucin caracterizada por la expansin de Gram-Charlier, tenemos:
)(.
T
) = c(.
T
)
lT
1
8!
1
3
c(.
T
)
2T
1
4!
1
d
c(.
T
)
donde c(.) denota la funcin de densidad de la (0, 1),y 1
I
denota el oper-
ador derivada.
256
Tenemos, por tanto:
1
l
c(.) = .c(.); 1
2
c(.) = (.
2
1)c(.);
1
3
c(.) = (.
3
8.)c(.); 1
d
c(.) = (.
d
6.
2
8)c(.);
La funcin de densidad Gram-Charlier )(.
T
) es una expansin alrededor de
la funcin de densidad Normal, que permite asimetra y curtosis no nulas, pero
que se reduce a la densidad (0, 1) cuando el coecinte de asimetra y el exceso
de curtosis son ambos cero. La expansin de Cornish-Fiser, por el contrario, se
aplica a la inversa de la funcin de distribucin de una variable aleatoria.
Para poner precio a opciones Europeas, partimos de nuevo de la frmula
libre de riesgo de valoracin de una opcin:
c = c
:T
1

|
['ar(o
|T
A, 0)[
por lo que debemos resolver:
c = c
:T
_
1
In(/St)
(o
|
c
r

A))(r

)dr

Antes trabajamos con la distribucin Normal con esperanza r y varianza


o
2
diariamente. Ahora, en cambio, denimos la rentabilidad estandarizad a
horizonte T :
.
T
=
r

rT
_
To
y suponemos que sigue una distribucin Gram-Charlier.
Bajo tal supuesto, el precio de la opcin call es aproximadamente igual a:
c
cc
- o
|
1(d) Ac
:T
1(d o
_
T) o
|
c(d)
_
To
_

lT
8!
(2
_
To d)

2T
4!
(1 d
2
8d
_
To 8To
2
)
_
=
= o
|
1(d) Ac
:T
1(d o
_
T) o
|
c(d)o
_

l
8!
(2
_
To d)

2l
4!
(1 d
2
8d
_
To 8To
2
)
_
La expresin es aproximada porque hemos prescindido de los trminos en
o
3
y o
d
, lo que nos permite mantener la misma denicin para el parmetro d
que en el modelo BSM. De este modo, el modelo Gram-Charlier (GC) es una
extensin del modelo BSM para el caso en que hay asimetra y curtosis. La
existencia de dividendos o rentas puede ser tenida en cuenta del modo habitual.
El modelo GC tiene tres parmetros desconocidos: o,
ll
,
2l.
Pueden esti-
marse por un procedimiento numrico resolviendo el problema de optimizacin:
'i:
c,
11
,
21
'o1
cc
= 'i:
c,
11
,
21
1
:
n

I=l
_
c
n||
I
c
cc
(o
|
, r, A
I
, T
I
; o,
ll
,
2l
)

2
257
mientras que la volatilidad implcita puede calcularse para cada opcin me-
diante:
o
uI
cc
= c
l
1S1
(o
|
, r, A, T; c
cc
)
de modo que, una vez que se dispone de valores numricos para los parmet-
ros o,
ll
,
l2
, se lleva el precio terico generado por el modelo GC a la frmula
de valoracin del modelo BSM, y se invierte para encontrar as la volatilidad
implcita.
Puede utilizarse asimismo la expresin aproximada:
o
uI
cc
= c
l
1S1
(o
|
, r, A, T; c
cc
) - o
_
T
_
1

ll
,
_
T
8!
d

2l
,T
4!
(1 d
2
)
_
que se reduce a la expresin habitual en ausencia de asimetra y curtosis. El
modelo CG proporciona una formula de valoracin cerrada, en un contexto de
asimetria y curtosis, que permite recoger las puatas sistemticas de volatilidad
que se observan en los mercados.
11.6 El modelo GARCH de valoracin de opciones
El modelo de Gram-Charlier para valorar opciones es capaz de recoger la asimetra
y curtosis en volatilidad, pero tiene la desventaja de que supone que sta es
constante en el tiempo, contrariamente a la robusta observacin emprica al
contrario en todos los mercados. Puede decirse, que mientras que el modelo GC
captura la estructura de precios de las opciones a travs de los precios de ejerci-
cio, sin embargo no recoge la estructura existente a lo largo de los vencimientos.
En esta seccin consideramos la formacin de precios de opciones cuando la
rentabilidad esperada del subyacente sigue un proceso GARCH. La diferencia
estriba en que bajo volatilidad constante, la estructura temporal de volatilidades
es constante, ya que la varianza de la rentabilidad a un horizonte de T periodos
es igual a To
2
, siento o
2
la varianza de la rentabilidad sobre un perodo.
Suponemos que el proceso GARCH especica que la rentabilidad esperada
es igual a la tasa libre de riesgo, r, ms una prima por riesgo de volatilidad `, as
como un trmino de normalizacin. Por otro lado, se supone que la rentabilidad
observada cada perodo es igual a la rentabilidad esperada r, ms una prima
por el riesgo de volatilidad, `o
|l
, un trmino de normalizacin,
l
2
o
2
|l
, ms
una innovacin. Se supone que dicha innovacin sigue una distribucin condi-
cional (0, o
2
|
),donde o
2
|
evoluciona de acuerdo con un proceso GARCH(1,1)
con apalancamiento, lo que crea asimetra en la distribucin de rentabilidades,
lo cual es importante para explicar la asimetra observada en los precios de las
opciones:
1
|l
= lno
|l
lno
|
= r `o
|l

1
2
o
2
|l
o
|l
.
|l
, .
|l
,\
|
~ (0, 1)
o
2
|l
= . c(o
|
.
|
0o
|
)
2
,o
2
|
258
que implican una esperanza y varianza condicional para las rentabilidades:
1
|
1
|l
= r `o
|l

1
2
o
2
|l
;
\
|
1
|l
= o
2
|l
Utilizando la conocida propiedad: r ~ (j, o
2
) = 1(c
r
) = c
c
2
/2
, ten-
emos:
1
|
(o
|l
,o
|
) = 1
|
(1
|
) = 1
|
_
c
:Xct+1
1
2
c
2
t+1
ct+1:t+1
_
= c
:Xct+1
1
2
c
2
t+1
1
|
[c
ct+1:t+1
[ =
= c
:Xct+1
1
2
c
2
t+1
c
1
2
c
2
t+1
= c
:Xct+1
que muestra el papel que juega el parmetro ` como precio del riesgo de
volatilidad.
Si partimos nuevamente de la expresin genrica para el precio de una opcin
call:
c = c
:T
1

|
['ar(o
|T
A, 0)[
Bajo neutralidad al riesgo, debemos tener una rentabilidad esperada igual a
la tasa libre de riesgo, y una volatilidad esperada igual a la del proceso original:
1

|
(o
|l
,o
|
) = r
\

|
(1
|l
) = o
2
|l
Consideremos ahora el proceso:
1
|l
= lno
|l
lno
|
= r
1
2
o
2
|l
o
|l
.

|l
, (51)
.

|l
,\
|
~ (0, 1) (52)
o
2
|l
= . c(o
|
.

|
`o
|
0o
|
)
2
,o
2
|
cuya esperanza condicional, bajo la distribucin de probabilidad libre de
riesgo es: 1

|
(o
|l
,o
|
) = r, y cuya varianza condicional bajo esa misma dis-
tribucin es:
\

|
(1
|l
) = 1

|
o
2
|l
= 1

|
_
. c(o
|
.

|
`o
|
0o
|
)
2
,o
2
|

=
[Por (1) ] = 1
|
_
. c
_
1
|
r
1
2
o
2
|
`o
|
0o
|
_
2
,o
2
|
_
=
= 1
|
_
. c(o
|
.
|
0o
|
)
2
,o
2
|

= 1
|
o
2
|l
= o
2
|l
259
Por tanto, (1) satisface las dos condiciones que debe satisfacer un proceso
libre de riesgo.
La ventaja de este modelo es su exibilidad, pudiendo ser adaptado a cualquiera
de las especicaciones GARCH vistas. Adems, ajusta los precios de las op-
ciones con bastante aproximacin. La limitacin es que no existe una frmula
cerrada para el precio de las opciones,que deben valorarse mediante simulacin.
Para ello notemos que podemos eliminar un parametro mediante la especi-
cacin:
o
2
|l
= . c(o
|
.

|
`o
|
0o
|
)
2
,o
2
|
= . c(o
|
.

|
`

o
|
)
2
,o
2
|
donde `

= ` 0.
Para llevar a cabo las simulaciones con objeto de valorar una opcin, a
partir de una observacin para o
2
|l
, generamos observaciones (0, 1) para
.

|l
,\
|
. Como queremos calcular la esperanza matemtica 1

|
utilizando el
proceso estocstico libre de riesgo, calculamos ahora la rentabilidad y varianza
riesgo-neutro en el perodo t : para la simulacin ,-sima mediante:
1

,|s
= r
1
2
o
2
,|s
o
,|s
.

,|s
, , = 1, 2, ...
o
2
,|sl
= . c(o
,|s
.

,|s
`

o
,|s
)
2
,o
2
,|s
, : = 1, 2, ...
Repitiendo el ejercicio de simulacin, obtenemos realizaciones para el hor-
izonte deseado. El precio hipottico del activo a vencimiento bajo la distribucin
riesgo-neutro puede calcularse, para cada realizacin:
o

,|T
= o
|
c
P
J
s=1
1

t+s
, , = 1, 2, ...,
y el precio de la opcin se calcula mediante el promedio descontando los
pagos hipotticos a vencimiento:
c
c1
- c
:T
1

=l
'ar
_
o

,|T
A, 0
_
que converge a la esperanza matemtica segn aumenta el nmero de simu-
laciones. = 000 debera ser suciente para proporcionar una aproximacin
sucientemente buena en la mayora de los casos.
Los parmetros del modelo GARCH deben estimarse previamente, lo que
puede hacerse mediante el procedimiento de Mxima Verosimilitud. Alternati-
vamente, si la muestra de opciones disponible para un determinado da es su-
cientemente amplia, podemos estimar resolviendo el problema de optimizacin:
'i:
c
2
t+1
,.,o,o,X

'o1
c1
= 'i:
c
2
t+1
,.,o,o,X

1
:
n

I=l
_
c
n||
I
c
c1
(o
|
, r, A
I
, T
I
; o
2
|l
, ., c, ,, `

2
260
donde estamos tratando o
2
|l
como un parmetro desconocido. Debe tenerse
en cuenta, sin embargo, que segn el algoritmo numrico va buscando en el es-
pacio paramtrico un vector de valores numricos para o
2
|l
, ., c, ,, `

, hay que
proceder a la valoracin de las opciones mediante simulacin, por lo que se trata
de un procedimiento bastante exigente desde el punto de vista computacional.
Por otra parte, este procedimiento permitira analizar la variabilidad temporal
de los valores numricos de los parametros del modelo, o
2
|l
, ., c, ,, `

.
Existe una especicacin GARCH algo ms particular que la anterior, que
genera una frmula cerrada para el precio de la opcin:
1
|l
= lno
|l
lno
|
= r `o
2
|l
o
|l
.
|l
, .
|l
,\
|
~ (0, 1)
o
2
|l
= . c(.
|
0o
|
)
2
,o
2
|
La persistencia de la varianza en este modelo viene dada por c0
2
,, y la
varianza incondicional es
.o
lo0
2
o
.
La versin riesgo-neutro de este proceso es:
1
|l
= lno
|l
lno
|
= r
1
2
o
2
|l
o
|l
.

|l
, .

|l
,\
|
~ (0, 1)
o
2
|l
= . c(.

|
0

o
|
)
2
,o
2
|
siendo sencillo ver que:
1

|
(o
|l
,o
|
) = r
\

|
(1
|l
) = o
2
|l
Bajo este proceso GARCH, el precio de una opcin call europea es:
c
cJc
= o
|
1
l
Ac
:T
1
2
con:
1
l
=
1
2

_
1
0
Io
_
A
I,
)

(i, 1)
i,)

(1)
_
d,; 1
2
=
1
2

_
1
0
Io
_
A
I,
)

(i,)
i,
_
d,;
donde la funcin )(.) est denida por:
)(,) = o
,
|
c
.
tt+J
(,)1
tt+J
(,)c
2
t+1
con expresiones recursivas:

|,|T
(,) =
|l,|T
(,) ,r 1
|l,|T
(,).
1
2
ln(1 2c1
|l,|T
(,))

|,|T
(,) = ,(` 0)
1
2
0
2
,1
|l,|T
(,).
1
2
(, 0)
2
,2
1 2c1
|l,|T
(,)
261
que pueden resolverse a partir de condiciones terminales:

|T,|T
(,) = 0; 1
|T,|T
(,) = 0
11.7 Teora de valores extremos (versin 2)
Consideremos una serie de rentabilidades diarias de una cartera: r
l
, r
2
, ..., r
n
,
cuyos estadsticos de orden extremos son r
(l)
y r
(n)
: r
(l)
= min
ln
r

, y
r
(n)
= max
ln
r

. Nos vamos a centrar en las propiedades del mnimo, que


son las relevantes para el clculo del \ a1 de una posicin larga. Sin embargo,
la misma teora es vlida para el clculo de la rentabilidad mxima de la cartera,
mediante un cambio de signo:
r
(n)
= min
ln
r

= r
c
(l)
donde r
c
|
= r
|
.
Supongamos que las rentabilidades son incorrelacionadas e igualmente dis-
tribuidas, de acuerdo con 1(r), y con un rango [|, n[ , .donde los extremos pueden
ser nitos o no. La funcin de distribucin de r
(l)
, 1
n,l
(r), es:
1
n,l
(r) = 1 [1 1(r)[
n
que tiende a ser degenerada segn : : 1
n,l
(r) 0 si r _ |, y 1
n,l
(r)
1 si r |.
La Teora de Valores Extremos se reere a la posible existencia de sucesiones
c
n
, (factores de escala) ,
n
, (parmetros de localizacin), con c
n
0, tales
que las distribucin de:
r
(l)
=
r
(l)
,
n
c
n
converja a una distribucin no degerada cuando : .
La Teora de Valores Extremos tiene dos implicaciones importantes:
la distribucin lmite del mnimo normalizado, 1

(r), est caracterizada


por el comportamiento en las colas de la distribucin 1(r) de r
|
, no por
la distribucin especca de las rentabilidades, por lo que es aplicable
a una gama amplia de distribuciones de rentabilidades. Sin embargo,
las sucesiones c
n
y ,
n
dependern de la distribucin concreta de
rentabilidades,
el ndice de cola /, o el parmetro de perl, no depende del intervalo
temporal considerado para las rentabilidades, lo que resulta til en el
clculo del \ a1.
262
11.7.1 Estimacin del modelo
Los parmetros del modelo: /, escala, c
n
, perl, ,
n
, localizacin, puedes es-
timarse por mtodos paramtricos (Mxima Verosimilitud o regresin) o por
mtodos no paramtricos.
Mxima verosimilitud
Mtodo de Regresin
Mtodo no paramtrico
12 The single-factor model
12.1 An introduction to factor models
A fund manager who is investing in a given stock market needs to keep track
of the time evolution of returns in all stocks trading in that market. Even
relatively small markets like the Spanish one, have a large enough list of stocks
that precludes the consideration of the possible evolution of their prices over
the management horizon. If we need to propose an strategy for asset allocation
among a wide variety of markets, the number of assets multiplies by a signicant
factor. That makes the problem particularly hard in most nancial applications
of portfolio management or risk management, because we need to have estimates
not only for future prices, but also for future variances and correlations. If we
have a vector of assets, we will need to forecast returns and ( 1),2
covariances or correlations. In most stock markets, can easily be of the order
of 500, so that the number of estimates we need to update whenever we solve the
asset allocation problem or we perform an evaluation of the risk in our portfolio
is huge.
In this common situation, a very sensible question refers to the possibility
of identifying a reduced number of common factors that may i) capture most of
the uctuation in the whole x1 vector of asset returns, i.e., most of the infor-
mation provided by the vector of assets we need to consider for our management
problem, and ii) closely reproduce the structure of correlations among returns.
This would in principle look like an impossible task. But, on the contrary,
it turns out to produce an interesting and positive answer in many cases. The
chance to obtain an important reduction in the dimensionality of the vector of
time series we need to keep track of is larger the higher the correlations among
the returns of the original x1 vector of assets.
Consider the estimation of the Value at Risk (VaR) of a given fund at time
T. The VaR at j/ and horizon /-periods from now, will be the corresponding
percentile of the return distribution at T /. To solve the problem we need to
extrapolate the distribution of 1

, the returns of the fund portfolio at time T/,


which requires two statements: i) the character of the distribution: Normal,
263
Students-t, Generalized distribution, a given Extreme Value distribution, and
ii) the need to forecast how the distribution of returns will change between T
and T /.
Let us forget for now about the very important second issue by assuming
that the distribution of returns is invariant over time. The computation of the
VaR will require the use of the variance-covariance matrix of returns at T /.
Under Normality (if we are willing to make that assumption), the 1/ VaR would
be 1(1

) 2.8268\ ar
T|
(1

). But,
\ ar
T|
(1

) = n
0
\ ar
T|
(r)n
where n is the vector of weights dening the portfolio, and \ ar
T|
(r) is
the x variance-covariance matrix of returns of the original assets at time
T /. Even for a moderate , the number of estimates in this covariance matrix
will easily become too large.
Now, suppose we have found a short number : of factors, able to capture
a signicant proportion, say 95% of the variation in the x1vector r. That
means that we have a system of equations,
r
I|
= c
I
,
Il
)
l|
,
I2
)
2|
... ,
In
)
n|
-
I|
, t = 1, 2, ..., T; i = 1, 2, ..., / (53)
where )
|
, , = 1, 2, ..., : represent the : common factors, : << /, ,
I
denote the factor loads, and -
I|
are the specic component of return for the
i-asset.
We assume the vector of factors )
|
= ()
l|
, )
2|
, ..., )
n|
) follows an :-dimensional
process with:
1()
|
) = j
}
Co()
|
) =
}
, symmetric, positive denite, :x: matrix
1(-
I|
) = 0 for all i, t
Co()
|
, -
Is
) = 0 for all ,, i, t, :
Co(-
I|
, -
s
) = o
2
I
if i = ,, t = :, being equal to 0 otherwise
These conditions characterize a good factor model. In fact, the most relevant
conditions are the last two: the presence of correlation between factors and
specic components, or between specic components for two dierent assets
would mean that we are missing some relevant factor, and the model would
need to be re-specied.
These assumptions imply a very particular covariance structure for the vector
r :
Co(r) = ,
0

}
, 1
where
}
has a much shorter dimension than \ ar
T|
(r), , is :x:, and
1 is a diagonal, :x: matrix, thereby containing just : dierent elements,
264
the variances of the -
I
elements. Under some factor model approaches, factors
are uncorrelated by construction, in which case, the number of elements in
}
comes down to just :, rather than :(:1),2. There is still a large dimension in
matrix ,, but the total number of parameters needed to represent the variance-
covariance matrix of returns is much smaller now. Besides, the general idea is
that it is the correlation among the factors, as captured by
}
, more than the
sensitivities to them, captured in , that needs to be updated frequently.
To measure portfolio risk, we will just need to introduce some scenarios on
the future evolution of the factors, rather than doing so with the large vector
of returns, r. The same applies to forecasting or simulation. If we want to
forecast the future evolution of returns in r between T and T /, we just
need to forecast the : factors, and then use the representation of returns (8)
to obtain forecasts for each element in r. It is important no notice that so
long as the common factors are well specied, when we compute forecasts for
each individual return in r, the obtained time series will preserve the sample
correlation observed among the components in r. As a matter of fact, this can
be used to test the quality of the factor model.
Standard approaches to factor model evaluation are based on some of the
model implications:
whether the correlation matrix of returns implied by the factor model
reproduces the sample correlation matrix,
the correlation matrix of specic return components, which must be zero
the correlation between factors and specic components of returns must
be zero, although this is guaranteed if the factor model is estimated by
least squares,
the comparison of the implied global minimum variance portfolio. This
problem is dened by,
'i:
u
o
2

= n
0
n
:n/,cct to : n
0
1
n
= 1
and it has as solution the vector of weights:
n =

l
1
1
0
1
when it is obtained from either the sample correlation or the correlation
matrix of tted components in (8) .
Applications of factor models include:
VaR computation
identify principal sources of risk in a portfolio
265
construct portfolios hedged against major sources of risk
consider scenarios to measure portfolio risk
stress-testing is more easily done on identied factors than on individual
assets (interest rates or stocks)
and examples of all these will be discussed in the next sections
12.2 The structure of the single-factor model
A single-factor model explains the covariances between asset returns through
the common inuence of a single factor. The model is:
r
It
= a
It
,
I
1
|
where return has a specic component, a
It
, and a second component, ,
I
1
|
,
that reects the common inuence of a single factor 1
|
, over all returns. Fluc-
tuations over time in a given return is due to both of these components. The
common factor 1
|
could be the ination rate, 1
|
=
|
, or the market return,
1
|
= r
nt
, for instance.
Subtracting the mathematical expectation of the random variable a
I
we have:
a
I
= c
I
n
I
, where c
I
is a constant specic to each asset c
I
= 1(a
I
), while n
I
is the specic random component of each asset. So, we have:
r
It
= c
I
,
I
1
|
n
It
(54)
A convenient condition of any index model is,
Co(n
It
, 1
|
) = 1(n
It
, 1
|
) = 0.
This condition can be guaranteed through least squares estimation, and it
means that how well (71) explains the return on the i asset is independent of
what the market return happens to be.
But the key assumption of the one-index market is the lack of correlation
between specic return components:
Co(n
It
, n
t
) = 0, a|| i ,= ,
It means that in the case of the 35 assets in Ibex35, the 595 dierent cor-
relations between the residuals of the projections on the single factor for two
dierent assets must be zero. These residuals would be the specic components
of returns, according to this factor model. There is nothing in the least squares
estimation procedure that will guarantee this property. But how well the model
performs depends on how good or bad this assumption on the lack of cross
correlation between specic return components is just an approximation.
We must distinguish between the One-factor model, characterized by the two
conditions mentioned above, and the Market model,
266
r
It
= c
I
,
I
r
n|
n
It
which does not make the assumption that the specic components of returns
are uncorrelated across assets and hence, it does not lead to simple analytical
expressions for variances and covariances as the one-factor model does.
The single model factor is more a theoretical construction than a model with
strict empirical validity. Suppose we take the return on the market portfolio as
the single factor. The return on individual assets might also depend on the
dividend policy, and this might be similar for assets in the same class (banks,
utilities, building companies). That would induce correlations among the return
components that are not explained by the single factor, which is not supposed
to happen under the factor model.
To clarify notation, we assume the market return as the single factor. De-
noting \ ar(n
I
) = o
2
u1
, i = 1, 2, ..., , \ ar(1
|
) = \ ar(r
n
) = o
2
n
, we have, under
the model hypothesis:
r
I
= c
I
,
I
r
n
o
2
I
= ,
2
I
o
2
n
o
2
u1
o
I
= ,
I
,

o
2
n
so that:
expected return has two components: one form the market return and
another from c
I
,
the variance of the return on any given asset also has two components.
The second one is due to the volatility of the specic component n
It
, so
that there is a component of market risk, ,
2
I
o
2
n
, and an specic component
of risk, o
2
u1
,
the covariance between the returns on two assets is only due to market
risk.
The previous representations allow us to write the expected value and vari-
ance of the return on a given portfolio:
r
c
=

I=l
A
I
r
I
=r
c
=

I=l
A
I
r
I
=

I=l
A
I
c
I

I=l
A
I
,
I
r
n
= c
c

I=l
A
I
,
I
_
r
n
= c
c
,
c
r
n
where the alpha and beta of the portfolio, c
c
, ,
c
are dened from those for
the individual assets:
c
c
=

I=l
A
I
c
I
,
c
=

I=l
A
I
,
I
267
Furthermore,
o
2
c
=

I=l
A
2
I
o
2
I
2

I=l

=l,6=I
A
I
A

o
I
=

I=l
A
2
I
,
2
I
o
2
n
2

I=l

=l,6=I
A
I
A

,
I
,

o
2
n

I=l
A
2
I
o
2
u1
so that we can estimate expected return and risk for any portfolio from
estimates for c
I
, ,
I
, o
2
u1
, r
n
, o
2
n
, a total of 82 parameters, rather than 2
( 1),2. In the case of the 35 assets in Ibex35, the number of required
parameters reduces from 665 to 107, the reduction being even more impressive
in a larger market. Alternatively, the analysis could also be performed from
estimates for r
I
, o
2
u1
, ,
I
, r
n
, o
2
n
, again 8 2 parameters.
12.2.1 Characteristics of the single factor model
The volatility (risk) of a portfolio can be written:
o
2
c
=
_
_

I=l

=l,6=I
A
I
A

,
I
,

_
_
o
2
n

I=l
A
2
I
o
2
u1
=
_

I=l
A
I
,
I
__

I=l
A

_
o
2
n

I=l
A
2
I
o
2
u1
= ,
2
c
o
2
n

I=l
A
2
I
o
2
u1
Consider a well diversied portfolio: a) it invests in a broad set of assets, b)
it does not concentrate the invested capital in a subset of assets. To be specic,
let us consider the special case of a portfolio that distributes its capital equally
among a set of assets, with large
31
.
The volatility of such portfolio is:
o
2
c
= ,
2
c
o
2
n

I=l
_
1

_
2
o
2
u1
= ,
2
c
o
2
n

1

I=l
1

o
2
u1
_
So that the component of portfolio risk that cannot be eliminated by diver-
sication is the one associated to market risk, so that:
o
c
,
2
c
o
2
n
= o
n
_

I=l
A
I
,
I
_
Since o
n
is common to all assets in the portfolio, we have that the contri-
bution of an individual asset to portfolio risk is given by its beta, ,
I
.
The risk of an individual asset is o
2
I
= ,
2
I
o
2
n
o
2
u1
, that depends on beta
and on the variance of its specic component. Since the eect of o
2
u1
on the risk
of the portfolio can be eliminated by increasing , we call that diversiable or
31
The previous expression does not hold for the market portfolio, illustrating that the
assumptions of the single factor model are inconsistent for the case o
2
c
= o
2
r
.
268
idiosyncratic risk. On the contrary, ,
2
I
o
2
n
(systematic volatility or risk) does
not decrease by increasing , and ,
I
is the measure of the non diversiable or
systematic risk in any individual asset.
12.3 Estimating portfolio characteristics from a single fac-
tor model
A risk manager uses the above expressions to construct historical time series for
many dierent portfolios, so that she can compare their characteristics in rela-
tively short histories, allowing for time variation in parameters (this is because
the time series of historical portfolio returns will have been constructed main-
taining constant the current weights). On the other hand, an asset manager
will compare the characteristics of many individual assets using long histories
(three to ve years of monthly or weekly data).
Once we have estimated the one-factor model, we can proceed to compute i)
historical mean returns as well as their ii) standard deviations and covariances
(alternatively volatilities and correlations) and iii) the correlation matrix of the
specic return components, and compare them with the value that would be
obtained from the mean and variance market return and the estimated alphas
and Betas, according to the expressions presented above.
Example II.1.1: For two dierent assets, compute weekly returns, examine
their market betas, and compare the size of systematic and specic risk. Aggre-
gate their alphas and betas for a given portfolio composition. Compute them
from a single time series for the portfolio return. With weekly data from the
beginning of January 2000 to end of August 2008 for NWL y Microsoft, las alfas
estimadas son 0,358 (0,161), y -0,066(0,178) y las betas estimadas: 0,506 (0,071)
y 1,104 (0,079). Los componentes de riesgo especco se estiman en 23,17% y
25,74%, respectivamente. Una cartera constituida en un 70% por NWL y un
30% por Microsoft, tendra un alfa de 0,231 y una beta de 0,685, con un riesgo
especco de 23,97%.
Example II.1.2: Estimate portfolio alpha and beta
Estimating portfolio risk using Exponentially weighted moving aver-
age models (EWMA) Risk management requires monitoring on a frequent
basis (daily and even intra-daily) and parameter estimates must be left to vary
to reect current risk conditions. So we consider:
r
|
= a
|
,
|
1
|
n
|
The simplest possible way to estimate time varying parameters is through an
Exponentially Weighted Moving Average mechanism (EWMA), using a smooth-
ing constant ` :
269
,
X
|
=
Co
X
(r
|
, 1
|
)
\ ar
X
(1
|
)
Co
X
(r
|
, 1
|
) = o
l2t
= (1 `)r
|l
1
|l
`o
l2t1
= (1 `)
1

I=l
`
Il
r
|I
1
|I
\ ar
X
(1
|
) = o
2
|
= (1 `)1
2
|l
`o
2
|l
= (1 `)
1

I=l
`
Il
1
2
|I
where we are assuming that the assets return and the factor have zero
expectation. A time varying correlation coecient could similarly be dened
by division of the covariance of both returns by the square root of the product
of variances, both statistics dened as above. The value of `,between 0 and 1,
determines the persistence of the process of covariance or variance. A zero value
would produce immediate reactions to events, while a value close to one would
make the variance or covariance almost constant. The higher the value of `, the
longer it will take for the eects on moments of events to die away. The EWMA
mechanism is justied only if returns are i., i.d..
The value of ` can also be chosen to optimize a measure of t, like the
value of the log-likelihood function under Normality. It is sometimes chosen
subjectively a it is the case with the 0.94 value used in Riskmetrics with daily
data or the 0.97 value used with monthly data. A value of ` = 0.0 amounts to
a half-life of 25 days, close to one month. That is the length of time needed for
the process to close half the initial distance to its long-run level.
Exercise: For assets of dierent nature, compute covariances and variances
for alternative values of `. Compare with moments computed with rolling win-
dows of dierent length. Estimate the value of `.
Under the EWMA specication, systematic risk is estimated by:
oj:tc:atic 1i:/ =
_
/

,
X
|
_
\ ar
X
(1
|
)
where / denotes the number of returns per year, which will be around 250
when working with daily data. This analysis produces time varying betas and
correlations. It is obviously interesting to observe the time changes in beta,
one of the two components of systematic risk of the asset. Systematic risk
will change over time as a function of changes in beta and changes in factor
variance. Systematic risk may be low even for assets with beta above one, and
the opposite can also happen. A graphical comparison of time variation in beta
and systematic risk may provide interesting information.
There is an interesting relationship between the equity beta and the relative
volatility of the asset and the market:
,
X
|
= j
X
_
\ ar
X
(r
|
)
\ ar
X
(1
|
)
270
In the example(Figures II.2.1 to II.2.3), it is obvious that Cisco has a greater
systematic risk than Amex. The average market correlation is similar for Cisco
and Amex, but Cisco is much more volatile than Amex, relative to the market
and hence, EWMA correlation is much more unstable and Cisco beta is often
considerably higher than Amex beta.
In the single factor model, risk can be decomposed:
Tota| aria:cc = oj:tc:atic aria:cc ojcci)ic aria:cc
Tota| ri:/ =
_
(oj:tc:atic ri:/
2
ojcci)ic ri:/
2
)
13 Multi-factor models
Failure of the assumptions embedded in the single-factor model move to con-
sidering multi-factor models, the arbitrage pricing theory developed by Ross
(1976) being an example. A multi-factor model is:
1
|
= c ,
l
A
l|
... ,
|
A
||
n
|
or in matrix form:
j = c A
0
, n, n ~ i., i.d.(0, o
2
u
)
which implies:
1rjcctcd rctnr: = c ,
0
1(A)
Io tnr: aria:cc = ,
0
\, o
2
u
where \ = \ ar(A) is the /r/ factor covariance matrix. This expression
for the variance represents the dispersion of returns around the expected return
c [1(A)[
0
,, but not around any other reference.
Example II.1.3: Suppose the total volatility of returns on a stock is 25%. A
linear model with two risk factors indicates that the stock has betas of 0.8 and
1.2. The two factors have volatility of 15% and 20% and a correlation of -0.5.
How much of the stocks volatility can be attributed to the risk factors, and how
large is the stocks specic risk? R: Volatility due to the two factors is 20,78%,
while specic risk is 13,89%.
Actually, we have one of such previous equations for each asset. So, for a
set of assets, we have:
1 = A1 w, w ~ (0, )
where each column in 1 contains T data points for a given asset, so it is
Tr:, is also Tr:, A is Tr/, 1 is /r:, and w is a Tr: matrix of random
shocks or innovations, with:
271
\ ar(w) = =
_
_
o
2
l
o
l2
... o
ln
... ... ... ...
o
ln
o
n2
... o
2
n
_
_
In a completely specied factor model, this covariance matrix should be
diagonal, ash it has been discussed above. However, we are going to proceed at
this point as if we are at an intermediate point of specifying the factor model,
which is still incomplete, producing some correlations between the unexplained
components of the vector of asset returns.
Consider now a portfolio made up of the assets in vector 1 , with weights:
n = (n
l
, n
2
, ..., n
n
). The historical data on the portfolio, using current weights
is:
j = 1 n
and we have:
j = 1 n = n A(1n) wn, w ~ (0, )
so the portfolio alpha and beta are: c = n, , = 1n, and the portfolios
specic return is given by: - = wn, the weighted sum of the assets specic
returns.
This expression for the portfolios specic return shows the need to take
into account the correlation between asset specic returns when estimating the
specic risk of the portfolio. Assuming lack of correlation between factor returns
and each assets specic return, we have,
\ ar(j) = ,
0
\, n
0
n
displaying the three sources of risk: i) the risks coming from the portfolios
factor sensitivities ,, ii) the risks of the factors themselves, represented by \ ,
iii) the idiosyncratic risks of the assets in the portfolio, represented by n
0
n.
Example II.5: Consider a portfolio invested in three assets with weights: -
0.25, 0.75 and 0.50, respectively. Each asset has a factor model representation
with the same risk factors as in Example II.1.3, and betas: (0.2,1.2), (0.9, 0.2),
and (1.3, 0.7). The two factors have volatilities: 15% and 20%, respectively.
What is the volatility due to the risk factors (i.e., the systematic risk) for this
portfolio? R: The portfolio factor betas are 1,275 and 0,20, and the volatility
due to the two factors is 17,47%
13.1 Style attribution analysis
Using some specic assets (indices or portfolios) as references for factors, it
is interesting to estimate the management style of a given portfolio. This is
important to evaluate fund management which is sometimes subject to some
regulations or to some indications from the nancial director of the management
institution. Specially important is this analysis to evaluate the management
272
and performance of hedge funds. Factors for style management may be stock
market indices, bond indices, or interbank or many market rates. But they can
also be indexes of value or growth stocks. To evaluate hedge funds, additional
factors may include option price indices, exchange rates, credit spreads. A value
stock is one that trades below book value. The asset value per share is high
relative to the share price, and we could expect the price to raise. Usually its
price-earnings ratio will be below the market average. A growth stock is one
with a lower than average price-earnings to growth ratio. The rate of growth
of earnings is high relative to its price-earnings ratio. These appear attractive
because of potential growth in the rm assets. Value indicators may include the
book-to-price ratio and the dividend yield, while growth indicators may include
the growth in earnings per share and the return on equity. Value and growth
style indices exist from dierent nancial institutions: S&P 500 value index,
S&P 500 growth index, Russell 1000 value index, etc.. As the number of rms
increase, their average market capitalization decreases. So the S&P500 value
index contains value stocks with an average market capitalization much higher
than those rms in the Wilshire 5000 value index.
References: These indices can be downloaded from Yahoo! Finance. Look at
the left side menus of: http://nance.yahoo.com/funds (Funds by family, Top
performers)
Obviously, the choice of style factors is very important for the results. We
should include a large enough family representing the basic asset classes which
are relevant to the portfolio being analyzed, without adding up too much collinear-
ity. Style attribution is based on solving the problem:
min
o
(j A,)
2
:n/,cct to :
|

I=l
,
I
= 1, ,
I
_ 0, i = 1, 2, ..., /
Example II.1.4: Perform style attribution on the mutual funds: VIT: Van-
guard Index Trust 500 index, FAA: Fidelity Advisor Aggressive Fund, FID: Fi-
delity Main Mutual Fund, using as style factors: a) Russell 1000 value: mid
cap, value factor, b) Russell 1000 growth: mid cap, growth factor, c) Russell
2000 value: small cap, value factor, d) Russell 2000 growth: small cap, growth
factor.
13.2 Multi-factor models in international portfolios
Consider an investment in a single foreign asset. The exchange rate is dened
as the number of units of the domestic currency that must be delivered for each
unit of the foreign currency. The log returns satisfy:
1
J
|
= 1
}
|
1 =1
J
= 1
}
A = ,1 A
273
where we have assumed a single foreign market risk factor representation.
Hence, there are two risk factors aecting the domestic return on the asset: a)
the exchange rate, with a beta of 1, and b) the foreign market index or risk
factor, with a beta of ,. Therefore,
oj:tc:atic aria:cc = \ ar(,1 A) = ,
2
\ ar(1) \ ar(A) 2,Co(1, A)
and the systematic variance has three components: a) the equity variance,
,
2
\ ar(1), b) the forex variance, \ ar(A), c) the equity-forex covariance: 2,Co(1, A).
If we have a portfolio of assets in the same class, we will have a similar decom-
position, with the beta of the portfolio being related to the betas of individual
assets in the standard fashion.
To generalize the analysis, let us consider a large international portfolio with
exposure to / dierent countries. For simplicity, we assume that there is a single
market risk factor in each country. We denote by 1
l
, ..., 1
|
the returns to the
market risk factors, by ,
l
, ..., ,
|
the portfolio betas with respect to each market
factor, and by A
l
, ...A
|
the foreign exchange rates. Assuming 1
l
is the domestic
risk factor, then A
l
= 1 and there are / equity risk factors, but only /1 foreign
exchange risk factors. Let n = (n
l
, ..., n
|
)
0
be the country portfolio weights.
The systematic return on the portfolio is:
n
l
,
l
1
l
n
2
(,
2
1
2
A
2
) ...n
|
(,
|
1
|
A
|
) = (1n)
0
r (55)
where r is the 2/r1 vector of equity and forex risk returns, and 1 is the
(2/ 1)r/ matrix of risk factor betas:
r = (1
l
, 1
2
, ..., 1
|
, A
2
, ..., A
|
)
0
a:d 1 =
_
_
_
_
_
_
_
_
_
_
_
_
,
l
0 0 0
0 ,
2
0 0
... ... ... ... ...
0 0 0 ,
|
0 1 0 0
0 0 1 0
... ... ... ... ...
0 0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
Taking variances in () we get:
oj:tc:atic aria:cc = (1n)
0
\(1n)
where 1n is a (2/ 1)r1 vector, and \ is a (2/ 1)r(2/ 1) matrix::
\ =
_
_
_
_
\ ar(1
l
) Co(1
l
, 1
2
) Co(1
l
, A
|
)
Co(1
l
, 1
2
) \ ar(1
2
) Co(1
2
, A
|
)
...
Co(1
l
, A
|
) Co(1
2
, A
|
) \ ar(A
|
)
_
_
_
_
which can be partitioned as:
274
\ =
_
\
J
\
J
\
0
J
\

_
where \
J
is the /r/ covariance matrix of the equity risk factor returns, \

is the (/1)r(/1) covariance matrix of the forex risk returns, and \


J
is the
/r(/ 1) quanto covariance matrix containing the cross-covariances between
the equity risk factor returns and the forex risk factor returns, which can be
either positive or negative. In the latter case, the systematic variance will be
less than the sum of the equity variance and the forex variance.
Hence, we can decompose systematic variance into its equity, forex and
equity-forex components, as:
oj:tc:atic aria:cc =

,
0
\
J

, n
0
\

n 2

,
0
\
J
n
where n = (n
2
, ..., n
|
) ,

, = n
0
diaq(,
l
, .., ,
|
) = (n
l
,
l
, ..., n
|
,
|
)
0
.
Example II-6: A UK investor holds 2.5 million pounds in UK stocks with a
FTSE100 market beta of 1.5, 1 million pounds in US stocks with an S&P500
market beta of 1.2, and 1.5 million pounds in German stocks with a DAX30
market beta of 0.8. The volatilities and correlations of the FTSE100, S%&P500
and DAX30 indices, and the USD/GBP and EUR/GBP exchange rates are
estimated. Calculate the systematic risk of the portfolio and decompose it into
equity and forex and equity-forex components. R:
13.3 Estimation of fundamental factor models
The proposed Case Study considers the risk decomposition of two stocks (Nokia
and Vodafone) using historical prices and four fundamental risk factors: i) a
broad market index, the NYSE composite index, ii) an industry factor, the Old
Mutual communications fund, iii) a growth style factor, the Riverside growth
fund, and i) a capitalization factor, the AFBA Five Star Large Cap fund.
The selection of the risk factors is a major issue, that depends on the users
experience and knowledge.
We consider a portfolio made up by 3 million US dollars of Nokia stock and
1 million US dollars of Vodafone stock. We start by estimating the total risk
of the portfolio based on the historical returns on the two assets. The portfolio
volatility is 42.5%. We estimate projections of each of the two assets on the
four risk factors, to obtain the two vectors of 4 betas each. From that, we can
estimate the vector of portfolio betas. We also compute the covariance matrix
of factor returns. The variance attributed to the risk factors, or systematic
variance, is 24.7%, much lower than the total risk of the portfolio we estimated
before. That means that the factor model does not explain the portfolio returns
very well. Indeed, the R-squared statistics were 58.9% for Vodafone and 67.9%
for Nokia. An additional problem is the important colinearity among the risk
factors. The lowest correlation between any two of them is 0.69. Then, a set of
regressions is estimated including one additional risk factor at a time, and the
beta values can be seen to change dramatically.
275
As an approach to avoid the eect of collinearity, an orthogonal regression
is also estimated for each asset using the rst two principal components for the
4 risk factors. The systematic risk increases to 30.17%, but it remains still well
below the estimate with historical portfolio returns.
13.4 Zero coupon curve estimation
Before describing the use of the Principal Component technique for risk man-
agement in xed income markets, let us remember the main idea behind zero
coupon curve estimation.
Note: Zero coupon curves are estimated using market prices for bonds that
pay coupon. As illustration for those of you interested, I leave the polynomial
zero coupon curve.xls le, that solves the following exercise. A .zip le named
nelson_siegel will also be made available for those of yo interested in estimating
Nelson-Siegel and Svensson models of zero coupon curves using Matlab.
Consider the following exercise. Today is November 5, 2011. The rst col-
umn of le polynomial zero coupon curve.xls contains the coupon of each bond
traded in the secondary market for Government debt. The second column con-
tains the maturity date, the third column the date the bond was rst issued,
which is assumed to be the same for all bonds, 15/08/2011. Each bond is as-
sumed to have a nominal of 100 monetary units. This is just for simplication,
and it cold be changed without any diculty. Finally, we see the (average)
market price for each bond.
We assume a polynomial discount function,
d(t) = a /t ct
2
dt
3
ct
d
to be applied to each cash ow.
Hence, the price of a bond can be represented:
1
I|
=
n1

=l
c
I
d

(t) =
n1

=l
c
I
_
a /t
I
ct
2
I
dt
3
I
ct
d
I
_
where :
I
denotes the number of cash-ows to be paid by the i-th bond
before maturity. We assume that all bonds pay coupon each semester (half of
the annual amount).
For each vector of parameter values (a, /, c, d) we have a theoretical price for
each bond. We want to nd the parameter values so that
'i:
(o,b,c,J)

I=l
(1
1
I|
1
T
I|
)
2
where 1
1
I|
denotes the market price for each bond, and 1
T
I|
denotes the the-
oretical price for that parameter vector.
The market price is ex coupon, meaning that we need to add to it the part
of the coupon which would correspond to the current holder since the last date
that a coupon was paid. To calculate that amount, we multiply the size of the
276
next coupon payment by the proportion of the 2-month interval that has already
gone by. Adding that to the ex coupon market price, we get the true traded
price.
The polynomial function d

(t) is the discount function, giving us the price


of a bond that would mature at any future date, with a single payment, to be
eective at maturity. This would be a zero coupon bond maturing t periods
from now.
Estimate a discount function using a polynomial of degree 2, and another
one using a polynomial of degree 4, and represent both discount functions. Draw
a bar diagram with the market and the theoretical prices for each bond under
each specication of the discount function.
The zero coupon curve itself, that represents zero coupon interest rates as a
function of maturity, is obtained from:
r
|
= 100
_
_
1
d
|
_
l/|
1
_
Draw a diagram with the zero coupon curves that obtain from the two dis-
count functions you have estimated. In view of the results do you consider a
second degree polynomial to be adequate for this market?
13.5 A factor model of the term structure by regression
The TSIR is a curve made up by zero-coupon curve rates for a large number of
maturities. In some markets, like secondary debt markets, we need to estimate
an analytical model that provides us with a continuous representation of zero
coupon interest rates across the maturity range considered. In some other cases,
like interbank markets, or interest rate swaps, we have already zero coupon rates
observed at xed maturities. The re may be a fairly large number of maturities,
as in swap markets, or just a few of them, as in markets for interbank deposits.
Trading in such markets, or managing a fund in them requires evaluating the
risk associated to each maturity, but there may be a large number of them.
It makes sense then to try to summarize the time uctuations in a large of
maturities by those in a short number of them. This is a crucial aspect of risk
management.
Essentially, we try to identify the risk factors along the term structure. As
an alternative, we could search for risk factors in the form of macroeconomic
variables: ination, growth, oil prices, and so on. That a reduced number of
factors can capture the uncertainty in changes in the TSIR is an interesting issue,
since many equilibrium xed income valuation models assume that bond prices
are a function of a small number of state variables that follow a diusion process
[Vasicek, O.A. (1977), An equilibrium characterization of the term structure,
Journal of Financial Economics, 5, 177-188, Cox, J., Ingersoll, J., and S. Ross,
(1985), A theory of the term structure of interest rates, Econometrica, 53,
385-408] In these models, interest rates at pre-specied maturities are used as
proxies for the unobserved state variables. That the models do not show a clear
277
superiority over simpler alternatives in empirical tests is usually explained by
the somewhat arbitrary choice of proxies for the risk factors.
There is a variety of techniques that can be used in this analysis.
13.5.1 Regression analysis
In this approach, spot rates at dierent maturities are used as potential risk
factors, and can break the arbitrariness mentioned above in the implementation
of equilibrium valuation models. Elton, E.J., M.J. Gruber and R. Michaely
[(1990) The structure of interest rates and immunization, Journal of Finance
45, 629-642] assume that unexpected changes in interest rates are linearly related
to two unknown factors 1
l
and 1
2
,
dr
I,|
= ,
I,0
,
I,l
d1
l,|
,
I,2
d1
2,|
n
I,|
(56)
The factors will be identied with specic interest rates. These authors
assume that interest rate changes are zero, thereby ignoring the constant term
in the previous equation although that might produce some misspecication
problem. The model is specied as,
dr
I,|
= a
I
dr
:,|
/
I
(dr
r,|
dr
:,|
) n
I,|
(57)
where it is clear that any other number of factors could also be considered.
It can be alternatively written as,
dr
I,|
= (a
I
/
I
)dr
:,|
/
I
dr
r,|
n
I,|
(58)
The coecient of determination between dr
I,|
and dr
:,|
and dr
r,|
dr
:,|
is
given by,
1
2
I,(:,r)
= 1
\ ar(n
I,|
)
\ ar (dr
I,|
)
which amounts to,
1
2
I,(:,r)
\ ar (dr
I,|
) = \ ar (dr
I,|
) \ ar(n
I,|
)
showing that minimizing the residual variance over the set of possible pairs
of factors is equivalent to maximizing 1
2
I
\ ar (dr
I,|
) .
When solving this problem, weights may be applied to the maximized terms
of interest rates at dierent maturities to capture the perceived relative impor-
tance of each one of them. That way, the problem becomes,
'ar
(:,r)

I
.
I
1
2
I,(:,r)
\ ar (dr
I,|
) (59)
That could help to focus on the region of the TSIR relevant to a fund man-
ager. If are using the technique to design a xed income portfolio on public debt,
we should weigh more heavily the maturities associated to outstanding bonds.
Once again, the idea is that when dealing with a public or private debt market,
278
we would have to start by estimating the TSIR, selecting a set of maturities,
and generating interest rates time series for those maturities.
We also need to dene what we understand by unexpected changes in interest
rates. Usually these are taken as dierences between spot rates at t and the
corresponding forward rate computed from the TSIR for time t-1, which agrees
with the Pure Expectations Theory of the TSIR. Alternatively, the actual change
in interest rates is used, as if it was completely unexpected. This corresponds
to the assumption that each interest rates behaves as a random walk. For
frequently observed data (weekly), dierences between these two alternatives
are very minor.
Once we have found the factor solving (0) , we can estimate the sensitivity
of r
I
to changes in the factors, by estimating either (7) or (8) . From them,
we can estimate sensitivity parameters for any other maturity by interpolating
the estimated sensitivities, or by parameterizing a function like,
a
I
= c
0
c
l
lni c
2
(lni)
2
-
I
in the case of a one-factor model.
When a one-factor model is considered, results on the optimal factor dier
across countries. In Spain, the 3-year rate seems to do a good job [Navarro,
E., and J.M. Nave (1997) A two-factor duration model for interest rate risk
management, Investigaciones Econmicas]. For two-factor models, the 3-year
and the 2-month rates were chosen in the Spanish market.
Naturally, relating the factors used in TSIR in dierent markets, and test
for the explanatory power of those from one market to the other, remains as
an interesting issue for further research. Elton et al. found the six-year and
the eight-month as the best factors. A standard result is that a third factor
is usually needed to capture the curvature of the TSIR, since the resulting 1-
squared statistics are not very high for some maturities.
It is also interesting to point out that estimated sensitivities become some-
times non-signicant in an interesting manner: in the Spanish market, for ma-
turities over three years, interest rates are not sensitivity to the two-month rate
factor, while for maturities below two-months, interest rate changes are not
sensitive to changes in the three-year rate factor.
For the Spanish case, Navarro and Nave interpolate for the whole term struc-
ture by using the functions,
(a /)
I
=
/
0
/
l
lni /
2
(lni)
2
1 /
3
lni /
d
(lni)
2
/
I
=
/
0
/
l
lni /
2
(lni)
2
1 /
3
lni /
d
(lni)
2
/
5
(lni)
3
which should be constrained by,
(a /)
2non||
= 1; /
3to:
= 1;
(a /)
3to:
= 0; /
2non||
= 0;
279
In addition, these authors also impose,
(a /)
0
3to:
= 0; /
0
2non||
= 0;
The model obtained through this approach can be tested against competing
alternatives (like on-factor models with dierent choices for proxies, or dierent
two-factor models) by using estimated regressions of the type (7) or (8) to
predict actual interest rate changes.
13.5.2 A duration vector
The price of a bond paying coupon is,
1 =
|

=l
C
_
1 1
|
_
|


(1 1
|
!
)
|
!
where sometimes a tax eect is modelled by,
1 =
|

=l
C (1 )
_
1 1
|
_
|


(1 1
|
!
)
|
!
[see Vasicek, O.A. and Fong, H.G. (1982), Term structure modeling using
exponential splines, Journal of Finance]. From this expression,
d1 =
|

=l
_
01
01
|
01
|
01
2non||
d1
2non||

01
01
|
01
|
01
3to:
d1
3to:
_
which can be seen to imply,
^1
1
= 1
l
^1
2non||
1
2
1
3to:
(60)
where,
1
l
=

|
=l
t

(a /)
|
C
_
1 1
|
_
|l
t
|
(a /)
|
!
(1 1
|
!
)
|
!
l
1
1
2
=

|
=l
t

/
|
C
_
1 1
|
_
|l
t
|
/
|
!
(1 1
|
!
)
|
!
l
1
which become equal to Macaulays modied duration in case the TSIR is
at and interest rate movements are of a parallel kind. This expression allows
us to anticipate the percent price change in a bond that can be expected from
changes in the two factors. That way a simulation of dierent scenarios can
be done, to estimate the change in the value of a bond that could be produced
under each one of them.
280
The results can be extended to a portfolio of bonds. The relative price
change caused on the portfolio by an interest rate movement can be estimated
using a portfolio duration calculated as a weighted average of the duration of
the bonds included in this portfolio, the weights being the percentage of the
total portfolio assigned to each bond. It can be easily shown that an expression
similar to (60) applies to changes in the market value of a portfolio, if durations
1
l
and 1
2
are dened as convex linear combinations of the analogue durations
for the individual bonds, each one weighted by the relative proportion that each
bond represents of total portfolio value.
Navarro an Nave provide an expression for the expected change in the market
value of a portfolio under the Pure Expectations Theory of the term structure,
that allows for testing for management quality in xed income portfolios,
^\ = \ (1) (1 1
1
)
1
__
H (a /)
1
1 1
1
1
l
_
^1
2non||

_
H/
1
1 1
1
1
2
_
^1
3to:
_
where H denotes the planning or investment horizon.
13.6 Cointegration analysis
On the one hand, since interest rates in almost all markets are integrated vari-
ables, we have to look at the vector of rates in a large number of maturities as
being a vector of (possibly) cointegrated variables. Hopefully, we might nd a
large number of cointegrating relationships and hence, a small number of com-
mon trends among the set of interest rates. If that is the case, then a long-run
investor only needs to care about the time behavior of the small set of common
trends. Each one of them will be a linear combination of the whole set of interest
rates, but still, the exercise reduces to updating the time series of those linear
combinations, and follow them.
A diculty is that to this point, maximum likelihood estimation of the
common trends has not yet been included in the standard statistical packages.
There is a way of recovering estimated trends using CATS in RATS.
13.7 Permanent components
The principal components technique is designed to nd factors explaining most
of the variance in a vector of time series. The factors are linear combinations of
the original variables. An advantage of the technique is that it is very simple to
implement. A drawback is that the obtained factors may not easy be interpret.
However, when we can nd an interpretation for them, the analysis may gain
in interest.
We start by identifying a vector of interest rates to summarize through their
principal components. To do so, we might have to start by estimating a term
structure. Once the TS has been estimated, we may select a vector of maturities,
and the associates interest rates form the vector of time series to analyze. It is
useful to start by computing correlations among changes in interest rates.
281
The principal components technique consists of computing the eigenvalues
of the variance matrix of the standardized variables. The eigenvectors associ-
ated to the eigenvalues (they are all positive) of highest size dene the linear
combinations to be used as principal components. It can be shown that the
proportion of variance in the original data set that each principal component is
able to explain is given by the size of the associated eigenvalue as a proportion
of the sum of all them.
In many international xed income markets has been obtained [DEcclesia, L.
and S.A. Zenios (1994) Risk factor analysis and portfolio immunization in the
Italian bond market, The Journal of Fixed Income, sept., p. 51-58, Navarro, E.
and J.M. Nave (1995) Anlisis de los factores de riesgo en el mercado espaol
de deuda pblica, Cuadernos Aragoneses de Economa, 5, 2, 331-341, Steeley,
J.M. (1990), Modelling the dynamics of the term structure of interest rates,
The Economic and Social review, 21, 4, 337-361] that three factors are enough to
explain most of the variance across the TSIR. Furthermore, their interpretation
is the same in all cases: the rst factor captures the general level of interest rates.
Changes in this component can be seen as parallel shifts in the TSIR. The second
component captures the slope of the TS, while the third component represents
the curvature of the TSIR, and describes changes in the concavity/convexity of
the TSIR.
This result has direct a bearing on immunization, suggesting that a standard
approach of choosing a portfolio having as duration the investment horizon pro-
duces a less than complete immunization, since it covers only the risk involved
in parallel shifts of the TSIR. Hence, the level of risk covered can be estimated
by the proportion of variance explained by the rst principal component.
The implication then is that a technique of vector immunization, covering
against multiple risk factors, should lead to improved results. One of the possi-
bilities that has been explored is to construct functions using the time series of
estimated parameters in an interest rate model like the one proposed by Nelson
and Siegel.
13.8 Open questions in the analysis of a term structure
Cuestiones abiertas Reducing dimensionality of volatility along the term
structure of interest rates
Volatility transmission along the term structure of interest rates
Term structure of volatilities
International linkages in the term structure of interest rates
International transmission of volatility
Forward rates as predictors of future short-term rates
According to the Expectations Hypothesis, forward rates should be unbiased
predictors of future (short-term) spot rates. However, not much eort has been
282
placed to actually test for the predictive ability of forward rates. From the
beginning, the statement was tested by tting regressions like,
r
n
|
= ,
0
,
l
)
n
|s,|
n
|
and testing the joint hypothesis,
H
0
: ,
0
= 0; ,
l
= 1
but....
The predictive ability of the term structure
The term structure has been found to contain some useful information re-
garding future business cycle activity. Initially, it was discovered that the spread
between a short and along-term rate could anticipate future output. Such a
spread, known as the term structure slope, was included as one of the indicators
in the index of leading economic indicators, and has been detected to contain
predictive ability in a variety of countries. This empirical result is quite strik-
ing, since it is a spread between nominal rates which is found to anticipate real
economic activity.
General equilibrium characterization of the term structure
Recently, there has been some eort to characterize a term structure of
interest rates in stochastic, general equilibrium economies. The idea is to analyze
simulated series for interest rates at dierent maturities, to discuss whether
they reproduce some of the regularities observed in actual interest rate data.
Some of the diculties with this exercise are: a) it is hard to solve for such
a set of interest rates, since the system easily becomes close to singular, b) to
obtain nominal interest rates, we need to use a monetary model, which may
be harder to solve. To this point, most of the work has been devoted to: 1)
explain dierences in volatility across the term structure [den Haan (19xx)], 2)
reproduce ARCH features present in actual interest rate data, 3) reproduce the
predictive ability that the term structure seems to contain with respect to the
business cycle [Dominguez and Novales (19xx)].
13.9 Permanent-transitory component decomposition
A short-term investor needs to also worry about the short-term uctuations
in interest rates. So, two issues arise: on the one hand, how to produce an
acceptable decomposition of interest rates in permanent-transitory components.
Secondly, whether transitory components show high correlations among them.
If that is the case, we will still be able to reduce the dimensionality of the
short-run fund manager.
283
13.9.1 Maximum-likelihood decomposition
13.9.2 Granger-Gonzalo decomposition
13.9.3 Decomposition based on principal component analysis
Surprisingly enough, permanent components are able to extract the (stochastic)
trend from a set of random variables. That means that, if we have a vector of
interest rates, and are able to characterize a small set of principal components
able to explain a large amount of the uctuations in interest rates, a (linear least-
squares) projection on the rst principal component is often enough to produce
a stationary residual [see Gourieroux (19xx)]. That is, each interest rate may
be cointegrated with the rst principal component. That is not surprising, from
how principal components are computed: the rst principal component is built
so that it captures a high proportion of the variance in the set of variables in
the vector. If they are not stationary, and share a single common trend, the
rst principal component will not be very dierent from that trend. That is
the case, in markets for interbank deposits, or euromarkets, where just 1-, 3-,
6- and 12-month rates are usually considered.
In markets where a wider set of maturities is traded, we may need to project
on the rst two or three principal components to produce stationary residuals,
but we might still be able to obtain that trend extraction property. This is a
very simple procedure to implement. Its drawback is that part of the stationary
component of the series is included in the component which is tted by the linear
combination of principal components estimated by the least-squares projection.
13.9.4 Tcnicas de cointegracin en el anlisis de Asset allocation
Vlidas para decisiones de inversin a largo plazo
Si las decisiones se toman en base a tendencias de largo plazo, no requieren
una actualizacin muy frecuente.
El anlisis de cointegracin trata de maximizar la estacionariedad y, con
ello, minimizar la varianza del tracking error. En contraste con el anlisis de
frontera eciente, en el que nada asegura que los tracking errors sean mean-
reverting.
Los modelos de benchmarking o de index tracking utilizan generalmente
regresiones con logaritmos de precios. La variable dependiente puede ser el
log de un ndice ms un pequeo incremento que equivalga a un % anual.
Las variables explicativas son los logs delos precios de los activos que pueden
incluirse en la cartera que sigue al ndice.
El problema tiene dos partes: a) seleccionar los activos, b) optimizar las
ponderaciones de la cartera. El primero es difcil. Opciones: fuerza bruta:
estimar muchos modelos con distintas combinaciones de activos y ver cul ajusta
mejor. Basarse en las preferencias de riesgo del inversor, o en las limitaciones de
inversin que se nos impongan. Segundo problema: Tcnicas de regresin, de
anlisis de series temporales multivariante, o de cointegracin. Si se construye
284
una cartera mediante regresin o cointegracin, as ponderaciones se normalizan
de modo que sumen 1, para ser ponderaciones de cartera.
En global asset management: primero, elegir los pases, y despus, comprar
o vender futuros sobre los ndices de los pases, o repetir el problema dentro de
cada pas, para obtener carteras de seguimiento de cada ndice.
En modelos de un slo pas: Primero, seleccionar los sectores; despus, se-
leccionar los activos dentro de cada sector.
Constrained allocations:
Ejemplos:
Seleccionar una cartera que invierte al menos un 50% en Espaa.
Fijar como rentabilidad benchmark la del SP100 ms un 5% anual
Construir un fondo corto-largo en 12 pases prejados, con un ndice
mundial como benchmark
Utilizar como variable dependiente, el ndice que se quiere replicar, menos
w-veces el precio del activo en el que se nos restringe a tomar una posicin del
w%. Si se nos exige una posicin en el activo no superior al w% el problema
es ms difcil. Primero, resolver el problema sin restringir, a ver si hay suerte:
satisface la solucin la restriccin?
Supongamos que no podemos tomar posiciones cortas. Si alguna ponderacin
es negativa, se ja en cero, y se vuelve a resolver, iterando de este modo. Conar
en alcanzar una solucin.
Seleccin de parmetros:
El modelo bsico de index tracking mediante cointegracin se dene en
funcin de ciertos parmetros:
Una rentabilidad alfa por encima de l ndice
El intervalo de datos diarios que se utiliza en la estimacin training
period
La relacin de activos en la cartera
Las posibles restricciones
Los parmetros se selecciona en base al resultado de pruebas dentro y fuera
de la muestra.
Dentro de la muestra:
Estadsticos ADF
Standarad error of regresin
Turnover
Testing period:
Tracking error variance: varianza delos errors de rplica diarios RMSE
Dierencial de rentabilidades entre la cartera y el ndice
Information ratio: (Mean daily tracking error)/(desviacin tpica del
daily tracking error) a lo largo del testing period
La decisin puede basarse sobre un alfa o sobre el nmero de activos
que queremos incluir en la cartera.
285
14 Principal components
14.1 The analytics of PCA
The principal components technique is used to reduce the dimensionality of a
large vector of variables under study That is the case, for instance, of a fund
manager who can invest in a number of markets, each of them made up by a
relatively large number of assets. It is impossible to keep track of the evolution
of all them, or make the kind of post-sample evaluation, via forecasting or
simulation, that would be needed for risk and portfolio management. Similarly,
it is almost impossible to maintain a portfolio that exactly matches a given
index, since its composition is changing continuously. Factor model techniques
are needed to try to nd a small number of factors that can be combined to
reproduce the uctuations in the market or index that is the object of the
investment strategy. Principal components is a technique that can be used to
characterize such factors.
Principal components are linear combinations of the original variables, so it
may not be very simple to interpret them. On the other hand, they have the
advantage that they are uncorrelated by construction. Therefore, each principal
component adds new information to the previous ones. Principal components
should be used with stationary variables, like returns or growth rates, rather
than prices.
Principal components are linear combinations dened by the eigenvectors of
the variance-covariance matrix of the variables whose information we want to
summarize by the set of factors. If the variables considered show very dierent
degrees of volatility, then the results of PCA (Principal Component Analysis)
will dier depending on whether we implement them on the covariance or on
the correlation matrix of the vector of returns. To avoid that the estimation
of PCs (Principal Components) might be dominated by the variables with the
highest variance, it may be then convenient to standardize the data rst.
It may be convenient to remember some of the main properties of the eigen-
vectors of a symmetric :r: matrix \ : i) an eigenvector r is an :-column vector
dened by the equation: \ r = `r, where ` is a real number, the eigenvalue asso-
ciated to r, ii) eigenvectors corresponding to dierent eigenvalues are orthogonal
to each other, i.e., their inner product is equal to zero, ii) the eigenvalues of
a positive denite matrix are all positive, iii) the sum of the eigenvalues of a
symmetric matrix is equal to its trace, i) the product of the eigenvalues of
a symmetric matrix is equal to its determinant, ) since the eigenvectors of a
matrix are dened up to a constant factor, we can multiply or divide them by a
given constant, or change their sign, and they will still be eigenvectors of \ for
the same associated eigenvalue. This also implies that they must be normalized
in a given manner. Some software programs (Matlab orders them from smallest
to largest) normalize them so that their euclidean norm is equal to one.
Suppose we have a data matrix A , Tr/ , with each variable in a column.
We assume we have standardized variables, so that each column has zero mean
and unit variance. PC analysis is based on eigenvalues and eigenvectors of the
286
covariance/correlation matrix \ = A
0
A,T, /r/. Let \ be the /r/ matrix
having as columns the eigenvectors of \. Then, the eigenvectors and eigenvalues
can be arranged so that,
\ \ = \A
where A is the diagonal /r/ matrix of eigenvalues of \, `
I
, i = 1, 2, ..., /. The
sum of the eigenvalues of \ is equal to the trace of \ . But, with orthogonalized
variables, tracc(\ ) is equal to the number of variables /, since \ has ones along
its main diagonal. Suppose that the eigenvalues that make the columns of
\ have been ordered according to the size of the eigenvalues of \ , which
are the elements in the diagonal of A, where we assume `
l
`
2
... `
|
.
Whenever we use some software to compute the eigenvectors and eigenvalues of
a given matrix, we must pay attention to whether they are given back to us in a
specic order. Since the eigenvectors corresponding to dierent eigenvalues are
orthogonal to each other (their scalar product is equal to zero), if the Euclidean
norm has been used, then \ is an orthogonal matrix : \
l
= \
0
.
The i-th PC is dened by:
1
I
= n
lI
A
l
n
2I
A
2
... n
|I
A
|
= An
I
a linear combination of the columns of A, i.e., a linear combination of the
original variables, with weights given by the components of the i-th eigenvector
of matrix \ , i.e., the i-th column of matrix \. The matrix of time series data
for all PCs is,
1 = A\ (61)
The dierence between \ and 1 is that matrix \ is /r/, and each column
contains the weights that characterize the linear combination that denes the
corresponding eigenvector. On the other hand, matrix 1 is Tr/, and it contains
time series observations for all the principal components.
We also have:
1
0
1 = \
0
A
0
A\ = \
0
T\ \ = T\
l
\A = TA
a diagonal matrix. This shows that:
The time series data for the Principal Components are uncorrelated,
The variance of the i-th Principal Component is equal to `
I
.
According to the propositions above for the principal components, the sum of
the eigenvalues is equal to the sum of variances of the variables in A :

|
=l
`

=

|
I=l
\ ar(r
I
). Hence, the proportion of the variance of the vector A that is
explained by the i-th Principal Component is `
I
,

|
=l
`

. With standardized
variables, that proportion is equal to `
I
,/. If the original variables are highly
correlated, the rst PC, related to the largest eigenvalue, will be signicantly
287
larger than the other eigenvalues, and it will explain a high percentage of the
joint variability.
Since \
0
= \
l
, equation (61) is equivalent to:
A = 1\
0
i.e.,
A
I
= n
Il
1
l
n
I2
1
2
... n
I|
1
|
so that each variable in the original system can be written as a linear com-
bination of the set of PCs. For instance, variable i-th, whose data occupied the
i-th column in matrix A , can be reproduced by the expression above, forming
a linear combination of all the Principal Components with weights given by the
elements of the i-th row of matrix \. This is known as the rcjrc:c:tatio: of
the original vector of variables as a function of PCs.
This representation makes easy to compute the variance-covariance matrix
of A, since, as we have seen, the covariance matrix of 1 is A. Therefore:
\ ar(A) = \\ ar(1)\
0
= \A\
0
All this just reects the fact that Principal Components are a linear trans-
formation of the data. This transformation can also easily be inverted, to re-
produce the data as a function of the time series for the Principal Components.
There are therefore as many Principal Components as variables in the original
information set, and both sets of variables, those in A and the set of Principal
Components, jointly considered, contain exactly the same information.
But the reason why we construct Principal Components is because provided
there is enough correlation among the original data set, then a few Principal
Components will be able to capture a large proportion of the uctuations over
time by the whole set of original variables. Suppose we decide to choose the rst
: principal components (: << /) because `
n
,

|
=l
`

is suciently small. The


vector made up by these : principal components associated to the : largest
principal components will contain less information than the variables in A , but
the idea is that we may not lose much information while reducing signicantly
the number of variables to consider.
14.2 Exercise: Principal components analysis of a set of
interest rates
Example: Consider the set of interest rates contained in lo_tijo:.jr:. This
is daily data from January 5, 1995, to December 31, 1997 on interest rates at
maturities: 1-, 3-, 6- and 12-months, and 2-, 3-, 4-, 5-, 7- and 10-years. When
the original data is a set of variables similar in nature, as in this case, the need
to transform them into stationarity or to standardize them is not so important.
So, we are going to analyze the data without any transformation in spite of the
fact that the interest rates are not stationary:
288
0 100 200 300 400 500 600 700 800
4.5
5
5.5
6
6.5
7
7.5
8
8.5
Interest rates: January 1995 - December 1997
As we can see, interest rates at dierent maturities ten to move together,
but they also exhibit notorious dierences. The slope of the term structure
remained positive along the sample period (the red line is the 10-year interest
rate, and the blue line at the bottom of the graph is the 1-month rate). The
slope narrowed initially and then rapidly increased, to decrease again towards
the end of the sample period. The variances of the dierent interest rates are:
0.0596; 0.0667; 0.1027; 0.2029; 0.2863; 0.2914; 0.2809; 0.2693; 0.2535; 0.2344.
The sum of all them is 2.0478. The eigenvalues of the variance covariance
matrix of interest rates are: 0.0000, 0.0000, 0.0001, 0.0002, 0.0003, 0.0009,
0.0031, 0.0184, 0.1448, 1.8799, that also add up to 2.0478. It is not very good
that some of these eigenvalues are essentially zero. That says that some of the
interest rates are redundant, i.e., they can be generated as linear combinations
of other interest rates in the vector. This is not strictly true, but there is
so much correlation among the ten interest rates, that the variance-covariance
matrix becomes singular. The singularity would not be so obvious if we had
transformed the interest rates as suggested at the beginning of this section.
Therefore, the rst principal component explains 91,8% of the variance of
the vector interest rates, the rst two together explain 98,9% of that variance,
and the rst three explain 99,8%. We will retain just these rst three principal
components. They are dened by the weights given by: PC1: (0.0629, 0.1169,
0.1997, 0.3175, 0.3879, 0.3926, 0.3851, 0.3759 0.3614 0.3418) in blue; PC2: (
-0.5735, -0.5254, -0.4315, -0.2603, -0.0332, 0.0550, 0.111, 0.1518, 0.2078, 0.2414)
in green; PC3: ( 0.4297 0.1733 -0.0601 -0.3816 -0.3917 -0.2251 -0.0463, 0.1041
0.3024 0.5724) in red:
289
1 2 3 4 5 6 7 8 9 10
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Weights defining the first three principal components
First PC
Second PC
Third PC
that have the standard interpretation of capturing the general level of interest
rates, the slope of the term structure, and its curvature.
Once we limit our attention to a few principal components, three in this
case, we can only recover the data from them as an approximation, since we
are missing 0,2% of the information in the original data set. For instance, the
comparison between the shortest maturity interest rate and the approximation
we would get from the rst three principal components:
290
5.5 6 6.5 7 7.5 8 8.5
5.5
6
6.5
7
7.5
8
8.5
1-month interest rate versus reconstructed data from 3 principal components
although the ability to replicate interest rates at the longest maturities is
more limited,
5.4 5.5 5.6 5.7 5.8 5.9 6 6.1 6.2 6.3
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
6
6.1
6.2
10-year interest rate versus reconstructed data from 3 principal components
due to the fact that there were many days in the sample in which the 7-year
and the 10-year interest rate did not change. There is not much we can do
about that. These approximations have been obtained multiplying the Tr10
data matrix by the last three columns of \ (since in Matlab eigenvalues and
291
eigenvectors are ordered from smallest to largest), transposed to form a 8r10
matrix:
A = (1
S
1
9
1
l0
) + (\
S
\
9
\
l0
)
0
(62)
The last three columns of \ give us the 3 betas for each interest rate as
a function of the three chosen principal components. As a matter of fact, the
same approximation to the original data as we have described from the product
matrix can be obtained by least square, estimating a regression of each interest
rate on the three chosen principal components. The estimated coecients will
not exactly coincide with the regression coecients, but the tted time series
from the regression and the time series recovered from the matrix product above
will have a correlation of 1.0.
There are many uses of the principal component representation. Let us
describe the main one, regarding portfolio/risk management in xed income
market. Suppose we have a portfolio in such market with 50 bonds in it. We
know the current market value of the portfolio 1
T
, but we want to gure out the
possible evolution of that price in the horizon of / days, that is, between T and
T /.To do so,we must have an idea about the possible values of the discount
function at T /. We will need to discount all the cash ows remaining at
T / and that can be a number signicantly higher than the number of bonds.
Suppose that at T / there will be 300 cash ows to be paid on the portfolio
bonds. The maturities will easily be arbitrary: 13 days, 56 days, 86 days, 143
days, and so on. We assume that the cash ow paying the farthest away is less
than 10 years.
We start from the interest rate database that we have analyzed and for which
we have already characterized three principal components as explained above.
We assume these were zero-coupon interest rates. Now, we have to gure out
what evolution these principal components may follow between T and T /.
Once we do that, the same representation (62) will allow us to get the expected
evolution for the 10 interest rates, by doing:
^A = (^1
S
^1
9
^1
l0
) + (\
S
\
9
\
l0
)
0
Suppose we consider a rst scenario in which the monetary authority cuts
down the intervention interest rate by 25 basis points as a consequence of which
the slope increases by 10 basis points, with no change in curvature. The implied
changes for the dierent maturities would be:
32
32
That may happens because the short term rate comes down by 25 basis points while the
longest end of the term structure decreases by only 10 basis points.
292
1 2 3 4 5 6 7 8 9 10
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
Implied changes across the term structure
We have solved the rst stage of the analysis. Now we have to take into
account that we have an scenario at T / for interest rates at xed-maturities,
but what we really need is an scenario for the discount function. One possibility
would be to interpolate on the previous graph over the maturities, to have the
predicted change in the discount function at each possible maturity. But this
could be computationally complex. It might be easier to do the following. We
t a polynomial to each of the principal component betas. For each principal
component, we have a beta for each interest rate, for a total of 10 betas. That
is not a lot of data, but we can t a third order polynomial, for instance:
293
1 2 3 4 5 6 7 8 9 10
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Level betas and fitted betas
Betas
Fitted betas
1 2 3 4 5 6 7 8 9 10
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Curvature betas and fitted betas
Betas
Fitted betas
with an analogous curve for slope betas. Notice that the horizontal axis
describes the maturities from 0 to 10-years. So, if we are given a 734 days cash
ow, say, we can nd the betas for that maturity. All we need to do is to use
294
the estimated regression coecients, that were:
, =
_
_
_
_
_
_
Level Slope Curvature
Constant 0.0840 0.042 0.2602
,
J
0.211 0.880 0.108
,
S
0.0422 0.046 0.1888
,
c
0.0028 0.0027 0.0070
_
_
_
_
_
_
(63)
and the product ,
n
= ,
0
' where ' = (1, :, :
2
, :
3
)
0
will give us the
8-vector of betas ,
n
for maturity :. All we need to do is to keep in memory
the vector of 300 maturities, from which we can immediately construct a 4r800
matrix ' generalizing the '-vector above, and premultiplying by ,
0
, we have
a 8r800 matrix of betas, a 8-vector for each of the 300 maturities. That way
we would obtain a value for each zero coupon rate at each maturity, and the
discount factor is obtained as usual: d
n
= (1 r
n
)
l
.
The nal stage relates to constructing the scenarios for T /. There are
essentially two possibilities: i) to write down a number of r scenarios, similar to
the one we described above. They would try to capture the dierent alternatives
for monetary policy or for market uctuations we consider reasonable for the
next / market days. Next, we have to assign a probability to each scenario,
reecting the likelihood we associate to each one. This could be by assigning a
weight to each scenario and dividing each weight by their sum. That way, we
get something looking like probabilities. Since each scenario will be dened in
terms of a given change in level, in slope and in curvature of the term structure,
we cold follow the steps above to translate each scenario into an implied change
for the vector of 300 discount factors.
The alternative procedure consists of ii) modelling the time series evolu-
tion of each xed-maturity interest rate. This could be made with univariate
processes or in a multivariate fashion. Unfortunately, working with a multi-
variate process for 10 variables is going to be rather complex. The principal
components may help, by specifying processes describing the time evolution of
the three principal components. Not only we have a shorter number of vari-
ables, but also, since they are uncorrelated, we do not gain anything by tting
multivariate model. Hence, we can t a univariate model to each principal com-
ponent, and then run a large number of simulations, 5000 say, for each one of
them. That would give us an empirical density for each principal component
at time T /. Suppose we take the estimated mean value for each one of those
densities at T /. The principal component betas would give us the implied val-
ues for the 10 interest rates, and the ,-matrix representation above (68) would
give us the values for the 200 discount factors. Of course, we could have taken
the median values for the components at T /, or we could also compute some
kind of VaR market price of our portfolio by taking some extreme percentiles of
each density in the direction of a decrease in the portfolio market price.
If we work with standardized interest rates, the eigenvalues are: ( 0.0001,
0.0001, 0.0003, 0.0008, 0.0030, 0.0069, 0.0255, 0.1061, 1.6868, 8.1703), so that
one of them is zero, even though some are small, relative to the largest one. The
295
rst component explains 81,7% of the uctuation in the vector interest rate, the
rst two components explain 98,6%, and the rst three explain 99,5% of that
joint variance. These three components can be characterized by their weights:
1 2 3 4 5 6 7 8 9 10
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Weights defining the first three principal components
which are not all that dierent from the ones we obtained without standard-
izing the original variables. Now we could proceed with the same procedure we
explained above.
Standardized data A are obtained from original data A

through,
A = (A

)1
l
where 1 is the diagonal matrix of standard deviations of original variables
in A

. Then, we would have for standardized data:


(A

)1
l
= 1\
0
so that the nal representation of the original variables as a function of PCs
is:
A

=

A

1\
0
1
which is expression that allows us to recover the original data from the
permanent components estimated for standardized data.
Two more observations:
Stationarity would have suggested to work with daily dierences in interest
rates. The rst principal component then explains only 62.9% of the joint
variance in interest rate changes. This is a consequence of daily changes
being far more volatile than interest rate levels. The rst two components
296
explain 86,7% of the variance in daily changes in interest rates, and the
rst three components explain 94,6%.
A completely dierent approach could consist of estimating a given ana-
lytical model for the zero coupon curve, like the Nelson_Siegel model. If
we estimate the model with daily data for a given period, we would have
time series for each of the parameters in the model, and a multivariate
model (there are 4 parameters in the Nelson-Siegel model) could help us
to simulate their behavior or to predict their values at the desired horizon.
Using the predicted values (or the mean values for each parameter from
its empirical density if we have a run a large number of simulations) we
could directly compute the zero coupon discount rate and then the dis-
count factor at each maturity for which a bond in the portfolio is supposed
to pay coupon after T /.I this case, we would be taking as risk factors
the parameters in the Nelson-Siegel model. But they will not be uncorre-
lated, so care must be paid when running the simulations to preserve the
correlation structure observed in actual data.
14.3 An alternative presentation of PCs:
The PCs of a vector of returns r are linear combinations like:
j = n
0
r
with covariance matrix: \ ar(j) = n
0

:
n. We want to obtain uncorrelated
linear combinations with the largest possible variance. Since that could be
articially obtained by increasing the norm of vector n, we restrict our attention
to vectors n with n
0
n = 1, and consider:
'ar n
0
l

:
n
l
:n,cto a : n
0
l
n
l
= 1
with Lagrangian: 1(n
l
, ) = n
0
l

:
n
l
(n
0
l
n
l
1)
and optimality conditions:
01
0n
l
= 2
:
n
l
2n
l
= 0
01
0
= n
0
l
n
l
1 = 0
so that n
l
should satisfy:

:
n
l
= n
l
then being an eigenvector of the sample covariance matrix
:
, while the
Lagrange multiplier is the eigenvalue associated to that eigenvector.
297
Multiplying through the previous equation by n
0
l
, we have,:
n
0
l

:
n
l
= n
0
l
n
l
=
so that n
0
l

:
n
l
is maximized by taking as vector n
l
in the linear combina-
tion the eigenvector associated to the largest eigenvalue of
:
: = `
l
.
The second PC will also be a linear combination of returns in r , n
0
2
r,
uncorrelated with the rst PC. With standardized variables,
Co(n
0
l
r, n
2
r) = n
0
l

:
n
2
= n
0
l
rr
0
n
2
Transposing, we have:
Co(n
0
l
r, n
2
r) = (rr
0
n
2
)
0
n
l
= (
:
n
2
)
0
n
l
so that the covariance between both linear combinations will be equal to zero
if n
2
is chosen so that (
:
n
2
)
0
n
l
= 0. Suppose we take as n
2
an eigenvector
of
:
dierent from n
l
. Its associated eigenvalue ` will satisfy:
:
n
2
= `
2
n
2
,
and the previous equation becomes:
0 = (`
2
n
2
)
0
n
l
= `
2
n
0
2
n
l
which we know it holds, since eigenvectors corresponding to dierent eigen-
values are orthogonal to each other.
Hence, if we want to solve the optimization problem:
'ar n
0
2

:
n
2
:n,cto a : n
0
2
n
2
= 1
n
0
2
n
l
= 0
we need to choose as vector n
2
an eigenvector of
:
, dierent from n
l
, to
maximize the quadratic form n
0
2

:
n
2
. But,
n
0
2

:
n
2
= n
0
2
(`n
2
) = `n
0
2
n
2
= `
which will take its highest value if ` is the second eigenvalue of the variance-
covariance matrix (and correlation matrix because of the standardization)
:
.A
similar argument would lead to the remaining PCs of vector r.
14.4 First applications of principal components
14.4.1 Risk decomposition
Suppose we need to estimate the covariance matrix of a large vector :x1 of
interest rates. The representation of each interest rate as a function of a set of
principal components can be written is,
r

I|
= n
Il
j
l|
... n
I|
j
||
298
with r

I|
being the standardized version of r
I|
, r

I|
=
:1t :1
c1
, o
I
=
_
\ ar(r
I
).
In terms of original variables, we will have,
r
I|
= n

Il
j
l|
... n

I|
j
||
n
I|
where n

I
= n
I
o

and where the error term indicates the approximation


error when we take a subset of / of the : PCs.
Since PCs are uncorrelated, their variance-covariance matrix is,
\ = \

1\
0

u
where \ is the variance-covariance matrix of the : interest rates, \

is the :r/
matrix of weights, n

I
, 1 is the /r/ diagonal matrix of standard deviations of the
principal components, and
u
is the covariance matrix of approximation errors
not necessarily diagonal. The latter can be reduced by increasing the number
of PCs considered in the representation of interest rates, and it is standard to
ignore it in the previous expression
This estimation of the variance-covariance matrix of interest rates may turn
out to be positive semidenite, if we take a number of PCs lower than the
number of original variables. However, the big advantage is that we just need
to estimate / variances, rather than :(: 1),2 variances and covariances.
In the decomposition above, \

1\
0
represents the systematic risk in the
set of assets, due to the uncertainty in the future evolution of the principal
components, while
u
represents the size of idiosyncratic risk.
14.4.2 An application to stock market management
A similar argument can be applied to solve the asset allocation problem in stock
markets. Let us consider a vector time series of international stock market
indices, on which a manager would like to diversify his/her position. It is in
itself interesting to analyze how much uctuation in the markets it is common
since, at a dierence of the TSIR, it is far from obvious that comovements may
be very important. Once again, even though the linear combinations that arise
as factors may not be easy to interpret, we may get a nice discussion when we
succeed in doing so. A specic market index, or the spread between two markets
may be some of the principal components arising in this analysis.
Once the components have been characterized, it is clear that a manager
investing in them will be capturing the uctuation in the markets he/she was
planning to invest. notice that each component can be considered as a portfolio.
In this case, it will be a portfolio of index portfolios, but our same argument
would apply to choosing a portfolio in a given stock market.
An equal weight portfolio might run into important redundancies, thereby
producing an inecient solution to the asset allocation problem. An interesting
empirical exercise has to do with following the performance of a portfolio which
diversies among the components, in relation to the performance of the portfolio
which is allocated equally among the indices. Not even the diversication among
the components is obvious, since we might want to invest more heavily in the
299
rst component than in the second, more in this than in the third component,
and so on.
A dierent question relates to the construction of a market index. It is a
standard practice that stocks are weighted by capitalization to produce a market
index. That implies that in some markets like the Spanish, ve or six assets
represent 85% of the market index. However, that does not mean that investing
in these assets is an ecient strategy, and it might be better to invest in the
portfolio dened by the rst principal component, or to diversify between the
portfolios dened by the rst two or three components.
14.5 Present value of a basis point: PV01
A preliminary concept is c01, the basis point sensitivity of the discount factor,
dened as,
c01
|
=
1
(1 1
T
.01)
T

1
(1 1
T
)
T
where we initially assume T to be an integer number of years. c01 will
usually be less than 10 basis points, it increases with maturity and the increase
is more pronounced for low levels of interest rates.
The present value of a basis point measures the absolute change in the value
of a cash ow sequence because of a fall of on basis point in the yield curve
(term structure):
1\ 01(C, r) = 1\ (C, r

) 1\ (C, r)
where 1\ (C, r) denotes the present value of the cash ow sequence C (a
/x1 vector), and r is the discount rate vector, while r

= r (.01/)1
|
.
For a single bond, PV01 is very similar to the standard duration, which is
the change in present value of the bond per unit change in the bond yield. There
are two dierences:
1. In general, the PV01 is the exact cash ow sensitivity to a parallel shift in
the zero coupon yield curve, whereas duration is just an approximation.
Both concepts coincide just if a shift in the zero coupon curve caused the
yields on all the bonds in the portfolio to change by the same amount,
which is very unlikely.
2. Duration cannot be extended to cover all interest rate sensitive instru-
ments. For instance, it cannot apply to negative cash ows.
Then, the present value of a basis point of a cash ow C
T
at time T can be
obtained by multiplying the cash ow by the change in the discount factor as a
consequence of the change of one basis point in interest rates:
1\ 01
T
= C
T
.c01
T
300
and for a cash ow sequence,
1\ 01 =
|

I=l
C
T1
.c01
T1
Exercise III.1.18: A bond with nominal 1 million pounds, that pays a 6%
coupon until maturity, 4 years from now, trades at 103.62, exactly one year
from the next coupon. Current zero coupon rates at 1, 2, 3 and 4 years are
4.50%, 4.75%, 4.85% and 5.00%, respectively. Compute the present value
of a basis point for this bond and compare it with Macaulays duration.
Solution: The PV01 is 36,312.75, which will be the prot made by the
holder if zero coupon rates decrease by one basis point at all maturities.
The increase in price will be from the current 103.6216 to 103.6579. The
yield (internal rate of return) of the bond is 4.9796%, and the value dura-
tion, which approximates the change in the price of the bond, is 36,326.59.
14.5.1 Approximations to PV01
Let us derive a rst order (linear) approximation to c01 and hence, from that,
an approximation to 1\ 01. If T is an integer number of years, the discount
factor is c
T
= (1 1
T
)
T
and so,
c01
T

dc
T
d1
T
10
d
= T(1 1
T
)
(Tl)
10
d
This is for a single basis point change. If there is a change of : basis points,
this expression must be multiplied by :.
Then, a useful approximation to the 1\ 01 of a cash ow C
T
at time T when
T is an integral number of years is:
1\ 01
T
- TC
T
(1 1
T
)
(Tl)
10
d
When T is less than a year,
c
T
= (1 T1
T
)
T
=c01
T
T(1 T1
T
)
2
10
d
Sometimes, continuously compounded interest rates are preferred. It pro-
vides approximated expressions for 1\ 01 valid for any maturity. The continu-
ously compounded discount factor is,
c
T
= oxp(r
T
T)
with r
T
being the continuously compounded rate of interest at maturity T.
Thus,
c01
T

dc
T
dr
T
10
d
= T oxp(r
T
T)10
d
= Tc
T
10
d
and therefore, the approximation to the 1\ 01 for a cash ow at any maturity
under continuous compounding is:
301
1\ 01
T
- TC
T
oxp(r
T
T)10
d
Exercise III.1.19: Compare the exact and the approximate values for 1\ 01
in a cash ow that has been mapped to vertices 1 and 2 years, with 10
million euros mapped to the 1-year vertex and 5 million euros mapped to
the 2-year vertex. Suppose current zero coupon rates at 1 and 2 years are
4.00% and 4.50%, respectively. R: The exact PV01, calculated from the
change of a 1 basis point in the discount factor is 1801,07 euros, while
the approximate PV01, calculated from the expression introduced in this
section, is 1801,85 euros.
14.5.2 Interest rate risk
Let us think of today as time zero: t = 0 Today, we can use current zero coupon
rates to compute the current present value of a cash ow C
T
, to be paid at time
T. There is no uncertainty involved in that. We also know for certain what the
present value will be at maturity. But the present value at any intermediate
time t between today (t = 0) and maturity, t = T, is uncertain today because
of uncertainty on:
by how much the discount rate might change, and
how sensitive is the present value to changes in the discount rate
To answer the rst question we need a measure of variance for the discount
rate. To answer the second, we use the concept of present value of one basis
point.
The best forecast of the appropriate discount rate at time t is the forward
zero coupon rate 1
|,T|
, starting at time t with maturity T t. We calculate
today using current interest rates. Todays expected discounted value of C
T
at time t is C
T
times the appropriate discount factor, based on this forward
rate. The sensitivity of this time t value to movements in the forward rate is
measured by the 1\ 01, that is approximately given by the expression above,
for T t maturity. Assuming both are integer numbers,
1\ 01
|,T
- (T t)C
T
(1 1
|,T|
)
(T|l)
10
d
The interest rate risk of a cash-ow of C
T
refers to the uncertainty about the
discounted value of this cash ow at some future time t. Assuming that changes
in that rate are independent and identically distributed, the t-period standard
deviation of the forward rate, can be obtained by using the square-root rule:
_
to
|,T|
.
The standard deviation of the future discounted value above is the product
of both quantities. With continuously compounded forward rates:
o(1\
|
) = 10
d
_
to
|,T|
(T t)C
T
oxp[(T t))
|,T|
[
302
14.5.3 Summary of expressions
Discrete compounding Continuous compounding
Discount factor c
T
= (1 1
T
)
T
c
T
= oxp(r
T
T)
Interest rate sensitivity c01
T
T(1 1
T
)
(Tl)
10
d
c01
T
T oxp(r
T
T)10
d
= Tc
T
10
d
PV of one basis point for C
T
1\ 01
T
- TC
T
(1 1
T
)
(Tl)
10
d
1\ 01
T
- TC
T
oxp(r
T
T)10
d
Expected PV of C
T
at t 1\ 01
|,T
- (T t)C
T
(1 1
|,T|
)
(T|l)
10
d
1\ 01
|,T
- (T t)C
T
oxp[(T t))
|,T|
[
14.6 Applications of Permanent Components to Fixed In-
come management
Example II.2.1: Principal Component factor model for a UK bond portfolio
(http://www.bankofengland.co.uk/statistics/yieldcurve/index.htm).
A portfolio of UK government bonds has been mapped to interest rates at
maturities 1 year, 2 years,..., 20 years. The cash ow over 20 years is given. We
are supposed to build a PC factor model for this portfolio. Remember that the
change in price of a bond can be approximated by the change in interest rate
at each relevant maturity, multiplied by the present value a one basis point at
each of those maturities:
1
|
1
|l
=
n

I=l
1\ 01
I
(1
I,|
1
I,|l
) =^1
|
=
n

I=l
1\ 01
I
^1
I,|
that is, in matrix notation:
^1
|
= 1\ 01
0
^1
|
where 1\ 01 denotes the vector of present values of a one basis point at each
maturity.
But once we construct the Principal components, we can approximate the
change in each interest rate as a function of changes in the factors (the principal
components in this case):
^1
I,|
= n
Il
1C
l|
n
Il
1C
2|
... n
I|
1C
||
so that,
^1
|
=
n

I=l
1\ 01
I
_
_
|

=l
n
I
1C
|
_
_
=
|

=l
_
n

I=l
1\ 01
I
n
I
_
1C
|
=
|

=l
,

1C
|
(64)
with the beta on each Principal Component being dened by,
,

=
n

I=l
1\ 01
I
n
I
(65)
303
Coming back to the example, we can use this expression to compute the
sensitivities of the Prot&Loss of the portfolio to the PCA factors:
1\1
|
L=61.821C
l|
L=104.401C
2|
L=101.11C
3|
that represent the approximate change in price as a change of any given
magnitude in each Principal Component. If we have interpreted the PCs as the
general level in interest rates, the slope of the term structure and its curvature,
we can compute the expected change in the nominal value of the portfolio of
say, 25 basis points increase in interest rates, coming together with a 15 basis
points reduction in slope and no change in curvature, for instance.
Example II.2.2: Factor model for currency forward positions:
At time t we face a sequence of foreign currency payments (C
l
, ..., C
n
) at
future times (T
l
, ..., T
n
). Let us denote by ^1
J
|
the change in the present value
of the entire sequence of cash ows in domestic currency when the domestic
interest rates change by amounts:
^1
J
|
= (^1
J
l|
, ..., ^1
J
n|
)
Then,
^1
J
|
=
n

I=l
1\ 01
J
I
^1
J
I|
where 1\ 01
J
I
is the 1\ 01 sensitivity of the cash ow in domestic currency
at maturity T
I
. Similarly,
^1
}
|
=
n

I=l
1\ 01
}
I
^1
J
I|
(66)
is the change in present value of the sequence of payments in foreign currency
when the domestic interest rates change.
If o
|
denotes the domestic foreign exchange rate, then: 1
J
|
= o
|
1
}
|
, so that
taking logs and dierencing over time, we get: 1
J
|
1
s
|
1
}
|
, where 1
J
|
is the
return on the cash ow in domestic currency, 1
}
|
is the return on the cash ow
in foreign currency, and 1
s
|
is the return on the spot exchange rate.
Now we can approximately decompose the risk on a sequence of foreign
currency forward payments into exchange rate and interest rate risks:
\ ar(1
J
|
) \ ar(1
s
|
) \ ar(1
}
|
) 2Co(1
s
|
, 1
}
|
)
However, although the exchange rate risk is dened in terms of the variance
of returns, the interest rate risk is dened in terms of the variance of the P&L
position, and not the variance of returns. But we can rewrite the previous
expression:
\ ar(^1
J
|
) =
_

1
J
_
2
\ ar(1
s
|
)

o
2
\ ar(^1
}
|
) 2

1
J

oCo(1
s
|
, ^1
}
|
)
304
where

1
}
,

1
J
denote the present values of the cash ows in domestic and
foreign currencies respectively, and

o is the exchange rate at the time the risk
is measured. Thus

1
}
,

1
J
and

o are xed. The terms on the right hand side
are quadratic forms based on covariance matrices of a very large number of
dierent domestic interest rates. In the next example, we consider a schedule
of 60 monthly foreign currency payments, so \ ar(^1
}
|
) would be calculated
from a quadratic form with a 60r60 covariance matrix, while Co(1
s
|
, ^1
}
|
)
would have 60 components. These would clearly be very painful to compute.
Assuming that the currency is very liquid so that the forward prices are close
to their fair value, Principal Components are very helpful:
1. We start by using the term structure of interest rate form each country to
compute the present value of the sequence of cash-ows. We can use the
exchange rate to write the two present values in the domestic currency.
They will not be equal to each other, since we have used a dierent term
structure to compute them.
2. For the second term, we want to compute the variance of the price of the
portfolio at the foreign currency. Hence, we compute the 1\ 01 in the
foreign currency at the dierent maturities and use them, together with
the structure of the Principal Components, to obtain the betas for the
portfolio of cash ows as in (6) . Then, (64) would allows us to compute
the variance of the change in the price of the portfolio from the variance
of each Principal Component (i.e., its eigenvalue) and the betas we just
obtained.
3. The rst term is easy: we compute the volatility of the exchange rate in
our sample, and multiply it by the price of the portfolio (sequence of cash
ows) at the domestic currency.
4. For the last term, we need the Covariance between daily returns on the
exchange rate and portfolio price changes in the foreign currency. These
changes can be approximated from (66) . To compute Co(1
s
|
, ^1
}
|
) we
will use the representation of ^1
}
|
as a function of the three Principal
Components. We have: ^1
}
|
=
n

I=l
1\ 01
}
I
^1
J
I|
together with ^1
J
I,|
=
n
Il
1C
l|
n
Il
1C
2|
... n
I|
1C
||
.The two expressions together, lead
to ^1
}
|
=

|
=l
,

1C
|
, so that: \ ar(^1
}
|
) =

|
=l
,
2

\ ar(1C
|
) and
Co(1
s
|
, ^1
}
|
) =

|
=l
,

Co(1
s
|
, 1C
|
). So, we rst compute the co-
variance between the time series for each Principal Component and the
returns on the exchange rate. Each such covariance is multiplied by the
corresponding portfolio beta, ,

=

n
I=l
1\ 01
}
I
n
I
, and we add the ob-
tained products. Finally, that covariance is multiplied by the exchange
rate and the present value of the cash ow sequence, in the domestic cur-
rency.
305
Example II.2.2: Let us suppose that a UK renery has purchased crude oil
in the US paying in US dollars through futures contracts, so that there is no
commodity price risk. However, some other risks remain: i) exchange rate risk,
arising from uncertainty on the sterling value of future payments in dollars, ii)
interest rate risk, arising from the change in present value of the sterling cash
ows, iii) the correlation risk, arising from the correlation between UK interest
rates and the sterling-dollar exchange rate (see exchange rate data and interest
rate data in http://www.bankofengland.co.uk/). We assume the UK company
has forward payments of $1 million on the 5th of every month over the next 5
years.
We rst approximate the change in present value of the sequence of pay-
ments in foreign currency when the domestic interest rates change: ^1
$
|
=
8.22481C
l|
12.01201C
2|
0.81011C
3|
and use this expression to obtain:
\ ar(^1
$
|
) = 44, 68, which we need to estimate: 1111o1 =
_
20

o L=6, 64.
The 250 factor is used because of dealing with daily data. The volatility of the
exchange rate is obtained as
_
20\ ar(1
s
|
),and the foreign exchange risk is
obtained multiplying the previous volatility by the present value of the cash-
ow in the domestic currency: 1A 11o1 = L=2, 118, 847. For Correlation
risk, we use expression Co(1
s
|
, ^1
}
|
) =

|
=l
,

Co(1
s
|
, 1C
|
), introducing
again a 250 factor, and multiply the covariance estimate by the present value of
the sequence of cash ows in the domestic currency and by the exchange rate.
The result is Corrc|atio: 1i:/ = L=71, 024. Finally, TOT1 11o1 is equal to
L=2, 110, 48, most of it explained by exchange rate risk.
Example II.2.3: PCA factor models for crude oil (commodity) futures
Example II.2.4: Bond portfolio immunization. Data from Example II.2.1.
Let us now see how to immunize a portfolio against the main sources of risk in
the term structure of interest rates. We assume the risk factors are appropriately
summarized by the rst three principal components. We now ask the question
of how much of the 10-year bond should we add so that the new portfolio
Prot&Loss is invariant to changes in the rst principal component. We take
this as an approximation to the immunization of the sequence of cash-ows
against parallel shifts in the term structure. As shown in the spreadsheet, we
need a negative cash ow of L=-44,224,695 at 10-year maturity, which amounts to
taking a short position of L=-2,716,474, that is, selling now this nominal amount
of the 10-year bond. With this strategy, we get the factor risk model:
1\1
|
L=1248.801C
2|
L=82.881C
3|
The choice of maturity is arbitrary, so long as there is a bond instrument
that can be traded.
Now we could ask which positions should we add in the 5- and 15-year
bonds to immunize the cash-ow sequence against changes in slope of the term
structure. We will need to take positions at two dierent maturities to achieve
that hedge. The answer is a negative cash ow of L=-7,369,609 at the 5-year
maturity, and a long position of L=4,725,167 at 15-year maturity, which amount
to selling now L=-5,938,242 of the 5-year bond, and purchasing L=2,451,747 of the
306
15-year bond. With these added positions, the risk factor model becomes,
1\1
|
L=801.11C
3|
and we could additionally nd three positions at dierent maturities that
could immunize the cash ow sequence against changes in the third principal
component.
Example II.2.5: Asset-liability management: A single curve PCA factor
model can be used to balance assets and liabilities. For example, consider
a pension fund that asks how to invest its income from contributors in xed
income securities so that its P&L is insensitive to the most common movements
in interest rates, as captures by the rst three principal components. Similarly,
a corporate may have a series of xed liabilities, such as payments on a xed
rate loan, and seek to nance these payments by issuing xed coupon bonds or
notes. In Example II.2.5, we consider a UK rm with a xed stream of liabilities
of 1 million per month over the next 5 years. It seeks to nance these by issuing
zero coupon bonds at 1-, 3- and 5-years to maturity. How many bonds should
it issue or purchase on 31 December 2007 so that the portfolio of assets and
liabilities has zero sensitivity to parallel shifts and changes in slope of the UK
government spot yield curve?
The present value of the liabilities on 31 December 2007 is 53,887,892. The
factor model for the original stream of cash ows is,
1\1
|
L=88.68411C
l|
L=68.08011C
2|
L=0.67761C
3|
We want to nd cash ows at 1-, 3- and 5-year maturities such that a) the
present value of the increased sequence of cash ows remains the same as before,
53,887,892, and /) the net position of assets and liabilities has a Prot&Loss
that has zero sensitivities to the rst and second principal components of the UK
spot curve. As shown in the spreadsheet, if we add cash ows of 19,068,089,
19,537,974 and 22,921,668 at the 1-, 3- and 5-year maturities, respectively, the
new stream of cash ows will have the required zero sensitivities. This amounts
to issuing 18,202,846.57 of 1-year bonds, and purchasing 18,469,691.95 and
17,215,353.04 of 3- and 5-year maturity bonds, respectively.
Example II.2.6: Stress testing a UK bond portfolio. Stress tests have become
unfortunately popular during the current nancial crisis. They consist of pass-
ing a given portfolio through what is considered an extreme market situation.
Of course, the denition of what we mean by such situation is crucial for the
result of the test. We start this exercise by computing the portfolio Prot&Loss
volatility based on a one-, two-, and three-principal component representation
of the term structure, and comparing the results with the ones obtained without
using the factor model.
From the Prot&Loss factor representation,
1\1
|
L=61.821C
l|
L=104.401C
2|
L=101.11C
3|
we get an estimate of the variance of the 1\1
|
, based on one principal
component, of \ o|ati|itj(1\1
|
) = $186, 01. If we base the computation on
307
two components, we get: \ o|ati|itj(1\1
|
) = $216, 040, while if we use three
principal components we get: \ o|ati|itj(1\1
|
) = $220, 680. The variance
necessarily increases by increasing the number of principal components we use
in tis calculus. As we see, the result we obtain with two and three components
is very similar.
The alternative procedure consists of using the representation based on the
present value of a one basis point change: ^1
|
=
n

I=l
1\ 01
I
^1
I|
= 1\ 01
0
^1,to
obtain:
\ ar(1\1
|
) = (1\ 01) [\ ar(^1
I|
)[ (1\ 01)
0
= $220, 041
very close to the result obtained with the principal components. Since we are
dealing with monthly data, a factor of 12 was used to compute the \ ar(1\1
|
).
We now move to the proper stress testing, by estimating the 1\1 that could
emerge from an extreme scenario. It is standard to think of that as a 6 standard
deviations change in each of the risk factors.
Example II.2.7: Multiple curve factor models: PCA on curves with dierent
credit rating
Example II.2.8: Multiple curve factor models: PCA on curves in dierent
currencies
Example II.2.9: Equity PCA factor models. Principal components are also
very useful to reduce the dimensionality of an analysis of a stock market. They
are therefore an essential instrument for risk management and portfolio man-
agement in those markets. One possibility is to compute them to summarize
the information on a large vector of returns. If we regress the return for each
stock on the / chosen principal components:
r
I|
= c
I
,
Il
1
l|
,
I2
1
2|
... ,
I|
1
||
we can estimate a vector of betas and a scalar alpha for each stock. Since
the Principal Components are obtained form a covariance or from a correlation
matrix, they have 1(1
I|
) = 0, and we then have:
1(r
I|
) = c
I
,
\ ar(r
I|
) =
|

n=l
,
2
In
`
n
,
Co(r
I|
, r
|
) =
|

n=l
,
In
,
n
`
n
where `
n
denotes the :-the principal component of the covariance/correlation
matrix of stock returns, and where we have used the zero covariance property
of the principal components. In matrix form, if we denote by 1 the vector of
stock returns, we have:
308
\ ar(1) = 1A1
0
where A denotes the r variance-covariance matrix of the principal com-
ponents, which will be a diagonal matrix with the eigenvalues ` along the di-
agonal, and 1 is the /r matrix that has in each column the /-vector of betas
for each stock.
If we have a portfolio dened by the vector of weights on each stock, n
0
=
(n
l
, n
2
, ..., n

), the alpha and beta of the portfolio is obtained from those for
the individual stocks by the usual relationships: c
1
= n
0
c and ,

= 1n. The
specic or idiosyncratic risk component of the portfolio is:
:jcci)ic ri:/ =
_
n
0
\n ,
0

A,

_
l/2
which should be converted to annual volatility using the factor that corre-
sponds to the frequency of the observed data.
Stock data are usually not very highly correlated, so that it is not possi-
ble to capture a high percentage of the joint variation with a small number
of principal components. However, the number of stocks trading in a given
market is huge, so that the need to reduce the dimensionality of the problem
is unquestionable. Principal components become a very useful tool for equity
fund management. The spreadsheet contains daily data for 30 stocks trading
in the Dow Jones Industrial from 31 December 2004 to 26 April 2006. The
rst 5 principal components explain 60% of the variance. We also present the
representation model for each stock as a function of the ve components, and
we can see that the 12 for the GM stock in those representations is almost 1.
The Principal Components technique allows to easily decompose the total risk
in each stock, as well as for any portfolio. We see that for the equally weighted
portfolio (same cash amount invested in each stock) the market risk is equal to
the total risk, with an specic risk of zero. For the DJIA index, the systematic
risk is 10.05% versus a total risk of 10.11%, with a small specic risk, of only
1.02%. To compute this, we take into account that the DJIA is the portfolio
made up of 1 share of each stock, and calculate the weight using prices from 26
April 2006: n
I|
= j
I|
,

I=l
j
|
. We then use these weights, as constant over
time, to compute the portfolio betas and the risk decomposition. Notice that
this is the right evaluation to make of risk at 26 April 2006 for an investment
on DJIA. If we regressed the actual historical time series of the DJIA on the
ve principal components we would have found a dierent result, because the
DJIA needs rebalancing, as the prices of the dierent stocks change over time.
14.7 Appendix 1: Principal components
Given T data points on / variables, the principal component methodology tries
to nd a representation of the vector of / variables through a small set of j
linear combinations of them.
Let 1 be the Tr/ data matrix having as columns the observations on each
variable. We consider the model,
309
j
I,|
= j
I,|
j
I
= /
I,l
.
l,|
/
I,2
.
2,|
... /
I,
.
,|
-
I,|
, i = 1, 2, .., /, t = 1, 2, ..., T
(67)
where j
I
, denotes the sample mean of the i-th variable, and .
,|
denotes
the t-th observation on the ,-th principal component. The model is written to
explain the behavior of dierences in observed variables around their sample
means. This is convenient to avoid numerical problem that could arise for very
dierent measurement scales among the observed variables.
In vector terms, we have,
j
I
= /
I,l
.
l
/
I,2
.
2
... /
I,
.

-
I
, i = 1, 2, .., /,
a relationship between column vectors Tr1 containing observations for the
i-th variable and each of the principal components.
Principal components are dened as,
.

= a
,l
j
l
a
,2
j
2
... a
,|
j
|
, , = 1, 2, .., j,
and we want to nd the vectors (a
,l
, a
,2
, ..., a
,|
) , , = 1, 2, ..., j that best
summarize the information in the matrix

1 of standardized data. Principal
components have zero mean. We want to minimize the error in tting

1 by
(67) . It can be shown that choosing the principal components satisfying that
condition amounts to choosing those with the highest variance.
Hence, we need to solve an optimization problem having as objective function
the variance of the resulting principal components. Since the rst principal
component is dened by,
_
_
_
_
.
ll
.
l2
..
.
lT
_
_
_
_
=
_
_
_
_
j
l,l
j
2,l
j
|,l
j
l,2
j
2,2
j
|,2
j
l,T
j
2,T
j
|,T
_
_
_
_
_
_
_
_
a
l,l
a
l,2
..
a
l,|
_
_
_
_
or,
.
l
=

1 a
l
with variance,
\ ar(.
l
) =
1
T
.
0
l
.
l
=
1
T
_

1 a
l
_
0
_

1 a
l
_
=
1
T
a
0
l
o

a
l
Since \ ar(.
l
) can be maximized without bound by just increasing the norm
of vector a
l
, we need to impose some restriction on the feasible parameter space
for a
l
. We do that by constraining ourselves to | a
l
|= a
0
l
a
l
_ 1. In fact, the
solution will be achieved by some a
l
with | a
l
|= 1.
The rst principal component is then found as solution to,
310
'ar T.\ ar(.
l
) = a
0
l
o

a
l
:n/,cct to a
0
l
a
l
= 1
with Lagrangian,
1(a
l
, `) = a
0
l
o

a
l
`(a
0
l
a
l
1)
leading to the optimality conditions,
01
0a
l
= 2o

a
l
2`a
l
= 0
01
0`
= a
0
l
a
l
1 = 0
whose solution satises,
o

a
l
= `a
l
so that the Lagrange multiplier ` turns out to be an eigenvalue of the sample
covariance matrix o

, a
l
being the associated eigenvector. To determine which
eigenvalue should be chosen, we multiply the previous equation through by a
0
l
,
a
0
l
o

a
l
= `a
0
l
a
l
= `
so that ` turns out to be equal to \ ar(.
l
). We have already mentioned that
choosing the best tting at (67) amounts to choosing the principal components
with the highest possible variance. Hence, ` should be chosen as the largest
eigenvalue of o

. The associated eigenvector denes the weights to be used


to produce the principal component as a linear combination of the original
variables.
It is clear that we can construct a set of up to / principal components,
decreasing in variance, by just using as weights the elements in the eigenvectors
associated to successive eigenvalues decreasing in size.
If we want to choose two principal components, .
l
=

1 a
l
, .
2
=

1 a
2
, for /r1
vectors a
l
, a
2
, the objective function is the sum of their variances,
'ar T. (\ ar(.
l
) \ ar(.
2
)) = a
0
l
o

a
l
a
0
2
o

a
2
:n/,cct to a
0
l
a
l
= a
0
2
a
2
= 1
with Lagrangian,
1(a
l
, a
2
, `
l
, `
2
) = a
0
l
o

a
l
a
0
2
o

a
2
`
l
(a
0
l
a
l
1) `
2
(a
0
2
a
2
1)
leading to the optimality conditions,
311
01
0a
l
= 2o

a
l
2`
l
a
l
= 0;
01
0a
2
= 2o

a
2
2`
2
a
2
= 0
01
0`
l
= a
0
l
a
l
1 = 0;
01
0`
2
= a
0
2
a
2
1 = 0
whose solution satises,
o

a
l
= `
l
a
l
o

a
2
= `
2
a
2
so that `
l
, `
2
are eigenvalues of o

, and a
l
, a
2
their associated eigenvectors.
The result extends with no diculty to the case of j principal components,
with 1 _ j _ /. So, we need to nd the eigenvalues of the sample covariance
matrix of the data o

by solving its characteristic equation,


[ o

`1
|
[= 0
and nding the associated eigenvectors.
In matrix terms, the relationship between principal components and original
data can be written,
7 =

1 I
where 7 is the Tr/ matrix of principal components, I is the /r/ matrix
having as columns the eigenvectors of o

, and

1 is the Tr/ matrix of data in
deviations to the sample mean. It is important that we use a numerical routine
that orders eigenvalues and associated eigenvectors by eigenvalue size.
If we are just interested on j components, then I will have just j columns,
being then a /rj matrix, each column being the eigenvector associated to one
of the rst j eigenvalues, and the resulting 7-matrix will be of dimension Trj.
As a consequence, variables in the original set can also be written in terms
of the principal components as,

1 = 7I
0
that is,
1 = 7I
0
1
T
j
where 1
T
denotes a column vector of T ones and j is the row vector made
up by the sample means of the / original variables.
Since the variance of each principal component is equal to the corresponding
eigenvalue of o

, each one of them explains a percentage,


j

=
`

|
u=l
`
u
312
Notice that the spectral decomposition theorem guarantees that any positive
denite matrix can be written as,
= IAI
0
where A is the diagonal matrix with elements equal to the eigenvalues of ,
and I is an orthogonal matrix made up with the standardized eigenvectors of .
Of course, the elements of A and the columns of I are ordered correspondingly.
Hence,
[ [=[ IAI
0
[=[ I [[ A [[ I
0
[=[ A [=
|

=l
`

tr = tr (IAI
0
) = tr (I
0
IA) = trA =
|

=l
`

in our case, with = o

, we have,
[ o

[=
|

=l
`

=
|

=l
\ ar(.

)
tr (o

) =
|

=l
`

=
|

=l
\ ar(.

)
that is, the sum of the variances of the principal components is equal to the
sum of the variances of variables in the original data set.
Furthermore, being eigenvectors, any two principal components are uncor-
related with each other in the sample.
As an example, let us suppose that we have two variables, j
l
, j
2
, which have
been standardized to have zero mean and unit variance. Matrix o

is then,
o

=
_
1 j
j 1
_
with eigenvalues 1j. If j
l
, j
2
are positively correlated, then the rst (largest)
eigenvalue is 1 j, with associated eigenvector (1, 1) . Hence, the rst principal
component of j
l
, j
2
is,
.
l
=
1
_
2
(j
l
j
2
)
which is proportional to the sum of the original variables. Notice that, in
fact, as we already know, \ ar (.
l
) = 1 j. The second principal component
corresponds to the second (smallest) eigenvalue, 1 j, being,
.
2
=
1
_
2
(j
l
j
2
)
313
which is proportional to the dierence between the elements of j
l
and j
2
. It
is easy to check that its variance is, in fact, \ ar (.
2
) = 1 j. If j < 0, the order
of the eigenvectors would be reversed.
14.7.1 Lack of scale-invariance in principal components (Mardia,
Kent, Bibby)
An important diculty with principal components is that they are not scale-
invariant, the reason being that eigenvectors are not scale-invariant either. If we
divide the i-th variable by d
I
, the covariance matrix of the new variables becomes
1o

1, where 1 = diaq(d
l
I
). However, if r is an eigenvector of o

, then 1
l
r
is not an eigenvector of 1o

1. That is, eigenvectors are not scale-invariant.


In the 2-variable case, we have,
o

=
_
o
2
l
jo
l
o
2
jo
l
o
2
o
2
2
_
where j 0. The larger eigenvalue is `
l
=
l
2
_
o
2
l
o
2
2
_

l
2
^, with ^ =
_
_
o
2
l
o
2
2
_
2
4o
2
l
o
2
2
j
2
_
l/2
, and associated eigenvector proportional to,
(a
l
, a
2
) =
_
o
2
l
o
2
2
_
^ , 2jo
l
o
2
) (68)
When o
l
,o
2
= 1, the ratio a
2
,a
l
= 1. If o
l
= o
2
and the rst variable is
multiplied by a factor /, we would like the a
2
,a
l
-ratio to also get multiplied by
/. however, changing o
l
to /o
l
in (68) easily shows that this is not the case.
The lack of scale invariance means that we need to worry about the way
scales are chosen and, in particular, about the units of measurement for each
variable. Sometimes, variables are homogenized by standardizing them, i.e.,
dividing them by their respective sample standard deviation, nding principal
components of their correlation matrix. However, this practice produces some
diculties in hypothesis testing.
14.7.2 Hypothesis testing on eigenvalues and eigenvectors
Under some regularity conditions, it can be shown that if |
l
, |
2
, ..., |
|
denote
sample eigenvalues, then, asymptotically,
ln|

~ (ln`

,
2
T 1
)
where the second argument is the variance of the distribution.
If q

denotes the ,-th sample eigenvector, then, asymptotically,


q

~
|
_

,
1
T 1
\

_
where,
314
\

= `

I6=
`
I
(`

`
I
)
2

0
I
14.7.3 La capacidad predictiva de las betas histricas
Algunas de las dicultades en la estimacin de c
I
y ,
I
provienen del hecho de
que cabe esperar que ninguno de ellos sea constante, sino que varen en fun-
cin de cambios en las caractersticas de la empresa. Aunque las betas sulene
estimarse utilizando mnimos cuadrados ordinarios en un modelo lineal de re-
gresin del exceso de rentabilidad del activo sobre el exceso de rentabilidad del
mercado, caben muchas posibilidades, como la utilizacin de ventanas mviles,
la estimacin de un modelo de parmetros cambiantes, la utilizacin del ltro de
Kalman, que permitiran obtener alfas y betas cambiantes en el tiempo. Consid-
erar alfas y betas cambiantes abre la posibilidad de predecir sus valores futuros
a partir de series temporales de valores estimados para ambos parametros, y ello
permitira mejorar la gestin de riesgos sobre un determiando horizonte, igual
al utilizado en la previsin de la alfa y beta de cada activo.
Una de las primeras cuestiones analizadas en relacin con la posibilidad de
predecir betas, se reere al grado de asociacin que pueda existir entre las betas
en un determinado perodo o intervalo de tiempo, y las betas del perodo sigu-
iente. Blume [12] estim betas utilizando datos mensuales sobre dos intervalos
no solapados de 7 aos de duracin. Gener betas para carteras de un slo ac-
tivo, de 2, 4 activos, y as sucesivamente hasta carteras de 50 activos. Para cada
uno de estos tamaos, examin la correlacin entre los betas de un perodo y
los del otro. Las correlaciones resultaron aumentar con el nmero de activos in-
cluidos en la cartera, oscilando desde 0,60 para carteras de un slo activo, hasta
0,98 para carteras de 50 activos. Por tanto, las betas de activos individuales no
contienen mucha informacin acerca de sus valores futuros. Esto puede deberse
a que a) el riesgo del activo puede cambiar, b) la beta de cada perodo se estima
con un error aleatorio, y cuanto mayor es el error, menos capacidad predictiva
tendrn las betas de un perodo para las del perodo siguiente. Los cambios
en las betas de activos individuales pueden producirse al alza o a la baja, por
lo que al construir carteras de mltiples activos, estos cambios tendern a can-
celarse mutuamente, haciendo que las betas de tales carteras cambien menos.
Asimismo, tambin los errores producidos al estimar las betas, que pueden ser
positivos o negativos, tendern a cancelarse dentro de una cartera, siendo menor
el error cometido al estimar la beta de una cartera que el cometido al estimar
las betas de activos individuales. Por ambas razones, la beta de una cartera
ser ms fcilmente predecible que la de activos individuales.
Ajustes sobre los betas estimados Supongamos por un momento que el
verdadero beta de todos los activos fuese igual a uno. Al estimarlos, algunas
de nuestras estimaciones estaran por debajo y otras por encima de su valor
verdadero, que es uno. La beta que estimaramos sera, en parte, una funcin del
verdadero beta y, en parte, una funcin del error de muestreo. Si estimamos una
315
beta muy elevada, habr una alta probabilidad de que el error en la estimacin
haya sido positivo, mientras que si estimamos una beta muy baja, habr una
elevada probabilidad de que el error de estimacin haya sido negativo. Si el error
de estimacin es puramente aletorio y, por tanto, independiente en el tiempo, las
betas estimadas en sucesivos intervalos de tiempo tendern a converger hacia 1:
betas estimadas muy por encima de 1 tendern a venir seguidos por betas ms
prximas a 1 y, por tanto, menores, y lo contrario ocurrira con betas estimados
inferiores a 1. Nuevamente, Blume [12] proporciona evidencia emprica en este
sentido.
Por tanto, parece natural corregir los betas estimados para recoger esta
conversin hacia 1. Blume propuso ajustar las betas hacia uno, y suponer
que el ajuste efectuado en un perodo es asimismo adecuado para el perodo
siguiente. Para ello, estimamos una regresin de los betas del segundo perodo
con respecto a las betas de las mismas carteras durante el perodo anterior.
Blume obtuvo: ,
I2
= 0, 848 0, 677,
Il
. De acuerdo con esta regresin, una
beta de 2,0 pasara a ser de 1,67 el perodo siguiente, mientras que una beta de
0,5 pasara a ser de 0,682, reduciendo los valores de las betas altas, y elevando
los de la betas bajas. Asimismo, la ecuacin permite modicar el promedio de
las betas en la poblacin de activos: si el promedio de las betas ha aumentado
del primer perodo al segundo (lo cual ocurrir si la beta es menor que 1,062),
el modelo anterior implica que la beta promedio va a volver a aumentar (salvo
que haya sobrepasado ya el umbral de 1,062). Si, por el contrario, no hay razn
para creer que esto va a pasar, nuestras estimaciones de las betas individuales,
obtenidas utilizando la regresin anterior mejoraran si las ajustamos de modo
que su promedio sea igual al promedio de las betas del perodo previo. Para
ello, puede utilizarse un factor de escala, preferiblemente, o bien una traslacin
por una constante.
Si queremos predecir las betas para un tercer perodo utilizaramos nueva-
mente la regresin anterior. Adems, puede suponerse que la misma regresin
servira para predecir las betas de activos o carteras no incluidos en la muestra.
El ajuste de Vasicek Hemos visto que la verdadera beta para el perodo
para el cual estamos prediciendo tiende a estar ms prxima a la media de
las betas (en la seccin cruzada de activos), que la prediccin obtenida por
un procedimiento economtrico habitual de prediccin. Otro modo de efectuar
este ajuste consiste en combinar la beta promedio y la prediccin de una beta
individual. Para que la combinacin de ambas no sea arbitraria, Vasicek propuso
que las ponderaciones utilizadas en esta combinacin estuviesen determinadas
por el tamao del error muestral de la beta estimada. Cuanto mayor sea una
beta respecto de la media de las betas de los activos, ,, mayor es la probabilidad
de que el error de estimacin sea importante, por lo que el ajuste debe ser mayor.
Vasicek propuso:
,
I
=
o
2
o
o
2
o
1
o
2
o
,
I

o
2
o
1
o
2
o
1
o
2
o
,
I
316
donde o
2
o
1
denota la varianza de la estimacin de la beta del activo, y o
2
o
la
varianza de la beta promedio. Este es un ajuste bayesiano, pues la expresin de
la esperanza matemtica a posteriori de una poblacin Normal, a partir de la
esperanza de la distribucin a priori y de la media muestral.
Aunque este ajuste no genera una tendencia en las betas, tiene el mismo
sesgo que el procedimiento de Blume: como los activos de beta elevado tienen
asociados errores mayores, la reduccin proporcional en el valor de sus betas con
este ajuste ser superior al ajuste al alza de los betas que se hallan por debajo
del promedio. Por tanto, la estimacin de la beta promedio futura tender a ser
inferior a la beta promedio actual. Por tanto las betas deben ajustarse al alza
para incorporar este efecto.
Las betas como predictores de los coecientes de correlacin Los coe-
cientes de correlacin son un input preciso a muchos efectos esenciales: anlisis
de carteras, Valor en Riesgo, etc., y las betas estimadas pueden utilizarse para
estimar los coecientes de correlacin, como alternativa al uso de coecientes
de correlacin en muestras histricas. Para ello, basta escribir:
j
I
=
o
I
o
I
o

=
,
I
,

o
2
n
o
I
o

Elton, Gruber, Urich [31] compararon diversos mtodos de predecir las cor-
relaciones entre rentabilidades de activos individuales: a) la matriz de correla-
ciones histricas, b) predicciones obtenidas estimando las betas del perodo
histrico previo, c) predicciones obtenidas estimando las betas para 2 perodos
previos y actualizando sus valores mediante la tcnica de Blume, d) predicciones
obtenidas como en el caso anterior, pero con la actualizacin bayesiana de Va-
sicek. Lo ms sorprendente es que las correlaciones histricas resultaron ser el
peor de los predictores de las correlaciones futuras, lo que sugiere que una parte
de las mismas se debe a ruido aleatorio. A pesar de ser una simplicacin de
la realidad, el. modelo de un ndice puede utilizarse para obtener predicciones
superiores a la mera extrapolacin de las estimadas en series temporales.
La comparacin entre los tres mtodos basados en las betas result ms
ambigua: el ajuste de Blume funcion signicativamente mejor que el ajuste
bayesiano y que las betas no ajustadas en los dos perodos considerados. El
ajuste bayesiano funcion mejor que las betas no ajustadas en un perodo, y
pero en el otro, en ambos casos signicativamente.
Cabe interpretar estos mtodos en conjunto: dado que el modelo supone que
las correlaciones entre rentabilidades se producen nicamente por su relacin con
el comportamiento del mercado, en la medida en que existan otras fuentes de
correlacin, y que tal correlacin sea positiva (como cabe esperar), las betas sin
ajustar subestimarn la correlacin media entre rentabilidades. El pocedimiento
de Blume incorpora este sesgo, y tiene otros dos ms: uno se debe a que ajusta
todas las betas hacia 1, lo que eleva el coeciente de correlacin estimado,
puesto que dicho coeciente depende del producto de las betas y se tiene que,
por ejemplo: 1, 1 + 0, 0 1, 2 + 0, 8. El segundo sesgo proviene de su ajuste
317
en funcin del cambio entre perodos 1 y 2. Si este cambio ha sido positivo
(negativo), el mtodo de Blume ajusta todas las betas hacia arriba (abajo),
lo cual, si se cree que tal tendencia es persistente, es adecuado, pero slo en
tal caso. Ambos hechos tienden a generar predicciones de correlaciones ms
elevadas de las verdaderas..
Tambin el ajuste bayesiano corrige las betas hacia 1, pero no proyecta una
tendencia en ellas. Incorpora, sin embargo, una nueva fuente de sesgo: los
activos de alto beta se ajustan ms hacia la media que los de bajo beta, lo que
reduce las betas estimadas, y produce un sesgo a la baja en los coecientes de
correlacin.
Sin embargo, la importancia de estos sesgos ser aleatoria de unos perodos a
otros, y es difcil anticipar qu procedimiento proporcionar mejores resultados,
especialmente si no hay una tendencia denida en las betas. Precisamente, una
manera de eliminar tales tendencias es forzar que el coeciente de correlacin
promedio estimado con cada uno de estos procedimientos coincida con el coe-
ciente de correlacin promedio obtenido para el perodo en que se estim el
modelo
33
. Cuando se lleva a cabo este ajuste adicional, el mtodo bayesiano
funciona signicativamente mejor que los dems procedimientos.. Cuando se
compara adems con una prediccin ingenua, que ja el valor de todas las betas
igual a 1, tambin se obtienen mejores resultados..
En resumen, hemos examinado el uso de las betas estimadas para a) prede-
cir betas futuras, b) predecir coecientes de correlacin, que puedan utilizarse
como input en el problema de gestin de cartera. Para predecir betas futuras, es
preferible utilizar betas ajustadas, si bien no es evidente qu ajuste sea preferi-
ble. Para predecir coecientes de correlacin, el ajuste bayesiano es preferible,
especialmente una vez que se hace el ajuste entre los coecientes de correlacin
promedio, como parece aconsejable.
Betas fundamentales Factores histricos determianntes de la Beta de un
activo, como la volatilidad, el rango de precios observado, o el volumen medio
negociado, tardan tiempo en incorporar de manera signicativa los cambios que
en ellos puedan producirse. Al estimar con un conjunto de datos temporales, de
los cuales slo los ltimos recogen cambios en los factores histricos, las Betas
estimadas respecto a dichos factores tendrn una fuerte inercia respecto de las
Betas estimadas en el pasado.
Otra lnea de investigacin se ha encaminado a tratar de caracterizar deter-
minantes de las Betas de un activo basadas en los fundamentales de la empresa
a que representa. A diferencia de factores histricos, los factores fundamen-
tales recogen cambios inmediatamente. Dichos fundamentales pueden ser: a)
los dividendo pagados, como porcentaje de los benecios (efecto negativo sobre
las betas, al reducir la percepcin de riesgo sobre la rentabilidad de la empresa),
b) la tasa de crecimiento de los activos (efecto positivo), c) el apalancamiento
(capital emitido sobre activos) (efecto positivo), d) la liquidez (activos sobre
33
Cuando el ajuste se hizo con el coeciente de correlacin promedio sobre el perodo de
prediccin, el ranking de procedimientos fue el mismo que en el caso descrito.
318
pasivos) (efecto negativo), e) el tamao total de los activos (efecto negativo),
f ) la variabilidad en los benecios (desviacin tpica del PER-price earnings
ratio) (efecto positivo), g) la beta contable o beta de benecios (calculada me-
diante una regresin de benecios de la empresa sobre benecios promedio de
la economa).
Otros estudios han utilizado una inmensa variabilidad de posibles determi-
nantes de las betas. En particular, se han utilizado tambin variables cticias
sectoriales. Este anlisis tiene dos tipos de limitaciones: una, que el nemro de
determinantes considerados de las Betas puede ser muy elevado, dicultando la
interpretacin de cules de ellos son realmente relevantes, debido ala colineal-
idad; la segunda, que las regresiones de seccin cruzada de Betas de empresas
individuales sobre sus fundamentales suponen que el efecto sobre la Beta de una
variacin en algn fundamental es el mismo para todas las empresas, lo cual no
tiene por qu ser cierto.
14.7.4 Frontera eciente
Permitiendo posiciones cortas y con posibilidad de prstamos a tipo
de inters sin riesgo Denotemos por 1 el punto de tangencia sobre la fron-
tera eciente de la recta que viene del eje de ordenadas a la altura del tipo de
inters sin riesgo, r
J
. Se trata de encontrar la recta r
J
1 con la mxima pendi-
ente. Dicha recta es la frontera eciente en este contexto. Para ello, hemos de
resolver el problema,
'ar 0 =
r
c
r
J
o
c
:n,cto a :

I=l
A
I
= 1
Frente a la posibilidad de aplicar el principio de Kuhn-Tucker y multipli-
cadores de Lagrange, vamos a sustituir la restriccin en la funcin objetivo, para
pasar a maximizar la funcin objetivo sin estar sujeta a restricciones. Podemos
escribir,
r
J
= 1r
J
=
_

I=l
A
I
_
r
J
=

I=l
A
I
r
J
por lo que la funcin objetivo es,
0 =

I=l
A
I
( r
I
r
J
)
_
_

I=l
A
2
I
o
2
I

I=l

=l,I6=
A
I
A

o
I
_
_
l/2
319
con condiciones de optimalidad:
J0
J1
= 0, i = 1, 2, ..., . Dichas condiciones
son,
00
0A
I
=
_
`A
l
o
lI
`A
2
o
2I
... `A
I
o
2
I
... `A
l
o
l,I
`A

o
I
_
( r
I
r
J
) = 0
Denimos nuevas variables: 7
I
= `A
I
, i = 1, 2, ..., . As, tenemos,
r
I
r
J
= 7
l
o
lI
7
2
o
2I
... 7
I
o
2
I
... 7
l
o
l,I
7

o
I
, i = 1, 2, ...,
(69)
donde las 7
I
son proporcionales a las cantidades ptimas que deben invertirse
en cada activo. Para ello, resolvemos primero los valores de las 7
I
, y luego
calculamos ponderaciones A
I
, mediante A
I
= 7
I
,

=l
7
I
.
Ejemplo: Determinar la cartera ptima con tres activos con rentabilidades
esperadas 14%, 8% y 20% y volatilidades (desviaciones tpicas de rentabilidades)
de 6%, 3% y 15%. La correlacin entre las rentabilidades de los activos 1 y 2 es
de 0,5; entre los activos 1 y 3 es de 0,2; y entre los activos 2 y 3 es de 0,4. El
tipo de inters sin riesgo es 5%. R: La cartera ptima consiste en invertir 14/18
de la cartera en el activo 1, 1/18 en el activo 2 y 3/18 en el activo 3, con una
rentabilidad esperada de 44/3 y una varianza de 203/6.
Apndice: Determinacin de la derivada de la funcin objetivo Si
escribimos la funcin objetivo como: 0 =
_

I=l
A
I
( r
I
r
J
)
_
_
_

I=l
A
2
I
o
2
I

I=l

=l,I6=
A
I
A

o
I
_
_
l/2
,
tenemos:
00
0A
|
=
_

I=l
A
I
( r
I
r
J
)
_
_

_
1
2
_
_

I=l
A
2
I
o
2
I

I=l

=l,I6=
A
I
A

o
I
_
_
3/2
_
_
2A
|
o
2
|
2

=l,6=|
A

o
|
_
_
_

_
_

I=l
A
2
I
o
2
I

I=l

=l,I6=
A
I
A

o
I
_
_
l/2
I
( r
|
r
J
)
que hemos de igualar a cero, y simplicando,

I=l
A
I
( r
I
r
J
)

I=l
A
2
I
o
2
I

I=l

=l,I6=
A
I
A

o
I
_
_
A
|
o
2
|

=l,6=|
A

o
|
_
_
( r
|
r
J
) = 0
320
y deniendo como ` al primer factor, que no es sino: ` =
:c:
1
c
2
c
, tenemos
nalmente,
`
_
_
A
|
o
2
|

=l,6=|
A

o
|
_
_
( r
|
r
J
) = 0
que es la expresin que antes vimos.
Con posiciones cortas, pero sin posibilidad de prstamos a tipo de
inters sin riesgo El enfoque que podemos seguir en este caso consiste en
caracterizar la cartera ptima para distintos niveles del tipo de inters sin riesgo,
lo que permite ir describiendo la frontera eciente. Puede probarse que la pro-
porcin ptima de cada activo que debe invertirse en cada activo es una funcin
lineal de r
J
. Por otro lado, como es sabido, basta con caracterizar dos activos
en la frontera eciente, pues ello nos permite trazar toda la frontera eciente.
Si resolvemos el sistema (69) para obtener los valores de cada 7
|
como
funciones del nivel del tipo de inters sin riesgo, tenemos,
7
|
= C
0|
C
l|
r
J
(70)
para determinadas constantes C
0|
, C
l|
. Son constantes en el sentido de que
no cambian con r
J
. Basta resolver el sistema para dos niveles de r
J
para deter-
minar estas constantes para cada activo.
Ejemplo: Para los activos del ejemplo anterior, tenemos:
7
l
=
42
180
7
2
=
118
180

28
180
r
J
7
3
=
4
180

1
180
r
J
y es interesante representar gracamente estas rectas para saber bajo qu
niveles del tipo de inters sin riesgo se tomarn posiciones cortas o largas en
cada activo. Este es un modo de describir la frontera eciente en este caso. Para
cada nivel de r
J
determinamos los valores de las 7 y dividimos por su suma
para que el resultado sume 1 y podamos interpretarlos como ponderaciones.
En particular, cuando r
J
= , tenemos: A
l
= 14,18, A
2
= 1,18, A
3
= 8,18.
Si encontramos la cartera ptima pra r
J
veremos que 7
l
= 42,180, 7
2
=
72,180, 7
2
= 6,180, que conduce a una cartera eciente: A
l
= 7,20, A
2
=
12,20, A
3
= 1,20, con rentabiliad esperada:
l07
l0
y varianza:
5dSl
d00
. Si llevamos
los valores de 7
2
en ambas carteras ecientes a la ecuacin (70) , tenemos: C
02
=
llS
lS9
, C
l2
=
23
lS9
. Haciendo lo mismo para todos los activos, podemos describir
la frontera eciente. Por tanto, solo necesitamos resolver el sistema (69) para
dos valores de r
J
.
321
Otra posibilidad distinta de describir la frontera eciente, que no precisa
de encontrara los valores numricos de las 7 ni las C, consiste en calcular la
covarianza entre las rentabilidades de ambas carteras. Para ello formamos una
cartera arbitraria, por ejemplo, con ponderaciones 1/2 a cada una de las dos
carteras previas, y calculamos su varianza. La comparacin del valor numrico
de la varianza de la cartera con las varianzas de las dos carteas que la componen,
permiten calcular el valor numrico de la covarianza entre ambas y, con ella,
calculamos la frontera eciente completa.
En el ejemplo anterior, la cartera equiponderada entre las dos que hemos
calculado para r
J
= 2 y r
J
= , es: A
l
= 208,860, A
2
= 118,860, A
3
= 80,860,
con varianza: 21, 80. Pero siendo una cartera formada con las dos anteriores,
su varianza debe ser igual a:
21, 80 =
_
1
2
_
2
208
6

_
1
2
_
2
481
400
2
_
1
2
__
1
2
_
o
l2
de donde obtenemos: o
l2
= 10, 0. Conociendo la covarianza podemos
construir la frontera eciente del modo habitual: tomamos un parmetro `
y formamos la cartera: `(14,18, 1,18, 8,18) (1 `) (7,20, 12,20, 1,20) cuya
rentabilidad esperada y varainza son funciones de `. Al variar ` describimos la
frontera eciente.
Sin posiciones cortas Si permitimos la posibilidad de prestar y pedir prestado
al tipo de inters sin riesgo, se trata entonces de resolver el problema de opti-
mizacin:
'ar 0 =
r
c
r
J
o
c
:n,cto a :

I=l
A
I
= 1
A
I
_ 0, i = 1, 2, ...,
que necesita ser resuelto numricamente con una rutina de programacin
adecuada.
Si tampoco permitimos prstamos al tipo de inters sin riesgo, habremos
de resolver el problema de minimizar la varianza para un determinado nivel de
riesgo, r

:
322
'i:i:i.c
1,2,...,r

I=l
A
2
I
o
2
I
2

I=l

=l,6=I
A
I
A

o
I
:n,cto a :

I=l
A
I
= 1, A
I
_ 0, i = 1, 2, ...,

I=l
A
I
r
I
= r

Haciendo variar r

a partir de la rentabilidad de la cartera de mnima var-


ianza y hasta la rentabilidad mxima, describimos la frontera eciente. De
nuevo, el problema anterior debe resolverse para cada nivel de r

utilizando un
software adecuado para resolver problemas de optimizacin no lineal.
Por supuesto, que a cada uno de los problemas anteriores pueden aadirse
restricciones como un nivel de dividendos esperados, o una cota mxima en la
ponderacin que puede invertirse en cada activo, o un nivel de liquidez min-
ima, o un nivel de VaR, si bien la solucion de los mismos puede complicarse
sustancialmente.
14.7.5 Tcnicas sencillas de determinacin de la frontera eciente
Elton, Gruberg y Padberg propusieron un procedimiento sorprendentemente
sencillo de generar una cartera ptima bajo el supeusto de que el modelo de un
ndice es vlido, con la rentabilidad de mercado como ndice, que presentamos
en esta seccin.
Sin posiciones cortas Supongamos que contamos con activos. Comen-
zamos estableciendo un ranking de los mismos de acuerdo con la ratio entre su
exceso de rentabilidad y su Beta:
r
I
r
J
,
I
donde r
I
denota la rentabilidad esperada sobre el horizonted e inversin, que
puede aproximarse por una media muestral histrica. Este ranking representa la
conveniencia de que un determinado activo entre en la cartera. Estableceremos
un umbral C

, e incluiremos en la cartera aquellos activos con una ratio de


rentabilidad en exceso respecto de Beta superior a C

, no incluyendo ningn
activo con una ratio inferior a este umbral.
El umbral crtico C

es escogido del siguiente modo: vamos a calcular uno


de dichos umbrales C
I
para cada conjunto de activos; es decir, un umbral C
l
para una cartera con un solo activo, otro umbral C
2
para una cartera con los
dos activos de mayor ratio entre rentabilidad en exceso y Beta, otro umbral C
3
para una cartera de tres activos, etc.. El umbral seleccionado es el nico de los
umbrales mencionados que cumple la condicin de que el nmero de activos con
323
una ratio superior a ese particular C
I
es exactamente el nmero de activos que
hemos utilizado en el clculo de C
I
. Siempre hay uno y slo uno de los C
I
que
satisface tal condicin. A ese umbral C
I
lo denotamos por C

.
Cada uno de los umbrales mencionados es calculado mediante:
C
I
=
o
2
n

I
=l
( :1:
1
)o

c
2
r

1 o
2
n

I
=l
_
o
2

c
2
r

_
donde puede verse el papel relevante que juegan tanto las Betas estimadas
como los tamaos o
2
u
de los componentes especcos de las rentabilidades.
Los umbrales pueden escribirse asimismo,
C
I
=
( r
c
r
J
) ,
Ic
,
I
donde ,
Ic
representa el cambio esperado en la rentabilidad del activo i-
simo asociado a un 1% de variacin en la rentabilidad de la cartera ptima.
Esta expresin no puede utilizarse en el clculo de la cartera ptima ni para la
seleccin ade activos, porque obviamente, ignoramos las propiedades de dicha
cartera antes de construirla. Pero es muy til para entender el procedimiento
propuesto. Aadimos activos a la cartera hasta el punto en que
:1:
1
o
1
C
I
, es
decir, mientars que se cumpla: r
I
r
J
,
Ic
( r
c
r
J
) . El trmino de la derecha
es la rentabilidad en exceso esperada como consecuencia del resultado obtenido
por la cartera. El trmino de la izquierda es la estimacin de la rentabilidad en
exceso esperada para el activo individual. Si creemos que un activo va a obtener
mejor resultado del que cabria esperar de su pertenencia a la cartera, debemos
incorporarlo a la misma.
Una vez determiandos los activos, debemos determianr sus pesos en la cartera
ptima, para lo que comenzamos calculando:
7
I
=
,
2
I
o
2
u1
_
r
I
r
J
,
I
C
I
_
que luego normalizamos mediante: A
I
=
21
P
1rcr1dcs
2
, i = 1, 2, ..., /, siendo
/ el nmero de activos incluidos en la cartera.
Apndice: El sistema de ecuaciones que debemos resolver es:
r
|
r
J
= 7
|
o
2
|

=l,6=|
7

o
|
, / = 1, 2, ...
que bajo el modelo de un ndice se convierte en:
r
|
r
J
= 7
|
_
,
2
|
o
2
n
_

=l,6=|
7

,
|
,

o
2
n
= 7
|
o
2
u|

=l
7

,
|
,

o
2
n
, / = 1, 2, ...
324
por lo que,
7
|
=
r
|
r
J
o
2
u|

,
|
o
2
n
o
2
u|

=l
7

=
,
|
o
2
u|
_
r
|
r
J
,
|
C

_
, / = 1, 2, ...
donde: C

= o
2
n

=l
7

.
Si multiplicamos la expresin anterior por ,
|
y sumamos, tenemos,

=l
7

=l
( r
|
r
J
) ,
|
o
2
u|
o
2
n

=l
,

o
2
u

=l
7

de donde:

=l
7

=l
( :
!
:
1
)o
!
c
2
r!
1 o
2
n

=l
o

c
2
r
y:
C

= o
2
n

=l
7

=
o
2
n

=l
( :
!
:
1
)o
!
c
2
r!
1 o
2
n

=l
o

c
2
r
Para obtener una expresin alternativa para C

, tenemos en cuenta que 7

=
:c:
1
c
2
c
A

y tambien que

=l
A

e sla Beta de la cartear, por lo que:


C

= o
2
n

=l
7

= o
2
n

=l
r
c
r
J
o
2
c
A

= o
2
n
r
c
r
J
o
2
c
,
c
Dividiendo y multiplicando por ,
I
y teniendo en cuenta que ,
I
,
c
o
2
n
es la
covarianza entre el activo i-simo y la cartear, tenemos:
C

=
r
c
r
J
o
2
c
1
,
I
Co(i, c) =
,
Ic
,
I
( r
c
r
J
)
donde ,
Ic
es el estiamdor d eminimos cuadrados de la pendiente de la regre-
sin de r
I
sobre r
n
.
Permitiendo posiciones cortas Si se permiten posiciones cortas, todos los
activos van a formar parte de la cartera ptima. Si su ratio de rentabilidad en
exceso a Beta es atractivo entrarn con pesos positivos (posiciones largas) y, en
caso contrario, entrarn con pesos negativos (posiciones cortas). En este caso,
debe tomarse como umbral crtico C

el que se calcula con todos los activos


considerados. Calculamos los pesos 7
I
del mismo modo anterior, pero no es
evidente cmo normalizar estos pesos en este caso. Podra hacerse del modo
anterior, aunque algunos 7
I
sean negativos, o seguir la propuesta de Lintner de
hacerlo mediante:
325
A
I
=
7
I

=l
[7

[
, i = 1, 2, ...,
Ambas normalizaciones pueden dar lugar, en general, a ponderaciones muy
distintas. La normalizacin habitual suele conducir a ponderaciones muy el-
evadas, mientras que la propuesta de Lintner suele conducir a carteras ms
razonables. Las proporciones en que entran enl a cartera ptima los activos que
se incluian en la cartera cuando no se permiten posiciones a corto no guardan
una relacin igual a la de aquella cartera. Esto es lgico, por cuanto que permi-
tir posiciones cortas altera sustancialmente el conjunto de activos con el que se
congura la cartera.
14.7.6 Apndice: Algunas secciones anteriores, en castellano
El modelo de un ndice Hasta ahora, hemos presentado el anlisis de Markowitz
para la seleccin de carteras ecientes, que se basa en la consideracin de la
rentabilidad esperada y la volatilidad de cada uno de los activos disponibles..
Este anlisis precisa conocer asimismo las covarianzas o, lo que es lo mismo,
los coecientes de correlacin entre las rentabilidades de cada par de activos.
Este requerimiento signica, en la mayora de las situaciones de inters, que el
analista necesita disponer de muchos parmetros estimados. Por ejemplo, en
el caso de considerar la inversin en los 35 valores que conguran el Ibex35,
el analista necesitara: 35 rentabilidades esperadas, ms 35 volatilidades, ms
35*17 correlaciones, un total de 665 parmetros.
Los modelos de ndices tienen como ventaja que reducen considerablemente
la dimensionalidad del problema de gestin de carteras. El modelo de un ndice
postula:
r
It
= a
It
,
I
1
|
que la rentabilidad aleatoria de cada uno de los activos disponibles tiene
dos componentes: uno, a
It
, especco del activo, y otro, ,
I
1
|
, que reeja un
efecto comn a todos los activos, debido al factor 1
|
, comn a las rentabilidades
de todos ellos. Las uctuaciones que a lo largo del tiempo experimenta la
rentabilidad de un activo se debe a variaciones en estos dos factores. El factor
1
|
podra ser la tasa de inacin, 1
|
=
|
, o la rentabilidad de un ndice de
mercado, 1
|
= r
nt
, por ejemplo.
Si extraemos la esperanza matemtica de a
I
tendremos: a
I
= c
I
n
I
, donde
c
I
es una constante especca de cada activo, mientras que n
I
es el elemento
aleatorio especco de cada uno de ellos. Por tanto, tenemos:
r
It
= c
I
,
I
1
|
n
It
(71)
El modelo de 1 ndice est denido por dos caractersticas:
a) Co(n
It
, 1
|
) = 1(n
It
, 1
|
) = 0,
b) Co(n
It
, n
t
) = 0.
326
La primera condicin signica que el grado en que el modelo de 1 ondice
representa el comportamiento de la rentabilidad de un activo es independiente
del valor del ndice (es independiente de la rentabilidad del mercado, en el
ejemplo propuesto). La primera condicin puede conseguirse, por construccin,
si se utilizan datos de series temporales para estimar por mnimos cuadrados
ordinarios el modelo 71. Se tratara de escoger un ndice de entre los muchos
posibles, y estimar por el procedimiento citado una regresin del tipo 71 para
la rentabilidad de cada activo. El residuo de dicha regresin se tomara como el
componente aleatorio, de media cero, especico de cada activo. Como es bien
sabido dicho residuo est incorrelacionado con las variables explicativas de la
regresin. Cabe observar, por tanto, dos cosas: en primer lugar, que un analista
puede construir empricamente tantos modelos de un ndice como quiera. En
segundo lugar, que un modelo de un ndice no debe ser objeto de un anlisis
economtrico detallado, conducente a obtener sus mejores estimaciones. Si un
analista lleva a cabo correcciones de autocorrelacin o de heterocedasticidad,
o estima por mtodos de variables instrumentales, en general no obtendr la
propiedad de independencia entre n
It
y 1
|
.
La segunda hiptesis es la que realmente dene el modelo, por cuanto que es,
en general poco probable que se cumpla, al menos estrictamente. Hay que pensar
que, considerando el caso de inversin en los 35 activos del Ibex35, tendramos
que comprobar que las 595 correlaciones que pueden obtenerse entre los residuos
de las regresiones correspondientes a 2 activos distintos, fuesen todos ellos igual a
cero. Por tanto, hay que tomar el modelo de 1 factor ms como una construccin
terica que como una realidad emprica. Como modelo terico, es muy til para
ayudarnos a pensar acerca del modo adecuado de medir el riesgo de una activo
nanciero, como veremos enseguida.
Esta segunda hiptesis signica que el factor es realmente informativo, pues
recoge todo lo que de comn hay en las uctuaciones en las rentabilidades de los
activos considerados. Dicho factor es la nica razn que explica los movimien-
tos conjuntos entre rentabilidades de activos. Pueden existir otros elementos
adems del ndice, pero han de ser estrictamente especcos. Por ejemplo,
supongamos que utilizamos como ndice la rentabilidad de un ndice de mer-
cado. Podra pensarse que el elemento especco, es decir, el residuo de la
regresin de rentabilidad el activo sobre rentabilidad de mercado, venga ex-
plicado por los dividendos distribuidos, y que estos tienen un comportamiento
especco de cada activo. Sin embargo, en muchos casos no es as pues, aun
siendo relativamente incorrelacionados entre activos, los dividendos podran es-
tar muy correlacionados entre activos de un mismo sector (bancos, construccin,
elctricas, etc.).
A partir de ahora, por aclarar la notacin, suponemos que se utiliza como
factor la rentabilidad del ndice de mercado. Si denotamos por \ ar(n
I
) =
o
2
u1
, i = 1, 2, ..., , \ ar(1
|
) = \ ar(r
n
) = o
2
n
, bajo las hiptesis del modelo,
327
tenemos:
r
I
= c
I
,
I
r
n
o
2
I
= ,
2
I
o
2
n
o
2
u1
o
I
= ,
I
,

o
2
n
que muestran que: a) la rentabilidad esperada de un activo tiene dos com-
ponentes: uno debido a la rentabilidad esperada del mercado, y otro debido a
c
I
, b) la varianza de la rentabilidad de un activo tiene asimismo dos compo-
nentes, un nuevamente debido a la volatilidad de la rentabilidad del mercado,
y otro debido a la volatilidad del componente especco n
It
, de modo que el
riesgo de un activo tiene un componente de riesgo especco y otro de riesgo
de mercado, c) por ltimo, la covarianza entre la rentabilidad de dos activos se
debe exclusivamente al riesgo de mercado.
Las representaciones anteriores nos sirven para expresar el valor esperado
y la varianza de la rentabilidad de una cartera, sin ms que recordar que la
expresin de su rentabilidad es: r
c
=

I=l
A
I
r
I
, por lo que tenemos:
r
c
=

I=l
A
I
r
I
=

I=l
A
I
c
I

I=l
A
I
,
I
r
n
= c
c

_

I=l
A
I
,
I
_
r
n
= c
c
,
c
r
n
donde hemos denido el alfa y la beta de la cartera, c
c
y ,
c
a partir de los
correspondientes a los activos que la componen, por:
c
c
=

I=l
A
I
c
I
,
c
=

I=l
A
I
,
I
Adems,
o
2
c
=

I=l
A
2
I
o
2
I
2

I=l

=l,6=I
A
I
A

o
I
=

I=l
A
2
I
,
2
I
o
2
n
2

I=l

=l,6=I
A
I
A

,
I
,

o
2
n

I=l
A
2
I
o
2
u1
Estas expresiones muestran que podemos estimar la rentabilidad esperada
y el riesgo de cualquier cartera a partir de estimaciones de c
I
, ,
I
, o
2
u1
, r
n
, o
2
n
,
un total de 8 2 parmetros, frente a los 2 ( 1),2. En el caso
de los 35 valores del Ibex35, el nmero de parmetros requerido se reduce de
665 a 107, pero si seguimos un mercado amplio, la reduccin es muy superior.
Alternativamente, el mismo anlisis puede efectuarse a partir de estimaciones de
r
I
, o
2
u1
, ,
I
, r
n
, o
2
n
, nuevamente 8 2 parmetros, pues de un conjunto puede
obtenerse el otro sin ninguna dicultad.
328
Caractersticas del modelo El riesgo-volatilidad de una cartera puede es-
cribirse:
o
2
c
=
_
_

I=l

=l
A
I
A

,
I
,

_
_
o
2
n

I=l
A
2
I
o
2
u1
=
_

I=l
A
I
,
I
__

I=l
A

_
o
2
n

I=l
A
2
I
o
2
u1
= ,
2
c
o
2
n

I=l
A
2
I
o
2
u1
Consideremos ahora una cartera bien diversicada. Esta es una cartera
que: a) invierte en un amplio conjunto de activos, b) no concentra el valor
nominal invertido en un subconjunto reducido de los activos en los que invierte.
En particular, una cartera de este tipo es una cartera que distribuye su valor
nominal a partes iguales entre un conjunto de activos, siendo grande
34
.
La volatilidad de dicha cartera es:
o
2
c
= ,
2
c
o
2
n

I=l
_
1

_
2
o
2
u1
= ,
2
c
o
2
n

1

I=l
1

o
2
u1
_
El trmino en corchete es el promedio de las varianzas de los trminos espec-
cos de las rentabilidades de los activos considerados. En trminos empricos,
dicho trmino es el promedio de las varianzas residuales de las regresiones
estimadas en la construccin del modelo de un factor. Aunque su valor numrico
variar con la muestra utilizada, no hay ninguna razn para que no sea estable
(salvo que las rentabilidades de activos individuales y del mercado, no siendo
estacionarias, no estn cointegradas). Por tanto, su cociente por tender a
cero al aumentar el nmero de activos en la cartera. El componente del riesgo
de una cartera que no puede eliminarse es el asociado al riesgo de mercado, por
lo que nos queda:
o
c
,
2
c
o
2
n
= o
n
_

I=l
A
I
,
I
_
Como o
n
es comn a cualquier cartera que podamos construir, tenemos que
la contribucin de un activo individual al riesgo de una cartera se mide a travs
de su beta, ,
I
.
Hemos visto que el riesgo de un activo individual es o
2
I
= ,
2
I
o
2
n
o
2
u1
, que de-
pende en parte de su beta, y en parte de la varianza de su componente especco.
Puesto que el efecto de o
2
u1
sobre el riesgo de una cartera puede eliminarse al
aumentar , se conoce a dicho componente como riesgo diversicable, o riesgo
idiosincrtico del activo. Por el contrario, ,
2
I
o
2
n
no disminuye al aumentar ,
y ,
I
es la medida del componentes no diversicable del riesgo de un activo.
34
Puede apreciarse que la expresin anterior no se satisface exactamente para la cartera de
mercado, lo que ilustra que las hiptesis del modelo de un indice son inconsistentes para el
caso o
2
c
= o
2
r
.
329
15 Un modelo general de tipos de inters
Para explicar la evolucin temporal de los tipos de inters, consideremos la
siguiente ecuacin diferencial estocstica
dr
|
= (c ,r
|
) dt or
~
|
d\
|
como en Chan et al. (1992a) [CKLS], donde r
|
, t 0, es un proceso es-
tocstico real en tiempo continuo, y c, ,, y o son parmetros estructurales
cuyo valor numrico es desconocido. Esta ecuacin general anida como casos
particulares diversos modelos que han sido propuestos en la literatura.
15.1 Discretizacin exacta
Bergstrom (1984) prueba que el modelo discreto correspondiente al anterior es,
r
|
= c
o
r
|l

c
,
_
c
o
1
_
j
|
, t = 1, 2, ..., T (72)
con,
1 (j
|
j
s
) = 0, : ,= t
1
_
j
2
|
_
=
o
2
2,
_
c
2o
1
_
r
2~
|l
= :
2
2|
Si denotamos por 0 =
_
c, ,, , o
2
_
el vector de parmetros del modelo, ten-
emos el logaritmo de la funcin de verosimilitud 1(0),
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
_
_ln:
2
2|

_
r
|
c
o
r
|l

o
o
_
c
o
1
_
_
2
:
2
2|
_
_
_ (73)
y tenemos,
1(0) =
T
2
ln2
1
2
T

|=2
_
2 ln:
2|
-
2
|
_
donde -
|
, t = 1, 2, ..., T puede calcularse utilizando,
:
2|
-
|
= j
|
ya que -
|
no es sino la versin normalizada en varianza de j
|
.
330
15.2 Discretizacin aproximada
Una discretizacin rpida del modelo en tiempo continuo puede obtenerse como,
r
|
r
|l
= c ,r
|l
j
|
(74)
con,
1j
|
= 0 (75)
1
_
j
2
|
_
= o
2
r
2~
|l
La aproximacin lineal de la funcin c
o
alrededor de , = 0 es: c
o
= 1 ,,
por lo que (72) puede escribirse,
r
|
= (1 ,) r
|l
c j
|
, t = 1, 2, ..., T
que coincide con (74), lo que nos da una idea de la diferencia entre ambas
expresiones, que ser mayor cuanto mayor sea el valor absoluto de ,.
Bajo Normalidad del trmino de error, tendremos,
1
o
(0) =
T
2
ln2T lno
T

|=2
lnr
|l

1
2o
2
T

|=2
_
(r
|
r
|l
) c ,r
|l
r
~
|l
_
2
15.3 Estimacin por mxima verosimilitud
La discretizacin exacta puede estimarse por mxima verosimilitud, buscando en
el espacio paramtrico el valor numrico de 0 que maximiza (78) . Cabe esperar
que, en general, la funcin de verosimilitud no est bien denida, por lo que es
conveniente comenzar estimando versiones sencillas del modelo general, para ir
tratando de ganar generalidad, si procede, en estimaciones posteriores.
Comenzamos agrupandolas expresiones para el caso general,
15.3.1 Modelo no restringido
Modelo en tiempo continuo,
dr
|
= (c ,r
|
) dt or
~
|
d\
|
Discretizacin exacta,
r
|
= c
o
r
|l

c
,
_
c
o
1
_
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= c ,r
|l
j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
r
2~
|l
con funciones de verosimilitud,
331
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
_
_ln:
2
2|

_
r
|
c
o
r
|l

o
o
_
c
o
1
_
_
2
:
2
2|
_
_
_; :
2
2|
=
o
2
2,
_
c
2o
1
_
r
2~
|l
1
o
(0) =
T
2
ln2T lno
T

|=2
lnr
|l

1
2o
2
T

|=2
_
(r
|
r
|l
) c ,r
|l
r
~
|l
_
2
Veremos que cuando , = 0, las dos discretizaciones, exacta y aproximada,
coinciden. En los distintos casos particulares, tenemos,
15.3.2 Merton (1973): , = 0, = 0
Modelo en tiempo continuo,
dr
|
= cdt od\
|
Discretizacin exacta,
r
|
= r
|l
c j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= c j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
ln:
2
2|

[r
|
r
|l
c[
2
:
2
2|
_
; :
2
2|
= o
2
, constante
1
o
(0) =
T
2
ln2 T lno
1
2o
2
T

|=2
((r
|
r
|l
) c)
2
donde hemos utilizado que lim
o!0
t
{
l
o
= 1, lim
o!0
c
2
2o
_
c
2o
1
_
= o
2
. En este
caso, las funciones de verosimilitud de ambas discretizaciones coinciden.
La estructura de dicha funcin de verosimilitud revela que la estimacin de c
ha de ser la media muestral de las variaciones en el nivel del tipo de inters, c =
l
T

T
|=l
(r
|
r
|l
) , mientras que la estimacin de o
2
es la suma de cuadrados de
los errores de ajuste, dividida por el tamao muestral: o
2
=
l
T

T
|=l
(r
|
r
|l
c)
2
.
332
15.3.3 Vasicek (1977): = 0
Modelo en tiempo continuo,
dr
|
= (c ,r
|
) dt od\
|
Discretizacin exacta,
r
|
= c
o
r
|l

c
,
_
c
o
1
_
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= c ,r
|l
j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
_
_ln:
2
2|

_
r
|
c
o
r
|l

o
o
_
c
o
1
_
_
2
:
2
2|
_
_
_; :
2
2|
=
o
2
2,
_
c
2o
1
_
1
o
(0) =
T
2
ln2 T lno
1
2o
2
T

|=2
((r
|
r
|l
) c ,r
|l
)
2
La verosimilitud aproximada se maximiza mediante:

, =
P
J
t=1
(:t:t1):t1
P
J
t=1
:
2
t1
, c =
l
T

T
|=l
(r
|
r
|l
)

,
l
T

T
|=l
r
|l
, o
2
=
l
T

T
|=l
(r
|
r
|l
c)
2
.
15.3.4 Cox, Ingersoll, Ross (1985): = 1,2.
Modelo en tiempo continuo
dr
|
= (c ,r
|
) dt or
0.5
|
d\
|
Discretizacin exacta,
r
|
= c
o
r
|l

c
,
_
c
o
1
_
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= c ,r
|l
j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
r
|l
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
_
_ln:
2
2|

_
r
|
c
o
r
|l

o
o
_
c
o
1
_
_
2
:
2
2|
_
_
_; :
2
2|
=
o
2
2,
_
c
2o
1
_
r
|l
333
1
o
(0) =
T
2
ln2T lno
1
2
T

|=2
lnr
|l

1
2o
2
T

|=2
_
(r
|
r
|l
) c ,r
|l
r
0.5
|l
_
2
La verosimilitud aproximada se maximiza aplicando mnimos cuadrados gen-
eralizados, tras imponer la estructura de heterocedasticidad de este modelo, es
decir, estimando por mnimos cuadrados ordinarios el modelo,
r
|
r
|l
_
r
|l
= c
1
_
r
|l
,
_
r
|l

j
|
_
r
|l
; \ ar
_
j
|
_
r
|l
_
=
o
2
r
|l
r
|l
= o
2
obteniendo as las estimaciones de c y , y, posteriormente, o
2
=
l
T

T
|=l
_
r
|
r
|l
c

,r
|l
_
2
.
15.3.5 Dothan: c = 0, , = 0, = 1
Modelo en tiempo continuo
dr
|
= or
|
d\
|
Discretizacin exacta,
r
|
= r
|l
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
r
2
|l
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
ln:
2
2|

[r
|
r
|l
[
2
:
2
2|
_
; :
2
2|
= o
2
r
2
|l
1
o
(0) =
T
2
ln2 T lno
T

|=2
lnr
|l

1
2o
2
T

|=2
_
r
|
r
|l
r
|l
_
2
Ambas funciones de verosimilitud coinciden, y se maximizan mediante o
2
=
l
T

T
|=l
(:t:t1)
2
:
2
t1
.
15.3.6 Movimiento browniano geomtrico: c = 0, = 1
Modelo en tiempo continuo
dr
|
= ,r
|
dt or
|
d\
|
Discretizacin exacta,
334
r
|
= c
o
r
|l
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= ,r
|l
j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
r
2
|l
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
ln:
2
2|

_
r
|
c
o
r
|l

2
:
2
2|
_
; :
2
2|
=
o
2
2,
_
c
2o
1
_
r
2
|l
1
o
(0) =
T
2
ln2 T lno
T

|=2
lnr
|l

1
o
2
T

|=2
_
(r
|
r
|l
) ,r
|l
r
|l
_
2
La verosimilitud aproximada se maximiza aplicando mnimos cuadrados gen-
eralizados, tras imponer la estructura de heterocedasticidad de este modelo, es
decir, estimando por mnimos cuadrados ordinarios el modelo,
r
|
r
|l
r
|l
= ,
j
|
r
|l
; \ ar
_
j
|
r
|l
_
=
o
2
r
2
|l
r
2
|l
= o
2
obteniendo as la estimacin de ,,

, =
l
T

T
|=l
:t:t1
:t1
y, posteriormente,
o
2
=
l
T

T
|=l
_
r
|
r
|l

,r
|l
_
2
.
15.3.7 Brennan y Schwartz (1980): = 1
Modelo en tiempo continuo
dr
|
= (c ,r
|
) dt or
|
d\
|
Discretizacin exacta,
r
|
= c
o
r
|l

c
,
_
c
o
1
_
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= c ,r
|l
j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
r
2
|l
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
_
_ln:
2
2|

_
r
|
c
o
r
|l

o
o
_
c
o
1
_
_
2
:
2
2|
_
_
_; :
2
2|
=
o
2
2,
_
c
2o
1
_
r
2
|l
335
1
o
(0) =
T
2
ln2 T lno
T

|=2
lnr
|l

1
o
2
T

|=2
_
(r
|
r
|l
) c ,r
|l
r
|l
_
2
La verosimilitud aproximada se maximiza aplicando mnimos cuadrados gen-
eralizados, tras imponer la estructura de heterocedasticidad de este modelo, es
decir, estimando por mnimos cuadrados ordinarios el modelo,
r
|
r
|l
r
|l
= c
1
r
|l
,
j
|
r
|l
; \ ar
_
j
|
r
|l
_
=
o
2
r
2
|l
r
2
|l
= o
2
obteniendo as las estimaciones de c y , y, posteriormente, o
2
=
l
T

T
|=l
_
r
|
r
|l
c

,r
|l
_
2
.
15.3.8 Cox, Ingersoll, Ross (180): c = 0, , = 0, = 8,2.
Modelo en tiempo continuo
dr
|
= or
3/2
|
d\
|
Discretizacin exacta,
r
|
= r
|l
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
r
3
|l
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
ln:
2
2|

[r
|
r
|l
[
2
:
2
2|
_
; :
2
2|
= o
2
r
3
|l
1
o
(0) =
T
2
ln2 T lno
8
2
T

|=2
lnr
|l

1
o
2
T

|=2
_
r
|
r
|l
r
3
|l
_
2
Ambas funciones de verosimilitud coinciden, y se maximizan aplicando mn-
imos cuadrados generalizados, tras imponer la estructura de heterocedasticidad
de este modelo, es decir, estimando por mnimos cuadrados ordinarios el modelo,
r
|
r
|l
_
r
3
|l
= c
1
_
r
3
|l
,
1
_
r
|l

j
|
_
r
3
|l
; \ ar
_
_
j
|
_
r
3
|l
_
_
=
o
2
r
3
|l
r
3
|l
= o
2
obteniendo as las estimaciones de c y , y, posteriormente, o
2
=
l
T

T
|=l
_
r
|
r
|l
c

,r
|l
_
2
.
336
15.3.9 Elasticidad de la varianza constante: c = 0.
Modelo en tiempo continuo
dr
|
= ,r
|
dt or
~
|
d\
|
Discretizacin exacta,
r
|
= c
o
r
|l
j
|
, t = 1, 2, ..., T
Discretizacin aproximada
r
|
r
|l
= ,r
|l
j
|
; 1j
|
= 0; 1
_
j
2
|
_
= o
2
r
2~
|l
con funciones de verosimilitud,
1
t
(0) =
T
2
ln2
1
2
T

|=2
_
ln:
2
2|

_
r
|
c
o
r
|l

2
:
2
2|
_
; :
2
2|
=
o
2
2,
_
c
2o
1
_
r
2~
|l
1
o
(0) =
T
2
ln2 T lno
T

|=2
lnr
|l

1
o
2
T

|=2
_
(r
|
r
|l
) ,r
|l
r
~
|l
_
2
La maximizacin de la funcin de verosimilitud aproximada puede llevarse a
cabo condicionando en un valor numrico de , para aplicar mnimos cuadrados
generalizados, estimando el modelo
r
|
r
|l
r
~
|l
= ,r
l~
|l

j
|
r
~
|l
; 1j
|
= 0; 1
_
j
|
r
~
|l
_
2
=
o
2
r
2~
|l
r
2~
|l
= o
2
para obtener

, () y, posteriormente, o
2
()=
l
T

T
|=l
_
r
|
r
|l

,r
|l
_
2
.
Una vez realizado este ejercicio para una red de valores de , selecionaramos
aqul que proporciona la menor estimacin de o
2
() , junto con la estimacin
asociada de ,.
15.3.10 Condiciones iniciales
Puesto que la estimacin por mxima verosimilitud requiere generalmente la
utilizacin de un algoritmo numrico, es importante comenzar de buenas condi-
ciones iniciales. En el caso de la discretizacin aproximada, es lgico estimar
por mnimos cuadrados el modelo (74) y tomar las estimaciones de c y , como
condiciones iniciales para estos parmetro. Respecto de o y , una posibilidad
compatible con el modelo sera utilizar como o
2
la varianza residual de la re-
gresin de mnimos cuadrados anterior, junto con = 0. Esto puede resultar
atractivo en aquellos casos en que se quiere huir de la posibilidad de detectar
337
evidencia esprea de heterocedasticidad. Si, por el contrario, se quiere extraer
toda la informacin posible de los datos, en el caso de modelos que no restrin-
gen el valor de ,puede ser preferible utilizar los residuos de la regresin anterior
para estimar posteriormente el modelo,
ln j
2
|
= c
0
c
l
r
2
|l
y tomar como estimaciones iniciales: o
2
= oxp(

c
0
), =

c
l
, dado que esta
ltima regresin procede de sustituir la esperanza matemtica en la segunda
condicin en (7) por el valor observado del residuo, y tomar logaritmos. Ntese
que, por razones de signo, no puede estimarse una regresin similar utilizando
ln j
|
como variable dependiente.
15.3.11 Algoritmos numricos en la estimacin por mxima verosimil-
itud
Tericamente, para estimar por mxima verosimilitud deberamos derivar la fun-
cin de verosimilitud o su logaritmo (lo que suele ser ms sencillo, al menos bajo
Normalidad), respecto a cada uno de los parmetros del modelo, y al igualar a
cero cada una de dichas derivadas, tendramos tantas condiciones de optimalidad
como parmetros a estimar. Resolveramos dicho sistema encontrando valores
numricos para cada parmetro del modelo. Si se cunplen las condiciones de
segundo orden (hessiano del logaritmo de la funcin de verosimilitud denido
negativo en el vector de valores paramtricos que hemos obtenido como solu-
cin al sistema anterior, si estamos buscando un mnimo, o denido positivo,
si estamos buscando un mximo), entonces podramos decir que hemos hallado
un mnimo o un mximo local, respectivamente. Ntese nuestra insistencia en
que no habremos obtenido la solucin al problema de optimizacin salvo si la
funcin de verosimilitud es globalmente cncava, en caso de buscar un mximo,
o convexa, en caso de buscar un mnimo.
El problema bsico es que, excepto en .casos muy especcos, el sistema de
condiciones de primer orden no tiene solucin analtica, es decir, no pueden
despejarse en l los parmetros desconocidos. Ello hace necesaria la utilizacin
de un algoritmo numrico de optimizacin.
Consideremos una funcin 1 (0) cuyo mnimo estamos buscando. Supong-
amos que disponemos de una estimacin inicial de los parmetros desconocidos,

0
0
, y queremos obtener otra estimacin ms prxima al verdadero vector. Si
aproximamos el valor de la funcin objetivo 1 en el entorno del punto

0
0
, ten-
emos,
1 (0) = 1
_

0
0
_
\1
_

0
0
_
0
_
0

0
0
_

1
2
_
0

0
0
_
0
_
\
2
1
_

0
0
__ _
0

0
0
_
donde \1
_

0
0
_
, \
2
1
_

0
0
_
denotan, respectivamente, el vector gradiente y
la matriz hessiana de la funcin 1, evaluados en el punto

0
0
. Para encontrar una
338
estimacin numrica que mejore la que tenamos hasta ahora,

0
0
, podemos min-
imizar el valor numrico del miembro derecho de la expresin anterior, tomado
como funcin del vector de parmetros 0, '(0). Al igualar a cero la derivada de
dicha funcin respecto de 0 tenemos,
\1
_

0
0
_

_
\
2
1
_

0
0
__ _
0

0
0
_
= 0
es decir,
0 =

0
0

_
\
2
1
_

0
0
__
l
\1
_

0
0
_
(76)
La derivada segunda de '(0) es igual a
_
\
2
1
_

0
0
__
, por lo que si este
hessiano es denido positivo, estaremos aproximndonos al mnimo de la funcin
1 (0) . Una vez calculado el valor numrico de 0 en (76) lo tomamos como la
prxima estimacin,

0
l
. El procedimiento puede volver a repetirse, hasta que se
consiga la convergencia a un punto mnimo. Cuando esto ocurra, sin embargo,
no sabremos si el mnimo alcanzado es de naturaleza local o global, lo que
habremos de explorar siguiendo las pautas que daremos ms adelante.
En el caso de la estimacin por mxima verosimilitud, la funcin que quer-
emos minimizar es ln1(0) , donde 1(0) denota la funcin de verosimilitud.
As, tenemos el algoritmo numrico,
0 =

0
0

_
\
2
ln1
_

0
0
__
l
\ln1
_

0
0
_
(77)
La matriz de covarianzas, una vez lograda la convergencia, es
Co
_

0
n
_
=
_
\
2
ln1
_

0
0
__
l
que ser denida positiva en el caso de una distribucin de probabilidad
Normal para la innovacin del modelo, puesto que la densidad Normal es estric-
tamente cncava.
El estimador de mxima verosimilitud es eciente, pero nos encontramos
a dos dicultades: una, la referida acercad e nuestro desconcimietno sobre si
hemos alcanzado un mximo local o global; otro, que las buenas propiedades
del estimador de mxima verosimilitud descansan en que el supuesto acerca de
la distribucin de probabilidad que sigue la innovacin del modelo sea correcto.
En muchas ocasiones se calcula el estimador bajo supuestos de Normalidad
porque es ms sencillo, aun a sabiendas de que la distribucin de probabilidad
de la innovacin dista de ser Normal. El estimador resultante se conoce como
estimador de quasi-mxima verosimilitud.
15.3.12 Algunas simplicaciones
La puesta en prctica del algoritmo anterior requiere obtener las expresiones
analticas de las derivadas primeras y segundas de la funcin 1. Ello signica
calcular /
_
|3
2
_
derivadas, que hay que evaluar para cada dato, utilizando los
339
valores numricos de los parmetros que en ese momento se tienen como es-
timacin, lo que puede ser un gran trabajo. Para evitar esta tarea pueden
adoptarse algunas posibles soluciones:
sustituir el hessiano \
2
1
_

0
0
_
por el producto del vector gradiente por s
mismo, \1
_

0
0
_
\1
_

0
0
_
0
, lo que genera una matriz cuadrada, simtrica,
denida positiva,
sustituir las derivadas analticas por derivadas numricas. Para ello, cuando
disponemos de un vector de estimaciones

0
nl
, variamos ligeramente uno
de los parmetros, y evaluamos numricamente la funcin objetivo en el
vector resultante. El cambio en el valor numrico de 1, dividido por la
variacin introducida en el parmetro considerado, nos da una aproxi-
macin numrica a la derivada parcial con respecto a dicho parmetro,
evaluada en el vector de estimaciones disponibles en ese momento,
las derivadas analticas se simplican mucho, generalmente, si utilizamos
su esperanza matemtica. Ello nos llevar al algoritmo iterativo,
0 =

0
0

_
1
_

0
0
__
l
\ln1
_

0
0
_
donde 1
_

0
0
_
denota la matriz de informacin correspondiente a la dis-
tribucin de probabilidad que se ha supuesto para la innovacin del modelo:
1
_

0
0
_
= 1
_
\
2
ln1
_

0
0
__
. Este procedimiento se conoce como algoritmo de
scoring, y es muy utilizado, por su simplicidad. en tal caso, la matriz de covar-
ianzas del estimador resultante es,
Co
_

0
n
_
=
_
1
_

0
0
__
l
15.3.13 Criterios de convergencia
Antes de ello, vamos a establecer criterios de convergencia: decimos que el algo-
ritmo iterativo anterior ha convergido, y detenemos el procedimeitno numrico
de estimacin, cuando se cumple alguna de las siguientes condiciones:
el valor numrico de la funcin objetivo vara menos que un cierto umbral
previamente establecido al pasar de una estimacin

0
nl
, a la siguiente,

0
n
,
el gradiente de la funcin objetivo, evaluado en la nueva estimacin, \1
_

0
n
_
,
es pequeo, en el sentido de tener una norma reducida. Para comprobar el
cumplimiento de esta condicin, puede utilizarse la norma eucldea: raiz
cuadrada de la suma de los cuadrados de los valores numricos de cada
componente del gradiente, o puede utilizarse el valor numrico de cualquier
340
forma cuadrtica calculada con el vector gradiente y una matriz denida
positiva.
la variacin en el vector de estimaciones es inferior a un umbral pre-
viamente establecido. Para comprobar esta condicin utilizaramos una
norma del vector diferencia

0
n

0
nl
,
se ha alcanzado el mximo nmero de iteraciones establecido en el pro-
grama de clculo numrico que lleva a cabo la actualizacin de estima-
ciones descrita en (76) . Esto se hace con el objeto de que el programa
de estimacin no contine iterando durante un largo perodo de tiempo,
especialmente, si no est mejorando signicativamente la situacin de es-
timacin.
El programa de estimacin puede disearse para que se detenga cuando se
cumple uno cualquiera de estos criterios, o todos ellos. Es importante puntu-
alizar, por tanto, que al estimar mediante un algoritmo numrico, el investigador
puede controlar: i ) las estimaciones iniciales, ii ) el mximo nmero de itera-
ciones a efectuar, y iii ) el tamao del gradiente, iv) la variacin en el vector
de parmetros y v) el cambio en el valor numrico de la funcin objetivo por
debajo de los cuales se detiene la estimacin. Cuando se utiliza una rutina
proporcionada por una librera en un determinado lenguaje, dicha rutina incor-
pora valore snumricos para todos los criterios sealados, que pueden no ser
los que el investigador preferira, por lo que es muy conveniente poder variar
dichos parmetros en la rutina utilizada. Alternativamente, lo que es mucho
ms conveniente, el investigador puede optar por escribir su propio programa
de estimacin numrica.
Estos aspectos afectan asimismo a la presentacin de los resultados obtenidos
a partir de un esquema de estimacin numrica: como generalmente no sabemos
si hemos alcanzado un ptimo local o global, esto debe examinarse volviendo
a repetir el ejercicio de estimacin a partir de condiciones inniciales sustan-
cialmente diferentes de las utilizadas en primer lugar, con objeto de ver si se
produce la convergencia, y cual es el valor de la funcin objetivo en dicho punto.
Conviene repetir esta prueba varias veces. Asimismo, cuando se presentan es-
timaciones, deberan acompaarse de la norma del graidnet en dicho punto, as
como de los umbrales utilizados para detener el proceso de estimacin, tanto
en trminos del vector gradiente, como de los cambios en el vector de estima-
ciones, o en el valor numrico de la funcin objetivo, como hemos explicado en
el prrafo anterior.
15.3.14 Dicultades prcticas en el algoritmo iterativo de estimacin
En ocasiones observamos dicultades en el proceso de convergencia: la
rutina numrica itera un nmero reducido de veces, y se detiene en un
punto muy prximo al que hemos utilizado como condiciones iniciales.
Esto puede deberse a que los umbrales de parada que hemos seleccionado,
o que estn escritos como valores por defecto en la rutina que implemente el
341
algoritmo numrico son demasiado grandes. As, en los primeros clculos,
los cambios en las estiamciones o en el valor de la funcin objetivo son
inferiores a dichos umbrales, y el algoritmo se detiene. Deben reducirse
dichos umbrales y volver a estimar. Cuando el programa se ha escrito
de modo ques e detenga cuando se cumple alguno de los criterios antes
sealados, convien incluir en el programa un mensjae que haga explcito
cul de los criterios ha conducido a su parada, de modo que reduzcamos
el umbral asociado a dicho criterio.
Otra dicutad puede presentarse en la forma de cambios muy bruscos en el
estimador. Ello se corrige introduciendo en el algoritmo (76) un parmetro
` que se conoce como longitud de salto,
0 =

0
0
`
_
\
2
1
_

0
0
__
l
\1
_

0
0
_
(78)
Hay que tener en cuenta que posiblemente est incorporado en el programa
una determinada magnitud para `, que el investigador puede alterar cuando
observe cambios bruscos en el vector de parmetros.
Tambin podra ocurrir que
15.3.15 Estimacin condicionada
Cuando se utilizan algoritmos numricos para la maximizacin de la funcin de
verosimilitud es frecuente encontrar situaciones de multicolinealidad, es decir, de
alta correlacin entre las estimaciones de algunos de los parametros del modelo,
lo que hace que la supercie de verosimilitud cuyo mximo buscamos sea plana,
lo que se traduce en un gradiente reducido, que es lo que hace que el valor
de la funcin objetivo (la altura de la supercie sobre la que nos movemos)
apenas vare incluso si variamos mucho los parmetros que estn altamente
correlacionados entre s. Decimos que los parmetros que, por su alta correlacin
mutua causan esta situacin, no estn identicados, ya que variaciones notables
en ellos no alteran apenas el valor numrico de la funcin objetivo. En estos
casos, el algoritmo se detiene al satisfacerse el criterio de tener un gradiente de
norma reducida, pero en modo alguno signica que el proceso de estimacin ha
nalizado satisfactoriamente.
Para tratar estas situaciones, cuando se identican uno o dos parmetros
altamente correlacionados con los dems, puede llevarse a cabo una estimacin
condicionada, jando valores alternativos de dichos parmetros a lo largo de
una red, maximizando la verosimilitud respecto de los dems, y comparando
resultados para alcanzar el mximo absoluto.
15.4 Estimacin por mtodo generalizado de los momen-
tos
Si consideramos nuevamente la discretizacin aproximada del modelo de tipos
de inters,
342
r
|
r
|l
= c ,r
|l
j
|
con,
1
|l
j
|
= 0 (79)
1
|l
j
2
|
= o
2
r
2~
|l
La condicin sobre el momento de segundo orden puede escribirse,
1
|l
_
j
2
|
o
2
r
2~
|l
_
= 0 (80)
por lo que tenemos en el modelo que dos funciones del trmino de error
tienen esperanza condicional igual a cero. Un criterio de estimacin se basara
en explotar la idea de que si el modelo es correcto y las condiciones poblacionales
son ciertas, sus anlogos muestrales no deberan ser muy diferentes de cero.
En realidad, utilizamos en la estimacin condiciones algo ms dbiles, como
son,
1 [A
|l
j
|
[ = 0 (81)
1
_
A
|l
_
j
2
|
o
2
r
2~
|l
__
= 0
donde A
|l
es cualquier variable contenida en el conjunto de informacin
disponible en t 1. Las variables A
|l
utilizadas en la estimacin del modelo
reciben el nombre de instrumentos, en lnea con la denominacin habitual en
econometra, puesto que (81) muestra que son variables incorrelacionadas con
el trmino de error del modelo.
Para cada conjunto de instrumentos tenemos un estimador 'G'. Adems,
hemos de tener presente que este estimador utiliza un conjunto de condiciones
ms dbiles que las que realmente tenemos disponibles. Si escribimos las condi-
ciones anteriores como,
1/
l|
(A
|l
, r
|
, r
|l
; 0) = 0, /
l|
= A
|l
j
|
1/
2|
(A
|l
, r
|
, r
|l
; 0) = 0, /
2|
= A
|l
_
j
2
|
o
2
r
2~
|l
_
formamos un vector de funciones de dimensin 2/ (en general, /), siendo
/ el nmero de variables instrumentales seleccionadas, y buscar en el espacio
paramtrico el valor numrico del vector 0 que minimiza una norma (forma
cuadrtica con matriz denida positiva) de dicho vector de funciones, evaluadas
en la muestra disponible,
'i:
0
J
T
= 'i:
0
|
1
T
T

|=l
/
|
| (82)
343
donde /
0
|
= (/
l
l|
, /
l
2|
, /
2
l|
, /
2
2|
, ..., /
|
l|
, /
|
2|
, ), es un vector la de dimensin 2/,
y la diferencia entre /
I
l
, /

l
estriba en que utilizamos en su clculo instrumentos
distintos A
I
|l
, A

|l
,
/
l
l
=
1
T

A
l
|l
j
|
, /
2
l
=
1
T

A
2
|l
j
|
, ..., /
|
l
=
1
T

A
|
|l
j
|
/
l
2
=
1
T

A
l
|l
j
|
, /
2
2
=
1
T

A
2
|l
j
|
, ..., /
|
2
=
1
T

A
|
|l
j
|
donde las variables A
I
|l
, A

|l
pueden ser: 1, r
|l
, r
|2
, etc.. Como puede
apreciarse, el nmero de condiciones de ortogonalidad muestrales de que disponemos
en la estimacin es igual al producto del nmero de condiciones de ortogonal-
idad poblacionales por el nmero de instrumentos que utilicemos en cada una
de ellas, que supondremos el mismo.
Para denir una norma del vector / = (/
l
, /
2
, ..., /
T
), escogemos una matriz

T
denida positiva, y consideramos el problema,
'i:
0
|
1
T
T

|=l
/
|
|= 'i:
0
_
_
_
1
T
T

|=l
/
|
_
0

T
_
1
T
T

|=l
/
|
_
_
_
La distribucin de probabilidad asinttica del estimador resultante depende
de la eleccin de la matriz . Hansen y Singleton (1982) probaron que la
eleccin ptima de matriz de ponderaciones en el sentido de minimizar la
matriz de covarianzas del estimador 'G' resultante se consigue utilizando
una aproximacin muestral a la inversa de la esperanza matemtica,
o
0
= 1 [(//
0
)[ o = I
0

I=l

I=0
(I
I
I
0
I
) , do:dc I
I
= 1 (/
|
/
|I
)
lo que se consigue escogiendo como matriz
T
,

T
=
_
_
1
T
J

=J
T

|=l
/
|
/
0
|
_
_
l
=
_
_
J

=J
o
T
(,)
_
_
l
(83)
donde o
T
(,) es cada una de las matrices de covarianzas retardadas,
o
T
(,) =
1
T
T

|=l
/
|
/
0
|
y donde 1 debe escogerse igual al orden de la autocorrelacin que se estima
para el vector /
|
.
El estimador que minimiza la forma cuadrtica anterior se distribuye, asin-
tticamente,
_
T(

0
T
0) (0, )
344
siendo =
_
1
0
o
l
0
1
0
0
_
l
, donde o
0
es la matriz de varianzas y covarianzas
de las condiciones de ortogonalidad antes denida, que se estima mediante (88) y
1
0
es el Jacobiano de dichas restricciones respecto a los parmetros del modelo,
1 = 1
_
0/(A
|l
, r
|
, r
|l
; 0)
00
_
= 1
_
A
|l
Jq
t
J0
A
|l
J(q
2
t
c
2
:
2
t1
)
J0
_
Por tanto, podemos aproximar:

0
T

_
0
0
,
1
T

T
_
siendo la matriz
T
una aproximacin a , denida mediante
T
= (1
T
1
0
T
)
l
,
con:
1
T
=
1
T

|
_
A
|l
Jq
t
J0
A
|l
J(q
2
t
c
2
:
2
t1
)
J0
_
En consecuencia, puede apreciarse que la expresin analtica para la obten-
cin del estimador 'G' puede escribirse, tomando derivadas en (82) ,
1
T
T

|=l
|
_
A
|l
Jq
t
J0
A
|l
J(q
2
t
c
2
:
2
t1
)
J0
_
0

_
1
T
T

|=l
A
|l
j
|
A
|l
_
j
2
|
o
2
r
2~
|l
_
_
= 0
donde los rdenes de los factores son r:/, :/r:/ y :/r1, siendo : el
nmero de condiciones de ortogonalidad poblacionales, 2 en nuestro caso, y
/ el nmero de instrumentos. Estas ecuaciones sern lineales si el gradiente
_
Jq
t
J0
J(q
2
t
c
2
:
2
t1
)
J0
_
lo es, como ocurre en un modelo lineal y sin heterocedastici-
dad.
Para iniciar el proceso iterativo de estimacin, en el que la matriz
T
se va
actualizando en cada etapa, se comienza tomando
T
= 1
n|
, para obtener en
la primera etapa el estimador que minimiza
_
_
l
T

T
|=l
/
|
__
l
T

T
|=l
/
|
_
0
_
. A
partir de las estimaciones obtenidas, se calculan las matrices arriba indicadas y
se itera el procedimiento.
Como el nmero de condiciones de ortogonalidad utilizado en la estimacin
debe ser mayor que el nmero de parmetros a estimar, existe un nmero de
grados de libertad, y podemos contrastar la medida en que las condiciones de
ortogonalidad no utilizadas para obtener las estimaciones de los parmetros, se
satisfacen. Para ello, conviene saber que el valor mnimo alcanzado por la forma
cuadrtica (82) , multiplicado por el tamao de la muestra, T, se distribuye
como una
2
Jl
, siendo qd| el nmero de grados de libertad la diferencia entre el
nmero de condiciones de ortogonalidad utilizadas, y el nmero de parmetros
estimados.
Si tomamos como instrumento una constante, tenemos las condiciones,
345
1j
|
= 1 [r
|
r
|l
c ,r
|l
[ = 0
1
_
j
2
|
o
2
r
2~
|l
_
= 1
_
(r
|
r
|l
c ,r
|l
)
2
o
2
r
2~
|l
_
= 0
que implican en la muestra,
1
T
T

|=l
/
ll,|
= c , r = 0
1
T
T

|=l
/
l2,|
=
1
T
T

|=l
_
(r
|
(1 ,) r
|l
c)
2
o
2
r
2~
|l
_
= 0
mientras que si tomamos r
|l
como instrumento, tenemos,
1
T
T

|=l
/
2l,|
=
1
T
T

|=l
_
r
|
r
|l
(1 ,) r
2
|l
cr
|l

= 0
1
T
T

|=l
/
22,|
=
1
T
T

|=l
_
r
|l
_
(r
|
(1 ,) r
|l
c)
2
o
2
r
2~
|l
__
= 0
cuatro ecuaciones que dependen de momentos muestrales de distintas fun-
ciones de los tipos de inters, todas ellas calculables a partir de la informacin
muestral, y de los cuatro parmetros desconocidos. El problema es que, como
fcilmente se aprecia, el sistema de ecuaciones no puede resolverse analtica-
mente, fundamentalmente porque, salvo en casos muy simples, es un sistema de
ecuaciones no lineales en las incgnitas, que son los parmetros del modelo.
En este caso, si tomamos 1 = 0, las matrices 1
T
y
T
tienen una estructura:
1
T
=
1
T 1
T

|=2
_
_
_
_
1 r
|l
0 0
r
|l
r
2
|l
0 0
0 0 2or
2~
|l
2or
2~l
|l
0 0 2or
2~
|l
lno 2or
2~l
|l
lnr
|l
_
_
_
_
;
=
1
T 1
T

|=2
_

_
_
_
_
_
/
ll,|
/
l2,|
/
2l,|
/
22,|
_
_
_
_
_
/
ll,|
/
l2,|
/
2l,|
/
22,|
_
_

_
=
=
1
T 1
T

|=2
_
_
_
_
/
2
ll,|
/
ll,|
/
l2,|
/
ll,|
/
2l,|
/
ll,|
/
22,|
/
l2,|
/
ll,|
/
2
l2,|
/
l2,|
/
2l,|
/
l2,|
/
22,|
/
2l,|
/
ll,|
/
2l,|
/
l2,|
/
2
2l,|
/
2l,|
/
22,|
/
22,|
/
ll,|
/
22,|
/
l2,|
/
22,|
/
2l,|
/
2
22,|
_
_
_
_
En realidad, en el clculo del estimador del mtodo generalizado de momen-
tos se utilizan ms condiciones de ortogonalidad que parmetros se pretenden
estimar, lo que permite contrastar la sobreidenticacin del modelo.
346
Part III
Stock Market
347
16 El modelo de valoracin de activos
16.1 Introduccin
Una vez que hemos examinado el modo en que un inversor puede seleccionar
una cartera de activos, estamos en condiciones de caracterizar el modo en que se
determinan los precios y, como consecuencia, las rentabilidades, en un mercado.
Al igual que en cualquier mercado de un bien fsico, un mercado nanciero no
hace sino recoger las interacciones de todos los participantes. En ausencia de
fricciones o restricciones, muy infrecuentes en mercados nancieros, la igualdad
de oferta y demanda, es decir, el aclarado del mercado, determinar el precio
de un activo.
Como vamos a ver, este ejercicio de calcular el precio (y rentabilidad) de
equilibrio de un activo, conduce a establecer una relacin de equilibrio entre
rentabilidad esperada y riesgo de un activo cualquiera de un mercado. A su vez,
los modelos de equilibrio, que toman como punto de partida los modelos de con-
struccin de cartera, tiene asimismo implicaciones acerca de las caractersticas
de una cartera ptima.
Veremos inicialmente el modelo de valoracin de activos de capital, o capital
asset pricing model, en su versin ms restringida. Posteriormente, eliminare-
mos alguna de las hiptesis que subyacen a dicho modelo, para construir ver-
siones vlidas en condiciones ms generales (y realistas). Ms adelante, repasare-
mos algunos de los contrastes empricos de modelos de equilibrio general de
valoracin de activos. Finalmente, examinaremos una teora adicional de val-
oracin de activos nancieros, el modelo de precios de arbitraje, o arbitrage
pricing theory.
Hiptesis incorporadas en el modelo da valoracin de activos nancieros:
1)ausencia de costes de transaccin,
2)activos continuamente divisibles
3)ausencia de impuestos personales sobre la renta
4)un inversor no puede, por s slo, inuir sobre el precio de un activo,
mediante compras o ventas del mismo,
5) los inversores toman sus decisiones considerando nicamente la rentabili-
dad esperada y el riesgo del activo en consideracin,
6) se permiten posiciones cortas, sin ninguna limitacin,
7) existe un activo sin riesgo a cuyo tipo de inters se permite a los inversores
prestar y pedir prestado, cualquier cantidad que deseen,
8)todos los inversores denen el perodo relevante de igual manera,
9) todos los inversores tienen idnticas expectativas respecto a la rentabilidad
esperada y riesgo de cada activo, as como respecto al a matriz de correlaciones
entre las rentabilidades de cada par de activos,
10) todos los activos (incluido el capital humano) son negociables en el mer-
cado.
Puesto que vamos a desarrollar modelos tericos bastante restringidos y,
por tanto, relativamente poco realistas, es conveniente recordar la polmica
acerca de la forma apropiada de contrastar o validar un modelo: el modelo ser
348
adecuado en la medida en que represente adecuadamente el comportamiento del
mercado o la economa que pretenda representar.
El modelo de valoracin de activos nancieros fue introducido, de modo sep-
arado, por Sharpe, Lintner y Mossin. Comenzamos con una deduccin simple,
aunque no totalmente rigurosa, del modelo:
16.2 Deduccin sencilla del modelo CAPM
Consideramos un mercado en el que se permiten posiciones cortas o ventas a
corto, pro no se permite prstamos ni crditos al tipo de inters sin riesgo. Cada
inversor se enfrenta a una frontera eciente como la de la Figura 1. En ella, el
tramo BC representa la frontera eciente, mientras que ABC es el conjunto de
carteras de mnima varianza. La frontera eciente diferir entre inversores si
tiene distintas expectativas acerca de los estadsticos de los activos del mercado.
Si se permite prestar y pedir prestado al tipo de inters sin riesgo, entonces
la cartera de activos con riesgo escogida por cada inversor puede caracterizarse
con independencia de las preferencias de dicho inversor. Esta caracterizada
por la tangente de mayor pendiente trazada desde el punto que representa al
activo sin riesgo. Bajo expectativas homogneas, todos los inversores compran la
misma cartera de renta variable, si bien diversican en distinta cuanta respecto
al activo sin riesgo, pues lo hacen en funcin de sus preferencias. Este es el
teorema de los dos fondos. Una consecuencia de todo esto es que, en equilibrio,
la cartera 1 que compran todos los inversores no puede ser sino la cartera-
mercado. Esta es una cartera formada por todos los activos del mercado, cada
uno de los cuales entra en una proporcin igual a su capitalizacin relativa.
La lnea recta de la Figura 2 es conocida como la recta del mercado de capital
(capital market line).Todos los inversores se posicionarn en algn punto de la
misma, y todas las carteras ecientes estn alineadas a lo largo de ella. Sin
embargo, no todos los activos individuales estn sobre la recta. De hecho, ya
sabemos que las carteras que combinan el activos in riesgo con activos con riesgo,
estarn por debajo de la lnea de mercado, excepto si son ecientes.
Ya vimos anteriormente que la ecuacin de dicha recta es:
r
ct
= r
J

r
1
r
J
o
1
o
ct
donde ce denota una cartera eciente.
El cociente que aparece en dicha expresin puede ser interpretado como el
precio de mercado del riesgo para las carteras ecientes. Es la rentabilidad,
en exceso de la que ofrece el activo sin riesgo, que puede esperar obtenerse por
incrementar el riesgo de una cartera eciente en una unidad. Multiplicada por el
factor que le acompaa, nos da la rentabilidad que se espera recibir por asumir
riesgo en una cartera eciente. El primer trmino es el precio del tiempo, o
la rentabilidad que se requiere por retrasar durante un perodo los planes de
consumo, al menos en parte, e invertir la cantidad correspondiente en el activo
sin riesgo. Por tanto, la rentabilidad esperada de una cartera eciente es igual
349
al precio del tiempo ms el producto del precio unitario del riesgo por el riesgo
de la cartera.
Este ecuacin establece la relacin entre rentabilidad esperada y riesgo de
carteras ecientes, pero no nos dice mucho acerca de las relaciones similares
para carteras no ecientes, o para activos individuales.
Anteriormente, ya vimos que la beta de una cartera bien diversicada es
una buena medida del riesgo de un activo de la misma. Tambin sabemos que,
si todos los inversores comparten las mismas expectativas, todos compran la
cartera de mercado, que es una cartera bien diversicada. Como suponemos
que los inversores se preocupan nicamente de rentabilidad esperada y riesgo,
rentabilidad esperada y beta son las nicas caractersticas de un activo que
necesitamos considerar.
En el mapa que recoge estas caractersticas, todos los activos estn alineados
a lo largo de una recta. Supongamos que no es as, y construyamos la lnea recta
que pasa por dos de ellos (r
.
, ,
.
) y (r
1
, ,
1
), de modo que (r
c
, ,
c
) quede por
encima de la recta. Las carteras formadas combinado A y B estn en la recta
que acabamos de trazar. Ello se debe a que tanto la rentabilidad esperada como
la beta de una cartera son combinacin lineal de los activos que la componen,
con las ponderaciones con que conguran dicha cartera.
Tenemos, por tanto, una situacin en que dos carteras (una formada por
un slo activo) tienen el mismo riesgo pero distinta rentabilidad esperada. Las
operaciones de arbitraje conduciran a vender aquella de menor rentabilidad
esperada, y comprar la de mayor. Con ello, disminuira el precio de la primera y
aumentara la de la segunda, aumentando la rentabilidad esperada de la primera,
y reducindose la de la segunda, hasta que ambas se igualasen.
Por tanto, todos los activos, as como todas las carteras de activos deben
estar sobre una recta en el plano (r, ,):
r
I
= a /.,
I
Como basta dos puntos para identicar una lnea recta, tomamos el activo sin
riesgo, caracterizado por el punto (r
J
, 0), y la cartera de mercado, caracterizada
por (r
1
, 1) pues ya vimos que la beta del mercado es igual a 1. El activo sin
riesgo no tiene ningn riesgo sistemtico, que es lo que es capturado por la beta,
por lo que su beta es cero.
Resolviendo las ecuaciones:
r
J
= a /.0
r
1
= a /.1
tenemos: a = r
J
y / = r
1
a, que llevados a la ecuacin de la recta, la
convierte en:
r
I
= r
J
(r
1
r
J
) .,
I
350
Este es el modelo de valoracin del mercado de activos, o CAPM. La recta
anterior es la recta del mercado de activos, o security market line, y describe la
rentabilidad esperada para cualquier activo o cartera en la economa, tanto si es
eciente como si no lo es. Por otra parte, ni r
J
ni r
1
son caractersticas de un
activo o cartera individual, de modo que la importancia de la ecuacin anterior
estriba en que arma que la diferencia entre las rentabilidades esperadas de dos
activos depende exclusivamente de diferencias entre sus betas. Adems, hemos
probado que la relacin entre rentabilidad esperada y la beta de un activo o
cartera es lineal. El CAPM es un modelo de equilibrio, que arma que los
activos de beta alto tendern a producir rentabilidades superiores, porque son
activos de mayor riesgo.
Como suele ocurrir con frecuencia en este tipo de relaciones, tan importante
es lo que en ella aparece como determinante de la rentabilidad esperada de un
activo, como lo que no aparece. En particular, recordemos que el riesgo de un
activo puede descomponerse en un componente sistemtico y otro especco del
activo, y que su beta es un indicador del componente sistemtico de riesgo.
En consecuencia, la ecuacin anterior muestra que el riesgo especco de un
activo no es remunerado en el mercado. No es la incertidumbre total en la
uctuacin que pueda experimentar la rentabilidad de un activo lo que recibe
remuneracin en el mercado, sino slo el componente de la misma que no puede
eliminarse diversicando una cartera. Por supuesto que estas implicaciones son
contrastables empricamente.
Para nalizar, notemos que es consistente con el modelo anterior que un ao
concreto, un activo de beta alto pueda obtener una rentabilidad inferior a la de
otro de menor beta. El modelo dice que, en promedio a lo largo de un perodo
sucientemente largo, esto no va a ocurrir.
Recordando que el beta de un activo es:
,
I
=
o
I1
o
2
1
la recta del mercado de activos puede escribirse:
r
I
= r
J

r
1
r
J
o
1
o
I1
o
1
(84)
que es la ecuacin de una recta en el plano
_
r
I
,
c
1f
c
2
f
_
. Pero
c
1f
c
2
f
es la
contribucin al riesgo de una cartera de variaciones en la proporcin del activo
i, por lo que puede ser interpretado como una medida del riesgo de un activo
individual o una cartera. En consecuencia, la recta del mercado de activos
muestra que la rentabilidad esperada de un activo es igual al tipo de inters sin
riesgo ms el precio de mercado del riesgo por el nivel de riesgo del activo o
cartera.
En ocasiones, la ecuacin del CAPM se escribe:
r
I
= r
J

r
1
r
J
o
2
1
o
I1
351
y se dene la fraccin que en ella aparece como precio unitario del riesgo, y
o
I1
como medida del riesgo del activo i. Sin embargo, ya hemos mostrado que
la primera representacin es ms fcilmente interpretable.
A continuacin, desarrollamos una derivacin ms rigurosa del modelo CAPM.
A pesar de ser matemticamente ms exigente, ser de mayor inters cuando
queramos discutir el modelo bajo supuestos menos restrictivos que los que hasta
ahora hemos considerado.
16.3 Deduccin rigurosa del modelo CAPM
Recordemos que la cartera ptima se escoge maximizando, sobre la frontera
eciente, la pendiente de la recta que une una cartera de la frontera con el
punto que representa el activo sin riesgo. Dicha pendiente es:
0 =
r
ct
r
J
o
ct
Al derivar 0 respecto a cada una de las ponderaciones de la cartera e igualar
a cero, obtuvimos:
`
_
A
l
o
l|
A
2
o
2|
... A
|
o
2
|
... A
n
o
n|
_
= r
|
r
J
que es un conjunto de : ecuaciones simtricas, una para cada activo en el
mercado. Bajo expectativas homogneas, todos los inversores escogen la misma
cartera ptima que, en equilibrio, ha de ser la cartera de mercado. Por tanto, las
ponderaciones que resultan al resolver el sistema han de ser las capitalizaciones
que los distintos activos tiene en el mercado, y que denotamos por A
|
.
Por otra parte, el parntesis en la expresin anterior es igual a Co(r
|
, r
1
),
por lo que:
`Co(r
|
, r
1
) = r
|
r
J
ecuacin que debe satisfacerse para todos los activos, por lo que tambin
para el mercado:
`o
2
1
= r
1
r
J
de modo que:
` =
r
1
r
J
o
2
1
que llevado a la ecuacin de un activo individual, proporciona:
la recta del mercado de activos, para lo que no hemos tenido que suponer
que la beta de un activo es la medida relevante del nivel de riesgo del mismo.
352
16.4 El modelo CAPM en la valoracin de inversiones
El modelo CAPM puede utilizarse para valorar activos nuevos o, incluso ms
generalmente, para valorar proyectos de inversin. Todo lo que necesitamos es
transformar la ecuacin de valoracin de activos, que est expresada en trminos
de rentabilidades, a ser expresada en trminos de precios.
Sea 1
I
el precio actual de un activo o proyecto de inversin, y sea 1
I
su
precio futuro. la rentabilidad de dicho proyecto es:
r
I
=
1
I
1
I
1
I
=
1
I

1
I
1
Si denotamos por 1
1
el actual precio de la cartera de mercado, y por 1
I
su
precio futuro, tendremos asimismo:
r
1
=
1
1
1
1
1
1
=
1
1

1
1
1
Sustituyendo en (84), tenemos:
1
I

1
I
1 = r
J

_
1
1

1
1
1 r
J
_
o
I1
o
2
1
por lo que:
Co(r
I
, r
1
) = 1
__
1
I
1
I
1
I

1
I
1
I
1
I
__
1
1
1
1
1
1

1
1
1
1
1
1
__
=
= 1
__
1
I
1
I

1
I
__
1
1
1
1
1
1
__
=
1
1
I
1
1
Co(1
I
, 1
1
)
Anlogamente:
o
2
1
=
1
1
2
1
\ ar(1
1
)
y sustituyendo ambas en la ecuacin anterior, tenemos:
1
I

1
I
= (1 r
J
)
_
1
1

1
1
(1 r
J
)
_
l
111
f
Co(1
I
, 1
1
)
l
1
2
f
\ ar(1
1
)
multiplicando en ambos miembros por 1
I
y simplicando:
1
I
= (1 r
J
)1
I

_
1
1
(1 r
J
)1
1
_
Co(1
I
, 1
1
)
\ ar(1
1
)
y despejando:
1
I
=
1
1 r
J
_
1
I

_
1
1
(1 r
J
)1
1
_
Co(1
I
, 1
1
)
\ ar(1
1
)
_
353
que sugiere que se debe restar del precio esperado futuro una compensacin
por asumir riesgo, y calcular el valor presenta de la cantidad que resulte. El
trmino dentro del corchete es el equivalente cierto del pago esperado futuro.
Aunque esta idea no es en absoluto nueva, el CAPM proporciona una modo
concreto y riguroso de calcular dicho equivalente cierto. Puede probarse que:
1
1
(1 r
J
)1
1
[\ ar(1
1
)[
l/2
es igual a la medida del precio de mercado de una unidad de riesgo, y que:
Co(1
I
, 1
1
)
[\ ar(1
1
)[
l/2
es la medida relevante de riesgo para cualquier activo.
Uno de los aspectos que mejor reeja que el CAPM que hemos presentado
no reeja adecuadamente el comportamiento de inversores individuales es que
la mayora de estos mantienen carteras distintas de la de mercado. Esta es una
razn para desarrollar versiones del CAPM bajo hiptesis menos restrictivas
que las que citamos al comienzo. Ello nos ayudar, adems, a tener diversas
especicaciones que podamos contrastar empricamente. Por ltimo, es intere-
sante generalizar el modelo para que recoja algunos aspectos del mundo real,
como pueda ser la scalidad, porque, de lo contrario, es imposible discutir los
cambios que esperamos que se produzcan en el comportamiento de los inversores
individuales como consecuencia de cambios scales.
16.5 El CAPM cuando no se permiten ventas (posiciones)
a corto
Hasta ahora, hemos permitido que un inversor pueda vender un activo, con
independencia de que lo tenga o no en su cartera, y utilizar los ingresos para
invertir en otros activos. Sin embargo, esta no es una hiptesis necesaria. Puesto
que en equilibrio, todos los inversores tienen la cartera de mercado, y en ella
no se tiene ninguna posicin corta, la prohibicin de ventas a corto no altera el
equilibrio. Por tanto, se obtendr la misma relacin CAPM.
16.5.1 Modicaciones sobre los prstamos y crditos al tipo sin riesgo.
En este epgrafe modicamos la hiptesis acerca del acceso de los inversores a un
tipo sin riesgo, tanto para prestar como para solicitar crditos. Consideramos
primero que ninguna de ambas cosas es posible. Posteriormente, consideraremos
que los tipos de inters de ambas operaciones dieren.
16.5.2 Los inversores no pueden prestar ni pedir prestado a un tipo
sin riesgo.
Como hicimos con el modelo CAPM ms restringido, efectuamos primero una
deduccin simple del modelo, para pasar a una derivacin ms rigurosa del
354
mismo posteriormente.
Deduccin sencilla Ya hemos argumentado varias veces que el componente
sistemtico del riesgo es una medida adecuada del riesgo de una cartera o activo,
y que dos activos con el mismo riesgo sistemtico no pueden ofrecer distintas
expectativas de rentabilidad. Todos los activos o carteras, incluso si no son
ecientes, deben alinearse a lo largo de una curva en el plano (r, ,):
r = a /.,
En particular, la cartera de mercado, que tiene una beta igual a uno, estar
tambin sobre la recta. Denotemos por r
:
la rentabilidad esperada de una
cartera de beta cero. Tenemos las ecuaciones:
r
:
= a /.0 =a = r
:
r
1
= a /.1 =/ = r
1
r
:
por lo que la ecuacin de la recta se convierte en:
r
I
= r
:
(r
1
r
:
) .,
I
que es la versin beta-cero del modelo de valoracin del mercado de activos
o CAPM [Figura]. Esta forma de la relacin de equilibrio general es un modelo
de dos factores.
Deduccin rigurosa Supongamos que la cartera de mercado est sobre la
frontera eciente en el plano de rentabilidad esperada y riesgo. Ya veremos ms
adelante que tiene que ser as. Ya sabemos que podemos denir cada cartera
de la frontera eciente hallando la tangencia con las rectas que pasan por el
punto que representa en dicho plano al activo sin riesgo, y haciendo variar la
rentabilidad del mismo. Dicha rentabilidad es, en este anlisis, cticia, y el
activo sin riesgo puede no existir.
Denamos r
J
como la rentabilidad sin riesgo a la que, si pudieran prestar
y pedir prestado los inversores, seleccionaran de entre las carteras de renta
variable, la cartera de mercado. Dicho inversor, para encontrar las proporciones
de su cartera ptima, resolvera el sistema de ecuaciones:
`
_
A
l
o
l|
A
2
o
2|
... A
|
o
2
|
... A
n
o
n|
_
= r
|
r
J

siendo la solucin las proporciones de mercado: A


|
= A
|
, / = 1, 2, ..., :. Ya
sabemos que el miembro de la izquierda en esta ecuacin es igual a Co(r
|
, r
1
),
de modo que:
r
|
= r
J
`Co(r
|
, r
1
)
La rentabilidad esperada para la cartera de mercado es una combinacin
lineal (media aritmtica ponderada) de las rentabilidades esperadas sobre los
355
activos individuales. Como tenemos una ecuacin de este tipo para cada activo
individual, tendremos tambin:
r
1
= r
J
`\ ar(r
1
)
de modo que:
` =
r
1
r
J

o
2
1
por lo que:
r
|
= r
J

r
1
r
J

o
2
1
Co(r
|
, r
1
) = r
J
,
|
(r
1
r
J
)
que es nuevamente el beta-cero CAPM.
16.6 Las carteras de beta-cero
Ahora bien, en realidad, no existe un activo sin riesgo, con rentabilidad r
J

. Sin embargo, existe todo un continuo de activos y carteras ofreciendo una


rentabilidad esperada r
J
, y estn alineados a lo largo del segmento ZC en
la Figura. La ecuacin (85) nos dice que cuando un activo o cartera tiene
rentabilidad esperada: r
|
= r
J
, entonces su beta (es decir, la covarianza entre
su rentabilidad y la del mercado) ha de ser cero. Aunque en el modelo CAPM
podra utilizarse cualquier activo de beta cero, tiene sentido utilizar el de mnima
varianza. Este es equivalente al activo o cartera de beta cero de mnimo riesgo,
y su rentabilidad esperada es r
:
. Por tanto, tenemos:
r
|
= r
:
,
|
(r
1
r
:
)
que es exactamente la expresin (85) que ya obtuvimos antes para la lnea
del mercado de activos.
Queremos identicar ahora la posicin de esta cartera de beta cero y mnima
varianza, que juegan un papel tan importante en el modelo que acabamos de
desarrollar.
En primer lugar, sabemos que la rentabilidad esperada de una de tales
carteras debe ser inferior a la de la cartera de mercado. Estamos suponiendo
que sta es eciente, por lo que estar en el tramo creciente de la frontera de
mnima varianza, y la pendiente de la curva en ella debe ser positiva. Por tanto,
al movernos sobre la tangente hacia el eje de ordenadas, la rentabilidad esper-
ada descender. Como r
:
es la interseccin de dicha tangente con el eje de
ordenadas, sta ser inferior a r
1
. En segundo lugar, la cartera de beta cero de
mnima varianza no puede ser eciente.
Para probar este ltimo resultado, denotemos por : la cartera de mnima
varianza. Esta cartera puede formarse combinando la cartera de mercado y la
cartera de beta cero, con una varianza:
356
o
2
s
= A
2
:
o
2
:
(1 A
:
)
2
o
2
1
que se minimiza para la ponderacin:
A
:
=
o
2
1
o
2
:
o
2
1
con:
\ ar(:) =
o
2
1
o
2
:
o
2
1
o
2
:
< o
2
:
Puesto que las varianzas son positivas, la cartera : de mnima varianza se
forma con ponderaciones positivas, tanto para la cartera de beta cero, como
para la cartera de mercado. Por otra parte, como r
:
< r
1
, cualquier cartera
que se forme con ponderaciones positivas de ambas, tendr una rentabilidad
esperada superior a r
:
. Por tanto, la cartera de mnima varianza tiene menor
varianza, y mayor rentabilidad esperada que la cartera de beta cero, por lo que
sta no puede ser eciente.
La Figura XX muestra la localizacin de todas las carteras ecientes en
el mapa rentabilidad esperada-riesgo (r, o). Todos los inversores mantendrn
carteras en el arco SMC. Los inversores con carteras de rentabilidad esperada
comprendida entre : y r
1
comprarn combinaciones de la cartera de beta cero
y la cartera de mercado. Aquellos que se siten a la derecha de ' construirn
su cartera vendiendo la cartera 7 y comprando la cartera de mercado. Ningn
inversor mantendr nicamente la cartera 7, puesto que es ineciente. Por
ltimo, las tenencias agregadas de la cartera 7 por parte de todos los inversores,
han de ser cero. Tenemos nuevamente un teorema de dos fondos. Los inversores
slo necesitan comprar la cartera de mercado y la cartera de beta cero de mnima
varianza.
Hemos supuesto en esta anlisis que la cartera de mercado es eciente. Si
los inversores tienen expectativas homogneas, todos se enfrentan a la misma
frontera eciente. Adems, cuando se permiten ventas a corto, todas las combi-
naciones de dos carteras de mnima varianza (es decir, del menor riesgo posible
dada su rentabilidad esperada) es asimismo una cartera de mnima varianza.
Por tanto, combinando las carteras de dos inversores cualesquiera tendremos
una cartera de mnima varianza. La cartera de mercado es una combinacin
lineal de las carteras de todos los inversores, con pesos igual a la proporcin que
cada inversor posee de todos los activos con riesgo. Por tanto, es de mnima var-
ianza. Puesto que: a) la cartera de cada inversor es eciente, y b) la rentabilidad
del mercado es un promedio de las rentabilidades de las carteras de los inver-
sores individuales, la rentabilidad de mercado es la rentabilidad de una cartera
en el segmento eciente de la frontera de mnima varianza. En consecuencia, la
cartera de mercado es no slo de mnima varianza, sino eciente.
357
16.7 Se permite prestar, pero no pedir prestado, al tipo
de inters sin riesgo
En ausencia de la posibilidad de pedir prestado al tipo de inters r
J
, tenemos
la situacin de la Figura XX. Ya sabemos que todas las cartera formadas con
el activo sin riesgo y una cartera con riesgo estn sobre la recta que une dicha
cartera y el punto que representa el activo sin riesgo en el plano de rentabilidad
esperada-riesgo (r, o). de entre todas stas, las combinaciones preferidas son las
que estn sobre la recta tangente a la frontera eciente, el segmento r
J
T en la
Figura.
En ella, T aparece a la izquierda y por debajo de la cartera de mercado M.
Por tanto, r
:
r
J
. Esto es lo que debe ocurrir: si los inversores no pudiesen
prestar ni pedir prestado, se posicionaran en SMC, como ya vimos. Cuando
puede prestar a tipo r
J
, un inversor puede situarse sobre el segmento r
J
T .
En tal caso, estara utilizando parte de su dotacin para comprar el activo sin
riesgo, y el resto para comprar la cartera T. Este inversor no comprara una
cartera distinta de T. Si hay algn inversor que no invierte en el activo sin
riesgo, comprar una cartera a la derecha de T y, como consecuencia, la cartera
de mercado ha de estar a la derecha de M.
Esto, a su vez, implica que r
:
r
J
, puesto que r
J
es la interseccin sobre
el eje de ordenadas de una recta tangente en el punto , mientras que r
:
es la
interseccin con el mismo eje de una recta tangente a la frontera eciente en el
punto M. Como la pendiente de sta ltima es menor que la de la primera, y M
est a la derecha de T, se tiene la citada ordenacin de rentabilidades.
La frontera eciente est dada por el segmento lineal r
J
T, junto con el
arco TMC. A diferencia del caso anterior, ahora no todas las combinaciones de
carteras ecientes es eciente: combinaciones de una cartera del segmento r
J
T
con una cartera del arco TMC est dominada por una cartera en dicho arco.
La cartera T puede obtenerse combinando las carteras Z y '. Los inversores
que escogen una cartera en el segmento r
J
T colocan parte de su dinero en la
cartera T ( que se construye a partir de las carteras Z y M), y parte en el activo
sin riesgo. Quienes seleccionan una cartera en el arco TM colocan parte de
su dinero en M y parte en Z. Quienes seleccionan una cartera en MC estn
vendiendo la cartera Z en corto, y comprando M . Tenemos ahora un teorema
de tres fondos: Todos los inversores se conforman comprando el activo sin riesgo,
la cartera de beta cero de mnima varianza, la cartera de mercado, y el activo
sin riesgo.
Si nos trasladamos ahora al plano (r, ,), podemos generar la lnea del mer-
cado de activos, de modo similar a como hicimos en el anlisis previo del modelo
CAPM. La cartera de mercado continuar siendo eciente, por lo que el mismo
anlisis contina siendo vlido. Todos los activos contenidos en M ofrecen una
rentabilidad esperada:
r
I
= r
:
,
I
(r
1
r
:
) (85)
Anlogamente, todas las carteras compuestas nicamente por activos con
riesgo tendrn rentabilidad esperada dada por (85). Ello genera la recta r
:
T'C
358
en la Figura XX. Sin embargo, esta ecuacin no describe el comportamiento de
la rentabilidad ofrecida por carteras que contienen el activo sin riesgo.
Sabemos, por anlisis anteriores, que las combinaciones del activo sin riesgo
y una cartera con riesgo se sitan, dentro del plano (r, ,) a lo largo de la recta
que une dicha cartera con el punto que representa al activo sin riesgo. En
nuestro caso, todos los inversores que prestan a tipo r
J
y compran activos con
riesgo, compran la cartera T, por lo que el segmento relevante es r
J
T.
Por tanto, mientras que el segmento r
:
' es la lnea del mercado de activos
para todos los activos con riesgo y para todas las carteras compuestas nica-
mente por activos de este tipo, no recoge el comportamiento de rentabilidad
esperada-riesgo de las carteras que contienen el activo sin riesgo. Las carteras
ecientes ofrecen rentabilidades esperadas en los dos segmentos lineales r
J
T y
TC. En consecuencia, para determinados niveles de beta, algunas carteras e-
cientes ofrecen una rentabilidad inferior a la que ofrecen activos individuales,
lo que puede resultar algo sorprendente. Sin embargo, conviene recordar que
la rentabilidad ofrecida por los activos o carteras en r
:
T tiene una desviacin
tpica ms elevada que la de las carteras de igual rentabilidad esperada situadas
sobre el segmento r
J
T . Para comprender esto, recordemos que la rentabilidad
de la cartera Z es aleatoria a pesar de tener un beta cero, mientras que la
rentabilidad del activo sin riesgo es determinista.
En resumen, en este modelo, en equilibrio, los inversores ya no mantienen
todos la misma cartera; sin embargo, mantienen un buen nmero de activos en
posiciones cortas (estn vendidos en dichos activos). Si no se permite prestar
ni pedir prestado a un tipo sin riesgo r
J
, tenemos un teorema de dos fondos,
mientras que si permitimos prstamos a dicho tipo, tenemos un teorema de tres
fondos. Al igual que en la versin ms restrictiva del modelo CAPM, tenemos
una lnea del mercado de activos.
16.8 Supuestos alternativos acerca de la capacidad de prestar
y pedir prestado
Supongamos ahora que el inversor puede prestar y pedir prestado, pero a tipos
diferentes. Parece natural considerar el caso en que es ms alto el tipo al cual
pide prestado, r
1
, que el tipo al que presta, r
J
. Si todos los inversores tienen
expectativas homogneas, y se enfrentan a los mismo tipos, todos tendrn una
frontera eciente como en la Figura XX. En ella, L es la cartera de activos con
riesgo que ser comprada por todos los inversores que prestan dinero a tipo
r
J
, mientras que B ser la cartera que compren aquellos inversores que piden
prestado dinero.
La cartera de mercado debe estar en la frontera eciente; adems, debe situ-
arse entre L y B. La razn es que las nicas carteras de activos con riesgo
compradas son L , B, y las que ocupan posiciones intermedias entre stas.
Adems, sabemos que las combinaciones de carteras ecientes son asimismo
ecientes. Esto lo probamos en un contexto en que no permitamos prestar ni
pedir prestado, por lo que bast demostrar que las combinaciones de carteras
en el tramo eciente de la frontera de mnima varianza estaban asimismo en
359
dicho tramo eciente. La cartera de mercado es una combinacin lineal de las
carteras de todos los inversores, y cada una de ellas es eciente, lo que hace
que la cartera de mercado est en el tramo eciente de la frontera de mnima
varianza. Adems, la rentabilidad ofrecida por el mercado es un promedio pon-
derado de las rentabilidades ofrecidas por las carteras L , B, y todas las carteras
intermedias, por lo que su rentabilidad debe estar entre L y B. Por tanto, la
cartera de mercado est en el tramo eciente, entre L y B.
Ahora estamos en condiciones de obtener la lnea del mercado de activos,
al igual que en secciones anteriores. El mismo razonamiento todava es vlido,
y la recta tiene la misma ecuacin (85). Sin embargo, esta ecuacin recoger
ahora nicamente el comportamiento de activos y carteras que no contienen el
activo sin riesgo, in en posiciones cortas ni largas. Por tanto, no es aplicable
a la rentabilidad que puedan ofrecer carteras entre L y r
J
, o con rentabilidad
esperada superior a r
1
.
16.9 Impuestos sobre la renta.
En su versin simple, el modelo CAPM ignora la existencia de impuestos, lo
que hace que un inversor sea indiferente entre recibir dividendos o ganancias de
capital. Sin embargo, las ltimas reciben, estn sometidas, a un tipo impositivo
inferior a los dividendos, por lo que los inversores preeren ser remunerados
en la forma de ganancias de capital. En todo caso, al tomar sus decisiones, un
inversor considerar la rentabilidad que espera obtener de una inversin, despus
de impuestos.
Esto hace que, incluso si las expectativas de los agentes acerca de la rentabil-
idad de una cartera antes de impuestos son homogneas, la frontera eciente a
la que se enfrentes despus de impuestos, pueda ser diferente. Se debecumplir,
sin embargo, una condicin de equilibrio, que puede probarse que conduce a la
ecuacin:
r
|
= r
J
,
|
[(r
1
r
J
) t(c
1
r
J
)[ t(c
I
r
J
) (86)
donde c
1
denota la rentabilidad por dividendo (dividendo/precio) de la
cartera de mercado, c
I
es la rentabilidad por dividendo del activo i, y t es un
factor positivo que mide los tipos impositivos relevantes sobre las ganancias de
capital y la renta. Depende, de modo complejo, de los tipos impositivos de los
inversores y de su riqueza.
Los inversores requieren una rentabilidad superior cuando reciben una buena
parte de su renta en la formad e dividendos, debido a unos tipos impositivos
ms elevados. El ltimo trmino se debe al distinto tratamiento de los intereses
sobre prstamos y crditos. Como los pagos por intereses estn gravados muy
aproximadamente del mismo modo que los dividendos, entran en la relacin de
un modo similar, aunque con signo opuesto. Puede apreciarse que si se toma
como activo i la cartera de mercado, la ecuacin se cumple como una identidad.
Sin embargo, ahora una lnea del mercado de activos ya no es suciente
para representar la relacin de equilibrio. Si en versiones anteriores del modelo
360
tan slo la beta era la nica caracterstica de un activo que condicionaba su
rentabilidad esperada, ahora, la rentabilidad por dividendo tambin inuye.
Esto implica que necesitaramos un espacio de 3 dimensiones (r
I
, ,
I
, c
I
), en el
que la relacin de equilibrio estara representada por un plano, no por una recta.
En l, para cada valor de la beta, la rentabilidad esperada aumentara con la
rentabilidad por dividendo, y para cada valor posible de la rentabilidad por
dividendo, la rentabilidad esperada aumentara con la beta.
La representacin (86) podra utilizarse para obtener carteras ptimas para
cada inversor, como funcin de sus tipos impositivos sobre las ganancias de
capital y los dividendos [Elton y Gruber (19xx)]. En equilibrio, todos los inver-
sores mantendrn carteras bien diversicadas, prximas a la cartera de mercado,
aunque se desviarn hacia aquellos activos en los que un inversor particular
tiene una ventaja scal comparativa. Como dicha ecuacin sugiere, el inver-
sor cuyo tipo impositivo es inferior al tipo efectivo promedio (entre inversores)
tender a mantener en su cartera una ponderacin de los activos que propor-
cionan altos dividendos, superior a la que reciben en la cartera de mercado, y
una ponderacin inferior de los que ofrecen una rentabilidad por dividendo in-
ferior. El inconveniente scal que reportan los activos de altos dividendos para
los inversores en tramos impositivos inferiores es menor que el que ofrecen a los
inversores en tramos impositivos ms altos, por o que los primeros tienen una
ventaja comparativa.
16.10 Activos sin mercado
Existen muchos activos sin mercado que es preciso valorar: capital humano,
benecios de la S. Social, programas de retiro, etc.. En otros casos, existe un
mercado para un activo, pero el inversor nunca considerara intercambiar dicho
activo en su mercado como parte de la composicin de su cartera ptima, debido
a unos costes de transaccin excesivos, como ocurre con las viviendas. A todos
los efectos, los consideraramos activos sin mercado.
Sea:
r
1
: rentabilidad en un perodo de los activos sin mercado
1
1
: valor total de los activos sin mercado
1
1
: valor total de los activos con mercado
Puede probarse [Mayers (19xx)]:
r

= r
J

r
1
r
J
o
2
1
1
1
,1
1
Co(r
1
, r
1
)
_
Co(r
I
, r
1
)
1
1
1
1
Co(r
I
, r
1
)
_
que mantiene la forma de la relacin de equilibrio del caso ms simple,
aunque cambiando algunos elementos. Ahora, la relacin de intercambio en-
tre rentabilidad y riesgo viene dada por:
r
1
r
J
o
2
1
1
1
,1
1
Co(r
1
, r
1
)
361
Parece razonable que la rentabilidad ofrecida por el conjunto de los activos
que no son de mercado est positivamente correlacionada con la rentabilidad del
mercado, lo que sugiere que la relacin de mercado entre rentabilidad y riesgo
sea inferior a la sugerida por el modelo simple. Es tanto menor cuanto mayor
sea dicha covarianza. Si los activos que no son de mercado tienen un valor muy
pequeo en relacin con los activos de mercado, o si hubiera una correlacin
extremadamente pequea entre las rentabilidades de activos con y sin mercado,
entonces no se cometera mucho error utilizando el modelo CAPM estndar. Sin
embargo, ejemplos como la remuneracin del capital humano sugieren ms bien
lo contrario.
Tambin la denicin de riesgo ha variado. Con activos fuera del mercado, el
riesgo depende de la covarianza entre la rentabilidad del activo y la de los activos
de mercado, as como de la covarianza entre la rentabilidad del activo y la de
los activos que no son de mercado. Este ltimo trmino recibe una ponderacin
que depende del tamao de los activos que no son de mercado, en relacin
con aqullos que s lo son. Si la rentabilidad de un activo est positivamente
correlacionada con el total de activos fuera de mercado, ser superior al riesgo
propuesto por el modelo CAPM habitual.
Teniendo en cuenta ambos cambios, la rentabilidad esperada de equilibrio
puede resultar inferior o superior a la sugerida por el modelo CAPM simple. Si
el activo tiene correlacin negativa con los activos fuera de mercado, entonces su
rentabilidad ser, en equilibrio, inferior a la proporcionada por el modelo CAPM
para su nivel de riesgo, y el precio del riesgo ser asimismo inferior para este
activo. Si su rentabilidad tiene correlacin positiva con los activos de mercado,
su rentabilidad podr ser inferior o superior, dependiendo de si el incremento de
riesgo es sucientemente elevado como para compensar el descenso en el precio
de mercado del riesgo.
Cabe esperar [Mayer (19xx)] que, en relacin con la composicin del mercado,
los inversores mantendrn una menor ponderacin de aquellos activos con los que
sus activos fuera de mercado estn ms altamente correlacionados. Brito (19xx)
ha mostrado el cumplimiento de un teorema de tres fondos: a) una cartera que
tiene con cada activo de mercado una covarianza igual, pero de signo opuesto,
a que tiene la cartera de bienes fuera de mercado del inversor, b) el activo sin
riesgo, y c) la cartera de mercado excluyendo el agregado de las inversiones
hechas por todos los inversores en el primer fondo. La composicin del primer
fondo vara para los distintos inversores.. El primer fondo est eliminando, por
diversicacin, un componente tan grande del riesgo de fuera de mercado, como
es posible. Ello permite al inversor tratar los activos de fuera del mercado, como
si fueran activos de mercado.
Este anlisis tiene implicaciones para la puesta en prctica de contrastes
empricos del modelo de equilibrio de valoracin de activos. En dichos tests,
siempre trabajamos con un conjunto incompleto de activos, por lo que r
1
cor-
respondera a aquellos activos que no se consideran al efectuar el contraste.
362
17 El modelo APT: Introduccin
Los modelos de equilibrio que hemos visto hasta ahora variantes del modelo
CAPM, consideran la esperanza y la varianza de la rentabilidad de un activo
como los criterios a tener en cuenta por un inversor. El modelo de precios
de arbitraje que examinamos a continuacin, adopta un enfoque diferente para
explicar la formacin de precios de los activos nancieros
El modelo se basa en la ausencia de arbitraje: dos activos perfectamente
sustitutivos no pueden negociarse a precios diferentes. No es preciso hacer
ninguna hiptesis acerca de las preferencias de los inversores, como hicimos
al desarrollar el modelo CAPM. En este sentido, el modelo APT es ms general.
Alternativamente, introducimos un supuesto acerca del proceso de generacin de
rentabilidades de activos individuales, que dependen linealmente de un conjunto
de ndices:
r
I|
= a
I
/
Il
1
l|
/
I2
1
2|
... /
In
1
n|
c
I|
(87)
donde a
I
denota la rentabilidad que tendra el activo si todos los ndices
fuesen cero, y /
I
denota la sensibilidad que presenta la rentabilidad del activo
i a variaciones en el ndice ,. El componente de rentabilidad no explicado por
los ndices, c
I|
se supone de esperanza nula y varianza constante, o
2
tI
. Adems,
suponemos:
1(c
I|
c
s
) = 0, \i ,= ,, \t, :
1
_
c
I|
(1
s
1

)
_
= 0, \,, \t, :
es decir, los trminos de error de distintas rentabilidades no estn correla-
cionados, ni contemporneamente, ni con retardos. Los trminos de error tam-
poco estn correlacionados con ninguno de los ndices, ni contemporneamente,
ni con retardos.
Por supuesto, estas hiptesis nos traen de nuevo al contexto de los modelos
de ndices, ya estudiados. La contribucin de la teora de precios de arbitraje
(APT) es mostrar cmo se puede pasar de un modelo de mltiples ndices a una
descripcin del equilibrio de un mercado de activos nancieros.
17.1 Una deduccin sencilla del modelo
Supongamos que las rentabilidades obedecen un modelo de dos ndices:
r
I|
= a
I
/
Il
1
l|
/
I2
1
2|
c
I|
(88)
Si el inversor mantiene una cartera bien diversicada, el riesgo idiosincrtico
o especco de la cartera se aproximar a cero, y slo importar el riesgo sis-
temtico que, de acuerdo con (88) viene determinado por /
Il
y /
I2
. Si el inversor
est interesado en decidir utilizando medidas de rentabilidad esperada y riesgo,
todo lo que necesita conocer es: r
c
, /
cl
y /
c2
.
363
Consideremos tres activos: , con rentabilidad esperada 15% y /
.l
=1,0,
/
.2
=0,6, 1, con rentabilidad esperada 14% y /
1l
=0,5, /
12
=1,0, y C, con
rentabilidad esperada 10% y /
cl
=0,3, /
c2
=0,2. La ecuacin del plano que
pasa por los tres puntos (r
I
, /
Il
, /
Il
) , i = , 1, C, es:
r
I
= 7, 7 , 00/
Il
8, 7/
I2
(89)
Toda combinacin lineal de estos tres vectores estar asimismo en dicho
plano. Pero tal combinacin lineal no es sino una cartera formada a par-
tir de los tres activos, con ponderaciones positivas o negativas. Una de tales
carteras estar denida por un vector d e ponderaciones: A = (A
l
, A
2
, A
3
),
con

3
I=l
A
I
= 1. La rentabilidad esperada de dicha cartera, y sus medidas de
riesgo, vendrn dadas por:
r
c
=
3

I=l
A
I
r
I
, /
cl
=
3

I=l
A
I
/
Il
, /
c2
=
3

I=l
A
I
/
I2
No puede haber una cartera 1 fuera del plano (89), pues ello posibilitara
oportunidades de arbitraje, del modo habitual. Por ejemplo, supongamos que
existiese una cartera con rentabilidad esperada del 15%, /
1l
= 0, 6, /
12
= 0, 6.
Si construimos una cartera equiponderada de los activos , 1, y C, tenemos una
cartera con /
cl
= 0, 6, /
c2
= 0, 6, pero con rentabilidad esperada 13%. Esto sus-
citara oportunidades de arbitraje, comprando 1 y vendiendo una cuanta igual
de la cartera equiponderada, hasta que las rentabilidades esperadas de ambas
se igualasen, a travs de los ajustes de precios producidos por las operaciones
de arbitraje.
La ecuacin general del plano de equilibrio en el espacio (r
I
, /
Il
, /
I2
) es:
r
I
= `
0
`
l
/
Il
`
2
/
I2
(90)
donde `
l
representa el incremento en la rentabilidad esperada por un au-
mento unitario en /
Il
, mientras que `
2
representa el incremento en la rentabili-
dad esperada por un aumento unitario en /
I2
.
Una cartera con /
l
= /
2
= 0 es una cartera de beta nulo, y su rentabilidad
esperada sera `
0
, que denotaremos, como hicimos anteriormente, por r
:
. Si
consideramos la existencia de un activo sin riesgo, al cual se puede prestar y
pedir prestado, entonces r
J
= r
:
.
Si ahora consideramos una cartera C1, con /
l
= 1, /
2
= 0, y rentabilidad
esperada r
l
, tendremos: `
l
= r
l
r
:
, mientras que si consideramos una cartera
C2, con /
l
= 0, /
2
= 1, y rentabilidad esperada r
2
,tendremos: `
2
= r
2
r
:
. En
general, `

es el diferencia de rentabilidad esperado, en relacin con la cartera


de beta nulo, de una cartera expuesta nicamente a riesgo del ndice ,, y con
una cantidad unitaria de dicho tipo de riesgo.
Finalmente, tenemos:
r
I
= r
:
(r
l
r
:
) /
Il
(r
2
r
:
) /
I2
y un modelo similar se obtiene en el caso de que existan : ndices.
364
17.2 Una deduccin ms rigurosa
Supongamos nuevamente, por simplicidad, la existencia de slo dos ndices. Si
tomamos esperanzas matemticas en (88) y restamos la propia ecuacin (88),
tenemos:
r
I|
= r
I
/
Il
(1
l|
1
l
) /
I2
(1
2|
1
2
) c
I|
Una condicin suciente para la validez de la APT es que existan en el
mercado sucientes activos como para que se pueda construir una cartera con
las caractersticas:
n

=l
A

= 0, /
cl=
n

=l
A

/
l
= 0, /
c2
=
n

=l
A

/
2
= 0,
n

=l
A

0 (91)
La ltima condicin dice que el riesgo residual es aproximadamente nulo,
mientras que la primera dice que la construccin de la cartera requiere una
inversin neta nula. Las otras dos condiciones dicen que el riesgo sistemtico de
la cartera es nulo. En consecuencia, la rentabilidad esperada de la cartera debe
ser cero, es decir:
r
c
=
n

I=l
A
I
r
I
= 0
Las condiciones (91) dicen que el vector A es ortogonal al vector :r1 for-
mado por las /
l
, al vector :r1 formado por las /
2
, y a un vector :x1 de unos.
Pero hemos aprobado que toda cartera que satisfaga las tres condiciones de or-
togonalidad mencionadas, es necesariamente ortogonal asimismo al vector :r1
formado por las rentabilidades esperadas de los : activos inicialmente escogi-
dos. por un conocido teorema de lgebra lineal, esto implica que el vector de
rentabilidades esperadas puede escribirse como combinacin lineal de los tres
vectores mencionados, es decir:
r
I
= `
0
`
l
/
Il
`
2
/
I2
(92)
y por el mismo procedimiento que antes llevamos acabo, llegamos a:
r
I
= r
:
(r
l
r
:
) /
Il
(r
2
r
:
) /
I2
o, en el caso de activos:
r
I
= r
:
(r
l
r
:
) /
Il
(r
2
r
:
) /
I2
... (r

r
:
) /
I
La teora APT es muy general, lo cual es una virtud, pero tambin una
debilidad, pues no nos dice nada acerca de cul son los ndices adecuados, ni
tampoco su nmero. Adems, tampoco sugiere cual es la magnitud de los
coecientes `, ni tampoco su signo, por lo que, incluso si hallamos un indicador
que ajusta bien, no sabremos si el indicador es la variable incluida en el modelo
de rentabilidades individuales, o la misma variable cambiada de signo.
365
17.3 Estimacin y contraste
El proceso multifactorial generador de rentabilidades puede escribirse:
r
I|
= a
I

=l
/
I
1
|
c
I|
(93)
del cual se obtiene el modelo APT:
r
I
= r
:

=l
/
I
`

(94)
Notemos que, de acuerdo con la APT, cada activo i tiene una sensibilidad
especca a cada ndice ,, y es un atributo del activo representada por los coe-
cientes /
I
, como, por ejemplo, su rentabilidad por dividendo. Por el contrario,
cada ndice , toma el mismo valor para todos los activos. Cada factor afecta a
ms de un activo, pues, d e o contrario, estara incluido en el trmino de error
del nico activo al que afectase. Los ndices, tambin denominados factores, son
las fuentes de covarianza entre las rentabilidades de activos diferentes.
Asimismo, `

es la rentabilidad esperada en exceso de la rentabilidad de


referencia, debido a la sensibilidad del activo respecto al atributo ,-simo. La
ecuacin (93) es totalmente anloga a la utilizada en las regresiones de primera
etapa en los contrastes del modelo CAPM, mientras que (94) se asemeja a las
regresiones de segunda etapa. La nica diferencia es que mientras que para el
modelo CAPM el (los) ndice(s) est(n) bien denido(s), por ej., la rentabilidad
de la cartera de mercado en el caso del modelo CAPM simple, en el modelo
multifactorial y en el modelo APT, los indicadores no estn denidos por la
teora. En consecuencia, para contrastar el APT a partir de la ecuacin (94)
necesitamos estimaciones de los /
I
, que pueden obtenerse a partir de (93). Lo
ms habitual es estimar simultneamente los factores 1

y los atributos /
I
.
Sin embargo, habra otras alternativas: Una consiste en establecer una
hiptesis acerca de los factores (tipos de inters, tasa de inacin, etc.) que
pueden inuir sobre las rentabilidades, y estimar los /
I
en (93). Un segundo
procedimiento consiste en especicar un conjunto de atributos /
I
(caracters-
ticas de la empresa) que pueden inuir sobre las rentabilidades
35
. Con este
enfoque las /
I
se especican directamente, pudiendo incluir la rentabilidad por
dividendo, la beta del activo respecto del mercado, etc.. En cualquiera de es-
tos dos casos, se estar contrastando la hiptesis conjunta de que el modelo
APT es correcto, junto con la relevancia de los factores, o alternativamente,
caractersticas seleccionados.
35
Si, por ej., se considera que las variaciones en los tipos de inters son un ndice en (93),
entonces las b
.
estimadas podran utilizarse para calcular A

. Alternativamente, podramos
partir del hecho de que la duracin del activo es la medida adecudad de sensibilidad, y utilizar
duraciones numricas como valores de las b
.
para estimar las A

.
366
17.4 Determinacin simultnea de factores y caractersti-
cas
La especicacin de (93) requiere denir factores y atributos, de modo que
la covarianza entre los residuos de las ecuaciones de dos activos cualesquiera
sea nula. La tcnica de anlisis factorial no garantiza esta propiedad pero es
bastante adecuada en este contexto.
El anlisis factorial determina un conjunto de factores 1

y otro de atributos
/
I
tales que la covarianza entre residuos sea mnima. En esta metodologa, las
variables 1

se denominan, precisamente, factores, mientras que los /


I
se de-
nominan cargas de los factores. El anlisis factorial se efecta, sucesivamente,
para 2, 3, ... factores, y se escoge el nmero de los mismos tales que la prob-
abilidad de que el prximo factor explique una parte signicativa de la matriz
de covarianzas, sea inferior a un determinado nivel
36
. Esta eleccin es subjetiva
precisamente porque la teora APT no especica el nmero de factores.
El anlisis factorial proporciona una estimacin tanto de los factores como de
sus cargas. Estas son medidas de sensibilidad de las rentabilidades respecto de
los factores, y son similares a las ,
I
del modelo CAPM. Hasta aqu, habramos
llevado a cabo un contraste del tipo de los efectuados en la primera etapa de
los contrastes del modelo CAPM, con la diferencia de que habramos estimado
no slo las cargas, sino tambin los factores, as como su nmero. Cada ndice
es una combinacin lineal de las rentabilidades de los activos utilizados en el
anlisis factorial.
La siguiente etapa consiste en llevar a cabo un conjunto de contrastes anlo-
gos a los de la segunda etapa de Fama y McBeth para el CAPM. Mediante una
regresin de seccin cruzada, estimamos los `

para cada perodo, y calculamos


su varianza a travs del tiempo [Roll-Ross]. Hay algunas dicultades: primero,
tenemos con las cargas de los factores el mismo problema de errores en variables
que tenamos con los ,
I
al contrastar el CAPM estndar, por lo que los con-
trastes de signicacin son vlidos slo asintticamente. En segundo lugar, los
signos de los /
I
y los `

no estn denidos, por lo que podran intercambiarse.


Tercero, los valores numricos de los /
I
y los `

estn denidos slo salvo fac-


tores de escala, por lo que podran multiplicarse y dividirse, respectivamente,
por un mismo factor, sin que nada cambiase. Cuarto, no hay ninguna garanta
a priori acerca del orden en que resultarn escogidos los factores, por lo que
cuando se lleva a cabo el anlisis en muestras distintas, el primer factor de una
muestra puede ser el tercer factor en otra.
RR (19xx) aplicaron el anlisis factorial a 42 grupos de 30 activos cada uno,
desde 7/1962 a 12/1972, encontrando que en 38% de los grupos, haba una
probabilidad inferior a 0,10 de que un sexto factor tuviese alguna capacidad
explicativa, y en ms de un 75% de los grupos haba una probabilidad superior
a 0,50 de que 5 factores fuesen sucientes. Estos autores intentaron diversos
contrastes de segunda etapa, encontrando que al menos 3 factores son signica-
36
El anlisis de componentes principales es similar al anlisis factorial, extrayendo de los
datos el conjunto de ndices que explica mejor la varianza ( en vez de la covarianza) de los
datos. Los ndices se van extrayendo en orden de importancia.
367
tivos cuando se pretende explicar los precios de equilibrio, pero que es altamente
improbable que cuatro factores resulten signicativos. Esto sugiere que se en-
cuentran ms factores de los que uno esperara encontrar bajo las versiones
simple o beta-cero del modelo CAPM.
Tiene inters, por tanto, preguntarse en qu medida estos resultados son
inconsistentes con el modelo CAPM. Cho, Elton, Gruber (19xx) probaron que
haba ms inuencias determinando las rentabilidades que las sugeridas por
el modelo CAPM, encontrando, en un perodo posterior, incluso ms factores
que RR. Estos autores simularon rentabilidades temporales a partir de la ver-
sin beta-cero del modelo CAPM, forzando que las medias y varianzas de las
rentabilidades de los activos individuales coincidiesen con las de los datos reales.
A la vez, permitieron que la rentabilidad de la cartera beta-cero, as como la
del activo sin riesgo, variasen en el tiempo. Aplicando la metodologa de RR
a estos datos articiales, el nmero de factores resultante es consistente con
la versin beta-cero del modelo CAPM, por lo que el resultado obtenido con
rentabilidades realmente observadas sugiere que hay ms factores en los datos
que los sugeridos por el modelo beta-cero CAPM terico. Sin embargo, como
veremos posteriormente, el modelo CAPM todava puede ser consistente con
este resultado.
La utilidad del modelo APT no puede separarse de la metodologa utilizada
en su estimacin. Un problema con el uso de anlisis factorial para estimar si-
multneamente factores y sensibilidades es que es tan complejo analticamente,
que slo puede aplicarse a un nmero reducido de activos. De hecho, se cuenta
con evidencia acerca de que el nmero de factores tiende a aumentar con el
nmero de activos considerados, pues DFG (19xx) encuentran hasta 7 activos
cuando consideran grupos de 60 activos. Al hacer grupos, pueden estar ignorn-
dose ciertas fuentes de covarianza entre activos.
Por otra parte, la estimacin del APT para grupos reducidos de activos
permite contrastar teora y metodologa conjuntamente. De acuerdo con el
modelo terico (94), el precio de mercado de cada factor `

y la ordenada en
el origen deben ser iguales para cada grupo. Sin embargo, recordemos que los
factores pueden aparecer en orden distinto en grupos diferentes de activos. Sin
embargo, los resultados de este tipo de contrastes parecen ser bastante ambiguos.
DFG (19xx) muestran que un modelo multifactorial APT tiene ms capaci-
dad explicativa de las rentabilidades que un modelo de un slo factor. Sin
embargo, ambas capacidades explicativas son reducidas, habiendo duda de que
las primas de riesgo o precios de cada uno de los cinco factores considerados por
RR sean signicativamente diferentes de cero.
Un test del APT que dara bastante conanza consistira en probar que el
riesgo residual de un activo no es remunerado cuando se aade como un factor
adicional a la ecuacin de precios de equilibrio de mercado, puesto que los /
I
recogen la remuneracin de todos los componentes sistemticos de riesgo. RR
no encuentran este efecto, mientras que DFG encuentran que los coecientes
de la desviacin tpica residual, o del coeciente de asimetra son generalmente
no signicativos, si bien la frecuencia con que resultan signicativos es casi tan
grande como la de los factores de RR. Reinganum ha explorado la observacin
368
de que las empresas de menor capitalizacin tienden a ofrecer una rentabilidad
superior a la predicha por el modelo CAPM, encontrando que el modelo multi-
factorial de RR no explica este efecto mejor que el modelo CAPM estndar.
Un tipo de contraste muy poco explotado se centra en la estabilidad temporal
de la estructura de factores. Si, efectivamente, fuesen estables, tendra inters
contrastar si los /
I
tambin son estables.
17.5 Un enfoque alternativo
En ocasiones, podemos estar dispuestos a especicar a priori bien los factores
que inuyen sobre las rentabilidades, o las caractersticas de los activos que
inuyen sobre las rentabilidades promedio, lo que facilita el problema de esti-
macin, adems de proporcionar una mayor fuerza a los contrastes..
17.5.1 Especicacin de los atributos de los activos
Si especicamos a priori los /
I
, los `

podran estimarse mediante anlisis de


regresin. Este procedimiento es anlogo a la segunda etapa de los contrastes
del modelo CAPM. De hecho, el modelo utilizado por Fama y McBeth para
contrastar el modelo CAPM podra considerarse asimismo como un contraste
del modelo APT, en el que las caractersticas de la empresa son: su beta, su beta
al cuadrado, y el riesgo residual. Condicional en este conjunto de caractersticas,
el modelo multifactorial no funciona mejor que la versin beta-cero le modelo
CAPM, pues ninguna de las caractersticas citadas parece estar remunerada por
le mercado.
Un segundo enfoque consiste en incluir otros factores especcos de la em-
presa. As, LR (19xx) encontraron que la rentabilidad por dividendo era es-
tadsticamente signicativa.
Continuando con la idea de encontrar factores, Sharpe (19xx) parte de la
hiptesis de que las rentabilidades pueden estar inuidas por: el beta del activo
con el ndice S&P, su rentabilidad por dividendo, el tamao de la empresa, su
beta con los bonos a largo plazo, el valor previo de su alfa (el trmino indepen-
diente de la regresin de exceso de rentabilidad del activo el perodo anterior
sobre el exceso de rentabilidad del ndice), y variables de adscripcin sectorial
del activo. Los dos primeros factores deberan inuir positivamente sobre la
rentabilidad. El tamao, al actuar como proxy de la liquidez podra entrara
negativamente. Un alfa signicativo podra deberse a autocorrelacin resid-
ual, y podra sugerir que hay alguna variable que explica las diferencias entre
rentabilidades en las seccin cruzada, y que no est recogida en el modelo.
Sus resultados, obtenidos con datos mensuales de 2.197 activos entre 1931
y 1979 son consistentes con estas creencias a priori, siendo bastante alto el
porcentaje de casos en que los indicadores propuestos son signicativos. El
incremento en el R-cuadrado respecto al caso en que la beta se utiliza como
nica caracterstica es asimismo importante. Por tanto, stas son caractersticas,
adicionales a la beta del activo con un ndice de mercado, que son relevantes
para explicar rentabilidades.
369
17.5.2 Especicando las inuencias que afectan sobre el proceso de
generacin de rentabilidades
Alternativamente, podramos especicar a priori los ndices que entran en el
proceso de generacin de rentabilidades.
Chen, Roll, Ross (19xx) establecen, como hiptesis, que las rentabilidades
deberan verse afectadas por toda inuencia que afecte los cash-ow futuros
que se recibiran por mantener dicho activo en la cartera, o por los factores que
afectan al valor de dichos cash-ows, como podran se cambios en el factor de
descuento que se les aplique. Entre ellos:
1) la tasa de inacin, que afecta tanto a la tasa de descuento como a los
cash-ow futuros,
2) la estructura temporal de tipos de inters: cambios en el spread entre el
largo y el corto plazo (pendiente de la curva de rendimientos) afecta al valor de
los pagos a recibir en el futuro, relativamente a los recibidos prximamente.
3) la prima de riesgo: diferencias entre la rentabilidad de bonos privados
seguros (Aaa) y los de ms riesgo (Baa), utilizada como remuneracin del riesgo
en el mercado,
4) la produccin industrial, pues cambios en la misma afectan a las oportu-
nidades disponibles al inversor y al valor real de los cash-ows.
CRR examinaron este conjunto de ndices para comprobar: a) si estaban
correlacionados con el conjunto de ndices obtenido por al anlisis factorial de
RR, b) si explicaban las rentabilidades de equilibrio.
Estos autores encontraron una fuerte relacin entre factores e indicadores
macroeconmicos, que se mantiene adems, para el perodo posterior a la con-
struccin de los factores. La segunda cuestin se analiza mediante una regresin
anloga a las de la segunda etapa de Fama y Mcbeth. En la primera etapa se
utilizan series temporales para un conjunto de carteras para estimar la sensibil-
idad de cada una de ellas a cada una de las variables macroeconmicas; en la
segunda etapa se estima el precio del riesgo mediante una regresin de seccin
cruzada cada mes, y considerando el promedio de los precios de mercado del
riesgo. CRR encuentran que las variables macroeconmicas son signicativas
al explicar las rentabilidades. Adems, cuando la beta de cada cartera con el
mercado se introduce como una variable adicional, junto con la sensibilidad de
cada cartera a las variables macroeconmicas en la regresin de segunda etapa,
no resulta signicativa.
17.6 Relaciones entre los modelos CAPM y APT
Veamos, por ltimo, si la existencia de un modelo multifactorial es necesaria-
mente inconsistente con algunas de las versiones del modelo CAPM.
El caso ms sencillo en que el modelo APT es consistente con la versin sim-
ple del modelo CAPM es aqul en que el proceso de generacin de rentabilidades
es:
r
I|
= a
I
,
I
r
1|
c
I|
370
Si las rentabilidades responden a un nico ndice, dicho ndice es la rentabili-
dad de la cartera de mercado, y existe un tipo de inters libre de riesgo, entonces
la discusin de comienzo del captulo conduce a:
r
I
= r
J
,
I
(r
1
r
J
)
Pero, y si el proceso generador de rentabilidades es ms complejo? im-
plicara esto necesariamente que el modelo CAPM no es vlido? No es as,
puesto que el modelo CAPM no supone que el comportamiento de la cartera de
mercado sea la nica fuente de covarianza entre rentabilidades.
Supongamos que la generacin de rentabilidades responde al modelo multi-
factorial:
r
I|
= a
I
/
Il
1
l|
/
I2
1
2|
c
I|
donde los dices pueden ser ndices de industria, o indicadores macroeconmi-
cos, como la tasa de inacin. Todo lo que suponemos es que los ndices recogen
todas las fuentes de covarianza entre activos, es decir, que 1(c
I|
c
|
) = 0.
El modelo APT de equilibrio correspondiente a este modelo multifactorial,
en presencia de un tipo libre de riesgo, es:
r
I
= r
J
`
l
/
Il
`
2
/
I2
Si el modelo CAPM se cumple, ha de ser vlido para todos los activos, as
como para todas las carteras. Supongamos que los ndices pueden representarse
como carteras de activos. En realidad, hemos visto que `
l
es el exceso de
rentabilidad recibido en la cartera que tiene /
c
= 1 y /
c|
= 0 \/ ,= ,. Por tanto,
si el modelo CAPM se satisface, la rentabilidad de equilibrio de cada `

viene
dada por el modelo CAPM:
`
l
= ,
X1
(r
1
r
J
)
`
2
= ,
X2
(r
1
r
J
)
que llevado a la ecuacin anterior proporciona:
r
I
= r
J
,
X1
(r
1
r
J
)/
Il
,
X2
(r
1
r
J
)/
I2
= r
J
(,
X1
/
Il
,
X2
/
I2
)(r
1
r
J
)
y deniendo ,
I
= ,
X1
/
Il
,
X2
/
I2
, tenemos que la rentabilidad esperada viene
medida por el modelo CAPM:
r
I
= r
J
,
I
(r
1
r
J
)
de modo que la solucin APT con mltiples factores adecuadamente re-
munerados es totalmente consistente con la versin simple (Sharpe, Lintner,
Mossin) del modelo CAPM. Es decir, que encontrando ms de un `

distinto
de cero no constituye suciente evidencia para rechazar el modelo CAPM. Si
371
los `

estimados no resultan signicativamente distintos de ,


X
(r
1
r
J
), en-
tonces los resultados empricos podran ser consistentes con la versin estndar
del modelo CAPM: es perfectamente posible que la estructura de covarianzas
entre rentabilidades sea explicada por ms de un factor, a pesar de lo cual, el
modelo CAPM sea vlido. Un razonamiento anlogo conducira a mostrara que
hay valores de los `

que haran consistente el modelo APT con las versiones


menos simples del modelo CAPM.
372
18 Contrastes empricos del modelo de valoracin
de activos: Introduccin
La mayora de los contrastes de modelos de equilibrio se reeren a alguna de
las variantes del modelo CAPM, pero fundamentalmente, utilizan su versin
estndar, o la versin beta-cero del mismo. La versin simple del modelo es:
1(r
I
) = r
J
,
I
[1(r
1
r
J
)[ (95)
La versin del mismo en que no permitimos prestar ni pedir prestado a un
tipo sin riesgo r
J
es:
1(r
I
) = 1(r
:
) ,
I
[1(r
1
) 1(r
:
)[ (96)
donde 1(r
:
) denota la rentabilidad esperada de la cartera de mnima vari-
anza que est incorrelacionada con la cartera de mercado.
En ambos modelos aparecen rentabilidades esperadas a lo largo del horizonte
de inversin, por lo que, en muchas ocasiones los contrastes se efectan en
trminos de rentabilidades ex-post, lo cual, evidentemente, introduce un error
de observacin en el modelo. Una defensa tradicional y sencilla ante esta crtica
es que las expectativas son, en promedio, correctas, por lo que , sobre perodos de
tiempo sucientemente largos, las realizaciones pueden utilizarse como proxies
de las expectativas.
Un argumento ms complejo supone que la rentabilidad de cada activo se
relaciona linealmente con la de la cartera de mercado, de modo que se tiene el
modelo de mercado:
r
I|
= c
I
,
I
r
1|
c
|
(97)
de modo que:
1(r
I|
) = c
I
,
I
1(r
1|
) (98)
y:
1(r
I|
) c
I
,
I
1(r
1|
) = 0 (99)
por lo que de (97):
r
I|
= 1(r
I|
) ,
I
[r
1|
1(r
1|
)[ c
|
(100)
y, a partir de (95):
r
I|
= r
J
,
I
(r
1|
r
J
) c
|
(101)
Sobre el modelo genrico de un ndice, le modelo CAPM impone cierta es-
tructura: a) que el ndice es la rentabilidad de la cartera de mercado, y b) que:
c
I
= r
J
(1 ,
I
).
373
Aunque tiene sentido utilizar datos ex-post para contrastar este modelo, si
bien hay que tener presente la tres hiptesis incorporadas en el mismo:
a) se cumple el modelo de mercado en todos los perodos,
b) el modelo CAPM es vlido en todos los perodos,
c) las betas son estables en el tiempo.
por lo que estaremos contrastando conjuntamente estas tres hiptesis, y no
slo la segunda de ellas.
Por un razonamiento similar, si utilizamos el modelo de 2 factores, lle-
garamos a:
r
I|
= r
:|
,
I
(r
1|
r
:|
) c
|
(102)
y, nuevamente, estaramos contrastando conjuntamente tres hiptesis, aunque
la primera se ra ahora: a) la versin beta-cero del modelo CAPM se satisface
en todos los perodos.
18.1 Contrastes empricos del modelo CAPM
Para organizar la discusin de los muchos contrastes que se han llevado a
cabo, haremos explcitos los supuestos que deberan contrastarse, revisaremos
los primeros contrastes que se efectuaron, y analizaremos las dicultades en la
contrastacin. Por ltimo, repasaremos algunos de los contrastes ms rigurosos.
18.2 Hiptesis del modelo CAPM
Son vlidas para las dos formulaciones del mismo:
a) mayor riesgo, medido por la beta, debe ir asociado con mayor rentabilidad
b) la rentabilidad est relacionada linealmente con la beta: el incremento
en rentabilidad que se produce por una aumento de riesgo es independiente del
nivel de riesgo,
c) el mercado no remunera por asumir riesgo diversicable,
d) desviaciones de la rentabilidad de un activo o cartera con respecto a su
nivel de equilibrio deben ser puramente transitorias, y no pueden utilizarse para
generar benecio sistemtico,
Por ltimo, la versin estndar del modelo implica que: e) la recta del mer-
cado de activos, en el plano (r, ,) debe tener ordenada en el origen igual a r
J
y pendiente r
1
r
J
, mientras que la versin de dos factores requiere que la
ordenada en el origen sea igual a r
:
y la pendiente sea r
1
r
:
.
18.3 Un contraste sencillo
Un contraste simple consiste en examinar si, a travs del tiempo, un mayor
riesgo ha estado asociado con una mayor rentabilidad [Sharpe y Cooper (19xx)].
SC dividieron los activos en deciles una vez al ao, de acuerdo con las betas
estimadas. Sin embargo, en cada estimacin se utilizan 60 meses, es decir, 5
aos. Posteriormente, se construye una cartera equiponderada dentro de cada
decil, y se mantienen durante un ao. Los activos de una determinada cartera
374
van cambiando, debido a la reinversin de los dividendos, y a que las betas
cambian una vez al ao.
La relacin entre la rentabilidad de las diez distintas carteras-deciles y su
riesgo no es perfecta, pero es bastante estrecha. La correlacin de rangos es
0,93, que es signicativa al 1%.
Si se hubiesen utilizado betas previstas para constituir las carteras, el resul-
tado habra sido muy similar: la correlacin de rangos sera de 0,95, nuevamente
signicativa.
La relacin estimada con las diez carteras es:
r
I
= , 4 12, 7,
I
y un 95% de la variacin en rentabilidad es explicada por diferencias en las
betas.
18.4 Algunos contrastes iniciales
La mayora de los primeros contrastes utilizaron dos etapas: en una primera,
se estimaban las betas por mnimos cuadrados, y en una segunda etapa, se
estimaba una regresin de seccin cruzada para relacionar la rentabilidad ob-
servada con el riesgo [Lintner (19xx), Douglas (19xx)]. L. estim en una primera
etapa las betas de 301 activos en su muestra, utilizando rentabilidades anuales
para 1954-1963:
r
I|
= c
I
,
I
r
1|
c
I|
y despus, en la segunda etapa:
r
I
= a
l
a
2

,
I
a
3
o
2
I
j
I
donde o
2
I
denota la varianza residual de cada regresin de la primera etapa.
Cada parmetro en esta regresin tiene un determinado valor terico: si el
modelo CAPM es vlido, a
l
debera ser cero, a
2
debera ser igual bien a r
J
o a
r
:
, y a
3
debera ser igual a r
1
r
J
o a r
1
r
:
, segn qu versin del modelo
CAPM sea cierta.
L. obtuvo: a
l
= 0, 108, a
2
= 0, 068, a
3
= 0, 287, y los dos ltimos coe-
cientes eran signicativamente distintos de cero, con coecientes t de Student
de 6,9 y 6,8, respectivamente. Esto parece incumplir las restricciones del modelo
CAPM, pues el trmino de riesgo residual afecta positivamente a la rentabilidad
esperada.. Adems, la estimacin de la constante parece superior a cualquier
evaluacin de r
J
o r
:
, mientras que a
3
tiene un valor algo menor de lo que
esperaramos.
18.5 Algunos problemas metodolgicos
Miller y Scholes (19xx) describieron algunos de los problemas envueltos en este
tipo de contrastes, y llevaron a cabo algunas simulaciones para medir el posible
sesgo de los contrastes anteriores.
375
Un primer problema es el error de especicacin de las ecuaciones bsicas:
si las rentabilidades estn generadas por un proceso igual al a versin bsica del
modelo CAPM, entonces la ecuacin de series temporales utilizada para estimar
las betas debera ser consistente con el modelo CAPM, que en su forma de series
temporales es:
r
I|
= r
J|
,
I
(r
1|
r
J|
) = (1 ,
I
)r
J|
,
I
r
1|
(103)
mientras que la ecuacin de L. y D. fue:
r
I|
= c ,
I
r
1|
(104)
Si r
J
hubiese constante durante el perodo muestral, no habra problema,
y su estimacin debera ser igual a (1 ,
I
)r
J
. Ahora bien, si ha uctuado
a lo largo del tiempo, y est corelacionado con r
1|
, entonces tenemos un caso
de sesgo por variables ausentes y tendremos una estimacin sesgada de las ver-
daderas betas.
Adems, si la mencionada correlacin fuese negativa, como cabe esperar, ello
sesgara al alza la ordenada en el origen de la regresin de la segunda etapa,
y sesgara a la baja la estimacin de la pendiente, lo que podra explicar las
desviaciones observadas por L. y D.. M.-S. estiman, en efecto una correlacin
negativa entre las rentabilidades del activo sin riesgo y la de la cartera de mer-
cado, pero evalan que los sesgos descritos no son de la cuanta suciente como
para explicar las desviaciones observadas por D. y L.
Otro posible error de especicacin que podra explicar una ordenada en el
origen excesivamente alta y una pendiente excesivamente reducida, podra surgir
porque la relacin entre rentabilidad esperada y riesgo no fuese lineal. Nueva-
mente, M.S. evaluaron que cualquier desviacin de la linealidad que pudiese
existir en dicha relacin no sera suciente para explicar los sesgos observados
por L. y D.
Un tercer error posible de especicacin sera la existencia de heterocedasti-
cidad. Ello hara que la componente de rentabilidad no explicada por el mercado
de los activos con betas ms altas tuviese mayor varianza que la de los activos
con betas menores. Nuevamente, esta no parece ser la explicacin pues, si acaso,
sesgara los estimadores en direccin contraria a la observada.
A continuacin, M.S. consideraron la posibilidad de errores en la denicin
de las variables.
Una forma de sesgo se debera al error cometido al cuanticar las betas
para la regresin de la segunda etapa. Slo disponemos de betas estimadas
que, aunque posiblemente libres de sesgo, no estn exentas de error muestral.
Cualquier error en las betas genera un problema de errores en variables en la
segunda etapa de los contrastes, lo que har que el coeciente estimado de las

,
I
est sesgado a la baja, mientras que la ordenada en el origen est sesgada
al alza. M.S. probaron que este efecto era importante, y que el coeciente
estimado para las

,
I
podra estar por debajo de las 2/3 partes de su verdadero
valor, produciendo un incremento porcentual correspondiente en la estimacin
de la ordenada en el origen.
376
Hay otro efecto an ms importante: En la medida que el verdadero valor
de las betas est positivamente correlacionado con la varianza residual de la
rentabilidad, dicha varianza actuar como proxy de la verdadera beta, y la
rentabilidad estar positivamente correlacionada con el riesgo residual. M.S.
concluyeron que este efecto estaba presente en los contrastes de L.. De este
modo, aunque la rentabilidad no depende de la varianza residual, sta puede
aparecer como estadsticamente signicativa en la regresin de seccin cruzada.
Finalmente, M.S. demostraron que las distribuciones empricas de rentabili-
dades son asimtricas, lo que genera una asociacin espuria entre riesgo residual
y rentabilidad. Algunos autores [M.-S. y Roll (19xx)] han debatido acerca de si
la eleccin de uno u otro ndice de mercado altera signicativamente los resul-
tados.
18.6 El contraste de Black, Jensen y Scholes
BJS (19xx) fueron los primeros en efectuar un contraste de series temporales
del modelo CAPM, utilizando la especicacin:
r
I|
r
J|
= c
I
,
I
(r
1|
r
J|
) c
I|
(105)
en la que la estimacin de c
I
debera ser cero si la versin simple del mod-
elo CAPM describe adecuadamente el proceso de formacin de rentabilidades.
Para contrastar el modelo CAPM, es importante contar con datos de un ele-
vado nmero de activos. Entonces, una posibilidad consistira en estimar (105)
para cada uno de ellos, y examinar la distribucin de probabilidad de c
I
para
contrastar su signicacin estadstica. Sin embargo, este procedimiento no es
muy apropiado, porque los residuos c
I|
y c
|
no son independientes, y habra
que tenerlo en cuenta. De hecho, habra que examinar la distribucin conjunta
del vector de las c
I
, lo cual sera muy complicado.
Una posible solucin es estimar (105) para carteras. La varianza residual de
tales regresiones incorpora el efecto de interdependencias entre los activos que
conguran la cartera, por lo que la desviacin tpica del trmino independiente
podra utilizarse para contrastar la hiptesis nula H
0.
c
I
= 0 .
BJS propusieron formar carteras de modo que la diferencia entre sus be-
tas fuese la mayor posible, de modo que se pudiese examinar ecientemente el
efecto de las betas sobre las rentabilidades. Un modo evidente de hacerlo es
estableciendo una ranking de activos de acuerdo con sus verdaderos betas. Sin
embargo, todo lo que tenemos son betas estimados, que, utilizados para elab-
orar un ranking, generan un sesgo de seleccin: los activos con un beta mayor
son aquellos en los que, muy probablemente, se ha cometido un error de medida
positivo en la estimacin. Esto introducir un sesgo positivo en las estimaciones
de las betas en las carteras de beta elevado, y un sesgo negativo en la estimacin
de la ordenada en el origen c
I
. Para evitar este problema, se utiliza un pro-
cedimiento de variables instrumentales para generar el ranking de activos. Una
variable instrumental es, en este contexto, una variable que est correlacionada
377
con la verdadera beta, pero que puede observarse independientemente de sta.
Generalmente, se utiliza como tal la beta estimada el perodo anterior.
El procedimiento seguido por BJS consisti en utilizar 5 aos de datos men-
suales para estimar las betas y clasicar los activos en deciles. Cada decil es una
cartera que se mantiene durante el ao siguiente (el sexto ao en la muestra).
Entonces, se utilizan datos del segundo al sexto aos para un proceso similar,
y se contina hasta agotar la muestra. Cada decil constituye una cartera, cuya
composicin cambia una vez al ao, y se consideran las rentabilidades anuales de
cada una de ellas. A continuacin, se estima una regresin de la serie temporal
de rentabilidades anuales sobre una constante y la rentabilidad del mercado, y
se estima la beta y el coeciente de correlacin de cada ecuacin [ver Tabla].
El modelo explica bien los excesos de rentabilidad, puesto que los coecientes
de correlacin (R-cuadrados) son elevados, lo que da cierto soporte a la relacin
lineal estimada como explicativa del proceso de rentabilidades. Sin embargo, las
ordenadas en el origen dieren de cero. Se observa cierta regularidad, por cuanto
que las carteras con

,1 son carteras con c < 0, mientras que las carteras con

,<1 son carteras con c 0. Como veremos enseguida, este resultado es ms


consistente con el modelo CAPM de dos factores que con el modelo CAPM
estndar.
La versin de beta-cero del modelo CAPM implica:
r
I|
= r
:
(1 ,
I
) ,
I
r
1|
mientras que el model que se contrasta es:
r
I|
= c
I
r
J
(1 ,
I
) ,
I
r
1|
Si el modelo de beta-cero explicase realmente el proceso de rentabilidades,
podramos arreglar las ecuaciones para eliminar ,
I
r
1|
y, despejando c
I
ten-
dramos:
c
I
= (r
:
r
J
) (1 ,
I
)
Como vimos en otro captulo, r
:
ha de ser mayor que r
J
, por o que el primer
factor es positivo. Por tanto, si ,
I
es menor que 1, c
I
debera ser positivo, y
lo contrario ocurrir si ,
I
fuese mayor que 1, explicando la observacin anterior
de BJS, que se repite para distintos sub-perodos muestrales..
Hasta ahora hemos repasado los contrastes de series temporales del modelo
CAPM realizados por BJS, quienes tambin llevaron a cabo contrastes con datos
de seccin cruzada. Ya hemos mencionado que la mayor dicultad en este tipo de
contrastes es que las betas no se observan directamente, sino que slo disponemos
de estimaciones numricas de las mismas, lo que sesga al alza la ordenada en
el origen en la regresin de la segunda etapa, a la vez que sesga a la baja su
pendiente, y hace que el riesgo residual acte como proxy del riesgo beta. Un
modo de reducir sustancialmente el error en las betas es, de nuevo, estimar
betas para carteras, en vez de hacerlo para activos individuales, puesto que los
378
errores de medida individuales tendern a cancelarse entre s. Trabajando con
as carteras-deciles antes descritas, los resultados fueron:
r
I|
r
J
= 0, 0080 0, 01080,
I
, j
2
= 0, 08
la ordenada en el origen, positiva y signicativa, constituye una evidencia
potente a favor del modelo de dos factores. Este resultado parece surgir cuando
se utiliza datos de distintos subperodos muestrales.
18.7 Los contrastes de Fama y MacBeth
FM (19xx) formaron 20 carteras de activos para estimar las betas en una primera
etapa, utilizando el mismo procedimiento de BJS. Sin embargo, estos autores
estimaron una regresin de segunda etapa para cada mes durante el perodo
1935 a 1968. La ecuacin estimada cada mes con datos de seccin cruzada fue:
r
I|
=
0|

l|
,
I

2|
,
2
I

3|
o
tI
j
I|
(106)
prestando atencin al modo en que los parmetros varan de un mes a otro.
Sobre esta ecuacin se llevaron a cabo los siguientes contrastes:
1) 1(
3|
) = 0: el riesgo residual no afecta a la rentabilidad
2) 1(
2|
) = 0: no hay no-linealidades en la lnea del mercado de activos
3) 1(
l|
) 0: el mercado remunera el riesgo
Si 1(
2|
) y 1(
3|
) resultasen no ser signicativamente diferentes de cero,
entonces un examen de 1(
0|
) y 1(
l|
) permitira saber si es el modelo CAPM
estndar o la versin de beta cero la que mejor representa las rentabilidades de
mercado. Adems, en cualquiera de los dos casos, la esperanza en t de
2|l
y
3|l
deben ser cero. Si es la versin beta-cero la que es vlida, entonces las
desviaciones de
0|
respecto de su esperanza r
:
, as como de
l|
respecto de
su esperanza r
1
r
:
deberan ser aleatorias, con independencia e lo ocurrido
en perodos anteriores. Si es la versin estndar del modelo la que es vlida, lo
mismo cabra decir, sustituyendo r
:
por r
J
.
FM estimaron cada uno de los 4 parmetros en (106), as como de o
2
q
1
para
cada mes entre 1/1935 y 6/1968. El promedio de cada
I|
, denotado por
I
,
puede calcularse promediando las estimaciones temporales, y puede contrastarse
si dicha media es igual a cero, pues, por el teorema central del lmite, la media se
distribuye, asintticamente, como una Normal con esperanza matemtica igual
a la de la poblacin, y varianza igual a la varianza poblacional, dividido por el
tamao de la muestra.
En la tabla se recogen las estimaciones de FM de (106), as como d versiones
restringidas de la misma, con objeto de ganar eciencia si alguna variable no
es relevante. Por ejemplo, si, como predice la teora y los resultados empricos
iniciales, ni ,
2
I
ni el riesgo residual afectan a la rentabilidad, entonces al excluir
estas variables eliminamos tambin la posible multicolinelidad entre ,
I
y ,
2
I
y
el riesgo residual.
La tabla muestra que sobre le perodo completo,
3
es pequeo y no signi-
cativamente diferente de cero, resultado que se mantiene en subperodos, lo que
379
sugiere que el riesgo residual no tiene efectos sobre la rentabilidad. Sin embargo,
an podra ocurrir que, una desviacin de
3|
en un perodo respecto de cero
nos proporcione informacin acerca de su valor el prximo perodo. Para ello,
se calcular su coeciente de autocorrelacin de primer orden, bajo el supuesto
de que la media es cero, obteniendo un valor numrico pequeo, y no signicati-
vamente diferente de cero. Este resultado se mantiene para retardos superiores
a uno.
Los resultados de FM son opuestos a los de LD en cuanto a la relevancia
del riesgo residual, pero estamos en condiciones de interpretar la discrepancia.
MS mostraron que si las betas estaban sujetas a error muestral grande, el riesgo
residual actuara como proxy de la verdadera beta. Ahora bien, FM tienen
mucho menor error muestral que LD por trabajar con carteras, lo que conduce
a que el riesgo residual no sea signicativo.
Los resultados relativos a
2
son similares, por lo que el trmino en ,
2
I
no
parece inuir sobre las rentabilidades, ni su coeciente contiene informacin
relevante para disear estrategias de inversin futuras.
Por tanto, hay que pasar a la versin simple del modelo:
r
I|
=
0|

l|
,
I
j
I|
La evidencia acerca de
l
muestra que la relacin entre beta y rentabili-
dad es positiva y lineal.. Por otra parte, la informacin histrica acerca de las
estimaciones
l|
no proporcionan informacin til para el diseo de estrate-
gias de inversin, puesto que la prediccin de series temporales no mejora a la
proporcionada por la media
l
.
FM encontraron que
0
es generalmente mayor que r
J
y, sobre la muestra
completa,
l
es signicativamente mayor que cero, aunque menor que r
1

r
J
. Estas dos observaciones, unidas, sugieren que el modelo beta-cero es ms
consistente con las condiciones de equilibrio que la versin simple del modelo
CAPM.
Por ltimo, si el modelo de equilibrio describe condiciones de mercado, la
desviacin en la rentabilidad de un activo individual respecto del modelo no de-
bera contener informacin til, es decir, un residuo positivo no debera contener
informacin relevante respecto al resultado futuro ofrecido por dicho activo. Los
residuos deberan estar libres de autocorrelacin, lo que, efectivamente, encon-
traron FM.
18.8 Dos recientes contrastes del modelo CAPM
Gibbons (19xx) utiliza el hecho de que el CAPM impone una restriccin no-
lineal sobre el conjunto de N regresiones de los activos individuales. En efecto,
el modelo de mercado requiere:
r
I|
= c ,
I
r
1|
c
I|
(107)
pero, si el modelo de mercado y el CAPM se cumplen simultneamente,
tenemos:
380
r
I|
=
l
(1 ,
I
) ,
I
r
1|
c
I|
es decir:
c =
l
(1 ,
I
)
donde
l
es la misma para todos los activos individuales. En el modelo
CAPM estndar,
l
debera ser igual a r
J
,mientras que en la versin beta-cero
debera ser igual a r
:
, que es mayor que r
J
. Para contrastar estas hiptesis,
debe estimarse simultneamente un conjunto de ecuaciones como (107), bajo
la restriccin de que todos los c
I
son iguales a la constante, multiplicada por
1,
I
. Gibbons dene el mercado como una cartera equiponderada de los activos
en el New York Stock Exchange, estima mediante regresiones aparentemente no
relacionadas, y lleva a cabo un contraste de razn de verosimilitudes, rechazando
tanto la forma estndar del modelo CAPM, como su versin beta-cero.
Stambaugh (19xx) adopta un enfoque similar, aunque utiliza un contraste de
multiplicadores de Lagrange, porque cree que es ms potente dada la longitud
de las muestras utilizadas. Encuentra fuerte evidencia a favor de la versin beta-
cero del modelo CAPM, y en contra de la versin estndar. Repite el contraste
con diversas deniciones de la cartera de mercado, que incluye en ocasiones
deuda privada, deuda pblica, Letras del tesoro, viviendas residenciales, coches,
y otros activos, pero sus conclusiones son bastante robustas a cambios en la
denicin.
18.9 Contrastes de la versin neta de impuestos del mod-
elo CAPM
Black y Scholes (19xx) contrastaron una versin del modelo CAPM incluyendo
un trmino de dividendos y concluyeron que estos no afectaban a la relacin de
equilibrio. Como en la versin neta de impuestos aparece un trmino de divi-
dendos, su resultado constituye evidencia indirecta a favor de la versin antes de
impuestos del modelo CAPM. Sin embargo, Litzenberger y Ramaswamy (19xx)
encontraron un efecto positivo y fuerte de los dividendos sobre las rentabili-
dades. Mientras BS suponan que los se reciban en igual cuanta cada mes, LS
llevaron a cabo su contraste suponiendo que los dividendos se reciban en el mes
en que que razonablemente podran esperase recibir. El mtodo de estimacin
de ambos grupos de autores es diferente.
LS estimaron:
r
I|
r
J|
=
0

l
,
I|

2
(c
I|
r
J|
) c
I|
donde c
I|
denota el dividendo, dividido por el precios del activo i en el mes
t. Este modelo se asemeja a un modelo de dos factores, con la incorporacin
de un nuevo trmino, recogiendo los dividendos. La forma del modelo es com-
patible con la versin despus de impuestos del modelo CAPM, con
2
jugando
381
el papel de t. LS encontraron un trmino de dividendos positivo, y estadstica-
mente signicativo. Adems, es fcilmente interpretable: por cada $1 adicional
de dividendos, los inversores reciben 23,6 centavos de rentabilidad adicional. El
modelo nos proporciona, adems, los tipos impositivos efectivos parea determi-
nar el equilibrio en le mercado puesto que
2
=t.
Probamos en captulos previos que t es un promedio de los t
I
individuales,
con:
t
I
=
t
J1
t
1
1 t
1
siendo t
J1
el tipo impositivo sobre los dividendos, y t
1
el tipo impositiv0
sobre las rentas de capital., suponiendo que ambas se pagasen al nal de cada
perodo (un ao). Estos autores tambin hallaron que los inversores en tramos
impositivos ms elevados mantenan en sus carteras un porcentaje superior de
activos con alta rentabilidad por dividendos.
18.10 Algunas dicultades con los contrastes tradicionales
de las relaciones de equilibrio en le mercado de ac-
tivos
Roll (19xx) ha sugerido que los modelos de equilibrio general como el CAPM
pueden no ser susceptibles de ser contrastados. Para entender el argumento,
veamos que: si cualquier cartera eciente ex-post en el sentido media-varianza
se selecciona como cartera de mercado, la ecuacin:
r
I
= r
:c
,
I
(r
c
r
:c
)
debe satisfacerse. De hecho, esta es una armacin tautolgica, que no tiene
nada que ver con el modo en que se determina el equilibrio en los mercados de
capitales, o con la actitud de los inversores hacia al riesgo.
Para ello, debemos volver al problema de maximizacin de la pendiente de
la recta que une al activo sin riesgo con la frontera eciente, llegando a:
`
_
A
l
o
l|
A
2
o
2|
... A
|
o
2
|
... A
n
o
n|
_
= r
|
r
J
para cada activo. Si las proporciones A
I
son las que denen la cartera
eciente C, podemos escribir la expresin como:
`Co(r
|
, r
c
) = r
|
r
J
(108)
vlida para todo activo en C, por lo que, en particular,
`o
2
1
= r
1
r
J
de modo que, despejando `, sustituyendo en (108) y arreglando trminos:
r
|
= r
J

o
|c
o
2
c
(r
c
r
J
) = r
J
,
|c
(r
c
r
J
)
382
Supongamos que no podemos prestar ni pedir prestado al tipo libre de riesgo,
sin embargo, existe todo un continuo de carteras c con rentabilidad r
J
. Sea r
:
C
la
rentabilidad esperada de la cartera de mnima varianza que est incorrelacionada
con la cartera C. entonces, como r
:
C
= r
J
, tendremos:
r
|
= r
:
C
,
|c
(r
c
r
:
C
)
como queramos probar. De modo que la rentabilidad esperada de cualquier
activo o cartera es una funcin lineal de un beta incluso cuando los betas se
calculan respecto a cualquier cartera eciente. Recprocamente, si la caretra
escogida para calcular las betas no es eciente, entonces al rentabilidad nos ser
una funcin lineal de las betas.
En consecuencia, la versin de dos factores del CAPM siempre es vlida en
los datos observados si la proxy escogida para representar al mercado es eciente
en sentido ex-post. Roll propone que los contrastes efectuados con una cartera
distinta de la cartera de mercado no son contrastes del modelo CAPM, sino tan
slo de si dicha cartera es eciente. Por otra parte, el modelo podra rechazarse
simplemente porque la cartera utilizada como proxy del mercado no es eciente.
A pesar de que la correlacin entre distintos proxies de la cartera de mercado es
muy alta, ello no quiere decir que la eleccin sea irrelevante, pues una podran
ser ecientes y otras no serlo. De hecho, Roll mostr que haba una cartera
eciente, con correlacin 0,895 con la proxy de mercado utilizada por B, y que
soportaba el modelo CAPM perfectamente.
La consecuencia de este argumento es que la teora de equilibrio no es con-
trastable a menos que se utilice la composicin exacta de la cartera de mercado,
si es conocida. El verdadero contraste del modelo generalizado CAPM de dos
parmetros es si la cartera de mercado es eciente en el sentido media-varianza.
Dos versiones distintas pueden compararse entre s, slo si se est utilizando la
verdadera cartera de mercado en los contrastes.
19 Contratos forward y contratos de futuros
Un contrato de futuros estipula un precio 1
0
al cual el comprador del contrato
de futuro comprar, al vendedor del mismo, un determinado bien, en un instante
futuro T. En un contrato forward rmado el 17 de mayo, se puede acordar el
intercambio de 200.000 kilos de maz, a 5,50 ptas./kg., el prximo 24 de sep-
tiembre. Si, en el instante de vencimiento del contrato, el da 24 de septiembre,
el precio de mercado del maz resulta ser superior a 5,50 ptas./kg., por ejemplo,
5,80 ptas./kilo, el comprador del contrato realizar un benecio, pues una vez
comprados los 200.000 kilos, podra venderlos en el mercado, con un benecio
de 0,50 ptas./kilo. El maz es, en este ejemplo, el activo subyacente del contrato
forward.
Los contratos forward, as como los contratos de futuros, se utilizan para
transferir el riesgo de uctuaciones en el precio de un determinado bien. As,
quien compra un contrato de futuro adelanta en el tiempo la compra del bien,
383
mientras que quien vende el contrato, adelanta la venta del bien, cuya entrega
efectiva se producir al vencimiento del contrato.
Se dice que el comprador del contrato toma una posicin larga de 200.000
kilos de maz, mientras que el vendedor del contrato adopta una posicin corta.
Los contratos de futuros, que se desarrollaron inicialmente sobre bienes fsicos,
se han extendido e las ltimas dcadas, a los casos en que el activo subyacente
no es un activo real, sino un activo nanciero, como un ndice de bolsa, un bono,
una accin, etc.. Adems de un documento legal, un contrato forward es en s
mismo un activo nanciero, con un precio que est determinado, entre otros
factores, por la evolucin temporal del precio de mercado del activo subyacente.
Generalmente, el pago inicial asociado al contrato forward es nulo, si bien
suele llevarse a cabo un depsito de garanta. El precio forward es el precio
especicado para la fecha de vencimiento del contrato; precisamente, este precio
se escoge de modo que el valor inicial del contrato sea cero. El mercado en
el que el activo subyacente se negocia para su entrega inmediata se conoce
como mercado spot o de contado a diferencia del mercado forward, en el que se
negocian los contratos que acuerdan la entrega futura del bien.
Ejemplo 1 (Tipos de inters forward). Queremos acordar ahora los trminos
de un prstamos por 6 meses, comenzando dentro de 90 das. Supongamos que
el tipo forward para dicho perodo es 10%. Una manera de llevarlo a cabo es
acordar que un banco (el comprador del contrato) nos entregue dentro de 90 das
una Letra que se encuentre en dicho instante a 6 meses de su vencimiento, en
cuyo instante pagar su nominal, 10.000 ptas. El precio al cual hemos de acordar
hoy que se llevar a cabo la entrega de la Letra est determinado por el actual
tipo forward, que es del 5% semestral. Por tanto, el precio que acordaremos
hoy pagar dentro de 90 das por dicha Letra ser: 10.000/1,05=9.523,80 ptas..
Seis meses despus recibiremos 10.000 ptas., lo que equivaldr a haber prestado
9.523,80 ptas. durante 6 meses a un 10% anual.
19.1 Precios forward
Denotamos por 1
0
el precio que se acuerda a la rma del contrato forward para
la entrega del activo subyacente, al vencimiento del contrato forward. Deno-
tamos el valor del contrato forward en cada instante por )
|
. Aunque 1
0
suele
determinarse de manera que )
0
= 0, a lo largo de la vida del contrato, su valor
ser distinto de cero, debido a variaciones en el precio del subyacente, cambios
en los tipos de inters, u otros factores. De igual modo, El precio forward que
se ja cada da, incluso en contratos que tienen igual fecha de vencimiento,m
vara por las razones mencionadas.
En el caso ms simple, supongamos ausencia de costes de transaccin, y que
el activo subyacente puede dividirse de modo continuo. Supongamos asimismo,
que el subyacente puede almacenarse, sin coste y sin depreciacin, y que puede
venderse en corto (bajo prstamo). Supongamos que el precio spot en el mo-
384
mento de rma del contrato forward es o
0
. El precio acordado en el futuro ha
de ser:
1
0
=
o
0
d(0, T)
= o
0
(1 r
0,T
)
donde d(0, T) es el factor descuento apropiado. El tipo de inters utilizado
debe ser el consistente con el coste de acceso al mercado monetario, que gen-
eralmente es el tipo de operaciones repo.
En algunas ocasiones, durante el vencimiento del futuro de este bien sub-
yacente podra percibir una rentabilidad media por ciertos ingresos, de j. Si,
para simplicar, suponemos que la curva de tipos es plana en el tramo relevante,
tendramos la expresin:
1
0
= o
0
(1 r j)
|
Si no se cumple esta expresin, podran instrumentarse estrategias de arbi-
traje, en las cuales se obtiene un benecio neto seguro. Esto se debe a que,
como vamos a ver, un contrato forward puede utilizarse conjuntamente con el
mercado de contado, para reproducir un prstamo en o un crdito en el activo
sin riesgo.
Antes de ello, baste observar que, bajo nuestros supuesto, hay dos modos de
disponer del activo subyacente en la fecha T. Una es comprar el contrato froward
y jar hoy el precio de compra, 1
0
. Otra, es comprar hoy el bien, pagando o
0
y almacenarlo, asumiendo el coste nanciero de dicho almacenamiento. Ambas
estrategias deben conducir a un mismo pago.
De otro modo, supongamos 1
0

S0
J(0,T)
, es decir, que el contrato forward est
sobrevalorado por el mercado. Venderamos dicho contrato, y pedimos prestado
durante T perodos a inters r
0,T
, comprando con dicho crdito el subyacente,
a precio o
0
. Cuando lleguemos a T devolvemos el prstamo
S0
J(0,T)
y recibimos
1
0
, materializando un benecio. Ntese que ninguno de los trminos de esta
operacin es incierto, por lo que el benecio neto es seguro. Estas operaciones
podran llevarse a cabo en cuantas importantes, lo que har que el precio del
contado se eleve, a la vez que desciende el precio forward, hasta que la condicin
anterior se satisfaga.
El caso en que 1
0
<
S0
J(0,T)
es anlogo: pedimos prestado el subyacente de
alguien que pensaba tenerlo inmovilizado entre 0 y T, y lo vendemos a precio
o
0
, cantidad que prestamos hasta el instante T, a la vez que compramos un
futuro con vencimiento en T. En dicho instante, pagamos 1
0
por el bien, que
devolvemos a quien nos lo prest, a la vez que recibimos
S0
J(0,T)
, realizando un
benecio cierto.
En el ejemplo de los 200.000 kilos de maz, supongamos que existe una Letra
con vencimiento 24 de septiembre, cuyo precio en el mercado secundario es
hoy de 9708,70. El precio forward 1
0
debe ser: 1
0
= , 0,0, 07087 = , 66
ptas./kilo. Si se utiliza una composicin continua, el precio debera ser: 1
0
=
, 0c
5,S3/3
, donde hemos aproximado el perodo (0, T) a 4 meses.
385
19.2 Arbitraje
Arbitraje es la posibilidad de llevar a cabo una operacin que produce un ben-
ecio neto seguro. Aunque, cuando se producen, el margen es mnimo, como
tal operacin no requiere nanciacin, puede llevarse a cabo en enorme cuanta
(hasta que la uctuacin inducida en los precios la elimine), generando un ben-
ecio importante. Por supuesto, al valorar posibles arbitrajes hay que tener en
cuenta los costes de transaccin, costes de transporte, liquidez, etc...
La igualdad fundamental entre los mercados de futuro y contado es:
Benecio por compra de un futuro + Benecio por inversin en activo sin
riesgo = Benecio producido por inversin en subyacente
La razn es que la compra del futuro en t = 0 con vencimiento en T, ms una
inversin en t = 0 en activos in riesgo en cuanta igual a la compra del subyacente
equivale, a todos los efectos, a una inversin en subyacente en t = 0. Por tanto,
hemos creado una cartera rplica del subyacente por lo que, en ausencia de
arbitraje y costes de transaccin, sus precios han de coincidir. As, tenemos:
Benecio producido por inversin en subyacente = Benecio por compra de
un futuro + Benecio por inversin en activo sin riesgo
Benecio por inversin en activo sin riesgo = Benecio producido por com-
pra de subyacente y venta de futuro
Benecio por compra de un futuro = Benecio producido por compra de
subyacente-Coste de un crdito a tipo de inters libre de riesgo.
Estas relaciones, en trminos de benecios, son equivalentes a las que ante-
riormente obtuvimos en trminos de precios, pues, por ejemplo, la ltima puede
escribirse:
1
T
1
0
= o
T
o
0
1
Pero a vencimiento: 1
T
= o
T
. Por otra parte: 1 = o
0
r, por lo que:
1
0
= o
0
o
0
r = 1
0
= o
0
(1 r)
19.3 Costes de acarreo (Costs of carry)
Supongamos ahora que existen costes de almacenamiento o acarreo, como pri-
mas de seguro, alquiler de naves, etc.. En algunos casos, tambin existen costes
negativos por almacenar o mantener el subyacente, como dividendos (en el caso
de acciones) o cupones (en el caso de bonos). Supongamos que los pagos de
dichos costes (positivos o negativos) se producen peridicamente, y que existen
' de dichos perodos en (0, T). El coste de acarreo es el agregado de cada
uno de dichos costes, en valor presente. En consecuencia, la estructura de tipos
forward determina, junto con dicha estructura de costes y el precio de contado
del subyacente, el precio forward:
386
1
0
=
o
0
d (0, ')

1l

|=0
c
|
d(/, ')
donde d(/, ') es el factor descuento relevante entre / y '.
De modo equivalente:
o
0
=
1l

|=0
d(0, /)c(/) d(0, ')1
0
puesto que: d(0, :) = d(0, /)d(/, ') para todo 0 _ / _ '.
En el caso de un futuro sobre renta variable, si conocemos las fechas de
recepcin de dividendos y su cuanta, tendremos: c
|
= 1
|
, y:
1
0
=
o
0
d (0, ')

1l

|=0
1
|
d(/, ')
Ejemplo 2.- Supongamos que el precio actual del maz es 5,50 ptas./kilo, y
queremos hallar el precio forward del maz, entregable en 4 meses. El coste de
acarreo del maz se estima en un 1,5% por mes, pagadero a comienzos de mes,
y el tipo de inters es constante, a un 9% anual.
El tipo de inters mensual es:
0,09
l2
= 0, 007. Por tanto, le factor descuento,
para cada mes, es:
l
l0,0075
, con lo que tenemos:
1
0
= (1, 007)
d
(, 0) (0, 01)[(1, 007)
d
(1, 007)
3
(1, 007)
2
1, 007[ =
= , 6660 0, 0 1 4, 076 = , 728
Ejemplo 3.- Consideremos un bono del tesoro, de nominal 10.000 ptas. y
cupn 8% semestral, que se est vendiendo a 9.260 ptas, y que justo acaba de
pgar un cupn. Cul es su precio forward a 1 ao?. Supongamos que los tipos
de inters a 1 ao son planos al 9%.
En este perodo se pagarn dos cupones, por lo que tenemos:
0.260 =
1
0
400
(1, 04)
2

400
1, 04
de donde obtenemos: 1
0
= 0.204, 1.
En ocasiones, las expresiones anteriores de ausencia de arbitraje no se cumplen,
bien por ausencia de liquidez en los mercados del subyacente o del futuro. Por
otra parte, la expresin nos muestra que le precio debera aumentar con ', lo
cual tampoco es necesariamente cierto, al menos en contratos donde el suby-
acente es un producto agrcola con una estacionalidad bien denida. Aunque
387
aparentemente existen posibilidades de arbitraje, estas no se pueden explotar,
porque quienes disponen del bien en momentos de escasez no querrn despren-
derse de l.
Cuando el subyacente es almacenable, tendremos:
1
0
_
o
0
d (0, ')

1l

|=0
c
|
d(/, ')
En estos casos suele denirse la rentabilidad de conveniencia (convenience
yield) j, como aquella cantidad tal que:
1
0
=
o
0
d (0, ')

1l

|=0
c
|
j
d(/, ')
19.4 El valor de un contrato de futuro
Supongamos que le precio forward acordado a la rma del contrato fue 1
0
, y
que en el instante t el precio forward, con igual fecha de vencimiento, es 1
|
. El
valor del primer contrato es:
)
|
= (1
|
1
0
)d(t, T)
donde d(t, T) es el factor de descuento libre de riesgo entre t y T.
Comprar en t un contrato de futuro con precio de entrega 1
|
y vender un
contrato con precio de entrega 1
0
nos genera un cash ow de )
|
. A vencimiento
(en T) produce un cash ow de 1
0
1
|
. Esta cartera proporciona una secuencia
determinista. de ingresos y pagos, por lo que su rentabilidad ha de coincidir con
la del activo sin riesgo, d(t, T).
19.5 Swaps
Un swap es un contrato por el que se acuerda intercambiar una secuencia de
ujos de ingresos y pagos por otra. El ms comn es el plain vanilla swap
en el que una de las partes entrega una serie de pagos o ingresos de cuanta
constante, a cambio de otra secuencia de pagos o ingresos, de cuanta variable.
Un swap puede reducirse a un conjunto de contratos forward, lo que facilita jar
su precio. Consideremos el caso en que acuerda entregar pagos semestrales a
1, de acuerdo con una rentabilidad constante sobre un principal nocional. Se
utiliza este trmino porque no existe ningn subyacente, y slo se lleva a cabo
el intercambio de ujos. El principal nocional sirve para determinar el nivel
de los pagos a intercambiar. A cambio, 1 hace efectivos pagos semestrales a
a tipo variable (por ej., el MIBOR a 6 meses). Generalmente, los swaps se
intercambian en trminos netos, es decir, se hace efectiva solamente la diferencia
entre ambos ujos, por la parte que corresponda. El swap podra obedecer a
388
que 1 ha hecho un prstamo a una tercera parte C a inters variable, aunque
preere recibir unos ingresos constantes, lo que consigue, a efectos prcticos,
con el swap con .
19.6 Precio de un swap de bienes
Consideremos que acuerda recibir unidades de un bien cada perodo, a la
vez que paga una cantidad ja A por unidad. Si el acuerdo cubre ' perodos,
el ujo neto que recibe es:
(o
l
A), (o
2
A), (o
3
A), ..., (o
1
A)
donde o
I
denota el precio de contado del bien en el instante i.
En el instante inicial, 0, sea 1
I
el precio forward de una unidad del bien,
entregable en i. Estamos, entonces, indiferentes entre recibir o
I
, que es ahora
incierto, en el instante i, o acordar ahora recibir 1
I
con certeza en dicho in-
stante. Descontando al instante inicial, tenemos que el valor presente, libre de
incertidumbre, de recibir o
I
en el instante i es d(0, i)1
I
.
Aplicando este argumento a cada instante en que se produce un ujo, ten-
emos:
\ =
1

I=l
d(0, i)(1
I
A)
Por lo que, conocidos los precios forward, podemos valorar el swap. Gen-
eralmente, A se escoge de modo que el precio del swap sea cero.
Ejemplo 4.- Una empresa quiere recibir oro a precio de contado, a cambio
de pagos jos. Supongamos que el oro es almacenable con coste nulo. En tal
caso, sabemos que 1
I
=
S0
J(0,I))
, por lo que, de la expresin anterior:
\ =
_
'o
0

I=l
d(0, i)A
_

pero el sumatorio es el valor presente de los pagos por cupn de un bono,


cupn A, por lo que tenemos:
\ =
_
'o
0

A
C
[1(', C) 100d(0, ')[
_

donde 1(', C) denota el precio (base 100) de un bono con vencimiento en


' perodos y cupn C. En esta expresin puede utilizarse cualquier valor de C.
389
19.7 Valor de un swap de tipos de inters
Consideremos que se ha acordado que paga un tipo jo r sobre un principal
nocional , a la vez que recibe pagos a inters variable (oating rate) sobre el
mismo principal, durante ' perodos. El ujo neto percibido por es:
((c
0
r), (c
l
r), (c
2
r), (c
3
r), ..., (c
1
r))
donde c
0
, c
l
, c
2
, ... denotan los tipos de inters variables.
Aunque podramos calcular el valor el swap a partir de precios forward,
seguimos otro mtodo: la rama otante del swap es igual a la generada por
un bono a inters variable, de principal y vencimiento '. Sabemos que el
valor inicial de un bono de rentabilidad variable, incluyendo el pago nal del
principal, es a la par. Por tanto, el valor de la rama otante del swap es par,
menos el valor presente del principal, recibido en ' :
d(0, ')
El valor de la rama ja es la suma de los pagos jos descontados de acuerdo
con la estructura temporal de tipos vigente en el momento de acordar el swap.
Por tanto, el valor del swap es:
\ =
_
1 d(0, ') r
1

I=l
d(0, i)
_

que podra simplicarse del modo que antes hicimos.


19.8 Aspectos bsicos de los contratos de futuros
Cuando el volumen de negociacin en contratos forward se hizo importante, se
hizo clara la conveniencia de estandarizar dichos contratos, a la vez que crear
una cmara de compensacin que se encargase de supervisar el cumplimiento
de los mismos. Este proceso no est exento de dicultades, pues aunque pueden
estandarizarse los bienes, las fechas de vencimiento, las cantidades a entregar,
e incluso la calidad de los bienes especicados en estos contratos, no es posible
estandarizar el precio forward, que cambia continuamente. Ello hace que habra
que seguir un nmero enorme de contratos, que diriesen en cada una de estas
variables.
Para evitar esta dicultad, se crearon mercados de futuros organizados, como
alternativa a los mercados forward. La multiplicidad de precios forward se elim-
ina revisando los contratos segn va variando el precio del subyacente, tiempo
a vencimiento, etc.. Si se escribe un contrato a precio 1
0
y el nuevo precio el
da siguiente es 1
l
, el precio del contrato es cambiado a 1
l
, y el comprador del
contrato recibe de la entidad liquidadora la diferencia 1
l
1
0
si es positiva, o
se le carga en su cuenta, si es negativa. De este modo, estara en las mismas
390
condiciones con el contrato de precio 1
l
, que lo estaba con el contrato primitivo.
Lo opuesto ocurre con el vendedor del contrato de futuros.
Este proceso se conoce como marking to market. Cada parte debe abrir una
cuenta de mrgenes (margin account) con la cmara de compensacin o con
un broker, que juegan el papel de entidad liquidadora. Esta cuenta debe tener
inicialmente un porcentaje del valor del contrato, que puede oscilar entre el 10%
y el 30%. Las cuentas se ajustan al cierre diario del mercado. Si el precio del
contrato de futuro ha aumentado, la posicin larga recibe un benecio igual al
incremento en el precio, multiplicado por la cantidad acordado en el contrato de
futuros. La parte corta pierde la misma cantidad, que se deduce de su cuenta de
mrgenes. De este modo, cada posicin larga tiene siempre el mismo contrato, al
igual que le ocurre a cada posicin corta. A vencimiento, la entrega se efecta
al precio del contrato de futuros de ese da, que puede ser muy diferente del
precio acordado a la rma del contrato. Pueden ignorarse las uctuaciones
producidas en el precio del futuro desde que se suscribi, porque el perdedor
habr ido pagando, las cantidades parciales perdidas, mediante los cargos que
se han ido haciendo en su cuenta de garantas. El depsito de garantas, junto
con el sistema de liquidacin diario, eliminan totalmente el riesgo de crdito de
ambas contrapartidas de un contrato de futuros.
De hecho, en ms del 90% de las operaciones con futuros se cierran las
posiciones antes de la fecha de entrega, haciendo efectivo solo el saldo neto
monetario, pero sin proceder a la entrega fsica del bien. Los futuros se utilizan
para inmunizar la compra o venta futura de un bien, pero la compra o venta
reales se llevan a cabo por lo general directamente de los proveedores habituales.
La cuentas de mrgenes no reciben intereses. Sin embargo, en ocasiones se
permite depositar en ellas Letras u otros activos que s reciben inters. Existe,
adems, un margen mnimo de mantenimiento, por debajo del cual, el poseedor
de un contrato de futuros recibe una llamada requiriendo mrgen adicional
(margin call ). De no efectuarla, la posicin en futuros se cierra tomando una
posicin igual y de signo opuesto. Sin embargo, en ocasiones se permite el
depsito en las cuentas de mrgenes de Letras del Tesoro u otros activos que
reciben intereses, lo que equivale, a todos los efectos prcticos, a que dichos
saldos estuviesen remunerados.
El hecho de que unicamente se deposite una proporcin reducida del importe
que se suscribe en el contrato de futuros conduce a un elevado apalancamiento.
Si, por ejemplo, disponemos de 1 milln de ptas. para invertir y el depsito
es del 10%, podremos invertir hasta por 100 millones, depositando entonces
como depsito de garantas todo nuestro patrimonio. En caso de acertar con
la evolucin futura del mercado del subyacente, el elevado apalancamiento nos
proporcionara un benecio mucho mayor del que hubisemos podido lograr
operando en el mercado de contado. Sin embargo, es evidente que con ello
asumismo un riesgo muy elevado.
El inters abierto es el nmero de contratos no cancelados (abiertos). Una
posicin se deshace abriendo otra de igual cuanta y signo opuesto. Por tanto,
un comprador de un contrato que quiere deshacer su posicin no se deshace de
su contrato, que sigue manteniendo; lo que hace es vender un contrato de igual
391
vencimiento. A partir de entonces, nuestro benecio o prdida ya no cambiarn,
con independencia de las uctuaciones que experimente el precio del futuro hasta
su vencimiento, como puede comprobarse fcilmente con un ejemplo.
19.9 El riesgo de base
Parece bastante intuitivo que, a vencimiento, el precio de un futuro deba co-
incidir con el precio de contado del subyacente, pues de lo contrario, podra
producirse una operacin de arbitraje en dicho instante. La base es, precisa-
mente, la diferencia entre el precio del futuro y el precio de contado; por tanto,
de acuerdo con este argumento, la base converger a cero. Sin embargo, para
que ello ocurra, el subyacente y el bien descrito en el futuro han de ser idnticos,
lo que, en muchos casos, no ocurre:
a) supongamos que queremos inmunizar un ingreso de 1 milln de dlares
Canadienses que vamos a percibir dentro de 90 das, eliminando el riesgo de
precio. Para ello, querramos vender futuros por dicha cantidad, a la cotizacin
actual del dlar canadiense. Sin embargo, no existe tal contrato, aunque existen
contratos sobre $US, divisa cuya cotizacin tiene una alta correlacin con el $
Canadiense,
b) en muchas ocasiones, no existen contratos disponibles con vencimeinto
igual al momento en que se va a efectuar la operacin cuyo riesgo queremos elim-
inar, por lo que tendremso que deshacer nuestra posicin antes de vencimiento
del contrato de futuros; en otros casos, nuestro horizonte es muy largo, y habre-
mos de renovar (rollover) nuestra posicin de futuros. Nuevamente, asumimos
inicialmente un riesgo de base.
392
20 Valoracin de un futuro sobre un bono
Un futuro sobre un bono es un producto derivado denido sobre un bono espec-
co como subyacente. Al vencimiento del contrato, la parte vendedora entregar
a la parte compradora el bono estipulado como subyacente, y el comprador del
futuro pagar al vendedor del mismo el precio estipulado en el momento en que
se intercambi el contrato de futuro. Una vez ms, para valorar los contratos de
futuros denidos sobre un bono, apelamos al principio de ausencia de arbitraje.
Para ello, consideramos una cartera rplica del futuro o, lo que es lo mismo, una
estrategia de inversin que genere exactamente la misma secuencia de ingresos
y pagos, y en las mismas fechas, que las que genera el futuro.
Como en los dems futuros, a la compra del futuro no se efecta pago al-
guno; sin embargo, el comprador se benecia desde dicho momento de cualquier
ganancia de capital (o sufre cualquier prdida de capital) que pueda experimen-
tar en el mercado de contado el bono subyacente. El comprador del futuro ha
adelantado la compra del bono, en el sentido de jar el precio al cual comprar
el bono al vencimiento del futuro..
Una cartera rplica consiste en pedir un prstamo igual al precio de contado
del bono, y comprar el bono. En este caso, se incurre en el coste nanciero del
prstamo, pero se reciben intereses sobre el bono, de modo que debe cumplirse:
1
0
= 1
0
C1 1
para que las dos estrategias de inversin, que son equivalentes, tengan el
mismo coste. En el primer caso, el comprador del futuro pagar 1
0
al vencimiento
del mismo. En el segundo caso, abonar el principal del prstamo ms intereses,
aunque habr recibido un ujo de intereses o cupones cuyo valor actualizado a
vencimiento del futuro denotamos por 1.
Por tanto, el precio del futuro puede escribirse:
1
0
= 1
0
C1 1 = 1
0
1
0
tr 1
0
tc = 1
0
(1 t(r c))
donde denotamos por c la tasa a la que se recibe el ujo continuo de cupones.
Tal ujo no es continuo, pero siempre existe una tasa continua equivalente, c.
La diferencia entre el precio del futuro y el precio de contado del bono
subyacente en cada instante es:
1
0
1
0
= C1 1
lo que se conoce como base del contrato, siendo igual a la diferencia entre
el coste nanciero que tendra la compra del bono al contado en ese instante,
menos los intereses a percibir, en ambos casos hasta la fecha de vencimiento del
contrato de futuro.
Por tanto, que la base del contrato de futuro sea positiva o negativa depende
de la relacin entre ambas magnitudes. La existencia de primas de riesgo en
los mercados de deuda hace que, generalmente, los cupones sean superiores al
tipo de inters sin riesgo y, con ello, que la base del futuro sea positiva. Al
393
vencimiento del futuro, la base ser cero pues en ese momento no existe costes
nancieros ni est pendiente ningn pago de intereses.
Ejemplo: Consideremos un bono a tres aos, cupn anual del 12%. Supong-
amos que la rentabilidad del mercado y, con ella, la TIR del bono, es asimismo
del 12%. Supongamos que el tipo de inters libre de riesgo es 10%, y consider-
emos un contrato de futuro a un ao sobre este bono.
Puesto que el cupn es igual a la TIR, el precio de contado del bono ser
100:
1
0
=
3

I=l
(0.12) + 100
(1 0.12)
I

100
(1 0.12)
3
= 100
El coste nanciero de pedir prestado para comprar el bono hoy, y mantenerlo
durante un ao, es:
Co:tc )i:a:cicro = tijo dc i:tcr c: + dnraci o:dc| jr c:ta:o, c:a :o: + Cna:tia
dc| jr c:ta:o = (0, 10)(1)100 = 10
1:tcrc:c: acn:n|ado: = cnj o: + tic:jo tra::cnrrido + :o:i:a| dc| /o:o =
= (0, 12)(1)100 = 12
Por tanto, el precio actual del futuro a un ao debe ser:
1
0
= 1
0
C1 1 = 100 10 12 = 08
Si el precio de mercado del futuro fuese de 90, podramos proceder a una
operacin de arbitrage pidiendo prestado el bono, que venderamos. Simultnea-
mente, compraramos el futuro, que est barato en trminos relativos.
Cash-ow: Al vender el bono hoy, recibo 100, que invierto al tipo de inters
sin riesgo. Al vencimiento del futuro, recibo 10 de intereses, ms el principal,
100. Pago un precio de compra por el bono igual al precio estipulado en el
contrato, 90, y lo devuelvo a quien me lo prest. Tambin he de devolver a
quien me cedi el bono, los intereses devengados por los cupones, que en el
plazo del ao, sern por una cuanta de 12. El ujo neto es:
1|n,o :cto a c:ci:ic:to = 10 100 00 12 = 110 102 = 8
un benecio que hoy puedo jar con certeza, igual a la cuanta de la minus-
valoracin del futuro. Como consecuencia, se desencadenaran operaciones de
arbitraje que elevaran el precio del futuro hasta su nivel terico, eliminado la
posibilidad de realizar un benecio cierto.
Si el precio del futuro fuese superior a 98, venderamos el futuro, que est
relativamente caro. Simultneamente, pedimos un prstamos y compramos el
bono en el contado, recibiendo los cupones. Al vencimiento del futuro entreg-
amos el bono a quien nos compr el contrato. Si el precio del futuro fuese
394
102, por ejemplo, vendemos un contrato, pedimos un prstamo por 100 u.m. y
compro el bono. Al vencimiento del futuro he recibido 12 u.m. en pagos por
cupones, recibo 102 por el bono, que entrego, y devuelvo el principal, 100 u.m.,
ms intereses, 10 u.m..
1|n,o :cto a c:ci:ic:to = 102 100 10 = 114 110 = 4
nuevamente con un benecio cierto igual a la cuanta del error de precio del
bono (sobrevaloracin, en este caso).
20.1 Rentabilidad de una posicin en futuros sobre bonos
20.2 Posicin cubierta
Consideremos un inversor con 100 u.m. en liquidez, ganando una rentabilidad
del 10%, que decide comprar un futuro a un ao, cupn anual del 12%, a un
precio justo de 98. Al vencimiento del futuro, paga el precio estipulado, 98,
y recibe un bono que vale 100 um.. Asimismo, recibe los intereses sobre el
depsito, 10 um. As:
1|n,o :cto = 100 10 08 = 12
que es la misma rentabilidad que habra obtenido manteniendo el bono. Esto
se debe a que una posicin en liquidez, ms la compra de un futuro sobre un
bono, nos da la misma rentabilidad que comprando el bono en el mercado de
contado. Esta armacin es vlida para benecios, pero no para rentabilidades
porcentuales.
Esta armacin no es sino una reordenacin de la frmula de valoracin del
bono, suponiendo ausencia de arbitraje:
1
0
C1 = 1
0
1
El caso dual es el de un inversor que, teniendo un bono en su cartera, decide
vender un futuro sobre el mismo. Al vencimiento del futuro recibira 98 um. y
entregara el bono, que vale 100 um.. Hasta entonces, habra recibido 12 um.
en pagos por cupones.
1|n,o :cto = 08 100 12 = 10
que sera la remuneracin que habra recibido la posicin en liquidez. Una
cartera formada por un bono y la venta de un futuro sobre dicho bono, equivalen
a una cartera en liquidez.
1
0
1
0
1 = C1
395
20.3 Posicin especulativa
Consideremos ahora el caso en que el futuro se compra para asegurar una
rentabilidad futura, no para cubrir una cartera de contado: supongamos un
inversor que prev realizar dentro de un ao una inversin a 3 aos. Como an-
ticipa un posible descenso de tipos, quiere asegurarse la rentabilidad de mercado
actual, que es una TIR del 12%, para lo que compra un futuro a un ao sobre
un bono a 3 aos. Con ello, mantendr una posicin abierta (descubierta) en el
mercado de futuros.
Este inversor compra el futuro a 98, que es lo que pagar al vencimiento del
futuro por recibir el bono. Si no se produce el descenso previsto en los tipos, y
estos continan siendo del 12%, el bono seguir teniendo un precio de mercado
igual a 100 um., y el inversor habr ganado:
Ca:/ )|on = 100 08 = 2
que, junto con el benecio de la posicin de liquidez, 10 um., nos da la
rentabilidad del bono, de 12 um.. En este caso no se ha producido ningn
benecio o prdida especulativos. La posicin especulativa aspira a generar
algn benecio si se cumplen las previsiones de tipos, aunque a sabiendas de
que puede conducir a prdidas si ocurre un movimiento de signo contrario al
previsto.
Supongamos, alternativamente, que los tipos descienden, efectivamente, al
11%. El precio del bono ser, al vencimiento del futuro:
1
T
=
3

I=l
(0.12) + 100
(1 0.11)
I

100
(1 0.11)
3
= 102. 44
por lo que habremos ganado 4,44 um..Por ltimo, si nuestra previsiones
resultan ser muy equivocadas y, contrariamente a lo que esperbamos, los tipos
se elevan al 13%, el bono valdr:
1
T
=
3

I=l
(0.12) + 100
(1 0.18)
I

100
(1 0.18)
3
= 07. 680 (109)
y habremos perdido 0,361 um..
20.3.1 Observaciones:
Estamos suponiendo que el precio de mercado del futuro coincide con
su precio terico, es decir, no hay error en precio, o mispricing. Salvo
fricciones en el mercado, esto siempre ocurrir, pues de lo contrario, se
produciran oportunidades de arbitraje, hasta que tales errores en precios
desaparecieran. En ocasiones, se producen pequeas discrepancias debido
a posibles dicultades en el acceso a crdito, la existencia de costes de
transaccin, comisiones, etc.
396
Hemos supuesto que mantenemos en nuestra cartera el contrato de futuro
hasta su vencimiento. Si lo vendisemos antes, podramos incurrir en
prdidas producidas por posibles errores en precio en el momento de la
venta.
Suponemos que el futuro se reere a un bono idntico al que poseemos en
nuestra cartera. Como veremos enseguida, esto no es exactamente lo que
ocurre en la realidad.
20.4 El bono nocional
Los contratos de futuros sobre deuda pblica no pueden construirse sobre cada
una de las referencias vivas en dicho mercado. Sin embargo, la multiplicidad
de referencias cotizadas en el mercado secundario de deuda pblica hara que la
consiguiente diversidad de contratos de futuros produjese una muy reducida liq-
uidez, con la consiguiente elevacin de costes de transaccin, y precios elevados
por primas de iliquidez, resultando el mercado inviable. Por tanto, es frecuente
que el futuro que se utiliza en la cobertura de un bono tenga un subyacente
que no coincide exactamente con el activo que se quiere cubrir. Esto produce el
llamado riesgo de correlacin, que aparece cuando los precios de ambos activos
tienen una correlacin inferior a la unidad.
Para evitar la multiplicidad de contratos a que nos hemos referido, se dene
un bono (hipottico) nocional, con unas caractersticas que conduzcan a una
mxima correlacin con la mayora de las emisiones del mercado. Al ser un
nico contrato, su liquidez est casi garantizada.
El futuro sobre bonos del Estado se reere a un bono nocional como activo
subyacente, con caractersticas:
Amortizacin: 3 y 10 aos
cupn: bono a 3 aos: 10% anual, con pagos semestrales del 5%. Bono a
10 aos: 9% anual.
nominal: 10 millones de ptas.
Precio: cotiza como porcentaje del nominal, en centsimas. Cada punto
vale 100.000 ptas. Par 100. A la par, la TIR del bono nocional a 3 aos
es 10,25%.
Fecha de emisin hipottica: fecha de vencimiento del futuro.
Vencimiento del futuro: tercer mircoles de los meses de marzo, junio,
septiembre y diciembre
negociacin de los dos contratos ms prximos a vencimiento, como mn-
imo.
uctuacin mnima diaria del precio: un punto bsico, que equivale a 1.000
ptas..
397
uctuacin mxima diaria: 2% del nominal, es decir, 200.000 ptas., ex-
cepto en el primer y ltimo da de negociacin.
margen de garanta inicial o depsito inicial: 4% del valor del contrato.
Sin embargo, el bono nocional no existe fsicamente. Cuando se emite el
contrato de futuro, se hace explcita la relacin de bonos entregables, es
decir, la lista de aquellos que el vendedor del contrato de futuro puede
entregar al vencimiento del mismo. El vendedor puede elegir entre esta
lista aqul que desee entregar y, lgicamente, escoger el bono entregable
ms barato (EMB), o cheapest to delivery (CTD).
Ejemplo: Supongamos un tipo de inters libre de riesgo del 10%, y que el
bono nocional a 3 aos ofrece una TIR del 12,36%, que equivale a un 6,00%
semestral, en capitalizacin compuesta. El precio que tendra hoy al contado el
bono nocional que compramos a futuro sera:
1
1
=
6

I=l
(0.0) + 100
(1 0.06)
I

100
(1 0.06)
6
= 0. 0827
por lo que el precio terico del futuro sobre el bono nocional es:
1
0
= 1
0
(1 t(r c)) = 0, 0827 + (1 (1)(0, 10 0, 10)) = 0, 0827
donde t=1 ao. Suponemos que no hay sesgo de precio del futuro, y que
cotiza, exactamente a su precio terico de 95,0827. Comprando a este precio,
aseguramos una TIR del 12,36% al vencimiento del futuro. Obtendremos una
prdida si, al vencimiento del futuro, los tipos de inters de mercado son supe-
riores al 12,36%, realizando un benecio en caso contrario. Si, al vencimiento
del futuro, el tipo de inters del mercado de deuda contina siendo de 12,36%, y
si contina sin haber mispricing, el bono nocional tendr un precio de mercado
de 0, 0827, y la operacin debera saldarse con resultado nulo.
Supongamos que, en dicho momento, el bono entregable ms barato es uno
con 2 aos de vida residual y cupn anual del 14%, pagadero semestralmente.
Si este bono cotizase de acuerdo con la TIR del mercado, su precio sera:
1
T
J11
=
d

I=l
(0.07) + 100
(1 0.06)
I

100
(1 0.06)
d
= 108. 461
Sin embargo, supongamos que este bono cotiza en el mercado a 103,06. Es
fcil ver que la TIR resultante es de 6,115% semestral, o 12,603% anual, lo que
le hace ser un bono relativamente barato.
El factor de conversin que hace comparables al bono nocional y al EMB se
obtiene dividiendo por 100 el precio que se obtendra para el EMB descontando
sus ujos a la TIR-par del bono nocional, que es del 10,25%:
398
1
J11
=
d

I=l
(0.07) + 100
(1 0.0)
I

100
(1 0.0)
d
= 107. 0010
por lo que el factor de conversin es:
) = 1.0700
de modo que el comprador del futuro tendr que pagar el precio acordado de
95,0827 y recibir el equivalente a un bono nocional, que es 1/) = 1,1.0700 =
0. 0888 bonos, vencimiento a 2 aos, 14% cupn, pagos semestrales.
Dado que no se puede partir de manera continua un bono, lo que se hace
para saldar la operacin es que el vendedor entrega al comprador una unidad
del EMB y ste abona el precio acordado en el contrato de futuro, multiplicado
por el factor de conversin:
\ a|or dc| 1'1 = Ii ccio acordado c:c| )ntnro+) = 0.0827+1.0700 = 101. 8241
Con esta operacin, el comprador del contrato de futuro paga 101. 8241 por
un bono que le dar 4 cupones de 7%, ms un principal de 100. La TIR durante
los dos aos de vida del bono tras el vencimiento del contrato de futuro es
de 13,35%, que es superior al 12,36% por 3 aos que se haba asegurado con
la compra del futuro. En realidad, est obteniendo sta ltima rentabilidad,
puesto que si una vez que venza el bono de 2 aos coloca la inversin en liquidez
durante 1 ao, al nal del perodo global de 3 aos se tendr la rentabilidad del
12,36%, pues la solucin a la ecuacin:
1
J11
=
d

I=l
(0.07) + 100
(1 T11)
I

110
(1 T11)
6
= 101.8241
es T11 = 0.06, 12,36% en trminos anuales.
Por ltimo hay que notar que la capacidad de escoger el EMB ofrece al
vendedor del futuro una posibilidad de benecio, que se conoce como opcin de
entrega. En nuestro caso, el vendedor ha entregado un bono que le ha costado
en el mercado 103,06 como si su valor fuese de 103,4651, quedndose con los 40
pb. de diferencia como rentabilidad adicional de la operacin.
El bono EMB se obtiene comparando, para cada uno de los bonos de la cesta
de entregables, el precio que se recibira por cada uno de ellos (igual al 1
J
por
el factor de conversin )
I
) con el precio de contado del mismo, 1
c1
. por tanto,
el bono EMB es el que maximiza la diferencia:
1
J
)
I
1
c1
que es la base del futuro, cambiada de signo, que ser negativa para todos
ellos. Si fuese positiva, podramos arbitrar comprando el bono correspondi-
ente, vendiendo el futuro, y noticando inmediatamente la intencin de hacer la
entrega. Por tanto, el bono EMB es aqul que tiene una menor base negativa.
399
Este clculo es vlido al vencimiento del futuro. Antes de dicha fecha se
acta como si dicho da fuese el de entrega del bono subyacente.
20.4.1 Observaciones:
Estamos suponiendo que la negociacin del contrato de futuro se lleva a
cabo inmediatamente tras un pago de cupn. Cuando no es este el caso,
el pago que el comprador debe hacer efectivo al vendedor es:
\ a|or dc| 1'1 = Ii ccio acordado c:c| )ntnro + ) cnj o:corrido
Si se quiere evitar la entrega fsica de los ttulos, se cierra la operacin el
da antes a la expiracin del contrato. Como el precio del futuro converge
al precio de contado, el precio que pagaremos por el futuro ser prctica-
mente el mismo que el del bono nocional. Esta forma de operar suele ser
ms barata que comprar bonos en el mercado de contado.
20.5 Futuro sobre MIBOR a 90 das
20.6 Caractersticas del contrato
Ver fotocopia
20.6.1 Observaciones:
Se negocia como el bono nocional. El sistema de depsitos y de liquida-
ciones diarias es el mismo. Es distinto el depsito total y los lmites de
uctuacin mxima diaria de los precios.
Se cotiza en base 100, aproximando hasta las centsimas. Un punto equiv-
ale a 100.000 ptas., por lo que el nominal es de 10 millones de ptas.. El
precio de liquidacin a vencimiento es:
Ii ccio c:ci:ic:to = 100.00 '11O1
El tipo de inters implcito en cada instante de negociacin:
Tijo i:tcr c: = 100.00 jrccio col i.aci o:
Un movimiento de un punto bsico sobre un prstamo de 10 millones de
ptas. a 90 das representa:
0.01
100
00
860
10.000.000 jta:. = 20 jta:.
que es, en consecuencia, la variacin mnima diaria en la cotizacin.
400
con objeto de reducir al mnimo los costes de transaccin, se liquida por
diferencias. Si se ha comprado un futuro sobre MIBOR90 a 91,00, esta-
mos comprando un inters implcito de 9,00% anual, sobre un depsito
a constituir durante 3 meses, a partir del vencimiento del futuro. Si al
vencimiento, el precio del futuro est en 92,50, es porque el tipo de inters
sobre tal depsito es de 7,50%. Al haber bajado los tipos de inters, nue-
stro depsito vale ms. Dicho de otro modo, si ahora depositamos durante
90 das, recibiramos en el mercado 0,075*10.000.000 ptas.. Sin embargo,
aseguramos al suscribir el contrato una remuneracin del 10,00%, por lo
que el vendedor del contrato debe remunerarnos ahora la diferencia de 150
puntos bsicos. La liquidacin es:
0, 010 + 10.000.000 jta:. = 10.000 jta:.
En conjuncin con el futuro sobre bono nocional a vencimiento ms largo,
3 o 10 aos, este futuro permite gestionar el riesgo de variaciones en la
estructura temporal de tipos.
20.7 Cobertura de carteras de renta ja
Al igual que en el caso de carteras de renta variable, la cobertura consiste en
tomar en el mercado de futuros una posicin de signo opuesto a la que tenemos
en el mercado de contado. Es decir, se trata de adelantar la operacin que hemos
de hacer dentro de un tiempo. Si pensamos que los tipos de inters pueden subir
y, con ello, el valor de nuestra cartera puede descender, venderemos futuros por
el valor de nuestra cartera de contado. Con ello, habremos jado el valor de
la cartera, con independencia de lo que ocurra con los tipos de inters. Como
vimos antes, la venta ahora de los futuros equivale a vender la cartera de contado
ahora e invertir los ingresos resultantes en el activo sin riesgo.
Para una empresa que prev lanzar una emisin de deuda dentro de unos
meses, tambin la cobertura con futuros es interesante. Si la empresa prev
una subida de tipos y, con ello, un encarecimiento de su operacin, habr de
vender futuros por el importe de la emisin, comprometindose a pagar una
rentabilidad inferior a la que espera que est vigente en el momento de realizar
la emisin de deuda. Ello equivale a realizar la emisin de deuda ahora.
Al realizar la cobertura, puede haber varios contratos de futuros disponibles.
Hay que tener en cuenta:
la liquidez de la emisin, por si tenemos que cerrar posiciones en un mo-
mento determinado,
que el futuro tenga una volatilidad similar a la de nuestra cartera. Para
una cartera de duracin corta ser preferible utilizar el futuro sobre MI-
BOR90, mientras que para una cartera de duracin ms larga, ser preferi-
ble utilizar el futuro sobre bono nocional.
401
que tenga un riesgo reducido sesgo de precio (mispricing), pues si existe
dicho sesgo, la cobertura ser imperfecta. Generalmente, una mayor liq-
uidez implica un menor sesgo de precio.
20.8 Nmero de contratos necesario
El principio bsico de la cobertura consiste en completar nuestra cartera de con-
tado con una posicin de futuros de signo opuesto. As, si tenemos comprada
una cartera de deuda, realizaremos la cobertura vendiendo futuros. Recordemos
que el perl de resultados de una posicin de futuros es similar a la del contado,
que es por lo que tomamos posiciones de signo opuesto, de modo que un resul-
tado negativo en uno de los componentes (futuro o contado), se compense con
un resultado positivo del otro.
El valor de la cartera as constituida ser: \ C = 1
c

c
1
J

J
, donde

c
,
J
representan los nominales de las posiciones en futuros y contado. Un
cambio en su valor de mercado puede expresarse: ^\ C = ^1
c

c
^1
J

J
,
de modo que:

c
=
^1
c
^1
J
=^\ C = 0
Sin embargo, seguir esta regla para inmunizar el valor de la cartera supon-
dra estar comprando y vendiendo contado y/o futuros continuamente con el
consiguiente incremento en costes y comisiones.
En algunos casos, nos encontraremos con una correlacin entre precios de
futuros y de contado prcticamente igual a 1 y con similar volatilidad en ambos
precios. En tal caso, las uctuaciones en el precio del contado tienden a venir
asociadas con variaciones de igual signo y cuanta del futuro, y con un nominal
invertido en futuros igual al de la posicin de contado, tendramos la cartera de
contado cubierta. Ello no signica que hayamos inmunizado nuestra posicin,
en primer lugar porque el coeciente de correlacin entre ambos precios no es
nunca exactamente igual a uno, lo que se conoce como riesgo de correlacin,
especialmente si queremos cubrir un activo de contado que no es subyacente de
ningn contrato de futuro (este es el caso de la cobertura cruzada). La condicin
de igual volatilidad es importante: si los precios tienen correlacin igual a uno,
pero la desviacin tpica del contado es doble que la del futuro, entonces las
variaciones en ambos precios de correspondern en signo exactamente, pero
sern de amplitud doble en el precio del contado que en el precio del futuro.
En esta situacin, necesitaramos invertir en futuros un nominal doble del de la
posicin de contado. Con coeciente de correlacin unitaria, podemos inmunizar
la cartera de contado, eligiendo un ratio de cobertura /:
/ =
o|ati|idad cartcra
o|ati|idad )ntnro
En cualquiera de estos casos, la cobertura deber ser revisada peridica-
mente, segn se produzcan variaciones en los determinantes de las volatilidades
y correlacin de los precios de contado y futuro.
402
Por otra parte, ya hemos visto que:
Ii ccio )ntnro =
Ii ccio 1'1
)
por lo que escribiendo esta ecuacin en t y en t 1 y restando, tenemos:
oc:/i|idad jrccio )ntnro =
oc::i/i|idad jrccio 1'1
)
y, nalmente:
/ =
o|ati|idad cartcra
o|ati|idad 1'1
o|ati|idad 1'1
o|ati|idad )ntnro
=
o|ati|idad cartcra
o|ati|idad 1'1
+ )
Incluso si suponemos correlacin unitaria, deberamos considerar utilizar un
nmero de contratos igual al valor de nuestra cartera de renta ja, dividido por
el nominal de cada contrato de futuros. As, si tenemos una cartera de 10 m.m.
de ptas., y el contrato de futuros es por 10 millones de ptas., necesitaramos
1.000 contratos. Este ratio debe ajustarse por la diferencia de volatilidades que
pueda existir entre el entregable ms barato (EMB) y nuestra cartera, pues sta
es la relacin en que una determinada uctuacin en tipos de inters afectar al
precio del EMB ( y, con l, al precio del futuro) y al valor de mercado de nuestra
cartera.
Por tanto, el nmero de contratos de futuros con los que constituir la cober-
tura es:
=
_
a|or :o mina| cartcra
a|or :o mina| )ntnro
__
o|ati|idad cartcra
o|ati|idad 1'1
_
+ )
Hay varias maneras de calcular la volatilidad de contado y futuros: 1) uti-
lizando la duracin de un activo de renta para aproximar el cambio que se
produce en el valor de la cartera cuando vara un punto bsico el rendimiento
del bono. Por supuesto que este clculo puede incorporar asimismo la convex-
idad del activo, 2) aumentando o disminuyendo la TIR de la cartera en 1 pb.,
y calculando la variacin que se produce en el precio. Dividiendo dicho cambio
en precio por el valor de la cartera se obtiene el valor de un punto base, que es
otra medida de la volatilidad de la cartera, 3) mediante un procedimiento de
regresin.
Ejemplo (Soldevilla, p.113).- Una situacin sencilla es la que surge cuando
la posicin de contado est invertida en el bono EMB respecto de un contrato
de futuros. En ese caso, el segundo factor en la expresin anterior es igual a 1,
y nicamente hay que ajustar el cociente de valores nominales con el factor de
conversin del EMB. Esto es vlido si la cobertura se quiere mantener hasta el
vencimiento del futuro. Si, posiblemente debido a que el horizonte de inversin
no coincide con el vencimiento del futuro, se quiere deshacer la cobertura antes
del vencimiento del futuro, existe un riesgo de base, debido a que sta es igual
a cero slo a vencimiento del futuro.
403
En tal caso, querramos estimar el precio esperado a un da distinto. Para
ello, a) multiplicamos el precio del futuro por el factor de conversin del EMB,
b) interpolamos linealmente entre el precio actual del EMB y el precio que
acabamos de estimar al vencimiento del futuro, utilizando como ponderaciones
los intervalos de tiempo desde hoy hasta la fecha para que queremos estimar el
precio, y desde esta fecha hasta el vencimiento del futuro. Este clculo puede
hacerse asimismo analizando la evolucin de la base: a) calculamos su valor
actual restando el precio del futuro del cociente entre el precio del EMB y su
factor de conversin, b) interpolamos linealmente como antes.
Ejemplo.- Cuando se pretende cubrir una cartera de contado que est inver-
tida en un bono que no es el EMB [ver hoja de clculo Valorpb.xls].
En el ejemplo de la hoja de clculo [Soldevilla, p.117] se tiene una cartera
por $20.000.000, y un contrato de futuros con nominal $100.000. El nmero de
contratos puede obtenerse:

J
=
_
o mina| /o:o O 1'1
o mina| )ntnro
_
)
J11
_
\ 11
1onoOJ11
\ 11
J11
_
=
20.000.000
100.000
(1, 1806)
0, 04120
0, 0688
= 142, 88
Podemos hacer un clculo alternativo: como \ 11
J11
=
.1
1fT
.T11
y 1
J11
=
)
J11
+ 1
J
, se tiene que: \ 11
J11
= )
J11
+ \ 11
J
, por lo que )
J11
=
\ 11
1fT
\ 11
1
.
En el ejemplo de la hoja de clculo [Soldevilla, p.117] se tiene una cartera
por $20.000.000, con un \ 11
c
= 0, 04120 (por 100), y se dispone de un futuro
cuyo EMB actual tiene ) = 1, 1806 y un \ 11
J11
= 0, 0688 (por cada $100).
El valor nominal del contrato de futuros es $100.000, por lo que su VPB es:
0,6835. Tendramos:
\ 11
J
=
\ 11
J11
)
J11
=
0, 688
1, 1806
= 0, 700
El nmero de contratos de futuros lo obtendramos:

J
=
\ 11
co:|t:o
\ 11
J
=
82, 40
0, 700
= 142 co:trato:
Tambin en este caso podemos estimar el precio esperado del bono de con-
tado a una determinada fecha futura: primero, el producto del precio actual
del futuro por el factor de conversin del EMB nos proporciona el precio es-
perado para el EMB al vencimiento el futuro y, de l, calculamos la variacin
esperada en el precio del 1'1. Utilizando el cociente entre \ 11
O11J
y
el \ 11
11J
, obtenemos la variacin esperada en el precio del bono de contado
(no-EMB) al vencimiento del futuro, y de sta, el precio esperado de este bono.
Para fechas intermedias, operaramos mediante interpolacin lineal.
404
20.9 Anlisis de un caso prctico
Retomemos el ejemplo anterior, con una cartera de 10 m.m. de ptas., con
vencimiento promedio a 3 aos, y TIR del 12,36% anual (6% semestral). Supong-
amos que la volatilidad de nuestra cartera (desviacin tpica anualizada) fuese
de 0,023%. Mantenemos el supuesto de que el EMB es el bono a 2 aos, 14%
cupn, pagadero semestralmente, de nominal 10 m. de ptas., que cotiza a 103,06.
A ese precio, su TIR es 12,60%, superior a la del mercado, que es de 12,36%,
por lo que est barato en trminos relativos. Supongamos que su volatilidad
fuese de 0,016% y su factor de conversin )=1,07092. Estos valores de volatil-
idad (hipotticos, pues necesitaramos datos de series temporales para su esti-
macin), no dieren mucho del valor del punto base: si la TIR del 6% semestral
descendiese al 5.99%, el precio del bono vencimiento 3 aos, cupn 6% pasara a
ser de 99,9754, con una variacin en precio de 0,0246. El precio del EMB caera
de 103,465 a 103,447, con un descenso de 0,0177.
Tendramos un ratio de cobertura:
/ =
0, 028/
0, 016/
+ 1, 07002 = 1, 800
por lo que necesitaramos vender 1.539 contratos de futuros para llevar a
cabo la cobertura.
Vendemos 1.539 contratos de futuros a 95,083. Suponemos que, a vencimiento,
no ha habido cambio de EMB. Examinemos 3 escenarios diferentes:
20.9.1 No hay variaciones en los tipos de inters
Los tipos de mercado se mantienen en 12,36%. Al vencimiento del futuro:
entregamos 1.539 bonos EMB. Si su error de precio continuase igual al que
antes supusimos, cada uno valdra en el mercado 103,06:
1, 0806 + 10 :i||o:c: jta:. + 1.80 = 1.860, 084 :i||o:c: jta:.
recibimos por ellos una cantidad (nmero*precio de futuro*factor de con-
versin):
1.80 + 0, 0088 + 1, 07002 + 10.000.000 jta:. = 1.671, 06 :i||o:c: jta:.
nuestra cartera mantiene su valor de 10 m.m. de ptas., al no haber variado
la rentabilidad del mercado.
Flujos cartera de futuros: 1.671, 06 1.860, 084 = 100, 284 millones
de ptas.
Flujos cartera de bonos: 1.200, 00 millones de ptas. de intereses.
Benecio total de la cartera: 1.000, 716 millones de ptas.
405
Este benecio se corresponde, aproximadamente, con el benecio que se
habra tenido invirtiendo el capital de 10 m.m. de ptas. en el activo
sin riesgo, al 10% de rentabilidad, de modo que el benecio obtenido al
mantener la cartera de deuda y vender futuros es el inters libre de riesgo.
20.9.2 El tipo de inters aumenta
Supongamos que, al vencimiento del futuro, el tipo de inters ha subido hasta
el 14,49% (composicin anual de un 7% semestral). Suponemos que el EMB
contina siendo el mismo, por lo que el factor de conversin seguir siendo
tambin el de antes. Por tanto, recibiremos la misma cantidad del caso anterior.
Prdida de capital: es fcil calcular que el precio de nuestro bono, cupn
12%, pago semestral, vencimiento a 3 aos, desciende a 95,233 cuando el
tipo de inters aumenta de 12% a 14%. Por tanto, el valor de la cartera
es de 9.523,3 m.m. de ptas.. Podramos haber aproximado la variacin en
precios por la duracin de Macaulay de este bono que, cuando la TIR es
de 12% anual, puede calcularse en 2,606. Por tanto, el cambio estimado
en su precio sera: (14/ 12/)(2, 606) = .212/, lo que genera una
estimacin del nuevo valor de mercado de la cartera de: (1 0, 0212) +
10 :.:. dc jta:. = 0.478, 8 millones de ptas. que se aproxima, aunque
sobrestima (como siempre ocurre), el descenso producido por la elevacin
de tipos de inters. Si utilizamos la volatilidad de la cartera, que es 0,023%,
al haberse elevado los tipos en 200 pb., estimaramos un descenso en precio
de: 0.028 + 200 = 4, 6/, por lo que el valor de la cartera ser ahora de
9.540 millones de ptas.. Estos errores de aproximacin se deben a que la
variacin en tipos de inters es grande.
hemos de entregar 1.539 bonos EMB. Como los nuevos tipos de inters son
la composicin continua del 7% semestral, los bonos EMB valdrn 100 si
no existe error en precio. Si existiera tal error, quiz podramos comprarlos
ms baratos. [Si no existe, no hace falta liquidar nuestra cartera, pues
podemos entregar al comprador del futuro los bonos de la cartera que ya
tenemos, por un valor de]. El coste de entrega de los EMB es:
1 + 10 :i||o:c: dc jta:. + 1.80 /o:o: = 1.800 :i||o:c: dc jta:.
Flujos cartera de futuros: 1.671, 06 1.800, 000 = 281, 06 millones de
ptas.
Flujos cartera de bonos: a) minusvalas: 0.28, 8 10.000, 0 = 476, 7
millones de ptas.
b) intereses: 1.200 millones de ptas.=Benecio cartera de bonos: 1.200, 0
476, 7 = 728, 8 millones de ptas.
Benecio global de la cartera: 281, 06728, 8 = 1.004, 86 m.m. de ptas.,
que es el benecio aproximado que habramos obtenido si, en el momento
406
de vender el futuro, hubiramos vendido la cartera de bonos, e invertido
en liquidez. La prdida de capital de nuestra cartera debida a la subida
de tipos queda compensada sobradamente con los benecios obtenidos en
la cartera de futuros.
20.9.3 Descenso de tipos
Supongamos que los tipos descienden al 10,25% (composicin anual compuesta
de un 5% semestral). Nuevamente, recibiremos 15.671,065 millones de ptas.,
por las mismas razones de antes.
Sin embargo, los bonos EMB valdrn ahora:
1
J11
=
d

I=l
(0.07) + 100
(1 0.0)
I

100
(1 0.0)
d
= 107. 0010
Supongamos que hay un mispricing, y que este bono se compra por 106,722.
En tal caso,
la entrega de los EMB nos costara:
1, 06722 + 10 :i||o:c: dc jta:. + 1.80 /o:o: = 16.424, 16 :i||o:c: dc jta:.
Ganancia de capital: como la volatilidad de nuestra cartera es 0,023%
y los tipos han descendido en 200 pb., estimaramos un aumento en el
valor de mercado de la cartera: 0, 028 + 200 = 4, 6/, por lo que el nuevo
valor estimado sera de 10.460 millones de ptas.. Utilizando la duracin,
tendramos un valor de 10.401, 7 millones de ptas. (10 (2.606,1.06) + 2).
El nuevo precio es, realmente, de 105,076 por lo que el nuevo valor de
mercado de nuestra cartera es de 10.507,6 m.m. de ptas.. La duracin,
como siempre, subestima la cuanta de la ganancia de capital producida
por descenso de tipos.
Flujos cartera de futuros: 1.671, 06 16.424, 16 = 78, 41 millones
de ptas.
Flujos cartera de bonos: a) plusvala: 10.07, 610.000, 0 = 07, 6 millones
de ptas., b) intereses cobrados: 1.200,0 millones de ptas. = Benecio
cartera bonos: 1.707,6 millones de ptas.
Benecio global de la cartera: 1.707, 6 78, 41 = 04, 140 millones de
ptas.
En este caso, la cobertura con futuros ha sido mayor de lo preciso, lo que
ha generado un rendimiento inferior en 46 pb. al tipo de inters libre
de riesgo, lo que parece excesivo, ya que no debera exceder de unos 10
pb.. Esta desviacin se produce porque el ajuste entre las volatilidades del
EMB y de la cartera no es exacto, debido a que la volatilidad de un bono
407
cambia continuamente con su precio. Por esto, es ptimo, si se puede,
utilizar como bono EMB aqul que tenga una duracin ms similar a la
de nuestra cartera.
20.10 Cobertura cruzada
En ocasiones, el subyacente sobre el que se dene el contrato de futuro no
coincide con el bono que tenemos en nuestra cartera. Si ambos activos no son
similares, pueden producirse incluso diferencias en rentabilidad, en la forma
de primas de riesgo. Esto es lo que ocurre si, por ejemplo, queremos cubrir
una cartera de renta ja privada con contratos de futuros sobre deuda pblica.
Esto constituye una cobertura cruzada. Tendremos que prever no slo posibles
uctuaciones en los tipos, sino tambin en la prima de riesgo. Una posibilidad
consiste en estimar una regresin entre rentabilidades:
1
:IuoJo
= c ,1
ublIco
donde una , estimada igual a uno implicara que la prima de riesgo es
independiente del nivel de los tipos de inters, e igual a c. Si, por ejemplo,
tenemos:
1
:IuoJo
= 0, 006 1, 21
ublIco
esto querra decir que la prima de riesgo de la deuda privada es de 0,6%,
ms un 20% del nivel de la rentabilidad ofrecida por la deuda pblica. Un
aumento de un punto en sta incrementa el diferencial por riesgo entre ambos
mercados en 20 pb.. En este caso, el nmero de contratos de futuro precisos
para la cobertura sera:
/ =
a|or :o mina| cartcra
a|or :o mina| )ntnro
+
o|ati|idad cartcra
o|ati|idad 1'1
+ ) + /cta
Los riesgos asociados a la cobertura son, en resumen:
Minusvaloracin del futuro (mispricing) en el momento de su venta. En
ese caso, la cobertura no ser perfecta, obteniendo una rentabilidad algo
inferior a la que se tendra de una posicin de liquidez.
Riesgo de base, que se produce al no mantener el futuro hasta vencimiento,
debido posiblemente a que el horizonte de nuestra inversin no coin-
cide con la vida residual del contrato, incurriendo en un riesgo de in-
fra/sobrevaloracin en el momento de cerrar la posicin. En todo caso, si
la infravaloracin se mantiene relativamente constante desde que se con-
struye la cobertura hasta que se cierra la posicin, este factor de riesgo es
reducido.
Riesgos por diferencias entre la volatilidad real y la volatilidad estimada.
Si sobre-estimamos la volatilidad de nuestra cartera, venderemos un nmero
excesivo de contratos de futuro. En consecuencia, tendremos un exceso de
408
exposicin, que estar sometido a las ganancias o prdidas de capital que
puedan producirse por descensos o elevaciones de tipos de inters.
21 La Hiptesis de las Expectativas: Tipos de
inters forward
Los tipos forward implcitos son tipos que se calculan en t (hoy), para un in-
stante futuro. Se obtienen por comparacin entre tipos cupn cero observados
a vencimientos :, :, con : :. Por eso se dicen que estn implcitos en la
estructura temporal que hoy se observa. Son tipos a descuento, y se obtienen
asimismo a partir de tipos de emisiones a descuento, como puedan ser tipos
cupn cero, o tipos del mercado interbancario.
En el momento t un inversor puede invertir a : perodos a un tipo r
n
|
, o
a : perodos a un tipo r
n
|
. El principio de ausencia de arbitraje implica que el
inversor deba estar indiferente entre qu plazo tomar, es decir, que:
(1 r
n
|
)
n
= (1 r
n
|
)
n
(1 )
nn
|,n
)
nn
donde )
nn
|,n
denota el tipo forward impcito obtenido mediante comparacin
de r
n
|
y r
n
|
. En la notacin utilizada para el tipo forward, el primer subndice
hace referencia al instante en que se calcula, mientras que el segundo se reere
al instante en el cual estara vigente. Por ltimo, el superndice se reere al
plazo al cual se llevara a cabo la inversin a dicha rentabilidad.
Por ejemplo, consideremos: :=2 aos, : = 1 ao. Tendramos:
(1 r
2o
|
)
2
= (1 r
lo
|
)(1 )
lo
|,lo
)
La expresin anterior puede utilizarse tambin para plazos inferiores a un
ao. Por ejemplo, consideremos: :=6 meses, : = 8 meses. Tendramos:
(1 r
6n
|
)
6
= (1 r
3n
|
)
3
(1 )
3n
|,3n
)
3
es decir,
(1 r
6n
|
)
2
= (1 r
3n
|
)(1 )
3n
|,3n
)
mientras que si: :=3 meses, : = 1 mes,
(1 r
3n
|
)
3
= (1 r
ln
|
)(1 )
2n
|,ln
)
2
donde debe notarse que ahora, el subndice y el superndice temporales del
forward no coinciden.
Si los plazos son inferiores a un ao, con capitalizacin continua, tendramos:
409
1
:
860
r
n
|
= (1
:
860
r
n
|
)(1
::
860
)
nn
|,n
)
Por ejemplo, consideremos: :=6 meses, : = 8 meses. Tendramos:
1
180
860
r
6n
|
= (1
00
860
r
3n
|
)(1
180 00
860
)
3n
|,3n
)
mientras que para :=3 meses, : = 1 mes,
1
00
860
r
3n
|
= (1
80
860
r
ln
|
)(1
60
860
)
2n
|,ln
)
Ejemplos:
r
lo
|
= 7, 100/, r
2o
|
= 8, 200/ =)
lo
|,lo
= 0, 811/
r
6n
|
= 7, 100/, r
l2n
|
= 8, 200/ =)
6n
|,6n
= 0, 811/
r
ln
|
= 7, 100/, r
3n
|
= 8, 200/ =)
2n
|,ln
= 8, 74/
mientras que, con capitalizacin continua:
r
lo
|
= 7, 100/, r
2o
|
= 8, 200/ =)
lo
|,lo
= 8, 688/
r
6n
|
= 7, 100/, r
l2n
|
= 8, 200/ =)
6n
|,6n
= 0, 187/
r
ln
|
= 7, 100/, r
3n
|
= 8, 200/ =)
2n
|,ln
= 8, 608/
Si trabajamos con tipos continuos, los valores futuros de 1 u.m. invertida a
: y : perodos, deben satisfacer la relacin con el forward )
nn
|,n
:
c
:
r
t
n
= c
:
r
t
n
.c
}
rr
tr
es decir,
r
n
|
: = r
n
|
: )
nn
|,n
(::)
por lo que:
)
nn
|,n
=
:r
n
|
:r
n
|
::
(110)
que, en el caso particular : = 2:, se convierte en,
Nota 1: Los tipos forward a horizonte 0, coinciden con los tipos cupn cero
actuales.
Nota 2: A partir de : tipos contado pueden calcularse muchos tipos forward,
tantos como pares de plazos pueden compararse.
410
21.1 1.1La hiptesis de Expectativas acerca de la forma-
cin de tipos de inters.
En su versin fuerte, La Hiptesis de las Expectativas establece que un tipo de
inters a vencimiento largo es el promedio del tipo de inters observado a un
perodo y los tipos a un perodo esperados hasta cubrir el vencimiento largo,
r
n
|
=
1
:
nl

=0
1
|
r
l
|
donde el primero de los tipos que aparece a la derecha no precisa sr previsto,
pues es observado junto con el tipo a largo plazo.
Una versin ms dbil de la hiptesis permite la existencia de primas de
riesgo o de plazo constantes,
n,l
,
r
n
|
=
1
:
nl

=0
1
|
r
l
|

n,l
(111)
La misma hiptesis puede establecerse, de modo ms general, para plazos :
y :, siendo : un mltiplo de : : : = /:,
r
n
|
=
1
/
|l

I=0
1
|
r
n
|In

n,n
(112)
Un caso especialmente utilizado surge cuando : = 2:,
r
n
|
=
1
2
(r
n
|
1
|
r
n
|n
)
n,n
(113)
Si aadimos el supuesto de que los agentes forman racionalmente sus expec-
tativas de tipos de inters futuros, tenemos:
r
n
|n
= 1
|
r
n
|n
-
n
|n
(114)
donde -
n
|n
tendr una estructura '(:1), como ocurre en todo problema
de prediccin bajo expectativas racionales.
Uniendo 114 y 113, tenemos,
r
n
|
r
n
|
=
1
2
(r
n
|n
r
n
|
)
1
2
-
n
|n

n,n
que muestra que el diferencial entre los tipos a largo y corto plazo tiene
capacidad explicativa sobre la variacin futura en el tipo a corto plazo. Esto
sugiere estimar la regresin,
411
r
n
|n
r
n
|
= c ,(r
n
|
r
n
|
) n
|n
(115)
donde c = 2
n,n
, n
|n
= -
n
|n
.
Por ejemplo, si m=6 meses, y n=3 meses, se tiene:
r
3
|3
r
3
|
= c ,(r
6
|
r
3
|
) n
|3
Si los tipos de inters, tanto a largo como a corto plazo son procesos integra-
dos de orden 1 (1(1)), es decir, tienen una raz unitaria, entonces sus primeras
diferencias sern estacionarias. Por otra parte, el error de prediccin racional
tiene una estructura '(:1),por lo que es estacionario. En estas condiciones,
si la prima de riesgo o de plazo es estacionaria, el diferencial largo/corto tambin
habr de serlo. Por tanto, los tipos de inters a corto y a largo estn cointegra-
dos, con vector de cointegracin (1,-1). Este resultado es vlido para cualquier
par de tipos, siempre que el perodo de tiempo que dene el vencimiento largo
sea mltiplo del que dene el vencimiento corto. Como esto es cierto siempre
que tomamos el tipo de inters a vencimiento igula a un perodo, tendremos que
los diferencales respecto al plazo ms corto, que podemos tomar como unidad de
tiempo, habrn de ser estacionarios. Ahora bien, el diferencial entre dos tipos a
vencimientos cualesquiera : y :, puede escribirse como la diferencia entre los
diferenciales de ambos tipos respecto al tipo a corto plazo, por lo que si estos dos
ltimos son estacionarios, tambin el primero lo ser. En denitiva, todos los
diferenciales entre pares de tipos d einters habrn de ser estacioanrios. Como
se ve, a) la Hiptesis de Expectativas, junto con b) el supuesto de racionalidad
de expectativas, y c) el supuesto de primas de riesgo o de plazo estacionarias,
tiene una gran cantidad de implicaciones.
Volviendo a la expresin anterior acerca de la capacidad explicativa del
spread largo/corto, en el caso general, obtenemos,
r
n
|
r
n
|
= 1
|
rr
r

=l
::,
:
(r
n
|n
r
n
|n(l)
)
n,n
es decir,
r
n
|
r
n
|
= 1
|
|l

=l
_
1
,
/
_
(r
n
|n
r
n
|n(l)
)
n,n
que sugiere estimar una regresin:
|l

=l
_
1
,
/
_
(r
n
|n
r
n
|n(l)
) = c ,(r
n
|
r
n
|
) n
|nn
412
cuyo trmino de error debe tener una estructura '(:: 1), en la que
el diferencial largo/corto se utiliza para anticipar variaciones futuras en el tipo
de inters a corto plazo.
En el caso general, habr ms de una variacin futura en el miembro izquierdo
de la ecuacin, por lo que estaremos tratando de anticipar variaciones acumu-
ladas desde t hasta t+m-n. Si, por ejemplo, m=12 meses y n=3 meses, tenemos:
r
l2
|
r
3
|
= 1
|
3

=l
_
1
,
4
_
(r
3
|3
r
3
|3(l)
)
l2,3
que sugiere estimar una regresin:
3

=l
_
1
,
4
_
(r
3
|3
r
3
|n(l)
) = c ,(r
l2
|
r
3
|
) n
|9
apareciendo en el miembro izquierdo los diferenciales: r
3
|9
r
3
|6
, r
3
|6
r
3
|3
y r
3
|3
r
3
|
.
21.2 1.2El tipo forward como predictor de tipos a corto
futuros
Si retomamos 115, tenemos que:
r
n
|n
r
n
|
= 2
n,n
2(r
n
|
r
n
|
) -
n
|n
es decir,
r
n
|n
= 2
n,n
(2r
n
|
r
n
|
) -
n
|n
que sugiere que el tipo forward debe ser un buen predictor del tipo a corto
futuro, y sugiere estiamr la regresin,
r
n
|n
= c ,)
nn
|,n
n
|n
(116)
en la que, nuevamente, c = 2
n,n
, n
|n
= -
n
|n
.
En esta regresin, el contraste de la hiptesis nula: H
0
: c = 0, , = 1,sera
un contraste conjunto de: a) la Hiptesis de Expectativas acerca de la formacin
de tipos de inters, y b) el supuesto de que los agentes forman sus expectativas
de modo racional.
Cuando la hiptesis no se rechaza, suele decirse que el tipo forward es un
predictor insesgado del tipo contado futuro, aunque en muchos pocos casos se
lleve a cabo, realmente, un anlisis de prediccin, y el ejercicio sea puramente
un ajuste de mnimos cuadrados.
413
Por los problemas que pueden derivarse de la ausencia de estacionariedad,
tanto de los tipos de inters de contado como de los tipos forward, suelen esti-
marse variantes de esta regresin,
r
n
|n
r
n
|
= c ,()
nn
|,n
r
n
|
) n
|n
que, bajo H
0
, sera equivalente a la anterior.
Otra posibilidad, utilizada en ocasiones, ha consistido en estimar la ecuacin
116 en primeras diferencias,
^r
n
|n
= c ,^)
nn
|,n
n
|n
que, nuevamente bajo H
0
, sera equivalente a la anterior.
Por ltimo, ms recientemente, y dada la constatacin emprica acerca de
que tanto los tipos de inters de contado como los tipos forward tienen raices
unitarias, se ha examinado 116 como una relacin de cointegracin entre ambos
tipos. Bajo las hiptesis antes citadas, los tipos contado y forward deberan estar
cointegrados con vector (1,-1) y (bajo la versin fuerte de la HE), la relacin de
cointegracin no debera incluir una constante.
En el caso general, con m=kn, es preciso incorporar hiptesis del tipo:
1
|
r
l
|l
= 1
|
r
l
|2
. Con ella, y utilizando la denicin del tipo forward, que
es ahora: )
2
|,|l
=
3:
3
t
:
1
t
2
, tendramos una ecuacin como
r
n
|n
= c ,)
nn
|,n
n
|n
en la que, ahora, c =
3
2

3,l
, n
|l
= -
l
|l
.
21.3 1.3El tipo forward como predictor del tipo a largo
A partir de 112, por ejemplo, en el caso n=6, m=2, tenemos,
r
6
|
=
1
8
_
1
|
_
r
2
|
r
2
|2
r
2
|d
_
(117)
que implica
37
,
37
Nota: Para obtener 118, escribimos 117 en t + 2,
v
4
I+2
=
1
2
1
I+2
_
v
2
I+2
+ v
2
I+4
_
y, por la ley de expectativas iteradas:
1Iv
4
I+2
=
1
2
1I
_
v
2
I+2
+ v
2
I+4
_
que utilizamos para eliminar 1Iv
4
I+2
en 118
v
6
I
=
1
3
v
2
I
+
2
3
1Iv
4
I+2
414
1
|
r
d
|2
r
6
|
=
1
2
(r
6
|
r
2
|
) (118)
que sugiere estimar la regresin,
r
d
|2
r
6
|
= c ,
r
6
|
r
2
|
2
j
|2
o, lo que es lo mismo,
r
d
|2
r
6
|
= c ,
o
6,2
|
2
j
|2
donde o
6,2
|
= r
6
|
r
2
|
denota el diferencial largo/corto. En esta regresin
debera contrastarse la Hiptesis de expectativas, ya sea en su versin fuerte
H
0
: c = 0, , = 1, o en su versin dbil H
0
: , = 1.
Bajo racionalidad de expectativas: 1( o
6,2
|
.j
|2
) = 1[(r
6
|
r
2
|
).j
|2
[ = 0,
por lo que MCO es un estimador consistente.
En general, tendremos,
1
|
r
nn
|n
r
n
|
=
:
::
(r
n
|
r
n
|
)
que sugiere estimar,
r
nn
|n
r
n
|
= c ,
o
n,n
|
nn
n
j
|n
Siguiendo con el mismo ejemplo, a partir de 117, y deniendo una nueva
variable,

o
6,2
|
=
2
3
^
2
r
2
|2

l
3
^
2
r
2
|d
, con ^
2
r
2
|2
= r
2
|2
r
2
|
, tenemos
38
:
1
|

o
6,2
|
=
2
8
^
2
r
2
|2

1
8
^
2
r
2
|d
= o
6,2
|
(119)
es decir,
1Iv
4
I+2
=
3
2
v
6
I

1
2
v
2
I
o, lo que es lo mismo,
1Iv
4
I+2
v
6
I
=
1
2
(v
6
I
v
2
I
) =
1
2
S
6,2
I
38
Nota: La expresin 119 se obtiene restando v
2
I
de 117, para obtener,
S
6,2
I
=
2
3
v
2
I
+
1
3
_
1Iv
2
I+2
+ 1Iv
2
I+4
_
=
2
3
_
1Iv
2
I+2
v
2
I
_
+
1
3
_
1Iv
2
I+4
1Iv
2
I+2
_
= 1I

S
6,2
I
415
por lo que el spread observado o
6,2
|
es un predictor ptimo de una media
ponderada de cambios futuros en el tipo r
2
|
.
En general, si denimos,

o
n,n
|
=
|l

I=l
_
1
i
/
_
^
n
r
n
|In
tenemos,
1
|

o
n,n
|
= o
n,n
|
que sugiere estimar la regresin:

o
n,n
|
= c ,o
n,n
|
.
|
y contrastar las hiptesis: H
0
: c = 0, , = 1, o H
0
: , = 1.
416
22 Valoracin por simulacin
La valoracin de una opcin mediante simulacin se ajusta a la idea general
de simular el precio del subyacente desde el instante en que se valora la opcin
hasta el vencimiento de la misma. La prctica de valoracin de derivados por
simulacin del precio del subyacente ha alcanzado un alto grado de sosticacin
computacional. Sin embargo, la calidad de la valoracin resultante depende
tanto de la complejidad y realismo sosticacin del modelo como de la calidad
del modelo estadstico utilizado en la simulacin del precio del subyacente. Hay
dos componentes a tener en cuenta,
1. un buen modelo de evolucin temporal del precio del subyacente
2. unas hiptesis adecuadas acerca de las caractersticas estocsticas de la
innovacin de dicho proceso.
As, por ejemplo, suponer Normalidad de la innovacin, al generar sendas
futuras para el precio del subyacente, cuando existe evidencia de asimetra y
curtosis puede generar errores de aproximacin muy importantes al llevar a
cabo la valoracin. Es importante disponer de un modelo dinmico del precio
del subyacente sucientemente bueno y utilizar una distribucin de probabili-
dad adecuada al generar realizaciones simuladas para la innovacin del proceso.
Estas sern dos de las cuestiones a las que prestaremos atencin en este curso.
En el caso de una opcin Europea, basta con considerar en cada simulacin
el precio resultante al nal de la serie temporal simulada, que coincide con el
instante de vencimiento de la opcin. Mediante un elevado nmero de realiza-
ciones simuladas, podemos aproximar la distribucin de probabilidad del precio
del activo subyacente al vencimiento de la opcin. De este modo, obtenemos el
valor intrnseco de la opcin a vencimiento para cada realizacin y, por tanto,
una aproximacin a la distribucin de probabilidad de dicho valor intrnseco. De
dicha distribucin de probabilidad inferimos un precio actual para la opcin a
partir de un determinado mecanismo de valoracin: una posibilidad es calcular
la esperanza matemtica de la distribucin de probabilidad del valor intrnseco
a vencimiento, y descontarlo al instante en que se efecta la valoracin.
En el caso de otros tipos de opciones, puede utilizarse, en general, un pro-
cedimiento anlogo, si bien teniendo en cuenta a) todos los posibles instantes de
ejercicio, b) el valor intrnseco en cada uno de ellos, c) el descuento apropiado
a utilizar.
Sin embargo, hay otras posibilidades: una, interesante, consistira en consid-
erar los tipos de inters como estocsticos, y simular simultneamente los tipos
de inters y el precio del subyacente, una vez que hubiramos recogido en el
modelo la dependencia entre ambos. Por ejemplo,
j
|
= ,
0
,
l
r
|
-
|
r
|
= c
0
c
l
r
|l
-
2|
417
con (-
l|
, -
2|
) ~
__
0
0
_
,
_
o
2
l
o
l2
o
l2
o
2
2
__
. Tngase en cuenta que, en un
modelo de estas caractersticas, la relacin entre los tipos de inters r
|
y la
rentabilidad del activo subyacente j
|
se produce por dos vas: una, explcita,
por la presencia de los tipos en la ecuacin de la rentabilidad; otra, implcita,
por la correlacin entre las innovaciones de ambas ecuaciones.
En el caso en que la rentabilidad y los tipos tengan estructuras de volatilidad
condicional no trivial, entonces podramos establecer un modelo ARCH bivari-
ante, en el que se pueden recoger las dependencias tanto entre rentabilidades
como entre volatilidades.
23 Sobre simulacin de procesos brownianos
De acuerdo con un proceso generalizado de Wiener, el precio de un activo evolu-
cionara de acuerdo con,
do
|
= jdt od.
donde d. denolta un proceso de Wiener bsico, es decir, un proceso es-
tocstico de Markov, con una variacin promedio igual a cero, y una tasa de
varianza anual igual a 1.0. Se conoce tambin como movimiento Browniano:
1) su variacin durante un intervalo pequeo de tiempo, de amplitud ^t es
^. = -^t, siendo - independiente en el tiempo, Normal(0,1), 2) los valores de
^. son independientes en el tiempo.
Sin embargo, el proceso anterior no recoge algunas de las caractersticas
importantes de los precios de los activos nancieros. Ms interesante resulta el
supuesto ^o = jo^t que, en el lmite se convierte en, do = jodt, es decir,
do,o = jdt, de modo que,
o
T
= o
0
c
T
Para incorporar volatilidad, suponemos que la variabilidad en la rentabilidad
porcentual del activo es independiente del precio del mismo, es decir, que la
volatilidad del precio es proporcional a su nivel,
do
|
= jo
|
dt oo
|
d.
23.1 Distribucin de los cambios en precio
Si el precio de un activo que no paga dividendos tiene una volatilidad anual del
30% y una rentabilidad esperada del 15% anual, compuesta de modo continuo,
el proceso que sigue es,
do
|
o
|
= jdt od. = 0.1dt 0.80d.
y sobre intervalos nitos, pero cortos de tiempo,
418
^o
|
o
|
= 0.1^t 0.80-
|
_
^t
Por ejemplo, para un intervalo de una semana (una fraccin 0,0192 de un
ao), si el precio inicial es 100, la variacin semanal sera,
^o
|
= 100
_
0.1 (0.0102) 0, 80-
|
_
0.0102
_
= 0, 288 4, 16-
|
siguiendo una distribucin Normal(0, 288, 4, 16) . Al cabo de un ao,
^o
|
= o
0
(0.1 0.80-
|
) = 1 80-
|
con una distribucin or:a|(1, 80), si bien esta extrapolacin temporal es
bastante ms cuestionable.
Deberamos obtener una muestra de la innovacin -
|
, y sustituir repetida-
mente en la ecuacin anterior. As podramos generar una distirbucin de fre-
cuencias (probabilidad) del precio al nal del intervalo de tiempo deseado.
Generalmente, el valor de un derivado sobre una accin es independente del
valor de j. Por el contrario el valor de o es clave, y normalmente oscila entre
20% y 40%.
Puede probarse que la volatilidad anual del precio de una accin es igual a
la desviacin tpica de la rentabilidad ofrecida por dicho accin, compuesta de
modo continuo, durante un ao.
23.2 Distribucin del logaritmo del precio
Asimismo, el lema de Ito implica que,
d lno
|
=
_
j
o
2
2
_
dt od.
siguiendo por tanto un proceso de Wiener generalizado. Por tanto, la variacin
en lno se distribuye (
_
j
c
2
2
_
T, o
_
T), y tenemos,
lno
T
~ or:a|
_
lno
0

_
j
o
2
2
_
T, o
_
T
_
En consecuencia,
1 (o
T
) = o
0
c
T
; \ ar(o
T
) = o
2
0
c
2T
_
c
c
2
T
1
_
que muestra que j puede interporetarse como una tasa de rentabilidad es-
perada.
Al cabo de un ao, tendramos,
1 (o
T
) = 100c
.30rl
= 184, 00; \ ar(o
T
) = 100
2
c
2r.3rl
_
c
.3
2
1
_
= 171, 07; 1T(o
T
) = 41, 42
419
23.3 Distribucin de la rentabilidad
La propia rentabilidad cumple, por denicin,
1 (o
T
) = o
0
c
qT
por lo que,
j =
1
T
ln
o
T
o
0
y utilzando la distribucin de lno
T
, tenemos que,
j ~
_

_
j
o
2
2
_
,
o
_
T
_
420

You might also like