You are on page 1of 148

FISICA MATEMATICA.

Grupos de Lie, rotaciones, unitarios, Poincare.


Monte Carlo.

L. L. Salcedo
Departamento de Fsica Atomica, Molecular y Nuclear,
Universidad de Granada, E-18071 Granada, Spain
E-mail: salcedo@ugr.es

4 de julio de 2017

Resumen

Apuntes incompletos de la asignatura. Version v2.22, 2014-2017.


Se ruega comunicar los errores que puedan encontrarse a salcedo@ugr.es
http://www.ugr.es/local/salcedo/public/fm/curso.pdf

Indice

1. Grupo de traslaciones en Rn 7

2. Generalidades sobre grupos de Lie 10

2.1. Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2. Ley de composicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1
2.3. Constantes de estructura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4. Elementos infinitesimales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5. Representacion fiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.6. Generadores infinitesimales. Algebra del grupo. . . . . . . . . . . . . . . . . . . . . 15

2.7. Coordenadas canonicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.8. Formula de Campbell-Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.9. Algebra de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.10. Relacion entre grupo de Lie y algebra . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.11. Medida invariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.12. Representacion adjunta del grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.13. Accion de un grupo de Lie sobre una variedad . . . . . . . . . . . . . . . . . . . . 23

2.13.1. Representacion escalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.13.2. Generadores infinitesimales . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.13.3. Representaciones espinoriales . . . . . . . . . . . . . . . . . . . . . . . . . 25

3. Grupo de rotaciones 26

3.1. Grupo de rotaciones en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2. Algebra de Lie de SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.3. Grupo SO(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.4. Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4.1. Angulos de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2
3.4.2. Generadores infinitesimales y algebra de SO(3) . . . . . . . . . . . . . . . . 33

3.4.3. Operador momento angular orbital . . . . . . . . . . . . . . . . . . . . . . 35

3.4.4. Operadores escalares y vectoriales . . . . . . . . . . . . . . . . . . . . . . . 36

3.5. Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.5.1. Grupos U(n) y SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.5.2. Matrices de SU(2) y matrices de Pauli . . . . . . . . . . . . . . . . . . . . 39

3.5.3. Algebra de SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5.4. Relacion entre los grupos SU(2) y SO(3) . . . . . . . . . . . . . . . . . . . 41

3.6. Representaciones irreducibles de SU(2) y SO(3) . . . . . . . . . . . . . . . . . . . 43

3.6.1. Soluciones del algebra de SU(2) . . . . . . . . . . . . . . . . . . . . . . . 43

3.6.2. Matrices de las representaciones irreducibles de SU(2) y SO(3) . . . . . . . 48

3.7. Serie de Clebsch-Gordan de SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.7.1. Suma de momentos angulares . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.7.2. Coeficientes de Clebsch-Gordan . . . . . . . . . . . . . . . . . . . . . . . . 51

3.8. Armonicos esfericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4. Grupo de Poincare 56

4.1. Transformaciones de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2. Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3. Metricas y aplicaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.4. Estructura del grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3
4.5. Grupo de Poincare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.5.1. Tipos de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.6. Algebra de Lie del grupo de Poincare . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.6.1. Algebra de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.6.2. Algebra de Poincare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.7. Algebra de Poincare en la base espacio-temporal . . . . . . . . . . . . . . . . . . . 68

4.8. Representaciones irreducibles del grupo de Lorentz . . . . . . . . . . . . . . . . . . 70

4.9. Representaciones irreducibles del grupo de Poincare . . . . . . . . . . . . . . . . . 71

5. Representaciones de SU(n) 76

5.1. Representacion tensorial de GL(n, C) . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.2. Reduccion de Vnr bajo Sr y GL(n, C) . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.3. Serie de Clebsch-Gordan para irreps tensoriales de GL(n, C) . . . . . . . . . . . . . 82

5.4. Reducibilidad de representaciones tensoriales bajo SU(n) . . . . . . . . . . . . . . 84

5.5. Otras representaciones de GL(n, C) . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.6. Representaciones de tipo Tsr de GL(n, C) y U(n) . . . . . . . . . . . . . . . . . . . 86

5.7. Representaciones irreducibles de SU(n) . . . . . . . . . . . . . . . . . . . . . . . . 89

5.8. Matrices de Gell-Mann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6. Metodo Monte Carlo 96

6.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.1.1. Ejemplo de calculo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 96

4
6.1.2. Monte Carlo y valores esperados . . . . . . . . . . . . . . . . . . . . . . . . 97

6.1.3. Fluctuacion en estimaciones Monte Carlo . . . . . . . . . . . . . . . . . . 97

6.1.4. Estimacion Monte Carlo de integrales . . . . . . . . . . . . . . . . . . . . . 100

6.2. Probabilidad. Variables aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.2.1. Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.2.2. Deltas de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.2.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.3. Metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6.3.1. Promedios pesados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.4. Metodos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

6.4.1. Numeros pseudo aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6.4.2. Distribuciones de variables discretas . . . . . . . . . . . . . . . . . . . . . . 119

6.4.3. Distribuciones de variables continuas . . . . . . . . . . . . . . . . . . . . . 123

6.4.4. Metodo de inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

6.4.5. Distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.4.6. Puntos uniformemente distribuidos en una region . . . . . . . . . . . . . . . 126

6.4.7. Metodo de aceptacion-rechazo . . . . . . . . . . . . . . . . . . . . . . . . 129

6.4.8. Metodo de reweighting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

6.5. Metodos markovianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.5.1. Condicion de balance detallado . . . . . . . . . . . . . . . . . . . . . . . . 135

6.5.2. Algoritmo de Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5
6.5.3. Bano termico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.5.4. Metodo de busqueda de mnimos por enfriamiento . . . . . . . . . . . . . . 142

6.5.5. Termalizacion y tiempo de autocorrelacion . . . . . . . . . . . . . . . . . . 142

6
1. Grupo de traslaciones en Rn

El grupo de traslaciones esta formado por aplicaciones de Rn en Rn , con la composicion de


aplicaciones, del tipo:

Ta : Rn Rn
G = {Ta , a Rn }, (1.1)
x 7 x + a

Aqu a = (a1 , a2 , . . . , an ) forman un sistema de coordenadas de G. La dimension del grupo es n,


el numero de coordenadas. dim G = n.

Ley de composicion:

x 7 x + a2 7 (x + a2 ) + a1 = x + (a1 + a2 ) (1.2)
a2 a1

por tanto la ley de composicion de este grupo en estas coordenadas es

a12 = a1 + a2 . (1.3)

Se trata de un grupo abeliano Ta1 Ta2 = Ta2 Ta1 .

Representacion de las traslaciones en L2 (Rn ):

(x) 7 (U (a))(x) = (x a). (1.4)

Esto es una representacion ya que U (a12 ) = U (a1 )U (a2 ). Ademas es unitaria: es una isometra
Z Z
hU (a)1 |U (a)2 i = d x 1 (x a)2 (x a) = dn x 1 (x)2 (x) = h1 |2 i,
n
(1.5)

y es invertible: U (a)1 = U (a), como se deduce de la ley de multiplicacion. Esto implica U 1 (a) =
U (a).

Esta representacion coincide con la representacion regular del grupo.1

Por otro lado, para una traslacion infinitesimal a

(x a) = (x) ai i (x). (1.6)


1
La representacion regular por la izquierda se define como (T L (g))(g ) = (g 1 g ) en el espacio de funciones
definidas sobre el grupo, C(G), y se les puede dar estructura de espacio de Hilbert, L2 (G, d).

7
Aqu i = /xi y despreciamos terminos de segundo orden O(a2 ). La variacion puede escribirse
1
(x) = a (x) a P (x) (1.7)
i~
donde se ha introducido el operador momento

P i = i~i , P = i~ = P (1.8)

que es el generador infinitesimal de las traslaciones. El 1/(i~) es convencional, se introduce para


que P sea hermtico y con dimensiones de momento lineal. Los operadores i~i son los generadores
infinitesimales de las traslaciones en esta representacion del grupo.

Relaciones de conmutacion. Las derivadas conmutan

i j (x) = j i (x) (1.9)

y esto implica las relaciones de conmutacion entre generadores

[P i , P j ] = 0. (1.10)

Que los generadores conmuten es consecuencia directa de que el grupo es abeliano.

Para transformaciones finitas



X (1)n
(x a) = ai1 ain i1 in (x) (Taylor)
n=0
n!
(1.11)
X 1
= (a )n (x) = ea (x).
n=0
n!

Por tanto el operador que representa a las traslaciones en L2 (Rn ) es


i
U (a) = e ~ aP . (1.12)

Esto es general: exponenciando los generadores infinitesimales se obtiene el operador del grupo (para
grupos conexos). Tambien se tiene la relacion entre generadores hermticos y representacion unitaria

P = P U (a) = U (a)1 . (1.13)

Tomando a infinitesimal se recuperan los generadores a partir de los operadores del grupo
i U (a)
U (a) = 1 a P + O(a2 ), P i = i~ . (1.14)
~ ai 0

8
Representaciones irreducibles.2 Como el grupo es abeliano sus representaciones irreducibles
(o simplemente irreps) son unidimensionales, por el lema de Schur.3 Si D(a) (matriz compleja 11)
es una tal representacion
D(a1 )D(a2 ) = D(a1 + a2 ). (1.15)
Las unicas soluciones (con el requerimiento de que sean diferenciables con respecto de a)4 son de
la forma
D(a) = ea , Cn . (1.16)
En efecto, aplicando a2 |0 a la relacion (1.15), se tiene
D(a1 )D (0) = D (a1 ) , D (0) = log D(a). (1.17)
(D(a) 6= 0 por ser D(a) invertible.) Llamando a D (0) se obtiene la solucion dada. El vector
determina completamente todas las irreps inequivalentes (en espacios unidimensionales representa-
ciones distintas son inequivalentes) del grupo de traslaciones. En particular
ap
ei ~ , p Rn (1.18)
2 n
son las representaciones unitarias y estan contenidas en la representacion regular, L (R ). Si p (x)
y sus multiplos forman un subespacio unidimensional en la representacion p,
ap
p (x a) = (U (a)p )(x) = ei ~ p (x). (1.19)
Tomando a = x se obtiene (salvo normalizacion)
px
p (x) = ei ~ (onda plana). (1.20)
Es decir, una partcula con momento p cae en la irrep p del grupo de traslaciones y esto nos dice
como responde su funcion de onda a una traslacion.

En la reduccion de L2 (Rn ) bajo traslaciones cada irrep p Rn aparece exactamente una vez
M px
H = L2 (Rn ) = Vp , Vp = {ei ~ , C}
p
Z n (1.21)
d p px
(x) = n
(p) ei ~ (Transformada de Fourier)
(2~)

Las otras irreps con complejo aparecen tambien en el espacio C(Rn ) de funciones complejas
f (x), x Rn pero no en su restriccion a L2 (Rn ).
2
Cuando no se diga otra cosa la irreducibilidad se entendera en el sentido de representaciones complejas. Repre-
sentaciones irreducibles reales pueden ser reducibles complejas.
3
Para un grupo abeliano [U (g1 ), U (g2 )] = 0 en una irrep implica U (g) = (g)1d (identidad en Cd ) y d = 1 por
ser irreducible.
4
De hecho hay otras soluciones no continuas de la ecuacion pero solo buscamos representaciones continuas.

9
2. Generalidades sobre grupos de Lie

2.1. Grupos de Lie

Un grupo continuo G es un conjunto que es grupo en sentido algebraico y al mismo tiempo un


espacio topologico tal que la aplicacion de G G G definida por (g1 , g2 ) 7 g1 g21 es continua.5
Un grupo de Lie es un grupo continuo localmente eucldeo, lo cual equivale a decir que G es una
variedad topologica. Esto quiere decir que G admite un atlas de coordenadas locales. La dimension
del grupo de Lie es su dimension como variedad, es decir, el numero de coordenadas necesario para
especificar un elemento del grupo.

Propiedades topologicas relevantes de un grupo de Lie son su dimension, y si se trata o no de


un conjunto compacto, o conexo o simplemente conexo.

Ejemplo. El grupo (R2 , +) tiene dimension 2, es homeomorfo a6 (tiene la misma topologa


que) un plano, por tanto es conexo y simplemente conexo, pero no compacto. Basta una sola carta
para cubrir todo el grupo.

Ejemplo. (U(1), ) es el grupo de las fases con el producto

U(1) = {| C, || = 1}, = ei , R, 12 = 1 2 . (2.1)

Este grupo tiene la topologa de una circunferencia, S1 . Este grupo tiene dimension 1, es compacto,
conexo pero no simplemente conexo. Los elementos se pueden parametrizar con ] , ] con
= ei , pero una carta local es un conjunto abierto, entonces se puede usar || < como sistema
de coordenadas que incluye al elemento neutro ( = 1) pero hace falta otra carta que incluya al

elemento = 1 (por ejemplo = ei con | | < ).

Ejemplo. O(2) es el grupo de matrices 2 2 reales y ortogonales


  
cos sen
O(2) = , 0 < 2, = 1 . (2.2)
sen cos

Este grupo tiene dimension 1 y es compacto pero no es conexo: tiene dos componentes conexas
( = 1) cada una con topologa S1 . La matrices con = +1 forman el grupo SO(2), que es un
5
Ver por ejemplo [4] para definiciones precisas de espacio topologico, continuidad, conjunto compacto, variedad
topologica, etc.
6
Dos espacios topologicos son homeomorfos si existe una aplicacion biyectiva y bicontinua entre ellos.

10
subgrupo invariante de O(2). Esto es general, en un grupo de Lie G, la componente conexa del
neutro, Gc , es un subgrupo invariante y las demas componentes son las clases de equivalencia de
G/Gc y son homeomorfas a Gc (ver [4]).

Ejemplo. GL(1, R), el grupo de cambios de base reales en una dimension, tiene dos compo-
nentes conexas.

Teorema. Para grupos compactos (lo cual incluye a los grupos finitos) se tiene7
a) Sus representaciones son equivalentes a unitarias y completamente reducibles.

b) Sus irreps son de dimension finita.

c) En la reduccion de la representacion regular, cada irrep aparece tantas veces como sea su
dimension.

Que el espacio sea simplemente conexo significa que, dados dos puntos cualesquiera, todos
los caminos que los unen son deformables unos en otros, es decir, esencialmente solo hay un modo
de ir de un punto a otro. Equivalentemente, todo camino cerrado es contractil a un punto.

Ejemplo. Rn es simplemente conexo.

Ejemplo. El grupo GL(1, C) de cambios de base complejos en una dimension. Cada elemento
es un punto de C {0}. Este grupo es conexo pero no simplemente conexo: los caminos cerrados
(que no pueden pasar por 0) pueden dar n Z vueltas alrededor de 0 y caminos con distinto valor
de n no son deformables entre s. Igualmente las clases de caminos de U(1) (la circunferencia S1 ),
y de R U(1) (el cilindro R S1 ) se clasifican por un numero entero. Las clases de U(1) U(1)
(el toro S1 S1 ) se clasifican por dos enteros, Z2 .

Ejemplo. El disco abierto D2 = {x R2 , kxk < 1} es simplemente conexo. En cambio, si


anadimos los puntos del borde e identificamos los que sean diametralmente opuestos, obtenemos

D2 / = {x R2 , kxk 1, con x x si kxk = 1}, (2.3)

que es un espacio doblemente conexo: hay dos tipos de caminos cerrados, segun que utilicen x x
un numero par o impar de veces.
7
Un teorema relacionado: si G es conexo, simple y no compacto, su unica representacion unitaria de dimension
finita es la trivial. Para un grupo de Lie, simple quiere decir que es no abeliano y que sus unicos subgrupos invariantes
propios son discretos.

11
2
3
b

2
1
a
2 3

Figura 1: D2 /: Disco con los puntos del borde diametralmente opuestos identificados. Los caminos
1 y 2 de a a b son de la misma clase de homotopa (es decir, deformables uno en otro) y 3 de la otra
case.

La relevancia es que los espacios simplemente conexos no tienen funciones multivaluadas, pero
los multiplemente conexos s. Ej: en U(1), 1/2 (representacion unidimensional) es bivaluada.

Dos grupos continuos son isomorfos si lo son en sentido algebraico y ademas son homeomorfos.

2.2. Ley de composicion

Sea G un grupo de Lie de dimension n. Se puede elegir un sistema de coordenadas locales que
contenga al elemento neutro e. Esto quiere decir que hay una biyeccion entre un entorno abierto del
grupo, UG e, y un entorno abierto U de Rn ,

g UG a = (a1 , a2 , . . . , an ) U. (2.4)

Se suele elegir el sistema de coordenadas de modo que el neutro, e, tiene coordenadas (0, 0, . . . , 0).

Si g1 , g2 y g12 = g1 g2 estan en UG , con coordenadas a1 , a2 y a12 , respectivamente, la funcion

a12 = f (a1 , a2 ) (2.5)

se denomina ley de composicion de G en esas coordenadas. Mas explcitamente

ai12 = f i (a11 , . . . , an1 , a12 , . . . , an2 ), i = 1, . . . , n. (2.6)

12
La ley de composicion es una funcion continua y cumple

a = f (a, 0) = f (0, a), f (a, f (b, c)) = f (f (a, b), c). (2.7)

Obviamente la ley de composicion depende del sistema de coordenadas. Aunque no se ha im-


puesto, las restricciones sobre f por ser un grupo garantizan que se puede elegir el sistema de
coordenadas de modo que f sea analtica (real). Elegimos coordenadas analticas (no unicas) en lo
que sigue.

Dos grupos de Lie G y G son localmente isomorfos si admiten la misma ley de composicion
en sendos entornos del neutro UG y UG . En general dos grupos localmente isomorfos pueden no ser
globalmente isomorfos (es decir, no ser realmente isomorfos como grupos de Lie).

Ejemplo. En U(1) = ei , 12 = 1 2 , 12 = 1 + 2 , y para (R, +), x12 = x1 + x2 . Los dos


grupos tienen la misma ley de composicion pero no son isomorfos. Por ej. (ei2/3 )3 = 1 en cambio
3 2/3 6= 0 (no son algebraicamente isomorfos). Y tampoco son topologicamente iguales: U(1)
es compacto y no simplemente conexo y R es no compacto y simplemente conexo.

Teorema. Dado un grupo de Lie G, en la clase de equivalencia de los grupos localmente


isomorfos a G hay exactamente uno (modulo isomorfismos), G, que es conexo y simplemente conexo,
denominado recubridor universal de la clase de equivalencia. Ademas si G es conexo, G = G/N
8
donde N es un subgrupo invariante discreto de G. Si N tiene n elementos, G sera un espacio
n-conexo.

Ejemplo. R y U(1) son localmente isomorfos y R es simplemente conexo, por lo cual es el


grupo recubridor y U(1) es un grupo cociente. En efecto, U(1)
= R/(2Z) ya que x mod 2 es
una variable angular.

Cualquier representacion (univaluada) de G define una representacion de G que sera tambien


univaluada en un entorno del neutro, sin embargo generalmente sera multivaluada para G a nivel
global. En efecto, si D(a) son los operadores de la representacion del recubridor G, y h N
(G
= G/N ), siempre que D(h) 6= 1 se tendra una multivaluacion de D como representacion de G
ya que D(e) = 1 pero h e en G.
8
Usamos
= para indicar isomorfismo.

13
2.3. Constantes de estructura

Dada la ley composicion9

k k 2 f k i j
k
f (x, y) = x + y + i j x y + R3 (2.8)
x y 0

(R3 representa terminos cubicos o mas en el desarrollo en serie.) Los numeros

2 f k 2 f k
cij k = (2.9)
xi y j 0 xj y i 0

se denominan constantes de estructura del grupo (en las coordenadas x). Se deduce que se
anulan si el grupo es abeliano.

Bajo cambios de coordenadas xi (x) las constantes de estructura se transforman como un tensor
2f k
(a diferencia de x i y
j 0 ):

i i j ixi
x = A j x + R2 , Aj= , cij k = clm n Al i Am j (A1 )k n . (2.10)
xj 0
Propiedades:

1) Las cij k son reales.


2) cij k = cji k (antisimetra). (2.11)
3) cir l cjk r + cjr l cki r + ckr l cij r = 0 (identidad de Jacobi).

2.4. Elementos infinitesimales

Los elementos infinitesimales son elementos del grupo con coordenadas infinitesimales (de primer
orden), ai . En particular,
f (a, b) = a + b (2.12)
ya que despreciamos O( 2 ). Se deduce que ai son las coordenadas de elemento inverso.10
9
Aqu, y a menudo
P en lo jque sigue, usamos el convenio de ndices repetidos. As por ejemplo Bi = Aijk xj y k
k
quiere decir Bi = j,k Aijk x y .
10
Para elementos finitos, el inverso coincide con ai solo en ciertos sistemas de coordenadas.

14
2.5. Representacion fiel

A menudo es conveniente trabajar con operadores (o matrices) que representen al grupo en lugar
de con el grupo directamente. A g G la representacion le asocia un operador invertible T (g) de
GL(V ), siendo V un espacio vectorial (o de Hilbert), de modo que T (g1 )T (g2 ) = T (g1 g2 ), o en
coordenadas, T (a)T (b) = T (f (a, b)) (usamos T (a) para el operador T (g) siendo a las coordenadas
de g.)

La representacion T (g) es fiel si es inyectiva (es decir, elementos distintos se representan por
operadores distintos) y en este caso hay un isomorfismo entre los grupos G y T (G) = {T (g), g G}.

Una representacion fiel concreta es la representacion regular por la izquierda T L . En este


caso V = C(G) es el espacio de funciones complejas definidas sobre el grupo, (g) C, y se define
mediante
(T (g))(g ) = (g 1 g ), T L (g1 )T L (g2 ) = T L (g1 g2 ). (2.13)

2.6. Generadores infinitesimales. Algebra del grupo.

T j
T (a) = 1 + j a + O(a2 ) (2.14)
a 0
Aqu, 1 representa el operador identidad en el espacio V en el que actua la representacion. El
operador
T
Xj := i j (2.15)
a 0
es el generador infinitesimal en la direccion j. La unidad imaginaria i se introduce por conveniencia
(tambien se puede introducir un ~ pero no es usual en este contexto). Por tanto, para un elemento
infinitesimal
T (a) = 1 iai Xi 1 ia X. (2.16)

Los Xi son n operadores que actuan en V , igual que T (a). Si se trata de una representacion
unitaria,
T (a)1 = T (a) , (2.17)
los Xi son hermticos:

a 1 + iai Xi = T (a) = T (a)1 = T (a) = 1 + iai Xi Xi = Xi . (2.18)

15
(Para esto se introduce la i en la definicion de generador.)

Los Xi subtienden un espacio vectorial real11

L := lin R {Xi , i = 1, . . . , n} = {ai Xi , a Rn }. (2.19)

Si la representacion es fiel, los Xi son linealmente independientes y forman una base. En efecto, si
ai Xi = 0, se tendra T (a) = 1 y entonces a = 0 por ser a un sistema de coordenadas y T fiel.
En este caso, dim L = n.

El espacio L concreto depende de la representacion. El espacio asociado a la representacion


regular, T L , se denomina algebra del grupo G. Por extension, el mismo nombre se aplica a los L
asociados a representaciones fieles.

La base Xi depende de las coordenadas. Bajo un cambio de coordenadas ai (a)

T aj T
Xi = i = i = Aj i Xj . (2.20)
ai 0 ai 0 aj 0
Esto implica que el cambio de coordenadas induce un cambio de base, pero el espacio L mismo no
depende de las coordenadas.

Para estados y operadores cuanticos un grupo de transformaciones actua segun

|i 7 T (g)|i, A 7 T (g)AT (g)1 , (2.21)

de modo que (A|i)g = Ag | g i. Entonces, para la variacion infinitesimal se tiene, usando T (g) =
1 iX,
|i = iX|i, A = i[X, A], X ai Xi . (2.22)
Se deduce que si un observable A es invariante bajo la accion de un grupo dicho observable conmuta
con los generadores infinitesimales.

2.7. Coordenadas canonicas

Un grupo de Lie conexo G se puede reconstruir a partir de un entorno UG de e (por pequeno


que sea) [4]:
n
n=1 UG = G. (2.23)
11
Esto quiere decir, que tomamos combinaciones lineales reales de los generadores, pero V es un espacio vectorial
complejo y los Xi mismos pueden ser matrices complejas, por ejemplo.

16
Ademas cualquier elemento se puede escribir como una exponencial de los generadores. Concreta-
mente sea T una representacion fiel en un espacio V , de modo que T (G)
= G, y a U Rn un
sistema de coordenadas en UG . Para a U
2
T (G) T (a) = 1 ia X + O(a2 ) = eiaX+O(a ) . (2.24)

Tambien se tendra T (a/N )N T (G), para N N. Usando (eA )N = eN A se tendra

T (a/N )N = eiaX+O(1/N ) , (2.25)

y tomando el lmite de N grande

lm T (a/N )N = eiaX T (G). (2.26)


N

Lo que se ha demostrado es (simbolicamente) que eiL G.12 De hecho todos los elementos
T (a) G se pueden alcanzar variando a (en funcion de a), y

G = eiL . (2.27)

Los n numeros ai forman un sistema de coordenadas locales denominadas coordenadas canonicas


o normales. Todas las T (g) se pueden expresar como eiaX , pero solo en un entorno del neutro
esta garantizado que es una biyeccion.

Notese que en general las ai no coinciden con las ai originales, T (a) 6= lmN T (a/N )N , pero
a = ai + O(a2 ) y por tanto s tienen los mimos generadores infinitesimales.
i

Las coordenadas canonicas son unicas para cada conjunto de generadores (cada base de L)
y distintas coordenadas canonicas estan relacionadas por transformaciones lineales. La propiedad
basica de las coordenadas canonicas es que al hacer dos transformaciones en la misma direccion las
coordenadas se suman13
i i i
eia Xi eia Xi = ei(+)a Xi , (2.28)
i i
Notese que las coordenadas no se suman para dos transformaciones arbitrarias eia Xi eib Xi , a
menos que el grupo sea abeliano.
12
Aunque inicialmente a U , esta claro que eimaX = (eiaX )m T (G) para todo m Z y ma puede acabar
siendo cualquier elemento de Rn .
13
Para que esta condicion garantice que ai son canonicas hace falta ademas que sean coordenadas analticas.

17
2.8. Formula de Campbell-Hausdorff

La exponencial de un operador A se define por su desarrollo en serie


X
1 n
eA = A . (2.29)
n=0
n!

Para operadores acotados esta serie es convergente en todo el espacio.

Sean A and B dos operadores y C tal que14


eA eB = eC . (2.30)
Desarrollando en serie ambos lados, se ve que el operador C puede escribirse como [4]
1 1 1
C = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + C1 + C2 + C3 + , (2.31)
2 12 12
donde [A, B] ABBA es el conmutador de A y B. El termino Cn tiene exactamente n operadores
A o B y n 1 conmutadores, ademas A y B solo aparecen en la forma [A, ], [B, ]. Esta formula
es consistente con A A + a 1, B B + b 1, C C + (a + b)1, a, b C.

Otra formula util relacionada es


1 1
eA XeA = X + [A, X] + [A, [A, X]] + [A, [A, [A, X]]] + e[A, ] X . (2.32)
2! 3!
Esta formula se demuestra por induccion.15

2.9. Algebra de Lie

Un algebra de Lie es un algebra con un producto de Lie, esto es, lineal, antisimetrico y que
satisfaga la identidad de Jacobi. El espacio formado por todos los operadores definidos sobre un
espacio vectorial forma un algebra de Lie con el conmutador como producto.16
14
Se va aplicar para matrices en un entorno de cero, la multivaluacion de tipo 2in en C no es relevante aqu. Se
elige la rama tal que C 0 cuando A, B 0.
15
Alternativamente, si ponemos una etiqueta 1 o 2 segun que un operador A este situado a la izquierda o la derecha
de X, se tiene eA XeA = eA1 A2 X y A1 A2 no es mas que el conmutador [A, ].
16
La identidad Jacobi en este caso se sigue de
0 = [A, [B, C]] + [B, [C, A]] + [C, [A, B]].
para tres operadores cualesquiera.

18
El espacio subtendido por los generadores infinitesimales, L, forma un algebra de Lie, es decir,
L es cerrado bajo conmutacion de operadores

X, Y L i[X, Y ] L, i[L, L] L . (2.33)

Para ver esto, en cualquier representacion T , dado un sistema de coordenadas a y sus coordenadas
canonicas asociadas a,
i i
T (a) = eia Xi , T (b) = eib Xi
i
(2.34)
T (a)T (b) = T (c) = eic Xi , ci = f i (a, b) .

Por la formula de Campbell-Hausdorff


1
ick Xk = iak Xk ibk Xk + [iai Xi , ibj Xj ] + R3 (2.35)
2
y al mismo tiempo !
k k k 2 fk i j
ic Xk = i a + b + a b + R3 Xk , (2.36)
ai bj 0
lo cual implica, usando la definicion de las constantes de estructura en ec. (2.9),

1 2 fk i
[Xi , Xj ] = i Xk = cij k Xk . (2.37)
2 ai bj 0 2

2f k
Notese que a i bj 0 no es antisimetrico en general , pero s en coordenadas canonicas. Por otro lado

cij k = cij k ya que la matriz de cambio de base entre las coordenadas a y a es Ai j = ji en ec.
(2.10). Finalmente se obtiene, en un sistema de coordenadas arbitrario y para una representacion
cualquiera
[Xi , Xj ] = icij k Xk (relaciones de conmutacion) . (2.38)
Si la representacion es fiel, las cij k (que no dependen de la representacion) se pueden obtener
calculando [Xi , Xj ] por ser {Xk }nk=1 una base. Una vez conocidas las relaciones de conmutacion
se puede obtener el conmutador de dos elementos cualesquiera del algebra de Lie (sin necesidad de
tener los operadores mismos)

X, Y L X = ai Xi , Y = bj Xj , i[X, Y ] = z k Xk L, z k cij k ai bj . (2.39)

A veces se usa la notacion z = a b. De hecho el producto vectorial usual es un caso particular


como se vera.

19
Por definicion una representacion de un algebra de Lie L en un espacio L de operadores
quiere decir un homomorfismo de algebras

f : X L 7 f (X) L f ([X, Y ]) = [f (X), f (Y )] . (2.40)

Puesto que el conmutador depende solo de las constantes de estructura, se deduce que dos algebras
de Lie son isomorfas si y solo si tienen las mismas constantes de estructura (en sendas bases
apropiadas). Cualquier representacion T (a) del grupo produce una representacion de su algebra de
Lie.

Acabamos de ver que si los operadores de L son los generadores infinitesimales de un grupo
de Lie, entonces forman un algebra de Lie. Tambien se cumple el recproco: si un conjunto de
operadores L es un algebra de Lie, entonces su exponencial eiL es un grupo de Lie.17 Esto se ve
usando Campbell-Hausdorff. Dado L definimos G = eiL . Sean X, Y L

T (x) eiX ,T (y) eiY , T (x)T (y)1 = eiX eiY eiZ ,


i (2.41)
Z = X Y + [X, Y ] +
2
como toda la serie esta formada por conmutadores, Z L y entonces T (x)T (y)1 G.

Al mismo tiempo esta demostracion implica que no solo las constantes de estructura estan
fijadas por la ley de composicion del grupo, sino que a su vez la ley de composicion c = f (a, b)
esta completamente determinada por las constantes de estructura (modulo cambios de coordenadas).
En efecto, las componentes de Z se obtienen calculando conmutadores lo cual solo requiere conocer
las constantes de estructura
1
z k = xk y k cij k xi y j + (2.42)
2
En consecuencia el algebra de Lie (caracterizada por sus constantes de estructura) determina com-
pletamente el grupo a nivel local: dos grupos son localmente isomorfos si y solo si sus algebras de
Lie son isomorfas. Si se tienen los operadores concretos (no abstractos) del algebra, su exponencial
produce el grupo conexo (la componente conexa del grupo que contiene al neutro) concreto. As por
ejemplo, si X = 1 (matriz 1 1) su exponencial eiX produce el grupo U(1), en cambio si X = i
su exponencial produce un grupo isomorfo a (R, +). En ambos casos las relaciones de conmutacion
son las mismas, [X, X] = 0.
17
Al menos formalmente. Si los operadores de L son no acotados (lo cual requiere un espacio de dimension infinita)
puede ocurrir que eiL o la serie de Campbell-Hausdorff no converjan. En este caso se dice que el algebra L no es
integrable a un grupo de Lie.

20
Si L es abeliana ([L, L] = 0) el grupo conexo es abeliano. Notese que O(2) tiene un algebra de
Lie abeliana pero el grupo mismo no es abeliano porque no es conexo. (La componente conexa es
el grupo SO(2) de rotaciones en el plano que s es abeliano.)

Para cada dimension n solo hay un numero finito de algebras de Lie distintas (no isomorfas) y por
tanto de grupos de Lie locales. Observese que no todos los conjuntos de n3 numeros cij k define un
algebra de Lie (es decir, existen n operadores linealmente independientes que cumplan las relaciones
de conmutacion). La condicion necesaria y suficiente es que se satisfaga las condiciones (2.11).
Ademas las constantes de estructura se pueden llevar a una forma canonica mediante cambios de
base. Para n = 1 solo hay un algebra (algebra abeliana) y para n = 2 solo hay dos algebras distintas

[X1 , X2 ] = 0 (abeliana)
(2.43)
[X1 , X2 ] = iX2 (por ejemplo X1 = ixx , X2 = x en L2 (R))

2.10. Relacion entre grupo de Lie y algebra

Si H es un subgrupo de G, su algebra de Lie LH es una subalgebra de L, es decir, i[LH , LH ]


LH . Y viceversa, la exponencial de una subalgebra genera un subgrupo.

Si H es un subgrupo invariante de G, LH es un ideal de L, es decir, i[LH , L] LH . En efecto,


si H es invariante (usando ec. (2.32))

g G, h H, H ghg 1 = eiXg eiXh eiXg = exp(ieiXg Xh eiXg ) = eiXh [Xg ,Xh ]+


i[Xg , Xh ] LH Xg L, Xh LH .
(2.44)

Y viceversa si LH es un ideal su exponencial es un subgrupo invariante.

Por otro lado, si T (1) (g) y T (2) (g) son dos representaciones de G en los espacios V (1) y V (2) , se
puede hacer su producto directo T (g) = T (1) (g)T (2) (g) que actua en el espacio producto tensorial
V = V (1) V (2) . Los generadores infinitesimales de la representacion T son

X (1) 1 + 1 X (2) X (1) + X (2) . (2.45)

En efecto, para un elemento infinitesimal g = eiX

T (1) (g) T (2) (g) = (1 + X (1) ) (1 + X (2) ) = 1 + X (1) 1 + 1 X (2) . (2.46)

21
2.11. Medida invariante

Todo grupo de Lie tiene una medida invariante, tambien denominada medida de Haar, que es
invariante por la izquierda y unica salvo normalizacion. Y lo mismo por la derecha. Si (g) es una
funcion definida sobre el grupo
Z Z
: G C, dL (g) (g) = dL (g) (g g)
ZG ZG (2.47)
dR (g) (g) = dR (g) (gg )
G G

En un sistema de coordenadas a las medidas toman la forma

dL,R (g) = L,R (g) dn a , (2.48)

para ciertas densidades no negativas L,R (g). Con la medida invariante por la izquierda se puede
definir el espacio de Hilbert L2 (G, dL ) de funciones complejas de cuadrado integrable definidas
sobre el grupo y la representacion regular por la izquierda es una representacion unitaria con ese
producto escalar. (Idem por la derecha.)

Si el grupo es compacto o abeliano (y mas casos) las medidas por la derecha e izquierda coinciden
(se dice que el grupo es unimodular). Ademas si el grupo es compacto, se puede (y se suele) elegir
Z
d(g) = 1 . (2.49)
G

De acuerdo con el teorema de Peter-Weyl, para un grupo compacto G con irreps D (g)

de dimension n , las funciones n D (g 1 )i j forman una base ortonormal de L2 (G, d). En
consecuencia si (g) es de cuadrado integrable
n
XX Z
j j
(g) = i n D (g 1 )i j , i = d(g)( n D (g 1 )i j ) (g) . (2.50)
i,j=1 G

n
Bajo la representacion regular por la izquierda, cada subespacio Vi = lin {D (g 1 )i j }j=1

lleva una
1 i
irrep . En efecto, si |ji D (g ) j ,

T L (g )|ji = D ((g 1 g)1 )i j = D (g 1 g )i j = D (g 1 )i k D (g )k j = D (g )k j |ki. (2.51)

22
2.12. Representacion adjunta del grupo

El algebra del grupo L lleva una representacion, g 7 Ad g, denominada representacion adjunta


del grupo definida por la accion (empleando una representacion fiel T cualquiera para construir L)

X L 7 Ad g (X) T (g)XT (g)1 . (2.52)


g

Claramente es una representacion (aplicar g2 y luego g1 produce el mismo efecto que g1 g2 ) y


T (g)XT (g)1 L por la relacion

Gc T (g)eiX T (g)1 = exp(iT (g)XT (g)1 ) (2.53)

(todo esta definido en el grupo de modo que el resultado no depende de la representacion usada).
Esta representacion es real: Para X = ai Xi L, ai 7 D(g)i j aj siendo D(g) una matriz real n n.

Para grupos abelianos la representacion adjunta es equivalente a la representacion trivial.

La representacion adjunta del grupo induce la representacion adjunta del algebra, formada
por operadores que actuan sobre L como espacio vectorial complejo. Usando (2.22),

X L 7 Ad X Ad X(Y ) [X, Y ] Y L. (2.54)

Por la identidad de Jacobi, es inmediato comprobar que es una representacion, es decir Ad [X, Y ] =
[Ad X, Ad Y ]. Esta representacion es puramente imaginaria, ya que [X, Y ] iL (actua en L conside-
rado como espacio complejo). Las relaciones de conmutacion ec. (2.38) implican que la matriz n n
correspondiente al generador Xi del algebra en la representacion adjunta es (Ad Xi )k j = icij k .18

2.13. Accion de un grupo de Lie sobre una variedad

Sea G un grupo de Lie de dimension n, y M una variedad diferenciable de dimension m. Una


accion A de G sobre M es una aplicacion

A : G M (g, x) 7 A(g, x) M. (2.55)

tal que
A(e, x) = x, A(g1 , A(g2 , x)) = A(g1 g2 , x) . (2.56)
18
En efecto, si [Xi , X] = X con X = aj Xj y X = ak Xk , buscamos la matriz Ad Xi tal que (Ad Xi )k j aj = ak .
Entonces, [Xi , aj Xj ] = aj icij k Xk = ak Xk implica (Ad Xi )k j = icij k .

23
Por ejemplo, el propio grupo como espacio, M = G, y gx como producto en G. Por tanto todo
grupo se puede ver como un grupo de transformaciones.

Cuando la accion a que nos referimos se sobreentiende, se suelen usar las notaciones

A(g, x) = xg = gx. (2.57)

2.13.1. Representacion escalar

Sea C(M ) el conjunto de funciones complejas definidas sobre la variedad M , en la que actua el
grupo G. Se puede definir una representacion de G en C(M ) mediante

g 7 U (g) 7 g = U (g), g (x) (g 1 x) (2.58)

o equivalentemente
g (gx) = (x) (transformacion escalar). (2.59)
Podemos comprobar que U (g) as definido es una representacion del grupo:

(x) 7 g2 (x) = (g21 x) 7 g2 (g11 x) = (g21 (g11 x)) = ((g1 g2 )1 x) = g1 g2 (x) (2.60)
g2 g1

que implica U (g1 )U (g2 ) = U (g1 g2 ).

2.13.2. Generadores infinitesimales

Para g infinitesimal con coordenadas ai , i = 1, . . . , n y x , = 1, . . . , m,

(gx) = x + x , x = ai fi (x) . (2.61)

Igualmente,
g 1 x = x x (2.62)
ya que ai son las coordenadas de g 1 . Las fi se pueden obtener mediante

F
(gx) = F (x, a), fi (x) = . (2.63)
ai a=0
Queremos obtener los generadores infinitesimales correspondientes a la representacion escalar. Para
ello consideramos al accion de g infinitesimal sobre una funcion

g (x) = (x x) (x) + (x), (x) = x (x) = x (x) . (2.64)

24
Por otro lado
g = U (g) = (1 iX), = iX = iai Xi . (2.65)
Se deduce
X = ix , Xi = ifi (x) . (2.66)
Por ejemplo para traslaciones x = a, fi = i , Xi = ii , X = i.

2.13.3. Representaciones espinoriales

Si D(g) es una representacion de G en un espacio vectorial V de dimension d (por ejemplo


si V = Cd , los D son matrices d d) se puede construir una representacion en el espacio H =
C(M ) V . Los vectores de H estan descritos por funciones (x), donde etiqueta una base de
V . Considerado como un vector de V para cada x, (x) V (un vector columna de longitud d).

La representacion U (g) en H se puede definir mediante

g (x) = D(g)(g 1 x), g (x) = (D(g)) (g 1 x) . (2.67)

En efecto,

(x) 7 D(g2 )(g21 x) 7 D(g1 )(D(g2 )(g21 (g11 x)) = D(g1 )D(g2 )((g1 g2 )1 x)
g2 g1
(2.68)
= D(g1 g2 )((g1 g2 ) x) = g1 g2 (x) .
1

A nivel infinitesimal, usando


D(g) = 1 iai Si , (2.69)
se encuentra
g (x) = (1 iai Si )(1 x )(x) = (1 iai Si x )(x)
(2.70)
(1 iai Xi )(x)

que implica
Xi = ifi (x) + Si Li + Si . (2.71)
El operador Li solo actua en C(M ) y Si solo actua en V y ambos operadores conmutan.

25
3. Grupo de rotaciones

3.1. Grupo de rotaciones en Rn

O(n, R) u O(n) es el grupo de las matrices ortogonales reales n n

O(n) = {A matriz n n, A = A, AT A = 1} (3.1)

(Compruebese que forman grupo.) Equivalentemente, A1 = AT o A1T = A.

La ortogonalidad de la matriz implica que como aplicacion lineal conserva la norma eucldea en
Rn (o equivalentemente el producto escalar)

x Rn kAxk2 = Ax Ax = Ai j xj Ai k xk = xj (AT A)jk xk = kxk2 (3.2)

o tambien kAxk2 = (Ax)T (Ax) = xT AT Ax = xT x = kxk2 , donde x es un vector columna, es


decir, una matriz n 1.

Que A sea ortogonal equivale a decir que sus n columnas son las componentes de n vectores
que forman una base ortonormal, y lo mismo las n filas.

La propiedad de conservar la norma se puede tomar como definicion de O(n). En general, un


conjunto de transformaciones invertibles que dejan una propiedad invariante siempre define un grupo.

El grupo O(n) no es conexo:

1 = det(AT A) = det(A)2 det(A) = 1 . (3.3)

Como siempre, la componente conexa del neutro forma un subgrupo invariante, el grupo de las
rotaciones en n dimensiones:

SO(n) = {R matriz n n, R = R, RT R = 1, det(R) = 1} . (3.4)

Los grupos SO(n) son simples (para n > 2), compactos y conexos pero no simplemente conexos.
SO(2) es abeliano.
O(n)/SO(n) = Z2 , O(n) = SO(n) O (n). (3.5)
Por ejemplo A = diag(1, 1, 1, . . . , 1) O (n) representa una reflexion respecto del primer eje.
O (n) esta formado por transformaciones del tipo rotaciones seguidas de una reflexion.

26
Para dimensiones impares se puede definir inversion espacial o paridad P diag(1, 1, . . . , 1) =
1 O (n) de modo que {1, P } = Z2 es un subgrupo invariante de O(n) y de hecho

O(n)
= SO(n) Z2 (n impar). (3.6)

En el punto de vista pasivo (cambian las componentes porque cambia la base)

xi = Ai j xj (3.7)

A es la matriz del cambio de base,

A GL(n, R) = {A, matriz n n, A = A, det(A) 6= 0} (3.8)

Para los vectores de la base

x = xj ej = xi ei = Ai j xj ei ei = Ai j ei , ei = (A1 )i j ei . (3.9)

Por definicion dos bases tienen la misma orientacion si det(A) > 0. Por tanto, las rotaciones se
pueden definir como las transformaciones lineales que dejan invariante la norma y la orientacion,19
es decir, las rotaciones transforman entre s bases ortonormales con orientacion positiva. Hay una
biyeccion entre rotaciones y bases ortonormales positivamente orientadas: dada una tal base fija B0 ,
cualquier otra base B esta fijada por la rotacion que lleva B0 a B.

Las transformaciones en O (n) se denominan rotaciones impropias y cambian la orientacion.

Como la matriz RT R es automaticamente simetrica, la ecuacion RT R = 1 sobre R GL(n, R)


impone n(n + 1)/2 ecuaciones para n2 incognitas, en consecuencia

n(n + 1) n(n 1)
dim SO(n) = n2 = . (3.10)
2 2
Otra forma de verlo es contar bases ortonormales positivas. Para especificar el primer vector de la
base se necesitan n 1 parametros (n componentes pero la norma esta fijada a 1). Para el vector
k-esimo se requeriran n k parametros: estar normalizado quita un parametro y Pser ortogonal a
cada uno de los k 1 vectores anteriores quitan otros k 1 parametros. En total nk=1 (n k) =
P n1
j=1 j = n(n 1)/2.

19
En realidad la condicion de que sean lineales se puede deducir de conservacion de la norma.

27
3.2. Algebra de Lie de SO(n)

Considerando transformaciones infinitesimales, R = 1 iX

1 = RT R = (1 iX T )(1 iX) = 1 i(X T + X) X T + X = 0 . (3.11)

Se deduce que el algebra de Lie so(n) esta formada por matrices imaginarias puras antisimetricas

so(n) = {X, matriz n n, X = X, X T = X}. (3.12)

Se comprueba que forman algebra:

X, Y so(n), (i[X, Y ])T = i[Y T , X T ] = i[Y, X] = i[X, Y ] i[X, Y ] so(n). (3.13)

Estas matrices son hermticas, X = X y las R son unitarias (las matrices ortogonales reales
son automaticamente unitarias). Exponenciando el algebra se obtiene el grupo (ya que es conexo)
T
SO(n) = {R = eiX , X so(n)}, RT = eiX = eiX = R1 . (3.14)

La condicion de que la matriz X sea antisimetrica automaticamente implica que el numero de


parametros (reales) libres es n(n 1)/2 (este es el numero de elementos de matriz por encima de
la diagonal).

3.3. Grupo SO(2)

SO(2) son las rotaciones en el plano,


   
cos sen
SO(2) = R = , < . (3.15)
sen cos

(Compruebese usando RT R = 1, det(R) = 1.) Este grupo es isomorfo al grupo de las fases

SO(2)
= U(1) = {ei , < }. (3.16)

La ley de composicion es simplemente 12 = 1 + 2 . Como el grupo es abeliano sus irreps D ()


son de dimension 1. La condicion D(R1 )D(R2 ) = D(R1 R2 ) implica

D(R) = ei , C (3.17)

28
es una constante caracterstica de la representacion. Para que la representacion sea univaluada,
= m Z, por ejemplo 1 = D(/2)4 = (ei/2 )4 = ei2 .

Dm (R) = eim , mZ (irreps de SO(2)). (3.18)

Alternativamente, por la teora general, y teniendo en cuenta que es directamente una coordenada
canonica, D(R) = eiJ donde J es el generador infinitesimal (J C, es una matriz 11 compleja)
que automaticamente cumple el algebra de Lie, [J, J] = 0. Para que sea una representacion de U(1)
y no solo de su recubridor (R, +), J = m Z.

La propia representacion D que define al grupo SO(2) es bidimensional y por tanto es reducible
(como representacion compleja), D = Dm=1 Dm=1 . Es mas comodo trabajar con el algebra.
Para una rotacion infinitesimal
   
1 0 i
R= = 1 iJ, J= 2 (3.19)
1 i 0

(2 es una de las matrices de Pauli). J = J , J 2 = 1, de aqu


 
iJ cos sen
e = cos(J) i sen(J) = cos() i sen()2 = . (3.20)
sen cos

La representacion J = 2 se puede reducir (se puede diagonalizar)


 
1 1
e1 , Je = e , he |e i = e e = , , = 1. (3.21)
2 i
Esto implica
R()e = eiJ e = ei e , = 1 (3.22)
y los dos vectores e1 generan
 i sendos
 subespacios irreducibles unidimensionales. En la base e1 la
e 0
rotacion toma la forma .
0 ei

SO(2) es compacto, tiene una medida biinvariante normalizable


Z 2 I
d d 1
hf iSO(2) f () = f () ( = ei ). (3.23)
0 2 2i
(La integral de contorno es sobre || = 1 con orientacion positiva.) Esta medida es invariante

hf ()iSO(2) = hf ( )iSO(2) . (3.24)

29
Tambien se aplica el teorema de Peter-Weyl, las irreps eim , m Z forman una base ortonormal
de las funciones periodicas f ()
X Z 2
im d im
f () = fm e , fm = e f ()
mZ 0 2
Z 2
d im im (3.25)
e e = mm ,
0 2
X
X
eim eim = 2( 2n) = 2( ) (, mod 2).
mZ nZ

Con otra notacion


hm|m i = mm , h| i = 2( ) (, mod 2),
X Z 2
d (3.26)
|f i = fm |mi = f ()|i, fm = hm|f i, f () = h|f i, h|mi = eim .
mZ 0 2

Sobre funciones (escalares) definidas sobre el plano R2 , las rotaciones actuan segun (x) 7
(R1 x). Podemos calcular el generador infinitesimal en esta representacion:
 1    1  
x 0 x x2
x = = = ,
x2 0 x2 x1
(3.27)
iJ = x = (x2 1 + x1 2 ) J = i(x1 2 x2 1 ) Lz ,
eiJ (x) = (R1 x) .

3.4. Grupo SO(3)

Una rotacion en R3 se puede parametrizar mediante un eje n, n2 = 1, n S2 , y un angulo ,


R(n, ). En total tres parametros, de acuerdo con la formula general de SO(n).

Prescindiendo de conocimientos previos sobre rotaciones, usando solo R SO(3), se ve que el


polinomio caracterstico det(R ) = 0 es cubico y debe tener una solucion real, es decir, Rx = x
(x 6= 0). Por la conservacion de norma = 1 y por continuidad con R = 1 (el grupo es conexo)
= 1. Por tanto hay un n S2 tal que Rn = n. Por otro lado, un x R3 cualquiera se puede
escribir x = xk + x (segun n) y Rx = xk + Rx , por conservacion del producto escalar Rx n
y ademas kRx k = kx k (y conserva la orientacion por continuidad). En consecuencia x y Rx

30
n

Figura 2: Convenio eje-angulo: El angulo se toma en direccion positiva relativa al eje (regla del
tornillo).

estan relacionados por una rotacion del plano perpendicular a n, es una rotacion de SO(2) y tiene
asociado un angulo :

R(n, )x = xk + cos()x + sin()n x . (3.28)

De esta expresion se deduce que

R(n, ) = R(n, + 2) = R(n, 2 ) (3.29)

por lo cual el angulo se puede restringir a 0 . Incluso as hay casos repetidos por R(n, ) =
R(n, ). Las rotaciones sobre un eje fijo, digamos
 el eje z, n = e3 , forman un subgrupo isomorfo
R2 0
a SO(2). Por tanto, SO(3) SO(2) con R3 = .
0 1

Dada una rotacion R 6= 1 con eje n, se tiene Rn = n y de hecho este es el unico vector propio
real.20 Por ello, si Rx = x entonces x es paralelo a n. Otra observacion relacionada es que la
representacion de SO(3) definida por las matrices R es irreducible (como representacion compleja).
En efecto, si fuera reducible habra un vector propio (complejo) comun a todas las rotaciones, pero
los unicos vectores propios de una rotacion (que no sea la identidad) son el eje n y los e1 asociados
al plano perpendicular al eje, y estos vectores dependen de la rotacion.

Los tres numeros


= n (3.30)
20
Los e1 de ec. (3.21) s seran vectores propios pero complejos.

31
3


2
1

Figura 3: La rotacion R2 () seguida de R3 (), R3 ()R2 (), lleva el eje 3 a 3 , con angulos polar
y acimutal .

definen un sistema de coordenadas (que son analticas, como se sigue de ec. (3.28)). El grupo no
es abeliano pero si se hacen dos rotaciones sucesivas sobre el mismo eje los angulos se suman

R(n, 1 )R(n, 2 ) = R(n, 1 + 2 ). (3.31)

Esto implica que define un sistema de coordenadas canonicas para SO(3). El sistema de
coordenadas vale en el abierto || < /2, con n S2 . Es importante notar que

R(1 )R(2 ) 6= R(1 + 2 ) en general. (3.32)

La ley de composicion 12 = f (1 , 2 ) es complicada y no se necesita en forma explcita.

3.4.1. Angulos de Euler

Sea ei , i = 1, 2, 3, una base ortonormal positiva, y Ri () R(ei , ). La rotacion mas general


se puede escribir como

R = R3 ()R2 ()R3 (), 0 , < 2, 0 . (3.33)

En efecto, dada una rotacion R, si el nuevo eje z es e3 = (, ) (angulos polar y acimutal,


respectivamente)

Re3 = R3 ()R2 ()e3 (R3 ()R2 ())1 Re3 = e3 (R3 ()R2 ())1 R = R3 () . (3.34)

32
Hay que senalar que los parametros (, , ), angulos de Euler, no forman un autentico sistema
de coordenadas ya que e = (, 0, ) (no es una biyeccion local entre elementos del grupo y
parametros).

3.4.2. Generadores infinitesimales y algebra de SO(3)

Dado que son coordenadas canonicas podemos escribir, en cualquier representacion


U (R) = eiJ . (3.35)
En la propia representacion R (que coincide con la representacion adjunta del grupo SO(3))

cos sen 0
R(e3 , ) = sen cos 0 (3.36)
0 0 1
que implica
0 i 0
J3 = i 0 0 (3.37)
0 0 0
analogamente, considerando rotaciones segun los otros dos ejes

0 0 0 0 0 i
J1 = 0 0 i , J2 = 0 0 0 . (3.38)
0 i 0 i 0 0
Estas matrices son hermticas y sin traza y satisfacen las relaciones de conmutacion
[J1 , J2 ] = iJ3 , [J2 , J3 ] = iJ1 , [J3 , J1 ] = iJ2 , (3.39)
es decir,
[Ji , Jj ] = iJk , ijk permutacion cclica de 123. (3.40)
Como todos los generadores se mezclan no hay ningun ideal y el algebra y el grupo son simples. Las
relaciones pueden tambien escribirse
[Ji , Jj ] = iijk Jk (Algebra del momento angular). (3.41)

Aqu ijk es el tensor de Levi-Civita, que es completamente antisimetrico



1 si ijk es una permutacion par de 123
ijk = 1 si ijk es una permutacion impar de 123 (3.42)

0 si se repite algun ndice

33
En particular
ijk = jik , ijk = jki , (AB)i = ijk Aj Bk . (3.43)

Otra forma de obtener los generadores Ji es considerar una rotacion infinitesimal sobre x R3 .
Usando ec. (3.28) se deduce
x = x, (3.44)
y por definicion de generador infinitesimal [ec. (2.22)] se tendra

x = i( J )x. (3.45)

Comparando ambas expresiones (en componentes):

xi = ( x)i = ilj l xj ,
(3.46)
xi = (i J )i j xj = il (Jl )i j xj ,

se deduce
(Ji )jk = iijk , (3.47)
que coincide con el resultado en (3.37) y (3.38).21

La ec. (3.41) dice que las constantes de estructura de SO(3) son cij k = ijk en esta base.
En cualquier representacion de SO(3) es convencional elegir la base del algebra de modo que las
constantes de estructura sean ijk (esto es automatico si la base son los generadores asociados a las
coordenadas ).

Para todo grupo de Lie las constantes de estructura proporcionan las matrices de la representacion
adjunta mediante (Ad Xi )k j = icij k , y la ec. (3.47) verifica esta propiedad para SO(3).

El tensor de Levi-Civita satisface las relaciones


ijk abc = ia jb kc permutaciones de abc
ijk abk = ia jb ib ja (3.48)
ijk ajk = 2ia

Entonces
ijk [Ji , Jj ] = iijk ijc Jc = 2iJk J J = iJ . (3.49)
(Para c-numeros a a = 0 pero J es un operador y las componentes Ji y Jj no conmutan si i 6= j.)
21
Para reconstruir una matriz Aij a partir de sus elementos de matriz el convenio es que el primer ndice es la fila
y el segundo la columna. As (J3 )12 = i312 = i coincide con el elemento de matriz (12) en (3.37).

34
La representacion definida por las matrices R es unitaria y correspondientemente J = J . Como
ya se dijo la representacion es irreducible y ello se comprueba igualmente en el algebra (por ejemplo,
[Ji , X] = 0 X = 1, X matriz 3 3).

3.4.3. Operador momento angular orbital

En L2 (R3 ) tenemos la representacion escalar

(x) 7 (U (R))(x) = (R1 x). (3.50)


R

Esta representacion es unitaria:


Z Z
2 3 1 2
kU (R)k = d x |(R x)| = d3 x |(x)|2 = kk2 . (3.51)

Se ha usado que la medida (el elemento de volumen) es invariante bajo rotaciones. En efecto, si
y R1 x, y cambiamos de variable x = Ry, d3 x = det(R)d3 y = d3 y.22

El operador U (R) que representa a la rotacion R se puede escribir

U (R) = eiL , L = L . (3.52)

L, momento angular orbital, es el nombre usual de J en esta representacion. Para determinar este
operador necesitamos x, que ya hemos obtenido en ec. (3.44). Usando entonces la relacion (2.66)

L = ix = i( x) = i (x ). (3.53)

Finalmente
L = ix = x p = p x p i . (3.54)
Aqu x es un operador multiplicativo, el operador posicion. (Notese que en general para operadores
A B no coincide con B A, pero xi conmuta con pj si i 6= j.) En componentes

Li = iijk xj k = ijk xj pk (3.55)

o tambien
Li = x j p k x k p j , (ijk) permutacion cclica de (123), (3.56)
22
El grupo de transformaciones lineales en Rn que dejan el volumen invariante, es decir, det A = 1, forman el
grupo SL(n, R).

35
explictamente
Lx = ypz zpy , Ly = zpx xpz , Lz = xpy ypx . (3.57)
Por supuesto Lz es el mismo operador ya obtenido en ec. (3.27) para SO(2).

Para derivar las relaciones de conmutacion en esta representacion, se pueden usar las relaciones

[i , f (x)] = (i f )(x), [i , xj ] = ij , [xi , pj ] = iji , [xi , xj ] = [pi , pj ] = 0. (3.58)

Y tambien
[A, BC] = [A, B]C + B[A, C], (3.59)
que expresa que [A, ] es una derivacion (satisface la regla de Leibniz), e igualmente [ , A] = [A, ].
As, si ijk es una permutacion cclica de 123

[Li , Lj ] = [xj k xk j , xk i xi k ] = [xj k , xk i ] [xk j , xi k ]


(3.60)
= xj i + xi j = iLk .

Alternativamente, para ndices i, j, . . . arbitrarios

[Li , Lj ] = iab jcd [xa b , xc d ] = iab jcd ([xa b , xc ]d + xc [xa b , d ])


= iab jcd (xa bc d xc da b ) = iab jbd xa d + iab jca xc b
(3.61)
= (id aj ad ij )xa d (jb ci cb ji )xc b = xj i xi j
= ijk abk xa b = iijk Lk

3.4.4. Operadores escalares y vectoriales

En una representacion cualquiera de SO(3), se dice que S es un operador escalar bajo rotaciones
si
S 7 U (R)SU (R)1 = S (3.62)
igualmente, A es un operador vectorial si

A 7 U (R)AU (R)1 = R1 A, U (R)Ai U (R)1 = (R1 )i j Aj = Rj i Aj . (3.63)

Equivalentemente, Ri j U (R)Aj U (R)1 = Ai . Observese que U (R)AU (R)1 = RA no sera con-


sistente con U (R1 R2 ) = U (R1 )U (R2 ).

36
Por ejemplo el operador en L2 (R3 ) es un vector:

(Rr)j
U (R)i U (R)1 (r) = U (R)i ((Rr)) = U (R) (j )(Rr) = U (R)Rj i (j )(Rr)
ri
= Rj i (j )(r) = (R1 )i j j (r).
(3.64)
23
Igualmente el operador posicion x

U (R)|ri = |Rri, x|ri = r|ri


(3.65)
U (R)xU (R) |ri = U (R)x|R1 ri = U (R)R1 r|R1 ri = R1 r|ri = R1 x|ri.
1

Se comprueba que si A y B son operadores vectoriales, su producto escalar es un escalar y su


producto vectorial un vector:

U A BU 1 = U Ai U 1 U B i U 1 = (R1 )i j Aj (R1 )i k B k = (RT R)jk Aj B k


= jk Aj B k = A B, (3.66)
Ri j U (A B)j U 1 = (R1 )j i jkl (R1 )k a Aa (R1 )l b B b = det(R1 )iab Aa B b = (A B)i .

En la ultima igualdad se ha utilizado la identidad

i1 ,...,in Ai1 j1 Ain jn = det(A)j1 ,...,jn , (3.67)

valida para una matriz cuadrada A arbitraria.

Notese que no hace falta que los operadores involucrados conmuten entre s.

Si A y B se transforman segun ec. (3.63) incluso cuando R es una rotacion impropia se dice que
son vectores polares o autenticos vectores. El operador producto C = A B en cambio sera un
pseudo-vector o vector axial, es decir, bajo rotaciones impropias C 7 R1 C, R O (3).
En efecto, en la demostracion anterior sala un factor det(R) que antes era 1 pero para rotaciones
impropias es 1.

A nivel infinitesimal, U = 1 i J , la transformacion de un operador bajo rotaciones es

A 7 U AU 1 = (1 i J )A(1 + i J ) A = i [J , A] (3.68)
23
R R R
|i = d3 x(x)|xi implica U (R)|i = d3 x(R1 x)|xi = d3 x(x)|Rxi.

37
Para un escalar
S = 0 [J , S] = 0. (3.69)
Para un operador vectorial

R1 A = A A, A = A = i[ J , A]. (3.70)

En componentes
ijk j Ak = ij [Jj , Ai ] [Ji , Aj ] = iijk Ak . (3.71)
La ultima relacion tambien se puede escribir [Ai , Jj ] = iijk Ak . As en particular J es un vector. En
L2 (R3 ), x, p y L son vectores.

3.5. Grupo SU(2)

3.5.1. Grupos U(n) y SU(n)

Las matrices unitarias forman el grupo U(n) (n = 1, 2, . . .)

U(n) = {U, matriz compleja n n, U U = 1}. (3.72)

Los elementos de U(n) son las matrices de cambio de base entre dos bases ortonormales complejas
de Cn .

El subgrupo de matrices unitarias con determinante unidad forman el grupo unitario especial
SU(n)
SU(n) = {U, matriz compleja n n, U U = 1, det(U ) = 1}. (3.73)
La aplicacion U 7 det(U ) define un homomorfismo de U(n) en U(1) (por ser U unitaria su
determinante es una fase) con nucleo SU(n), de modo que U(n)/SU(n)
= U(1).24

U(n) es un grupo compacto y conexo pero no simplemente conexo ni simple (contiene un factor
U(1)). El grupo SU(n) es compacto, conexo y simplemente conexo, y simple.

Los elementos de U(n) se pueden escribir en la forma



U = eiX , U = eiX = U 1 = e+iX , (3.74)
24
Por otro lado, el centro de U(n) es el subgrupo isomorfo a U(1) formado por las matrices ei 1. El centro de
SU(n) es Zn (formado por las races n-esimas de la unidad) de modo que U(n)/U(1)
= SU(n)/Zn .

38
y se concluye que su algebra es25
u(n) = {X, matrices complejas n n, X = X}. (3.75)
La dimension de U(n) o u(n) es n2 , ya que cada matriz hermtica queda especificada por n elementos
de matriz reales en la diagonal y n(n1)/2 elementos de matriz complejos por encima de la diagonal,
en total n + 2 n(n 1)/2 = n2 parametro reales.

De la igualdad de Jacobi, valida para cualquier matriz cuadrada compleja A


det(eA ) = etr(A) (3.76)
se deduce (de nuevo la multivaluacion se puede obviar) que
1 = det(eiX ) = eitr(X) tr(X) = 0 . (3.77)
En consecuencia, el algebra de SU(n) esta formada por matrices hermticas sin traza,
su(n) = {X, matriz compleja n n, X = X, tr(X) = 0}. (3.78)
En efecto, su(n) forma un algebra. Si X, Y su(n), i[X, Y ] es otra vez hermtico. Por otro lado
para dos matrices n n cualesquiera tr[A, B] = 0, por la propiedad cclica de la traza26
tr(AB) = Ai j B j i = tr(BA). (3.79)
Si X es hermtica, tr(X) es automaticamente real e imponer tr(X) = 0 solo elimina un parametro
real, en consecuencia, la dimension de SU(n) o su(n) es n2 1.

3.5.2. Matrices de SU(2) y matrices de Pauli

No es difcil ver que la matriz mas general de SU(2) se puede escribir como27
  X 3
a0 ia3 ia1 a2 4
U= , aR , a2 = 1 . (3.80)
ia1 + a2 a0 + ia3
=0

25
Elegimos X por continuidad desde 0 por lo que no afecta la multivaluacion 2n.
26
Puesto que la traza del conmutador siempre se anula, las matrices sin traza forman un ideal del algebra de Lie,
y las matrices con determinante
 unidad forman un subgrupo invariante.
    
27 z 1 z 3 z1 z3
En efecto, si U = es unitaria, los dos vectores y forman una base ortonormal de C2 .
z2 z4 z2 z4
 
z z2
Entonces, |z1 |2 + |z2 |2 = |z3 |2 + |z4 |2 = 1 y z1 z3 + z2 z4 = 0, o z3 /(z2 ) = z4 /z1 . Entonces U = 1
z2 z1
con || = 1, para que U U(2). Si ademas 1 = det(U ) = , se obtiene la forma en ec. (3.80).

39
Hay una biyeccion entre los elementos de SU(2) y los puntos a de la esfera S3 = {a R4 , kak =
1}, y ambos espacios son homeomorfos. Esto implica que SU(2) es compacto, conexo y simplemente
conexo. De hecho la medida invariante de SU(2) no es mas que la medida uniforme sobre S3 (inducida
por la medida de Lebesgue en R4 ) [4].

Las matrices U de (3.80) se pueden escribir en la forma


U = a0 1 ia1 1 ia2 2 ia3 3 = a0 ia , (3.81)
donde i , i = 1, 2, 3 son las matrices de Pauli,
     
0 1 0 i 1 0
1 = , 2 = , 3 = . (3.82)
1 0 i 0 0 1
Estas matrices tienen las siguientes propiedades
i = i , i j = ij + iijk k . (3.83)
La segunda relacion equivale a
i2 = 1 (no hay suma en i),
(3.84)
i j = j i = ik (ijk permutacion cclica de 123).
Estas propiedades implican que {1, i} es el grupo de cuaterniones y el conjunto
Q = {a0 ia , a R4 } (3.85)
es el algebra de los cuaterniones, introducida por Hamilton.

Para el grupo se obtiene


SU(2) = {U = a0 ia , a20 + a2 = 1 }. (3.86)

El vector a define un sistema de coordenadas locales en kak < 1 con a0 = + 1 a2 (hemisferio
norte abierto de S3 ). Estas coordenadas no son canonicas.

Es interesante notar que las matrices de Pauli forman un conjunto irreducible ya que no admiten
un vector propio comun a las tres. En consecuencia las matrices U forman una irrep de SU(2).

3.5.3. Algebra de SU(2)

Tomando un elemento infinitesimal, U = 1 ia , se ve que forma una base del algebra


de Lie de SU(2) (matrices 2 2 hermticas sin traza). Es convencional tomar la base reescalada
1 1
Ji = i , J = . (3.87)
2 2
40
De este modo, usando la identidad [i , j ] = 2iijk k ,

[Ji , Jj ] = iijk Jk , (3.88)

que coincide con el algebra de SO(3).

Exponenciando las matrices del algebra se reobtiene el grupo SU(2)

U = eiJ = ei/2 . (3.89)

Para calcular explcitamente la exponencial (cuando no se anula) definimos


= kk, n = , = n, n = (, ) (en coordenadas polares), (3.90)

de modo que  n
2 2
n n par
( ) = , ( ) = n (3.91)
n n impar
nos proporciona la expresion de U en coordenadas canonicas
   
i n/2
U () = U (n, ) := e = cos i sen n
2 2
     (3.92)
cos 2 i sen  2 cos() iei
 sen
2
sen()

= .
iei sen 2 sen() cos 2 + i sen 2 cos()

El grupo queda cubierto tomando 0 2, n S2 .28 Esto es el doble que para SO(3), que solo
requera 0 .

3.5.4. Relacion entre los grupos SU(2) y SO(3)

Como SU(2) y SO(3) comparten algebra de Lie abstracta (tienen las mismas constantes de
estructura) estos grupos son localmente isomorfos en un entorno del neutro

SO(3)
=loc SU(2), (3.93)

ademas SU(2) es simplemente conexo, lo cual implica que es el grupo recubridor universal de su
clase, y SO(3) un grupo cociente. De hecho,

SU(2)/Z2
= SO(3), Z2 = {1, 1}. (3.94)

41
3
U S

Figura 4: Dos caminos cerrados en SO(3).

Z2 es el centro de SU(2) (mas generalmente el centro de SU(n) esta formado por las races n-esimas
de la unidad y es isomorfo a Zn ).

Para ver esto basta mostrar que existe un homomorfismo de grupos de SU(2) en SO(3) con
nucleo Z2 . En efecto, las relaciones de conmutacion (3.88) indican que es un operador vectorial,
por tanto
U (n, )U (n, )1 = R(n, )1 , (3.95)
y el homomorfismo indicado es simplemente

: U (n, ) 7 R(n, ). (3.96)

En efecto es un homomorfismo ya que

(U1 U2 )(U1 U2 )1 = U1 (R21 )U11 = R21 R11 = (R1 R2 )1 , (3.97)

es decir, (U1 U2 ) = (U1 )(U2 ). Por otro lado, si U es del nucleo U U 1 = , que implica que U
es un multiplo de la identidad por ser un conjunto irreducible, y la condicion det(U ) = 1 implica
U = 1.

El grupo SU(2) recubre dos veces a SO(3) ya que (usando las ecs. (3.29) y (3.92))

U (n, + 2) = U (n, ), R(n, + 2) = R(n, ). (3.98)


28
Y cada elemento del grupo aparece solo una vez, excepto un conjunto de medida nula.

42
La relacion SO(3)
= SU(2)/Z2 indica que SO(3) es doblemente conexo. Su espacio topologico es la
esfera S con puntos diametralmente opuestos identificados, U = U mod Z2 , es decir, U
3
= U
para SO(3). Hay una biyeccion entre rotaciones y diametros de S3 (rectas que pasan por el origen
en R4 ).

Si T es una irrep de SU(2), dado que T (1) conmuta con todo T (U ) debe ser un multiplo de
la identidad y la condicion T (1)2 = T (1) = 1 implica T (1) = 1. Esto implica que el grupo
SU(2) tiene dos tipos de representaciones irreducibles

T (1) = +1 (representacion entera) T (U ) = T (U )


(3.99)
T (1) = 1 (representacion semientera) T (U ) = T (U )

Las representaciones enteras de SU(2) son a su vez representaciones (univaluadas) de SO(3)


(R 7 U 7 T (U )), y las semienteras son bivaluadas para SO(3) (R 7 U 7 T (U )).

As la representacion bidimensional de SO(3), R 7 U = ein/2 es bivaluada, ya que segun


se elija o + 2 sale un signo de diferencia, aunque la rotacion es la misma.

Por otro lado la representacion tridimensional U R es una representacion entera de SU(2) e


irreducible.

En principio SO(3) es el grupo fsico y solo las representaciones univaluadas deberan aparecer,
ya que queremos que una rotacion de 2 no tenga ningun efecto fsico (el sistema se queda como
estaba). Sin embargo, en mecanica cuantica el estado esta representado por vectores del espacio
de Hilbert normalizados modulo una fase: |i y ei |i representan el mismo estado fsico. Esto
hace que sistemas que caigan en representaciones bivaluadas de SO(3) tambien son admisibles. Los
estados en representaciones enteras son bosonicos y aquellos en representaciones semienteras son
fermionicos. Estos responden con una fase 1 a una rotacion de 2. Por consistencia, no hay estados
fsicos que sean suma coherente de estados bosonicos y fermionicos ya que para estas sumas una
rotacion de 2 no producira solo una fase (regla de superseleccion).

3.6. Representaciones irreducibles de SU(2) y SO(3)

3.6.1. Soluciones del algebra de SU(2)

Buscar irreps de SU(2), siendo conexo y simplemente conexo, equivale a buscar irreps de su
algebra de Lie
[Ji , Jj ] = iijk Jk . (3.100)

43
Como el grupo es compacto, sus irreps son unitarias y de dimension finita. Por tanto buscamos
las tres matrices J mas generales que sean matrices hermticas irreducibles y que satisfagan las
relaciones de conmutacion, y solo nos interesan soluciones inequivalentes.

Primero definimos el operador J 2


3
X
J 2 := J J = Ji2 . (3.101)
i=1

Notese que J 2 no pertenece al algebra de Lie. Puesto que J es un vector, J 2 es un escalar, es decir,
satisface
[Ji , J 2 ] = 0, (3.102)
que tambien se sigue directamente de las relaciones de conmutacion:

[Ji , Jj Jj ] = {Jj , [Ji , Jj ]} = iijk {Jj , Jk } = 0. (3.103)

Por ser J irreducible (por hipotesis) el lema de Schur implica que J 2 toma un valor constante
K en toda la representacion y ademas positivo ya que J 2 0 por J = J :

J 2 = K, K 0. (3.104)

Tambien definimos los operadores escalera

J := J1 iJ2 , J = J . (3.105)

Notese que tampoco pertenecen al algebra ya que no son hermticos. Las relaciones de conmutacion
se puede reexpresar equivalentemente usando J3 y los operadores escalera

[J3 , J ] = J , [J+ , J ] = 2J3 . (3.106)

Otras relaciones utiles son


1
J 2 = (J+ J + J J+ ) + J32 = J J + J3 (J3 1). (3.107)
2

Lema. Si el vector |i es propio de J3 con valor propio m, los vectores J |i son propios de
J3 con valores propios m 1 (de ah el nombre operadores escalera). En efecto,

J3 |i = m|i,
(3.108)
J3 (J |i) = (J J3 + [J3 , J ])|i = (J m J )|i = (m 1)(J |i).

44
J3 es una matriz hermtica, entonces admite una base ortonormal de vectores propios con valores
propios reales. Sea j el valor propio maximo de J3 y |ji un vector propio normalizado

J3 |ji = j|ji J3 j. (3.109)

Por el lema,
J+ |ji = 0, (3.110)
(ya que no hay vectores propios con valor propio j + 1). Ademas

J 2 |ji = j(j + 1)|ji, K = j(j + 1). (3.111)

En efecto, ya que
J 2 |ji = (J J+ + J3 (J3 + 1))|ji = j(j + 1)|ji. (3.112)

Como la representacion es irreducible, usando |ji como pivote se genera todo el espacio al aplicar
repetidamente J . Si se aplica J repetidamente sobre |ji se obtendran vectores propios con valores
propios m = j n, n = 0, 1, 2, . . . , nmax . Si denotamos por |mi a los vectores normalizados

J3 |mi = m|mi, m = j, j 1, j 2, . . . , j , (3.113)

tal que
J |j i = 0 (3.114)
dado que el espacio es de dimension finita.

Hay que comprobar que si aplicamos J+ sobre estos vectores no se generan otros vectores nuevos.
En efecto, usando ec. (3.107),

J+ (J |mi) = (J 2 J3 (J3 1))|mi = (j(j + 1) m(m 1))|mi |mi. (3.115)

En definitiva, {|mi, m = j, j 1, j 2, . . . , j } es una base ortonormal del espacio (no hay otros
valores propios de J3 ni estos estan degenerados).

Por otro lado

j(j + 1)|j i = J 2 |j i = (J+ J + J3 (J3 1))|j i = j (j 1)|j i (3.116)

implica j (j 1) = j(j + 1), con solucion j = j (la otra solucion j = j + 1 esta excluida
por j j). Ademas j j = j implica j 0. Finalmente, m = j, j 1, . . . , j indica que la
dimension del espacio es 2j + 1 = 1, 2, 3, . . ., en consecuencia j = 0, 12 , 1, 32 , 2, . . . Estos son los
unicos valores permitidos para representaciones unitarias irreducibles de SU(2).

45
Denotamos los estados de la base de la irrep j por |jmi. Tenemos

J3 |jmi = m|jmi, J 2 |jmi = j(j + 1)|jmi, m = j, j + 1, . . . , j,


1 3 (3.117)
hjm|jm i = mm , j = 0, , 1, , 2, . . . , dim = 2j + 1.
2 2

Veamos que cada j determina exactamente una irrep inequivalente de SU(2). Al aplicar el
operador J bajando desde |jji y normalizando, se tiene

J |jmi = N (j, m)|j, m 1i, N (j, m) 0. (3.118)

Que la fase sea positiva es una eleccion, es el convenio de Condon-Shortley. Despues de fijar las
fases relativas la unica ambiguedad es una fase global para toda la irrep. La base as elegida es la
base estandar.

Los elementos de matriz N (j, m) estan completamente determinados por las relaciones de con-
mutacion:
kJ |jmik2 = hjm|J+ J |jmi = N (j, m)2
(3.119)
= hjm|(J 2 J3 (J3 1))|jmi = j(j + 1) m(m 1).

Es decir, p
J |jmi = + j(j + 1) m(m 1)|j, m 1i (3.120)
Por otro lado
p
hj, m + 1|J+ |j, mi = hj, m|J |j, m + 1i = j(j + 1) (m + 1)m (3.121)

Finalmente
p p
J |jmi = j(j + 1) m(m 1)|j, m 1i = (j m)(j m + 1)|j, m 1i. (3.122)

En conclusion, la representacion esta unvocamente determinada por j.29

Una vez construidas explcitamente las matrices se puede comprobar que se cumplen las relaciones
de conmutacion, que la representacion es unitaria y que es irreducible. Comprobemos esto ultimo.
29
Es interesante notar que suponiendo solo que la representacion es unitaria y que J3 admite un vector propio ya
se deduce que debe ser de dimension finita: la relacion ec. (3.107) implica que m esta acotado ya que K es fijo y

J J = J J es definido positivo.

46
Aplicando el lema de Schur, supongamos que la matriz A conmuta con J :
0 = hjm |[J3 , A]|jmi = (m m)hjm |A|jmi hjm |A|jmi = am m m ,
A|jmi = am |jmi (A es diagonal)
(3.123)
0 = [J , A]|jmi = (am am1 )N (j, m)|j, m 1i
am = am1 = a, A = a.
A es multiplo de la identidad y la representacion es irreducible.

En SU(2) hay exactamente una irrep por cada dimension.

j = 0 (dim. 1) es la representacion trivial, J = 0, J |i = 0, corresponde a estados invariantes


bajo rotaciones.

j = 1/2 (dim. 2) es la irrep formada por el propio SU(2) (representacion fundamental). Si


se calculan los elementos de matriz con las formulas previas se obtiene
1     
0 0 1 0 0
J3 = 2 , J+ = , J =
0 12 0 0 1 0
 1   (3.124)
0 2 0 2i
J1 = 1 J2 = i .
2
0 2
0
   
1 1 1 1 0
Es decir, J = 2 . Los dos estados | 2 , 2 i se representan tambien = | i y = | i (espn
0 1
hacia arriba y espn hacia abajo).

j = 1 (dim. 3) es la representacion formada por las propias matrices de SO(3),



1 0 0 0 2 0

J3 = 0 0 0 , J+ = J = 0 0 2 . (3.125)
0 0 1 0 0 0

Esta es la misma representacion que en las ecs. (3.37),(3.38) pero en otra base. Los objetos que
caen en esta representacion son vectores bajo rotaciones.

Las representaciones con 2j par/impar son enteras/semienteras, respectivamente. En efecto,


tomando por simplicidad n = e3 (eje z) se tiene

U (e3 , )|jmi = eiJ3 |jmi = eim |jmi,


(3.126)
U (e3 , 2)|jmi = e2im |jmi = (1)2m |jmi = (1)2j |jmi.

47
Es decir, 
2j +1 j entero
U (n, 2) = (1) = (3.127)
1 j semientero

Puesto que la representacion escalar (x) 7 (R1 x) de SO(3) en L2 (R3 ) es univaluada,


se deduce que el operador momento angular orbital L = r p solo tiene valores j = l enteros,
l = 0, 1, 2, . . . As, si tenemos una distribucion de carga electrica, (x) se podra descomponer
(por ejemplo aplicando operadores de proyeccion) en suma de funciones con l definido, (x) =
P
l=0 l (x). Este es el desarrollo multipolar. La componente l = 0 es la contribucion monopolar,
tiene simetra esferica y lleva toda la carga. La componente l = 1 es la contribucion dipolar, el
momento dipolar electrico de la distribucion es un vector (es decir, j = 1). La componente l = 2
lleva el momento cuadrupolar, etc.

De cara a estudiar otros grupos es interesante notar que lo que se ha hecho es usar J 2 , J3 como
conjunto completo de operadores compatibles para clasificar los estados. Esto se basa en la
cadena canonica
SU(2) U(1), o SO(3) SO(2), (3.128)
donde SO(2) esta generado por J3 . Esta cadena es canonica porque J3 = diag(j, j 1, . . . , j) y
todos los autovalores (cada valor m es una irrep de SO(2)) son distintos.

J 2 es un ejemplo de operador de Casimir. Para un algebra de Lie cualquiera, los operadores


de Casimir son operadores de su algebra envolvente universal30 que sean invariantes (es decir, que
conmuten con todos los generadores) e independientes.31 Para algebras semisimples el numero de
operadores de Casimir coincide con su rango: el rango es el numero de generadores que con conmutan
entre s. SU(2) es un grupo de rango 1 ya que solo un generador, por ejemplo J3 , se puede incluir
en el conjunto completo de operadores compatibles.

3.6.2. Matrices de las representaciones irreducibles de SU(2) y SO(3)

Las matrices de representacion del grupo se pueden obtener mediante



U (n, ) = eiJ , U ()|jmi = Dj ()m m |jm i, (3.129)
calculando la exponencial de la matriz n J , pero es mas practico usar los angulos de Euler
U (, , ) = eiJ3 eiJ2 eiJ3 . (3.130)
30
El algebra envolvente universal es el conjunto de polinomios construidos con los generadores.
31
Independientes quiere decir solo se consideran de Casimir los bloques basicos a partir de los cuales se forman
todos los demas operadores invariantes.

48
En la base estandar

U (, , )|jmi = eim dj ()m m eim |jm i, dj ()m m = hjm |eiJ2 |jmi. (3.131)

Por ejemplo, para j = 12 ,


 
1
i2 /2 cos( 2 ) sen( 2 )
d () = e
2 = cos( ) i2 sen( ) = ,
2 2 sen( 2 ) cos( 2 )
 i(+)/2  (3.132)
1 e cos( 2 ) ei()/2 sen( 2 )
D (, , ) =
2 .
ei()/2 sen( 2 ) ei(+)/2 cos( 2 )

3.7. Serie de Clebsch-Gordan de SU(2)

3.7.1. Suma de momentos angulares

Si V y V son dos espacios con irreps y de un grupo


a
MM M
V V = V a V (Serie de Clebsch-Gordan), (3.133)
=1

donde a = h|, i es la multiplicidad de la irrep al reducir . Correspondientemente, para


caracteres X
(g) (g) = h|, i (g). (3.134)

La descomposicion queda unvocamente determinada ya que los caracteres forman una base ortogonal
en el espacio de clases de conjugacion.

En el caso de SU(2) el angulo determina la clase de conjugacion, ya que


1 1
U1 eiJ U11 = eiU1 JU1 = ei(R1 J)
= ei(R1 )J . (3.135)

Cambiando R1 se puede obtener cualquier otra rotacion con igual angulo de rotacion y distinto
eje. Por conveniencia, para calcular los caracteres elegimos rotaciones segun el eje z,
j
X sen((j + 12 ))
j j
() = trD (e3 , ) = eim = , (3.136)
m=j
sen( 21 )

49
b
X xb+1 xa xb+1/2 xa1/2
donde se ha usado la identidad xn = = .
n=a
x1 x1/2 x1/2

Veamos que
j1 +j2
M
j1 j2
V V = Vj (Serie de Clebsch-Gordan de SU(2)), (3.137)
j=|j1 j2 |

es decir, en la reduccion de j1 j2
j = jmn , jmn + 1, . . . , jmax , jmn = |j1 j2 |, jmax = j1 + j2 , (3.138)
y cada irrep j de la serie aparece exactamente una vez. En total 2 mn(j1 , j2 ) + 1 irreps. Como puede
comprobarse
j1 +j2
X
(2j1 + 1)(2j2 + 1) = (2j + 1). (3.139)
j=|j1 j2 |

Para comprobar esto basta verlo a nivel de caracteres. Como la serie de C-G es simetrica, podemos
suponer j1 j2
jmax P i(j+ 1 )
X je
2
1 1
ei 2 (ei(jmax + 2 ) ei(jmn 2 ) )
j
() = Im = Im
sen( 2 )

j=jmn sen( 2 )(ei 2 ei 2 )
ei(j1 +j2 +1) ei(j1 j2 ) cos((j1 + j2 + 1)) cos((j1 j2 )) (3.140)
= Im
=
sen( 2 ) 2i sen( 2 ) 2 sen2 ( 2 )
sen((j1 + 21 )) sen((j2 + 21 ))
= = j1 ()j2 ().
sen( 2 ) sen( 2 )
En el ultimo paso se ha usado la identidad cos( + ) cos( ) = 2 sen() sen(). La relacion
en ec. (3.139) corresponde al caso particular = 0.

Un caso especial interesante es


(j1 = 1) (j2 = 1) = (j = 0) (j = 1) (j = 2), 3 3 = 1 + 3 + 5. (3.141)
Indica que multiplicando dos vectores se puede construir un escalar y un vector (el producto escalar
y el producto vectorial) y otro objeto con j = 2, que es un tensor de rango 2 sin traza (5 grados de
libertad)
1 1 1 2
Ai B j = ij AB + ijk (A B)k + (Ai B j + Aj B i ij AB). (3.142)
3 2 2 3
50
3.7.2. Coeficientes de Clebsch-Gordan

Notemos que el generador de SU(2) en V j1 V j2 es

Jtot = J1 1 + 1 J2 J1 + J2 (Momento angular total). (3.143)

La serie de C-G tambien se puede obtener contando estados. Si |j1 , m1 i y |j2 , m2 i son bases
estandar de V j1 y V j2 (unicas salvo fase global), su producto directo

|j1 , m1 i |j2 , m2 i (base desacoplada), (3.144)

es una base de V j1 V j2 denominada base desacoplada. El numero de estados en V j1 V j2 es


(2j1 + 1)(2j2 + 1).

Para estudiar la reduccion notemos que los estados desacoplados son propios de J3tot con valor
propio m = m1 + m2 ,

J3tot |j1 , m1 i|j2 , m2 i = (J1 )3 +(J2 )3 |j1 , m1 i|j2 , m2 i = (m1 +m2 )|j1 , m1 i|j2 , m2 i. (3.145)

Veamos un ejemplo con j1 = 1, j2 = 32 . En la tabla se recogen los valores de m = m1 + m2 por


cada estado de la base desacoplada

m2
m = m1 + m2 3/2 1/2 1/2 3/2
1 1/2 1/2 3/2 5/2
m1 0 3/2 1/2 1/2 3/2
1 5/2 3/2 1/2 1/2

El estado con m maximo tiene m = 5/2 y este valor es unico. Se deduce que en el espacio
producto no hay valores de j > 5/2 y ademas el valor j = 5/2 aparece exactamente una vez.
Esa entrada en la tabla corresponde a un estado |j = 5/2, m = 5/2i. Por tanto hay un estado
|j = 5/2, m = 3/2i que corresponde a cierta combinacion lineal de las dos entradas 3/2. Este
estado se obtienen aplicando J al m = 5/2. La combinacion ortogonal a esta debe corresponder
a |j = 3/2, m = 3/2i (m = 3/2 implica j 3/2 pero ya no hay mas estados con j = 5/2).
Igualmente hay tres estados con m = 1/2, una combinacion de ellos es |j = 5/2, m = 1/2i y otra
(ortogonal) sera |j = 3/2, m = 1/2i. Entonces la tercera combinacion ortogonal a las otras dos

51
sera |j = 1/2, m = 1/2i. Y esto ya da cuenta de los valores con m negativo:
m = 25 |j = 5
2
,m = 25 i
m = 23 |j = 5
2
,m = 23 i, |j = 32 , m = 23 i
m = 21 |j = 5
2
,m = 21 i, |j = 32 , m = 21 i, |j = 12 , m = 12 i
(3.146)
m = 21 |j = 5
2
,m = 21 i, |j = 32 , m = 21 i, |j = 12 , m = 12 i
m = 23 |j = 5
2
,m = 23 i, |j = 32 , m = 23 i
m = 25 |j = 5
2
,m = 25 i
Implica
(j1 = 1) (j2 = 3/2) = (j = 1/2) (j = 3/2) (j = 5/2)
(3.147)
3 4 = 2 + 4 + 6.

Los estados |jmi forman la base acoplada de V j1 V j2 .

Para un grupo cualquiera (compacto) los coeficientes de Clebsch-Gordan relacionan las bases
acoplada y desacoplada
X
|ki = (ij|k) |, ii |, ji
i,j
X (3.148)
|, ii |, ji = (k|ij) |ki.
,,k

distingue entre las h|, i copias de la irrep en la serie de C-G de .32

En particular para SU(2) no hace falta la etiqueta ya que la multiplicidad es cero o uno (SU(2)
es un grupo simplemente reducible),
X
|j1 j2 ; j, mi = C(j1 , j2 , j; m1 , m2 , m) |j1 , m1 i |j2 , m2 i,
m1 ,m2
X (3.149)
|j1 , m1 i |j2 , m2 i = C(j1 , j2 , j; m1 , m2 , m) |j1 , j2 ; j, mi.
j,m

Los coeficientes de Clebsch-Gordan de SU(2) son reales y ortogonales. Las sumas indicadas toman
sus recorridos naturales ya que el coeficiente se anula en otro caso por definicion (por ejemplo, si
m 6= m1 + m2 ).
32
Cuando las dos bases son ortonormales la matriz de cambio de base es unitaria y por tanto (ij|k) =
(k|ij) .

52
Los coeficientes de C-G se pueden calcular explcitamente usando operadores escalera y ortogo-
nalidad. Veamos un ejemplo para j1 = j2 = 1/2, j = 0, 1. Dos partculas de espn 12 acopladas a
j = 0 estan en estado singlete de espn, y acopladas a j = 1 en estado triplete.

m2
m = m1 + m2 1/2 1/2
1/2 0 1
m1
1/2 1 0

En primer lugar
| 21 , 21 i | 12 , 21 i = | 21 , 21 ; 1, 1i . (3.150)
Construimos el estado | 12 , 21 ; 1, 0i aplicando los operadores escalera. Usamos

J | 12 , 12 i = | 21 , 12 i, J | 12 , 12 i = 0, J |1, 1i = 2|1, 0i, Jtot = J1 + J2 . (3.151)

Entonces

Jtot | 12 , 21 ; 1, 1i = 2| 21 , 12 ; 1, 0i
(3.152)
= (J1 + J2 )| 21 , 21 i | 21 , 12 i = | 21 , 12 i | 21 , 21 i + | 21 , 21 i | 12 , 21 i

Es decir,
1 
| 21 , 21 ; 1, 0i = | 21 , 21 i | 21 , 12 i + | 21 , 12 i | 21 , 12 i (3.153)
2
Aplicando de nuevo Jtot se obtiene

| 21 , 21 ; 1, 1i = | 21 , 12 i | 21 , 12 i. (3.154)

El estado con j = 0, | 12 21 , 00i, se obtiene por ortogonalidad con | 12 , 12 ; 1, 0i,


1 
| 21 , 21 ; 0, 0i = | 21 , 21 i | 21 , 12 i | 21 , 12 i | 12 , 21 i . (3.155)
2

Al reducir el espacio, por cada nuevo valor de j hay una ambiguedad de fase que generalmente
se fija con el convenio
C(j1 , j2 , j; j1 , j j1 , j) > 0 . (3.156)
Es decir, en el desarrollo de |j1 , j2 ; j, ji en la base desacoplada, el coeficiente del estado |j1 , j1 i
|j2 , j j1 i debe ser real y positivo. Siguiendo este convenio en el caso anterior el signo de | 12 , 21 ; 0, 0i
se ha tomado de modo que la componente de | 12 , 12 i | 21 , 12 i sea positiva.

53
Usando la notacion frecuente | i | 12 , 21 i, | i | 12 , 12 i, las relaciones anteriores quedaran
1
|1, 1i = | i, |1, 0i = (| i + | i), |1, 1i = | i, (triplete)
2
(3.157)
1
|0, 0i = (| i | i), (singlete)
2

3.8. Armonicos esfericos

Como ya se ha dicho, el grupo SO(3) actua en H = L2 (R3 ) mediante (x) 7 (R1 x) y


las rotaciones estan generadas por el operador momento angular orbital L = r p que solo toma
valores enteros l = 0, 1, 2, . . ., es decir,

M 
H= Hl , Hl = (x), L2 |i = l(l + 1)|i . (3.158)
l=0

Cada uno de estos espacios Hl es reducible, es la suma directa de infinitos espacios mnimos
de tipo l, por ejemplo, Hl=0 es el espacio de todas las funciones radiales (x) = f (r). Una forma
practica de proceder es usar coordenadas esfericas, (r, , ) o equivalentemente (r, x), siendo
x
r = kxk, x = . (3.159)
r
Por separacion de variables las funciones se pueden escribir en la forma
X
(x) = R (r)A (x). (3.160)

Las rotaciones solo actuan en sobre la parte angular. De hecho los operadores Lz y L2 se pueden
escribir en coordenadas esfericas como
2 1 1 2
Lz = i , L = sen , (3.161)
sen sen2 2
y la coordenada radial no interviene (igualmente para Lx,y ).

Se tiene entonces que el espacio de funciones se puede ver como un producto tensorial de
funciones radiales y funciones angulares

H = HR HA , (3.162)

54
y las rotaciones son la identidad en el primer espacio. El producto escalar de L2 (R3 ) tiene la forma
Z Z Z
2 3 2 2
kk = d x |(x)| = drr d |(r, x)|2 , (3.163)
0 S2

por tanto los productos escalares en HR y HA se pueden elegir como


Z Z Z 2 Z
2 2 2 2 2
kRk = drr |R(r)| , kAk = d |A(x)| = d d sen |A(x)|2 . (3.164)
0 S2 0 0

2
HA se puede ver como el espacio
L de funciones definidas sobre la esfera unitaria S . Este espacio
se reduce bajo rotaciones HA = l=0 HA,l , y cada HA,l ya es mnimo. Equivalentemente, L2 y Lz
forman un conjunto completo para HA . En el caso de H hay que anadir otro operador escalar bajo
rotaciones, tal como P 2 , para tener un conjunto completo de operadores compatibles.

Las funciones propias normalizadas de L2 y Lz en HA se denominan armonicos esfericos,


Ylm (x),
L2 Ylm (x) = l(l + 1)Ylm (x)
, m = l, l 1, . . . , l, l = 0, 1, 2, . . . (3.165)
Lz Ylm (x) = mYlm (x)
Los armonicos esfericos de orden mas bajo son
r r r
1 3 3
Y0,0 = , Y1,0 = cos , Y1,1 = sen ei . (3.166)
4 4 8
Los armonicos esfericos forman una base ortonormal de las funciones angulares. Ademas, para un l
dado, los Ylm forman una base estandar de HA,l . Esta condicion determina los Ylm de forma unica
salvo por una fase relativa entre distintos valores de l. El convenio que se usa es Yl,0 (0, 0) > 0.

Una funcion cualquiera de L2 (R3 ) se puede escribir en la forma


X
X l Z

(x) = Rlm (r)Ylm (x), Rlm (r) = d Ylm (x) (x). (3.167)
l=0 m=l S2

Si se elige una base Rn (r) en el espacio de funciones radiales, HR ,


X l
X X
(x) = nlm Rn (r)Ylm (x). (3.168)
l=0 m=l n

En la practica es frecuente tomar una base radial distinta para cada valor de l, Rnl (r).

55
4. Grupo de Poincare

4.1. Transformaciones de Lorentz

Cada evento espacio-temporal tiene una coordenada (t, x) R4 (espacio-tiempo) para un


observador inercial dado A. Para un observador B que se mueva con una velocidad relativa v, en la
teora no relativista las coordenadas (t , x ) estaran relacionadas mediante

x = Rx + vt + a, t = t + (transformacion de Galileo) (4.1)

(R es una rotacion y tambien permitimos una traslacion en tiempo y espacio) de modo que la
posicion de B, (t , x = 0) en su propio sistema, vista en A es

(t , x = 0), x = v(t ) + a (4.2)

que expresa que B se mueve con velocidad v (dx/dt = v).

La transformacion indicada en ec. (4.1) es una transformacion de Galileo. Forman el grupo


de Galileo y la ley de composicion de velocidades es simplemente

v12 = v1 + v2 . (4.3)

(t,x=0) (t,x=0) (t,x=0)


(t,x=0)
x=ct

t (t=0,x)
t
t
t x
(t=0,x)
(t=0,x)
x x (t=0,x) x

Figura 5: Transformaciones galileanas (izquierda) y relativistas (derecha).

56
Para simplificar, vamos a considerar 1 + 1 dimensiones y a = = 0, es decir, elegimos el origen
de coordenadas de modo que coinciden en los dos sistemas (ver Fig. 5)
x = x + vt , t = t . (4.4)
Esta relacion no es compatible con el postulado de la invariancia de la velocidad de la luz en cualquier
sistema inercial. Para ello hay que permitir que el tiempo no sea absoluto, t 6= t :
x = ax + bt , t = ex + f t . (4.5)
Podemos suponer a > 0 (los dos observadores eligen igualmente orientadas la coordenada x) y
f > 0 (los dos relojes avanzan en el tiempo). Ahora podemos imponer la condicion de que una
senal luminosa se mueva con velocidad c en ambos sistemas hacia la derecha o hacia la izquierda,
y tambien que A vea a B moverse con velocidad v
x = ct x = ct , x = ct x = ct , x = 0 x = vt . (4.6)
Al imponer estas tres condiciones sobre los parametros a, b, e, f en (4.5) solo queda un parametro
libre y la transformacion se puede escribir
( (
x = (x + vt ) x = 1 (x vt)
v v (1 v 2 /c2 )1/2 , > 0 . (4.7)
t = (t + 2 x ) t = 1 (t 2 x)
c c
Implica |v| < c ( > 1). Segun estas relaciones el observador A ve el reloj de B (x = 0) cambiando
a un ritmo dt /dt = 1 1 , B el de A (x = 0) a un ritmo dt/dt = 1 . Para que ambos
observadores sean equivalentes (no haya observadores inerciales privilegiados) se requiere = 1.
As se obtienen las transformaciones de Lorentz:
( (
x = (x + vt ) x = (x vt)
v v (1 v 2 /c2 )1/2 . (4.8)
t = (t + 2 x ) t = (t 2 x)
c c

Es conveniente usar coordenadas homogeneas para espacio y tiempo, por lo que se usa ct en vez
de t, as, en forma matricial
          
ct v ct ct v ct
= , = . (4.9)
x v x x v x
Notese que estas matrices no son unitarias. Componiendo dos transformaciones sucesivas se obtiene
la ley relativista de suma de velocidades
    
12 12 v12 1 1 v1 2 2 v2 v1 + v2
= , v12 = v1 v2 . (4.10)
12 v12 12 1 v1 1 2 v2 2 1+ 2
c
57
Se deduce que v no es una coordenada canonica, la coordenada canonica es = tanh1 (v/c), de
modo que 12 = 1 + 2 .

Mas generalmente, en 3 + 1 dimensiones, descomponiendo x y x segun la direccion de v,


x = xk + x , x = xk + x ,
v (4.11)
xk = (xk + vt ), x = x , t = (t + x ).
c2
Esta transformacion es un boost de velocidad v (o transformacion de Lorentz pura).

Los boosts conservan el intervalo


v
s2 x2 c2 t2 = 2 (xk + vt )2 + x 2 c2 2 (t + x )2 = x2 c2 t2 . (4.12)
c2
El intervalo tambien es conservado por las rotaciones
(t, x) 7 (t, Rx). (4.13)

4.2. Grupo de Lorentz

Usamos la notacion
x R4 , x = (ct, x), = 0, 1, 2, 3 . (4.14)
El intervalo puede escribirse como
s2 = (x0 )2 + x2 = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2 g x x ,
(4.15)
g diag(1, +1, +1, +1).
El tensor g es la metrica de Minkowski. En la literatura tambien se usa con mucha frecuencia
la signatura (+, , , ). R4 con la metrica de Minkowski es el espacio de Minkowski,

x y = g x y = x y x0 y 0 , kxk2 x2 = g x x . (4.16)

Por definicion el grupo de Lorentz, L, son las transformaciones lineales (en realidad no hay
otras) que dejan invariante el intervalo, o equivalentemente el producto escalar, o la metrica.33 Si
representamos una transformacion lineal en el espacio de Minkowski mediante
x = x, x = x , (4.17)
33
La conservacion de la norma equivale a la conservacion del producto escalar, por kx + yk2 kx yk2 = 4x y.

58
la conservacion del producto escalar implica

x y = g x y = x y = g x y = g x y , (4.18)

es decir,
L g = g , (4.19)
o en notacion matricial

(G) g () G = T G . (4.20)

As

L = O(3, 1) = {, matrices reales 4 4, G = T G} (grupo de Lorentz) (4.21)

sus elementos se denominan transformaciones de Lorentz. Es inmediato comprobar partiendo de


su definicion que este conjunto forma un grupo: si 1 , 2 son de Lorentz, 1 2 y 1
1 tambien.
34
El
conjunto O(3, 1) es un grupo de matrices pseudo ortogonales 4 4 y tiene dimension 6. O(3, 1) es
una extension del grupo de rotaciones SO(3) (para SO(3) la metrica es (G3 )ij = ij , i, j = 1, 2, 3,
de modo que la condicion G3 = RT G3 R, equivale a RT R = 1).

4.3. Metricas y aplicaciones lineales

Hay que notar que en un espacio V de dimension n, las aplicaciones lineales, Ai j , y las metricas
gij se pueden representar mediante matrices n n, pero son objetos geometricamente distintos y
se transforman de modo distinto bajo cambios de base. Sea U un cambio de base

ei = U j i ej , x = xi ei = xi U j i ej = xj ej , xj = U j i xi , xi = (U 1 )i j xj (4.22)

matricialmente

x = U x , x = U 1 x (4.23)

siendo U una matriz nn y x, x matrices n1 (matrices columna). Losndices que se transforman


como i en ei se denominan ndices covariantes, los que se transforman como i en xi se denominan
ndices contravariantes. Se suelen poner abajo y arriba, respectivamente.

Si A es una aplicacion lineal, Ax = y,

Aei = Aj i ej , y = A(xi ei ) = xi Aj i ej , y j = Aj i xi , y = Ax, (4.24)


34
Equivalentemente, 1 1
2 L. En general, un subconjunto H de un grupo G es subgrupo sii HH
1
H.

59
al cambiar de base

y = U 1 y = U 1 Ax = U 1 AU x A x , A = U 1 AU, Ai j = (U 1 )i k Ak l U l j . (4.25)

Si G es una metrica, x y = gij xi y j xT Gy, al cambiar de base

x y = xT G y = x y = xT Gy = (U x )T GU y ,
(4.26)
G = U T GU, gij = (U T )i k gkl U l j = U k i gkl U l j .

Con una metrica no singular se puede asociar un vector covariante (una 1-forma del espacio dual

V ) a cada vector de V (vectores contravariantes):

g ij (G1 )ij , g ij gjk = ki , xi gij xj , xi = g ij xj . (4.27)

Bajo un cambio de base xi se transforma covariantemente

xi = gij xj = U k j gkl U l j (U 1 )j m xm = U k j gkl xl = U k j xk . (4.28)

g ij y gij se pueden usar para subir y bajar ndices en tensores, en particular, la propia metrica

g ij = g ik gkl g lj , g i j = g ik gkj = ji . (4.29)

Notese que ji (aplicacion lineal) es un tensor invariante, en cambio ij (metrica) no es invariante


bajo cambios de base arbitrarios. Igualmente si en una base Tij = ij ello no implica que T i j = ji .

Para su identificacion como matrices, cual es el primerndice y cual es el segundondice es siempre


importante (exceptuando el caso de matrices simetricas o antisimetricas). Si ademas la metrica no
es ij , tambien importa si el ndice es covariante o contravariante, de cara a su transformacion bajo
cambios de base. As T ij , T ji , T i j , etc, son en general distintos objetos.

Un ndice covariante se puede contraer con uno contravariante y los papeles se pueden inter-
cambiar:

T ijk Sjk = T i j k S j k = T i jk S jk . (4.30)

Y tambien se pueden pasar de contravariante a covariante (y viceversa) a los dos lados de una
ecuacion tensorial:

V i = T ij S j , Vi = Tij S j . (4.31)

60
4.4. Estructura del grupo de Lorentz

En relatividad, en un sistema inercial, la metrica es g = diag(, +, +, +) = g , de modo que

x = (x0 , x), x y = g x y = x y = x y , (4.32)

y bajo una transformacion de Lorentz

x 7 x = g x = (g g )x = (1 ) x x , GG1 = T 1 . (4.33)

Por definicion de transformacion de Lorentz g es invariante



g = g = g . (4.34)

Los elementos del grupo de Lorentz se dividen en dos clases disconexas, L , segun det sea
positivo o negativo:

G = T G det(G) = det(G) det()2 det = 1 , (4.35)

y tambien en dos clases L, segun se conserve o no el sentido del tiempo (transformaciones


ortocronas o antiortocronas):
3
X
0 2
g00 = g 0 0 1 = ( 0 ) + (i 0 )2 0 0 1 o 0 0 1 . (4.36)
i=1

En total O(3, 1) tiene cuatro componentes conexas

L = L+ L L+ L . (4.37)

L contiene las transformaciones ortocronas con inversion espacial, en particular la transformacion


de paridad
(x0 , x) 7 (x0 , x), P = diag(1, 1, 1, 1) L . (4.38)
L contiene las transformaciones antiortocronas sin inversion espacial, en particular inversion tem-
poral
(x0 , x) 7 (x0 , x), T = diag(1, +1, +1, +1) L . (4.39)

61
L+ es el grupo propio ortocrono de Lorentz y es el que vamos a considerar en lo que sigue.
Este grupo es doblemente conexo (al igual que su subgrupo SO(3)), no compacto (las transforma-
ciones de Lorentz puras no son matrices unitarias, ni equivalentes a unitarias en R4 ). Su recubridor
universal es SL(2, C).

El grupo L+ contiene rotaciones (parametrizadas por ) y boosts (parametrizados por v) en


total 3 + 3 = 6 parametros, as como productos de ambos.

Los boosts son de la forma dada en ec. (4.11) y estan caracterizados por su accion sobre (1, 0),
   
1
B(v) = , = (1 v 2 /c2 )1/2 . (4.40)
0 v/c

Las rotaciones (relativas a un observador) se definen como las transformaciones que dejan (1, 0)
invariante, y forman un subgrupo isomorfo a SO(3)
    
1 1
R L+ , R = = SO(3). (4.41)
0 0
 
1 0
Las rotaciones son de la forma , de modo que (x0 , x) 7 (x0 , Rx). Las rotaciones no son
0 R
un subgrupo invariante, esto se debe a que el vector (1, 0) es distinto para cada observador.

Los boosts relativistas (a diferencia de los galileanos) no forman un subgrupo: el producto de


dos boosts contiene una rotacion, a menos que las velocidades de los boosts sean paralelas. Los
boosts se pueden considerar como representantes canonicos del espacio cociente L+ /SO(3) (no es
un grupo cociente porque las rotaciones no forman un subgrupo invariante).

Todas las transformaciones de L+ se pueden escribir unvocamente en la forma

= BR, (4.42)

donde R es una rotacion y B un boost. En efecto, aplicando sobre (1, 0)


   0  
1 x v x
= , = 0 , x0 = por 1 = x2 (x0 )2 , x0 > 0. (4.43)
0 x v/c c x
Esta v define unvocamente el boost B. Ahora
     
1 1 1 1
B =B = (4.44)
0 v/c 0

62
implica que B 1 = R es efectivamente una rotacion. Tambien es inmediato que

RB(v)R1 = B(Rv) = B(v)R = RB(R1 v). (4.45)

4.5. Grupo de Poincare

Si se consideran transformaciones que dejen invariante el intervalo entre dos sucesos x1 y x2

s2 = (x1 x2 )2 , (4.46)

se obtiene el grupo inhomogeneo de Lorentz o grupo de Poincare, P = IO(3, 1):

(, a) P L, a R4 , x 7 x = x + a, x = x + a . (4.47)

Incluye traslaciones espaciales y temporales ademas de transformaciones de Lorentz. La ley de


composicion se obtiene inmediatamente haciendo dos transformaciones de Poincare sucesivas

(12 , a12 ) = (1 2 , a1 + 1 a2 ). (4.48)

Matematicamente, el grupo de Poincare tiene estructura de producto semidirecto de traslaciones y


Lorentz, IO(3, 1) = T 4 s O(3, 1).35 El grupo de Poincare tiene 6 + 4 = 10 parametros.

4.5.1. Tipos de intervalo

Si s2 < 0, el intervalo es de tipo tiempo. Existe un sistema de referencia


en el que x1 = x2
(los dos eventos estan en el mismo sitio pero a distintos tiempos) y c = s2 = |x01 x02 |, es el
tiempo propio, el tiempo medido por un observador en reposo en ese sistema. As en la paradoja
de los gemelos (ver Fig 6)
p p p p
c1 = (2ct)2 = 2ct, c2 = (ct)2 (vt)2 + (ct)2 (vt)2 = 2ct 1 v 2 /c2 < 2ct.
(4.49)

Si s2 > 0, el intervalo es tipoespacio. Existe un sistema de referencia en el que ambos sucesos


son simultaneos, t1 = t2 , y d = s2 = |x1 x2 | es la distancia entre ambos.

Si s2 = 0, el intervalo es de tipo luz. En este caso x1 y x2 se pueden conectar por una senal
luminosa que parta de x1 y llegue a x2 (si t1 < t2 ) o al reves.
35
Que un grupo G tenga estructura de producto semidirecto N s H quiere decir que N es un subgrupo invariante
de G, H un subgrupo y G = N H con N H = {e} (implica G/N = H).

63
t
(2t,0)
x=ct
(2)

(1) (t,vt)

Figura 6: Paradoja de los gemelos: el tiempo propio a lo largo del camino 2 es menor que siguiendo
el camino 1.

Para intervalos de tipo tiempo o luz, la ordenacion temporal, es decir, el signo de x01 x02 , es un
invariante bajo transformaciones ortocronas, L , en cambio si el intervalo es tipo espacio el signo de
x01 x02 depende del sistema de referencia.

Es interesante notar que el conjunto de transformaciones que deja invariante la condicion (x1
x2 ) = 0 (pero no necesariamente (x1 x2 )2 cuando este intervalo no es cero) es bastante mayor
2

que el grupo de Poincare, estas transformaciones forman el grupo conforme, de dimension 15, e
incluye dilataciones ( 6= 1 en ec. (4.7)) as como transformaciones conformes especiales que son
no lineales [1].

4.6. Algebra de Lie del grupo de Poincare

4.6.1. Algebra de Lorentz

Consideremos una transformacion de Lorentz infinitesimal

= g . (4.50)

Para que sea de Lorentz debe conservar la metrica y eso impone condiciones sobre los 16 parametros

64
infinitesimales ,

g = (g )g (g ) = g g g
(4.51)
= , o = .

Como es antisimetrico el numero de parametros independientes es 6, que es la dimension del


grupo. Se puede proceder a identificar los 6 parametros independientes ( y v), lo cual rompe
invariancia Lorentz explcita, o bien trabajar con (coordenadas canonicas asociadas a )
como tensor antisimetrico para mantener la invariancia Lorentz en forma manifiesta. De momento
lo hacemos as.

El convenio usual en la definicion de los generadores de Lorentz es (unidades ~ = 1)


i
U () = e 2 J , J = J . (4.52)

Hay solo 6 generadores independientes.

Para obtener el algebra de Lorentz se puede usar la propia representacion matricial que
define el grupo. En este caso J son 16 matrices 4 4 (una matriz por cada eleccion de y ).
i
= g = (U ) = (1) (J ) ,
2
1 (4.53)
= g g = (g g g g )
2
(J ) = i(g g g g ).

De aqu se obtienen las relaciones de conmutacion (que no dependen de la representacion usada)

[J , J ] = i(g J g J g J + g J ). (4.54)

Equivalentemente, s representan ndices distintos, las relaciones son

[J , J ] = iJ (no hay suma sobre )



, , , distintos (4.55)
[J , J ] = 0.

En realidad las relaciones de conmutacion (4.54) son validas para cualquier grupo O(n) u O(n, m)
ya que no se han usado propiedades especiales de la metrica.

65
4.6.2. Algebra de Poincare

Para el grupo de Poincare el convenio que define los generadores de las traslaciones espacio-
temporales P es
i
U (, a) = eia P e 2 J , J = J . (4.56)

Las relaciones de conmutacion entre J ya las tenemos, nos falta [P, J] y [P, P ]. El metodo de antes
no se puede usar de forma directa porque la accion de (, a) en R4 no es lineal sino afn:

(, a)x = x + a. (4.57)

Una opcion es reducir esto a una accion lineal en R5


    
a x x + a
= (matrices 5 5). (4.58)
0 1 1 1

Los elementos de matriz de (J ) (, = 0, 1, 2, 3) son los mismos de antes, (P ) 4 = ig ,


y los demas elementos de matriz se anulan.

Alternativamente, podemos usar la representacion de funciones escalares (x) en C(R4 ) (ec.


(2.58)):

(x) = (1 (x a)). (4.59)

Para una transformacion infinitesimal


(x) = (x + x a) = (1 a + x )(x)
i (4.60)
= (ia P J ).
2
Simetrizando e identificando P y J con los operadores diferenciales, se obtiene, en esta repre-
sentacion

P = i , J = i(x x ) = x P x P . (4.61)

Usando las propiedades

[ , x ] = g , [x , x ] = [ , ] = 0 (4.62)

66
as como ec. (3.59), para [J, J] se obtiene el resultado ya conocido (algebra de Lorentz) y

[J , P ] = i(g P g P ), [P , P ] = 0 . (4.63)

Observaciones:

1) El algebra de no depende de la representacion usada.

2) La representacion en C(R4 ) (o L2 (R4 )) se ha usado aqu unicamente para obtener una


representacion fiel del grupo de Poincare. Esta representacion no es la que aparecera en mecanica
cuantica de una partcula relativista sin espn, por ejemplo. Ah el espacio de Hilbert sera L2 (R3 ).
En mecanica cuantica (x, t) puede R estar localizada en una zona del espacio R3 pero no localizada
en un intervalo temporal ya que d x|(x, t)|2 = 1 Rtodo el tiempo, en cambio una funcion de
3

L2 (R4 ) estara localizada tambien temporalmente, por d4 x |(x)|2 < +. O tambien, se ve que
en la representacion obtenida [P 0 , x] = 0, lo cual no es cierto en el caso cuantico (x no es una
constante de movimiento).

3) El operador x existe en la representacion en L2 (R4 ) pero no pertenece al algebra del grupo,


y por tanto no tiene que estar definido en otras representaciones del grupo. Por ejemplo, en una
representacion matricial (como la definida en ec. (4.58), de dimension 5) nunca pueden hallarse
operadores que satisfagan [x , P ] = ig , ya que, por ejemplo para = = 0, la traza de la
matriz de la derecha no es cero y la de la izquierda s, por ser un conmutador de matrices.

Por inspeccion del algebra de Poincare se sigue que J forma una subalgebra y genera un
subgrupo (el grupo de Lorentz) y P forma un ideal y en consecuencia genera un subgrupo invariante
abeliano, el de las traslaciones. Que sea invariante quiere decir que una traslacion sigue siendo una
traslacion para cualquier otro observador transformado Poincare (en cambio un transformacion de
Lorentz se vera como Lorentz mas traslacion para otros observadores).

Por las relaciones de conmutacion, bajo una transformacion de Lorentz infinitesimal


i
P 7 U ()P U 1 () = P [ J , P ]
2 (4.64)
P = i (i)g P = P = P .

Esta transformacion corresponde a un cuadrivector Lorentz (a nivel infinitesimal), es decir,

P 7 P + P = (g + )P = (1 ) P . (4.65)

67
Aplicando la transformacion infinitesimal repetidamente se obtiene el resultado finito

P 7 U ()P U 1 () = (1 ) P . (4.66)

Igualmente, se deduce

J 7 U ()J U 1 () = (1 ) (1 ) J , (4.67)

que es la ley de transformacion de un tensor Lorentz (dos veces contravariante).

Como ya se observo para rotaciones, los operadores se transforman al reves que las coordenadas,
P 7 (1 ) P frente x 7 x . Ambas transformaciones son consistentes (y no lo seran al

reves):
x 7 x = 2 x 7 x = 1 x = 1 2 x = 12 x,
2 1
(4.68)
P 7 U2 P U21 = 1 1 1 1 1 1 1 1
2 P 7 U1 (2 P )U1 = 2 (U1 P U1 ) = 2 1 P = (12 ) P.
2 1

4.7. Algebra de Poincare en la base espacio-temporal

El algebra de Poincare tambien puede escribirse en la base adaptada a las coordenadas (ro-
taciones), v (boosts), (traslaciones temporales) y a (traslaciones espaciales), con generadores
asociados J (momento angular), K (generador de los boosts), H (hamiltoniano) y P (momento
lineal). Para una transformacion de Poincare infinitesimal,
1
U = eiX , X = a P + J
2 (4.69)
= H + a P + v K + J .

Veamos primero la relacion entre los dos conjuntos de coordenadas. Usamos


1
r = a + vt + r, t = + v r, (4.70)
c2
a comparar con

x = a x , (4.71)

teniendo en cuenta que x = (ct, r). Particularizando para = i se obtiene

xi = ai i 0 ct i j xj , (4.72)

68
que implica

(a)i = ai , (v)i = i 0 c = c0i ,


1 (4.73)
ikj k xj = i j xj ij = ijk k , k = ijk ij .
2
Si se toma = 0 se obtiene

ct = a0 0 i xi a0 = c. (4.74)

Para los generadores


1 1 1
X = a P + J = c P 0 + ai P i + v i J 0i + ijk k J jk , (4.75)
2 c 2
que implica
1 1
P 0 = H, P i = (P )i , J 0i = cK i , J k = ijk J ij , J ij = ijk J k . (4.76)
c 2

Cambiando de variables podemos reexpresar el algebra de Poincare, ecs. (4.54) y (4.63), en la


base H, P , K y J ,
i
[J i , J j ] = iijk J k , [J i , K j ] = iijk K k , [K i , K j ] = 2
ijk J k ,
c
[P i , P j ] = [H, P i ] = 0, (4.77)
H
[H, J i ] = 0, [H, K i ] = iP i , [J i , P j ] = iijk P k , [P i , K j ] = iij .
c2

La primera lnea es el algebra de Lorentz y contiene a las rotaciones como subgrupo. En el lmite
c (y suponiendo que los generadores son finitos en ese lmite) se recupera el algebra del grupo
de Galileo, en el que los boosts conmutan y forman un subgrupo abeliano.

Por la relacion de conmutacion con J , se deduce que P , K y J son operadores vectoriales,


P 7 R1 P , etc. A su vez la relacion [J, P ] P dice que J tiene una componente extrnseca, que
cambia bajo traslaciones. En efecto, para una traslacion infinitesimal

U (a)J U (a)1 = J i[a P , J ] = J a P , (4.78)

69
y para una transformacion finita

U (a)J U (a)1 = J a P . (4.79)

Esto es consistente con J = L + S donde S (el espn) es intrnseco (invariante bajo traslaciones) y
L = x P es la parte orbital, teniendo en cuenta que x 7 x a bajo traslaciones (consecuencia
de [xi , P j ] = iij ).36 Notese otra vez que x no forma parte del algebra de Poincare.

Las relaciones de conmutacion indican que H, P y J con constantes de movimiento (conmutan


con H) y al mismo tiempo que H es invariante bajo traslaciones y rotaciones.

4.8. Representaciones irreducibles del grupo de Lorentz

Veamos la irreps de dimension finita del grupo de Lorentz. Estas irreps no son unitarias: como
el grupo es simple y no compacto sus representaciones unitarias son de dimension infinita (excepto
la trivial).

Definimos los nuevos operadores


1 1 i
JL := (J + icK), JR := (J icK), J = JL + JR , K = (JL JR ). (4.80)
2 2 c
Es inmediato comprobar que el algebra de Lorentz se puede reescribir en la forma

[JLi , JLj ] = iijk JLk , [JRi , JRj ] = iijk JRk , [JLi , JRj ] = 0 , (4.81)

y JL,R forman dos algebras de SU(2) independientes. Una consecuencia inmediata es que JL2 y JR2
son operadores de Casimir del algebra de Lorentz. Estan relacionados con los invariantes J J y
J J , expresados en la base J .

Las matrices que representan a J y K son irreducibles si y solo si JL,R lo son, entonces el
problema se reduce a encontrar irreps de su(2) que como sabemos son necesariamente equivalentes
a unitarias

JL,R = JL,R , J = J , K = K . (4.82)

Estas irreps son conocidas y se caracterizan por etiquetas jL,R = 0, 12 , 1, 32 , . . . Si usamos JL para
denotar las matrices de dimension 2jL + 1, de la irrep jL de SU(2), y lo mismo para JR , lo que
36
Alternativamente, U (a)xU (a)1 |ri = U (a)x|r ai = (r a)U (a)|r ai = (r a)|ri = (x a)|ri.

70
se tiene para el algebra de Lorentz es una irrep de dimension (2jL + 1)(2jR + 1) que actua en
V jL V jR ,
i
JL = JL 1, JR = 1 JR , J = JL 1 + 1 JR , K = (JL 1 1 JR ) .
c
(4.83)

Notese que el factor 1 es la identidad en (2jR + 1) y en (2jL + 1) dimensiones, respectivamente.

Cada irrep de Lorentz esta caracterizada por los valores de jL y jR y la denotamos [jl , jR ]. En
particular,
[0, 0], dimension 1, son los escalares Lorentz (la representacion trivial).
[ 21 , 21 ], dimension 4, son los cuadrivectores, A = (A0 , A), A 7 (1 ) A . A0 es un escalar
bajo rotaciones (j = 0) y A un vector (j = 1). Como J = JL + JR al acoplar jL = 1/2 con
jR = 1/2 se obtiene j = 0, 1.

Las irreps basicas son [ 21 , 0] y [0, 12 ]:


i
[ 12 , 0], JL = , JR = 0, J= , K=
2 2 c2 (4.84)
i
[0, 12 ], JL = 0, JR = , J= , K=+ .
2 2 c2
Puesto que en estas representaciones K = iJ /c, la relacion K K = iJ /c2 es consecuencia
inmediata de J J = iJ .

Las representaciones basicas tienen dimension 2 y son conjugadas una de otra. Exponenciando
por ejemplo [ 12 , 0] se obtiene
i i
D() = eiJiK = e 2 ( c ) ei/2 , , R3 , C3 , (4.85)

que es el conjunto de matrices complejas 2 2 con determinante unidad, el grupo SL(2, C). Este
grupo es el recubridor universal de L+ . El grupo de Lorentz es doblemente conexo por SL(2, C)/Z2
=

L+ , y tiene representaciones bivaluadas igual que SO(3).

4.9. Representaciones irreducibles del grupo de Poincare

Nos referimos al grupo conexo P+ . Las irreps de Poincare se clasifican por operadores invariantes.
Hay basicamente dos operadores invariantes.

71
El primero es la masa invariante (al cuadrado) del sistema
1 1 1
M 2 := 2
P P = 4 H 2 2 P 2 , H 2 = (M c2 )2 + (cP )2 . (4.86)
c c c
Puesto que P es un cuadrivector, M 2 es un escalar Lorentz, y conmuta con J , y tambien conmuta
con P . Por el lema de Schur, en una irrep del grupo M 2 toma un valor constante. Como los P
conmutan, los estados de la base de la irrep se pueden elegir propios de P , |, pi ( son otros
posibles numeros cuanticos) y P 0 se obtiene con M 2 (salvo signo).

Hay cuatro tipos de irreps.

La representacion trivial. Tiene dimension 1 y el estado correspondiente suele denotarse |0i,


denominado estado vaco.37 En esta representacion

U (, a)|0i = |0i, P |0i = J |0i = 0. (4.87)

El estado vaco no tiene momento, energa ni momento angular y representa el vaco fsico en las
teoras cuanticas relativistas, donde se postula que este es el estado fundamental (es decir, el de
menor energa) y que esta no degenerado. Esto implica que para todos los demas estados H > 0.
El grupo de Poincare contiene irreps con H < 0 pero no aparecen en teoras admisibles y no las
consideramos.

Representaciones masivas. Para estas M 2 > 0 y H > 0. Representan partculas con masa, o
sistemas de partculas. P es de tipo tiempo, y haciendo un boost de velocidad
P
v = c2 , (4.88)
H
se puede llevar el sistema al reposo (sistema del centro de masas)

P = 0, H = M c2 , M := + M 2 (4.89)

M c2 es la energa total del sistema en el sistema del centro de masas. En otro sistema

H = + M 2 c4 + c2 P 2 = M c2 , = (1 v 2 /c2 )1/2 . (4.90)

M es la masa invariante del sistema.


37
Notese que |0i no es el vector 0 del espacio de Hilbert. De hecho es un estado normalizado a uno.

72
Representaciones sin masa. Para estas M 2 = 0 y H > 0. Representan partculas sin masa,

P es de tipo luz y no admite un sistema centro de masas en el que P = 0, mas bien H = c|P | > 0.
Aunque la partcula va siempre a la velocidad c, s cambia su energa y momento al aplicar un boost
(P se transforma como un cuadrivector Lorentz en todos los casos).

Representaciones taquionicas. En estas representaciones M 2 < 0 y P es de tipo espacio.


En este caso el signo de P 0 depende del sistema de referencia (se puede cambiar mediante trans-
formaciones de Lorentz). Las partculas en estas representaciones seran taquiones, moviendose a
velocidad superior a c. Esto lleva a paradojas (Fig. 7) y de hecho no se ha encontrado aplicacion de
estas irreps en la naturaleza. El hecho de que H se pueda hacer arbitrariamente negativo indica que
no hay estado fundamental (si en una teora aparecen taquiones quiere decir que el supuesto vaco
es en realidad un estado metaestable, un falso vaco).

(t,x=0)
(t,x=0)
c
c

c
(t=0,x)

B
A
(t=0,x)
C

Figura 7: La senal supralumnica A B viaja hacia adelante en el tiempo para A, la senal supra-
lumnica B C tambien viaja hacia adelante en el tiempo para B, sin embargo C esta en el pasado
causal de A.

Hay que observar que M incluye toda la energa en reposo del sistema fsico, incluida la debida
a interacciones. As por ejemplo, un termo con agua caliente tiene mas masa inercial y gravitatoria
(ambas coinciden por el principio de equivalencia) que con agua fra. Si la ec. (4.90) se desarrolla

73
en serie en potencias de 1/c

P2 1
H = M c2 + + O( 2 ), (4.91)
2M c
parecera que solo hay energa cinetica, sin embargo, separando

M c 2 = M0 c 2 + V (4.92)

donde V indica un potencial de interaccion, por ejemplo,

P2 1 P2 1
H = M0 c 2 + V + 1 + O( 2
) = M 0 c 2
+ V + + O( 2 ), (4.93)
2(M0 + c2 V ) c 2M0 c

que es consistente con la formula no relativista con un termino de interaccion. M contiene toda
la energa. En el lmite no relativista, se incluyen en V aquellas energas (gravitatorias terrestres,
qumicas, etc) cuya variacion y transformacion en energa cinetica no supone cambios de velocidades
de las partculas comparables a c y en M0 las que s (nucleares, etc). M0 se puede considerar inerte
si y solo si el tratamiento no relativista es adecuado.

El segundo operador invariante Poincare que permite clasificar las irreps del grupo esta relacio-
nado con el espn. Hacemos un tratamiento cualitativo. Un tratamiento sistematico se basa en el
operador de Pauli-Lubanski, W = 12 P J .38 Como se puede comprobar W 2 es un invariante
Poincare [5].

Para partculas con masa (representaciones M 2 > 0), el sistema fsico se puede llevar al reposo,
P = 0, P 0 = M c. El subgrupo del grupo de Lorentz que deja invariante P = (M c, 0) es el grupo
de rotaciones (en el sistema centro de masas) y se puede usar para reducir el espacio de Hilbert
segun el valor de J 2 de los estados. Una vez que hemos fijado el sistema de referencia (el centro de
masas) el valor de J 2 es un invariante Lorentz. Ademas, por P = 0, el momento angular no tiene
parte orbital (L = x P = 0) solo hay espn, J = L + S = S, y por tanto J es invariante bajo
traslaciones espaciales, y tambien temporales por ser J conservado. En definitiva el observable S 2
as definido es un invariante Poincare. Su espectro es el usual de un momento angular, S 2 = s(s+1),
s = 0, 12 , 1, 32 , 2, . . . y s se denomina el espn de la partcula.

Las representaciones masivas son del tipo |M, s; p, i donde M (la masa) y s (el espn) son fijos
y caracterizan la irrep. p es el momento (el valor propio de P ) y es la helicidad, que se define
como el momento angular en la direccion de P , = s, s + 1, . . . , s.
38
Hay dos convenios para el tensor de Levi-Civita, aqu adoptamos el convenio 0ijk = ijk .

74
Para partculas sin masa (M = 0), el analisis es mas complicado. El subgrupo que deja invariante

P = (|P |, P ) es el grupo eucldeo bidimensional, tambien de dimension 3 [5]. Las unicas irreps a
las que se ha encontrado aplicacion fsica son aquellas con W 2 = 0 (esencialmente corresponde a
estados de espn finito). Para estas irreps W = P . Lo que se encuentra es que la helicidad

P J
:= , (4.94)
|P |

es un invariante Lorentz y Poincare. Para una partcula masiva no lo es: la partcula se puede llevar
al reposo, rotarla, y luego deshacer el boost, cambiando . Pero las partculas sin masa no se pueden
llevar al reposo y no se puede cambiar. Por tanto en este caso M = 0 y son los operadores
invariantes, y los valores permitidos para son 0, 12 , 1, 23 , . . .

Las representaciones sin masa son del tipo |M = 0, ; pi donde M = 0 (la masa) y (la
helicidad) son fijos y caracterizan la irrep. Notese que una partcula sin masa solo tiene un estado
espn, en vez de los 2s + 1 posibles estados de espn de una partcula masiva.39

39
El foton admite dos valores, = 1, pero cada uno define una representacion irreducible de P+ . Los dos estados
se mezclan bajo paridad, que es realizable por ser una simetra de la interaccion electromagnetica. No hay fotones
con helicidad nula.

75
5. Representaciones de SU(n)

5.1. Representacion tensorial de GL(n, C)

1
Como se vio, al acoplar dos espines 2
se poda obtener un estado triplete (j = 1) o singlete
(j = 0)
1
|1, 1i = | i, |1, 0i = ( | i + | i), |1, 1i = | i
2
(5.1)
1
|0, 0i = ( | i | i).
2
Estos estados se pueden escribir en la forma
|i = i1 i2 |i1 , i2 i ik = 1, 2 (o , ) . (5.2)
Los estados j = 1 son simetricos, i1 i2 = + i2 i1 y el estado j = 0 es antisimetrico, i1 i2 = i2 i1 .

Mas generalmente, si {|ii, i = 1, . . . , n} es una base de Vn


= Cn ,
(r)
|i1 , i2 , . . . , ir i = |i1 i |ir i base de Vnr Vn Vn , (5.3)
un vector cualquiera es de la forma (sumacion implcita)
|i = i1 i2 ...ir |i1 , i2 , . . . , ir i. (5.4)

|i Vnr , o equivalentemente i1 i2 ...ir , es un tensor contravariante de rango r. En general, un


tensor es un objeto caracterizado por su transformacion bajo un grupo que actue en Vn . En nuestro
caso el grupo es Gn GL(n, C) (el grupo de cambios de base en Cn ). En el punto de vista activo,
g Gn actua sobre los vectores de la base de Vn as
|ii 7 g j i |ji, (5.5)
y sobre las componentes del tensor actua segun
|i 7 |i = i1 ...ir g j1 i1 g jr ir |j1 , . . . , jr i j1 ...jr |j1 , . . . , jr i, (5.6)
g

de donde se lee la ley de transformacion de las componentes del tensor


i1 ...ir = g i1 j1 g ir jr j1 ...jr . (5.7)

76
(r)
Esto define la representacion tensorial g g de GL(n, C) sobre Vnr . Como luego van a aparecer
representaciones mas generales, denotamos este tipo de representaciones por T r . Todas las irreps
inequivalentes de SU(n) aparecen al reducir los espacios Vnr , r = 0, 1, 2, . . .

5.2. Reduccion de Vnr bajo Sr y GL(n, C)

Para reducir Vnr buscamos subespacios invariantes bajo GL(n, C). El grupo de permutaciones
Sr tambien actua en el espacio de tensores Vnr ,

p Sr , |i1 , . . . , ir i = |i1 i1 |ir ir 7


p
(5.8)
|i1 ip1 |ir ipr = |ip1 1 i1 |ip1 r ir = |ip1 1 . . . , ip1 r i,

y para las componentes


i1 ,...,ir 7 ip1 ,...,ipr . (5.9)
p

As por ejemplo

|ijki |jiki |jkii, (23)(12) = (132)


(12) (23)
(5.10)
ijk |ijki ijk |jiki = jik |ijki jik |ikji = kij |ijki.
(12) (23)

Las acciones de los grupos Sr y GL(n, C) en Vn conmutan, en consecuencia, aplicando proyec-


tores P sobre irreps de Sr ( es un diagrama de Young con r casillas)
M
Vnr = (Vnr ) (5.11)

donde (Vnr ) son espacios invariantes bajo los dos grupos.

Generalmente (Vnr ) es todava reducible: cada irrep de Sr aparece con una multiplicidad d .
Tomando una base estandar en cada uno de los d espacios irreducibles (mnimos) se tiene una base
de (Vnr ) ,40
{|ai, a = 1, . . . , n , = 1, . . . , d }, (5.12)
donde n denota la dimension de la irrep de Sr . Por construccion {|ai, a = 1, . . . , n }, para
, fijos es una base estandar de un espacio irreducible de Sr de tipo . Se demuestra que a su
40
Notese que la reduccion de (Vnr ) en espacios irreducibles de Sr no es unica si hay mas de uno, d > 1.

77
vez {|ai, = 1, . . . , d } con , a fijos, subtiende un espacio irreducible respecto de GL(n, C), y
ademas dos irreps de este tipo son equivalentes si y solo si sus diagramas de Young, , son iguales.
d
MM M
Vnr = V, d V (reduccion bajo Sr )
=1

n
(5.13)
MM M

= V,a n V (reduccion bajo Gn ).
a=1

En particular para r = 1 el unico diagrama es [1] ( ) y se tiene que la propia representacion


que define el grupo, g i j , es irreducible (evidente, ya que con transformaciones invertibles arbitrarias
se puede llevar cualquier vector de Vn a cualquier otro, no hay espacios invariantes propios).

En el siguiente caso mas simple r = 2

r = 2, n = 1, 2, . . . , Vn2 = Vn Vn
ij i, j = 1, . . . , n = [2] , [12 ]
(5.14)

Vn2 = (Vn2 ) (Vn2 ) = lin {, ij = + ji } lin {, ij = ji }


dim = n(n + 1)/2 dim = n(n 1)/2
(5.15)
1
ij = Sij + Aij , ij
S,A = ( ij ji ).
2
n(n + 1) n(n 1)
Vn2 = V V (Reduccion bajo S2 )
2 2 (5.16)
=1V 1V (Reduccion bajo GL(n, C))

Como se vera las irreps tensoriales T r de GL(n, C) son tambien irreducibles bajo SU(n). As apli-
cando el resultado anterior a SU(2)

Vj1 = 1 Vj2 = 1 = Vj=0 Vj=1 , Vj=1 = V (dim = 3), Vj=0 = V (dim = 1) (5.17)
2 2

Tensores de rango 3. Hay n3 estados y vamos a separarlos por tipos.

78
Tipo |ijki. Si aplicamos S3 sobre |ijki para ijk distintos, se obtienen 3! estados que forman la
representacion regular de S3 . Esta representacion se puede reducir aplicando idempotentes asociados
a los tableros estandar e123 , e12 , e13 , e1 . Puesto que los ndices se van a permutar, se puede elegir
3 2 2
3
41
i < j < k. Esto produce
|ijki 1 i < j < k n i j k i j i
k j
Pn Pn Pn n(n1)(n2)
i=1 j=i+1 k=j+1 = 6
casos k (5.18)
i k
11+22+11=6 j

Tipo |ijji con 1 i < j n. Ahora al aplicar permutaciones sobre |ijji (para i, j dados)
se obtienen 3!/(1! 2!) = 3 estados (que por construccion forman un espacio invariante bajo permu-
taciones). Los idempotentes actuan igual que antes y se obtiene lo mismo poniendo k = j en ec.
(5.18):

|ijji 1 i < j n i j j i j i
j j
Pn Pn n(n1) j
i=1 j=i+1 = 2
casos
(5.19)
i j
11+12+01=3 j

El segundo i j se va porque esta repetido y i se va por tener ndices repetidos en la misma


j j
j
columna (se anula al antisimetrizar). En total se tienen 3 estados para i, j dados.

Tipo |iiji, 1 i < j n. En este caso se tiene

|iiji 1 i < j n i i j i i i
j i
Pn Pn n(n1) j
i=1 j=i+1 = 2
casos
(5.20)
i j
11+12+01=3 i
41
Por ejemplo, el espacio i j , esta generado por el vector e12 |ijki = s12 a13 |ijki = |ijki |kjii + |jiki |jkii.
k 3

Este espacio tiene dimension 2 ya que al aplicar permutaciones arbitrarias se obtienen dos vectores linealmente
independientes.

79
Como era de esperar se obtiene lo mismo que en el caso |ijji ya que el etiquetado de los estados no
puede afectar al resultado (aunque superficialmente la justificacion para eliminar algunos tableros
sea distinta).

Finalmente, tipo |iiii. Este estado ya es invariante bajo permutaciones (espacio invariante uni-
dimensional). Tomando i = j = k en ec. (5.18):

|iiii 1 i n i i i i i i
Pn i i
1 = n casos i (5.21)
i=1
i i
11+02+01=1 i

Reuniendo todos los casos se obtiene

Vn3 = d +d +d (Reduccion bajo S3 ) (5.22)

n(n 1)(n 2) n(n 1) n(n 1) n(n + 1)(n + 2)


d = + + +n= ,
6 2 2 6
n(n 1)(n 2) n(n 1) n(n 1) n(n + 1)(n 1)
d =2 + + +0n= ,
6 2 2 3 (5.23)
n(n 1)(n 2) n(n 1)(n 2)
d =1 = ,
6 6
n3 = d 1 + d 2 + d 1.

Al mismo tiempo la reduccion bajo Gn es

Vn3 = 1 +2 +1 (Reduccion bajo Gn ) (5.24)

Los d (multiplicidad de en la reduccion bajo S3 ) son la dimension de la irrep de Gn . Una de las


dos irreps de Gn corresponde a los estados {|[2, 1], , a = 1i} y la otra a {|[2, 1], , a = 2i}.
Por otra parte, todos los tensores completamente simetricos de rango 3 forman una sola irrep de
Gn y lo mismo los completamente antisimetricos.

80
Mas generalmente, por cada irrep de Sr de tipo hay un estado de la base de la irrep de Gn
y por ello esta irrep tiene tantos estados como tableros estandar de Gn : estos son diagramas de
Young de tipo llenados con r etiquetas i1 , . . . , ir = 1, . . . , n (con repeticion) tales que la etiqueta
no decrezca al moverse a la derecha por una fila y crezca estrictamente al moverse hacia abajo por
una columna.

As, por ejemplo, los tableros estandar de GL(3, C) para = [22 ] son

1 1 1 1 1 1 1 2 1 2 2 2 (5.25)
2 2 2 3 3 3 2 3 3 3 3 3

y se concluye que la dimension de [22 ] en G3 es 6.

Obviamente, en GL(n, C) la dimension es 0 (la irrep no existe) para s con columnas de longitud
superior a n.

Una formula para la dimension es Qr


ci
d = Qi=1
r , (5.26)
i=1 li

donde li es la longitud del gancho de la casilla i-esima y ci es n para la primera casilla (izquierda
arriba) aumentando en uno al moverse a la derecha y disminuyendo en uno al moverse hacia abajo.
Por ejemplo
n n+1

n1 n n(n + 1)(n 1)n n2 (n2 1)


dimGn [22 ] = = = . (5.27)
3 2 3221 12
2 1

La formula analoga para la dimension de la irrep de Sr es


r!
n = Qr , (5.28)
i=1 li

Por ejemplo
4! 4!
dimS4 [22 ] = = = 2, (5.29)
3 2 3221
2 1

correspondiente a los dos tableros estandar de S4 de [22 ], 1 2 y 1 3 .


3 4 2 4

81
Ejemplo. Consideremos n = 2 y r = 3. La reduccion bajo GL(2, C) es

V23 = 1 2 1 , 23 = 1 4 + 2 2 + 1 0. (5.30)

Esto es completamente consistente con lo que sabemos de la serie de Clebsch-Gordan de SU(2):


Vj= 1 Vj= 1 Vj= 1 = (Vj=0 Vj=1 ) Vj= 1 = Vj= 3 Vj= 1 Vj= 1 , (5.31)
2 2 2 2 2 2 2

con dimensiones 4 + 2 + 2 = 8.

Aparte de la irrep [1], que es la propia g i j que define el grupo GL(n, C), otra irrep interesante es
n
[1 ] (una columna con n casillas). Tiene dimension 1 y corresponde a los tensores completamente
antisimetricos de rango n, y no es mas que el determinante de g:
Ai1 ...in = i1 ...in con A1...n ,
(5.32)
i1 ...in 7 g i1 j1 g in jn j1 ...jn = i1 ...in g 1 j1 g n jn j1 ...jn = det(g)i1 ...in .

Aqu i1 ...in es el tensor de Levi-Civita que esta completamente definido por ser totalmente an-
tisimetrico y 1...n = 1. En efecto, el determinante define una representacion ya que det(g1 g2 ) =
det(g1 ) det(g2 ).

Mas generalmente, para una irrep tensorial de GL(n, C) dada por un tablero , cada columna
de longitud n produce un factor det(g). Por ejemplo,

= det(g)2 en GL(3, C). (5.33)

5.3. Serie de Clebsch-Gordan para irreps tensoriales de GL(n, C)

Como se ha visto, cada irrep tensorial T r de GL(n, C) viene dada por un diagrama de Young y
la serie de C-G puede escribirse como producto de tableros. Este producto se puede hacer a nivel
de tableros, sin referirse a un n concreto. Para multiplicar dos diagramas y , en primer lugar
etiquetamos el segundo diagrama con 1s en la primera fila, 2s en la segunda, y as sucesivamente.
As por ejemplo, si queremos multiplicar [2] con [2, 12 ],

1 1 . (5.34)
2
3

82
A continuacion se van anadiendo casillas etiquetadas del segundo tablero al primero de todas las
formas posibles tales que se obtenga un diagrama admisible y un tablero admisible distinto.42
Como diagrama, la construccion es admisible cuando la longitud de una fila superior es mayor o
igual que la longitud de otra fila inferior. Como tablero, este es admisible si 1) no hay dos etiquetas
iguales en una misma columna, y 2) ledo de derecha a izquierda fila por fila de arriba a abajo, el
numero de etiquetas i en ningun momento supera el numero de etiquetas i 1, y esto para cualquier
i. Se guardan todos los tableros admisibles distintos, y se quitan la etiquetas. Al hacer esto pueden
quedar diagramas repetidos, lo cual indica que esas irreps aparecen con multiplicidad mayor que uno
en la reduccion de .

En el ejemplo de antes, despues de anadir las casillas con etiquetas 1:


1 1 1
(5.35)
1 1 1 1

1
Despues de anadir las casillas con etiquetas 2:

1
1 2 1 1

2
12
1 1

1 1 2 1
(5.36)
2
2


11 1 1

2
Finalmente anadiendo las casillas con etiqueta 3 (omitimos ya los cuatro tableros inadmisibles que
se obtienen poniendo un 3 en la primera fila):
11
1 1 1
1

23 2 12 3 1 2

3 3
1 1 (5.37)

1 3 1 1 1 1 1
2 2
2 3 2
3 3
42
En sentido estricto usamos diagrama para la estructura de casillas (una particion de r) y un tablero para un
diagrama etiquetado. En sentido mas vago se usa tablero para un diagrama de Young con o sin etiquetas.

83
Finalmente
= + + + . (5.38)

En realidad, puesto que el producto de tableros es conmutativo es mas conveniente calcular [2, 12 ]
[2]

1 1 = 1 1 + 1 + 1 + + + . (5.39)
1 1 1
1

1 1 1
1

Notese que cuando el producto de tableros se aplica a un n concreto, los tableros con columnas
con longitud mayor que n tienen dimension cero y sobran. As, por ejemplo

(n = 2) = + 1 2 = 2 + 0. (5.40)


1
En SU(2) y tienen dimension 2 y corresponden a j = 2
y tiene dimension 1 y corresponde
a j = 0.

Al calcular series de C-G una comprobacion extraordinariamente util es verificar que las dimen-
siones a ambos lados sean iguales. (Compruebese ec. (5.38), bien para n generico o para algun n
no totalmente trivial.)

5.4. Reducibilidad de representaciones tensoriales bajo SU(n)

Veamos que las representaciones tensoriales que son irreducibles en GL(n, C) tambien lo son en
SU(n), y por tanto en U(n) y SL(n, C). Notese que es trivial que si una representacion es irreducible
para un subgrupo lo es para el grupo, pero no al reves.

La primera observacion es que las representaciones tensoriales de GL(n, C) son analticas, es


decir, las matrices D(g) dependen analticamente de los elementos de matriz g i j . Por otro lado, la
extension analtica de SU(n) es el grupo SL(n, C) (matrices complejas de determinante 1). Esto se
deduce de que
i
SU(n) g = eia Xi , Xi = Xi , tr (Xi ) = 0, a Rn , (5.41)

84
y si se toma a Cn se obtiene un elemento arbitrario de SL(n, C), g = eA , tr (A) = 0. Igualmente,
la extension analtica de U(n) es GL(n, C).

Supongamos que D(g) es una representacion  tensorial de


 GL(n, C) tal que es reducible en
A(g) 0
SU(n), es decir, cuando g SU(n) D(g) = . Entonces, por extension analtica
B(g) C(g)
tendra la misma forma en SL(n, C). Y tambien sera reducible en GL(n, C): en efecto, todo g
GL(n, C) puede escribirse como g = zg con z C and g SL(n, C) (de hecho z n = det g).
Por ser D(g) una funcion
  homogenea de grado r en g (ver ec. (5.7)) se tiene D(g) = z r D(g ) =
z r A(g ) 0
, que es reducible. Esto demuestra que las representaciones irreducibles de
z r B(g ) z r C(g )
GL(n, C) lo siguen siendo cuando se restringen a SU(n).

5.5. Otras representaciones de GL(n, C)

(r)
Hasta ahora hemos visto las representaciones de tipo g g de GL(n, C) pero hay mas.
Hay cuatro representaciones basicas, a saber, g, g 1T , g y g 1 . As por ejemplo,
(g1 g2 )1 = g11 g21 . (5.42)
En componentes (por conveniencia usamos ndices a, b, . . . = 1, . . . , n en vez de i, j, . . .)
g : a 7 g a b b , g 1T : a 7 (g 1 )b a b (g 1T )a b b ,
(5.43)
g : a 7 (g a b ) b (g )a b b , g 1 : a 7 ((g 1 )b a ) b (g 1 )a b b .
Los ndices con punto recorren los mismos valores, a, b = 1, . . . , n, el punto sirve para indicar que
esos ndices no se transforman con g sino con g .

Igualmente, para las bases de los espacios correspondientes Vn , Vn , Vn y Vn


g|ea i = g b a |eb i , g 1T |ea i = (g 1T )b a |eb i,
(5.44)
g |ea i = (g )b a |eb i, g 1 |ea i = ((g 1 )b a ) |eb i .
Estas cuatro representaciones son irreducibles e inequivalentes para GL(n, C). Dentro del subgrupo
U(n) (matrices unitarias) solo dos de ellas son inequivalentes, ya que cuando g es unitaria g 1 = g
y g 1T = g (y siguen siendo irreducibles).

Todas las representaciones de dimension finita de GL(n, C) se obtienen como subespacios del
producto tensorial de las cuatro irreps basicas:
Vnr Vns Vn p Vn q r, s, p, q = 0, 1, 2, . . . (5.45)

85
r,p
Los correspondientes elementos son tensores de tipo Ts,q con componentes
a ...a ,a ...a
b 1...b r,b 1...b p . (5.46)
1 s 1 q

r,0
Los tensores Vnr considerados hasta ahora son de tipo T r T0,0 .
a ...a ,a ...ap
Es inmediato comprobar que si las variables b 1...b r,b 1...b se transforman como las componentes
1 s 1 q
r,p a ...a ,a ...a
de un tensor de tipo Ts,q , entonces (b 1...b r,b 1...b p ) (representacion conjugada) se transforman
1 s 1 q
q,s
como las componentes de un tensor de tipo Tp,r .
r,0
Las representaciones Tsr Ts,0 son analticas (su transformacion depende analticamente de g)
0,p
y las T0,q son antianalticas (funciones conjugadas de analticas). Todas las irreps (de dimension
finita) de GL(n, C) son separables, de la forma analtica por antianaltica
c ...c
ba11...b
...ar
s
(d11 ...dqp ) . (5.47)

Este resultado se deduce notando que las irreps de un producto directo de grupos se obtienen como el
producto tensorial de irreps, D (g1 )i j D (g2 )k l . En el presente caso lo que se tiene es D (g)i j D (g )k l y
a efectos practicos las variables g y g se pueden considerar como variables independientes por lo que es
irreducible.

La consecuencia es que sin perdida de generalidad nos podemos restringir a estudiar las irreps
analticas, Tsr , de GL(n, C).

5.6. Representaciones de tipo Tsr de GL(n, C) y U(n)

Cuando nos restringimos a U(n) (subgrupo de matrices unitarias) g 1 = g y g = g 1T , en


consecuencia en este subgrupo no hay diferencia entre ndices con y sin punto. Todas las irreps de
U(n) se encuentran al reducir Vnr Vns . La demostracion que se hizo anteriormente de que las irreps
de GL(n, C) de tipo T r se mantienen irreducibles en SU(n) (Sec. 5.4) tambien se aplica al caso
mas general Tsr ya que solo se uso que las representaciones eran analticas y homogeneas en g lo
cual tambien vale para Tsr .43 Ademas, representaciones inequivalentes de GL(n, C) siguen siendo
inequivalentes al restringirlas a U(n), por extension analtica.44
43 r,p
No se aplica al caso general Ts,q . Por ejemplo, los tensores a,b forman una representacion irreducible de
GL(n, C) en cambio en U(n) es del tipo a,b que es reducible ya que a y b no estan simetrizados/antisimetrizados.
44
Esto ya no es cierto para SU(n). Como se vera, dos irreps inequivalentes de U(n) pueden pasar a ser equivalentes
al restringirlas a SU(n).

86
Notese que para U(n) (Tsr ) = Trs . Aparte de esto, por extension analtica, todas las propiedades
lineales de Tsr bajo GL(n, C) valen para U(n) y viceversa.

Sobre los tensores ba11...b


...ar
s
actuan los grupos Sr y Ss de permutaciones de los ndices contrava-
riantes y covariantes por separado, y de nuevo su accion conmuta con GL(n, C). Entonces, por la
misma construccion que para T r , se obtienen subespacios invariantes de tensores asociados a tipos
de simetra de permutaciones (diagramas de Young) (r casillas) y (s casillas) para los ndices
contravariantes (a1 , . . . , ar ) y covariantes (b1 , . . . , bs ) por separado. Sin embargo, a diferencia del
caso s = 0, estos subespacios no son irreducibles en general.

El motivo es que el tensor ba es invariante



ba 7 g a a (g 1T )b b ba = g a a (g 1 )a b = ba . (5.48)

Mas generalmente son invariantes los tensores formados por productos de factores baji y sumas de
estos. Aparte de estos no hay otros tensores invariantes.45

As, por ejemplo, el espacio de tensores de la forma ba , de dimension n2 , contiene un subespacio


invariante de dimension 1: el dado por el tensor con componentes ba

|ea i |ea i 7 |ea i |ea i. (5.49)


g

La invariancia de ba equivale a decir que la traza aa , obtenida por contraccion delndice contravarian-
te con el covariante, es un invariante bajo el grupo.46 El espacio ba se descompone en dos espacios
invariantes irreducibles, con dimensiones n2 1 (tensores sin traza) y 1 (tensores proporcionales a
ba ):
1
ba = ba + ba con = aa , aa = 0. (5.50)
n
En general, tomando traza respecto de dos ndices cualesquiera (uno contravariante y otro covarian-
r1
te) de un tensor de tipo Tsr se obtiene de nuevo un tensor, de tipo Ts1 . Esto permite reducir Tsr en
espacios invariantes, a saber, como suma de tensores sin traza respecto de ningun par de ndices
rk (k)
de tipo Tsk (k = 0, 1, . . .) multiplicados por tensores invariantes tipo . Por ejemplo,

cab = cab + a cb + b ca (5.51)


45
Por el lema de Schur, cualquier matriz que conmute con todos los g i j debe ser multiplo de la identidad, es decir,
i
j.
46
Como es sabido, la traza de una aplicacion lineal no depende de la base: es un invariante bajo el grupo de cambios
de base GL(n, C).

87
donde cab no tiene trazas: aab = bab = 0. Basta tomar trazas a ambos lados de la ecuacion y
resolver en a y b

ccb = b + nb , cac = n a + a ,
1 1 (5.52)
a = 2 (ncac cca ), a = 2 (ncca cac ).
n 1 n 1
cab , a cb y b ca subtienden tres espacios invariantes, los dos ultimos con dimension n y el primero
con dimension n3 2n.

Obviamente esta reduccion es simetrica respecto de todos los ndices contravariantes y respec-
to de todos los ndices covariantes, y en consecuencia es compatible con la reduccion por tipo de
simetra de permutaciones, que se puede aplicar antes o despues. As si cab era un tensor simetri-
co/antisimetrico en ab se tendra

cab = cab + a cb b ca (5.53)

con cab simetrico/antisimetrico y sin trazas. En este caso hay dos subespacios invariantes a cb
b ca , de dimension n, y cab , de dimension n2 (n 1)/2 n. Estos espacios ya son irreducibles.

Aplicando las dos reducciones mencionadas (permutaciones y trazas) se obtienen las represen-
taciones irreducibles de tipo Tsr de GL(n, C) y U(n), a saber, tensores sin traza con simetra bajo
permutaciones caracterizada por dos diagramas de Young (, ) (uno para los ndices contravariantes
y otro para los covariantes). Diagramas distintos corresponden a irreps inequivalentes. Sin embargo
no todos los pares (, ) pueden aparecer. El motivo es que al imponer un tipo de simetra y al
mismo tiempo que el tensor no tenga traza el sistema de ecuaciones puede quedar sobredeterminado
y la solucion reducirse al espacio nulo. La regla es que el numero de filas de mas el numero de filas
de debe ser menor o igual que n. Equivalentemente, cada irrep (analtica) de GL(n, C) y cada
irrep de U(n), esta unvocamente caracterizada por cada conjunto de n numeros enteros ordenados

[m1 , . . . , mn ] m1 m2 mn mi Z . (5.54)

Los mi positivos definen el diagrama y los negativos el . Por ejemplo

n=7 [3, 3, 1, 0, 0, 1, 2], = [3, 3, 1] = , = [2, 1] = . (5.55)

Tal y como se ha visto en los ejemplos anteriores la dimension de una irrep (, ) no es directamente
el producto de dimensiones de y . En general es menor por la ligadura impuesta de ser tensores
sin traza. La dimension es la misma que da SU(n) y se obtendra mas adelante.

88
Para U(n), la representacion conjugada de (, ) es (, ) = (, ), o equivalentemente
[mn , . . . , m1 ].

Con la notacion de ec. (5.54) tambien es muy facil obtener la ley de ramificacion de  U(n), 
g 0
es decir, como se reducen sus irreps con respecto al subgrupo U(n 1) definido por g =
0 1

donde g U(n 1). Las irreps de U(n 1) que aparecen al reducir [m1 , . . . , mn ] son [k1 , . . . , kn1 ]
con mi ki mi+1 y cada una aparece una vez. La misma regla se aplicara a SU(n).

As, por ejemplo, la representacion ji de U(3) (i, j = 1, 2, 3), es ([1], [1]) = [1, 0, 1], de
dimension 32 1 = 8. Su ramificacion (reduccion bajo U(2)) produce [1, 0] = ([1], [ ]), [1, 1] =
([1], [1]), [0, 1] = ([ ], [1]), y [0, 0] = ([ ], [ ]), es decir, los tensores de U(2) a , ba , a y ,
(a, b = 1, 2) con dimensiones 2 + 3 + 2 + 1 = 8,
    
, U(3)
= , , , , U(2)
. (5.56)

(El smbolo indica la representacion trivial, con tablero vaco [ ].)

5.7. Representaciones irreducibles de SU(n)

Para los subgrupos SU(n) y su extension analtica SL(n, C), la condicion det(g) = 1 introduce
un nuevo tensor invariante, el tensor de Levi-Civita. En efecto, por la ec. (5.32)

i1 ...in 7 g i1 j1 g in jn j1 ...jn = det(g)i1 ...in = i1 ...in , g SL(n, C) (5.57)

y lo mismo i1 ...in .

Este tensor invariante hace que representaciones irreducibles inequivalentes de U(n) pasen a
ser equivalentes en SU(n). Un ejemplo es la representacion definida por el propio determinante,
g 7 det(g) que corresponde a ([1n ], [ ]) en U(n) y equivale a ([ ], [ ]) (la representacion trivial g 7 1)
cuando nos restringimos a SU(n).

Mas generalmente en SU(n) los tensores antisimetricos contravariantes de rango r, ([1r ], [ ]),
son equivalentes a los tensores antisimetricos covariantes de rango n r, ([ ], [1nr ]).
 
i1 ...ir n
Para ver esto, sea un tensor completamente antisimetrico ( variables)
r

i1 ...ir 7 i1 ...ir = g i1 j1 g ir jr j1 ...jr (5.58)

89
e introducimos
   su  dual ir+1 ,...,in , tambien completamente antisimetrico (igual numero de variables
n n
= ), mediante
nr r

1 1
i1 ...ir = i1 ...in ir+1 ,...,in , ir+1 ,...,in = i1 ...in i1 ...ir . (5.59)
(n r)! r!

Se trata de demostrar que ir+1 ,...,in as definido es a su vez un tensor covariante si g SU(n):

ir+1 ,...,in 7 ir+1 ,...,in = (g 1 )jr+1 ir+1 (g 1 )jn in jr+1 ,...,jn . (5.60)

Multiplicando la ecuacion intermedia en ec. (5.57) por n r factores g 1 , se obtiene la identidad

g i1 j1 g ir jr j1 ,...,jn = det(g)(g 1 )jr+1 ir+1 (g 1 )jn in i1 ,...,in 0 r n. (5.61)

Ahora podemos ver como se transforma :


1
i1 ...ir = g i1 j1 g ir jr j1 ...jr = g i1 j1 g ir jr j1 ,...,jn jr+1 ,...,jn
(n r)!
1
= i1 ,...,in det(g)(g 1 )jr+1 ir+1 (g 1 )jn in jr+1 ,...,jn (5.62)
(n r)!
1
i1 ,...,in ir+1 ,...,in .
(n r)!

Esto implica que ir+1 ,...,in es un tensor cuando det(g) = 1. La misma comprobacion se puede hacer
en sentido contrario, suponiendo que es un tensor covariante y comprobando que su dual es
tambien un tensor.

Mas generalmente, si se tiene un tensor de tipo (, ), cada columna de longitud r de co-


rresponde a r ndices contravariantes antisimetrizados. Contrayendo con el tensor de Levi-Civita se
transforman en n r ndices covariantes antisimetrizados, es decir, en una columna de longitud
n r a anadir en , y viceversa. Por este procedimiento de mover columnas entre y se obtienen
nuevos pares ( , ) que corresponden a irreps que son equivalentes en SU(n) (dem SL(n, C)).
As por ejemplo, en SU(3) se tienen las siguientes equivalencias
  
, , , ,
    en SU(3). (5.63)
, , , , ,

90
Podemos comprobar que la equivalencia conserva correctamente la dimension. Por ejemplo, en
SU(n) las irreps ([1], [1]) (tensores ji ) deben tener la misma dimension que ([2, 1n2 ], [ ]) (tensores
i1 ,...,in simetricos en los dos primeros ndices y antisimetricos en los n 1 ultimos). Aplicando
la ec. (5.26), la dimension del tablero ([2, 1n2 ], [ ]) es n2 1. La dimension de ji sera n2 por los
dos ndices independientes, pero se pierde un grado de libertad al imponer que la traza se anule,
quedando una dimension n2 1.

Mediante estas equivalencias, dada una irrep (, ) siempre se puede elegir otra equivalente
dentro de SU(n), que podemos indicar como (, ) (cada columna de longitud r de se ha
cambiado por una columna de longitud n r y se ha anadido a ). Este es un tensor de tipo T r , que
unicamente tiene ndices contravariantes. Se concluye entonces que reduciendo las representaciones
tensoriales T r se tienen todas las irreps de SU(n).

Notese que no todos los tableros producen representaciones inequivalentes en SU(n), ya que n
ndices antisimetrizados (que produciran det(g)) equivalen a la representacion trivial por det(g) = 1.
As
en SU(3). (5.64)

En SU(n) las irreps inequivalentes corresponden a tensores contravariantes (o covariantes) con


tableros con a lo sumo n 1 filas.

La representacion conjugada de una dada viene dada por el tablero dual (que depende de
n), obtenido cambiando cada columna de longitud r de por una columna de longitud n r en .
Esto se deduce de (, ) = (, ) (, ). As, en SU(3) es autoconjugada, y la conjugada
de es :

tableros duales en SU(3). (5.65)

Una representacion y su conjugada tienen la misma dimension.

A menudo, junto con la notacion = [m1 , . . . , mn1 , 0] (n 1 filas a lo sumo) se utiliza la


notacion alternativa (l1 , . . . , ln1 ) (m1 m2 , . . . , mn2 mn1 , mn1 0) de modo que el dual
se obtiene simplemente como (ln1 , . . . , l1 ).

Para tensores T r no hay ligaduras de tipo traza, por lo cual la dimension de una representacion
de tipo es la dada en la ec. (5.26). Para una representacion irreducible de tipo Tsr con tableros

91
(, ), simplemente se obtiene la irrep puramente contravariante equivalente bajo SU(n), (, ),
y se calcula su dimension. Esto vale para todos los grupos GL(n, C), SL(n, C), U(n) y SU(n) ya
que la irrep no se reduce mas al restringirla a SU(n).

Por el mismo motivo, la ley de ramificacion de U(n) tambien se aplica a SU(n).

Ejemplo. Consideremos la irrep [2, 1] de SU(3), de dimension 8. Para ver como se reduce
bajo SU(2) la reescribimos como [2, 1, 0] y aplicamos la prescripcion mi ki mi+1 . Esto nos da
[2, 1] [1], [1, 1] , [2, 0] [2] y [1, 0] [1],

= SU(2) 8 = 2 + 1 + 3 + 2. (5.66)
SU(3)

Puesto que [2, 1] es equivalente a [1, 0, 1] en SU(3) (ec. (5.63)) esta reduccion es equivalente a
la indicada en ec. (5.56). Indica que el octete de SU(3) se descompone en un triplete (I = 1), dos
dobletes (I = 1/2) y un singlete (I = 0) de SU(2). Por ejemplo el octete de mesones pseudoescalares
contiene un triplete de isospn, el pion, un doblete de kaones, otro doblete de antikaones y la eta
que es singlete de isospn. Otro ejemplo es la descomposicion del decuplete 23 + en estados , ,
y , con isospines I = 23 , 1, 12 y 0:

SU(3) = SU(2) 10 = 4 + 3 + 2 + 1 . (5.67)

La ley de ramificacion permite identificar unvocamente cada estado de una irrep de SU(n),
usando la cadena canonica (es decir, cada irrep de un subgrupo aparece a lo sumo una vez)

U(n) U(n 1) U(2) U(1). (5.68)

Ya lo hemos visto para SU(2) U(1) SO(2), los estados son |j, mi correspondientes as J2 ,
J3 . j es la irrep de SU(2) y m la irrep de U(1) SO(2), el grupo de rotaciones alrededor del eje z.

Para los estados del octete de SU(3), con la notacion |U(3) , U(2) , U(1) i

| , , i | , , i
| , , i | , , i | , , i
(5.69)
| , , i
| , , i | , , i

92
La serie de Clebsch-Gordan que vimos para GL(n, C) en T r , multiplicando tableros, se aplica
inmediatamente a SU(n).

En particular, en SU(2), los tableros solo tienen una fila y son del tipo [r]: tensores completamente
simetricos con r ndices (i1 , . . . , ir = 1, 2). Aplicando la ec. (5.26), su dimension es r + 1 = 2j + 1,
es decir, j = r/2. Los estados con momento angular j se representan por tensores completamente
simetricos con 2j ndices. Si se calcula la serie de C-G se obtiene el resultado usual. Por ejemplo

=
j=3/2 j=1
(5.70)
= .
j=5/2 j=3/2 j=1/2

Igualmente, para SU(3) el producto de dos representaciones adjuntas (ji , o [2, 1], octetes)
produce

=
1 10
8 8 8 8 10 27 (5.71)

8 8 = 1 8 8 10 10 27 .
Otro ejemplo en SU(3)

=
3 1
3 8 (5.72)

3 3 = 1 8.

Es interesante notar que, para el caso particular de SU(3), ademas de elegir una forma canonica
de tipo T r para sus irreps, tambien se puede elegir representarlas canonicamente por tensores Tsr sin
traza, completamente simetricos en los ndices contravariantes y en los ndices covariantes. En
efecto, como en T r solo tiene dos filas, las columnas de longitud 2 se pueden dualizar a columnas
de longitud 1 para los ndices covariantes. Por ejemplo
   
i1 ,...,i5 ,i6 ,...,i8
, , ji11 ij22 j3 SU(3) (5.73)

En esta forma es facil verificar que las representaciones de SU(3) as definidas son irreducibles
[2]. En efecto, por teora general de representaciones, se sabe que en la serie de C-G del producto

93
de dos irreps, y M
= h|, i , (5.74)

la multiplicidad de la representacion trivial es 1 si y son conjugadas y 0 en otro caso

h1|, i = , (5.75)

Por tanto si se multiplica una representacion (en general reducible) por su conjugada
! !
M M M P
n n = n n h|, i = ( n2 )1 , (5.76)
,,

la multiplicidad de la irrep trivial nos da informacion de como se reduce, y es irreducible si y solo si


dicha multiplicidad es 1.

La irrep trivial corresponde a un tensor invariante. Al multiplicar un tensor simetrico en ndices


contravariantes y covariantes por separado y sin traza, por su conjugado
i ,...,i j ,...,j
ji11 ,...,i r 1 r i1 ,...,ir 1
,...,js (j ,...,js ) j1 ,...,js i ,...,ir ,
s
(5.77)
1 1

dado que no tiene traza, solo se puede formar un unico tensor invariante, contrayendo todos los
ndices i con los i , y los j con j . Esto implica que estas representaciones son irreducibles.

5.8. Matrices de Gell-Mann

Las matrices de Gell-Mann son una generalizacion de las matrices de Pauli para SU(3),

0 1 0 0 i 0 1 0 0
1 = 1 0 0 , 2 = i 0 0 , 3 = 0 1 0 ,
0 0 0 0 0 0 0 0 0

0 0 1 0 0 i 0 0 0
4 = 0 0 0 , 5 = 0 0 0 , 6 = 0 0 1 , (5.78)
1 0 0 i 0 0 0 1 0

0 0 0 1 0 0
1
7 = 0 0 i , 8 = 0 1 0 ,
0 i 0 3 0 0 2

Aqu se ve que el rango de SU(3) es 2, por ejemplo 3 y 8 conmutan.

94
Las matrices de Gell-Mann satisfacen las relaciones

i = i , tr(i ) = 0, tr(i j ) = 2ij (5.79)

Los generadores del algebra son Ti = 12 i (analogo a Ji = 12 i en SU(2)) de modo que las
relaciones de conmutacion son
[Ti , Tj ] = ifijk Tk , (5.80)
y las constantes de estructura fijk con completamente antisimetricas en esta base. Esto es general
para grupos compactos. La antisimetra en ij es inmediata y falta verificar fijk = fjki :

4ifijk = tr([i , j ]k ) = tr(i [j , k ]) = 4ifjki . (5.81)

El procedimiento de construccion de las matrices se extiende facilmente para otros grupos SU(n).

95
6. Metodo Monte Carlo

6.1. Introduccion

En terminos generales se denomina metodo Monte Carlo (MC) a todo tratamiento que involucra
magnitudes aleatorias para resolver un problema. El problema en s puede tener naturaleza aleatoria
o no.

6.1.1. Ejemplo de calculo Monte Carlo

Por ejemplo, supongamos que en Rd tenemos una region de bordes bien definidos de la cual
queremos calcular el volumen,47
Z Z
V = d x = dd x (x ).
d
(6.1)

Para ello podemos proceder a calcular los lmites de integracion, que definen el borde de . Sin
embargo, supongamos que no es una region facil de describir analticamente. Por ejemplo, podra
ocurrir que todo lo que sepamos es que la region cabe en el hipercubo [0, L]d ,
Z
V = dd x (x ), (6.2)
[0,L]d

y se nos proporciona un programa tal que al introducir las coordenadas de x [0, L]d nos de 0 o 1
segun que x este o no en . Un metodo es dividir [0, L]d en cubitos pequenos, de lado a L, y
evaluar (x ) en el centro de cada cubo. Si es suficientemente bien comportada de modo que
la funcion caracterstica sea integrable Riemann, nad nos estima V , siendo n el numero de puntos
dentro de , y nad V cuando a 0.

Una version MC del mismo calculo se basa en la observacion de que si se hace el experimento
de tirar (o generar) un punto al azar (pero uniformemente distribuido en [0, L]d ), la probabilidad
de que el punto caiga en es p = V /V , siendo V = Ld el volumen total del hipercubo. Por la
definicion usual (frecuencial) de probabilidad como el numero de casos favorables sobre el numero
de casos posibles, p se puede medir lanzando N puntos, x1 , . . . , xN , con N de modo que
n
p = lm , (6.3)
N N
47
Por analoga con la funcion escalon de Heaviside, (x) = 1 si x > 0 y 0 si x 0, usamos la notacion (A)
para indicar la funcion que vale 1 si la proposicion A es cierta y 0 si es falsa. As, en particular (x) = (x > 0). La
funcion (x ) = 0, 1 se denomina funcion caracterstica de .

96
siendo n el numero de casos favorables, es decir, el numero de casos i tal que xi . Una vez
obtenido p, el volumen se obtiene mediante V = pV , usando el valor conocido de V .

6.1.2. Monte Carlo y valores esperados

Lo que ha hecho el MC en este ejemplo es estimar (y en el lmite N , calcular) una


probabilidad: p es la probabilidad de que el punto x lanzado caiga o no dentro de . Una probabilidad
se puede ver como un caso particular de un valor esperado (el valor esperado o esperanza matematica
de una variable aleatoria X suele denotarse hXi o tambien E(X)) y en general, estimar valores
esperados es todo lo que puede hacer el metodo MC. Para aplicar el metodo MC a cualquier
problema hay que empezar por reducir el problema al calculo de un valor esperado. Para ver que la
probabilidad es un cierto valor esperado de algo, basta definir la variable aleatoria como (x ),
es decir, = 1 si al tirar el punto al azar uniformemente en [0, L]d este cae en , y = 0 si cae fuera.
Que sea una variable aleatoria simplemente quiere decir que es una magnitud que puede tomar
valores distintos (o no) cada vez que se realiza el mismo experimento aleatorio. En nuestro caso
el experimento es tirar un punto x al azar uniformemente en [0, L]d . Con esta definicion p = hi.
Igualmente se podra definir otro experimento aleatorio, el que consiste en tirar N puntos, todos
ellos de forma independiente unos de otros, y en este caso n (el numero de puntos que cae dentro,
de esos N ) sera una variable aleatoria, de modo que p = h Nn i.

6.1.3. Fluctuacion en estimaciones Monte Carlo

Consideremos el experimento de lanzar N puntos, y definamos la variable aleatoria N = Nn .


Puesto que p = hN i, cualquiera que sea el valor de N , incluido N = 1, podra preguntarse por
que tomamos N lo mayor posible en la practica. El motivo es que aunque las variables aleatorias 1
y N tienen el mismo valor esperado, su dispersion s depende de N , siendo menor cuanto mayor
sea N (excepto en los dos casos triviales V = 0 y V = V , correspondientes a p = 0 y p = 1
respectivamente). Para ver esto,48 notemos que la probabilidad de un cierto resultado concreto n
(para N dado) viene dado por la distribucion binomial
  XN
N n N n
pn = p (1 p) , pn = 1. (6.4)
n
n=0

Aqu p es la probabilidad de que un punto caiga


 dentro
 de y pn la probabilidad de que en total
N
caigan n puntos dentro al tirar N . El factor es el numero de modos de elegir n tiradas
n
48
El mismo resultado se obtiene mas facilmente usando las propiedades de la varianza de una suma de variables
aleatorias independientes. Aqu lo vemos dando un rodeo supuestamente pedagogico.

97
distintas de entre N , y el factor pn (1 p)N n es la probabilidad de que los puntos caigan dentro
de exactamente en las n tiradas seleccionas y solo en esas. (Aqu se ha usado que las tiradas
son independientes unas de otras.) No es difcil calcular la media y desviacion estandar de esta
distribucion. Un metodo conveniente es usar la funcion generatriz:
X X  k
n k k d
g(x) pn x , hn i = pn n = x g(x) . (6.5)
n n
dx x=1

Estas formulas son validas en general. En nuestro caso

g(x) = (xp + 1 p)N , hni = pN, hn2 i = pN + p2 N (N 1). (6.6)

Por tanto, para la dispersion


p p
N = hn2 i hni2 = N p(1 p). (6.7)

La variable aleatoria n esta centrada en pN con una dispersion que escala como N . De hecho, si
se utiliza la formula de Stirling
1
log x! = x(log x 1) + log 2x + O( ), (6.8)
x

se obtiene la forma asintotica de pn para N grande manteniendo (n pN )/ N fijo,49
1 2 2 
pn = e(npN ) /2N 1 + O(N 1/2 ) . (6.9)
2N
Es decir, para N grande se obtiene una distribucion normal, esta es una ilustracion del teorema del
lmite central.

La consecuencia pes que al medir n se obtendra un valor aleatorio alrededor de pN con una
fluctuacion de orden p(1 p)N , lo cual suele indicarse as:
p
n = pN p(1 p)N , (6.10)

y para N n/N r
p(1 p)
N = p . (6.11)
N
 
49 N N!
Para aplicar la formula de Stirling lo mejor es trabajar con log pn , usar que = y cambiar de
n n!(N n)!

variable n a x = (n pN )/ N .

98
Se deduce que conviene tomar N grande, para que la dispersion sea pequena y el valor de N que
se obtenga al hacer el experimento tenga mas probabilidad de parecerse al valor esperado.

Hay que notar que el valor esperado (igual que la probabilidad) es un concepto intuitivo que
realmente nunca llega a materializarse.50 En un experimento aleatorio, por complicado o extenso que
sea, lo unico que se obtiene siempre es una muestra de una cierta variable aleatoria; en nuestro caso,
el vector X = (x1 , . . . , xN ). La teora de la probabilidad solo hace afirmaciones sobre probabilidades
y valores esperados de estas variables aleatorias. Por ejemplo, por muy grande que sea N , la teora
no dice que N vaya a acabar coincidiendo con su esperanza matematica, p, o incluso no se puede
garantizar que |N p| < (para cualquier > 0 dado) solo por aumentar N . Aunque improbable,
podran generarse todos los puntos fuera de por casualidad, o todos dentro, etc. Lo unico que
puede afirmarse es que la probabilidad de que al hacer el experimento salga |N p| > puede hacerse
arbitrariamente pequena aumentando N . Si el experimento P se repite K veces, puede calcularse la
media de la muestra de las N as obtenidas, N = K1 K j=1 N,j , y de nuevo hN i = p pero la
situacion de fondo es la misma: por muy grande que sea K todo lo que se obtiene es una muestra
de otra variable aleatoria, a saber, X = (x1 , . . . , xKN ), y N es tambien una variable aleatoria,
ya que puede cambiar de valor cadap vez que se hace el KN -experimento. Lo que s se consigue es
reducir la dispersion, que pasa a ser p(1 p)/(KN ), y por tanto disminuir la probabilidad de que
N este lejos del valor esperado de la distribucion.

En MC, despues de reducir el problema a valores esperados de ciertas variables aleatorias, se


construye una muestra o realizacion de dichas variables mediante un experimento aleatorio, y ello
nos proporciona una estimacion de los valores esperados buscados. Por lo tanto un tema central
en MC es el de reducir lo mas posible la varianza (el cuadrado de la dispersion), para aumentar la
probabilidad de que la estimacion se parezca al valor esperado.

En el ejemplo anterior queramos calcular el volumen de , que se puede estimar por V = V N


ya que hV i = V . Teniendo en cuenta la dispersion
r ! r
p(1 p) V (V V )
V = V p = V . (6.12)
N N

(Puesto que no conocemos V no podemos calcular la dispersion exacta, pero se puede estimar a
su vez usando V como aproximacion a V .) El error relativo en la estimacion de V , es por tanto
r
V V
. (6.13)
N V
50
Aunque intuitivo, el valor esperado esta sujeto a condiciones basicas, tales como, ser lineal, h1i = 1 y hXi 0
si la variable X 0.

99
Se deduce que, aparte de tomar N grande, conviene que V sea lo mas proximo a V posible, es
decir, debemos tomar la caja (la region de Rd donde tiramos los puntos) lo mas ajustada posible
a , si tenemos esa opcion. De ningun modo conviene tomar una caja mucho mas grande de lo
necesario: si ocupa solo una pequena parte del volumen total, que un punto caiga o no dentro de
sera muy azaroso (puede variar mucho de un experimento a otro) lo cual aumenta la dispersion
en los resultados. Eso habra que compensarlo aumentando el valor de N . Concretamente, para V
grande querremos mantener constante N/V que no es mas que la densidad de puntos, de ese modo
mantendremos constante la cantidad de puntos que caigan cerca de la zona de interes .51

Tambien debe notarse que con MC no se puede calcular el volumen de directamente, sino que
es necesario reducirlo primero a un promedio de algo, y esto es lo que requiere introducir una caja
(en nuestro caso el hipercubo [0, L]d ): MC calcula el volumen de comparado con el volumen total
de la caja, a partir de la proporcion de puntos que caen dentro. El valor del volumen total de la caja
hay que proporcionarlo aparte (no lo da MC). Tomar V lo menor posible permite aumentar la senal
frente al ruido, es decir, aumentar el numero de puntos que caen en .

6.1.4. Estimacion Monte Carlo de integrales

Muy frecuentemente la forma de poder aplicar MC a un problema es reducirlo a integrales, y de


ah a promedios. Podemos generalizar el problema anterior. En vez de , tenemos una funcion f (x)
definida en [0, L]d , y queremos calcular
Z
If = dd x f (x). (6.14)
[0,L]d

De nuevo en este caso lo que se usa es un promedio


R
If [0,L]d
dd x f (x)
hf (x)i = = R , (6.15)
V [0,L]d
dd x 1

de modo que con MC se estima hf (x)i, y luego If = hf (x)iV . Igual que antes, el valor de hf (x)i
se puede estimar lanzando N puntos {x1 , . . . , xN } aleatorios independientes y uniformes en [0, L]d ,
y tomando el promedio
N
1 X
fN = f (xi ). (6.16)
N i=1
51
p
Si V es grande, p sera pequeno y el error en su estimacion, p(1 p)/N , tambien lo sera, concretamente
O(V 1/2 ). Sin embargo, al multiplicar por V para obtener V , el error pasa a O(V 1/2 ) y se magnifica a medida que
V aumenta.

100
Como se vera
f
fN = hf (x)i , f2 = hf 2 i hf i2 , (6.17)
N
de modo que, en probabilidad, fN hf (x)i cuando N . Si aplicamos esta formula al caso
f (x) = (x ), se tiene hf 2 i = hf i = V /V = p, es decir, f2 = p(1 p), como antes.

Un rasgo practicamente universal de MC es que el error disminuye como 1/ N . Dado que el
esfuerzo de calculo (tiempo de computacion) suele crecer como N (al tratarse de tiradas indepen-
dientes), se tiene que el ritmo de convergencia de un calculo MC es relativamente lento.

Por ejemplo, si se calcula Z b


If = dx f (x) (6.18)
a

con N puntos no aleatorios, sino equidistantes, xi = a+ih, i = 0, . . . , N 1, y h = (ba)/(N 1),


el error es como mucho O(h) = O(N 1 ). El metodo trapezoidal ya da O(h2 ) = O(N 2 ) si f (x)
existe y es continua. Si se utiliza un metodo un poco mas eficiente, por ejemplo, Simpson el error
pasa a ser O(h4 ) = O(N 4 ), que es considerablemente mas rapido que O(N 1/2 ) de MC. (Por
ejemplo, multiplicando por 10 el numero de puntos en RMonte Carlo el error se divide por 3, en
b
Simpson se divide por 10000.) Claramente, para calcular a dx f (x) no es practico usar MC.

Sin embargo, la utilidad de MC aparece cuando el numero de dimensiones crece. En efecto, en


d dimensiones, si ponemos K puntos Simpson en cada direccion, el error relativo sera O(h4 ) =
O(K 4 ), en cada una de las d integrales, y la suma de errores relativos para la integral completa,
tambien O(K 4 ). El numero total de puntos requeridos (evaluaciones de f (x) requeridas) es N =
K d , por tanto, el error escala como O(N 4/d ). En cambio, en MC el error sigue escalando como
O(N 1/2 ), independientemente del problema. Por este motivo MC empieza a ser menos ineficiente
que los otros metodos cuando d crece. Para Simpson, MC empieza a ser preferible cuando d > 8.
Como regla general, para problemas con muchas variables, los demas metodos se vuelven inviables y
hay que recurrir a MC. Notese que de nada sirve usar metodos de cuadraturas mas sofisticados (por
ejemplo Gauss) ya que a efectos practicos O(N 100/d ) es lo mismo que O(1) (el error no disminuye)
si d es realmente grande. Por ejemplo, para simular 1000 partculas de una gas (evidentemente poco
parecido a un gas realista, con 1023 partculas) d = 6000. O para estudiar un plasma de gluones
(cada gluon tiene cuatro polarizaciones y 8 colores) en una red 164 hay que hacer una integral sobre
d = 8 4 164 = 221 = 2.1 106 dimensiones.

Por supuesto, que MC sea preferible cuando hay muchas variables es solo la regla general. En
problemas concretos puede haber un metodo particular no MC que sea mejor. Un caso obvio es el de
integracion en muchas dimensiones, pero de una funcion separable de modo que la integral equivale

101
a d integrales unidimensionales. Lo mas eficiente sera probablemente integrar cada dimension por
separado ya que en este caso N = dK y no K d .

En resumen, MC no es un metodo disenado para obtener resultados muy precisos, pero es capaz
de dar buenas estimaciones fiables y con gran facilidad en casos en los que otros metodos fallan.

Aparte, tampoco se debe abusar de MC: generalmente sera mas eficiente calcular de modo
R L da MC. Por ejemplo, supongamos que 0
analtico todo lo que se pueda hacer as que dejarlo
d
f (x) K, x [0, L] , y queremos calcular I = 0 d x f (x) con MC.
P
Metodo a): f = N1 N d
i=1 f (xi ), con xi independientes y uniformemente distribuidos en [0, L] .
d
Puesto que I = V hf i (V = L ), se obtiene una estimacion con
f
Ia = V f = I V . (6.19)
N

y
K

f(x)

0 d x
L

Figura 8: Funcion a integrar en [0, L]d acotada entre 0 y K.

Metodo b): En Rd+1 tenemos la caja [0, L]d [0, K], que contiene la region = {(x, y)|f (x) <
y}. El volumen de es la integral pedida I, y podemos aplicar el metodo visto anteriormente: si
lanzamos N puntos y n cumplen y < f (x), KV n/N es una estimacion de I (ya que ahora KV
es el volumen total): r
n I(KV I)
Ib = KV =I . (6.20)
N N

102
Comparando las varianzas de los dos metodos, se tiene (usando I = V hf i)
N 2
( I2a ) = (Khf i hf i2 ) (hf 2 i hf i2 )
V 2 Ib (6.21)
= h(K f )f i 0.
El metodo a siempre es mas eficiente (tiene menor dispersion). De hecho la dispersion de Ib puede
ser muy grande si K es mucho mayor que el valor tpico de f (esto puede ser inevitable, por ejemplo,
si f tiene un pico alto y estrecho). El motivo es que en el metodo b se esta haciendo una integral
extra, en [0, K], mediante MC, para calcular el tamano del intervalo [0, f (x)], mientras que en
el metodo a esa integral se calcula exactamente. Como regla, se reduce la varianza haciendo las
integrales analticas directamente, si es posible, evitando usar MC ah.

Otra cosa a tener muy en cuenta es que aunque MC se base en experimentos aleatorios eso no
quiere decir que se pueda proceder de modo arbitrario. Elegir los puntos de un modo ad hoc mas o
menos aleatorio inventado por nosotros, producira resultados completamente incorrectos, especial-
mente en problemas multidimensionales, en los que, como veremos, la region donde el integrando
es relevante puede ser extremadamente pequena.

Que la arbitrariedad es inaceptable, incluso en casos simples se puede ver en el siguiente ejemplo.
Queremos saber cual es el valor promedio del area de un cuadrado elegido al azar de entre los de
lado 0 L.

Metodo a): El valor del lado esta entre 0 y L, as que promediamos sobre , teniendo en cuenta
que el area es A = 2 , RL
d 2 1
hAia = 0R L = L2 . (6.22)
d 3
0

Metodo b): El area esta entre 0 y L2 , por tanto promediamos directamente sobre A
R L2
dA A 1
hAib = R0 L2 = L2 . (6.23)
dA 2
0
Se obtienen valores distintos. El primer resultado supone lados equiprobables, mientras que el se-
gundo supone areas equiprobables, y ambas situaciones no son equivalentes. En cada caso concreto
habra que usar el tratamiento correcto, yendo al origen del problema que se estudia. Tal y como
esta, un cuadrado elegido al azar no es una afirmacion suficientemente bien definida para una
respuesta precisa. En este caso ambas prescripciones producen una estimacion similar (difieren en
un factor del orden de la unidad) pero no sera as si en lugar de un cuadrado se tratara de un
hipercubo en 106 dimensiones.

103
6.2. Probabilidad. Variables aleatorias.

6.2.1. Probabilidades

Un experimento aleatorio puede dar lugar a uno cualquiera de los resultados posibles, x. El
conjunto de resultados es el espacio muestral . Los subconjuntos A se denominan sucesos.52
Una probabilidad P definida sobre es una medida que sea positiva y normalizada:

P (A) 0, P () = 0, P (A B) = P (A) + P (B) si A B = , P () = 1. (6.24)

P (A) quiere decir P (x A), es decir, la probabilidad de que al hacer el experimento, el resultado
x que ocurra este en A. (Es equivalente hablar de probabilidades de subconjuntos o probabilidades
de proposiciones). P (x) denota P ({x}) (A = {x} en ese caso). Que P es la probabilidad definida
sobre , el conjunto de resultados x, se suele indicar con x P : x sigue o esta distribuido segun
la probabilidad P .

Dos sucesos A y B son incompatibles si son disjuntos. Otro concepto importante es el de


probabilidad condicionada, P (B|A) es la probabilidad de que el resultado x B cuando x A
(suponemos que P (A) 6= 0), y se puede expresar como
P (AB)
P (B|A) = (6.25)
P (A)

(donde P (AB) P (A B)).53 Tambien se tiene P (AB) = P (B|A)P (A) = P (A|B)P (B), que
relaciona P (A|B) con P (B|A) (Teorema de Bayes). Dos sucesos A y B son independientes cuando
P (AB) = P (A)P (B), equivalentemente P (A|B) = P (A) o P (B|A) = P (B).

Si Ai , i = 1, . . . , n es una particion de , es decir ni=1 Ai = y Ai Aj = si i 6= j, entonces


BAi es una particion de B, y
n
X n
X
P (B) = P (BAi ) = P (B|Ai )P (Ai ), (6.26)
i=1 i=1

es decir, la probabilidad de un suceso se puede obtener si se conocen su probabilidad condicionada


a un conjunto de alternativas, y las probabilidades de estas.
52
Para simplificar suponemos que todos los subconjuntos son admisibles.
53
En realidad todas las probabilidades son condicionadas; P (A) es realmente P (A|), siempre puede suponerse
que hay un espacio muestral mayor respecto del cual es un subconjunto.

104
P = {xi , i = 1, 2, . . .}, y cada xi tiene
Si es un conjunto discreto (finito o infinito numerable),
una probabilidad que denotamos pi , con 0 pi 1, i pi = 1. La funcion p : i {1, 2, . . .}
pi [0, 1], es la funcion de distribucion de la probabilidad, y se indica x p.

Si es continuo, un subconjunto de Rd o una variedad d-dimensional, podemos tomar un


sistema de coordenadas,54 x, y considerar una particion de formada por elementos infinitesimales
de volumen (x, dd x), cada uno con una probabilidad infinitesimal dd x p(x), p(x) 0, de modo que
Z Z Z
d d
d x p(x) = 1, P (A) = d x p(x) = dd x p(x) (x A). (6.27)
A

La funcion p(x) se denomina densidad de probabilidad. Con cierto abuso de lenguaje se puede
indicar x p(x). Sin embargo es importante tener en cuenta que la densidad de probabilidad p(x)
es una funcion que cambia al cambiar de sistema de coordenadas usado para describir . En efecto,
si x es otro sistema de coordenadas
Z Z Z
d d

d x
P (A) = d x p(x) = d x p (x ) = d x p (x ). (6.28)
A A A x
Como esta relacion vale para A arbitrario, se tiene
 i 
x x
p(x) = p (x (x)), det x (x) . (6.29)
x x x j

Por tanto, aunque P (A) y dd x p(x) (la probabilidad de un elemento de volumen infinitesimal) no
dependen del sistema de coordenadas, dd x y p(x) por separado s dependen. Por ejemplo, si x tiene
dimensiones de longitud, L, dd x p(x) es adimensional pero p(x) tiene dimensiones Ld (y si se
cambia de unidades, cambia su valor).55

6.2.2. Deltas de Dirac

La delta de Dirac en d dimensiones, (x),56 es una distribucion o funcion generalizada cuya


propiedad definitoria es Z
dd x (x y)f (x) = f (y), (6.30)

54
En general no usaremos negrita para enfatizar que x son d coordenadas.
55
La magnitudes que no cambian de valor al cambiar de coordenadas, F (x) = F (x (x)), se denominan escalares,
las que cambian con el jacobiano, densidades. Para variables continuas, la moda (valor mas probable) depende de la
variable que se use.
56
A veces se escribe (d) (x) para indicar que es la delta en d dimensiones.

105
siendo f (x) cualquier funcion ordinaria suficientemente bien comportada. Una consecuencia inme-
diata es (x)f (x) = (x)f (0). Y tambien
Z
dd x (x y) = (y A). (6.31)
A

La delta d-dimensional no es mas que el producto de las d deltas unidimensionales


d
Y
(x y) = (xi y i ). (6.32)
i=1

Intuitivamente
R (x) es + en x = 0 y cero si x 6= 0, pero no toda familia de funciones f (x, )
tal que dxf (x, ) = 1 y f (x, ) 0 (x =6 0) tiende a (x). Por ejemplo,
0

1
f (x, ) = (x) + ((x + ) (x )) (x) + (x) 6= (x). (6.33)
2
R
(La distribucion (x) se define integrando por partes, dx (x)f (x) = f (0).) Una forma de
obtener (x) es como el lmite h(x/a)/a para a 0+ , siendo h(x) una funcion continua con
integral 1.

Tampoco es cierto que (x) = (x), de hecho


1
(x) = (x) ( 6= 0). (6.34)
||
En efecto,
Z Z Z
1 1 1
dx (x)f (x) = d(||x) (x)f (x) = dy (y)f (y/) = f (0). (6.35)
|| || ||
Una formula util, que se demuestra de la misma forma, es la siguiente: si f (x) tiene ceros simples
en {xi }ni=1 , y es derivable ah,
Xn
(x xi )
(f (x)) = (x )|
. (6.36)
i=1
|f i

Estas expresiones indican que (x) es una densidad bajo cambios de coordenadas. En efecto, si
y(x) es invertible y se anula en x = 0
 i 
x

(y(x)) = det (x). (6.37)
y j

106
Equivalentemente, dd y (y) = dd x (x). Si x tiene dimensiones, digamos L, (x) tiene dimensiones
Ld .

El caso discreto Prob(xi ) = pi se podra incluir en el continuo asignando una densidad de


probabilidad X
p(x) = pi (x xi ), (6.38)
iI

donde (x xi ) es la delta de Dirac d-dimensional centrada en xi , ya que esta densidad reproduce


correctamente X
P (A) = pi . (6.39)
xi A

6.2.3. Variables aleatorias

Una variable aleatoria real es cualquier funcion f (x) real definida sobre , f : x 7
f (x) R. Al realizar el experimento aleatorio se obtiene un cierto resultado x y la variable aleatoria
toma el valor f (x) en ese caso. Por ejemplo, el experimento puede ser tirar dos dados y f el valor de
la suma de los puntos de las dos caras. Igualmente se pueden definir variables aleatorias que tomen
valores en Rn , C, operadores, etc. Generalmente interesa que se trate de un espacio vectorial sobre
los reales, para definir valores esperados de la variable. Si no se dice otra cosa se supondra que las
variables son reales o en Rn .

El valor esperado o esperanza matematica de f (x) se denota hf i o E(f ). Si es discreto,


X
hf i = pi fi , fi = f (xi ). (6.40)
iI

Si es continuo Z
hf i = dd x p(x)f (x). (6.41)

Si hay mas de una distribucion de probabilidad posible lo indicamos con un subndice:
Z
hf iP = dd x p(x)f (x). (6.42)

El valor esperado es lineal (respecto de f ), no negativo si la variable aleatoria es no negativa y el valor


esperado de 1 es 1. Y viceversa, una aplicacion f hf i con esta propiedades define unvocamente
una densidad de probabilidad p(x) (anadiendo algunas condiciones de regularidad sobre el espacio
de las f admisibles).

107
Notacion: a menudo se da mas informacion escribiendo hf (x)i que hf i, por ejemplo hx2 i nos
ahorra tener que definir previamente f (x) x2 . Sin embargo es evidente que hx2 i no es ella misma
una funcion de x; el x esta integrado. La notacion usual es la siguiente
Z
hf (X)i = dd x p(x)f (x). (6.43)

Aqu f (X) es una variable aleatoria: no elegimos nosotros su valor, sino que lo hace el experimento
aleatorio. Se utiliza x para denotar cada uno de los resultados concretos posibles. Se utiliza X para
denotar la variable aleatoria en abstracto. Por otro lado, como se comento en la Sec. 6.1.3, al final lo
unico que se tiene siempre es una muestra del resultado conjunto de todo el experimento aleatorio
llevado a cabo, por ello tambien se usa X para denotar el resultado concreto del experimento, es
decir, no nos molestamos en distinguir entre la variable en abstracto y el resultado concreto obtenido.

Tambien se define el valor esperado condicionado:


R d
d x p(x)f (x) hf (X) (X A)i
hf (X)|Ai = AR d = . (6.44)
A
d x p(x) h(X A)i

(Tambien se denota E(f (X)|A).) El promedio se toma solo sobre los casos en que x A, y se
normaliza de modo que el promedio de f = 1 sea 1 de nuevo.

La probabilidad se puede recuperar a partir del valor esperado, ya que


Z Z
d
P (A) = d x p(x) = dd x p(x) (x A) = h(X A)i. (6.45)
A

Del mismo modo se obtiene la densidad de probabilidad:


Z
p(x) = dd x p(x )(x x) = h(X x)i. (6.46)

Intuitivamente: p(x) es la probabilidad de que X caiga en x y estos son los casos seleccionados
por (X x).

Esto se puede generalizar: dada una variable aleatoria real Z = f (X) cualquiera se puede definir
su densidad de probabilidad asociada mediante

pZ (z) h(Z z)i = h(f (X) z)i. (6.47)

108
Esta densidad de probabilidad permite calcular los valores esperados de variables aleatorias que
dependan de X a traves de Z:
Z Z Z
d d
hh(Z)i = d x p(x)h(f (x)) = d x p(x) dzh(z)(f (x) z)
Z Z (6.48)
= dz h(f (X) z)ih(z) = dz pZ (z)h(z).

Si se tiene pZ (z) se puede calcular hF (Z)i sin necesidad de referirse a las variables subyacentes X
y p(x).

Tambien se define la funcion de distribucion acumulada de un variable Z como


Z z
dPZ (z)
PZ (z) Prob(Z < z) = dz pZ (z ), pZ (z) = 0. (6.49)
dz
La virtud de la probabilidad acumulada es que, a diferencia de la densidad de probabilidad, es un
escalar bajo cambios de variable z. En el caso discreto, la probabilidad acumulada es una funcion
escalonada X
PZ (z) pi . (6.50)
zi z

Si zi es estrictamente creciente, zi < zi+1 , pi = PZ (zi ) PZ (zi1 ).

La construccion de la densidad de probabilidad se puede generalizar para varias variables aleatorias


Zi , i = 1, . . . , n, o Z Rn :
n
Y
pZ (z) h(Z z)i = h (Zi zi )i. (6.51)
i=1

Si solo se necesitan variables aleatorias que sean funciones de estas n variables, esta es la densidad
de probabilidad mas detallada requerida, pues permite obtener todos los valores esperados:
Z
hF (Z)i = dn z pZ (z)F (z), (6.52)

as como la densidad de probabilidad de otra variable construida con las Z, G(Z):


Z
pG (g) = h(G(Z) g)i = dn z pZ (z) (G(z) g). (6.53)

De esta discusion se concluye que no hay una diferencia fundamental entre variables derivadas, Z,
y variables subyacentes, X: en realidad estas X podran ser a su vez variables derivadas de otras

109
mas detalladas Y . Se puede trabajar todo el tiempo con un conjunto de variables sin necesidad de
especificar en ningun momento si estas son variables derivadas o no.

Trabajando con Z y variables derivadas de estas, pZ (z) es la densidad mas detallada. Si se quiere
solo un subconjunto de ellas, por ejemplo Z1 , Z2 , se puede obtener su probabilidad marginal
Z
pZ1 ,Z2 (z1 , z2 ) = dz3 . . . dzn pZ (z1 , z2 , z3 , . . . zn ) = h(Z1 z1 )(Z2 z2 )i. (6.54)

Tambien se define la densidad de probabilidad condicionada de unas variables respecto de otras,


por ejemplo

h(Z1 z1 )(Z2 z2 )(Z3 z3 )i pZ ,Z ,Z (z1 , z2 , z3 )


pZ1 ,Z2 |Z3 (z1 , z2 |z3 ) = = 1 2 3 . (6.55)
h(Z3 z3 )i pZ3 (z3 )

Esta probabilidad esta correctamente normalizada para todo z3


Z
dz1 dz2 pZ1 ,Z2 |Z3 (z1 , z2 |z3 ) = 1. (6.56)

Dos conjuntos de variables, X = (X1 , . . . , Xn ) e Y = (Y1 , . . . , Ym ) se dicen que son indepen-


dientes (unas de otras) cuando

pX,Y (x, y) = pX (x)pY (y). (6.57)

(Y analogamente para tres o mas conjuntos de variables.) En este caso, para la probabilidad condi-
cionada
pX|Y (x|y) = pX (x), (6.58)
y tambien
hf (X)g(Y )i = hf (X)ihg(Y )i. (6.59)
Y viceversa, si ec. (6.59) se cumple para funciones arbitrarias f y g, las variables X y Y son
independientes. (En efecto, basta tomar f (X) = (X x) y g(Y ) = (Y y).)

Ejemplo. Si X e Y son dos variables aleatorias con densidad de probabilidad pX,Y (x, y) podemos
calcular la densidad de probabilidad de Z = X + Y
Z Z
pX+Y (z) = dxdy pX,Y (x, y)(x + y z) = dx pX,Y (x, z x). (6.60)

110
Si X e Y son variables son independientes, pX,Y (x, y) = pX (x)pY (y),
Z
pX+Y (z) = dx pX (x) pY (z x) (pX pY )(z) (convolucion de pX e pY ). (6.61)

PN
Mas generalmente, para la suma de N variables independientes, Z = i=1 Xi ,

pZ (z) = (pX1 pXN )(z). (6.62)

(La convolucion es asociativa y conmutativa.) Si en lugar de la suma se toma la media aritmetica


N
1 X
X = Xi , pX (z) = N (pX1 pXn )(N z). (6.63)
N i=1

Una forma practica de convolucionar es mediante transformada de Fourier, ya que si


Z + Z +
dk
f(k) = e ikx
f (x)dx, f (x) = eikx f(x) ,
2 (6.64)

f (x) = (f1 f2 )(x) f (k) = f1 (k)f2 (k).

Respecto de la transformada de Fourier, tambien es interesante la relacion


Z X
ikx ikX (ik)n n
pX (k) = dx e pX (x) = he i= hX i, (6.65)
n=0
n!

es decir, es la funcion generatriz de los momentos de la distribucion p(x). Analogamente en d


dimensiones (X = (X 1 , . . . , X d ) son d variables cualesquiera)

X d d
ikX (i)n X X
pX (k) = he i= ki1 kin hX i1 X in i. (6.66)
n=0
n! i1 =1 in =1

La varianza de una variable real X se define


2
Var(X) = X = h(X hXi)2 i = hX 2 i hXi2 . (6.67)

La varianza es no negativa, y su raz cuadrada positiva es la dispersion o desviacion estandar,


X . Es una medida de cuanto puede fluctuar X alrededor de su valor medio. Analogamente la

111
covarianza de dos variables X e Y se define57

cov(X, Y ) = h(X hXi)(Y hY i)i = hXY i hXihY i. (6.68)

Un covarianza positiva indica que cuando una de las variables esta por encima de su media la otra
tiende a estar tambien por encima (dem por debajo). Una covariancia negativa indica lo contrario:
cuando una de las variables esta por encima de su media la otra tiende a estar por debajo. Cuando
la variables son independientes su covarianza se anula (pero no necesariamente al reves).

La varianza de la suma de variables se puede expresar como


X X X X
Var( Xi ) = cov(Xi , Xj ) = Var(Xi ) + 2 cov(Xi , Xj ), (6.69)
i i,j i i<j

por tanto, cuando las variables Xi son independientes


X X
Var( Xi ) = Var(Xi ) (variables independientes). (6.70)
i i

6.3. Metodo Monte Carlo

Podemos ahora deducir la formula fundamental del calculo Monte Carlo de integrales. Todo es
analogo para el caso discreto.

Sea f (x) una funcion real definida sobre Rd . Aunque el metodo funciona igual cuando f
toma valores en un espacio vectorial cualquiera, la formula de la dispersion es mas simple si f es
real. Lo que queremos calcular es
Z Z
d
If d x p(x) f (x), donde p(x) 0, dd x p(x) = 1. (6.71)

La funcion no negativa normalizada p puede o no tener la naturaleza de una densidad de probabilidad


definida sobre Rd (u otra variedad d dimensional) pero en todo caso se puede utilizar como si lo
fuera a efectos de calculo. Con esta interpretacion

If = hf (X)ip hf i. (6.72)
57
En calculo numerico, las versiones basadas en h(X hXi)(Y hY i)i son preferibles a las basadas en hXY i
hXihY i ya que esta forma tiende a reforzar el error de redondeo. La misma observacion se aplica a la estimacion
numerica de la varianza.

112
Sean Xi , i = 1, . . . , N , N variables aleatorias independientes identicamente distribuidas (iid.)
segun p, Xi p. Esto quiere decir que su densidad de probabilidad conjunta es

pX1 ,...,XN (x1 , . . . , xN ) = p(x1 ) p(xN ). (6.73)

El conjunto {Xi }N
i=1 forma la muestra. Se define la media de la muestra (otra variable aleatoria)
como
N
1 X
f f (Xi ) (6.74)
N i=1
que nos proporciona una estimacion no sesgada de hf i
N N
1 X 1 X
hfi = hf (Xi )i = hf i = hf i. (6.75)
N i=1 N i=1

(Observese que aqu no se ha requerido que las variables sean independientes.)

La ley de los grandes numeros afirma que de hecho f hf i con probabilidad uno, cuando
N :
> 0 lm Prob(|f hf i| ) = 1. (6.76)
N

Este teorema solo requiere que exista hf i (es decir, que la integral If converja).

En cuanto a la dispersion del estimador f

X N
1 1 X 1 2
Var(f) = Var( f (X i )) = Var(f (X i )) = f , (6.77)
N2 i
N 2
i=1
N

En la segunda igualdad se ha usado que las variables son independientes y en la tercera que estan
distribuidas segun p. Aqu
Z
2 2 2
f = hf i hf i = dd x p(x) (f (x) hf i)2 . (6.78)

Se deduce que
f
f = hf i . (6.79)
N

Suponiendo que f < , el error en la estimacion disminuye (en probabilidad) como 1/ N al
aumentar N .

113
Cuando, ademas de converger hf i, tambien converge hf 2 i, o equivalentemente, f < , se
aplica el teorema del lmite central. Este teorema afirma que, en el lmite N , la variable
f sigue una distribucion normal centrada en hf i y con dispersion f / N . En otras palabras, en el
f hf i
2
e /2
lmite N la distribucion de probabilidad de la variable tiende a . Para
f / N 2
una distribucion normal, la probabilidad de que la variable se aparte de su media menos de 1, 2, 3,
4, 5, . . . , desviaciones estandar es 68.2689 %, 95.4500 %, 99.7300 %, 99.9937 %, 99.9999 %,. . .

Para N finito la distribucion no es normal, pero se pueden aplicar relaciones mas generales, como
la desigualdad de Chebyshev [7]
 1
> 0 Prob |X hXi| X 2 . (6.80)

Por ejemplo, la probabilidad de que X diste de su media mas de 5 desviaciones estandar ( = 5) no
puede superar el 4 %. Esta desigualdad es valida cualquiera que sea la distribucion de probabilidad
de X. Para distribuciones concretas pueden darse cotas mejores, como se ha visto en el caso de la
distribucion normal.

En la practica P
lo que se tiene es una muestra de las variables Xi , con la cual se construye la

estimacion f = N N
1
i=1 f (Xi ) de hf i. Es muy importante notar

que la dispersion en f (Xi ) es f y
no disminuye con N , mientras
que la dispersion de f es f / N (si los N Xi son independientes),

que disminuye como 1/ N al aumentar N .

El valor de f2 no se conoce y lo que suele hacerse es estimarlo a su vez a partir de la varianza


de la muestra:
N
1 X
2
Sf (fi f)2 , fi f (Xi ). (6.81)
N 1 i=1
Sf2 es ella misma una variable aleatoria, igual que f. (Intuitivamente el N 1 se debe a que, de los
P
N valores fi f, solo N 1 independientes, por la relacion N
i=1 (fi f ) = 0.) La varianza de la
muestra es un estimador no sesgado de la varianza de la variable:
hSf2 i = f2 . (6.82)
En efecto, ya que
N
Sf2 = (f 2 (f)2 ), hf 2 i = hf 2 i,
N 1 !
1 X X 1 N 1 2 (6.83)
(f)2 = 2 fi2 + fi fj , h(f)2 i = hf 2 i + hf i .
N i i6=j
N N

114
Por otro lado, por la ley de los grandes numeros, aplicada a f y f 2 , se deduce que Sf2 tiende a
f2 con probabilidad 1 cuando N :

Sf
hf i = f (con probabilidad 1 para N ). (6.84)
N
Por supuesto, dado que Sf es una variable aleatoria, en un experimento concreto puede ocurrir que
Sf no sea una buena estimacion de f , o bien N puede no ser lo suficientemente grande.

6.3.1. Promedios pesados

Con mucha frecuencia el problema que se quiere resolver es estimar el valor de


R d Z
d x w(x) f (x)
hf i = R
d x w(x)
, w(x) 0, N dd x w(x) < +, (6.85)

d

donde w es un peso no negativo normalizable pero no normalizado. Este problema se reduce al


anterior definiendo
1
p(x) w(x). (6.86)
N
Sin embargo, a menudo la normalizacion N no se conoce y tampoco es facilmente calculable (cuando
d 1). En realidad, como se vera, no es necesario conocer N para hacer un muestreo de la
distribucion p(x), es decir, construir una sucesion de variables aleatorias independientes tales que
Xi p. Por abuso de lenguaje, tambien se suele denotar Xi w, aunque w no este normalizada.

Ejemplo. Si (x) es la funcion de onda no normalizada de M partculas, x Rd , d = 3M ,


con hamiltoniano H = T + V (energa cinetica mas potencial)
R d
d x |(x)|2 V (x)
hV (x)i = R , (Valor esperado del potencial). (6.87)
dd x |(x)|2

Por otro lado si (x) es un autoestado de H, podemos aplicar el teorema del virial
1
hT i = h x V (x)i. (6.88)
2
Siendo autoestado se podra obtener la energa mediante H = E, y de ah hT i = E hV i,
sin embargo, esta metodo no sera viable si no se tiene (x) en forma analtica, mientras que la
estimacion MC puede usarse aunque solo se tenga una muestra de la densidad de probabilidad
|(x)|2 en un conjunto de puntos.

115
Ejemplo. (Mecanica estadstica clasica): Sea la configuracion del sistema. Por ejemplo,
: {, }
en un sistema de espines , , en una red con nodos Zd , Cada
n 7 n = o
funcion es una configuracion.

Cada configuracion tiene una energa E(). La funcion de particion a temperatura absoluta T
se define como X
Z= eE()/kT , (6.89)

donde k es la constante de Boltzmann. De acuerdo con Boltzmann y Gibbs, la probabilidad de la


configuracion a temperatura T es
1 E()/kT X
p() = e , p() = 1. (6.90)
Z

A temperaturas fras el sistema esta congelado en los estados de mas baja energa, a temperaturas
mayores la probabilidad de poblar estados mas energeticos aumenta.58

La energa interna U es el valor esperado de la energa


P
X w()E()
U = hEi = p()E() = P , w() = eE()/kT . (6.91)
w()

No es necesario conocer Z, sino que se puede hacer un muestreo de w(), y estimar la energa
interna con un MC
N
1 X
hEi = lm E(i ) (con prob. 1), i eE()/kT . (6.92)
N N
i=1

Para calcular Z, que es la normalizacion del peso w(), no se puede usar simplemente un MC
basado en w() y hay que emplear un metodo indirecto, por ejemplo

d log Z 1
= U, . (6.93)
d kT
58
Por otro lado, el numero de estados con una energa dadaR E crece rapidamente con la energa, de modo que si
(E) es la densidad de estados por unidad de energa, Z = dE (E) eE/kT , el integrando tiene un maximo en
una E(T ) que crece con la temperatura.

116
U (T ) se puede calcular con MC y luego integrar numericamente sobre , con la condicion de
contorno Z N0 eE0 , siendo E0 el mnimo de E() (estado fundamental), y N0 el numero de
T 0
configuraciones con energa E0 (degeneracion del estado fundamental). Tambien se podra usar un
metodo basado en reweighting (ver Sec. 6.4.8) pero en general eso da resultados con grandes barras
de error.

Para ver aplicaciones del metodo MC en integral de caminos puede consultarse [9].

6.4. Metodos de muestreo

Para calcular los promedios citados es necesario saber generar variables X distribuidas segun
una densidad de probabilidad p(x) dada definida en un Rd , X p(x). Esto quiere decir que
Z
Prob(X A) = dd x p(x) A , (6.94)
A

o en el caso discreto X
Prob(X A) = pi A . (6.95)
xi A

Un metodo de muestreo de p es un algoritmo que construya variables independientes distribuidas


segun p.

L 0 L x

Figura 9: Pesos relativos 1 en la mitad izquierda y 2 en la derecha. En un muestreo correcto los


puntos Xi deben caer con el doble de probabilidad a la derecha de 0. Asimismo, deben caer de modo
equiprobable a lo largo del intervalo [L, 0] y tambien en [0, L].

Ejemplo. Si por ejemplo los resultados del experimento son numeros reales x [L, L] con

117

1 x<0
pesos w(x) = , la densidad de probabilidad sera
2 x>0

1 2
p(x) = (L < x < 0) + (0 < x < L). (6.96)
3L 3L
Los puntos Xi deben caer con igual probabilidad en todo el intervalo L < x < 0 y lo mismo en
0 < x < L, y con el doble de probabilidad en x > 0 que en x < 0. Eso no quiere decir que al
lanzar N puntos , N/3 caigan necesariamente a la izquierda y 2N/3 a la derecha de 0. Mas bien, si
se generan
  N puntos independientes, la probabilidad de que n caigan en la parte positiva debe ser
N 2n
, de acuerdo con la distribucion binomial. A medida que N crece las desviaciones respecto
n 3N

de las proporciones 1 : 2 deben disminuir como 1/ N .

6.4.1. Numeros pseudo aleatorios

Para construir los algoritmos de muestreo, generalmente se hace uso de numeros pseudo
aleatorios. Estos son numeros generados por ordenador, completamente deterministas pero que
pasan una amplia gama de tests de aleatoriedad. Por ejemplo, para una generador de bits (los
resultados son 0 o 1 con probabilidad 1/2), se requiere que 0 y 1 salgan al 50 % en un tirada de N
bits, cuando N es grande, y que las desviaciones sean consistentes con lo que predice la teora de
la probabilidad. Se requiere que despues de 0 siga la cadena 110 una de cada 8 veces, en promedio,
que la frecuencia de aparicion de 5 unos seguidos sea la correcta, etc, etc. En [10] hay herramientas
para medir la aleatoriedad de un generador de numeros pseudo aleatorios dado.

Los generadores de numeros pseudo aleatorios suelen producir sucesiones periodicas. Importa que
tengan un periodo largo, que sean poco costosos de producir y que sean suficientemente aleatorios.
Muchas malas experiencias indican que deben usarse generadores de numeros pseudo aleatorios
que sean bien entendidos y ampliamente contrastados. Un mal generador puede producir resultados
directamente incorrectos al usarlos en MC. De ningun modo debe usarse un generador desconocido
(y mucho menos uno casero), aunque parezca aleatorio, ni siquiera los que vienen en el hardware
de los ordenadores. Fortran 90 viene con un generador, random number (con random seed), que se
supone que es fiable (aunque el algoritmo depende del compilador) [11]. El uso de este generador
se ilustra en [12].

Que los numeros pseudo aleatorios sean deterministas tiene la ventaja de que se puede reproducir
un calculo sin tener que guardar la lista de numeros que ha ido saliendo. Tambien existen generadores

118
de numeros aleatorios (basados en procesos fsicos) pero son mas costosos y menos practicos en el
contexto de MC.59

Los generadores suelen producir numeros pseudo aleatorios (aproximadamente) uniformemente


distribuidos entre 0 y 1 e independientes. La densidad de probabilidad asociada es p(u) = (0 <
u < 1) 60 y esta distribucion se suele denotar U(0, 1) (distribucion uniforme), U U(0, 1). Para
esta distribucion
a, b 0 a b 1, Prob(a < U < b) = b a. (6.97)

Todas las demas distribuciones se pueden construir a partir de la uniforme. Es decir, si X es una
variable aleatoria con distribucion pX (x)61

X = f (U1 , U2 , . . . , Un ) (6.98)

donde las Ui son n variables uniformes en (0, 1) e independientes (proporcionadas por el generador
de numeros pseudo aleatorios), y f es una funcion adecuada tal que X pX :
Z 1 Z 1 Z 1
pX (x) = du1 du2 dun (x f (u1 , u2 , . . . , un )). (6.99)
0 0 0

Notese que lo unico aleatorio aqu son las Ui . f es una funcion fija perfectamente bien definida en
cada caso. f equivale a un algoritmo para combinar las Ui y a menudo no es necesario explicitar f
como funcion sino solo describir (o programar) el algoritmo asociado. A diferencia de la funcion pX ,
el algoritmo f no es ni mucho menos unico y suele ser crucial elegir algoritmos que sean eficientes.

6.4.2. Distribuciones de variables discretas

Ejemplo. Generar un bit X = 0, 1, con probabilidad p0 = 1 p y p1 = p. Aqu p es un


parametro entre 0 y 1 que caracteriza la distribucion. Se puede usar el siguiente algoritmo

1 U p
X = (p U ) = , U U(0, 1). (6.100)
0 U >p
59
Numero aleatorios (frente a pseudo aleatorios) se usan en criptografa y en casos en los cuales es importante
que el proceso no se pueda reproducir para no desvelar informacion que se quiere mantener secreta. Como son muy
costosos de producir, principalmente se usan para generar la semilla de una sucesion de numeros pseudo aleatorios.
60
Dependiendo del generador 0 y/o 1 pueden estar incluidos o no. Idealmente esto no debera ser relevante para
MC, al ser {0} {1} un conjunto de medida nula.
61
Esto es una simplificacion. Mas generalmente, X se construye mediante algun algoritmo bien definido pero que
puede involucrar un numero indefinido de variables Ui . Este es caso de los algoritmos de aceptacion-rechazo.

119
En efecto, Prob(X = 1) = Prob(U p) = p. (De nuevo, es irrelevante poner U p o U < p,
para concretar ponemos lo primero.)

Ejemplo. Queremos generar P una variable discreta con valores X = 1, . . . , n, cada uno con una
probabilidad pi dada (0 pi , i pi = 1). Un algoritmo es
X X
X=i sii pj < U pj , U U(0, 1). (6.101)
j<i ji

Se genera U y se van sumando las pj ; X = i es el primer valor de i tal que U p1 + + pi . Este

U X=3

0 p1 p2 p3 p4 1

Figura 10: En el ejemplo, p1 + p2 < U < p1 + p2 + p3 , por tanto X = 3 en este caso.

metodo vale igual para n finito o infinito. Si P


se van a hacer muchas extracciones puede convenir
calcular y guardar las sumas parciales, si ji pj . En este caso, dado U se busca el primer i
tal que U si . Alternativamente, se pueden guardan algunas sumas parciales, por ejemplo, las de
bloques de tamano m, sm , s2m , etc. En este caso se procede a sortear primero el bloque, y luego
dentro del bloque, entre los m valores posibles.

Ejemplo. (Casos equiprobables.) Lo anterior es para un caso general, con pi arbitrarias. Para
n casos equiprobables, no es necesario hacer una busqueda sobre los casos, simplemente

X = nU . (6.102)

La funcion techo, x, quiere decir redondear a entero por arriba (es decir, el menor entero mayor
o igual que x). Cuando U recorre uniformemente (0, 1), nU recorre (0, n) y nU tiene la misma
probabilidad de tomar cualquiera de los valores 1, . . . , n.

Ejemplo. (Metodo de alias.) Para el caso general, la busqueda de primer i tal que U si
puede ser costosa. Si hay que hacerla muchas veces y n es grande, puede ser conveniente usar el
metodo alternativo de alias. Veamos como funciona con un ejemplo. Supongamos que tenemos n =
4 casos, con probabilidades p1 = 0.36, p2 = 0.34, p3 = 0.10 y p4 = 0.20. Lo que se hace es construir
2n = 8 casos organizados en n = 4 columnas equiprobables (probabilidad 1/n = 0.25 cada una). El
resultado final esta en la tabla de la derecha. Los 4 casos originales estan ahora repartidos en 8. Por

120
1 2 3 4 0.25 0.25 0.25 0.25
0.36 0.34 0.10 0.20 0.103 0.204 0.211 0.252
0.21 0.34 0.20 0.151 0.052 0.042 0.002
0.21 0.29
0.25
Cuadro 1: A la izquierda evolucion de las probabilidades en las 4 iteraciones. A la derecha resul-
tado final de la distribucion en 8 casos. El valor de i aparece como subndice. Las 4 columnas son
equiprobables.

ejemplo, el caso 2 aparece en cuatro sitios, con probabilidad total 0.05 + 0.04 + 0.25 + 0.00 = 0.34.
Para usar la tabla, se sortea entre los 8 casos con las probabilidades indicadas, pero como cada
columna es equiprobable, basta sortear primero la columna, lo cual no requiere hacer una busqueda,
y una vez determinada la columna, se sortea entre los dos casos de esa columna. Por ejemplo, para la
tercera, habra una probabilidad 0.21/0.25 = 0.84 para el caso 1 y una probabilidad 0.04/0.25 = 0.16
para el caso 2.

Para construir la tabla de la derecha, en la primera iteracion se toma el caso menos probable
(el 3, con probabilidad 0.10) que ocupara la posicion de arriba de la primera columna. La columna
se completa con lo que haga falta hasta 0.25 del caso mas probable (el 1, del cual tomamos 0.15).
Despues de descontar esas probabilidades transferidas a la tabla, las nuevas probabilidades son las
indicadas en la segunda lnea de la izquierda (0.21, 0.34, 0.00 y 0.20). En la segunda iteracion se
procede del mismo modo: se mueve la probabilidad mas pequena (0.20 del caso 4) a la segunda
columna arriba, y se completa la columna con el caso mas probable hasta 0.25 (transferimos 0.05
del caso 2). Las probabilidades quedan como se indica en la tercera lnea (0.21, 0.29, 0.00 y 0.00).
Se procede del mismo modo con las dos columnas restantes.

El metodo de alias evita hacer una busqueda pero requiere el trabajo previo de construir y guardar
la informacion de la tabla. No puede aplicarse (al menos tal cual) al caso n infinito.

Ejemplo. (Distribucion de Poisson). Una variable discreta n = 0, 1, . . . sigue una distribucion


de Poisson con media si
n
Pn = e , n = 0, 1, 2, . . . (6.103)
n!
P
Es inmediato comprobar que esta normalizada, n=0 Pn = 1, as como que62
hni = , Var(n) = . (6.104)
62
Este resultado se puede obtener usando la funcion generatriz (pag. 98) g(x) = e(x1) .

121
La distribucion de Poisson es el lmite de la binomial cuando N es grande y p pequena, con
= pN y n fijos. Una realizacion de la distribucion de Poisson es una fuente emisora estacionaria
(por ejemplo una muestra radioactiva de vida media larga, una cola de llegada de clientes) tal que
los lapsos entre dos emisiones sucesivas n sean variables aleatorias independientes con distribucion
exponencial n ( )e (eligiendo las unidades para que el ritmo de emision sea una emision por
unidad de tiempo en media). Es instructivo ver que en efecto, el numero de emisiones, n, despues
de un tiempo sigue una distribucion de Poisson. Y ademas proporciona un metodo para muestrear
esta distribucion.

Por hipotesis los lapsos k , k = 1, 2, . . ., son independientes y siguen una distribucion ( )e .


Los tiempos en los que se producen las emisiones n = 1, 2, . . . son
T n = 1 + 2 + + n , n = 1, 2, . . . (6.105)
El algoritmo es generar 1 y si T1 = 1 > , n = 0. En otro caso, se genera 2 . Si T2 = 1 + 2 > ,
n = 1. Y as sucesivamente. La probabilidad de obtener un valor n es
Z
Pn () = Prob(Tn < Tn+1 ) = dtn dtn+1 pTn ,Tn+1 (tn , tn+1 ) (tn < tn+1 ). (6.106)

Como las emisiones son independientes


pTn ,Tn+1 (tn , tn+1 ) = pTn+1 |Tn (tn+1 |tn ) pTn (tn ) = e(tn+1 tn ) pTn (tn ) (tn+1 tn ). (6.107)
De aqu,
Z Z Z
n+1
Pn () = dtn dn+1 pTn (tn )( tn )(tn + n+1 )e = dtn pTn (tn )e(tn ) .
0 0 0
P (6.108)
Necesitamos pTn . Como Tn = nk=1 k y las k son independientes, pTn es la convolucion de las n
distribuciones p ( ) = e ( )
n
pTn (tn ) = (p p )(tn ) pn
(tn ). (6.109)
Una forma practica de proceder es tomar transformada de Fourier
Z +
1 1
p (k) = d e eik = , pTn (k) = . (6.110)
0 1 + ik (1 + ik)n
(Comprobamos que p (0) = 1, la normalizacion es correcta.) Entonces
Z +
dk iktn 1 eiktn tn tn
n1
pTn (tn ) = e = 2i Res = e . (6.111)
2 (1 + ik)n k=i (1 + ik)n (n 1)!

122
R
(De nuevo se comprueba que 0
dtn pTn (tn ) = 1.) Podemos ya obtener la distribucion de n,
Z
tn1 (tn ) n
Pn () = dtn etn n e = e . (6.112)
0 (n 1)! n!
El calculo esta hecho para n 1. El caso n = 0 se puede calcular por separado:
Z + Z +
1
pT0 (t0 ) = Prob( < T1 ) = d1 e (1 ) = d e = e . (6.113)
0

6.4.3. Distribuciones de variables continuas

En la construccion de algoritmos de variables continuas son utiles las relaciones


1
pX+a (x) = pX (x a), pX (x) = pX (x/) ( 6= 0). (6.114)
||

Ejemplo. Construccion de X U (a, b) (a < b). En este caso p(x) = (a < x < b)/(b a),
y se obtiene de la distribucion uniforme aplicando un factor de escala, de (0, 1) a (0, b a) y luego
una traslacion a (a, b). Por tanto
X = a + (b a)U U U(0, 1). (6.115)

Ejemplo. Muestreo de X U([a1 , b1 ] [ad , bd ]) Rd . Simplemente se genera como


antes cada una de las componentes de X, es decir, X i U(ai , bi ).

Esto es general: si una distribucion es separable, usualmente lo mejor sera generar las distintas
coordenadas por separado. Si dos (o mas) subconjuntos de coordenadas son independientes entre
s, usualmente sera mas eficiente hacer un muestreo de cada subconjunto por separado, ya que la
dificultad de muestreo suele crecer con la dimension.

6.4.4. Metodo de inversion

Sea p(x) una densidad de probabilidad con soporte en (a, b) (es decir, a x b) donde a, b
pueden ser finitos o infinitos. Para hacer un muestreo de una variable aleatoria X p, se define
una funcion x = f (u) mediante su inversa
Z x
1
u = f (x) Prob(X < x) = dy p(y). (6.116)
a

123
La funcion f 1 (x) es creciente de modo que f 1 (a) = 0 y f 1 (b) = 1 [y analogamente f (0) = a
y f (1) = b]. Entonces X f (U ) p, siendo U U(0, 1). En efecto,
Z 1 Z 1
Prob(f (U ) < x) = du (f (u) < x) = du (u < f 1 (x)) = f 1 (x), (6.117)
0 0

y f (U ) reproduce correctamente la probabilidad acumulada Prob(X < x).

Este es el denominado metodo de inversion.63 Equivalentemente, puede usarse u(x) = Prob(X >
Rb
x) = x pX (x ) dx .

Ejemplo. Para hacer un muestreo de X con distribucion pX (x) = ex (x), podemos usar el
metodo de inversion:
Z x Z x
x
u(x) = Prob(X < x) = (x )e dx = (x) ex dx = (x)(1 ex ). (6.118)
0

Invirtiendo (para x positiva)


X = log(1 U ). (6.119)
Tambien sirve X = log(U ) ya que U y 1 U estan igualmente distribuidos.

Otra forma de plantearlo: Un metodo para producir muestreos de nuevas densidades de probabilidad es
relacionarlas con otras mediante un cambio de variable. Para un cambio de variable X(Y ), las densidades
de probabilidad esta relacionadas por

y
pX (x(y)) = pY (y). (6.120)
x
Si sabemos hacer un muestreo de Y , la idea es elegir el cambio de variable de modo que pX (x) sea la
densidad de probabilidad deseada. En el caso unidimensional, podemos elegir que Y = U U(0, 1), por
tanto pU (u) = 1 para 0 < u < 1. En consecuencia el cambio de variable X(U ) debe cumplir (elegimos por
ejemplo que X sea una funcion creciente de U )

du du
pX (x) = pU (u) = . (6.121)
dx dx
Integrando desde a hasta un x cualquiera64
Z x
u(x) = pX (x ) dx = Prob(X < x). (6.122)
a

63
RX
Notese que el metodo de inversion U = pX (x) dx, es la version continua del metodo visto para variables
discretas, si1 < U si , ec. (6.101).
64
Tambien se puede integrar desde entendiendo que pX (x) se anula para x < a.

124
Para aplicar este metodo se genera U U(0, 1), y se obtiene X x(U ) tal que X pX . Aqu x(u) la
funcion inversa de u(x) Prob(X < x).

Una generalizacion del metodo de inversion para varias variables es la siguiente: Sea X Rd y U =
U([0, 1]d ), entonces
Z x1 Z + Z +
u1 (x1 ) = Prob(X1 < x1 ) = dy1 dy2 dyd pX (y1 , . . . , yd )

..
.
un (x1 , . . . , xn ) = Prob(Xn < xn |X1 = x1 , . . . , Xn1 = xn1 ) (6.123)
R xn R + R +
dyn dyn+1 dyd pX (x1 , . . . , xn1 , yn , . . . , yd )
= R
+ R + R +
dy n dy n+1 dyd pX (x1 , . . . , xn1 , yn , . . . , yd )
..
.

u
Como se puede comprobar = pX (x1 , . . . , xd ), y en consecuencia X(U ) (invirtiendo las relaciones)
x
esta distribuido segun pX . En la practica esta version multidimensional no puede aplicarse ya que no es
facil hacer las integrales requeridas ni invertir las ecuaciones.

6.4.5. Distribucion normal

Cuando la distribucion de una variable es de tipo gaussiano


1 (x)2
pX (x) = e 22 (6.124)
2
(el prefactor es tal que pX esta normalizada) se dice que X sigue una distribucion normal centrada
en y con dispersion , ya que en efecto hXi = y Var(X) = 2 , X N(, 2 ). Evidentemente
basta saber muestrear N(0, 1) (y luego X 7 + X). Para hacer el muestreo se puede usar el
metodo de Box-Muller: se generan dos variables normales independientes X e Y , con distribucion
1 1 2 2
pX,Y (x, y) = pX (x)pY (y) = e 2 (x +y ) , (6.125)
2
y se trabaja en coordenadas polares:
Z Z 2 Z Z 1 Z 1
dxdy 1 (x2 +y2 ) d r 2 /2
hf i = e 2 f (x, y) = dr r e f= du dur f, (6.126)
2 0 2 0 0 0

125
con los cambios de variables
2
u = , ur = er /2 . (6.127)
2
La ultima expresion en ec. (6.126) indica que u y ur son independientes y estan distribuidas segun
U(0, 1). Invirtiendo los cambios de variable para pasar de (u , ur ) a (, r) y de ah a (x, y), se
obtiene p
X = cos(2U ) 2 log Ur
p , U , Ur U(0, 1) e independientes. (6.128)
Y = sin(2U ) 2 log Ur

6.4.6. Puntos uniformemente distribuidos en una region

Sea Rd y queremos X distribuida uniformemente dentro de , X U(), es decir,


1
pX (x) = (x ).
V
Si tiene un lmites acotados conocidos, un algoritmo sencillo es el metodo de aceptacion-
rechazo, que consiste en meter en una caja rectangular, [a1 , b1 ] [ad , bd ]. Se genera X
uniformemente en la caja. El valor se rechaza si X 6 y se genera uno nuevo hasta que se acepte.
Por construccion ese X estara distribuido correctamente, X U().

El metodo funciona igual si X se genera uniformemente en una region cualquiera (no necesaria-
mente rectangular) que contenga a . La eficiencia de este metodo depende de la probabilidad de
aceptacion, que es el cociente entre el volumen de y el de la caja. Conviene que la caja sea lo mas
ajustada posible para aumentar la probabilidad de aceptacion (y no desperdiciar recursos generando
puntos que no se van a aceptar). Incluso con una caja ajustada el metodo puede ser ineficiente,
como se ve en el siguiente ejemplo.

Ejemplo. (Puntos uniformes dentro o sobre una esfera). Supongamos que la region es una
esfera de radio 1 en Rd y su interior, Bd = {kxk 1, x Rd }. Aplicamos el metodo de aceptacion-
rechazo con el cubo [1, 1]d . Las d coordenadas de la X propuesta se obtienen facilmente con
Xi = 2Ui 1 (con Ui U (0, 1), i = 1, . . . , d e independientes). La propuesta se acepta sii
kXk 1. Un X aceptado esta distribuido uniformemente en el interior de la esfera Bd .

Si lo que se quiere es que X este definido uniformemente sobre la esfera S d = {kxk = 1, x


d
R }, el metodo es construir X en el interior como antes y luego normalizarlo con X/kXk. (El caso

126
Figura 11: Caja cuadrada ajustada a la esfera para d = 2.

X = 0 es casi imposible, si ocurriera bastara generar X de nuevo.)65

En cualquiera de los dos casos se necesita generar un X dentro de la esfera y la probabilidad de


aceptacion es el cociente entre el volumen de la esfera Vd y el del cubo, que es 2d .

Aunque para dimensiones bajas no lo parezca, la probabilidad de aceptacion dismininuye rapi-


damente con la dimension. Esto es facil de entender notando que las d coordenadas xi se ge-
neran uniformemente en
[1, 1] y la aceptacion requiere que x21 + + x2d 1. Dado que
Prob(x2i < 1/d) = 1/ d, se puede estimar que la probabilidad de aceptacion disminuye como
dd/2 .

Es instructivo ver como se puede calcular exactamente Vd y de ah la probabilidad de aceptacion.


Consideremos la integral, que es separable en coordenadas cartesianas,
Z Z Z
d d
d/2 d x2 /2 d1 r 2 /2 1
(2) = d x e = Sd1 dr r e = Sd1 2 2 dx x 2 1 ex
0 0 (6.129)
d
1
= Sd1 2 (d/2).
2

Se han usado coordenadas polares, y Sd1 es el angulo solido en d dimensiones (el area de la esfera
de radio 1 en d dimensiones). es la funcion gamma de Euler.66 Se deduce que
2 d/2
Sd1 = . (6.130)
(d/2)
65
En teora de la probabilidad, los sucesos que no son (suceso imposible) pero tienen probabilidad cero se
denominan casi
R imposibles. Igualmente los sucesos con probabilidad 1, excepto
mismo, se denominan casi seguros.
66
() = 0 dxx1 ex . Propiedades (x + 1) = x(x) = x!, ( 21 ) = .

127
(Por ejemplo, S0 = 2, S1 = 2, S2 = 4.) Ahora podemos calcular el volumen de la esfera
d-dimensional
Z Z 1
d 1 d/2
Vd = d x (1 kxk) = Sd1 dr rd1 = Sd1 = . (6.131)
0 d (d/2 + 1)

d p
1 1
2 0.76
3 0.52
10 2.5 103
20 2.5 108
100 2 1070

Cuadro 2: Probabilidad de acertar en la esfera en una tirada uniforme en el cubo, en funcion de la


dimension.

67
Finalmente, la probabilidad de aceptacion sera

Vd (/4)d/2
p= = . (6.132)
2d ( d2 + 1)

Como se ve en la tabla adjunta, la probabilidad de aceptacion decrece muy rapidamente a medida


que la dimension crece. Para dimensiones medianas o grandes el metodo de aceptacion-rechazo no
es viable y hay que buscar metodos alternativos. Aparte de los metodos markovianos que se veran
mas adelante, en el caso de la esfera se puede hacer separacion de variables en coordenadas polares,
generando los d 1 angulos que permiten reconstruir X. Por ejemplo para d = 3
Z R Z 2 Z Z 1 Z 1 Z 1
3 2
1= dr r d d sen = dur du du ,
4R3 0 0 0 0 0 0 (6.133)
r3 cos
ur = 3 , u = , u = ur , u , u U(0, 1) e independientes.
R 2 2

Es importante notar en este ejemplo que metodos de muestreo que parecen razonables a primera
vista pueden ser extremadamente ineficientes cuando vamos a dimensiones grandes (que es cuando
67 d
Y en efecto, para d grande log p log d.
2

128
se requiere MC). La intuicion basada en el caso d = 2 (en la Fig. 11) o d = 3, el espacio ordinario
para el que p = 0.52, puede producir impresiones equivocadas respecto de lo que ocurrira para d
grande. Como regla, a medida que d crece, las zonas que son realmente relevantes (en el ejemplo, el
volumen ocupado por la esfera) tienden a ser una parte muy pequena del total y se hace necesario
usar metodos eficientes para que el MC sea viable.

6.4.7. Metodo de aceptacion-rechazo

Entre los metodos para obtener muestreos de distribuciones genericas (en particular no separa-
bles) esta el metodo de aceptacion-rechazo. En su version mas simple queremos hacer un muestreo
X w(x) donde w(x) es un peso no necesariamente normalizado, con soporte en cierto Rd ,
y tal que w(x) C x . Ademas suponemos que C es conocido. El algoritmo consiste en
generar un candidato x uniformemente en , y este candidato se acepta con probabilidad w(x)/C.
Es decir, se genera U U(0, 1) y x se acepta (X = x) sii U C w(x). Si el candidato no se acepta
se genera uno nuevo. Los candidatos aceptados estan distribuidos segun w(x). (Intuitivamente es
obvio que x se acepta proporcionalmente a w(x).) No es necesario conocer la normalizacion N ,
solo saber calcular w(x) en cada punto que se pida y conocer el valor de un C valido (que sea una
cota superior). La probabilidad de aceptacion es
Z Z 1 Z
d 1 w(x) N
pacept = d x du (uC < w(x)) = dd x = . (6.134)
V 0 VC VC
Obviamente conviene tomar C lo mas ajustada posible.

El gran problema de este metodo es que la probabilidad de aceptacion puede ser muy pequena
en casos practicos, como se ha visto en el caso de la esfera d-dimensional. El metodo solo es util
para d no muy grandes y w con poca variacion en , de modo que w/C pueda mantenerse proximo
a 1. Tambien hace falta que sea facilmente muestreable.

Una forma de mejorar el problema de la probabilidad de aceptacion es generar directamente


mas puntos en la zona relevante de w. Supongamos que 1) tenemos una densidad de probabilidad
(normalizada) auxiliar q(x) que sea similar a w(x), 2) q sea facil de muestrear y 3) ademas conoz-
camos un K lo mas pequeno posible tal que w(x) Kq(x) x . En ese caso podemos usar
el siguiente algoritmo de aceptacion-rechazo:

1) Se genera un candidato x q(x).

129
w(x)
2) Se acepta con probabilidad . Es decir, se genera U U(0, 1) y se acepta sii
Kq(x)
U Kq(x) w(x).
En caso contrario se genera un nuevo candidato.

Intuitivamente se ve que se producen mas candidatos donde q es mayor, pero se compensa con
que se aceptan menos (para w dado). La mejora se debe a que si q(x) es similar a p(x), el cociente
w/q variara poco y se puede tomar un K que sea parecido a ese cociente en todo , lo cual aumenta
la probabilidad de aceptacion. La probabilidad de aceptacion es
Z Z 1 Z
d w(y) N
pacept = d y q(y) du (w(y) uKq(y)) = dd y q(y) = . (6.135)
0 Kq(y) K
En particular si w esta normalizada (N = 1) la probabilidad es 1/K. En la aplicacion de este metodo
debe evitarse que q(x) sea pequena donde w(x) no lo es, ya que en esas regiones w/q sera muy
grande lo fuerza a que K tambien lo sea. La probabilidad la distribucion q debe ser, en todo caso,
mas extendida (mayor soporte, mas ancha) que w.

Veamos que el metodo es correcto, es decir, no introduce un sesgo y un X aceptado esta dis-
tribuido segun w:
x(aceptado) E((X x)|(X, u) aceptado)
R d R1
d y q(y) du (y x) (w(y) uKq(y))
= R 0
R
d d y q(y) 1 du (w(y) uKq(y)) (6.136)
0
w(x)/K w(x)
= = = p(x).
N /K N

El metodo de aceptacion-rechazo es general y facil de usar. Su principal inconveniente es que en la


practica, cuando se va a dimensiones grandes, distribuciones q aparentemente parecidas a la w dada
no lo son en absoluto y la probabilidad de aceptacion se hace extremadamente pequena. El metodo
funcionara cuando sea posible satisfacer el requerimiento de muestreo relevante (importance
sampling) es decir, que q ponga mas puntos donde w es mayor.

6.4.8. Metodo de reweighting

Relacionado con la idea de usar una probabilidad auxiliar esta el metodo de reweighting.

130
Este metodo no produce un muestreo de la probabilidad dada pero s permite calcular los valores
esperados asociados.

Dado un peso w(x) = N p(x) y una densidad de probabilidad q(x) auxiliar, que suponemos
normalizada,
R d R d
d x w(x) A(x) d x q(x) w(x) A(x)/q(x) hAw/qiq
hA(X)iw = R = R = . (6.137)
d
d x w(x) d
d x q(x) w(x)/q(x) hw/qiq

De acuerdo con esta identidad una forma de proceder es calcular los promedios de A(X)w(X)/q(X)
y w(X)/q(X) para X q y el cociente de ambos nos proporcionara el promedio de A(X) para
X w. Igual que en el metodo de aceptacion-rechazo, para X q, X tendera a producirse
mas donde q (y no necesariamente w) es importante, pero eso se compensa por el factor w/q que
sera menor donde q sea grande.

El denominador hw/qiq no es mas que N , y en particular, cuando w = p (w esta normalizado)


la expresion queda  
p(X)
hA(X)ip = A(X) . (6.138)
q(X) q

Es importante notar que aunque los promedios coinciden, las varianzas no lo hacen,
 2 2   
pA 2 p
Var(pA/q)q Var(A)p = hA ip = 1 A2 . (6.139)
q2 q q p

Por ejemplo, si es posible elegir q proporcional a pA o casi, la variable pA/q sera casi constante y su
varianza sera muy pequena. Sin embargo ese caso es de interes academico; en la practica un calculo
MC se adapta a p y no a un observable concreto (el calculo MC es costoso y se utiliza un mismo
muestreo para calcular el valor esperado de multiples observables a la vez). Generalmente el calculo
con reweighting tiende a empeorar, no mejorar, la dispersion. En un caso claro, si A = 1, el calculo
directo de hAip no tiene ninguna dispersion (cada X p da el mismo valor A = 1), mientras que
el calculo con A pA/q = p/q y X q, s tendra una varianza que puede ser grande.

Ejemplo. Supongamos que


2 /2 2 /2 2
p(x) = (2)d/2 ex , q(x) = (2 2 )d/2 ex en Rd . (6.140)

Por lo que sabemos, 1 = h1ip = hp/qiq , entonces


Z  d/2
2 2 d p2 4 1
1 + Var(p/q)q = hp /q iq = d x = , 2 > . (6.141)
q 2 2 1 2

131
Cuando 2 1/2 (q demasiado poco extendida) la varianza diverge. Por otro lado, si = 1 la
varianza se anula, ya que q = p. En los demas casos 4 /(2 2 1) > 1 y en consecuencia la varianza
crece exponencialmente con la dimension d. Igual que veamos en el caso de la esfera d-dimensional,
a medida que las dimensiones son mayores el parecido entre las dos funciones (para un mismo valor
de ) va disminuyendo y eso hace aumentar la dispersion, tanto en reweighting como en aceptacion-
rechazo. De nuevo el metodo solo sera util si q se satisface el requerimiento de muestreo relevante
para w.

En el caso general de peso w no normalizado (es decir, no se conoce su normalizacion) hay


un problema anadido de sesgo. En efecto, aunque el cociente indicado en ec. (6.137) proporciona
correctamente hAiw , en realidad el valor esperado como tal nunca se calcula, sino solo resultados
de experimentos aleatorios para los que una variable aleatoria toma un valor que se acepta como
estimacion del valor esperado. Para estimar el valor esperado en el numerador se genera una muestra
X1 , . . . , XN distribuida segun q. Para el denominador se puede usar la misma muestra o bien generar
otra independiente. En el primer caso la estimacion es
PN
w(Xi )A(Xi )/q(Xi )
A1 = i=1 PN , Xi q (independientes) (6.142)
i=1 w(Xi )/q(Xi )

cuando N A1 hAiw con probabilidad 1 (ya que numerador y denominador lo hacen), sin
embargo, para N finito hay un sesgo ya que E(A1 ) no coincide con E(A). El caso mas claro es
N = 1: en este caso A1 = A(X1 ) con X1 q, por tanto E(A1 ) = hAiq y no hAiw . Esto es muy
distinto del MC usual (se muestrea la distribucion p) ya que ah E(A) = E(A) independientemente
del valor de N (otra cosa es que para N = 1 la dispersion pueda ser grande o no).

En el segundo caso la estimacion es


PN
w(Xi )A(Xi )/q(Xi ) wA/q
A2 = i=1 PN , Xi , Y i q (independientes). (6.143)
i=1 w(Y i )/q(Y i ) w/q

De nuevo tiende a hAiw con probabilidad 1, pero


 1 
E(A2 ) = hwA/qiq w/q . (6.144)
q

Generalmente, hX 1 i 6= hXi1 (que es lo que hara falta, aplicado a X = w/q para concluir
que E(A2 ) = hAip ). Por otro lado, aunque hay sesgo para N finito, este no desempena un papel
relevante para N suficientemente grande, ya que el sesgo es menor que la propia dispersion en el

132

estimador. En efecto, para X = w/q, sea su media y su dispersion / N , entonces,
   
1 1 1 x (x )2 1 1 2
hX i = = + + = + + (6.145)
+X 2 3 3 N
por tanto el sesgo es
hX 1 i hXi1 = O(N 1 ), (6.146)
mientras que la dispersion es O(N 1/2 ). A medida que N crece el sesgo disminuye mas deprisa que
las fluctuaciones y eventualmente queda tapado por estas.

El principal problema del metodo de reweighting es que la dispersion en numerador y denominador


(si lo hay) crece muy rapidamente a medida que el numero de dimensiones aumenta: para d grande
p y q son muy distintas en general, el muestreo produce la inmensa mayora de puntos donde q es
grande (no p) y luego le asigna un peso p/q despreciable. Todo el peso viene de los raros casos
en los que el punto cae donde p importa. En consecuencia, el numero efectivo de puntos que de
verdad intervienen en los promedios es muy pequeno por lo que las fluctuaciones son muy grandes.
En casos practicos, el problema crece exponencialmente con el numero de variables involucradas.

Puesto que hay metodos eficientes markovianos para hacer un muestreo de cualquier p(x), el
interes de usar un q(x) auxiliar, es principalmente poder reutilizar configuraciones {Xi }Ni=1 , X q
que ya se tienen, de modo que si p(x) depende de uno o mas parametros , p(x, ), se pueden
calcular estimaciones hf (x)i para varios a la vez, con un mismo calculo MC. Segun el caso, incluso
se pueden obtener curvas enteras en funcion de , lo cual es imposible haciendo una simulacion MC
para cada requerida.

Otra aplicacion es al caso de w complejo (o con partes negativas), en lugar de real y positivo
en todos los puntos. Aunque los promedios estan bien definidos cuando w es complejo, el muestreo
X w tal cual no tiene sentido en este caso.68 Sin embargo, el metodo de reweighting se puede
aplicar sin problemas, eligiendo q(x) positivo.

6.5. Metodos markovianos

Para hacer muestreos eficientes de pesos w multidimensionales generales se suelen usar meto-
dos de tipo markoviano. El sistema pasa por una secuencia de estados X parametrizados por un
parametro t que es el tiempo ficticio o de simulacion. La idea es generar un caminante que
describe un camino X(t) que recorra la region a muestrear Rn de manera ergodica, es decir,
68
Mediante extension analtica se puede construir un autentico muestreo MC de w(x) genericos que proporciona
correctamente los valores esperados [13], sin embargo el metodo es costoso.

133
R el ntiempo que el caminante pasa en una region A cualquiera sea proporcional a
que a la larga
Prob(A) = A d (x), donde (x) denota el peso normalizado que se quiere muestrear. Se cambia
el promedio sobre x por un promedio temporal:
Z
1 T
hAi = lm dtA(X(t)) (con probabilidad 1). (6.147)
T T 0

En la mayor parte de las implementaciones el tiempo es una variable discreta, k, y el caminante


pasa sucesivamente por puntos X1 , X2 , . . . , Xk , . . . El adjetivo markoviano indica que la proba-
bilidad de Xk Xk+1 no depende de la historia anterior, es decir, depende solo del valor de Xk y
no de los Xj , j < k:

Prob(Xk+1 , Xk+2 , . . . |Xk , Xk1 , . . .) = Prob(Xk+1 , Xk+2 , . . . |Xk ). (6.148)

Los procesos markovianos son los procesos estocasticos mas sencillos y mejor estudiados.

El salto Xk Xk+1 se rige por cierta regla aleatoria prefijada69

Prob(Xk+1 = y|Xk = x) = Wk (y|x). (6.149)

Wk (y|x) es la (densidad de) probabilidad de saltar a y en tiempo k + 1 si en tiempo k el caminante


estaba en x y evidentemente Wk debe estar normalizada y ser no negativa
Z
dn y Wk (y|x) = 1, Wk (y|x) 0. (6.150)

A menudo la funcion Wk no depende k.

En cada momento k la distribucion de caminantes vendra dada por una cierta densidad k (x).
Al aplicar el salto markoviano, esta probabilidad se actualiza a k+1 (x):
Z
k+1 (y) = Wk (y|x)k (x)dn x. (6.151)

Eligiendo Wk adecuadamente se consigue que a la larga X w. Es decir,

lm k (x) = (x) (6.152)


k

en el sentido de valores esperados (convergencia debil).


69
Cuando X es una variable continua Wk (y|x) es una densidad de probabilidad respecto de la variable y.

134
Generalmente, se empieza con un caminante generado con una distribucion 1 que no se parece a
, por lo que hay que esperar un cierto numero de pasos 0 hasta que la distribucion se termalice a la
de equilibrio, . Despues de este periodo transitorio se tiene X0 . Los siguientes puntos tambien
estan distribuidos segun pero no son independientes de X0 (el caminante no se han olvidado de
esa posicion) hasta pasado un cierto numero de pasos , denominado tiempo de autocorrelacion.
Ese tiempo hay que dejarlo entre cada dos medidas para que los valores sean independientes.70 De
este modo
N
1 X A
hAi = A(X0 + j ) . (6.153)
N j=1 N

6.5.1. Condicion de balance detallado

Para que a la larga el proceso markoviano muestree una dada, hay dos condiciones claramente
necesarias:
a) La cadena markoviana ha de ser irreducible. Esto es, la funcion Wk (y|x) debe ser tal que en
principio el caminante pueda ir (enlazando saltos) desde cualquier punto del soporte de w(x)
a cualquier otro.
b) Si la distribucion ya ha alcanzado el equilibrio, al aplicar un salto markoviano esta propiedad
se debe mantener: Z
Wk (y|x)(x)dn x = (y). (6.154)

Notablemente si la cadena markoviana es aperiodica estas dos condiciones tambien son suficientes
para que se satisfaga (6.152) [6].71

Es facil comprobar que cada paso markoviano acerca k a :


Z Z Z

kk+1 k := dn y |k+1 (y) (y)| = dn y dn xWk (y|x) k (x) (x)
Z Z Z
(6.155)
d y d xWk (y|x) |k (x) (x)| = dn x |k (x) (x)|
n n

= kk k.
Pero por s solo esto no garantiza kk k 0.
70
Usar N puntos seguidos no introduce un sesgo en el resultado (espdecir, no modificael valor esperado) pero
como solo N/ puntos son realmente independientes el error va como /N en vez de 1/ N .
71
Una condicion suficiente para que una cadena markoviana sea aperiodica es que Wk (x|x) > 0 en alguna region
de .

135
Una forma practica de garantizar que Wk deja invariante es imponer la condicion de balance
detallado
Wk (y|x)(x) = Wk (x|y)(y), (6.156)
que implica (6.154) usando (6.150). La misma ecuacion se puede escribir usando w(x) (el peso no
normalizado) y equivale a decir que la funcion
Sk (y, x) Wk (y|x)(x), Sk (y, x) = Sk (x, y), (6.157)
es una funcion simetrica.

Se puede dar un argumento de porque la condicion de balance detallado lleva a la distribucion


de equilibrio. Supongamos que tenemos una colectividad de caminantes distribuidos segun . Si el
balance es detallado, los caminantes que saltan de x a y se compensan con los que saltan de y
a x. (En un balance no necesariamente detallado la distribucion se mantiene en equilibrio porque
los caminantes intercambian posiciones en cada paso, unos con otros pero no necesariamente por
pares.) Si la distribucion no esta en equilibrio, sea N (x) el numero de caminantes en x, dem N (y).
Despues de un salto
N (y x) N (x y) = W (y|x)N (x) W (x|y)N (y)
 
W (y|x) N (y)
= N (x)W (x|y)
W (x|y) N (x) (6.158)
 
(y) N (y)
= N (x)W (x|y) .
(x) N (x)
N (y) > (y)
Por tanto, si < se tendra N (x y) >
< N (y x). El flujo va de donde hay mas
N (x) (x)
caminantes de los que debera a donde hay menos de modo que el equilibrio tiende a restablecerse.
Cuando X , N (x) (x) y N (x y) = N (y x) por lo que el equilibrio se mantiene.

6.5.2. Algoritmo de Metropolis

Este metodo fue inventado por Rosenbluth para aplicarlo a la distribucion de Boltzmann y
extendido a una distribucion general por Hastings. Tiene la virtud de que es muy flexible ya que no
requiere propiedades especficas de w(x), solo saber calcular esta funcion en cada punto que se pida
(de hecho basta conocer el cociente de esta funcion en dos puntos cualesquiera).

Para aplicar el metodo se necesita una densidad de probabilidad auxiliar Qk (z|x) (no negativa y
normalizada respecto de z). Esta probabilidad dice como proponer un candidato z a la nueva posicion

136
del caminante cuando este se encuentra en x en tiempo k. No debe confundirse Qk (z|x) con la
funcion Wk (y|x). Esta ultima se construye indirectamente mediante el algoritmo de Metropolis y
no se necesita en forma explcita.

Dadas la funciones Qk (z|x) y w(x), el algoritmo de Metropolis para actualizar el valor de Xk


al siguiente valor en la cadena markoviana, Xk+1 , es:
1) Dado Xk se genera una propuesta Z con Qk (Z|Xk ), y se genera un numero aleatorio U
U(0, 1).

2) Se actualiza la posicion de acuerdo con la regla


(
Z , si w(Z) U w(Xk ) (la propuesta es aceptada)
Xk+1 = (6.159)
Xk , si w(Z) < U w(Xk ) (la propuesta es rechazada)

Equivalentemente se puede decir que si w(Z) w(Xk ) (Z es mas probable que Xk ) el nuevo
punto se acepta inmediatamente, en caso contrario se acepta con probabilidad w(Z)/w(Xk ).72 Por
> w(X), para los mismos
supuesto, mas probable es una forma de hablar, ya que la relacion w(Z) <
puntos Z y X depende del sistema de coordenadas.

La funcion Qk (z|x) se puede elegir de muchas formas con tal de que satisfaga las dos condiciones
siguientes:
a) (irreducibilidad) que la funcion Qk (x|z) sea tal que mediante saltos sucesivos se pueda llegar
a cualquier punto del soporte de la funcion w(x), y

b) (simetra) que la funcion Qk (x|z) sea simetrica

Qk (z|x) = Qk (x|z). (6.160)

Es decir, la probabilidad de proponer Z estando en X debe ser igual a la de proponer X


estando en Z.
La funcion Wk (y|x) construida mediante el algoritmo de Metropolis es
Z 1 Z h i
 
Wk (y|x) = du dn z Qk (z|x) w(z) uw(x) (y z) + uw(x) w(z) (y x) .
0
(6.161)
72
Es importante enfatizar que cuando el candidato es rechazado, el nuevo punto Xk+1 coincide con Xk . Esto no
es lo mismo que volver a generar nuevos candidatos hasta que uno sea aceptado y tomarlo como el nuevo Xk+1 .
Esta otra prescripcion no produce una cadena markoviana con X , sino que se termaliza a otra distribucion de
equilibrio que depende de la eleccion de Qk , y por tanto produce valores esperados incorrectos.

137
R R
Es inmediato que dn y Wk (y|x) = 1 por dn y (y x) = 1 y (x) + (x) = 1. La funcion
Wk (y|x) tambien satisface balance detallado.
En efecto, para ver esto separamos Wk en las dos componentes correspondientes a rechazo y acep-
tacion de la propuesta

Wk = Wa + Wr ,
 
 (y) 
Wa (y|x) = Qk (y|x) (y) (x) + (x) (y) ,
(x) (6.162)
 Z 
n
Wr (y|x) = (y x) 1 d z Wa (z|x) .

(Para obtener Wa se ha integrado primero sobre z y luego sobre u.) La funcion Wr es del tipo
(y x)f (x), por tanto satisface balance detallado:

Wr (y|x)(x) = (y x)f (x)(x) = (x y)f (y)(y) = Wr (x|y)(y). (6.163)

Para Wa , la funcion
  
Sa (y, x) Wa (y|x)(x) = Qk (y|x) (x) (y) (x) + (y) (x) (y) (6.164)

es manifiestamente simetrica bajo intercambio de x e y si Qk (y|x) lo es.

Por lo tanto, el algoritmo satisface la condicion de balance detallado y a larga produce Xk w.

Tambien es posible usar una funcion Qk (z|x) asimetrica (algoritmo de Metropolis-Hastings).


En este caso la probabilidad de aceptacion pasa a ser
 
Qk (Xk |Z) w(Z)
q = mn 1, , (6.165)
Qk (Z|Xk ) w(Xk )
es decir, se acepta si U < q. Esta version es covariante bajo cambios de coordenadas.

Por ejemplo, una funcion Qk (z|x) valida es un salto aleatorio uniformemente distribuido dentro
de una bola de radio R
Qk (z|x) (R kz xk). (6.166)
Otra eleccion valida es un salto gaussiano de tamano R a elegir. Con cualquier eleccion, la funcion
Qk producira un cierto salto tpico kZ Xk R. Aunque teoricamente el metodo converge
en todo caso, si el valor de R se toma demasiado pequeno, y el caminante esta lejos de la zona
relevante, los candidatos seran aceptados pero el caminante tardara mucho en recorrer la distribucion
para poder muestrearla. Si por el contrario R es demasiado grande y el caminante ya esta en la

138
zona relevante, los candidatos seran casi siempre rechazados y el caminante se movera poco, lo
que tambien dificulta que explore la funcion w(x). Mas importante, en ambos casos el tiempo de
autocorrelacion sera grande. Para la eficiencia del metodo es necesario que R se ajuste de modo
que la proporcion de candidatos aceptados este lejos de 0 % o 100 %. Un valor tpico es ajustar
la proporcion de aceptacion/rechazo al 50 % (o a un valor mas adecuado haciendo las pruebas
necesarias para reducir el tiempo de autocorrelacion).

En la practica, cuando hay muchas variables, lo que suele hacerse es proponer un salto Metropolis
para una de las coordenadas, manteniendo las demas fijas, a continuacion se toca otra coordenada,
y as sucesivamente hasta hacer un barrido completo sobre todas las coordenadas en X. La eleccion
de coordenada a actualizar puede hacerse de modo ordenado o bien de modo aleatorio, sorteando
entre todas las coordenadas.
3 N
1 2

Figura 12: Una configuracion de . Por las condiciones periodicas N +1 1 . Las configuraciones
con grandes cambios en de un nodo al siguiente tienen mas energa y por tanto son menos probables.
Igualmente valores de k alejados del mnimo del potencial tambien estan suprimidos.

Como ejemplo de Metropolis, supongamos una red unidimensional con nodos n = 1, 2, . . . , N en


cada uno de los cuales hay una grado de libertad (una variable) real n . La energa de la configuracion
= (1 , . . . , n ) es
XN  
1 2
E() = (n+1 n ) + V (n ) . (6.167)
n=1
2
Aqu suponemos condiciones de contorno periodicas: N +1 1 , 0 N . El peso de la configu-
racion a temperatura T es
Z
E() 1 1
w() = e , () = w(), Z = dn w(), . (6.168)
Z kT
Z no es conocido pero no se necesita para hacer el paseo markoviano. Para aplicar Metropolis, no
es adecuado mover mucho ya que (si N es grande) el movimiento sera rechazado con mucha

139
probabilidad. Lo usual es mover solo uno de los n para un n dado, luego actualizar otro, y as su-
cesivamente hasta completar un barrido de la red. Se aplica el numero de barridos necesarios para
obtener un numero suficiente de configuraciones independientes termalizadas al peso w.

Cada vez que se toca un n se hace una propuesta de candidato n que se acepta o se rechaza. Por
ejemplo n = n + donde es una variable aleatoria independiente de n y con una distribucion
simetrica al cambiar por (esto garantiza que las probabilidades de n n y n n sean
iguales),

La probabilidad de aceptacion requiere el calculo del cociente

w(1 , . . . , n , . . . , N )
q . (6.169)
w(1 , . . . , n , . . . , N )

Se genera U U(0, 1) y el candidato se acepta si U < q (obviamente si q > 1 no hace falta generar
U ).

Para un peso general el calculo de q puede ser costoso (especialmente si N es grande), pero
en nuestro caso la energa es local: cada n solo esta conectada con n1 (interaccion de vecinos
proximos), por tanto las variables no acopladas a n se cancelan en numerador y denominador:
1 2 + 1 ( 2
e(V (n )+ 2 (n+1 n ) 2 n1 n ) )
q= 1 2 + 1 ( 2
= e(2n n+1 n1 +) e(V (n +)V (n )) . (6.170)
e(V (n )+ 2 (n+1 n ) 2 n1 n ) )

Que la interaccion solo involucre nodos proximos entre s (lo cual permite una gran simplificacion)
es la regla mas que la excepcion, ya que no es natural que haya accion a distancia entre los grados
de libertad de un sistema fsico.

6.5.3. Bano termico

Tambien denominado muestreo de Gibbs. Es un proceso markoviano en el que en cada paso


se elige un subconjunto de coordenadas de X y se actualizan solo esas coordenadas de acuerdo con
su probabilidad condicionada, manteniendo las otras variables congeladas. Posteriormente se toma
otro subconjunto y se procede igual. Los subconjuntos se pueden tomar de forma ordenada o bien
aleatoria, con tal de que eventualmente se pase por todas las coordenadas. No se requiere conocer
la normalizacion absoluta del peso.

140
Por ejemplo, si tenemos (x1 , . . . , xd ), para actualizar la coordenada n-esima se genera yn segun
la probabilidad condicionada (yn |x1 , . . . , xcn , . . . , xd ) y se actualiza xn yn . Es facil ver que este
procedimiento satisface balance detallado: para simplificar suponemos d = 2 y actualizamos la
primera variable,

(y1 , x2 )(x1 , x2 )
W (y1 , y2 |x1 , x2 )(x1 , x2 ) = (y1 |x2 )(y2 x2 )(x1 , x2 ) = (y2 x2 ) (6.171)
(x2 )

que es una funcion simetrica al cambiar xi con yi .

El bano termico se aplica casi exclusivamente para variables sueltas o grupos de variables inde-
pendientes entre s, y es eficiente cuando es posible generar yn de modo economico. Notese que el
nuevo valor de la coordenada xn es completamente independiente del valor anterior, aunque s de-
pende del valor de las otras coordenadas: xn se ha termalizado al valor de las otras coordenadas que
forman el bano.

El bano termico equivale a aplicar multi-hit en Metropolis, es decir, si se aplica Metropolis muchas
veces a una misma coordenada antes de pasar a la siguiente. La variable queda distribuida segun
la probabilidad condicionada relativa a las demas variables.73 Por ello el bano termico termaliza la
distribucion en menos pasos que Metropolis, pero puede que cada paso sea demasiado costoso y no
compense. En este sentido la aplicacion de bano termico es mas limitada (hay menos problemas a
los que puede aplicarse) que Metropolis.

Como ilustracion, en el ejemplo anterior, cuando V () = 12 k2 , la probabilidad condicionada es


una gaussiana y el muestreo de Gibbs es aplicable de modo eficiente.

Nota: La actualizacion (tanto en Metropolis como en el bano termico) debe ser siempre secuen-
cial: si las dos variables a actualizar x1 y x2 estan acopladas (no son mutuamente independientes)
debe actualizarse primero una de las dos y luego la otra (no importa el orden). Pero sera incorrecto
generar simultaneamente x1 y x2 usando los valores actuales de x1 y x2 . Lo correcto es generar
digamos x1 x1 usando (x1 , x2 ) y a continuacion x2 x2 usando (x1 , x2 ). Si, como es frecuente,
las variables se dividen en pares e impares, de modo que las pares solo interaccionan con las impares
y viceversa (por ejemplo ec. (6.167)), se pueden actualizar todas las variables pares a la vez y luego
todas las impares, en cada barrido.
73
El numero de intentos no debe depender de los resultados individuales, ya que en otro caso se podra introducir
un sesgo.

141
6.5.4. Metodo de busqueda de mnimos por enfriamiento

Es una tecnica para obtener maximos o mnimos de una funcion que es util cuando el numero
de variables es grande. Por ejemplo, queremos minimizar una energa E(), Rd . Si se usa el
metodo de maxima pendiente la busqueda puede acabar en un mnimo local, en cuya cuenca este el
valor inicial.

El metodo MC se aplica generando un paseo markoviano (por ejemplo Metropolis) con peso
w() = exp(E()), para = 1/kT > 0. Cuando (T 0, enfriamiento), w selecciona
los valores mnimos de E(). Para que el proceso no se quede estancado en un mnimo local se usa
T finita junto con el metodo markoviano y luego se baja lentamente la temperatura. Los teoremas de
procesos markovianos aseguran que para tiempos de simulacion suficientemente grandes el caminante
explora adecuadamente todas las zonas relevantes.

6.5.5. Termalizacion y tiempo de autocorrelacion

2
A

-1

-2
0 10 20 30 40 50 60

Figura 13: Criterio de termalizacion basado en un observable A(Xk ) empezando con configuraciones
iniciales bien separadas. Se puede considerar que hay termalizacion para k 0 = 35.

Aunque los metodos markovianos son muy flexibles, tienen el inconveniente de que la variable
Xk solo esta distribuida segun la distribucion de equilibrio w(x) en el lmite k . Para k finito
la distribucion k (x) tiene un cierto sesgo y depende del punto inicial X0 as como del algoritmo
markoviano concreto. Un segundo problema es que no todos los Xk son independientes.

El acercamiento al equilibrio (termalizacion) desde una configuracion inicial cualquiera es tpi-

142
camente de tipo exponencial. Se debe dejar un numero 0 de pasos suficiente de modo que Xk w,
para k > 0 . Aunque la termalizacion nunca es perfecta puede llegarse a un punto en el que el sesgo
sea despreciable comparado con las fluctuaciones.

Un metodo usado frecuentemente es considerar varias simulaciones con muy distintos puntos de
partida X0 y esperar hasta que los valores esperados en las distintas simulaciones converjan (dentro
de las fluctuaciones). Las configuraciones iniciales pueden ser por, ejemplo, con variables fijas a
un valor comun (inicio fro) y con variables tomando valores aleatorios (inicio caliente). No hay un
criterio universalmente aceptado para reconocer cuando ha transcurrido un tiempo de termalizacion
0 suficiente, en este sentido es preferible ser conservador.

Una vez alcanzada la termalizacion, todos los valores sucesivos Xk , con k > 0 estan distribuidos
segun la distribucion de equilibrio w. El problema es que Xk condiciona los valores posteriores en
la cadena markoviana: Xk y los valores posteriores Xm , m = k + 1, . . . , k + no son variables
aleatorias independientes hasta que tiene un valor suficientemente grande, denominado tiempo
de autocorrelacion.

El estimador74
N
1 X
f= fk , fk f (Xk ) (6.172)
N k=1
no esta sesgado (su valor esperado coincide con hf i) ya que Xk w. Igualmente la varianza de
la muestra, Sf2 , de los fk es un estimador no sesgado de la varianza de f . Pero la cuestion es cual
es lavarianza de f. Para N variables independientes
la dispersion en la media de la muestra sera
f / N , que se podra estimar como Sf / N cuando la muestra es suficientemente grande. En
nuestro caso, solo uno de cada puntos Xk es realmente independiente (siendo el tiempo de
autocorrelacion). Por tantoel numero de puntos independientes es Nef = N/ , y la dispersion de f
sera aproximadamente Sf / Nef . Es decir,
Sf
hf i = f (para N suficientemente grande). (6.173)
N

Hay que notar que Var(f ), al igual que hf i, depende solo de f (X) y de la distribucion w,
pero no del metodo de muestreo utilizado. Por la ley de los grandes numeros, eventualmente Sf2
sera (probablemente) una estimacion aceptable de Var(f ). Por tanto, para reducir la dispersion,
los detalles del metodo markoviano se deben disponer de modo que sea lo menor posible. En
74
Par simplificar la notacion, despues de alcanzar la termalizacion, desechamos las primeras 0 configuraciones y
ponemos k = 1 otra vez.

143
principio el tiempo de autocorrelacion no depende del observable f (X) concreto (para observables
genericos), sino que es una propiedad de la cadena markoviana Xk , k = 1, 2, . . .

Ejemplo. Si el proceso markoviano consiste en W (y|x) = (y), siendo la distribucion de


equilibrio, cada nuevo punto generado esta distribuido de acuerdo con y es independiente del valor
anterior en la cadena. Por tanto = 1 en este caso. Ahora modificamos el algoritmo de modo que
en uno de cada pasos W (y|x) = (y) pero para los otros 1 pasos W (y|x) = (y x)
(el punto no se mueve). Como es facil comprobar este algoritmo satisface balance detallado y es
perfectamente valido. Simplemente hace que la cadena evolucione veces mas despacio y el tiempo
de autocorrelacion es . El valor medio y la dispersion de f (X) son los mismos
que antes (caso
= 1) (ya que son los mismos puntos). Sin embargo, la dispersion de f sera veces mayor para
el mismo N :
   2 N Var(f )

Var(f ) = Var f + f2 + + fN = Var(f ) = . (6.174)
N N N

Estimacion del tiempo de autocorrelacion mediante submuestras

Dada una cadena markoviana, un metodo usual para estimar la dispersion de f (siendo f (X)
un observable cualquiera) es distribuir los N valores fk en K bloques de valores sucesivos cada uno
con un tamano L = N/K. A partir de los bloques se construye una muestra de tamano K haciendo
corresponder a cada bloque su media
jL
1 X
Fj = fk , j = 1, . . . , K. (6.175)
L
k=(j1)L+1

Para la muestra {Fj }K


j=1 podemos construir su media

K
1 X
F = Fj . (6.176)
K j=1

Por construccion la variable F coincide con f y por tanto tienen la misma media (a saber hf i)
y dispersion. La ventaja de usar {Fj }K
j=1 es que si se toma el valor de L (tamano de los bloques)
suficientemente grande se tendra que L de modo que los distintos bloques seran independientes
unos de otros, y por tanto los K valores Fj seran variables independientes, lo cual permite escribir
F
hf i = F . (6.177)
K

144
Por otro lado, si el valor de K es suficientemente grande, la ley de los grandes numeros implica que
podemos estimar la varianza de los Fj por la varianza de la muestra
K
1 X
Var(F ) SF2 = (Fj F )2 (K suficientemente grande) (6.178)
K 1 j=1

Finalmente obtenemos, teniendo en cuenta que los Fj son independientes,

SF
hf i = F . (6.179)
K

Comparando con la estimacion naive que supona que los N puntos eran independientes, hf i =
Sf
f N , se deduce que el tiempo de autocorrelacion es

SF2
= L. (6.180)
Sf2

Puede entonces comprobarse si L es adecuado verificando que L .

Puesto que la estimacion del error requiere a la vez L y K suficientemente grandes, y LK = N ,


hace falta que N sea grande y tomar un compromiso en la distribucion entre L y K. Lo que suele
hacerse es usar valores crecientes de K (por ejemplo, K = 2, 4, 8, . . .) de modo que inicialmente L
es grande (L = N/2, N/4, N/8, . . .) lo cual asegura L . Cuando K es suficiente para que se
aplique la ley de los grandes numeros SF2 /K se estabiliza a Sf2 /N (una magnitud independiente
de L y K). De aqu se puede extraer el valor de (Sf2 se obtiene de la muestra completa). El
as determinado se mantiene constante para K mayores (plateau) mientras L . Todos estos
valores de K y L son aceptables y dan la misma estimacion para el error en F . Si se tomara K
S2
mayor, el estimado empezara a disminuir respecto de su valor real, ya que SF2 L = 1 cuando
f
K = N , L = 1. Para esos K el error estara subestimado ya que las formulas suponen que hay mas
Fj independientes de los que realmente hay.

Estimacion del tiempo de autocorrelacion por correladores

Un metodo mas sofisticado y preciso (pero tambien mas costoso) para la estimacion de y
el error se obtiene estudiando la correlacion entre los datos. Definimos la funcion de correlacion
mediante
Ck = cov(fi , fi+k ) = Ck , C0 = Var(f ). (6.181)

145
Notese que una vez en el equilibrio el proceso markoviano es estacionario, por tanto cov(fi , fi+k )
no depende de i. Podemos ahora calcular la dispersion en f a partir de la correlacion
N N N Xj1
!
1 X 1 X 1 X
Var(f) = 2 Var( fi ) = 2 cov(fi , fj ) = 2 N C0 + 2 Cji (6.182)
N i=1
N i,j=1
N j=2 i=1

j1
N X j1
N X N 1
X X X
Cji = Ck = (N k)Ck (6.183)
j=2 i=1 j=2 k=1 k=1
N 1   !
1 X k
Var(f) = C0 + 2 1 Ck . (6.184)
N k=1
N
2k/
Tpicamente Ck cae exponencialmente, Ck C0 e , k 1. En este caso, k/N puede despre-
ciarse ya que los k > no contribuyen y N .
N 1
!
1 X
Var(f) C0 + 2 Ck (N ). (6.185)
N k=1

Aqu se ve que la correlacion entre puntos muestrales modifica la estimacion usual Var(f) =
Var(f )/N , aumentando la dispersion ya que los Ck mas importantes (k pequeno) son positivos,
igual que C0 .

PNPara ver la relacion con el tiempo de autocorrelacion, usamos 1 para aproximar la suma
1 2k/
k=1 Ck por una integral, junto con la aproximacion Ck C0 e :
1 Var(f )
Var(f) C0 (1 + ) . (6.186)
N N

La relacion en ec. (6.185) es esencialmente correcta ya que en la practica N , sin embargo


se refiere a los valores esperados exactos de la distribucion. En realidad lo que se tiene son muestras
obtenidas con el proceso markoviano, estas se utilizan para estimar Ck ,
N
X k
1
Ck (fj f)(fj+k f), C0 = Sf2 . (6.187)
N k 1 j=1

Obtenemos una estimacion de la varianza mediante


L
!
1 X
Var(f) C0 + 2 Ck . (6.188)
N k=1

146
Notese que la suma sobre k no llega hasta N 1 sino hasta un cierto L a elegir. Ck decrece
exponencialmente cuando k aumenta pero no llega a hacerse arbitrariamente pequeno sino que a
partir de un cierto k = L toma valores pequenos pero fluctuantes. Se puede demostrar que la suma
hasta N 1 de hecho no converge cuando N . Debe cortarse la suma cuando Ck deja de
decrecer para pasar a fluctuar alrededor de cero.

Este metodo es mas preciso que el basado en dividir la muestra en bloques, pero el calculo de
Ck puede ser muy costoso computacionalmente en situaciones realistas.

147
Referencias
[1] A. O. Barut y R. Raczka, Theory of group representations and applications, World Scientific
Publishing, 1986.

[2] S. Coleman, Aspects of Symmetry, Cambridge University Press, 1985.

[3] K. S. Lam, Topic in Contemporary Mathematical Physics, World Scientific, 2003.

[4] L. L. Salcedo, Grupos continuos, http://www.ugr.es/local/salcedo/public/mt3/curso.pdf

[5] W-K. Tung, Group Theory in Physics, World Scientific, 1985.

[6] N. Madras, Lectures on Monte Carlo Methods, The Fields Institute for Research in Mathema-
tical Sciences, American Mathematical Society, 2002.

[7] J. I. Illana, Metodos Monte Carlo, http://www.ugr.es/local/jillana/Docencia/FM/mc.pdf

[8] K. Rummukainen, Monte Carlo simulation methods,


http://www.helsinki.fi/rummukai/lectures/montecarlo oulu/lectures/mc notes1.pdf

[9] L. L. Salcedo, Integral de caminos, http://www.ugr.es/local/salcedo/public/mc2/curso.pdf

[10] http://csrc.nist.gov/groups/ST/toolkit/rng/

[11] https://gcc.gnu.org/onlinedocs/gfortran/RANDOM 005fNUMBER.html

[12] http://www.ugr.es/local/salcedo/public/fm/random main.f

[13] L. L. Salcedo, Existence of positive representations for complex weights, J. Phys. A 40 (2007)
9399 [arXiv:0706.4359 [hep-lat]].

148

You might also like