Professional Documents
Culture Documents
La distinction entre les règles (2) et (3) est assez bizarre. Considérons une particule qui sort à
travers deux fentes d'un dispositif de Young et que l'on peut décider ou non d'observer. Supposons
aussi qu'il s'agit d'une particule instable se divisant en deux particules juste après avoir franchi une
des deux fentes. Appelons les A et B. On obtient ainsi deux faisceaux de particules pouvant
interférer après les fentes. Imaginons un dispositif quelconque capable d'envoyer les particules A
vers une zone éloignée tandis que les particules B vont vers l'écran.
Les particules A vont interférer de leur coté ainsi que les particules B.
Mais, un fois la séparation effectuée nous décidons d'observer la particule B avant les interférences.
Selon la règle (3) cela détruit les interférences. Mais que se passe-t-il pour la particule A ? Nous ne
l'avons pas observé, ni touché, ni perturbée en quoi que ce soit. Pourtant, nous savons par où elle
est passée simplement parce qu'elle vient du même endroit que B. Les analyses que nous avions
faites montrent alors clairement que les interférences de A sont détruites.
Mais comment expliquer cela ? Nous n'avons pas mesuré la particule A. Nous ne l'avons pas
perturbé. Mais nous connaissons mieux sa localisation et le principe d'indétermination nous dit
alors que l'impulsion est moins précise et donc les interférences détruites. Voilà qui justifie bien
l'appellation "principe d'indétermination" au lieu de "principe d'incertitude". Mais c'est là tout le
mystère. La seule chose qui a changé pour A est la connaissance que nous en avons. Par quel
étrange mystère notre connaissance influe-t-elle sur le résultat physique de l'expérience ? Ce
mystère est souvent qualifié en disant qu'en mécanique quantique l'observateur ne peut pas être
séparé de l'expérience car il a une influence. Mais quelle influence ? Il n'a même pas observé A !
Il y a d'ailleurs des situations où cette politique de l'autruche est gênante. Considérons l'univers
dans son ensemble et essayons de le décrire par la mécanique quantique. Comment prédire les
résultats du modèle ainsi construit ? Il n'y a même plus d'observateur extérieur, et pour cause, pour
dire "je fais une expérience et j'obtiens tel résultat" ou pour dire "le résultat final observé est…"
Il y a aussi des aspects tout à fait physique qui peuvent encore poser des difficultés comme le lien
entre la mécanique quantique et la mécanique classique. Comment expliquer le monde déterministe
dans lequel nous vivons s'il est basé sur une théorie aussi aléatoire ? Comment expliquer qu'à notre
échelle nous n'observions jamais d'états superposés (par exemple, une chaise située en deux
endroits en même temps). La difficulté est exacerbée par les raisonnements précédents.
Nous serons souvent amenés à comparer la mécanique quantique et ses résultats aux théories dites à
"variables cachées".
Les théories à variables cachées partent du postulat que la description "orthodoxe" de la mécanique
quantique est incomplète. En particulier, les résultats aléatoires observés ne seraient qu'une
conséquence d'un effet statistique sur des grandeurs non connues. Le caractère aléatoire serait alors
subjectif, un simple conséquence de notre ignorance des détails observés.
C'est une idée séduisante car c'est déjà ce que nous observons à notre échelle. Ainsi, le mouvement
d'un dé est totalement déterministe et décrit par les lois de la mécanique classique. Le jet d'un dé
nous semble aléatoire uniquement parce que nous ignorons tous les détails précis de la position du
dé et du mouvement qui lui est donné ainsi que les calculs compliqués menant à sa position finale.
Cela ne veut pas dire que cette approche est bonne et nous verrons qu'il y a d'ailleurs des difficultés
croissantes à maintenir cette approche. La mécanique quantique est robuste.
L'idée est donc qu'à côté de l'état ψ d'un système quantique, il y a un certain nombre de variables
inconnues, cachées, λ , qui décrivent complètement l'état. Si l'on effectue une expérience donnée,
caractérisée par un opérateur A, et que l'on a un ensemble d'états finaux φ possibles. La probabilité
2
d'un résultat donné est φ Aψ . La théorie à variables cachées dit que le résultat dépend de
manière déterministe de l'état du système et de ses variables cachées. En somme, le résultat final
d'une mesure sera déterminé par une fonction f ( ψ , λ ) .
A coté de cette description très générale, il y a de nombreuses variantes possibles : des variables
cachées propres au système, d'autres communes à plusieurs système et éventuellement à
l'observateur, des lois décrivant la variation de ces variables à travers des échanges de signaux
inconnus éventuellement instantanés, des variables discrètes ou continues, en nombre fini ou infini,
etc.
I. L'intrication quantique
Commençons cette étude par l'intrication quantique, le théorème de Bell et les expériences.
I.1. Intrication
Ces deux particules peuvent être identiques ou non. En général on considère deux particules
semblables, par exemple deux photons ou deux électrons, par facilité, mais ce n'est pas une
obligation.
Chaque particule peut être décrite par son état quantique ψ 1 et ψ 2 , respectivement pour les
particules 1 et 2. Chaque particule peut être décrite par un certain nombre de variables tel que sa
position, son impulsion, son spin, etc. Pour un système complexe, le nombre de variables peut être
important. Par facilité, nous considérerons une variable quelconque S pouvant prendre deux valeurs
A et B. Pour les deux particules, ces deux variables seront notées S1 et S 2 , respectivement. Et les
valeurs A1 , A2 et B1 , B2 . Ici, l'indice ne sert qu'à identifier à quelle particule se rapporte la valeur
A ou B mesurée.
Ignorons volontairement les autres variables et décrivons l'état de ces deux particules par cette
variable S. On généralise aisément à plusieurs variables, cela ne fait qu'alourdir les notations.
Quels sont les états possibles pour la particule 1 ? Elle peut se trouver dans l'état A ou B (plus
exactement, dans l'état ou la variable S a la valeur A ou B). Ce sont deux états de base de l'espace
de Hilbert réduit à la seule variable S.
ψ 1 = A1
(1)
ψ 1 = B1
2
La probabilité de mesurer, par exemple, la particule dans l'état A est alors donnée par a .
Considérons maintenant les deux particules. L'ensemble ne consiste pas simplement à regarder les
particules 1 et 2 séparément. Nous savons que la fonction d'onde de deux particules n'est pas
simplement la somme des deux fonctions d'onde.
C'est-à-dire qu'on peut avoir une situation avec la particule 1 dans l'état A et la particule 2 dans
l'état A, ou bien la particule 1 dans l'état A et la particule 2 dans l'état B, etc.
Un état général pour les deux particules peut donc s'écrire (avec la normalisation appropriée) :
(4) ψ 1ψ 2 = S1 S 2 = a A1 A2 + b A1 B2 + c B1 A2 + d B1 B2
Cet état est dit intriqué. En effet, il signifie que les deux particules sont dans l'état A ou les deux
particules sont dans l'état B, mais jamais l'une dans l'état A et l'autre dans l'état B. L'état de chaque
particule est lié, intriqué, à l'état de l'autre particule.
On parle d'état intriqué maximal pour les états (5) ou (6). On peut avoir une situation où, par
exemple, les variables b et c sont plus petites que a et d sans être tout à fait nulles. L'intrication n'est
alors que partielle. Deux particules peuvent être totalement intriquées, c'est-à-dire avec une
intrication maximale pour chaque variable pouvant décrire ces particules. On a alors affaire à de
véritables "jumeaux".
Intrication et interaction
Une question que l'on peut se poser est : peut-on effectivement obtenir un tel état ?
La réponse est oui. La première idée est d'utiliser un processus de désintégration. Considérons une
particule p sans spin et au repos, par exemple, un atome de positronium (un électron et un positron
en orbite l'un autour de l'autre) ou un pion neutre (une particule exotique).
Les lois de conservation impliquent que ces deux photons auront même fréquence, des impulsions
opposées et des directions opposées. Leurs spins, disons mesurés le long de l'axe z, seront opposés.
Comme le spin de chaque photon émit est aléatoire, alors on aura, pour le spin mesuré selon l'axe z
:
(7) + − + − +
(à un facteur de normalisation près).
Ce genre d'état semble donc assez particulier. Mais en réalité, les états intriqués sont tout à fait
banal. Considérons deux particules, disons deux électrons, de spin opposé se heurtant. Considérons
la diffusion de ces deux électrons dans une direction donnée D. Dans cette direction on peut avoir
un des deux électrons avec une des deux valeurs du spin. En fait, comme rien ne ressemble plus à
un électron qu'un autre électron, ce qu'on a c'est un électron émis dans cette direction dans l'état
+ + − . Dans la direction opposée, on a la même situation mais avec les spins opposés. On
retrouve l'état (7).
Donc, lors de la moindre interaction entre particules, les états résultant pour les particules peuvent
aisément conduire à des états partiellement ou complètement intriqués.
Mesurons le spin d'une des particules, disons la première, par rapport à l'axe vertical.
On a alors une chance sur deux d'obtenir V et une chance sur deux d'obtenir H. Si on utilise un
filtre polarisant vertical, cela revient à détecter la particule ou pas.
Que va alors donner la mesure sur la deuxième particule ? Le résultat, selon (8), sera identique. On
obtiendra V ou H. Mais dans tous les cas on obtiendra la même valeur que pour la première
particule.
Cette situation est très étrange. Nous sommes même au cœur du mystère en mécanique quantique.
En effet, la mesure sur une particule donne un résultat aléatoire. Les lois de la mécanique quantique
disent que la mesure sur une particule dans l'état H + V donnera H ou V avec une probabilité
1/2 pour chaque résultat. C'est un hasard parfait et intrinsèque.
Mais, dans ce cas, lorsque l'on mesure la particule 2, qui peut être à ce moment très éloignée de la
particule 1, par quel mystère "sait-elle" quel résultat elle doit donner ? Comment, si le résultat est
strictement aléatoire, peut-on avoir un résultat parfaitement déterminé par la mesure sur la particule
1?
On peut imaginer que la mesure sur la particule 1 envoie un signal vers la particule 2. Mais il est à
noter qu'on ne peut utiliser ce signal pour transmettre de l'information. En effet, la mesure sur 1
(autant que sur 2) étant totalement aléatoire, même si le résultat 1 est communiqué à 2,
l'expérimentateur en 2 ne sera pas en mesure de déterminer si le résultat qu'il obtient est dicté par la
mesure en 1 ou non.
On peut imaginer que ce signal est "caché", totalement indétectable. Mais, outre qu'un signal
physiquement indétectable est douteux, on peut effectuer les mesurer en 1 et 2 presque en même
temps, et ce quelle que soit la distance qui les sépare. Cela risque de poser des conflits avec la
relativité. Selon le mouvement de l'observateur, la relativité nous dit que l'ordre temporel dans
lequel les mesures sont effectuées est différent. Alors qui envoie un signal à qui ? Et comment le
résultat mesuré en 2 peut-il être intrinsèque ou dicté par la mesure en 1 selon l'observateur (selon
que la mesure en 1 à lieu après ou avant, respectivement) ?
D'un autre côté, puisque le résultat ne dépend pas de l'ordre temporel, pourquoi s'en soucier ?
Pourquoi rechercher un signal qui n'existe peut-être pas ? C'est la politique de l'autruche
(physiquement bien fondée puisque les résultats n'en dépendent pas, que ce signal soit une réalité
ou pas).
En mécanique quantique, on considère que la mesure de l'état H + V d'une particule va donner
un résultat précis, disons H, et modifier l'état de la particule qui devient H . On parle de réduction
de la fonction d'onde ou de réduction de l'état.
Dans le cas de l'intrication (8), la mesure H de la particule 1 donne l'état HH rendant inévitable la
mesure H pour la particule 2.
Notons que ce processus de réduction est instantané pour l'ensemble des deux particules. On
retrouve ce caractère instantané.
Considérons maintenant que l'on mesure les deux particules selon des angles quelconques. Disons
qu'on trouve la première particule dans l'état V (en fait, peu importe l'angle ici, car dans l'état
H + V , le spin est totalement indéterminé et sans direction quelconque).
Supposons maintenant qu'on mesure le spin de la particule deux selon un angle θ (mesuré par
rapport à la verticale). Mais suite à la première mesure, cette particule est dans l'état V. Donc la
probabilité de trouver la particule avec un spin dans cette direction est cosθ . Si l'on utilise des
filtres polarisant pour mesurer ces deux particules (on place le filtre et un simple détecteur
derrière), l'un vertical l'autre avec l'angle θ , la probabilité d'obtenir une coïncidence de comptage
(on détecte les deux particules ou pas) est aussi cosθ .
I.2. Les éléments de réalité d'Einstein
Einstein n'était pas d'accord avec l'interprétation probabiliste traditionnelle de la mécanique
quantique.
Cette interprétation a été élaborée par Niels Bohr et ses collègues (dite maintenant "école de
Copenhague"). Elle reprend les éléments que nous connaissons (interprétation probabiliste,
réduction de la fonction d'onde). Elle considère aussi qu'aucune valeur précise ne peut être attribuée
aux variables sans une mesure (un état quantique est une superposition d'états propres d'un
observable avec des valeurs différentes).
Einstein trouvait que cette façon de voir était une hérésie. Un rejet du déterminisme et du réalisme
si fécond jusque là. Ses altercations avec Bohr lors des conférences de Solvay sont restées célèbres
au point que certaines de leurs réflexions sont entrées dans l'histoire.
Attention. Il ne faut surtout pas croire qu'Einstein rejetait la mécanique quantique. Einstein ne
considérait pas la mécanique quantique comme fausse et il y a d'ailleurs largement contribué.
Rappelons-nous par exemple son étude de l'effet photoélectrique qui fut un des fondements de la
mécanique quantique. Pensons aussi à l'émission stimulée et à la statistique de Bose-Einstein. Mais
il pensait que la mécanique quantique était une théorie incomplète et que son caractère probabiliste
n'était qu'une manifestation statistique d'une machinerie interne encore inconnue.
En 1935, Einstein publia un article resté célèbre avec B. Podolsky et N. Rosen : "La description de
la mécanique quantique de la réalité physique peut-elle être considérée comme complète".
Nous ne présenterons pas en détail son article qui utilise une analyse fouillée de la mécanique
quantique. L'essentiel de son argumentation sera suffisant ainsi qu'une présentation moderne.
Il ne cherche pas à définir en détail ce qu'est une théorie complète mais considère une condition qui
semble nécessaire :
"Tout élément de la réalité physique doit avoir une contrepartie dans la théorie physique".
Les éléments de réalité physique ne doivent pas être déterminés sur des bases philosophiques a
priori et il ne souhaite pas définir concrètement ce qu'est la réalité. Il se satisfait donc d'un critère
raisonnable :
"Si, sans perturber un système en aucune manière, nous pouvons prédire avec certitude (c'est-à-dire
avec une probabilité égale à l'unité) la valeur d'une quantité physique, alors il existe un élément de
réalité physique correspondant à cette quantité physique."
Dans leur article, ils considèrent la position et l'impulsion comme quantités intriquées. Ce n'est pas
le plus adapté à un traitement expérimental pour lequel le spin est une grandeur plus appropriée.
Mais nous pouvons garder ici les variables positions r et impulsion p.
Effectuons une mesure de l'impulsion sur la particule 1. Nous trouvons ainsi la valeur p. Puisque
les particules 1 et 2 sont intriquées, alors toute mesure de l'impulsion de la particule 2 donnera
également p (ou plus exactement -p). De plus, la particule 2 étant largement séparée de la particule
1, on peut effectuer la mesure sur 1 sans perturber 2 de quelque manière que ce soit, au moins en
considérant la situation de 2 au même moment (intervalle de type espace entre les événements de
mesure sur 1 et 2).
Puisque nous pouvons prédire avec certitude la valeur de l'impulsion de la particule 2, alors nous
devons considérer que cette quantité physique correspond à un élément de réalité physique.
Nous pouvons aussi effectuer une mesure de la position sur la particule 2 obtenant r. Ainsi nous
pouvons prédire la position de la particule 1 et la position est aussi un élément de réalité physique.
Il y a là conflit. Les éléments de réalité nous conduisent à affirmer que la position et l'impulsion de
chaque particule constituent des éléments de réalités précis à un instant donné. Alors que la
mécanique quantique nous dit le contraire.
La conclusion des auteurs est que la mécanique quantique ne peut pas être complète. Il doit y avoir
des aspects inconnus qui déterminent précisément la valeur de la position et de l'impulsion mais
que la mécanique quantique ne décrit pas, celle-ci en étant réduite à une description statistique.
Notons que l'argument relativiste est important. On imagine bien que pour Einstein, le père de la
relativité, c'était un aspect incontournable. Le raisonnement ne tient que si aucun signal plus rapide
que la lumière, voire instantané, ne peut se propager de la particule 1 à la particule 2. Ainsi, la
mesure de 1 ne peut pas altérer la particule 2. De même, considérer que la réalité des grandeurs en
2 est altérée par une mesure en 1 sans qu'aucune perturbation d'aucune sorte ne puisse passer de 1 à
2 semble absurde.
Notons que ce caractère imprécis des grandeurs et le principe d'indétermination découle aussi de la
physique ondulatoire, nous l'avions vu. Mais les ondes classiques ne manifestent pas le phénomène
d'intrication, la mécanique quantique n'est pas une théorie classique. Si l'on prend deux paquets
d'ondes (classiques) identiques largement séparés, la mesure de la fréquence sur un des paquets
n'implique pas que l'on mesurera la même fréquence sur l'autre paquet (en se rappelant que la
fréquence d'un paquet d'ondes n'est pas précise).
Nous verrons qu'Einstein s'est trompé. Son hypothèse des éléments de réalité conduit à des
prédictions traduites par les inégalités de Bell. Or la mécanique quantique viole ces inégalités.
L'expérience a montré que c'est la mécanique quantique qui a raison, contre Einstein.
Il y a donc deux possibilités : on la théorie est non locale, dans le sens de l'existence de signaux
instantanés violant la relativité, ou il n'y a pas de variables cachées (donnant la valeur des éléments
de réalité).
Ces résultats ne sont pas un rejet de la réalité. Il s'avère juste que la réalité n'est pas aussi simple
qu'on pourrait le croire ! L'approche d'Einstein des "éléments de réalité" est d'ailleurs maintenant
appelée "réalisme naïf". Et les résultats théoriques et expérimentaux ne font que falsifier ce
réalisme naïf.
On peut rechercher plusieurs failles dans le raisonnement de EPR (initiales des auteurs). Cela peut
ainsi conduire à plusieurs façon d'interpréter la mécanique quantique. Donnons un exemple.
Lorsque l'on mesure l'impulsion de la particule 1, on trouve une valeur précise. Ainsi, on peut
prédire avec précision le résultat d'une mesure effectuée sur la particule 2. Mais ce raisonnement est
lui-même non local. En effet, on a dit que la mesure en 2 était effectuée rapidement afin qu'aucun
signal ne puisse se propager de 1 à 2. Mais dans ce cas, comment pourrait-on, en 2, effectuer une
prédiction alors que l'information de la mesure en 1 n'est pas encore arrivée ? Bien sur, le physicien
qui contemple l'expérience sur une feuille de papier peut faire cette prédiction, mais ça c'est un
raisonnement "hors réalité", un raisonnement non local (on considère la situation dans son
ensemble et instantanément). Dans la réalité, lors d'une véritable expérience, il n'y a pas "d'esprit
supérieur", extérieur à la scène, dictant le résultat des mesures. Les appareils de mesure et les
physiciens situés à l'endroit de la particule 2 ne disposent pas de l'information permettant de faire la
prédiction.
Bien entendu, on peut confronter les expériences après coup et constater qu'une prédiction parfaite
aurait pu être faite. Ce genre de raisonnement contrafactuel est dangereux en mécanique quantique.
Nous aurons l'occasion de le voir.
Difficile à ce stade de comprendre ce qui peut ressortir de tout cela, mais il est clair que les choses
ne sont pas aussi simples qu'Einstein l'aurait souhaité.
I.3. Théorème de Bell
Introduction
Nous allons considérer ici des états intriqués du spin plutôt que la position et l'impulsion. Cette
variante de la méthode fut considérée par David Bohm.
L'incomplétude de la description de l'état quantique conclu par EPR implique qu'on doit considérer
une description théorique de l'état consistant en ψ et certains paramètres additionnels afin de
totalement expliquer les propriétés d'un système. En particulier, on peut attribuer un élément de
réalité à chaque composante du spin.
En termes d'une telle description de l'état, on devrait être capable de mathématiquement représenter
les valeurs définies conclues par EPR en utilisant une fonction Vλ (O ) reliant chaque composante
du spin de chaque particule à une valeur.
Puisque nous considérons un système avec ψ fixé, plus précisément l'état singulet du spin pour des
particules de spin 1/2, par exemple des électrons, aucune dépendance à ψ n'a besoin d'être inclue
dans V.
Ici nous avons noté le paramètre d'état supplémentaire λ . En 1965, John S.Bell a présenté un
fameux théorème qui traitait de la possibilité d'une telle fonction sur les observables du spin. Bell
fut capable de montrer que cette formulation doit être en conflit avec les prédictions statistiques de
la mécanique quantique pour différentes mesures du spin. Nous présentons maintenant le théorème
de Bell.
Fixons d'abord nos notations. Pour noter les directions de l'espace, nous écrirons les vecteurs unités
( )
comme â , b̂ , ĉ . Plutôt que d'utiliser la forme Vλ (O ) , nous écrirons A(λ , aˆ ) et B λ , bˆ pour
représenter les fonctions sur les composantes du spin des particules 1 et 2, respectivement. Puisque
les deux particules sont de spin 1/2, nous aurons A = ± 12 et B = ± 12 , cependant, par simplicité,
nous les changeons en A= ± 1 et B= ± 1 . On aurait ces valeurs pour des photons, par exemple.
Notons que la forme de ces fonctions n'est pas choisie au hasard. Selon l'idée d'EPR, la localité est
importante. Ainsi, la composante du spin mesuré sur la particule 1 ne dépend que des variables
cachées de la particule 1, λ , et de la direction de mesure du spin en ce point, â . On n'a donc pas
( )
une fonction comme A λ , aˆ , bˆ . De plus, les particules étant identiques (mêmes particules,
intriquées), on suppose que les variables cachées ont la même valeur pour 1 et 2 et les fonctions A
et B sont identiques.
Démonstration
La propriété clé de la version singulet du spin du paradoxe EPR était son analyse des corrélations
parfaites existant quand les deux particules d'une paire singulet du spin sont sujettes à des mesures
de la même composante du spin. Donc, il peut ne pas être surprenant que le théorème de Bell traite
du cas d'une fonction de corrélation qui est essentiellement une mesure de la corrélation statistique
entre les résultats des mesures des composantes du spin des deux particules. La fonction de
corrélation est déterminée comme suit : nous disposons l'appareil mesurant la particule 1 pour
sonder la composante dans la direction â et l'appareil mesurant 2 est disposé pour la direction b̂ .
Nous effectuons une série de mesures des paires singulet de spin en utilisant cette configuration,
enregistrant le produit σ a(ˆ1)σ b(ˆ2 ) des résultats de chaque essai. La moyenne de ces produits sur la
série de mesures est la valeur de la fonction corrélation.
En général, nous nous attendons à ce que la valeur de la moyenne déterminée de cette manière
dépende des directions â b̂ par rapport auquel les composantes du spin sont mesurées. Selon le
formalisme quantique, nous pouvons prédire la moyenne, ou valeur moyenne, de tout observable en
utilisant la formule E (O ) = ψ O ψ . Pour les séries d'expériences décrites, nous prenons la valeur
moyenne du produit des observables appropriés des composantes du spin, ce qui donne :
( )
(1) PMQ aˆ , bˆ = σ a(ˆ1)σ b(ˆ2 ) = −aˆ ⋅ bˆ
Dans le cas de valeurs prédéterminées, la moyenne du produit des deux composantes du spin
σ a(ˆ1)σ b(ˆ2 ) est obtenue en prenant une moyenne sur λ :
( ) ( )
(2) P aˆ , bˆ = ∫ dλρ (λ ) A(λ , aˆ )B λ , bˆ
où ρ (λ ) est la distribution de probabilité sur λ (ses valeurs initiales sont inconnues a priori).
ρ (λ ) est normalisé par :
(3) ∫ dλρ (λ ) = 1
Nous allons maintenant examiner la question de savoir si la fonction de corrélation donnée par (2)
est compatible avec la prédiction de la mécanique quantique (1) pour cette fonction.
Crucial pour l'analyse EPR est le fait qu'il y a une corrélation parfaite entre les résultats de la
mesure de toute composante du spin de la particule 1 dans une direction donnée avec la mesure de
la même composante du spin de la particule 2 (intrication), tel que les résultats sont de signe
opposé. Pour prendre en compte cela, la fonction de corrélation doit donner
Il est facile de voir que la fonction de corrélation quantique satisfait cette condition. Si la prédiction
utilisant les valeurs prédéterminées est le reflet de cela, nous devons avoir
(5) A(λ , aˆ ) = − B(λ , aˆ ) ∀aˆ , λ
( ) [ ( ) ]
P aˆ , bˆ − P(aˆ , cˆ ) = − ∫ dλρ (λ ) A(λ , aˆ ) A λ , bˆ − A(λ , aˆ ) A(λ , cˆ )
( )[ ( ) ]
(6)
= − ∫ dλρ (λ )A(λ , aˆ ) A λ , bˆ 1 − A λ , bˆ A(λ , cˆ )
En utilisant A, B = ±1 , nous avons que
( ) [ ( ) ]
(7) P aˆ , bˆ − P(aˆ , cˆ ) ≤ ∫ dγρ (λ ) 1 − A λ , bˆ A(λ , cˆ )
alors, en utilisant la normalisation (3) et (5), nous avons
( ) ( )
(8) P aˆ , bˆ − P(aˆ , cˆ ) ≤ 1 + P bˆ, cˆ
et cette relation, qui est habituellement appelée "inégalité de Bell", est la
conclusion du théorème.
Donc, le cadre général du théorème de Bell est le suivant. Les valeurs définies des différentes
composantes des deux spins des particules sont représentées par les fonctions mathématiques
( )
A(λ , aˆ ) et B λ , bˆ . La condition
(9) A(λ , aˆ ) = − B(λ , aˆ ) ∀aˆ , λ
( )
(équation (5)) placée sur les fonctions A(λ , aˆ ) , B λ , bˆ assure l'accord de ces fonctions avec les
corrélations parfaites. Le théorème de Bell nous dit que dans ces conditions, il s'ensuit que la
prédiction théorique pour la fonction de corrélation P (aˆ , bˆ ) doit satisfaire l'inégalité de Bell (8).
Basé sur le fait que l'inégalité de Bell n'est pas satisfaite par la fonction de corrélation de la
mécanique quantique (1) (comme nous le verrons ci-dessous), certains auteurs (Bethe, Hans, Gell-
Mann, Murey, Wigner) en ont conclu que le théorème de Bell prouvait l'impossibilité des variables
cachées. En fait, ce n'est pas tout à fait exact, cela n'invalide que les variables cachées locales. C'est
toutefois une contrainte très forte.
Autre démonstration
Nous allons maintenant donner la description du théorème de Bell donnée par Bernard d'Espagnat
dans Scientific American et qui est une des plus claire. Elle apporte une vue très profonde sur ce
théorème.
D'Espagnat considéra l'expérience dans laquelle nos trois propriétés A, B et C sont mesurées (il
utilisa des protons dans son exemple). En supposant que les protons sont intriqués via une loi de
conservation, il y aurait une stricte corrélation négative entre les propriétés correspondantes des
deux protons (mais l'argument s'adapte aisément au cas où les valeurs sont identiques et donc une
corrélation strictement positive). Si la valeur A du proton 1 est +, alors la composante A du proton
2 est -. Dans cette expérience, les paires de protons intriqués sont séparées, les différentes
propriétés des protons séparés sont mesurées et les résultats sont comparés. La mesure d'une
propriété A ayant une valeur de + est désignée A+ et la mesure d'une propriété B ayant une valeur
de - est désignée B-, etc. En mesurant les propriétés d'une paire de protons, quelquefois la propriété
A d'un proton est mesurée tandis que la propriété C de l'autre proton est mesurée et dans d'autres
cas d'autres paires de propriétés sont mesurées pour une paire de protons. Les seules mesures
intéressantes sont celles pour lesquelles différentes propriétés sont mesurées pour les protons d'une
paire (puisque de toute façon, la mesure de, par exemple, A+ sur une particule garantit la mesure de
A- sur l'autre, la mesure n'apporte donc rien de plus que ce que l'on sait déjà). Les types de paires
de propriétés mesurées sont alors désignés par AB, BC et AC selon les propriétés mesurées. Une
paire pour laquelle on mesure A+ et C- est désignée A+C-, etc. Alors le nombre de fois où les
valeurs A+C- ont été mesurées sur les paires est noté n[ A + C −] .
Si les valeurs A+, B+ et autres peuvent être considérées comme des propriétés réelles des protons,
alors nous pouvons désigner l'état réel d'un seul proton comme, par exemple, A+B+C- (ces valeurs
réelles, prédéterminées, dépendant de manière univoque de certaines variables cachées). Si nous
désignons l'ensemble de tous les protons qui ont l'état x comme x alors :
A + B − ⊂ A + C − ∪ B − C + . Cette notation signifie que l'ensemble des états A + B − est
contenu dans l'ensemble des états A + C − et des états B − C + réunis ( ⊂ est le symbole de
l'inclusion et ∪ le symbole de la réunion des ensembles), c'est-à-dire l'ensemble obtenu avec les
éléments des deux ensembles réunis sans compter deux fois les mêmes). On le vérifie aisément en
détaillant ces ensembles :
(10) A + C − = A + B + C − ∪ A + B − C −
et
(11) B − C + = A + B − C + ∪ A − B − C +
En utilisant les relations des sous-ensembles démontrées précédemment, nous pouvons en déduire
que :
(13) N ( A + B − ) ≤ N ( A + C − ) + N (B − C + )
C'est une inégalité en termes de protons individuels et elle ne peut jamais être démontrée
expérimentalement car des mesures simultanées des multiples composantes ne peuvent pas être
faites (on suppose donc, bien que ce ne soit pas obligatoire, que ces valeurs sont incompatibles,
reliées par un principe d'indétermination). Ce que nous pouvons mesurer, cependant, est
n[ A + B −] , le nombre de paires qui ont la propriété A+ pour un proton et la propriété B+ pour
l'autre proton. On peut étendre le résultat sur le nombre de protons ayant certaines configurations
aux mesures sur des paires de protons car dans l'hypothèse des variables cachées locales, les
protons doivent être considérés individuellement, même lorsqu'ils sont intriqués. Pour un grand
nombre de mesures, la valeur N ( A + B − ) est statistiquement proportionnelle à n[ A + B −] et
N ( A + C − ) est proportionnel à n[ A + C −] etc.
Les constantes de proportionnalités sont les mêmes dans tous les cas puisqu'elles dépendent
seulement de l'efficacité du dispositif de mesure (supposé sans biais) et de la distribution des
différentes configurations (supposées être toutes équiprobables). Nous pouvons maintenant utiliser
les inégalités précédentes pour affirmer ce qui suit :
(13) n[ A + B − ] ≤ n[ A + C −] + n[B − C + ]
C'est l'inégalité de Bell et elle doit être valable si les protons (et les autres particules) ont des
propriétés intrinsèques telles que les trois propriétés ci-dessus.
Autres inégalités
L'inégalité ci-dessus n'est qu'une des possibilités. On peut établir les inégalités de Bell pour toutes
sortes de propriétés, éventuellement liées entre elles, dans toutes sortes de situations (y compris
avec des configurations qui ne sont pas équiprobables, certaines ayant plus de chance de se
produire que d'autres).
Le théorème original de Bell est très général, tout type de variables cachées et tout type de
propriétés mesurées. Il est même tellement général qu'il ne dépend que de deux hypothèses et
seulement deux : l'hypothèse des variables cachées et l'hypothèse de localité.
Prenons le cas de la polarisation. Comme nous l'avons dit, la polarisation peut-être verticale ou
horizontale, mais elle peut aussi faire un angle quelconque avec la verticale. Dans l'exemple le plus
simple, un rayon lumineux polarisé horizontalement est totalement annulé par un filtre polarisant
vertical. Dans le cas des photons, cela se traduit par une plus ou moins grande probabilité d'être
absorbé par le filtre.
Ce cas est donc un peu plus compliqué. Si l'on mesure la polarisation des photons selon trois angles
α , β , γ , ce que l'on va mesurer c'est le nombre de photons qui ne sont pas absorbés par un filtre
polarisant placé avec cet angle. On va mesurer ces valeurs pour les deux photons, chacun utilisant
un filtre orienté de manière différente (tout comme on mesurait des propriétés différentes ci-
dessus). On mesure la corrélation (les deux photons passent ou sont absorbés en même temps) pour
deux angles C (α , β ) par exemple. Dans ce cas, on démontre les inégalités de Bell :
(14) C (α , β ) − C (α , γ ) ≤ 1 + C (β , γ )
L'écart entre les deux corrélations de gauche est toujours inférieur ou égal à un plus la troisième
corrélation. C'est exactement la relation (8).
Prenons trois angles particuliers, α = 0 , β = 25° et γ = 115° . Dans ce cas, le calcul exact donne :
C (α , β ) = −0.906
C (α , γ ) = 0.422
C (β , γ ) = 0
Remplaçons ces valeurs dans l'inégalité de Bell (14), on trouve : 1.328 à gauche et 1 à droite. Le
membre de gauche étant plus grand que celui de droite, l'inégalité de Bell est violée.
La mécanique quantique est donc en désaccord avec le résultat trouvé par Bell. Cela montre que la
mécanique quantique ne peut pas être représentée avec des variables cachées locales.
Dans le test des inégalités de Bell, les expérimentateurs ont déterminé la valeur de la quantité S, où
(1) S = E (a, b ) − E (a, b ′) + E (a ′, b ) + E (a′, b ′)
(2) E (a, b ) = P+ + (a, b ) + P− − (a, b ) − P+ − (a, b ) − P− + (a, b )
Confirmations supplémentaires
Le test décrit précédemment fut modifié pour pouvoir sélectionner la configuration des polariseurs
après que les photons aient quitté la source et supposés ne plus être influencés simultanément par le
dispositif (figure ci-dessus). Les chercheurs remplacèrent chacun des polariseurs avec un
commutateur et chaque commutateur était suivi de deux polariseurs ayant des orientations
différentes. De cette manière, un photon venant de la source rencontre d'abord un commutateur
optique qui le dirige alors directement dans un des deux polariseurs. Bien sûr, l'autre photon
rencontre en même temps un dispositif similaire de l'autre côté de l'expérience. Les distances et la
vitesse de commutation sont telles que la commutation aura changé entre le moment où le photon a
quitté la source et le moment où le photon est arrivé au commutateur. Le but ici est d'assurer
qu'aucune influence physique non standard de la configuration ultime des polariseurs ne peut avoir
affecté l'autre photon depuis qu'ils sont formés. Les expérimentateurs ont affirmé que leur
arrangement éliminait la localité comme facteur dans la corrélation des mesures. Pour un tel
arrangement, les expérimentateurs ont déterminé la prédiction de la mécanique quantique
S = 0.112 tandis que les inégalités de Bell prédisent S ≤ 0 . Les expérimentateurs ont obtenus
S = 0.101 ± 0.020 .
Un résumé des tests expérimentaux précédents des inégalités de Bell a été publié par John Clauser
et Abner Shimony. Ce résumé couvre les expériences listées dans la table ci-dessus et donne
quelques critiques sur les méthodes également.
Pour être complet, il faut signaler une lacune dans ces expériences appelée "problème des non-
détection". Les appareils de mesure ne sont pas parfaits et, de temps en temps, certains photons
échappent à la détection. Dans les calculs statistiques des corrélations, il est assez facile d'en
tenir compte. Toutefois, cette correction se fait dans l'hypothèse que ces photons non détectés
sont quelconques, que la non-détection est aléatoire. En fait, rien ne dit que l'état du photon (par
exemple, à travers certaines valeurs des variables cachées) ne joue pas un rôle et qu'en prenant
toutes les valeurs en compte on ne constaterait pas un respect des inégalités de Bell. Il reste
donc une légère porte ouverte pour les variables cachées mais il faut quand même avouer que la
porte est minuscule (même si les physiciens aimeraient bien la fermer complètement) pour deux
raisons. Tout d'abord, ce phénomène serait particulièrement vicieux. Une partie des photons
échapperaient à la détection "pour cacher" le respect des inégalités de Bell. L'effet des variables
cachées et leur répartition statistique serait telle qu'elle induirait ce biais. Pire encore, ce biais
serait tel que le résultat obtenu sur les photons restant (ceux qui sont détectés) serait exactement
le résultat prédit par la mécanique quantique ! Il faut vraiment créer de toute pièce une théorie
ad hoc pour qu'une "censure" aussi parfaite s'applique et nous empêche de connaître les détails
des mécanismes intimes des particules. Peu de physiciens croient en une telle possibilité.
D'autant que des expériences plus récentes et encore plus précises ont été menées (avec des
photons transitant par fibres optiques sur des kilomètres).
Dans des conditions idéales (et donc par nécessairement celle d'une expérience de type EPR) on
atteint des taux de détection quasiment parfaits (photons de fréquences bien choisies, caméras
CCD ultrasensibles,…) Il ne semble donc pas que la non-détection soit de rigueur en physique
quantique et induite par les variables cachées. C'est seulement la conséquence d'appareils de
mesure imparfaits.
Cela donne aussi un bon espoir d'arriver à réaliser une expérience réunissant toutes les
conditions d'une expérience EPR irréprochable et avec un taux de détection proche de cent pour
cent.
II. Contextualité
Un autre point mérite d'être signalé concernant les théories à variables cachées.
Le théorème de Bell n'est pas le seul qui ait permis de voir dans quelles circonstances les théories à
variables cachées peuvent donner des résultats équivalents à la mécanique quantique. Plusieurs
autres théorèmes important concernent la contextualité, en particulier un théorème très général dû à
Kochen et Specker. Ce théorème montre que toute théorie à variables cachées qui voudrait
reproduire les résultats de la physique quantique doit être contextuelle.
Qu'est-ce qu'une théorie contextuelle ? Cela signifie que les résultats des mesures dépendent de la
manière d'effectuer la mesure même si l'on mesure la même quantité physique. On dit que le
résultat dépend du contexte.
Supposons que l'on ait un état décrit par ψ ,θ (où θ sont des variables cachées). Soit
ψ = x1 + x 2 . C'est-à-dire, un état où la position est indéterminée en mécanique quantique et
toute mesure de la position donne avec une chance sur deux soit x1 , soit x 2 . Dans une théorie à
variables cachées, le résultat n'est pas aléatoire mais prédéterminé et il dépend des variables
cachées θ . Pour faire simple, supposons que toutes les configurations (pour un état ψ donné) des
variables cachées soient équivalentes et équiprobables. Dans ce cas, la moitié des valeurs possibles
doit correspondre à x1 et l'autre à x 2 .
Mais, si la théorie est contextuelle, alors ce résultat dépend aussi de la manière d'effectuer la
mesure. Appelons C1 une manière de mesurer la position et C 2 une autre manière de le faire.
Alors, avec C1 , comme signalé ci-dessus, la moitié des valeurs possibles pour les variables cachées
doit donner x1 et l'autre moitié x 2 . Par exemple, supposons pour faire simple, que les variables
cachées peuvent prendre quatre valeurs possibles : θ 1 , θ 2 , θ 3 et θ 4 et que, en utilisant C1 , les
valeurs θ 1 et θ 2 donnent la mesure x1 et les valeurs θ 3 et θ 4 donnent x 2 .
Maintenant, si nous utilisons C 2 , alors peut-être que cette fois-ci, c'est θ 1 et θ 3 qui vont donner le
résultat x1 et θ 2 et θ 4 donner x 2 .
Le résultat dépend donc bien (dans cet exemple) des variables cachées et de la manière de mesurer
la position.
Sans entrer immédiatement dans le détail des théorèmes sur la contextualité, on peut comprendre
assez facilement pourquoi il doit en être ainsi. Imaginons que l'on ait trois quantités physiques à
mesurer correspondant aux observables O1 , O2 et O3 . Il peut arriver (c'est le cas si les deux
premiers observables correspondent à la position dans deux directions et le troisième à l'impulsion
selon une de ces directions) que O1 et O2 commutent, O1 et O3 commutent, mais O2 et O3 ne
commutent pas.
Cela signifie que l'on peut mesurer O1 et O2 , ensemble, avec toute la précision voulue, ainsi que
O1 et O3 , mais que si l'on mesure O2 et O3 ensemble, les résultats seront soumis au principe
d'indétermination.
Supposons maintenant que l'on désire mesurer les valeurs de O1 et O3 . Pour mesurer O1 , on
dispose de deux appareils de mesure. Le premier (disons C1 ) mesure O1 directement. Le deuxième
( C 2 ) mesure O1 mais aussi O2 en même temps (même si on ignore volontairement ce résultat).
Cela dépend de la manière dont l'appareil de mesure fonctionne et il n'est pas rare qu'un dispositif
apporte plus d'informations que ce qui est réellement nécessaire. Ce n'est pas gênant car O1 et O2
commutent. Le fait de mesurer O2 n'empêche pas de mesurer O1 avec toute la précision requise.
C1 et C 2 peuvent donc être considéré comme des moyens parfaitement légitimes de mesurer O1 .
Mais le résultat ne peut pas être identique puisqu'en utilisant C1 et en mesurant O3 , en même
temps, on peut obtenir les résultats avec toute la précision souhaitée. Alors que pour les mêmes
états mesurés, l'utilisation de C 2 et la mesure de O3 ne peut pas être aussi précise que souhaitée.
Les mesures dépendant de la valeur des variables cachées et celles-ci devant reproduire le principe
d'indétermination à travers la distribution statistique des différentes variables cachées, l'utilisation
de C1 ou C 2 ne peut pas donner le même résultat.
Les théories à variables cachées doivent donc être contextuelles. Remarquons trois choses :
C'est vraiment quelque chose de très curieux. Impossible de trouver des manières parfaites de
mesurer les états sans être confronté à ce caractère contextuel. Cela est dû au fait qu'il est
possible de combiner les états de toutes sortes de manière (superposition) et que l'on sera
toujours confronté (comme le montre en détail le théorème de Kochen et Specker) à des
combinaisons qui donnent un résultat contradictoire avec différentes mesures si ces mesures ne
dépendent pas de la manière de procéder.
Notons que cela n'est pas différent de ce que nous avons déjà vu : les variables cachées sont
vraiment cachées. Toute tentative pour essayer de les connaître est vouée à l'échec.
Cet aspect est aussi vicieux que la non-localité. En effet, le fait de procéder à la mesure d'une
manière différente conduit, pour les mêmes variables cachées, à des résultats différents, mais, la
distribution statistique reste systématiquement la même. Là aussi il faut réellement créer une
théorie ad hoc pour arriver à un tel résultat.
Le cas des observables qui commutent ou pas ci-dessus peut se démultiplier à l'infini car il y a
une infinité d'observables possibles et une infinité de manière de les combiner et donc une
infinité de manière d'effectuer une mesure donnée. Puisque à chaque fois différents ensembles
de valeurs des variables cachées doivent donner différents résultats, cela signifie qu'il faut une
infinité de variables cachées. On ne peut pas vraiment parler d'une théorie économique ! Alors
que la physique quantique peut décrire un état à l'aide d'une structure mathématique
extrêmement simple (un état est un vecteur dans un espace de Hilbert avec des composantes sur
une base qui peut être choisie physiquement), toute théorie à variables cachées à besoin d'une
infinité de variables pour décrire le même état et, qui plus est, des variables totalement
inaccessibles.
On est en tout cas très éloigné de la motivation initiale des variables cachées : a chaque
propriété prédite avec certitude (dans une situation donnée) = un élément de réalité = une
propriété interne (une variable cachée) prédéterminée. Les variables cachées ne remplissent pas
l'objectif pour lequel on les a imaginées !
Notons que cet aspect de contextualité concerne aussi la mécanique quantique puisque ce que nous
avons dit concernant les trois observables ci-dessus reste vrai même en l'absence de variables
cachées. Toutefois le sens en est très différent. Dans la théorie à variables cachées, le résultat est
différent pour deux états différents (ne différant que par les variables cachées) et selon la manière
de mesurer. Tandis qu'en mécanique quantique, l'état initial est le même, seule la manière de le
mesurer diffère. Et le fait que différentes manières de mesurer affecte le système de manière
différente est nettement moins bizarre. D'autant que si le résultat peut varier, il est de toute façon
donné par une distribution probabiliste identique pour toutes les méthodes de mesure.
La conclusion finale est que toute théorie à variables cachées doit être contextuelle, non locale et
avoir nombre infini de variables cachées. Le tout se combinant de manière extrêmement perverse
pour empêcher que l'on accède aux valeurs précises des variables cachées et reproduisant
systématiquement les résultats statistiques simples de la mécanique quantique. Cela en fait des
théories alambiquées et douteuses.
II.1. Théorème de von Neumann
Introduction
Le but du développement d'une théorie à variables cachées est de donner un formalisme qui, bien
qu'étant empiriquement équivalent au formalisme quantique, ne possède pas son caractère subjectif
et indéterministe.
La question générale des variables cachées est, bien sûr, discuté dans plusieurs références. Le
travail de Bell est le plus définitif. Un récent passage en revue fut publié par N.D. Mermin qui a fait
beaucoup pour populariser le théorème de Bell à travers des articles dans Physics Today et à travers
des lectures populaires. Des discussions peuvent aussi être trouvées dans Bohm, Belinfante,
Hughes et Jammer.
Dans cette section nous présenterons et discuterons un des premiers travaux abordant la question
des variables cachées qui est l'analyse en 1932 de John von Neumann. Nous passerons aussi en
revue et élaborerons l'analyse de J.S. Bell de ce travail dans lequel il rend clair ses limites.
L'analyse des variables cachées de von Neumann apparaît dans son livre maintenant classique
Fondations Mathématiques de la Mécanique Quantique. Ce livre est notable à la fois pour son
exposition de la structure mathématique de la théorie quantique et comme un des premiers travaux
à systématiquement aborder à la fois la question des variables cachées et le problème de la mesure.
Plus loin nous discuterons une analyse de 1935 de Erwin Schrödinger. C'est l'article dans lequel le
"paradoxe du chat de Schrödinger" apparaît la première fois mais il n'est pas généralement apprécié
pour le reste alors qu'il contient d'autres résultats de signification égale ou peut-être plus grande tel
que la généralisation de Schrödinger du paradoxe de Einstein-Podolsky-Rosen. Nous pensons que
cet article remarquable pourrait avoir fait beaucoup pour avancer l'étude des fondations de la
mécanique quantique si ces dernières propriétés avaient été plus largement appréciées.
Le formalisme quantique nous présente deux différents types d'évolution de la fonction d'état : celle
donnée par l'équation de Schrödinger et celle qui se produit durant une mesure. Cette dernière
évolution apparaît dans la règle probabiliste et de réduction. Le problème de la mesure est le
problème de réconcilier ces deux types d'évolution.
Dans son analyse du problème des variables cachées, von Neumann a prouvé un résultat
mathématique maintenant connu comme le théorème de von Neumann et alors affirmé que ce
théorème impliquait la conclusion très forte qu'aucune théorie à variables cachées ne peut fournir
un accord empirique avec la mécanique quantique : (préface p.ix.x) "... une telle explication (par
des "paramètres cachés") est incompatible avec certains postulats fondamentaux qualitatifs de la
mécanique quantique." L'auteur affirme de plus : "il devrait être noté que nous n'avons pas besoin
d'aller plus loin dans le mécanisme des 'paramètres cachés' puisque nous savons maintenant que les
résultats établis de la mécanique quantique ne peuvent jamais être redérivés avec leur aide". La
première démonstration concrète que cette affirmation est erronée fut donnée en 1952 quand David
Bohm construisit une théorie viable des variables cachées. Alors, en 1966, J.S. Bell analysa
l'argument de von Neumann contre les variables cachées et montra où il devait être en erreur. Dans
cette section, nous commencerons pat discuter un concept essentiel de l'analyse de von Neumann :
la représentation d'état d'une théorie à variables cachées. Nous présenterons alors le théorème de
von Neumann et l'argument contre les variables cachées. Finalement, nous montrerons où l'erreur
est dans son argument.
L'analyse de von Neumann est concernée par la description de l'état d'un système et la question de
l'incomplétude de la description du formalisme quantique. La notion d'incomplétude de la
description du formalisme quantique fut particulièrement mise en évidence par Einstein, comme
nous l'avons vu. Le fameux article de Einstein-Podolsky-Rosen fut imaginé comme une preuve
d'une telle incomplétude et les auteurs ont conclu ce travail avec l'affirmation suivante : "Bien que
nous avons donc montré que la fonction d'onde ne fournit pas une description complète de la réalité
physique, nous laissons ouvert la question de savoir si oui ou non une telle description existe. Nous
croyons, cependant, qu'une telle théorie est possible". Le programme des variables cachées qui est
une tentative de compléter la description de l'état est apparemment exactement le type de
programme que Einstein demandait. Une description complète de l'état peut être construite pour
éliminer certaines des propriétés critiquables de la description théorique quantique.
La question particulière de l'analyse de von Neumann traite est la suivante : est-il possible de
restaurer le déterminisme de la description des systèmes physiques en introduisant des variables
cachées dans la description de l'état d'un système ? La représentation de l'état du formalisme
quantique donné par ψ ne permet pas en général de prédiction déterministe des valeurs des
quantités physiques, c'est-à-dire des observables. Donc les résultats obtenus en effectuant des
mesures sur des systèmes avec des représentations d'état identiques ψ peuvent être attendues varier
(la quantité statistique appelée dispersion est utilisée pour décrire cette variation quantitativement).
Bien qu'elle ne fournit en général pas de prédiction pour chaque mesure individuelle d'un
observable O, le formalisme quantique donne une prédiction pour sa moyenne ou valeur moyenne :
(1) E (O ) = ψ O ψ
Quand elle est généralisée au cas des états mixtes, cela devient
(2) E (O ) = Tr (UO )
où U est un opérateur positif avec la propriété Tr (U ) = 1 . Ici U est connu comme la "matrice
densité".
L'observable identité est le projecteur associé à l'espace de Hilbert entier. Tous les vecteurs sont des
vecteurs propres de 1 avec la valeur propre 1. La deuxième hypothèse est que la fonction E de toute
combinaison linéaire réelle des observables est la même combinaison linéaire des valeurs de E
assignées à chaque observable individuel :
(4) E (aA + bB + L) = aE ( A) + bE (B ) + L
où (a, b, ...) sont des nombres réels et (A, B, ...) sont des observables. Finalement, il est supposé
que E pour tout projecteur P doit être non négatif :
(5) E (P ) ≥ 0
Par exemple, dans le cas de la fonction Vλψ , P doit être assigné ou bien à 1 ou bien à 0 puisque ce
sont ses valeurs possibles. Selon le théorème, ces prémisses impliquent que E (O ) doit être donné
par la forme
(6) E (O ) = Tr (UO )
où U est un opérateur positif avec la propriété Tr (U ) = 1 .
Une preuve du théorème peut être trouvée dans le travail original de von Neumann. Albertson a
présenté une simplification de cette preuve en 1961. Ce que nous présentons ici est une
simplification supplémentaire.
Nous commençons par noter que tout opérateur O peut être écrit comme une somme d'opérateurs
( ) ( )
hermitiques. Définissons A et B par les relations A = 12 O + O + et B = 21i O − O + où O +
est le conjugué hermitique de O. Alors on voit facilement que A et B sont hermitiques et que
(7) O = A + iB
où E (O ) est le E (O ) de von Neumann et A et B sont définis comme ci-dessus. Avec les équations
(8) et (4), nous avons que E ∗ (O ) a la propriété de linéarité complexe. Notons que E ∗ (O ) est une
généralisation du E (O ) de von Neumann : ce dernier est une fonction linéaire réelle sur les
opérateurs hermitiques tandis que la précédente est une fonction linéaire complexe sur tous les
opérateurs. Le forme générale de E ∗ sera maintenant analysée pour le cas d'un opérateur de
dimension finie exprimé en termes matriciels d'une certaine base orthonormale. Nous écrivons
l'opérateur O sous la forme
(9) O = ∑ m m O n n
m,n
où les sommes sur m, n sont finies. Cette forme de O est une combinaison linéaire des opérateurs
m n et la linéarité complexe de E ∗ implique que
(10) E ∗ (O ) = ∑ m O n E ∗ ( m n )
m ,n
Nous montrons maintenant que U est un opérateur positif. C'est une prémisse du théorème que
E (P ) ≥ 0 pour tout projecteur P. Donc nous écrivons E (Pχ ) ≥ 0 où Pχ est un projecteur à une
dimension sur le vecteur χ . En utilisant la forme de E trouvée dans (12), nous avons
(13) Tr (UPχ ) = χ U χ ≥ 0
L'égalité Tr (UPχ ) = χ U χ dans (13) est constatée comme suit. L'expression Tr (UPχ ) est
indépendante de la base orthonormale φ n en terme de laquelle les représentations matricielles de U
et P sont exprimées, ainsi on peut choisir une base orthonormale dont χ lui-même est un
membre. Puisque P = χ χ et Pχ φ n = χ χ ϕ n = 0 pour tout φ n excepté χ , nous avons
Tr (UPχ ) = χ U χ .
Puisque χ est un vecteur arbitraire, il s'ensuit que U est un opérateur positif. La relation Tr (U ) = 1
est montrée comme suit : de la première hypothèse du théorème (3) avec la forme de E donnée par
(12), nous avons Tr (U ) = Tr (U 1) = 1 . Cela complète la démonstration du théorème de von
Neumann.
Preuve d'impossibilité de von Neumann
Nous présentons maintenant l'argument de von Neumann contre la possibilité des variables
cachées. Considérons la fonction E (O ) évaluée sur les projecteurs à une dimension Pφ . Pour de
tels projecteurs, nous avons la relation
(14) Pφ = Pφ2
Comme mentionné ci-dessus, dans le cas où E (O ) correspond à un état sans dispersion représenté
par un certain ψ et λ , elle doit appliquer les observables à leurs valeurs. Nous écrivons Vλψ (O ) la
fonction correspondant à l'état spécifié par ψ et λ . Von Neumann a noté que Vλψ (O ) doit obéir à
la relation :
( )
(15) f Vλψ (O ) = Vλψ ( f (O ))
où f est une fonction mathématique. Cela est facilement constaté en notant que la quantité f (O )
peut être mesurée en mesurant O et en évaluant f sur le résultat. Cela signifie que la valeur de
l'observable f (O ) sera f de la valeur de O. Donc, si Vλψ (O ) applique chaque observable à une
( ) ( )
valeur, nous devons avoir (15). Donc Vλψ Pφ2 = Vλψ (Pφ ) qui avec (14) implique
2
( )
(16) Vλψ (Pφ ) = Vλψ (Pφ )
2
Cette dernière relation implique que Vλψ (Pφ ) doit être égal à 0 ou 1.
Rappelons la relation E (Pφ ) = φ U φ . Si E (O ) prend la forme d'une fonction telle que Vλψ (Pφ ) ,
alors il s'ensuit que la quantité φ U φ est égale à 0 ou 1. Considérons la manière dont cette
quantité dépend d'un vecteur φ . Si nous faisons varier φ de manière continue, alors φ U φ
variera aussi de manière continue. Si les seules valeurs possibles de φ U φ sont 0 et 1, il s'ensuit
que cette quantité doit être constante, c'est-à-dire que nous devons avoir ou bien φ U φ = 0
pour tout φ dans H, ou φ U φ = 1 pour tout φ dans H. Si la première est vraie, alors on doit avoir
que U lui-même est zéro. Cependant, en utilisant (12), nous trouvons que E (1) = 0 . Un résultat en
conflit avec l'hypothèse du théorème que E (1) = 1 (3). De même, si φ U φ = 1 pour tout φ dans
H, il s'ensuit que U = 1 . Ce résultat est aussi en conflit avec l'exigence (3) puisque cela conduit à
E (1) = Tr (1) = n où n est la dimension de H.
A partir du résultat obtenu, on peut en conclure que toute fonction E (O ) qui satisfait les contraintes
du théorème de von Neumann doit échouer à satisfaire la relation (15) et ainsi ne peut pas être une
fonction application valeur sur les observables.
Il sera noté que le même résultat peut être prouvé sans l'utilisation de (15) puisque le fait que
Vλψ (Pφ ) doit être 0 ou 1 suit simplement de l'observation que ce sont les valeurs propres de Pφ .
A partir de ce résultat, von Neumann en conclu qu'il est impossible pour une théorie à variables
cachées déterministes de fournir un accord empirique avec la théorie quantique : "Ce n'est donc
pas, comme cela est souvent supposé, une question de réinterprétation de la mécanique quantique.
Le système actuel de la mécanique quantique devrait être objectivement faux afin qu'une autre
description des processus élémentaires que la statistique soit possible."
La démonstration de l'absence de variables cachées de von Neumann peut être vue comme
consistant en deux composantes : un théorème mathématique et une analyse de ses implications sur
les variables cachées. Comme nous l'avons dit, le théorème lui-même est correct quand il est
regardé comme purement mathématique. Le défaut est dans l'analyse reliant ce théorème aux
variables cachées. Les conditions prescrites pour la fonction E sont trouvées dans les équations (3),
(4) et (5). Le théorème de von Neumann affirme qu'à partir de ces hypothèses suit la conclusion que
la forme E (O ) doit être donnée par (12). Quand on considère une situation physique réelle, il
devient apparent que la deuxième condition du théorème n'est pas du tout
raisonnable. Comme nous le verrons, l'écart de cette condition d'une contrainte raisonnable
sur E (O ) est marqué par le cas de son application à des observables non commutant.
Nous voulons démontrer pourquoi (4) est une contrainte injustifiée sur E. Pour le faire, nous
examinerons d'abord un cas particulier dans lequel une telle relation est raisonnable et alors par
contraste le cas pour lequel elle ne l'est pas. L'hypothèse elle-même demande la linéarité réelle de
E (O ) , c'est-à-dire que E doit satisfaire E (aB + bB + L) = aE ( A) + bE (B ) + L pour tout observables
{A, B, ...} et tous nombres réels{a, b, ...}. C'est en fait une exigence sensible pour les cas où {A, B
,...} sont des observables commutant. Supposons par exemple que les observables O1 , O2 , O3
forment un ensemble commutant et qu'ils obéissent à la relation O1 = O2 + O3 . Nous savons du
formalisme quantique qu'on peut mesurer ces observables simultanément et que le résultat de
mesure (o1 , o2 , o3 ) doit être un membre de spectre de valeurs propres jointes
de l'ensemble. Il est facile de voir que tout membre du spectre propre joint de O1 , O2 , O3 doit
satisfaire o1 = o 2 + o3 . Cela étant le cas, on peut s'attendre à ce que la fonction E (O ) , qui dans le
cas d'un état sans dispersion doit être une application Vλψ (O ) sur les observables, devrait satisfaire
E (O1 ) = E (O2 ) + E (O3 ) .
D'un autre coté, supposons que nous considérions un ensemble {O,P,Q} satisfaisant
O=P+Q où les observables P et Q ne commutent pas, c'est-à-dire [P, Q ] ≠ 0 . Il est facile de voir que
O ne commute ni avec P ni avec Q. Il est donc impossible d'effectuer une mesure de deux de ces
observables simultanément. Donc, la mesure de ces observables nécessite trois procédures
expérimentales différentes. Cela étant, il n'y a pas de justification pour exiger que
E (O ) = E (P ) + E (Q ) pour de tels cas.
Comme exemple, on peut considérer le cas d'une particule de spin 1/2. Supposons que les
composantes du spin données par σ x , σ y et σ ′ où
(17) σ ′ =
1
(σ x + σ y )
2
soient examinées. La procédure de mesure pour toute composante donnée du spin d'une particule
est effectuée par un appareil de Stern-Gerlach correctement orienté. Par exemple, pour mesurer la
composante x, l'aimant doit être orienté le long de l'axe x. Pour la composante y il doit être orienté
le long de l'axe y. Une mesure de sigma' est faite en utilisant un appareil de Stern-Gerlach le long
d'un axe encore dans une autre direction.
Il n'est pas difficile de montrer que σ ′ définit de cette manière est la composante du spin le long
d'un axe qui est dans le plan x,y et est à 45° des axes x et y.
La relation (4) ne peut pas être une demande raisonnable à mettre sur les fonctions moyennes E (O )
des observables σ x , σ y et σ ′ puisque ces quantités sont mesurées en utilisant des procédures
complètements distinctes.
Donc, l'argument des variables cachées de von Neumann est vu comme malsain. Le fait qu'il est
basé sur une hypothèse non justifiée est suffisant pour le montrer. Il sera aussi noté que la présence
du postulat de linéarité réelle discuté ci-dessus fait de la situation entière de von Neumann contre
les variables cachées un argument d'un caractère assez trivial. En examinant l'exemple ci-dessus
impliquant les trois composantes du spin d'une particule de spin 1/2, nous trouvons que les valeurs
propres de ces observables ± 1 / 2 n'obéissent pas à (17), c'est-à-dire
1 1 1 1
(18) ± ≠ ± ±
2 2 2 2
Puisque E (O ) par hypothèse doit satisfaire (17), il ne peut pas appliquer les observables à leurs
valeurs propres. Donc, avec l'hypothèse de linéarité réelle, on peut pratiquement immédiatement
"réfuter" les variables cachées. Il est donc apparent que l'argument de von Neumann contre les
variables cachées repose essentiellement sur l'exigence arbitraire que E (O ) obéit à la linéarité
réelle, une hypothèse qui est en désaccord immédiat avec la demande simple et naturelle que E soit
en accord avec la mécanique quantique en donnant les valeurs propres comme le résultat des
mesures.
Abner Shimony a rapporté qu'Albert Einstein état attentif à la fois à l'analyse de von Neumann elle-
même et à la raison pour laquelle elle échoue comme preuve d'impossibilité des variables cachées.
La source du rapport de Shimony était une communication personnelle avec Peter G. Bergmann.
Bergmann rapporta que durant une conversation avec Einstein sur la preuve de von Neumann,
Einstein ouvrit le livre de von Neumann à la page où la preuve est donnée et pointa l'hypothèse de
linéarité. Il dit alors qu'il n'y avait aucune raison pour laquelle cette prémisse devrait être valable
pour un état non reconnu par la mécanique quantique, si les observables ne sont pas simultanément
observables. Ici "l'état non reconnu par la mécanique quantique" semble se référer à l'état sans
dispersion de von Neumann, c'est-à-dire l'état spécifié par ψ et λ . Il est presque certain que Erwin
Schrödinger aurait aussi réalisé l'erreur dans la preuve d'impossibilité de von Neumann puisque
dans son article de 1935 il donne une dérivation qui est équivalente au théorème de von Neumann
en ce qui concerne les variables cachées bien qu'il n'arrive pas à la conclusion de von Neumann de
l'impossibilité des variables cachées.
Nous discuterons de la dérivation de Schrödinger dans ce qui suit. En vue de la rareté des réponses
initiales à la preuve de von Neumann, il est intéressant d'avoir une telle évidence de l'attention de
Einstein et Schrödinger à l'argument et ses conséquences.
Max Jammer affirme dans son livre que non seulement il y eut très peu de réponses à la preuve
d'impossibilité de von Neumann mais le livre lui-même ne fut jamais passé en revue avant 1957
avec l'exception de deux brefs travaux de Bloch et Margenau.
En plus, cela confirme le fait qu'Einstein voyait le problème de trouver une description complète
des phénomènes quantiques comme d'une importance centrale.
Dans notre introduction du théorème de von Neumann, nous avons dit que l'existence d'une théorie
à variables cachées déterministes conduisait au résultat que pour chaque ψ et λ il existe une
application valeur sur les observables. Nous représentons de telles applications valeur par
l'expression Vλψ . Si on considère la question des variables cachées plus profondément, il est clair
que l'accord de leurs prédictions avec celle de la mécanique quantique nécessite un critère
supplémentaire au-delà de l'existence d'une application valeur pour chaque ψ et λ : elle nécessite
l'accord avec les prédictions statistiques du formalisme quantique. Pour rendre possible l'accord
empirique de la théorie quantique, dans laquelle seules les prédictions statistiques sont
généralement possibles avec la description déterministe d'une théorie à variables cachées, nous
regardons leur description d'un système quantique de la manière suivante. L'état quantique donné
par ψ correspond à un ensemble statistique des états donnés par ψ et λ , les membres de
l'ensemble étant décrit par le même ψ mais différant par λ . La variation dans les résultats des
mesures trouvées pour une série de systèmes quantiques avec des ψ identiques sera expliqué par la
variation du paramètre λ parmi l'ensemble des états ψ , λ . Pour un accord précis à cet égard, nous
exigeons que pour tout ψ et O, la relation suivante doit être valide :
∞
(19) ∫ dλρ (λ )Vλψ (O ) = ψ O ψ
−∞
Nous avons vu du résultat de von Neumann et de notre simple examen des observables
de spin 1/2 σ x , σ y , ..., qu'il est impossible de développer une fonction linéaire appliquant les
observables à leurs valeurs propres. Nous avons vu aussi qu'une preuve d'impossibilité peut être
développée montrant que le critère d'accord avec les statistiques quantiques, c'est-à-dire l'accord
avec (19), ne peut pas être obtenu avec des fonctions de la forme Vλψ (O ) (théorème de Bell).
Nous sommes conscients de la solution bien connue du problème de l'oscillateur harmonique, c'est-
à-dire que les valeurs propres de l'hamiltonien sont données par l'ensemble {ah,3ah,5ah,7ah,K}.
Considérons une application V (O ) des observables vers les valeurs. Si nous exigeons que les
attributions V pour les observables H, p, q satisfont (20) alors nous devons avoir
(21) V (H ) = (V ( p )) + a 2 (V (q ))
2 2
qui implique
( )
(22) V ( p ) + a 2V (q ) / ah = un entier impair
2 2
Cette dernière relation ne peut en général pas être satisfaite par les valeurs propres de q et p, donc
chacune peut être tout nombre réel, et un nombre positif arbitraire a.
qui ne peut généralement pas être satisfait par les valeurs propres de q 2 et p 2 , chacune pouvant
être tout nombre réel positif, et un nombre positif arbitraire a. Nous avons ici un autre exemple
conduisant à une démonstration du résultat de von Neumann qu'il n'y a pas d'application valeur
linéaire sur les observables (rappelons l'exemple des observables des composantes du spin, σ x , σ y ,
... donné ci-dessus). Si nous considérons la fonction de von Neumann E (O ) , l'hypothèse de
linéarité réelle nécessite qu'elle satisfasse (23). Donc, E (O ) ne peut pas appliquer les observables
sur leurs valeurs propres. Schrödinger n'a pas vu cela comme une preuve de l'impossibilité des
variables cachées, comme von Neumann l'a fait, mais en a seulement conclu que les relations telles
que (23) ne sont pas nécessairement satisfaites par les attributions de valeur faites aux observables
contraintes par une telle relation. En effet, si Schrödinger avait fait l'erreur d'interprétation de von
Neumann, cela aurait contredit les résultats qu'il a développés avant selon lesquels de telles
variables cachées doivent exister.
II.2. Théorème de Gleason
Le théorème de von Neumann traitait la question de la forme prise par une fonction E (O ) des
observables. Le théorème de Gleason traite essentiellement de la même question, la différence la
plus significative étant que l'hypothèse de linéarité est relâchée et il est demandé que E soit linéaire
seulement pour des ensembles commutant d'observables.
La forme originale présentée par A.M. Gleason se rapporte à une mesure de probabilité sur les
sous-espaces d'un espace de Hilbert, mais l'équivalence d'une telle construction avec une
application valeur sur les projecteurs est simple et immédiate. Cela peut être vu en considérant qu'il
y a une bijection entre les sous-espaces et les projecteurs d'un espace de Hilbert et que les valeurs
prises par les projecteurs sont 1 et 0 ainsi une fonction application des projecteurs sur leurs valeurs
propres est un cas particulier d'une mesure de probabilité sur ces opérateurs.
En plus, le théorème de Gleason exige une fonction E sur seulement les projecteurs du système
plutôt que sur tous les observables. Finalement, le théorème de Gleason contient l'hypothèse que
l'espace de Hilbert du système est au moins à trois dimensions. Pour la conclusion du théorème, elle
est identique à celle de von Neumann : E (P ) prend la forme E (P ) = Tr (UP ) où U est un opérateur
positif et Tr (U ) = 1 .
Rendons l'exigence de linéarité sur les observables commutants un peu plus explicite.
Premièrement nous notons que tout ensemble de projecteurs {P1 , P2 ,K} sur des sous-espaces
mutuellement orthogonaux {H 1 , H 2 ,K} forme un ensemble commutant. De plus, si P projette sur
la somme directe H 1 + H 2 + L de ces sous-espaces, alors {P, P1 , P2 ,K} forme aussi un ensemble
commutant. C'est dans le cas de ce dernier type d'ensemble que l'exigence de linéarité entre en jeu,
puisque ces observables obéissent à la relation
(1) P = P1 + P2 + L
Bell a prouvé que toute fonction E (P ) satisfaisant les conditions du théorème de Gleason ne peut
pas appliquer les projecteurs sur leurs valeurs propres.
Un corollaire important du théorème de Gleason est que l'attribution des probabilités aux résultats
des mesures doit suivre la règle de Born pour être consistant.
Dans les prochaines sections, nous donnerons la preuve du théorème de Kochen et Specker. Le
même résultat d'impossibilité est dérivé du théorème de Gleason suite à ce théorème.
Il est immédiat de démontrer que la fonction E (P ) considérée dans le théorème de Gleason ne peut
pas être une fonction d'application valeur sur ces observables. Pour le démontrer, on peut raisonner
de la même manière que cela fut fait par von Neumann puisque la forme développée ici pour E (P )
est la même que celle conclue par cette dernière. Nous rappelons que si E (O ) doit représenter un
état sans dispersion spécifié par ψ et λ , il doit prendre la forme d'une telle application valeur et
E (O ) ne peut évidemment pas être la fonction moyenne pour de tels états. C'est sur cette base que
l'impossibilité des variables cachées a été affirmée suite au théorème de Gleason. Nous
approfondirons cette question dans la suite.
II.3. Théorème de Kochen et Specker
Le théorème de Kochen et Specker est un sujet important mais subtil des fondations de la
mécanique quantique. Le théorème fournit un argument puissant contre la possibilité d'interpréter la
mécanique quantique en terme de variables cachées. Nous présentons ici le théorème/argument et la
discussion des fondations de la mécanique quantique aux différents niveaux.
II.3.1. Introduction
La mécanique quantique a la propriété particulière que les états quantiques impliquent, en général,
seulement des restrictions statistiques sur le résultat des mesures. La conclusion naturelle qui en
découle est que ces états sont des descriptions incomplètes des systèmes quantiques. La mécanique
quantique devrait donc être incomplète dans le sens qu'une description d'un état typique de la
mécanique quantique d'un système individuel pourrait être augmentée avec une description plus
complète en termes d'une théorie à variables cachées. Dans une description à variables cachées du
système, les probabilités de la mécanique quantique seraient naturellement interprétées comme des
probabilités épistémiques du type qui se produisent dans la mécanique statistique ordinaire. Une
telle description par les variables cachées peut ne pas être utile en pratique mais on est tenté de
penser qu'elle devrait au moins être possible en principe. Il y a, cependant, deux théorèmes
puissants dont le résultat est qu'une telle description est impossible, même en principe : la
mécanique quantique, étant donné certains prémisses extrêmement plausibles, ne peut pas être
augmentée par une théorie à variables cachées. Le plus fameux de ces deux théorèmes est le
théorème de Bell qui déclare que, étant donné une prémisse de localité, un modèle à variables
cachées ne peut pas donner les prédictions statistiques de la mécanique quantique. Le second
théorème important contre les théories à variables cachées est le théorème de Kochen et Specker
qui déclare que, étant donné une prémisse de non contextualité, l'on ne peut pas du tout assigner de
manière consistante des valeurs à certains ensembles d'observables de la mécanique quantique
(même avant que la question de leur distribution statistique ne survienne).
Avant de voir le travail du théorème de Kochen et Specker en détail, nous devons clarifier pourquoi
il est si important pour les philosophes scientifiques. La prémisse explicite des interprétations à
variables cachées est celui de valeur précise :
Tous les observables définis pour un système de la mécanique quantique ont des valeurs
précises à tout moment.
Cette hypothèse, cependant, est motivée par un principe plus basique, un réalisme apparemment
inoffensif sur la mesure physique qui, initialement, semble un point indispensable de la science
naturelle. Ce réalisme consiste en la supposition que tout ce qui existe dans le monde physique
est causalement indépendant de nos mesures qui servent à nous donner de l'information sur lui.
Maintenant, puisque les mesures de tout observable en mécanique quantique conduit,
typiquement, à des valeurs plus ou moins précises, il y a de bonnes raisons de penser que de
telles valeurs existent indépendamment de toute mesure, ce qui nous conduit à supposer les
valeurs définies (notons que nous n'avons pas besoin de supposer ici que les valeurs sont
fidèlement révélées par l'expérience mais seulement qu'elles existent !). Nous pouvons
concrétiser notre réalisme inoffensif dans une seconde supposition de non contextualité :
Si un système en mécanique quantique possède une propriété (la valeur d'un observable), alors
il doit en être ainsi indépendamment de tout contexte de mesure, c'est à dire indépendamment
de comment cette valeur est éventuellement mesurée.
Cela signifie que si un système possède une propriété donnée, c'est indépendant de la
possession d'autres valeurs rattachées à d'autres arrangements. Ainsi, nos deux suppositions
incorporent l'idée de base d'une indépendance de la réalité physique par rapport à l'observateur.
Le théorème de Kochen et Specker établit une contradiction entre les valeurs définies avec la non
contextualité et la mécanique quantique. Donc, l'acceptation de la mécanique quantique nous force
logiquement à renoncer ou aux valeurs définies ou à la non contextualité. Cependant, la situation
est plus dramatique qu'il semblerait initialement. Les valeurs définies sont la clé motivant la
supposition du programme des variables cachées dans le sens que, si c'est réalisable, il expliquerait
le plus naturellement le caractère statistique de la mécanique quantique et expliquerait élégamment
l'infâme problème de la mesure hantant toutes les interprétations de la mécanique quantique. Mais,
comme nous allons le voir, la seconde supposition de la non contextualité est motivée par le même
réalisme inoffensif qui incarne un standard de rationalité scientifique et il est loin d'être évident de
voir à quoi ressemblerait une interprétation obéissant à ce standard seulement partiellement, c'est-à-
dire approuvant seulement les valeurs définies mais rejetant la non contextualité. Ce complexe de
questions, c'est à dire,
(1) Les valeurs définies et la non contextualité contredisent la mécanique quantique.
(2) Les difficultés conceptuelles pour interpréter la mécanique quantique fournissent une forte
motivation pour les valeurs définies.
(3) Il n'est pas évident de voir comment construire une description plausible de la mécanique
quantique contenant des valeurs définies mais pas la non contextualité,
est le carburant philosophique intéressant dans le théorème de Kochen et Specker.
II.3.3. Contexte du théorème Kochen et Specker
Dans la suite nous supposerons quelques familiarités avec les notions élémentaires de la mécanique
quantique tel que 'état', 'observable', 'valeur' et leurs représentations mathématiques 'vecteur',
'opérateur (hermitique)' et 'valeur propre'. Nous identifierons habituellement les observables et les
opérateurs sur un espace de Hilbert approprié qui les représente. S'il y a besoin de distinguer les
opérateurs et les observables, nous écrirons les opérateurs avec un accent circonflexe (donc un
opérateur  représente un observable A).
(1) Si A et B (représentés par les opérateurs hermitiques  et B̂ ) sont des observables d'un
système, alors il y a aussi un observable C (représenté par l'opérateur hermitique Ĉ défini ci-
dessus) sur le même système.
(2) Si les valeurs moyennes de A et B sont données par A et B , alors la valeur moyenne de C
est donnée par C = α A + β B .
Cela est, cependant, impossible en général. Un exemple montre très facilement comment (3) est
violé, mais à cause de sa simplicité cela montre aussi que l'argument est inadéquat (cet exemple
n'est pas dû à von Neumann lui-même mais à Bell). Soit A = σ x et B = σ y , alors l'opérateur
C = (σ x + σ y ) / 2 correspond à l'observable du spin le long de la direction de la bissectrice x et y.
Maintenant, toutes les composantes du spin (dans des unités appropriées) ont seulement les valeurs
possibles ± 1 , donc la théorie à variables cachées proposée est forcée d'attribuer ± 1 à A, B, C
comme valeurs et donc comme 'valeurs moyennes'. Cela, en retour, implique (3) qui ne peut
évidemment pas être satisfait puisque ± 1 = (± 1 + ±1) / 2 .
L'exemple illustre pourquoi l'argument de von Neumann est insatisfaisant. Personne ne discute le
passage de (2) à (3) pour des observables compatibles, c'est à dire ceux qui, selon la mécanique
quantique, sont conjointement mesurables dans un arrangement. Le choix ci-dessus de A, B, C,
cependant, est tel que toute paire d'entre eux est incompatible, c'est à dire non conjointement
observable. Pour ceux là, nous ne désirons pas exiger que toute interprétation par les variables
cachées satisfasse (3) mais seulement (2). Les valeurs cachées n'ont pas besoin d'être conformes
avec (3) en général, seules les moyennes de leurs valeurs sur une série de tests doivent être
conformes avec (2). L'autorité de l'argument de von Neumann vient du fait que les exigences (1) et
(2), pour les états quantiques, sont des conséquences du formalisme de la mécanique quantique
mais cela ne justifie pas en lui-même d'étendre ces exigences à des états cachés hypothétiques. En
effet, si (3) était vrai sans restriction, cela expliquerait joliment, en présence de valeurs cachées,
pourquoi (2) l'est. Von Neumann pensait apparemment que la théorie à variables cachées proposée
est liée à cette explication, mais cela semble une restriction non plausible.
Le théorème de Kochen et Specker remédie à ce défaut, indiqué par Bell dans l'argument de von
Neumann, et donc renforce la situation contre les théories à variables cachées car le théorème de
Kochen et Specker suppose (3) seulement pour des ensembles d'observables {A, B, C} qui sont
mutuellement compatibles. Le théorème nécessite que seuls les observables compatibles obéissent à
(3), ce qui est quelque chose que les théoriciens des variables cachées ne peuvent pas
raisonnablement nier.
Une seconde ligne de réflexion conduisant au théorème de Kochen et Specker est fournit par le
théorème de Gleason (Gleason 1957). Le théorème affirme que sur un espace de Hilbert de
dimension plus grande ou égale à 3, les seules mesures de probabilité possibles sont les mesures
µ (Pα ) = Tr (Pα W ) , où Pα est un projecteur, W l'opérateur statistique caractérisant l'état réel du
système et Tr est l'opération de trace. Les Pα peuvent être vu comme représentant des observables
oui - non, c'est à dire des questions si un système en mécanique quantique représenté par un espace
de Hilbert de dimension plus grande ou égale à trois a une propriété α ou non et toute propriété α
possible est associée de manière unique avec un vecteur α dans l'espace de Hilbert, ainsi, la tâche
est d'assigner sans ambiguïté des probabilités à tous les vecteurs dans l'espace. Maintenant, la
mesure en mécanique quantique µ est continue, ainsi le théorème de Gleason prouve en effet que
toutes les assignations de probabilités à toutes les propriétés possibles dans un espace de Hilbert à
trois dimensions doivent être continues, c'est à dire appliquent continûment tous les vecteurs de
l'espace dans l'intervalle [0,1]. D'un autre coté, une théorie à variables cachées (si elle est
caractérisée par les valeurs définies plus la non contextualité) impliquerait que pour toutes les
propriétés nous pouvons dire si le système les a ou pas. Cela conduit à une fonction de probabilité
triviale qui applique tous les Pi sur 1 ou 0 et pourvu que les valeurs 1 et 0 existent ensemble (ce qui
suit trivialement de l'interprétation des nombres comme des probabilités), cette fonction doit
clairement être discontinue (cf. Redhead 1987:28).
C'est l'argument le plus facile contre la possibilité d'une interprétation à variables cachées permise
par le théorème de Gleason. Bell (1966:6-8) offre une variante avec un situation particulière qui
sera répétée plus tard comme une étape cruciale du théorème de Kochen et Specker (cela explique
pourquoi certains auteurs (comme Mermin 1990b) appellent le théorème de Kochen et Specker le
théorème Bell - Kochen - Specker ; ils pensent que l'idée décisive du théorème de Kochen et
Specker est due à Bell). Il prouve que l'application µ impose que deux vecteurs α et α ′
appliqué sur 1 et 0 ne peuvent pas être arbitrairement près mais doivent avoir une séparation
angulaire minimale tandis que l'application des variables cachées, d'un autre coté, nécessite qu'ils
doivent être arbitrairement près.
Après avoir offert cette variante de l'argument contre les théories à variables cachées à partir du
théorème de Gleason, Bell continue en le critiquant. La stratégie est parallèle à celle dirigée contre
von Neumann. Bell signale que son propre argument de type Gleason contre des valeurs
arbitrairement près présuppose des relations non triviale entres les valeurs des observables non
commutants qui sont seulement justifiées étant donné la supposition de non contextualité. Il
propose une analyse de ce qui devient faux lorsque son propre argument "suppose tacitement que la
mesure d'un observable doit conduire à la même valeur indépendamment de ce que les autres
mesures peuvent faire simultanément" (1966:9). En opposition avec von Neumann, l'argument de
type Gleason dérive des restrictions sur l'assignation de valeurs comme (3) seulement pour des
ensembles d'observables compatibles. Mais le même observable peut être un membre de différents
ensembles commutant et il est essentiel pour l'argument que les observables soient assignés à la
même valeur dans les deux ensembles, c'est à dire que la valeur assignée ne soit pas sensible à un
contexte de mesure.
Le théorème de Kochen et Specker améliore cet argument du théorème de Gleason. D'abord, les
auteurs répètent, en effet, la preuve de Bell que deux vecteurs dans l'espace de Hilbert ayant les
valeurs 1 et 0 ne peuvent pas être arbitrairement près. Cependant, tandis que l'argument de Gleason
et la variante de Bell supposent des assignations de valeurs pour un ensemble continu de vecteurs
dans l'espace de Hilbert, Kochen et Specker sont capables de présenter explicitement un ensemble
discret même fini d'observables dans l'espace pour lesquels une assignation de valeur pour les
variables cachées conduirait à une inconsistance. Evidemment, les suppositions nécessaires pour
l'étape établissant que deux points de valeurs opposées ne peuvent pas être arbitrairement près
jouent encore un rôle dans l'amélioration du théorème de Kochen et Specker, en particulier la non
contextualité ! - ainsi la critique de Bell de son propre argument de type Gleason survit à cette
amélioration.
En dépit du raisonnement de Bell, l'argument du théorème de Kochen et Specker est d'importance
cruciale dans les discussions des variables cachées pour deux raisons :
(1) Il implique seulement un ensemble fini d'observables discret. Il évite donc une objection
possible aux arguments de type Gleason de Bell, c'est à dire que "il n'est pas significatif de
supposer qu'il y a un nombre continu de propositions quantiques (vis à vis des expériences)"
(Kochen et Specker 1967 : 70/307). Ainsi le théorème de Kochen et Specker ferme un trou
qu'une théorie à variables cachées proposée peut viser dans l'argument de Bell.
(2) Le théorème de Kochen et Specker propose un système à une particule comme réalisation
physique de leur argument. Donc, l'argument implique trivialement les suppositions de non
séparabilité ou de localité. En effet, Bell signal d'abord la prémisse non contextuelle tacite, mais
il le fait ainsi seulement en passant, et ensuite, dans la section finale, discute d'un exemple de
système à deux particules. Ici, un contexte éventuel se retourne comme une non séparabilité des
deux particules, mais Bell ne fait pas la relation explicitement. Il ne signale pas non plus que la
question de la possibilité des interprétations des variables cachées est, en final, non pas sur la
(non)séparabilité ou la (non)localité, mais plutôt sur la (non)contextualité (après tout, le propre
argument de Bell est clairement illustré par les arguments de type Kochen et Specker).
II.3.4. Déclaration et preuve du théorème de Kochen et Specker
(KS1) Tous les membres y de M ont simultanément des valeurs (prédéfinies), c'est à dire
qu'elles sont appliquées sans ambiguïtés sur des nombres réels uniques (désignés, pour les
observables A,B,C,... par v( A) , v(B ) , v(C ) ,...).
(KS2) Les valeurs des observables sont conformes aux contraintes suivantes :
(a) Si A,B,C sont tous compatibles et C = A + B , alors v(C ) = v( A) + v(B )
(b) Si A,B,C sont tous compatibles et C = A ⋅ B , alors v(C ) = v( A) ⋅ v(B )
La supposition KS1 du théorème est évidemment un équivalent des valeurs définies. Les
suppositions KS2 (a) et (b) sont appelées la règle des sommes et la règle produit, respectivement,
dans la littérature (le lecteur notera à nouveau que, en opposition à la prémisse implicite de von
Neumann, ces règles relient de manière non triviale les valeurs des observables compatibles
seulement). Les deux sont une conséquence du principe appelé le principe de composition
fonctionnel qui en retour est une conséquence de (parmi d'autres suppositions) la non contextualité.
La relation entre la non contextualité, la règle de composition fonctionnelle, la règle des sommes et
la règle produit sera faite explicitement plus loin.
(1) De KS2 nous pouvons dériver une contrainte sur l'assignation des valeurs des projecteurs, c'est-
à-dire que pour tout ensemble de projecteurs P1 , P2 , P3 , P4 , correspondant aux quatre valeurs
propres distinctes q1 , q 2 , q3 , q 4 d'un observable Q sur H (4) , on a ce qui suit :
(VC1') v(P1 ) + v(P2 ) + v(P3 ) + v(P4 ) = 1 , où v(Pi ) = 1 ou 0 pour i = 1, 2, 3, 4 ((VC1') est une
variante de (VC1) qui sera démontrée explicitement dans la prochaine section). Cela signifie en
effet que pour tout ensemble de quatre lignes orthogonales dans H (4) , exactement une est
assignée au nombre 1, les autres 0.
(2) Bien que l'espace de Hilbert mentionné dans le théorème, afin d'être souhaitable pour la
mécanique quantique, doit être complexe, il est suffisant, afin de montrer l'inconsistante des
affirmations KS1 et KS2, de considérer un espace de Hilbert réel de même dimension. Ainsi, au
lieu de H (4) , nous considérons un espace de Hilbert réel R(4) et nous traduisons VC1' pour
cette nécessité : pour tout ensemble de quatre lignes orthogonales dans R(4) , exactement une
est assignée au nombre 1 et les autres à 0. Comme d'habitude dans la littérature, nous traduisons
tout cela en le problème de coloriage suivant : dans tout ensemble de lignes orthogonales de
R(4) , exactement une doit être colorée en blanc et les autres en noir. Cela cependant est
impossible, comme le montre immédiatement la table suivante (Kernaghan 1994) :
1,0,0,0 1,0,0,0 1,0,0,0 1,0,0,0 -1,1,1,1 -1,1,1,1 1,-1,1,1 1,1,-1,1 0,1,-1,0 0,0,1,-1 1,0,1,0
0,1,0,0 0,1,0,0 0,0,1,0 0,0,0,1 1,-1,1,1 1,1,-1,1 1,1,-1,1 1,1,1,-1 1,0,0,-1 1,-1,0,0 0,1,0,1
0,0,1,0 0,0,1,1 0,1,0,1 0,1,1,0 1,1,-1,1 1,0,1,0 0,1,1,0 0,0,1,1 1,1,1,1 1,1,1,1 1,1,-1,-1
0,0,0,1 0,0,1,-1 0,1,0,-1 0,1,-1,0 1,1,1,-1 0,1,0,-1 1,0,0,-1 1,-1,0,0 1,-1,-1,1 1,1,-1,-1 1,-1,-1,1
Il y a 4 x 11 = 44 entrées dans cette table. Ces entrées sont prises d'un ensemble de 20 lignes
(ainsi nous autorisons les répétitions). [Rappelons que pour spécifier une ligne depuis l'origine à
quatre dimensions, il suffit de donner les quatre coordonnées d'un seul point (sauf l'origine) que
la ligne contient. Par exemple "1,0,0,0" dénote la ligne unique contenant les points de
coordonnées "0,0,0,0" et "1,0,0,0", ligne qui est, bien sûr, juste "l'axe des x". Il est facile de
vérifier que toute colonne dans la table représente un ensemble de 4 lignes orthogonales
(calculez simplement le produit scalaire entre les vecteurs dans chaque colonne, ils sont
toujours zéro). Puisque le nombre de colonnes est 11, nous devons terminer avec un nombre
impair d'entrées dans la table colorées en blanc. D'un autre coté, on peut contrôler que chacune
des 20 lignes apparaissent ou bien deux fois ou quatre fois dans la table. Si nous désignons une
de ces lignes comme blanche, nous colorons un nombre pair d'entrées en blanc. Il s'ensuit que le
nombre total d'entrées dans la table colorées en blanc doit être pair, pas impair. Donc, un
coloriage de l'ensemble des 20 lignes en accord avec VC1' est impossible (notons pour la suite
que la première partie de cet argument -- l'argument pour 'impair' -- utilise seulement VC1',
tandis que le second -- l'argument pour 'pair' -- se rattache essentiellement à la non
contextualité, en supposant que les occurrences des mêmes lignes dans différentes colonnes
sont assignées au même nombre !)
II.3.4.3. L'argument de Kochen et Specker original. Préliminaires
techniques
La démonstration originale de Kochen et Specker opère sur un espace de Hilbert complexe à trois
dimensions H (3) . Elle nécessite deux choses :
(1) Des ensemble de triplets de lignes qui sont orthogonales dans H (3) .
(2) Une contrainte avec l'effet que dans tout triplet une ligne est assignée au nombre 1, les deux
autres à zéro. Les deux choses sont acquises.
Donc :
Nous considérons un opérateur arbitraire Q sur H (3) avec trois valeurs propres distinctes q1 , q 2 ,
q3 , ses vecteurs propres q1 , q 2 , q3 et les projecteurs P1 , P2 , P3 projetant sur les lignes
générées par ces vecteurs.
Maintenant P1 , P2 , P3 sont eux-mêmes des observables (c'est à dire que Pi est "l'observable oui -
non" correspondant à la question "est-ce que le système a la valeur q i pour Q ?"). De plus, P1 , P2 ,
P3 sont mutuellement compatibles, ainsi nous pouvons appliquer la règle des sommes et la règle
produit et donc dériver une contrainte sur l'assignation de valeurs :
Le choix arbitraire d'un observable Q définit de nouveaux observables P1 , P2 , P3 qui en, retour,
sélectionnent les lignes dans H (3) . Ainsi, imposer que les observables P1 , P2 , P3 ont toutes les
valeurs signifie assigner des nombres aux lignes dans H (3) et VC1, en particulier, signifie que
pour un triplet arbitraire de lignes orthogonales, spécifiées par le choix d'un Q arbitraire (en bref, un
triplet orthogonal dans H (3) ), exactement une et une seule de ces lignes est assignée à 1, les autres
à 0. Maintenant, si nous introduisons différents observables compatibles Q, Q', Q",... ces
observables sélectionnent différents triplets orthogonaux dans H (3) . La supposition (1) du
théorème de Kochen et Specker (qui est effectivement celle des valeurs définies) nous dit
maintenant que tous ces triplets ont trois valeurs et VC1 nous dit que ces valeurs doivent être pour
tout triplet exactement {1,0,0}. Ce que le théorème de Kochen et Specker nous montre est que,
pour un ensemble spécifique de triplets orthogonaux dans H (3) , une assignation de nombres
{1,0,0} à chacun d'entre-eux est impossible. De plus la réflexion nous conduit à ce que bien que
H (3) soit complexe, il est en fait suffisant de considérer un espace de Hilbert réel à trois
dimensions R(3) . Car nous pouvons montrer que si une assignation de valeurs en accord avec VC1
est possible sur H (3) , alors elle est possible sur R(3) . Inversement, si l'assignation est impossible
sur R(3) , alors elle est impossible sur H (3) . Ainsi, nous pouvons remplir les conditions nécessaires
pour commencer la démonstration de Kochen et Specker et en même temps réduire le problème à
R(3) . Maintenant, l'équivalent dans R(3) , d'un triplet orthogonal dans H (3) est, à nouveau, un
triplet arbitraire de lignes orthogonales (en bref : un triplet orthogonal dans R(3) ). Ainsi, si le
théorème de Kochen et Specker peut montrer que, pour un ensemble spécifique de n triplets
orthogonaux dans H (3) (où n est un nombre naturel), une assignation de nombres {1,0,0} à chacun
d'entre-eux est impossible, il est suffisant pour elles de montrer que, pour un ensemble spécifique
de n triplets orthogonaux dans R(3) , une assignation de nombres {1,0,0} à chacun d'entre-eux est
impossible. Et c'est exactement ce qu'ils font.
On insistera cependant sur le fait qu'il n'y a pas de relation directe entre R(3) et l'espace physique.
Le théorème de Kochen et Specker veut montrer que pour un système arbitraire en mécanique
quantique nécessitant une représentation dans un espace de Hilbert d'au moins trois dimensions,
l'assignation de valeurs en conjonction avec la condition (KS2) (règle des sommes et règle du
produit) est impossible et afin de faire cela il est suffisant de considérer l'espace R(3) . Cet espace
R(3) , cependant, ne représente pas l'espace physique du système quantique. En particulier,
l'orthogonalité dans R(3) ne doit pas être confondue avec l'orthogonalité dans l'espace physique.
Cela devient évident si nous prenons un exemple de système en mécanique quantique dans l'espace
physique et en même temps requérons une représentation en mécanique quantique dans H (3) , par
exemple un système de spin 1 à une particule mesuré pour le spin. Etant donné une direction
arbitraire α dans l'espace physique et un opérateur Sα représentant l'observable d'une composante
du spin dans la direction α , H (3) est généré par les vecteurs propres de Sα , c'est à dire Sα = −1 ,
Sα = 0 , Sα = 1 , qui sont mutuellement orthogonaux dans H (3) . Le fait que ces trois vecteurs
correspondant à trois résultats possibles de la mesure dans une direction spatiale sont mutuellement
orthogonaux illustre le sens différent de l'orthogonalité dans H (3) et dans l'espace physique (la
raison tient, bien sûr, dans la structure de la mécanique quantique qui représente différentes valeurs
d'un observable par différentes directions dans H (3) .) Maintenant, si l'orthogonalité dans H (3)
diffère de l'orthogonalité dans l'espace physique et que nous utilisons R(3) pour prouver un résultat
sur H (3) , alors certainement l'orthogonalité dans R(3) n'a pas de lien direct avec l'espace physique.
Kochen et Specker eux-mêmes, dans l'abstrait, procèdent exactement de la même manière mais ils
l'illustrent avec un exemple qui établit un lien direct avec l'espace physique. Il est important de voir
ce lien mais aussi d'être clair qu'il est produit par l'exemple de Kochen et Specker et n'est pas
inhérent à leur résultat mathématique. Kochen et Specker proposent de considérer un système d'une
particule de spin 1 et la mesure du carré des composantes dans des directions orthogonales du spin
dans l'espace physique S x2 , S y2 , S z2 qui sont compatibles (tandis que S x , S y , S z eux-mêmes ne le
sont pas). La mesure d'un carré d'une composante du spin détermine sa grandeur absolue mais pas
sa direction. Ici, nous dérivons une contrainte légèrement différente sur les assignations de valeur, à
nouveau en utilisant la règle des sommes et la règle produit :
( ) ( ) ( ) ( )
(VC2) v S x2 + v S y2 + v S z2 = 2 , où v S α2 =1 ou 0 pour α = x , y , z
Trois aspects supplémentaires qui sont devenu habituels ont besoin d'être mentionnés :
(1) Evidemment, nous pouvons spécifier sans ambiguïté toute ligne dans R(3) depuis l'origine en
donnant juste un point contenu dedans. Le théorème de Kochen et Specker identifie donc les
lignes avec les points sur la sphère unité E. Le théorème de Kochen et Specker n'a pas besoin de
se référer à des coordonnées concrètes d'un certain point puisque leur argument est "libre de
coordonnée". Nous mentionnerons, cependant, pour l'illustration quelques fois des points
concrets et alors (a) nous utiliserons les coordonnées cartésiennes pour contrôler les relations
d'orthogonalité et (b) spécifierons les lignes par des points qui ne sont pas sur E (donc, par
exemple, le triplet de points (0,0,1), (4,1,0), (1,-4,0) est utilisé pour spécifier un triplet de lignes
orthogonales). Les deux usages sont conformes avec la littérature récente (voir par exemple
Peres (1991) et Clifton (1993)).
(2) Nous traduisons les contraintes (VC1) et (VC2) sur les assignations de valeurs en contraintes
pour le coloriage des points. Nous pouvons, en opérant sous (VC1) colorier les points en blanc
(pour "1") et noir (pour "0") ou en opérant sous (VC2) en colorant les points en blanc (pour "0")
et noir (pour "1"). Dans les deux cas les contraintes sont traduites dans le même problème de
coloriage.
(3) Le théorème de Kochen et Specker illustre les relations d'orthogonalité des lignes par des
graphes qui sont maintenant appelés diagrammes de Kochen et Specker. Dans un tel diagramme
chaque ligne (ou point spécifiant une ligne) est représentée par un nœud. Les nœuds sont joints
par des branches représentant les lignes orthogonales. Le problème de coloriage est alors traduit
en un problème de coloriage des nœuds du diagramme en blanc ou noir tel que les nœuds joints
ne peuvent pas être tous les deux blancs et où les triangles ont exactement un nœud blanc.
II.3.4.4. L'argument de Kochen et Specker original. La démonstration
dans les grandes lignes
La démonstration procède en deux étapes.
(1) Dans la première (et décisive) étape ils montrent que deux lignes avec des couleurs opposées ne
peuvent pas être arbitrairement proches. Ils montrent que le diagramme Γ1 décrit dans la figure
ci-dessous qui consiste en dix nœuds incluant a 0 et a9 est constructible, si a 0 et a9 sont
séparés par un angle θ avec 0 ≤ θ ≤ arcsin(1 / 3) .
Ce que cette étape montre est ce qui suit : il est possible de construire ce diagramme de Kochen
et Specker, c'est-à-dire de spécifier dix lignes dans R(3) avec les relations d'orthogonalités
spécifiées dans le diagramme mais seulement si a 0 et a9 sont plus proche que arcsin(1 / 3) .
Considérons maintenant (pour une déduction par l'absurde) que a 0 et a9 ont des couleurs
différentes. Nous colorons arbitrairement a 0 en blanc et a9 en noir. La contrainte de coloriage
nous force alors à colorier le reste du diagramme comme cela est fait dans la figure ci-dessus,
mais cela conduit à a5 et a 6 qui sont orthogonaux et tous les deux blancs, ce qui est interdit.
Donc, deux points plus proche que arcsin(1 / 3) ne peuvent pas avoir de couleurs différentes.
Inversement, deux points de couleurs différentes ne peuvent pas être plus proche que
arcsin(1 / 3) .
(2) Kochen et Specker construisent maintenant un autre diagramme Γ2 assez compliqué de la
manière suivante. Ils considèrent une réalisation de Γ1 pour un angle θ = 18° < arcsin(1 / 3) .
Maintenant, ils choisissent trois points orthogonaux p 0 , q 0 , r0 et espacent des copies
entremêlées de Γ1 entre elles de telle manière que toute instance du point a9 d'une copie de Γ1
soit identifiée avec l'instance a 0 de la copie suivante. De cette manière cinq copies entremêlées
de Γ1 sont placées entre p 0 et q 0 et cinq instances de a8 sont identifiées avec r0 (de même
pour q 0 , r0 , et p 0 , et pour r0 , p 0 et q 0 ). La construction elle-même confirme que Γ2 est
constructible. En espaçant cinq copies avec des angles de θ = 18° entre les instances de a 0 on a
un angle de 5 x 18° = 90° qui est exactement ce qui est requit. De plus, passer d'une copie de Γ1
à la suivante entre, disons, p 0 et q 0 est équivalent à une rotation de la copie autour de l'axe
passant par l'origine et r0 de 18° ce qui évidemment conserve l'orthogonalité entre les points a 0
et a9 de la copie et r0 .
Cependant, bien que Γ2 soit constructible, il n'est pas coloriable de manière consistante. Dans
la première étape nous savons qu'une copie de Γ1 avec θ = 18° force les points a 0 et a9 à
avoir des couleurs identiques. Maintenant, puisque a9 dans une copie de Γ1 est égal à a 0 dans
la copie suivante, a9 dans la seconde copie doit avoir la même couleur que a 0 dans la
première. Par répétition de cet argument, toutes les instances de a 0 doivent avoir la même
couleur. Maintenant, p 0 , q 0 , r0 sont identifiés avec le point a 0 . Ainsi ils doivent être tous
blancs ou tous noirs - les deux cas sont inconsistants avec la contrainte de coloriage
qu'exactement l'un d'entre-eux doit être blanc.
Si des 15 copies de Γ1 utilisées dans le processus de construction de Γ2 , nous enlevons les
points qui sont identifiés ensembles, nous terminons avec 177 points différents. Ainsi, ce que le
théorème de Kochen et Specker a montré est qu'un ensemble de 117 observables ne peut pas
être assigné de manière consistante avec des valeurs en accord avec VC1 (ou de manière
équivalente avec VC2).
Notons que dans la construction de Γ1 , c'est à dire l'ensemble des 10 points formant 22 triplets
entremêlés, tous les points exceptés a9 apparaissent dans plus que un triplet. Dans Γ2 , tous les
points apparaissent dans une mutiplicité de triplets. C'est ici que la prémisse de non
contextualité est cruciale pour l'argument : nous supposons qu'un point arbitraire garde sa
valeur 1 ou 0 lorsque nous passons d'un triplet orthogonal à l'autre (c'est à dire d'un ensemble
maximal d'observables compatibles à un autre).
II.3.4.5. L'argument de Kochen et Specker statistique à trois dimensions
(Clifton)
Finalement, nous retournons à R(3) . Rappelons la première étape du théorème de Kochen et
Specker qui établit que deux points avec des couleurs opposées ne peuvent pas être arbitrairement
près. C'est cette première étape qui porte toute la force de l'argument. Bell l'a établit d'une manière
différente et a alors affirmé que dans une interprétation à variables cachés non contextuelles, les
points avec des couleurs opposées doivent être arbitrairement près. C'est cette première étape que
Clifton exploite dans un argument qui combine les idées de Bell et de Kochen et Specker.
(VC2') Si pour un système de spin 1 une certaine direction x du spin dans l'espace est assigné à la
valeur zéro, alors tout autre direction x' qui est séparée de x par un angle arccos(1 / 3) doit avoir la
valeur 1 ou, en symboles : si v(S x ) = 0 alors v(S x′ ) = 1 .
L'argument a jusqu'ici utilisé les conditions originales du théorème de Kochen et Specker KS1 et
KS2. Nous supposons maintenant, en plus, que toute contrainte sur les assignations de valeurs sera
visible dans les statistiques mesurées. En particulier : une assignation de valeurs dictée par une
contrainte implique que cette valeur assignée avec certitude est le résultat de toute mesure
respectant la contrainte. Ou en symboles :
()
^
aussi un opérateur hermitique (donc, nous écrivons f  . Si nous supposons de plus que pour tout
opérateur hermitique il correspond un observable de la mécanique quantique, alors le principe peut
être formulé comme :
()
^
l'observable A, soit f : R → R une fonction arbitraire tel que f  est un autre opérateur
^
hermitique et soi φ un état arbitraire. Alors f ( A) est associé de manière unique avec un
observable f ( A) tel que :
(1) v( f ( A)) = f (v( A))
φ φ
(nous introduisons l'état en exposant pour permettre une dépendance éventuelle des valeurs avec
l'état quantique particulier dans lequel le système est préparé). La règle des sommes et la règle
produit sont des conséquences immédiates du principe de composition fonctionnelle. Le principe de
composition fonctionnelle lui-même n'est pas dérivable du formalisme de la mécanique quantique
mais une version statistique (appelée principe de composition fonctionnelle statistique) l'est :
Réalisme des valeurs : s'il y a un nombre réel défini de manière opérationnelle α , associé à
un opérateur hermitique  et distribué de manière probabiliste selon l'algorithme statistique
de la mécanique quantique pour  , c'est-à-dire s'il existe un nombre réel β avec
[( ) ]
β = prob v Aˆ = α , alors il existe un observable A avec la valeur α .
Valeurs définies : tous les observables définis pour un système de la mécanique quantique
ont des valeurs précises à tout moment.
Quelques commentaires sur ces conditions sont nécessaires. Premièrement, nous avons besoin
d'expliquer le contenu du réalisme des valeurs. L'algorithme statistique de la mécanique quantique
nous dit comment calculer une probabilité à partir d'un état donné, un observable donné et sa
valeur. Ici nous le comprenons comme un dispositif purement mathématique sans aucune
interprétation physique : étant donné un vecteur de l'espace de Hilbert, un opérateur et ses valeurs
propres, l'algorithme nous dit comment calculer de nouveaux nombres (qui ont les propriétés des
probabilités). En plus, par "défini de manière opérationnelle" nous voulons simplement dire
"obtenu à partir d'un nombre que nous savons indiquer une propriété réelle". Ainsi, le réalisme des
valeurs dit, en effet, que, si nous avons une propriété réelle γ (la valeur γ d'un observable G) et
que nous sommes capables de construire avec γ un nouveau nombre α et que nous trouvons un
opérateur  tel que α est une valeur propre de  , alors (nous avons satisfait tout ce qui est
nécessaire pour appliquer l'algorithme statistique, donc) Â représente un observable A et sa valeur
α est une propriété réelle.
Du réalisme des valeurs, des valeurs définies, de la non contextualité et du principe de composition
fonctionnelle statistique, nous pouvons dériver le principe de composition fonctionnelle comme
suit. Considérons un état arbitraire d'un système et un observable arbitraire Q. Suivant les valeurs
définies, Q possède une valeur v(Q ) = a . Donc, nous pouvons former le nombre f (v(Q )) = b pour
une fonction arbitraire f. De ce nombre, par le principe de composition fonctionnelle statistique,
prob[ f (v(Q )) = b] = prob[v( f (Q )) = b] . Donc, nous avons, par transformation des probabilités
selon le principe de composition fonctionnelle statistique, créé un nouveau opérateur hermitique
()
^
f Q̂ et nous l'avons associé avec les deux nombres réels b et prob[ f (v(Q )) = b] . Donc, suivant le
()
^
réalisme des valeurs, il y a un observable correspondant à f Q̂ avec la valeur b, donc
f (v(Q )) = v( f (Q )) . Suivant la non contextualité, cet observable est unique et donc le principe de
composition fonctionnelle s'ensuit.
II.3.6. Echapper à l'argument de Kochen et Specker
La section précédente éclaire quelles possibilités le théoricien des variables cachées a pour
échapper à l'argument de Kochen et Specker : rejeter un des trois prémisses qui ensemble
impliquent la règle de composition fonctionnelle (donc la règle des sommes et la règle produit).
II.3.6.1. Pas de valeurs définies en général
Rappelons que les valeurs définies étaient la supposition fondamentale des interprétations à
variables cachées. Ainsi, afin d'échapper à un argument puissant contre la possibilité des
interprétations à variables cachés, si ces interprétations enlèvent leur motivation fondamentale, cela
semble ne pas avoir beaucoup de sens. Mais certains interprètes signalent qu'entre tenir à ce que
seulement les observables que la mécanique quantique prescrit ont une valeur et tenir à ce que
toutes aient une valeur, il y a une marge, c'est-à-dire proposer que plus d'observables que ceux
prescrit par la mécanique quantique, mais pas tous, ont des valeurs ("valeurs définies partielles").
Cette option des valeurs définies partielles a été utilisée par plusieurs interprétations modales et a
aussi été explorée par John Bell dans son "approche possible" de la mécanique quantique
(1987:ch.7).
Les écueils et bancs de sable des interprétations modales sont au-delà du but de cette analyse. nous
noterons juste qu'il n'est pas clair comment ces interprétations peuvent s'arranger pour toujours
sélectionner le bon ensemble d'observables supposé avoir des valeurs. "Bon ensemble" signifie ici
que l'observable réellement mesuré doit toujours être inclus (afin d'éviter le problème de la mesure)
et doit toujours rendre les statistiques de la mécanique quantique. Nous mentionnons aussi deux
résultats important qui jettent le doute sur la faisabilité des interprétations modales : premièrement,
il peut être montré que ou bien les valeurs définies partielles se réduisent à des valeurs définies
complètes ou bien le raisonnement classique sur les propriétés physiques doit être abandonné
(Clifton 1995). Deuxièmement, il est possible de dériver une sorte de théorème de Kochen et
Specker même dans certaines interprétations modales (Bacciagaluppi 1995, Clifton 1996).
II.3.6.2. Rejet du réalisme des valeurs
La dérivation du principe de composition fonctionnelle consiste de manière basique en la
()
^
construction d'un observable (c'est-à-dire f (Q ) ) via un opérateur (c'est-à-dire f Q̂ ) à partir de la
distribution de probabilité d'un nombre (c'est-à-dire f (v(Q )) qui est en retour construit à partir d'un
autre nombre (c'est-à-dire v(Q ) ). Maintenant, au lieu de rejeter l'existence de v(Q ) dans tous les
cas (comme ci-dessus), nous pouvons rejeter que l'existence d'un nombre α et la construction de
()
^
f Q̂ conduit automatiquement à un observable, c'est-à-dire que nous rejetons le réalisme des
valeurs. Cela revient à rejeter que pour tout opérateur hermitique il y a un observable bien défini.
Maintenant, afin de formuler le réalisme des valeurs nous avons donné une lecture très réduite de
l'algorithme statistique, c'est-à-dire qu'il y a un dispositif purement mathématique pour calculer les
nombres à partir des vecteurs, opérateurs et nombres (comment pouvions nous faire autrement. Et
bien, si nous disons "tout ce qui satisfait l'algorithme statistique est un observable", nous ne
pouvons pas bien supposer qu'un opérateur, afin de remplir l'algorithme, doit être compris comme
un observable puisque cela rendrait la condition comme une conséquence triviale de l'algorithme).
Cette lecture est très artificielle et présuppose qu'un appareil d'interprétation minimal requit pour
donner un sens physique à certains opérateurs (comme Q̂ ) peut être dissimulé des autres (comme
()
^
f Q̂ ).
De plus, il semble très peu plausible de supposer que certains opérateurs, sommes et produits des
opérateurs qui sont associés avec des observables bien définis, ne sont eux-mêmes pas associés
avec des observables bien définis, même s'ils héritent mathématiquement des valeurs exactes de
leurs termes ou facteurs. Prenons un exemple brutal, cela reviendrait à dire que demander l'énergie
d'un système est une question bien définie tandis que demander le carré de l'énergie du système de
l'est pas, même si la réponse à notre première question et par des mathématiques triviales nous
avons une réponse bien définie sous la main. Il ne semble pas y avoir de bonne raison a priori pour
justifier cette restriction. Ainsi, pour que le rejet du réalisme des valeurs soit plausible, une
proposition supplémentaire est faite : il est crucial pour l'argument de Kochen et Specker qu'un seul
()
^ ^
()
opérateur soit construit à partir de différents qui sont incompatibles : f Q̂ est identique à g P̂ où
()
^
Pˆ Qˆ − Qˆ Pˆ ≠ 0 . Nous supposons que seule la construction de f Q̂ via Q, mais pas celle via P,
conduit à un observable bien défini.
Cela rend cependant automatiquement certains observables sensibles au contexte. Ainsi, cette
manière de motiver le rejet du réalisme des valeurs revient à une sorte de contextualisme qui peut
être obtenu plus facilement en rejetant directement la non contextualité et sans se battre avec
l'algorithme statistique (ce fait explique pourquoi nous n'avions pas mentionné le rejet de réalisme
des valeurs comme une option séparée dans l'introduction).
II.3.6.3. Contextualité
Finalement, nous pouvons accepter les valeurs définies et le réalisme des valeurs mais rejeter que
()
^
notre construction d'un observable f (Q ) soit sans ambiguïté. Donc, nous acceptons que f Q̂ et
^
()
g P̂ soient mathématiquement identiques mais que physiquement ils correspondent à différents
observables puisqu'une détermination réelle de v( f (Q )) doit procéder via la mesure de Q mais que
la détermination de v( g (P )) implique la mesure de P qui est incompatible avec Q. Puisque v( f (Q ))
et v( g (P )) sont des résultats de différentes situations de mesure, il n'y a pas de raison de supposer
que v( f (Q )) = v( g (P )) . Cette manière de bloquer la démonstration de Kochen et Specker vient à
considérer f (Q ) et g (P ) comme des observables différents (à cause de la sensibilité au contexte),
donc cela revient à rejeter la non contextualité. Il y a principalement deux manières, dans la
littérature, de motiver cette étape. Et donc, il y a deux domaines importants de contextualité à
discuter -- la contextualité causale et ontologique.
L'argument de Kochen et Specker a été présenté pour des valeurs possédées d'un système en
mécanique quantique, indépendamment de considérations sur la mesure. En effet, l'argument de la
mesure fut mentionné seulement une fois et dans la négative, dans la non contextualité. Cependant,
puisque maintenant nous considérons le rejet de la non contextualité, nous devons aussi prendre en
compte la mesure et ses complications. Une manifestation supplémentaire de notre réalisme
inoffensif (voir l'introduction) est un principe de mesure des faits : la mesure en mécanique
quantique d'un observable délivre de fait la valeur que cet observable avait immédiatement avant
l'interaction de mesure. Le principe de mesure des faits est aussi une hypothèse extrêmement
plausible des sciences naturelles. De plus, le principe de mesure des faits implique les valeurs
définies (cependant nous pourrions avoir utilisé le principe plus fort donnant un argument de
Kochen et Specker pour des résultats de mesure possibles). Considérons maintenant la motivation,
pour la théorie à variables cachées proposée, de rejeter la non contextualité. Evidemment, le but est
de sauver d'autres hypothèses, particulièrement les valeurs définies. Maintenant les valeurs définies
et la non contextualité sont des convictions réalistes indépendantes, mais la non contextualité et le
principe de mesure des faits ne sont pas aussi indépendant. En effet, nous verrons que le rejet de la
non contextualité implique le rejet du principe de mesure des faits et sa transformation en une
version de contextualité et suggère fortement l'autre (cela rend plus précises certaines remarques
obscures de l'introduction qu'il n'est pas évident de savoir à quoi ressemblerait une interprétation
acceptant le principe réaliste des valeurs définies mais rejetant le principe réaliste de la non
contextualité. Une telle interprétation violerait un troisième principe réaliste, c'est-à-dire le principe
de mesure des faits.)
Contextualité causale
Un observable peut être dépendant du contexte de manière causale dans le sens qu'il est sensible de
manière causale avec la manière dont il est mesuré. L'idée de base est que la valeur observée est le
résultat de l'interaction système - appareil. Donc, en mesurant un système via une interaction avec
un appareil mesurant P peut conduire à une valeur v( g (P )) , et en mesurant le même système via
une interaction avec un appareil mesurant Q à une valeur différente v( f (Q )) , bien que les deux
() ()
^ ^
observables soient représentés par le même opérateur f Qˆ = g Pˆ . La différence dans les valeurs
est expliquée en terme de dépendance au contexte des observables : ces derniers sont dépendants du
contexte puisque les différentes manières de les réaliser physiquement influence de manière causale
le système d'une manière différente et donc change la valeur observée.
Contextualité ontologique
Un observable peut être dépendant du contexte de manière ontologique dans le sens qu'afin d'être
bien définie, la spécification de l'observable "venant de" est nécessaire. Donc, afin de construire un
() ()
^ ^
observable bien défini à partir de l'opérateur f Q = g Pˆ , nous avons besoin de savoir s'il est
ˆ
physiquement réalisé via l'observable P ou l'observable Q. Cette manière d'éviter le problème de
Kochen et Specker fut d'abord proposée (mais pas défendue) par Fraassen (1973). Il y a alors
()
^
plusieurs observables et types de propriétés physiques pour un opérateur f Q̂ tout comme il y a
()
^
plusieurs manière de construire f Q̂ à partir d'opérateurs maximaux. Sans explication
supplémentaire, cependant, cette idée conduit juste à une prolifération ad hoc des grandeurs
physiques. Un défenseur de la contextualité ontologique nous doit certainement une histoire plus
explicite sur la dépendance de l'observable f (Q ) à l'observable Q. Deux possibilités viennent à
l'esprit.
(a) Nous pouvons penser que v( f (Q )) n'est pas juste une propriété physique consistante mais une
propriété qui dépend de manière ontologique de la présence d'une autre propriété v(Q )
(rappelons que dans la preuve du principe de composition fonctionnelle v( f (Q )) est construit à
partir de v(Q ) .) Mais, puisque la position ne rejette pas les questions sur les valeurs de f (Q )
dans une situation de mesure de P comme illégitime (car elle n'est pas liée à une notion d'un
observable comme étant bien définie dans un contexte seulement !) cela semble conduire à de
nouvelles et pressantes questions, pour le moins. Comme tentative pour défendre une
interprétation à variables cachées contextuelles, celle position doit concéder que non seulement
le système a, dans la situation de mesure de Q, une valeur v(Q ) , mais aussi dans une situation
de mesure de P, qu'elle a une valeur v ′(Q ) bien que peut-être v ′(Q ) ≠ v(Q ) . Maintenant, les
questions pour la valeur de f (Q ) dans cette situation sont légitimes. Est-ce que v ′(Q ) donne
une autre valeur v ′( f (Q )) ≠ v( f (Q )) ? Ou est-ce que v ′(Q ) , en opposition à v(Q ) , ne conduit
pas à une valeur de f (Q ) du tout ? Aucune option ne semble plausible car ne pourrions-nous
pas, en passant d'une situation de mesure de P et Q à une autre conclure à l'existence ou pas de
v( f (Q )) ou passer de v( f (Q )) à v ′( f (Q )) ?
(b) Nous pouvons penser que, afin que f (Q ) soit bien défini, un arrangement de mesure plutôt
qu'un autre soit nécessaire. L'idée est une forte réminiscence de l'argument de Bohr de 1935
contre EPR et, en effet, peut être vue comme une extension appropriée des vues de Bohr sur la
mécanique quantique vers la discussion des variables cachées moderne (voir Held 1998, ch.7).
Dans cette version de la contextualité ontologique, la propriété v( f (Q )) , plutôt que de dépendre
de la présence d'une autre propriété v(Q ) , dépend de la présence d'un appareil de mesure de Q.
Cela conduit à une position holistique : pour certaines propriétés il y a seulement un sens d'en
parler comme se rattachant à un système, si ce système est une partie d'un certain tout, système
- appareil. Ici, la question pour les valeurs de f (Q ) dans une situation de mesure de P devient
illégitime puisque la définition correcte de f (Q ) est liée à une situation de mesure de Q. Mais
des réserves s'appliquent à nouveau. Est-ce que la position conduit à ce que, en opposition à
f (Q ) , Q est lui-même bien défini dans une situation de mesure de P ? Si non, Q peut
difficilement avoir une valeur (puisque le fait qu'il n'était pas bien défini était une raison pour
nier une valeur à f (Q ) ) ce qui signifie que nous ne considérons plus du tout une interprétation
à variables cachées et qu'il n'y a plus besoin de bloquer l'argument de Kochen et Specker du
tout. Si on le fait, qu'est-ce qui explique que, dans une situation de mesure de P, Q reste bien
défini mais que f (Q ) perd ce statut ?
Que devient le principe de mesure des faits dans les deux versions de la contextualité ontologique ?
Bien, si nous restons agnostiques sur comment la position pourrait être rendue plausible, nous
pouvons sauver le principe de mesure des faits, tandis que si nous choisissons la version (a) ou la
version (b) pour le rendre plausible, nous le perdons. Considérons d'abord un rejet agnostique de la
non contextualité. Le principe de mesure des faits dit que tout observable de la mécanique
quantique est mesuré de fait. Maintenant, la contextualité divise un opérateur qui peut être construit
à partir de deux opérateurs différents non commutant en deux observables et la contextualité
ontologique n'essaie pas de nous donner une théorie causale ce qui ruinerait l'indépendance causale
des valeurs mesurées à partir de l'interaction de mesure inclue dans le principe de mesure des faits.
Nous introduisons simplement une conception plus raffinée des observables mais pour ces
nouveaux observables contextuels nous pouvons encore imposer le principe de mesure des faits.
Finalement, nous notons que les deux types de contextualité ontologique, par opposition à la
version causale, impliquent que les propriétés du système que nous pensions au début être
intrinsèque deviennent relationnelles dans le sens qu'un système peut seulement avoir ces propriétés
s'il en a certaines autres ou s'il est relié à un certain dispositif de mesure.
II.3.7. La question des tests empiriques
Les fameuses violations des inégalités de Bell prescrites par la mécanique quantique ont été
confirmées expérimentalement. Est-ce que quelque chose de similaire est possible pour le théorème
Kochen et Specker ? Nous distinguons trois questions :
(1) Est-il possible de réaliser l'expérience proposée par Kochen et Specker comme motivation de
leur théorème ?
(2) Est-il possible de tester les principes conducteurs du théorème : la règle des sommes et la règle
produit, le principe de composition fonctionnelle ou la non contextualité ?
(3) Est-il possible de tester le théorème lui-même ?
(1) Kochen et Specker eux-mêmes décrivent un arrangement expérimental concret pour mesurer
S x2 , S y2 , S z2 sur un système d'une particule de spin 1 comme des fonctions d'un observable
maximal. Un atome d'orthohélium dans l'état triplet le plus bas est placé dans un petit champ
électrique E de symétrie rhomboïdale. Les trois observables en question peuvent alors être
mesurés comme des fonctions d'un seul observable, l'hamiltonien perturbation H S . H S , par la
géométrie de E, a trois valeurs distinctes possibles de mesures qui révèle les deux observables
de S x2 , S y2 , S z2 qui ont la valeur 1 et celui qui a la valeur 0 (voir Kochen et Specker 1967 :
72/311). C'est bien sûr une proposition de réaliser une expérience mettant en évidence notre
contrainte de valeurs ci-dessus (VC2). Pouvons-nous aussi réaliser une expérience (VC1), c'est-
à-dire mesurer un ensemble de projecteurs commutant projetant sur des états propres d'un
observable maximal ? Peres (1995:200) répond à la question par l'affirmative, discute d'une
telle expérience et renvoie à Swift et Wright (1980) pour les détails sur la faisabilité technique.
Il semble, cependant, qu'en dépit d'être possible en principe, aucune expérience de ce type n'a
été réellement effectuée (voir Cabello et Garcia-Alcaine (1998) pour une discussion plus
détaillée et une autre proposition expérimentale).
(2) En conjonction avec les manifestations du principe de composition fonctionnelle, c'est-à-dire la
règle des sommes et la règle produit, la mécanique quantique contient des contraintes comme
VC1 ou VC2 qui contredisent les valeurs définies. Ainsi, fournir des exemples physiques
concrets qui peuvent, étant donné la règle des sommes et la règle produit, instancier VC1 ou
VC2, comme souligné, n'est pas suffisant. Nous devons nous demander si ces règles elles-
mêmes peuvent être empiriquement supportées. Il y a eu une discussion considérable au début
des années 80 sur cette question, explicitement a propos de savoir si la règle des sommes est
empiriquement testable, et il y a eu l'accord général que ce n'est pas le cas.
L'argument MKC est chaudement débattu et la question de savoir s'il est relevant ou même
destructif pour l'argument de Kochen et Specker n'est pas tranchée, ainsi nous donnerons
seulement une partie de la discussion. Une objection assez évidente est que l'argument original
de Kochen et Specker ne marche pas pour des valeurs possédées ni pour des valeurs mesurées,
ainsi l'argument MKC, qui met en avant la précision finie des mesures, rate l'objectif. Nous
pouvons ne pas être capables de tester les observables qui sont exactement orthogonaux ou
exactement semblables dans différents tests, mais ce serait une interprétation à variables
cachées étrange qui affirme que de telles composantes n'existent pas (voir Cabello 1999). Bien
sûr, une telle théorie à variables cachées non contextuelle serait immunisée contre l'argument de
Kochen et Specker, mais elle serait forcée ou bien de rejeter que pour chaque direction
d'ensemble continu de directions dans l'espace il y a un observable ou bien de rejeter qu'il y a
un ensemble continu de directions - et aucun de ces rejets ne semble très attirant.
En plus, l'argument MKC est peu satisfaisant car il exploite la précision finie de mesures réelles
seulement dans un des sens ci-dessus mais suppose une précision infinie dans l'autre. MKC
suppose, pour les observables mesurés, qu'il y a une précision finie dans le choix des différents
triplets orthogonaux tel que nous ne pouvons pas avoir, en général, exactement le même
observable deux fois comme membre de deux triplets. Cependant, MKC suppose encore la
précision infinie, c'est-à-dire l'orthogonalité exacte, dans le triplet (autrement la contrainte de
coloriage ne trouverait aucune application du tout). Il a été affirmé que ce phénomène peut être
exploité pour rejeter l'argument et réinstaller le contextualisme (voir Mermin 1999, Appleby
2000).
Finalement, il peut être montré que les probabilités quantiques varient continûment lorsque
nous changeons de direction dans R(3) , ainsi de petites imperfections dans la sélection des
observables qui bloque l'argument (mais seulement pour les valeurs mesurées !) dans le seul cas
sera effacé en moyenne (voir Mermin 1999). Cela ne constitue en effet pas un argument
puisque dans les ensembles coloriables des observables dans les constructions MKC les
probabilités varient aussi (dans un sens) continûment. Nous pouvons cependant exploiter le
raisonnement de Mermin de la manière suivante. Reconsidérons l'ensemble de Clifton de huit
directions conduisant à une contrainte de coloriage pour les points extérieurs qui statistiquement
contredit les statistiques de la mécanique quantique par une fraction de 1/17. Maintenant, en
partant d'un sous-ensemble coloriable des directions construites par MKC, nous sommes
incapables de dériver la contrainte pour les huit points puisque ces huit points ne sont pas dans
l'ensemble. C'est-à-dire qu'en passant, dans l'ensemble coloriable, d'un triplet de lignes
mutuellement orthogonales au suivant, nous n'aurons jamais exactement les mêmes directions
mais seulement une approximation arbitrairement proche. Cependant, considérons la réponse
suivante. Supposons que les observables correspondants aux huit directions, bien que
n'appartenant pas au sous-ensemble coloriable, existent et, selon la prémisse des variables
cachées, ont tous des valeurs. Alors, nous pouvons dériver la contrainte de Clifton pour les
points extérieurs. Pour ces points extérieurs il n'est pas important qu'un éventuel test empirique
les donne exactement car l'argument de Mermin dit que, même si dans une mesure très
légèrement imparfaite nous mesurons seulement des points voisins, nous aurons à la longue une
approximation de plus en plus précise des statistiques de la mécanique quantique pour
exactement les points en question, ce qui signifie que nous aurons une approche de plus en plus
précise de 1/17 tandis que la supposition des variables cachées nécessite que nous aurions une
valeur de plus en plus précise de 0 (rappelons aussi que ce nombre peut être poussé jusqu'à 1/3
en choisissant un ensemble de 13 directions !).
Ainsi, il semble qu'aussi longtemps que nous supposons qu'il y a une quantité continue
d'observables de la mécanique quantique (correspondant aux directions continues dans l'espace
physique), des tests statistiques construis, par exemple, sur la proposition de Clifton 1993 ou
Cabello/Alcaine 1998 restent entièrement valide comme confirmations empiriques du théorème
de Kochen et Specker. Puisque ces violations statistiques du programme des variables cachées
viennent comme résultats des contradictions de la mécanique quantique, des valeurs définies,
du réalisme des valeurs et de la non contextualité d'un coté et de la mécanique quantique et
l'expérience de l'autre, les données expérimentales nous forcent encore vers le dilemme
d'écarter les valeurs définies ou le réalisme des valeurs ou la non contextualité. Comme nous
l'avons vu, rejeter le réalisme des valeurs devient en final identique à une sorte de contextualité,
donc nous avons réellement deux options : (1) écarter les valeurs définies ou pour tous les
observables interdit d'avoir des valeurs dans la représentation orthodoxe (donc écarter le
programme des variables cachées) ou pour un sous-ensemble de ces observables (comme le
font les interprétations modales). (2) Accepter une sorte de contextualité. De plus, comme les
choses semblent se présenter, le choix entre ces deux options ne semble pas pouvoir être testé
empiriquement et reste un argument purement philosophique.
II.4. Théorème de Mermin
Nous aimerions discuter ici d'un théorème beaucoup plus récent découvert par N. David Mermin en
1990 qui est du même type que ceux considérés ci-dessus. Mermin fait essentiellement la même
hypothèse concernant la fonction E (O ) que Gleason et Kochen et Specker : que E (O ) doit obéir à
toutes les relations parmi les ensembles commutants d'observables. Ce théorème est plus direct
dans sa preuve et plus simple dans sa forme que ceux de Gleason et de Kochen et Specker.
Le système traité par le théorème de Mermin est celui d'une paire de particules de spin 1/2. Les
observables concernés sont les composantes x et y de ces spins et six autres observables qui sont
définis en termes de ces quatre. Nous commençons par la dérivation de l'expression
(1) σ x(1)σ y(2 )σ y(1)σ x(2 )σ x(1)σ x(2 )σ y(1)σ y(2 ) = −1
puisque cela est en réalité assez crucial pour le théorème. Pour la simplicité, nous normalisons les
valeurs propres du spin de ± 1 / 2 à ± 1 . Pour démontrer (1), nous utilisons la règle de commutation
pour les composantes x et y de deux particules de spin 1/2. Toute paire de tels observables associés
[ ] [
à différentes particules commuteront, donc nous avons σ x(1) , σ x(2 ) = 0 et σ x(1) , σ y(2 ) = 0 , par ]
exemple. Toute paire qui implique la même composante commutera aussi, donc nous avons
[ ] [ ]
σ x(1) , σ x(1) = 0 et σ x(2 ) , σ x(2 ) = 0 . Notons que la commutation de deux observables O1 , O2 implique
que O1O2 = O2 O1 . Les paires associées à la même particule mais avec des composantes différentes
ne commutent pas mais anticommutent. Pour deux observables anticommutant O1 , O2 , il s'ensuit
que leur anti-commutateur {O1 , O2 } = O1O2 + O2 O1 est égal à zéro. Cela implique que
O1O2 = −O2 O1 . En utilisant ces règles, nous pouvons manipuler l'expression sur le coté gauche de
(1) par des échanges séquentiels du premier σ x(1) avec l'opérateur apparaissant à sa droite. Si nous
échangeons σ x(1) avec σ y(2 ) , σ y(1) et σ x(2 ) , l'expression devient − σ y(2 )σ y(1)σ x(2 )σ x(1)σ x(1)σ x(2 )σ y(1)σ y(2 ) . Le
signe moins total résulte de l'échange avec σ y(1) . A ce point, il est immédiat de simplifier
l'expression en utilisant le fait que le carré de toute composante du spin a la valeur 1, c'est-à-dire
(σ ( ) )
i
2
= 1 . Si nous appliquons cela à l'expression en question, nous pouvons facilement voir que
i
Si nous groupons les observables du coté gauche de (1) par paires, nous pouvons réécrire ces
relations comme ABXY = −1 où A, B, X, Y sont définis comme
A = σ x(1)σ y(2 )
B = σ y(1)σ x(2 )
(3)
X = σ x(1)σ x(2 )
Z = σ y(1)σ y(2 )
Il est important de noter que l'équation (5) est équivalente à (1), étant donné que A, B, C, X, Y, Z
sont définis comme donné ci-dessus dans (4) et (3).
Si nous examinons la première équation dans (3), nous voyons que les trois observables impliqués
[ ] [ ] [ ]
sont un ensemble commutant : σ x(1) , σ y(2 ) = 0 , σ x(1) , A = σ x(1) , σ x(1)σ y(2 ) = 0 et
[σ (2 )
] [ (2 ) (1) (2 )
]
, A = σ y , σ x σ y = 0 . L'examen des autres équations dans (3) révèle que le même est vrai
y
pour eux, c'est-à-dire que les observables forment un ensemble commutant. L'application répétée
des règles de commutation révèle que les ensembles {C, A, B}, {Z, X, Y} et {C, Z} sont aussi des
ensembles commutant. Comme cela a été fait dans les théorèmes de Gleason et de Kochen et
Specker, nous considérons la question d'une fonction E (O ) sur les observables σ x(1) , σ y(1) , σ x(2 ) ,
σ y(2 ) , A, B, C, X, Y, Z qui retourne pour chaque observable sa valeur. Nous exigeons que E (O )
satisfasse toutes les relations de contraintes sur chaque ensemble commutant des observables. Les
relations en question diffèrent de celles de Gleason et de Kochen et Specker seulement en ce
qu'elles impliquent des produits d'observables plutôt que juste des combinaisons linéaires.
Cependant, cette distinction n'est pas significative, la propriété essentielle de tous ces théorèmes est
simplement qu'elles exigent que E (O ) satisfasse les relations de contraintes pour chaque ensemble
commutant, aucune relation sur des observables non commutant n'est considérée comme des
contraintes nécessaires. Les relations en question dans cette analyse sont les équations de définition
(3), (4) et (5). Etant donné que E (O ) les satisfait, le théorème de Mermin implique que cette
fonction ne peut pas appliquer les observables sur leurs valeurs propres.
Nous allons maintenant présenter la preuve du théorème. Puisque σ (ji ) = ±1 , pour tout i, j, les
valeurs propres de chacun des dix observables sera ± 1 . Cela se voit facilement pour les
observables A, B, X, Y définis par (3). Chacun d'entre eux étant le produit de deux observables
commutant dont les valeurs propres sont 1 et -1. Avec cela, il suit de même que C et Z ont chacun
des valeurs propres de ± 1 . Nous exigeons donc que E (O ) doit attribuer -1 ou 1 à chaque
observable. Rappelons maintenant un résultat important que nous avons vu ci-dessus : la relation
CZ = −1 est équivalente à la relation (1) pourvu que les observables A, B, C, X, Y, Z soient
définis par (4) et (3).
Considérons la fonction E (O ) . Puisque l'attribution faites par cette fonction doit satisfaire toutes les
relations de commutation (5), (4) et (3), il s'ensuit qu'elle doit satisfaire aussi (1). Cependant, si
nous examinons (1), il s'ensuit qu'aucune attribution de valeurs -1 et +1 n'est possible qui satisfasse
cette équation. Cela suit car chacun des observables de spin apparaît deux fois sur le coté gauche de
(1) de telle manière que toute attribution doit donner la valeur 1 à l'expression entière alors que le
coté droit de (1) est -1. Donc, il n'y a pas de fonction E (O ) qui applique chaque observable de
l'ensemble σ x(1) , σ y(1) , σ x(2 ) , σ y(2 ) , A, B, C, X, Y, Z à une valeur propre si nous insistons pour que
E (O ) sur tout ensemble commutant obéisse à toutes les équations de contraintes. Cela complète la
preuve du théorème de Mermin. La simplicité de l'argument et la mesure commune des spins en
physique rendent cet argument incontournable. Rappelons toutefois qu'il n'est valide que dans
l'hypothèse de non contextualité.
III. Autres théorèmes
III.1.1. Introduction
La mécanique quantique fournit une règle précise pour calculer la probabilité que la mesure de A et
B effectuée sur deux systèmes physiques dans l'état ψ conduise aux résultats (rA , rB ) :
(1) PQ (rA , rB | A, B ) = ψ PrA ⊗ PrB
où Pr est le projecteur sur le sous-espace associé au résultat de mesure r. Pour des états intriqués,
cette formule prédit que les résultats sont corrélés, indépendamment de la distance entre les deux
dispositifs de mesure. Une explication naturelle pour les corrélations établies à distance est l'accord
préétablit : les deux particules ont quitté la source avec une certaine information commune λ , dite
variable locale, qui leur permet de calculer le résultat de chaque mesure possible. Formellement,
rA = f A ( A, λ ) et rB = f B (B, λ ) . Aussi satisfaisant que cela puisse sembler, ce modèle n'arrive pas à
reproduire toutes les corrélations quantiques : c'est le célèbre résultat de John Bell testé maintenant
par un très grand nombre d'expériences. Le fait que les corrélations quantiques ne peuvent être
attribuées ni aux variables locales ni à une communication inférieure à la vitesse de la lumière est
désignée comme la non-localité quantique.
Bien que la non-localité soit une manifestation frappante de l'intrication quantique, le caractère
fondamental de cette notion n'est pas encore clair. L'essence de la mécanique quantique pourrait
être autre part. Par exemple, le non-déterminisme est une autre propriété importante de la
mécanique quantique, sans lien a priori avec la non-localité. Des théories génériques possédant à la
fois le non-déterminisme et la non-localité ont été étudiés, avec plusieurs résultats, mais il n'est pas
encore clair si une physique quantique unique en découle. Afin de progresser dans cette direction, il
est important d'apprendre quels autres modèles alternatifs sont compatibles avec la mécanique
quantique et lesquels ne le sont pas. Le théorème de Bell a écarté tous les modèles possibles à
variables locales. Nous devons passer aux modèles basés sur des variables non locales. Le premier
exemple de modèle testable à variables non locales a été proposé par Suarez et Scarani, falsifiés
dans une série d'expériences il y a quelques années. Un modèle différent fut proposé par Leggett.
Ce modèle suppose que la source émet des états quantiques produits α ⊗ β avec la densité de
probabilité ρ (α , β ) et exige que les probabilités marginales soient compatibles avec de tels états :
(2) P(rA | A) = ∫ dρ (α , β ) α PrA α
Les corrélations doivent cependant inclure certains effets non locaux, autrement ce serait un modèle
(non déterministe) à variables locales qui est déjà écarté par le théorème de Bell. Ce que Leggett a
montré est que la simple exigence de la consistance (c'est-à-dire que des probabilités négatives ne
doivent pas apparaître) contraint les corrélations possibles, même les non locales, pour satisfaire
des inégalités qui sont légèrement mais clairement violées par la mécanique quantique. Une
expérience récente a montré que les dispositifs actuels peuvent détecter cette violation en principe.
Cependant, leur falsification du modèle de Leggett est handicapée par la nécessité d'hypothèses
additionnelles car les inégalités utilisées, tout comme celles de Leggett, supposent que les données
sont collectées à partir d'une infinité de dispositifs de mesure. Ici, nous allons présenter une famille
d'inégalités qui permette de confronter le modèle de Leggett à la physique quantique avec un
nombre fini de mesures. Nous montrerons leur violation expérimentale par des paires de photons
avec une intrication de la polarisation. Nous conclurons avec ce qui doit encore être appris des
modèles à variables non locales.
III.1.2. Théorie
Nous restreignons notre théorie au cas où le degré de liberté quantique étudié est un qubit (unité
d'information quantique). Nous considérons des mesures de von Neumann qui peuvent être indicées
par des vecteurs unités dans la sphère de Poincaré S : A → a et B → b . Leurs résultats seront écrit
rA , rB ∈ {+ 1,−1}. Les états purs des particules seules peuvent aussi être indicées par des vecteurs
unités u et v dans S . Le modèle de Leggett exige que
(1) P(rA , rB | a, b ) = ∫ dρ (u, v )Pu , v (rA , rB | a, b )
avec
(2) Pu , v (rA , rB | a, b ) =
1
[1 + rAa ⋅ u + rB b ⋅ v + rA rB C (u, v, a, b )]
4
Le coefficient de corrélation C (u, v, a, b ) est contraint seulement par l'exigence que (5) doit définir
une distribution de probabilité sur (rA , rB ) pour tous les choix de mesure a, b. On voit clairement la
forme de cette fonction de probabilité qui contient les probabilités locales de mesure plus le
coefficient non local C. De manière remarquable, cette contrainte est suffisante pour dériver des
inégalités qui peuvent être violées par la mécanique quantique. L'inégalité dérivée s'écrit
ϕ
(3) E1 (ϕ ) + E1 (0 ) + E 2 (ϕ ) + E 2 (0 ) ≤ 4 − sin
4
π 2
où les quantités E j (θ ) sont définies à partir des coefficients de corrélations
(4) C (a, b ) = ∑ r r P(rA B A , rB | a, b )
rA , rB
( )
En effet, soit ξ l'angle entre w et c et ξ = ξ − π2 mod πN , tel que ξ ∈ [0, πN [ , alors on a :
~ ~
~ kπ kπ
∑ (R c)⋅ w = ∑ cosξ + N = ∑ sin ξ + N = sin ξ + Nu
N −1 N −1 N −1
(6) k
N N cos ξ ≥ Nu N
k =0 k =0 k =0
comme annoncé.
En remplaçant la moyenne complète par la moyenne discrète (5) dans la démonstration de (3), on
obtient la famille suivante d'inégalités :
ϕ
(7) E1N (a1 , ϕ ) + E1N (a1 ,0 ) + E 2N (a 2 , ϕ ) + E 2N (a 2 ,0 ) ≡ L N (a1 , a 2 , ϕ ) ≤ 4 − 2u N sin
2
où
∑ C (a )
N −1
(8) E Nj (a j ,θ ) =
1 k
j , b kj
N k =0
L'inégalité pour N = 1 ne peut pas être violée car u1 = 0 . Mais déjà pour N = 2, la mécanique
quantique viole l'inégalité : cela ouvre la possibilité pour falsifier le modèle de Leggett sans
hypothèse supplémentaire. Pour N → ∞ , u N → π2 : on retrouve l'inégalité (3). L'arrangement
approprié des angles de différence ϕ pour sonder une violation des inégalités (7) peut être identifié
dans la figure ci-dessous.
La plus grande violation pour un état singulet idéal se produirait pour sin ϕ2 =
uN
4 , c'est-à-dire à
ϕ = 14.4° pour N = 2, il croît avec N jusque ϕ = 18.3° pour N → ∞ .
III.1.3. Expérience
Nous commençons avec une source de conversion paramétrique traditionnelle pour des paires de
photons avec polarisation intriquée avec des fibres optiques à un seul mode à géométrie optimisée
(figure ci-dessous).
Les paires de photons intriqués sont générées par conversion paramétrique dans du bêta borate de
baryum (BBO) à partir d'un laser à argon (PL). Après compensation (CC), la lumière est collectée
derrière des filtres à interférence IF dans des fibres optiques simple mode à biréfringence
compensée (FPC). Les mesures de polarisation sont effectuées avec une combinaison de lame quart
d'onde et de filtres polarisants (PF) en face de détecteurs de photons D1, 2 . La base de mesure pour
chaque bras (1, 2) est choisie par rotation des lames et des filtres polarisants d'angles α 1, 2 , β 1, 2 .
La lumière est émise par un laser à argon à 351 nm et envoyée dans un cristal de bêta borate de
baryum de 2 mm d'épaisseur pour générer des photons de 702 nm avec une distribution spectrale
gaussienne de 5 nm. Une puissance d'environ 40 mW a été choisie pour assurer à la fois l'opération
de fréquence unique du laser et pour éviter les effets de saturation des détecteurs de photons. La
collection des photons dans les fibres optiques monomodes assure une intrication raisonnement
forte de la polarisation. Dans cette configuration, il y a une visibilité des corrélations de
polarisation supérieures à 98 % (moins de 2 % de photons perdus) à la fois dans la base horizontale
- verticale et dans la base à ± 45° des filtres polarisants localisés avant les fibres. Afin d'éviter une
modulation de l'efficacité de la collection des photons avec les composants optiques due aux effets
de bords dans les lames, des éléments d'analyse de polarisation supplémentaires ont été placés
derrière les fibres.
Les mesures de polarisation pour les différentes dispositions des deux observateurs ont été réalisées
en utilisant des lames quart d'ondes, tournées par étapes avec un moteur d'angles respectifs α 1, 2 et
des filtres polarisants absorbants tournés d'un angle β 1, 2 de manière similaire avec une précision de
0.1 degré. Cette combinaison permet de projet des états de polarisation elliptique arbitraires.
Finalement, la photodétection est faite avec des diodes au silicium et les paires de photons étaient
identifiées par détection de coïncidence. Les cristaux compensateurs CC et la compensation de
biréfringence FPC a été ajustée pour être capable de détecter les paires de photons dans un état
singulet.
Après la compensation de biréfringence des fibres optiques, les expérimentateurs ont observé les
corrélations des polarisations entre les deux bras avec une visibilité de 99.5 ± 0.2% dans la base
horizontal - vertical, 99.0 ± 0.2% dans la base linéaire ± 45° et 98.2 ± 0.2% dans la base de
polarisation circulaire. Les taux de comptage typiques étaient de 10100 s −1 et 8000 s −1 pour des
événements seuls dans les deux bras et environ 930 s −1 pour les coïncidences pour des positions
orthogonales des polariseurs. Ils ont mesuré un taux de coïncidence accidentel en utilisant un
détecteur de signal avec un délai de 0.41 ± 0.07 s −1 , correspondant à une fenêtre temporelle de 5 ns.
Les deux plans orthogonaux qui ont été utilisés dans la sphère de Poincaré incluaient toutes les
polarisations linéaires pour l'un et les polarisations linéaires horizontales, verticales et circulaires
pour l'autre. De cette manière, on s'attend à prendre avantage des meilleures corrélations de
polarisation dans la base "naturelle" horizontal - vertical pour le cristal de conversion. Chacun des
4N coefficients de corrélations C (a, b ) a été obtenu à partir de quatre dispositions des filtres de
polarisation via
n a , b + n − a , − b − n − a ,b − n a , − b
(1) C (a, b ) =
n a ,b + n − a , − b + n − a ,b + n a , − b
à partir des quatre comptages de coïncidences n ± a, ± b obtenus pour un temps fixe d'intégration T = 4
seconde chacun. Pour N = 2, 3 et 4 les expérimentateurs ont testé l'ensemble générique complet des
8, 12 et 16 groupes de disposition, respectivement, avec chaque E jN (0) contenant un dispositif
d'analyse horizontal - vertical.
Un résumé des valeurs de N correspondant aux inégalités pour N = 2, 3 et 4 est montré dans la
figure ci-dessous avec les bornes correspondantes pour la théorie à variable cachées et la
mécanique quantique pour un état singulet pur.
Les déviations standard correspondantes des résultats ont été obtenues par la propagation des
erreurs habituelles en supposant une statistique de comptage poissonnienne et des fluctuations
indépendantes sur les dispositifs. Pour N = 2, nous observons déjà une violation claire de la théorie
à variables cachées. La plus grande violation qui a été trouvée est pour N = 4 avec environ 17
déviations standards au-dessus de la limite de la théorie à variables cachées. Comme attendu, la
violation expérimentale s'accroît avec le nombre croissant N. Les combinaisons sélectionnées de
(N , ϕ ) violant la limite des variables cachées sont résumées dans la table ci-dessous.
N ϕ LVar .cach. Lexp ± σ Ecart
2 12.5° 3.8911 3.9127 ± 0.0033 6.45 σ
2 15° 3.8695 3.8970 ± 0.0036 7.59 σ
2 17.5° 3.8479 3.8638 ± 0.0042 3.83 σ
3 12.5° 3.8743 3.9140 ± 0.0027 14.77 σ
3 15° 3.8493 3.8930 ± 0.0030 14.58 σ
3 17.5° 3.8243 3.8608 ± 0.0034 10.67 σ
3 20° 3.7995 3.8400 ± 0.0036 11.15 σ
4 12.5° 3.8686 3.9091 ± 0.0024 17.01 σ
4 15° 3.8424 3.8870 ± 0.0026 16.84 σ
4 17.5° 3.8164 3.8656 ± 0.0029 17.11 σ
Ces résultats sont bien décrits en supposant un bruit corrélé résiduel dans la préparation de l'état
singulet. La petite asymétrie de Lexp en ϕ est attribuée à la précision de l'alignement des
polariseurs.
Résumé et perspectives
Après la motivation très générale soulignée dans l'introduction, nous nous sommes concentrés sur
le modèle de Leggett. Nous avons posé ce modèle dans un cadre plus large. La non-localité ayant
été démontrée, le seul mécanisme classique qui reste pour expliquer les corrélations quantiques est
l'échange d'un signal. Il est donc naturel de supposer, comme modèle alternatif à la mécanique
quantique, que la source produit des particules indépendantes qui plus tard échangent une certaine
forme de communication. Bien sur, cette communication devrait voyager plus vite que la lumière,
ainsi le modèle a un repère particulier dans lequel le signal se propage : ce peut être un repère
privilégié ("éther quantique"), auquel cas même cette communication n'est pas logiquement
contradictoire, ou un repère défini par les appareils de mesure, auquel cas le modèle s'écarte des
prédictions quantiques lorsque les appareils sont en mouvement relatif. Evidemment, il y a des
modèles à variables cachées non locales qui reproduisent exactement les prédictions quantiques.
Des exemples explicites sont la théorie de Bohm et, dans le cas de deux qubits, le modèle de Toner
-Bacon. Les deux sont déterministes. Maintenant, dans la théorie de Bohm, si la première particule
est mesurée en A, la première probabilité conditionnelle donnée dans l'introduction (équation (2))
est satisfaite mais l'autre relation (équation (3)) ne l'est pas. Cette remarque apporte un éclairage
nouveau sur le modèle de Leggett où les deux hypothèses sont imposées : la particule qui reçoit la
communication peut prendre cette information en compte pour produire les corrélations non
locales, mais il est également exigé qu'elle produise des résultats qui respectent les probabilités
conditionnelles attendues pour le paramètre local seul.
Comme conclusion, on doit signaler que le large but souligné dans l'introduction c'est-à-dire pointer
l'essence de la mécanique quantique, n'as pas encore été atteint. Cependant, le modèle de Leggett,
et son expérience de falsification réussie a ajouté une nouvelle pièce dans ce but.
III.2. Théorème de Malament
III.2.1. Introduction
Est-ce que la mécanique quantique relativiste des champs nous dit que le monde est fait de champs
ou de particules ou de quelque chose d'autres ? Une difficulté pour répondre à cela est que les
théories physiques ne sélectionnent typiquement pas une seule ontologie privilégiée. Cela peut être
vu en mécanique classique que nous utilisons depuis environ 350 ans et pour laquelle nous n'avons
pas quelque chose comme une métaphysique canonique pour la théorie. Est-ce que les entités
fondamentales de la mécanique sont les particules ponctuelles ou les objets étendus ? Est-ce que la
théorie nous dit qu'il y a un espace pondérable absolu ou les positions sont-elles relatives aux autres
objets ? Bien sûr, une partie du problème est ici que la nature de la mécanique classique n'est pas
entièrement claire. Mais même si on fait le travail de reconstruction qui nous donnerait une théorie
formelle précise, on peut toujours fournir des interprétations métaphysiques alternatives. Cela peut
être vu comme un aspect d'un problème général d'indétermination : non seulement les théories
physiques sont typiquement indéterminées par l'évidence empirique mais les engagements
ontologiques sont typiquement indéterminés par les théories physiques qu'on adopte.
Si nos théories physiques sont en fait toujours sujettes à interprétation, alors on peut prendre le
débat sur l'ontologie propre de la théorie quantique relativiste des champs comme futile. Bien qu'il
y ait quelque chose de correct dans cette réaction, les considérations métaphysiques ont dans le
passé prouvé l'importance de comprendre et formuler clairement les théories physiques et nous
pourrions certainement utiliser toute la clarté que nous pouvons avoir en trouvant une formulation
satisfaisante de la théorique quantique relativiste des champs. Si on pouvait cuisiner une ontologie
satisfaisante pour une certaine formulation de la théorie quantique relativiste des champs, alors cela
signifierait que la formulation de la théorie pourrait être vue comme une description du monde
physique et dans le contexte de la théorie quantique relativiste des champs, cela serait quelque
chose de nouveau. Ce qui est requit ici n'est pas juste de montrer que la théorie particulière est
logiquement consistante en fournissant un modèle. Ce que nous désirons est de montrer que la
théorie pourrait décrire notre monde physique.
Une des propriétés de notre monde est que nous avons des enregistrements déterminés des mesures.
Nous effectuons des expériences, enregistrons les résultats, puis comparons ces résultats aux
prédictions de nos théories physiques. Les enregistrements des mesures ressortiraient alors quelque
peu dans l'ontologie que nous associons à notre meilleure théorie physique. En effet, sinon pour
l'existence de tels enregistrements, il serait difficile d'expliquer tout simplement la possibilité de la
science empirique.
Nous mentionnons cet aspect de notre monde car l'existence d'enregistrements déterminés est
quelque chose qu'il est difficile d'avoir en mécanique quantique non relativiste et plus difficile
encore en mécanique quantique relativiste. Le problème pour avoir des enregistrements déterminés
est le problème de la mesure quantique sur lequel nous reviendrons.
La métaphysique fait typiquement un travail réel dans les solutions au problème de la mesure
quantique en fournissant le matériel pour expliquer comment est-ce que nous avons des
enregistrements déterminés des mesures. Nous voyons cela dans des solutions au problème de la
mesure quantique en mécanique quantique non relativiste. Dans la théorie de Bohm c'est la position
toujours déterminée des particules qui fournit les enregistrements déterminés des mesures. Dans les
interprétations des mondes multiples, ce sont les faits déterminés dans le monde habité par un
observateur particulier qui détermine le contenu de ce que l'observateur enregistre.
Le point ici est juste qu'en mécanique quantique l'engagement métaphysique doit être sensible à
comment on résout le problème de la mesure. En effet, il nous semble qu'aucune métaphysique
pour la théorie quantique relativiste des champs ne peut être considérée comme satisfaisante si les
enregistrements déterminés des mesures ne ressortent pas dans la description du monde. Dit d'une
autre manière, on doit avoir une solution du problème de la mesure quantique avant d'espérer toute
interprétation spécifique de la théorie quantique relativiste des champs.
III.2.2. Le problème de la mesure
Le problème de la mesure est soulevé en mécanique quantique non relativiste quand on essaie
d'expliquer comment est-ce que nous avons des enregistrements définis des mesures. Si la
dynamique unitaire déterministe (l'équation de Schrödinger dépendant du temps en mécanique
quantique non relativiste) décrit toutes les interactions physiques, alors une mesure devrait
typiquement résulter en une superposition intriquée des résultats mutuellement contradictoires des
enregistrements des appareils de mesure. Si on a un bon appareil de mesure qui commence déjà à
faire une mesure, la dynamique linéaire prédit qu'on devrait typiquement terminer avec quelque
chose comme :
(1) ∑a i pi S
[ pi ] M
C'est un état où (le système mesuré S a la propriété p1 et l'appareil de mesure M enregistrant que le
système mesuré a la propriété p1 ) est superposé avec (le système mesuré S a la propriété p 2 et
l'appareil de mesure M enregistre que le système mesuré a la propriété p 2 ), etc. Et cela ne décrit
clairement pas l'appareil de mesure M comme enregistrant un enregistrement bien défini de mesure.
Ce problème d'indétermination est résolu dans la formulation standard de von Neumann - Dirac de
la mécanique quantique non relativiste en stipulant que l'état du système mesuré se réduit
aléatoirement en un état propre de l'observable mesuré quant on fait une mesure, où la probabilité
de réduction dans l'état p k S
[ pk ] M 2
est a k . C'est cette réduction de l'état qui génère un
enregistrement déterminé de la mesure ( p k S
[ pk ] M est un état où S a la propriété définie p k et
M un enregistrement déterminé que S a la propriété p k ). Mais il est notoirement connu difficile de
fournir une explication de quand et comment la réduction se produit qui ne semble pas ad hoc de
manière flagrante et il est même encore plus dur de fournir une explication qui est consistante avec
la relativité.
S'il n'y a pas de réduction de l'état quantique avec la mesure, alors on peut essayer d'ajouter quelque
chose à l'état quantique habituel qui représente les valeurs des enregistrements physiques bien
définis. Ces variables dites cachées détermineraient la valeur d'un enregistrement déterminé de
mesure même quand l'état quantique habituel représente une superposition intriquée
d'enregistrements incompatibles. Mais il est également peu clair comment décrire l'évolution de ces
composantes supplémentaires de l'état physique d'une manière qui est compatible avec la relativité.
Il y a beaucoup de littérature sur ce sujet qui tente de trouver une version de la théorie de Bohm qui
est compatible avec la relativité ou essayer d'expliquer pourquoi une stricte compatibilité entre les
deux théories n'est pas nécessaire.
C'est un dogme orthodoxe qu'il est seulement possible de réconcilier la mécanique quantique et la
relativité dans le contexte d'une théorie quantique des champs, où les entités fondamentales sont
des champs plutôt que des particules. C'est la position exprimée par exemple par Steven Weinberg
ou David Malament. Bien qu'il puisse y avoir d'autres raisons pour croire que nous avons besoin
d'une théorie des champs afin de réconcilier la mécanique quantique et la relativité (et nous en
considérerons certaines brièvement), la théorie quantique relativiste des champs ne fait rien pour
résoudre le problème de la mesure quantique et il est facile de voir pourquoi.
Le problème ici est analogue au problème qui se pose en mécanique quantique non relativiste. Si
les enregistrements déterminés des mesures sont supposés être représentés par les éléments d'un
certain ensemble de configurations orthogonales des champs, alors il n'y a typiquement pas
d'enregistrement déterminé des mesures puisque (étant donné la dynamique unitaire) l'état du
champ dans une région donnée de l'espace-temps sera typiquement une superposition intriquée des
différents éléments de l'ensemble orthogonal des configurations des champs. Une réduction
appropriée des champs générera une configuration locale déterminée des champs qui peut en retour
représenter un résultat déterminé des mesures, mais une telle évolution de l'état violerait la
dynamique relativiste unitaire. Et, comme cela est habituellement présenté, la théorie quantique
relativiste des champs n'a rien à dire sur les conditions sous laquelle une telle réduction peut se
produire ni sur comment une telle évolution peut être rendue compatible avec la relativité. On peut
essayer d'ajouter de nouveaux paramètres physiques qui représentent la valeur des enregistrements
déterminés des mesures à l'état habituel de la mécanique quantique. Mais la théorie quantique
relativiste des champs n'a rien à dire sur comment faire cela ou comment on peut alors donner une
dynamique compatible avec la relativité pour les nouveaux paramètres physiques. Le fait qu'on
puisse prédire les corrélations statistiques entre les résultats des mesures mais qu'on ne puisse pas
expliquer les résultats déterminés des mesures a conduit certains (Rovelli, Mermin, par exemple) à
en conclure que la théorie quantique relativiste des champs (et plus généralement la mécanique
quantique) prédit des corrélations statistiques sans qu'il y ait quelque chose qui est en fait
statistiquement corrélé - "les corrélations sans correla" L'objection naturelle est que toute les
notions étant des corrélations statistiques entre des enregistrements des mesures nécessite
probablement qu'il y ait des enregistrements déterminés des mesures.
Ainsi, la théorie quantique relativiste des champs ne fait rien pour résoudre le problème de la
mesure. En effet, à cause des contraintes relativistes supplémentaires, l'explication pour des
enregistrements déterminés des mesures est plus difficile que jamais.
Dans ce qui suit, nous expliquerons un autre sens dans lequel la métaphysique de la mécanique
quantique relativiste doit être sensible aux considérations des mesures et pourquoi nous sommes
loin d'avoir une explication claire des mesures en mécanique quantique relativiste.
III.2.3. Théorème de Malament
David Malament (1996) présenta sont théorème contre l'existence d'entités locales dans la défense
du dogme qu'une ontologie des champs (plutôt qu'une ontologie des particules) est appropriée pour
la mécanique quantique relativiste. Le théorème découle de quatre conditions apparemment faibles
que la plus part des physiciens s'attendraient à être satisfaites par la structure qu'on utiliserait pour
représenter l'état d'une seule particule en mécanique quantique relativiste. Si ces conditions sont
satisfaites, alors le théorème implique que la probabilité de trouver la particule dans toute région
spatiale fermée doit être zéro et cela viole probablement l'hypothèse qu'il y a la moindre particule
(détectable) Malament en conclut donc qu'une ontologie particule est inappropriée pour la
mécanique quantique relativiste.
Une version du théorème de Malament peut être prouvée qui s'applique aussi bien aux particules
ponctuelles qu'à des objets étendus. Nous décrirons cette version du théorème sans preuve. La
preuve de cette version du théorème est essentiellement la même que la preuve de Malament. La
seule différence est l'interprétation physique de P∆ . Le théorème de Malament se rattache au
lemme de Borchers. Le compte rendu du théorème ci-dessous et son interprétation physique suit
Malament avec quelques commentaires.
Cette condition stipule que la dynamique est représentée par une famille d'opérateurs unitaires.
Plus précisément, elle dit que le projecteur qui représente la proposition que l'objet sera détecté
dans une région spatiale ∆ + a peut être obtenu par une transformation unitaire qui dépend
seulement de a et du projecteur qui représente la proposition que l'objet soit détecté dans la
région ∆ . Notons que si cette condition est universellement satisfaite, alors il ne peut pas y
avoir de réduction de l'état quantique !
(2) Condition de l'énergie finie.
Pour tout vecteur de type temps vers le futur a dans M, si H (a ) est l'unique opérateur
hermitique satisfaisant
U (t , a ) = exp{− itH (a )}
alors le spectre de H (a ) est borné inférieurement.
Si ∆ 1 et ∆ 2 sont des ensembles spatiaux disjoints dans le même hyperplan, alors les deux
opérateurs de localisation dans ces ensembles commutent et
P∆1 P∆ 2 = P∆ 2 P∆1 = 0̂
où 0̂ est l'opérateur zéro sur H.
Cette condition est supposée capturer l'intuition qu'un seul objet ne peut pas être entièrement
dans deux régions distinctes en même temps (relativement à tout repère inertiel). Cela est
probablement la partie de ce qui voudrait dire qu'il y a juste un objet spatialement étendu.
(4) Condition de localisation générale.
Si ∆ 1 et ∆ 2 sont deux ensembles spatiaux disjoints qui sont reliés spatialement (peut-être pas
dans le même hyperplan !) alors les deux opérateurs de localisation dans ces ensembles
commutent
P∆1 P∆ 2 = P∆ 2 P∆1
La relativité avec ce que cela signifie être un objet nécessite probablement que si un objet est
détecté entièrement dans une région spatiale, alors, puisqu'un objet ne peut pas voyager plus vite
que la lumière, il ne peut pas aussi être détecté être entièrement dans une région disjointe reliée
spatialement dans tout repère inertiel. Si cela est correct, alors on s'attend à ce que ce qui suit soit
valable.
Pour toutes régions spatiales reliées spatialement ∆ 1 et ∆ 2 (pas seulement deux dans le
même hyperplan)
P∆1 P∆ 2 = P∆ 2 P∆1 = 0̂
La condition (*) est beaucoup plus forte que la conjonction des conditions (3) et (4). L'idée derrière
la condition (4) est que même s'il était possible de détecter S entièrement dans deux régions
spatiales distinctes séparées spatialement et si la condition (3) était encore satisfaire (car les deux
détecteurs sont dans des repères inertiels différents et par conséquent ∆ 1 et ∆ 2 ne sont pas dans le
même hyperplan), alors la probabilité de détecter l'objet entièrement dans ∆ 1 sera au moins
statistiquement indépendante de la probabilité de le détecter entièrement dans ∆ 2 . C'est-à-dire
qu'en prouvant le théorème pour les conditions (3) et (4) plutôt que la condition strictement plus
forte (mais très plausible) (*) on autorise la possibilité que la détection de la particule dans une
région particulière de l'espace-temps puisse être dépendante de l'hyperplan. Bien que cela soit
certainement quelque chose que Malament désirait autoriser (car il répondait à la formulation
dépendante de l'hyperplan de Fleming de la mécanique quantique), ce n'est probablement pas une
possibilité qui inquiéterait la plus part des physiciens. Si c'est vrai, alors on peut parfaitement
remplacer les conditions (3) et (4) par la condition (*).
Le théorème est que si les conditions (1) à (4) sont satisfaites (ou les conditions (1), (2) et (*)),
alors P∆ = 0̂ pour tout ensemble spatial fermé ∆ . Cela signifie que les seuls objets étendus
possibles (ou, peut-être mieux, les seuls objets étendus détectables possibles) sont ceux avec une
extension infinie. Et cette conclusion est prise en faveur d'une ontologie des champs. Elle peut aussi
avoir de curieuses implications pour la nature de l'enregistrement des mesures en mécanique
quantique relativiste. Ou peut-être qu'avoir des enregistrements déterminés des mesures en
mécanique quantique relativiste nécessite de violer une ou plusieurs de ces quatre conditions qui
rendent le théorème possible.
III.2.4. Enregistrement des mesures
Dans le sens le plus large, une bonne mesure consiste à corréler l'état d'un enregistrement avec la
propriété qui est mesurée. Le but est de produire une détection fiable et un enregistrement stable.
Cela peut être fait en terme de marqueurs d'encre sur du papier, la position finale de l'aiguille sur un
dispositif de mesure, l'état biochimique du cerveau d'un observateur ou l'arrangement des
mégalithes sur la plaine de Salisbury, mais quel que soit le médium, les enregistrements utiles des
mesures doivent être détectables (tel qu'on peut connaître la valeur de l'enregistrement), fiables (tel
qu'on peut correctement en déduire la valeur de la propriété physique que l'on désire mesurer) et
stables (tel qu'on peut faire des déductions fiables concernant l'état physique à différents moments).
De tels enregistrements de mesures fournissent l'évidence sur laquelle la science empirique est
fondée.
Considérons l'expérience simple suivante où nous testons notre habilité à frapper avec une main.
Cette expérience implique, comme pour tout, une mesure.
Le temps que cela nous prend pour taper cette phrase à une main (car nous tenons un chronomètre
dans l'autre main) jusqu'aux deux-points suivant : 41.29 secondes.
Nous sommes en effet un lent dactylographe, mais ce n'est pas la question. L'important est que nous
avons mesuré puis enregistré combien de temps cela nous a pris pour taper le fragment de phrase
ci-dessus à une main, et comme nous avons un enregistrement témoin déterminé, détectable, fiable
et stable, nous savons combien de temps cela nous prend pour taper le fragment de phrase et vous
aussi si vous avez interagit avec l'enregistrement témoin de mesure ci-dessus d'une manière
appropriée.
Le problème avec cela est que le théorème de Malament nous dit qu'il ne peut y avoir un tel
opérateur de détection de l'enregistrement. Plus spécifiquement, il nous dit que R∆ = 0̂ pour tout
ensemble fermé ∆ , ce qui signifie que la probabilité de trouver l'enregistrement témoin dans la
zone spatiale S est zéro. En effet, la probabilité de trouver l'enregistrement témoin (ci-dessus !?)
quelque part est zéro. Mais comment cela peut être s'il n'y a pas d'enregistrement témoin du tout ?
Et s'il n'y a pas d'enregistrement témoin détectable, alors comment pouvez-vous et moi savoir le
résultat de ma mesure de vitesse de frappe comme nous l'avons probablement fait ?
Une réaction naturelle serait de rejeter l'hypothèse qu'un enregistrement témoin détectable est une
entité détectable qui occupe une région spatiale finie et insister pour qu'en mécanique quantique
relativiste des champs on devrait s'attendre à ce que tout enregistrement témoin déterminé soit
représenté par la configuration déterminée d'un certain champ non borné. Remercions Rob Clifton
pour sa défense de cette ligne d'argument éminemment raisonnable. Après tout, cela est
probablement de cette manière que les enregistrements devraient être représentés dans toute théorie
des champs. Un enregistrement déterminé de mesure ne pourrait-il pas être représenté, disons, dans
la configuration locale d'un champ non borné ? Bien sûr, mais il y a quelques problèmes que l'on
devrait encore résoudre afin d'avoir une explication satisfaisante des enregistrements déterminés de
mesure.
Un problème, bien sûr, est l'ancien. Etant donné la dynamique unitaire et l'interprétation standard
des états, la mécanique quantique relativiste des champs ne prédirait pas typiquement une
configuration locale déterminée des champs dans une région spatio-temporelle. Mais mettons le
problème traditionnel de la mesure de coté pour le moment et supposons que nous puissions
concocter une certaine formulation de la théorie où on a typiquement des configurations
déterminées locales des champs à la fin de la mesure.
Si on pouvait avoir d'une certaine manière des configurations déterminées locales des champs qui
sont corrélés de manière appropriée, alors on pourrait expliquer comment il est possible pour nous
de connaître notre vitesse de frappe en stipulant que notre état mental correspond à la valeur
déterminée d'une certaine quantité du champ dans une certaine région spatiale déterminée qui, en
retour, est fiablement corrélée avec notre vitesse de frappe. Ainsi, non seulement il est possible
pour une configuration locale des champs de représenter un résultat déterminé de mesure mais on
peut expliquer comment il est possible pour un observateur de connaître la valeur de
l'enregistrement en stipulant une relation appropriée entre les états mentaux et physiques. Que
pourrait-on désirer de plus ?
Il nous semble qu'on pourrait ultimement désirer expliquer comment notre mesure réelle peut
conduire à des enregistrements déterminés. Mais pour faire cela, on a besoin d'une explication de
l'enregistrement de mesure qui donne un sens aux expériences que nous effectuons en fait et le
problème est que nos enregistrements semblent être des choses spatio-temporelles. Ils semblent être
la sorte de chose qui ont une localisation. La sorte de chose qu'on peut trouver, perdre et déplacer
d'une place à l'autre. En effet, nous utilisons leurs propriétés spatio-temporelles pour individualiser
nos enregistrements. Afin de savoir à quelle vitesse nous tapons la phrase, nous devons être
capables de trouver le bon enregistrement et cela implique (apparemment) de le rechercher à la
bonne place. Il semble que lorsque nous savons où sont nos enregistrements, et cela est bien car,
étant donné la manière dont nous individualisons nos enregistrements, on doit savoir où est un
enregistrement afin de le lire et de savoir ce qu'on lit ! C'est juste un point sur notre pratique
expérimentale et nos conventions.
Ainsi il semble que nos enregistrements réels sont en fait détectables dans une région spatio-
temporelle particulière. Mais si c'est vrai, alors il doit y avoir des opérateurs de "détection d'un
enregistrement à un endroit" R∆ qui représentent la proposition qu'il y a un enregistrement dans la
région ∆ . Et s'ils sont sujet au théorème de Malament, alors nous avons une énigme : ils ne peuvent
apparemment pas être des enregistrements détectables du type que nous considérons avoir.
Cela est particulièrement énigmatique quand on considère le type d'enregistrement qu'est supposé
fournir le support de la théorie quantique relativiste des champs elle-même. Ces enregistrements
sont supposés inclure des choses telle que des photographies de trajectoires des particules
fondamentales, mais s'il n'y a pas d'entités spatio-temporelles détectables alors comment pourrait-il
y avoir un enregistrement photographique des trajectoires avec une forme détectable ? La forme de
la trajectoire est supposée représenter l'évidence empirique que l'on a, mais il semble, au moins au
premier abord, qu'il ne peut pas y avoir d'entité détectable qui ont des formes déterminées étant
donné le théorème de Malament.
Bien que le théorème de Malament n'interdise pas à une entité d'avoir une position déterminée, il
semble interdire quelque chose d'avoir une position détectable. Mais les positions détectables sont
justement ce que nos enregistrements ont apparemment : ils sont typiquement individualisés par la
position, ainsi on doit être capable de trouver un enregistrement à une position pour le lire et savoir
ce qu'on lit et, étant donné nos pratiques et conventions, les enregistrements eux-mêmes sont
typiquement supposés être fait en termes de position ou de forme détectable de quelque chose.
On peut affirmer qu'on n'a pas besoin de savoir où est l'enregistrement afin d'obtenir les
corrélations appropriées afin de lire l'enregistrement ou qu'on peut savoir où est l'enregistrement et
donc obtenir les corrélations appropriées pour lire l'enregistrement sans que la position de
l'enregistrement lui-même soit détectable. Et bien qu'on puisse facilement voir comment chacune
de ces lignes d'argument marcherait, il nous semble que c'est notre pratique réelle qui rend
ultimement de tels arguments non plausibles. Si nous oublions qu'elle était notre vitesse de frappe,
alors nous avons besoin de trouver un enregistrement stable fiable et étant donné la manière dont
nous l'avons enregistré et la manière dont nous individualisons nos enregistrements, afin d'en
trouver un nous devons faire une série d'observations de détection de position : c'est seulement si
nous pouvons trouver où l'enregistrement témoin est que nous pouvons alors déterminer ce qu'il est.
La situation est rendue encore plus énigmatique par le fait que nous utilisons aussi pour traiter les
observateurs eux-mêmes comme des entités localisables afin d'avoir des prédictions empiriques
spécifiques de nos théories physiques. Considérons, par exemple, Galilée comparant le mouvement
des planètes avec les prédictions théoriques. Que lui, l'observateur, a une position relative
spécifiable est nécessaire pour que la théorie fasse des prédictions empiriques et sans comparer de
telles prédictions à ce qu'il voit réellement, il ne serait jamais capable de juger des mérites
empiriques de la théorie. La localisation qu'occupe un observateur fournit à l'observateur la
perspective spatio-temporelle que nous utilisons pour expliquer pourquoi le monde apparaît de la
manière qu'il le fait à cet observateur et pas de la manière qu'il peut le faire à un autre. Nous
utilisons aussi le fait qu'un observateur occupe une localisation pour expliquer pourquoi sa
connaissance empirique a des contraintes spatio-temporelles. Si nous sommes représentés dans la
configuration d'un champ relativiste non borné, alors pourquoi est-ce nous ne connaissons pas ce
qui se passe actuellement autour d'alpha de centaure (dans notre repère inertiel - quoi qu'il puisse
être si nous n'avons pas une position totalement déterminée) ? Après tout, sur cette représentation
de nous, nous serions là maintenant. Ou, pour cette raison, pourquoi ne saurions-nous pas ce qui se
passera ici dans deux minutes ?
Mais il se pourrait bien qu'aucune de ces possibilités ne soit valide après tout. Le problème réel,
celui dont la solution des autres doit dépendre est celui que nous avons mit de coté au début de
cette section.
Bien que les théorèmes comme celui de Malament puissent être pertinents pour la morale
métaphysique qu'on devrait tirer de la mécanique quantique relativiste, que de tels théorèmes soient
valables ou pas est en soit contingent de comment résoudre le problème de la mesure quantique.
Une formulation avec réduction de la mécanique quantique, par exemple, violerait typiquement la
première condition : la condition de covariance par translation de la dynamique est une hypothèse
concernant comment les états physiques dans différentes régions de l'espace-temps sont reliés et
cela est incompatible avec la réduction de l'état quantique avec la mesure. Mais si nous pouvons
devoir violer l'hypothèse apparemment faible et évidente qui est utilisée pour prouver le théorème
de Malament afin d'avoir une solution satisfaisante du problème de la mesure, alors tous les paris
sont annulés concernant l'applicabilité du théorème des entités détectables qui habitent notre
monde. La possibilité de devoir violer une telle condition peut être prise pour illustrer combien il
est difficile de résoudre le problème de la mesure et satisfaire les contraintes relativistes.
Le résultat est que nous sommes très clairement revenus d'où nous sommes partis : on ne peut pas
espérer une conclusion métaphysique spécifique en théorie quantique relativiste des champs sans
une solution au problème de la mesure quantique et nous avons toutes les raisons de supposer que
les contraintes imposées par la relativité rendront plus difficile que jamais de trouver une solution
satisfaisante.
III.2.5. Conclusions
Une résolution adéquate du problème de la mesure quantique expliquerait comment il se fait que
nous avons des enregistrements déterminés de mesure. Il a été prouvé difficile de trouver une
résolution satisfaisante au problème de la mesure dans le contexte de la mécanique quantique non
relativiste et la mécanique quantique relativiste ne fait rien pour rendre la tâche plus facile. En effet,
les contraintes imposées par la relativité rendent encore plus difficile comment terminer avec des
enregistrements physiques déterminés, détectables.
Puisqu'un engagement ontologique fait typiquement le travail dans les résolutions proposées au
problème de la mesure quantique en mécanique quantique non relativiste, il serait erroné de croire
arriver à des conclusions concernant l'ontologie correcte de la théorie quantique relativiste des
champs sans une résolution particulière du problème de la mesure à l'esprit. Ce point est rendu clair
par le fait qu'on ne peut même pas savoir si les théorèmes négatifs des entités dites locales sont
pertinent pour la théorie si on ne sait pas quoi faire du problème de la mesure quantique.
IV. Logique quantique
Dans son cœur, la mécanique quantique peut être vue comme un calcul de probabilité non classique
reposant sur une logique des propositions non classique. Plus spécifiquement, en mécanique
quantique, chaque proposition, portant une probabilité, de la forme "la valeur de la quantité
physique A est dans le domaine B" est représentée par un opérateur projection sur un espace de
Hilbert H. Cela forme un réseau orthocomplémenté booléen, en particulier, non distributif. Les
états de la mécanique quantique correspondent exactement aux mesures de probabilité (définies de
manière appropriée) sur ce réseau.
Qu'allons nous faire de cela ? Certains ont affirmé que le succès empirique de la mécanique
quantique nous appelle à une révolution de la logique elle-même. Ce point de vue est associé avec
la demande d'une interprétation réaliste de la mécanique quantique, c'est-à-dire une interprétation
non fondée sur toute notion primitive de mesure. Contre cela, il y a une longue tradition
d'interprétation opérationnelle de la mécanique quantique, c'est-à-dire comme étant précisément
une théorie de la mesure. Selon ce dernier point de vue, il n'est pas surprenant qu'une "logique" des
résultats des mesures, dans un système où toutes les mesures ne sont pas compatibles, puisse être
prouvée non booléenne. En réalité, le mystère est pourquoi doit-elle avoir la structure non
booléenne particulière qu'elle a en mécanique quantique ? Une littérature substantielle a grandit
autour du programme de donner une certaine motivation indépendante pour cette structure,
idéalement, en la dérivant d'axiomes plus primitifs et plausibles gouvernant une théorie des
probabilités généralisée.
IV.1. La mécanique quantique comme un calcul des probabilités
Il est indubitable (bien que remarquable) que l'appareil formel de la mécanique quantique se réduit
proprement à une généralisation des probabilités classiques dans laquelle le rôle joué par l'algèbre
booléenne d'événements dans cette dernière est remplacé par la "logique quantique" des opérateurs
projections sur un espace de Hilbert. De plus, l'interprétation statistique habituelle de la mécanique
quantique nous demande assez littéralement cette théorie des probabilités quantiques généralisée -
c'est-à-dire pas simplement comme un analogue formel de sa contrepartie classique mais comme
une doctrine véritable des chances. Ici, nous examinerons cette théorie des probabilités quantiques
et sa logique quantique de support.
Pour une plus grande connaissance sur les ensembles ordonnés et les réseaux, nous renvoyons à la
section IV.8 ou nous donnons un complément mathématique nécessaire à leur compréhension. Les
espaces de Hilbert sont supposés connus. Les concepts et résultats expliqués dans cette section
seront utilisés librement dans ce qui suit.
...la relation entre les propriétés d'un système physique d'un coté et les projecteurs de l'autre,
rendent possible une sorte de calcul logique avec eux. Cependant, par contraste avec les concepts
de la logique ordinaire, ce système est étendu par le concept de "décidabilité simultanée" qui est
caractéristique de la mécanique quantique.
[1932, p.253].
Examinons ce "calcul logique" des projecteurs. Ordonné par l'inclusion des ensembles, les sous-
espaces fermés de H forment un réseau complet dans lequel la conjonction (la plus grande borne
supérieure) d'un ensemble de sous-espaces est leur intersection tandis que leur disjonction (la plus
petite borne supérieure) est l'espace généré par leur union. Puisqu'un sous-espace fermé typique a
une infinité de sous-espaces fermés complémentaires, ce réseau n'est pas distributif; cependant, il
est orthocomplémenté par l'application
(1) M → M ⊥ = {v ∈ H | ∀uM ( v, u = 0)}
En vue de la bijection mentionnée ci-dessus entre les espaces fermés et les projecteurs, nous
pouvons imposer sur l'ensemble L(H ) la structure d'un réseau complet orthocomplémenté en
définissant P ≤ Q , où ran(P ) ⊆ ran(Q ) et P ′ = 1 − P (tel que ran(P ′) = ran(P ) ). Il est immédiat
⊥
En adhérant à l'idée que les observables commutant, en particulier les projecteurs, sont
simultanément mesurables, nous en concluons que les membres de "blocs" booléens (c'est-à-dire un
sous-orthoréseau booléen) de L(H ) sont simultanément testables. Cela suggère que nous pouvons
maintenir une interprétation logique classique de leur conjonction, disjonction et orthocomplément
appliqués aux projecteurs commutants.
1.2 Définition
Une mesure de probabilité (dénombrablement additive) sur L(H ) est une application µ : L → [0,1]
telle que µ (1) = 1 et pour toute séquence de paires de projecteurs orthogonaux Pi , i = 1, 2,...
µ (⊕ i Pi ) = ∑ µ (Pi ) .
i
Voici une manière avec laquelle nous pouvons construire une mesure de probabilité sur L(H ) . Soit
u un vecteur unité de H et posons µ u (P ) = Pu, u . Cela donne la recette habituelle de la
mécanique quantique pour la probabilité que P aie la valeur 1 dans l'état u. Notez que nous pouvons
aussi exprimer µ u comme µ u (P ) = Tr (PPu ) où Pu est le projecteur à une dimension associé au
vecteur unité u.
Plus généralement, si µ i , i = 1, 2, ... sont des mesures de probabilité sur L(H ) , alors également
toute "mixture" ou combinaison convexe µ = ∑ t i µ i où 0 ≤ t i ≤ 1 et ∑t i = 1 . Etant donné une
i i
Un opérateur qu'on peut exprimer de cette manière comme une combinaison convexe de
projecteurs à une dimension est appelé un opérateur densité. Donc, tout opérateur densité W
conduit à une mesure de probabilité additive sur L(H ) . Le strict inverse suivant dû à A. Gleason
[1957] montre que la théorie des mesures de probabilité sur L(H ) est co-extensive avec la théorie
des états (mixtes) de la mécanique quantique sur H :
1.3.Théorème de Gleason
Soit H de dimension supérieure à 2. Alors toute mesure de probabilité additive sur L(H ) a la forme
µ (P ) = Tr (WP ) pour un opérateur densité sur H.
Une conséquence importante du théorème de Gleason est que L(H ) n'admet pas de mesure de
probabilité ayant seulement les valeurs 0 et 1. Pour le voir, notons que pour tout opérateur densité
W, l'application u → W , u est continue sur la sphère unité de H. Mais puisque cette dernière est
connexe, aucune fonction continue de peut prendre seulement les valeurs 0 et 1. Ce résultat est
parfois utilisé pour exclure la possibilité des "variables cachées", comme nous l'avons vu.
Une lecture possible de (*) est opérationnelle : "la mesure de l'observable A conduirait (ou conduira
ou a conduit) à une valeur dans l'ensemble B". De ce point de vue, les projecteurs représentent des
affirmations sur les résultats possibles des mesures. Cela s'accorde assez mal avec le réalisme de
certains qui, esquivant la référence à la "mesure", préfèrent comprendre (*) comme une attribution
de propriété : "le système a une certaine propriété catégorie qui correspond à l'observable A ayant,
indépendamment de toute mesure, une valeur dans l'ensemble B". On doit cependant être prudent
sur la manière de comprendre cette dernière phrase : interprétée sans précaution, elle semble poser
une interprétation à variables cachées de la mécanique quantique du type exclu par le théorème de
Gleason.
Tandis que les logiciens ont habituellement supposé ces propriétés... de négation où les
dernier capables de résister à une analyse critique, l'étude de la mécanique indique les
identités distributives... comme le lien le plus faible de l'algèbre de la logique.
[1937, P.839]
Dans les années 60 et au début des années 70, cette thèse fut avancée plus agressivement par
certains auteurs incluant particulièrement David Finkelstein et Hilary Putnam qui ont affirmé que la
mécanique quantique nécessite une révolution de notre compréhension de la logique, de fait. Selon
Putnam [1968], "la logique est aussi empirique que la géométrie... Nous vivons dans un monde
avec une logique non classique."
Pour Putnam, les éléments de L(H ) représentent les propriétés catégories qu'un objet possède ou
non indépendamment de si nous le regardons ou pas. D'autant plus que cette image des propriétés
physiques est confirmée par le succès empirique de la mécanique quantique, nous devons, selon
cette vue, accepter que la manière avec laquelle les propriétés physiques s'unissent n'est pas
booléenne. Puisque la logique est, pour Putnam, essentiellement l'étude de comment les propriétés
physiques s'unissent, il en conclut que la logique classique est simplement erronée : la loi
distributive n'est pas universellement valide.
Classiquement, si S est l'ensemble des états d'un système physique, alors tout sous-ensemble de S
correspond à une propriété catégorie du système et vice versa. En mécanique quantique, l'espace
d'état est la sphère unité (projective) S = S (H ) d'un espace de Hilbert. Cependant, tous les sous-
ensembles de S ne correspondent pas à des propriétés de la mécanique quantique du système. Ces
dernières correspondent seulement aux sous-ensembles de la forme particulière S ∩ M pour M un
sous-espace linéaire fermé de H. En particulier, seuls les sous-ensembles de cette forme ont des
probabilités attribuées. Cela nous laisse deux positions. Une est de prendre seulement ces propriétés
particulières comme "réelles" (ou "physique" ou "significatives") en voyant les sous-ensembles
plus généraux de S comme ne correspondant pas du tout à des propriétés catégories réelles. L'autre
est de voir les propriétés "quantiques" comme un petit sous-ensemble de l'ensemble de toutes les
propriétés raisonnables physiques (ou tout au moins métaphysiques) mais pas nécessairement
observables du système. Selon cette dernière vue, l'ensemble de toutes les propriétés d'un système
physique est entièrement classique dans sa structure logique mais nous déclinons d'attribuer des
probabilités aux propriétés non observables.
La seconde position bien que certainement non inconsistante avec le réalisme fait une distinction
impliquant une notion "d'observation", de "mesure", de "test" ou quelque chose de cette sorte, une
notion que les réalistes ont souvent de la peine à éviter en relation avec la théorie physique
fondamentale. Bien sûr, toute description réaliste d'une théorie physique statistique telle que la
mécanique quantique devra finir par donner certaines explications de comment les mesures sont
supposées se passer. C'est-à-dire qu'elle donnera une description de quelles interactions physiques
entre "objets" et "sondes" sont des mesures et comment ces interactions provoquent l'évolution de
la sonde dans un "état de résultat" final qui correspond à, et a les mêmes probabilités, que les
résultats prédits par la théorie. C'est le célèbre problème de la mesure.
En fait, Putnam avança sa version du réalisme logique quantique comme offrant une dissolution
(radicale) du problème de la mesure : selon Putnam, le problème de la mesure (et en effet tout autre
"paradoxe" de la mécanique quantique) vient d'une application impropre de la loi distributive et
donc disparaît une fois que cela est reconnu. Cette proposition, cependant, est largement considérée
comme erronée.
Comme mentionné ci-dessus, les interprétations réalistes de la mécanique quantique doivent être
prudentes sur comment comprendre la phrase "l'observable A a une valeur dans l'ensemble B". La
proposition la plus simple et la plus traditionnelle, souvent traduite "le lien état propre - valeur
propre" (Fine, 1973), est que (*) est valable si et seulement si une mesure de A donne une valeur
dans l'ensemble B avec certitude, c'est-à-dire avec une probabilité (quantique !) 1. Bien que cette
certitude donne une interprétation réaliste de (*), elle ne fournit pas une solution au problème de la
mesure. En effet, nous pouvons l'utiliser pour donner une formulation précise de ce problème :
même si A conduit avec certitude à une valeur dans B quand elle est mesurée, à moins que l'état
quantique soit un état propre de l'observable A mesuré, le système ne possède aucune propriété
catégorie correspondant à une valeur spécifique de A dans l'ensemble B. Putnam semble supposer
qu'une interprétation réaliste de (*) consisterait à assigner à A une certaine valeur inconnue dans B
pour laquelle la mécanique quantique conduit à une probabilité non triviale. Cependant, une
tentative pour faire de telles assignations simultanément pour tous les observables est écartée par le
théorème de Gleason.
Cela est difficilement le dernier mot. En ayant accepté ce qui précède, il reste encore la question de
pourquoi la logique des résultats de mesure devrait avoir la forme très particulière L(H ) et jamais
quelque chose de plus général. Cette question entretient l'idée que la structure formelle de la
mécanique quantique peut être déterminée de manière unique par un petit nombre d'hypothèses
raisonnables, ainsi que peut-être avec certaines régularités manifestes dans les phénomènes
observés. Cette possibilité est déjà présente dans le Grundlagen de von Neumann (et aussi dans sont
travail ultérieur en géométrie continue), mais devient pour la première fois explicite, et
programmatique, dans le travail de Georges Mackey [1957, 1963]. Mackey présente une séquence
de six axiomes, encadrant une théorie des probabilités généralisée très conservative qui est à la base
de la construction d'une "logique" des propositions expérimentales ou, dans sa terminologie, ayant
la structure d'un ensemble partiellement ordonné σ -orthomodulaire. Le problème marquant, pour
Mackey, était d'expliquer pourquoi cet ensemble partiellement ordonné doit être isomorphe à L(H )
:
Presque tout la mécanique quantique moderne est basée implicitement ou explicitement sur
l'hypothèse suivante que nous établirons comme un axiome :
Cet axiome a un caractère assez différent des axiomes I à VI. Ils ont tous un certain degré
de naturel physique et de plausibilité. L'axiome VII semble entièrement ad hoc. Idéalement,
on aimerait avoir une liste d'hypothèses physiquement plausibles dont on pourrait déduire
l'axiome VII. En bref, on aimerait une liste à partir de laquelle on pourrait déduire un
ensemble de possibilités pour la structure.... toutes sauf une serait montrée inconsistante
avec des expériences appropriées.
[19, p.71-72].
Depuis l'article de Mackey, il y a une littérature technique extensive croissante explorant les
variantes de ce cadre axiomatique dans un effort de fournir l'hypothèse manquante.
IV.3. Théorie des probabilités généralisée
Plutôt que de reformuler les axiomes de Mackey, nous le paraphraserons dans le contexte d'une
approche de la théorie des probabilités généralisée due à D.J. Foulis et C.H. Randall ayant, parmi
les approches plus ou moins homogènes disponibles, certains avantages de simplicité et flexibilité.
Notons que l'ensemble ∆(E ) de tous les poids probabilités sur E est convexe, c'est-à-dire qu'étant
donné toute séquence ω1 , ω 2 de poids de probabilité et toute séquence t1 , t 2 ,… de nombres réels
non négatifs de somme égale à 1, la somme convexe ou "mixture" t1ω1 + t 2ω 2 + L est à nouveau
un poids de probabilité. Les points extrêmes de cet ensemble convexe sont exactement les "masses
ponctuelles" δ ( x ) associées avec les résultats x ∈ E :
(1) δ ( x ) y = 1 si x = y et 0 autrement.
Donc ∆(E ) est un simplexe : chaque point ω ∈ ∆(E ) est représentable de manière unique comme
une combinaison convexe des points extrêmes, c'est-à-dire
(2) ω = ∑ ω ( x )δ ( x )
Nous avons aussi besoin de rappeler le concept de variable aléatoire. Si E est un ensemble résultat
et V un certain ensemble de "valeurs" (nombres réels ou autre), une variable aléatoire à valeur dans
V est simplement une application f : E → V . L'heuristique (mais il n'y a pas besoin de la prendre
comme ça) est qu'on "mesure" une variable aléatoire f en "effectuant" l'expérience représentée par
E et en obtenant le résultat x ∈ E , enregistrant f ( x ) comme la valeur mesurée. Notez que si V est
un ensemble de nombres réels ou plus généralement un sous-ensemble d'un espace vectoriel, nous
pouvons définir la valeur moyenne de f dans un état ω ∈ ∆(E ) par :
(3) E ( f , ω ) = ∑ f (x )ω ( x )
x∈E
Espaces de tests
Une direction très naturelle vers laquelle généraliser la théorie classique discrète des probabilités
est d'autoriser la multiplicité des ensembles de résultat, chacun représentant une "expérience"
différente. Pour le formaliser, définissons un espace de tests comme une collection non vide A
d'ensembles non vides E, F,... chacun construit comme un ensemble de résultats discrets comme
dans la théorie classique des probabilités. Chaque ensemble E ∈ A est appelé un test. L'ensemble
X = ∪ A de tous les résultats de tous les tests appartenant à A est appelé l'espace des résultats de
A . Notez que nous autorisons des tests distincts à se chevaucher, c'est-à-dire avoir des résultats en
commun.
Si A est un espace de tests avec un espace de résultats X, un état sur A est une application
ω : X → [0,1] telle que ∑ ω ( x ) = 1 pour tout test E ∈ A . Donc, un état est une attribution
x∈E
consistante d'un poids de probabilité à chaque test, consistant en ce que si deux tests partagent un
résultat commun, l'état assigne à ce résultat la même probabilité qu'il soit obtenu comme le résultat
d'un test ou de l'autre (cette manière peut être vue comme une nécessité normative sur
l'identification des résultats implicite dans la structure de A : si les résultats de deux tests ne sont
pas équiprobables dans tous les états, ils ne devraient pas être identifiés). L'ensemble de tous les
états sur A est noté ω ( A ) . C'est un ensemble convexe mais par contraste avec la situation en
théorie classique discrète des probabilités, ce n'est généralement pas un simplexe.
Le concept de variable aléatoire admet plusieurs généralisations dans le cas des espaces tests.
Définissons une variable aléatoire simple (à valeurs réelles) sur un espace de tests A comme une
application f : E → R où E est un test dans A . Nous définissons la valeur moyenne de f dans un
état ω ∈ ω ( A ) de la manière évidente, c'est-à-dire comme la valeur moyenne de f par rapport au
poids de probabilité obtenu en restreignant ω à E (pourvu, bien sûr, que cette valeur moyenne
existe). On peut continuer et définir des classes plus générales de variables aléatoires en prenant des
limites adéquates (pour les détails, voir [Younce, 1987]).
Nous allons indiquer maintenant comment ce cadre peut s'accommoder à la fois du formalisme
habituel de la théorie de la mesure de la théorie classique des probabilités et du formalisme de
l'espace de Hilbert de la théorie des probabilités quantiques.
Le théorème de Gleason peut maintenant être invoqué pour identifier les états sur A avec les
opérateurs densité sur H : à chaque état ω dans ω ( A H ) correspond un unique opérateur densité W
tel que, pour tout vecteur unité x de H, ω (x ) = Wx, x Tr (WPx ) , Px étant le projecteur à une
dimension associé à x. Inversement, bien sûr, tout opérateur densité de ce type défini un état unique
par la formule ci-dessus. Nous pouvons aussi représenter de simples variables aléatoires à valeurs
réelles par des opérateurs. Chaque variable aléatoire simple f bornée conduit à un opérateur
hermitique borné Z = ∑ f (x )Px . Le théorème spectral nous dit que tout opérateur hermitique sur
x∈E
H peut être obtenu en prenant la limite appropriée d'opérateurs de cette forme.
IV.4. Logiques associées à des modèles probabilistes
A tout modèle statistique ( A , ∆ ) est associé plusieurs ensembles partiellement ordonnés, chacun
ayant certaines affirmations pour le statut d'une "logique empirique" associée au modèle. Dans cette
section, nous en discuterons de deux : la logique dite opérationnelle Π ( A ) et le réseau de
propriétés L( A , ∆ ) . Sous des conditions relativement bénignes sur A , le premier est une
orthoalgèbre. Le deuxième est toujours un réseau complet et, sous des hypothèses supplémentaires
plausibles, atomique. De plus, il y a un ordre naturel préservant l'application de Π sur L. Ce n'est
pas généralement un isomorphisme d'ordre mais quand il l'est nous obtenons un réseau
orthomodulaire complet et donc nous rapprochons du réseau de projecteurs d'un espace de Hilbert.
Logiques opérationnelles
Si A est un espace de tests, un A -événement est un ensemble de A -résultats qui est contenu dans
un certain test. En d'autres mots, un A -événement est simplement un événement dans le sens
classique pour un des tests compris dans A . Maintenant, si a et b sont deux A -événements, nous
disons que a et b sont orthogonaux, et nous écrivons a⊥b , s'ils sont disjoints et que leur union est
aussi un événement. Nous disons que deux événements a et b sont complémentaires l'un de l'autre
si leur union est un test. Nous disons que deux événements a et b sont des perspectives et nous
écrivons a~b, s'ils partagent un complément commun (notons que deux tests E et F sont des
perpectives puisqu'ils sont tous les deux complémentaires à l'événement vide).
4.1. Définition
Un espace de tests A est dit algébrique si pour tout événements a, b, c de A, a~b et b⊥c implique
a⊥c .
Bien qu'il soit possible de construire des exemples parfaitement plausibles d'espaces de tests qui
soient non algébrique, la plus part des espaces de tests qu'on rencontre "dans la nature", incluant les
espaces de tests de Borel et quantique décrit dans la section précédente, semblent jouir de cette
propriété. Le point le plus important est que, en tant qu'axiome, l'algébricité est relativement
bénigne dans le sens que beaucoup d'espaces tests peuvent être "complétés" pour devenir
algébriques. En particulier, si tout résultat a une probabilité plus grande que 0.5, dans au moins un
des états, alors A est contenu dans un espace de tests algébriques B ayant les mêmes résultats et
les mêmes états que A (voir [Gudder, 1985] pour les détails).
Supposons maintenant que A soit algébrique. Il est facile de voir que la relation ~ de perspective
est alors une relation d'équivalence sur l'ensemble des A -événements. Plus encore, si A est
algébrique, alors ~ est une congruence pour l'opération binaire partielle de formation des unions des
événements orthogonaux : en d'autres mots, a~b et b⊥c impliquent que a ∪ c ~ b ∪ c pour tous les
A -événements a, b et c.
Soit Π ( A ) l'ensemble des classes d'équivalences des A -événements sous la perspective et notons
la classe d'équivalence d'un événement a par p(a ) . Nous avons alors une opération binaire partielle
naturelle sur Π ( A ) définie par p(a ) ⊕ p(b ) = p(a ∪ b ) pour des événements orthogonaux a et b. En
posant 0 ≡ p(∅ ) et 1 ≡ p(E ) , E un élément de A , nous obtenons une structure algébrique partielle
(Π ( A ),⊕,0,1) appelée la logique de A . Elle satisfait les conditions suivantes :
a. ⊕ est associatif et commutatif
- Si a ⊕ (b ⊕ c ) est défini, alors également (a ⊕ b ) ⊕ c et les deux sont égaux
- si a ⊕ b est défini, alors aussi b ⊕ a et les deux sont égaux
b. 0 ⊕ a = a pour tout a ∈ L
c. Pour tout a ∈ L , il existe un unique a ′ ∈ L avec a ⊕ a ′ = 1
d. a ⊕ a existe seulement si a = 0
4.2. Définition
Une structure (L,⊕,0,1) satisfaisant les conditions (a) à (d) ci-dessus est appelée une orthoalgèbre.
Donc, la logique d'un espace de tests algébrique est une orthoalgèbre. On peut montrer que,
inversement, toute orthoalgèbre résulte de la logique Π ( A ) d'un espace de tests algébrique A
(Golfin [1988]). Notez que des espaces de tests non isomorphes peuvent avoir des logiques
isomorphes.
Orthocohérence
Toute orthoalgèbre L est partiellement ordonnée par la relation a ≤ b si et seulement si
b = a ⊕ c pour un certain c⊥a . Relativement à cet ordre, l'application a → a ′ est une
orthocomplémentation et a⊥b si et seulement si a ≤ b ′ . Il peut être montré que a ⊕ b est toujours
une borne supérieure minimale pour a et b, mais elle n'est généralement pas la plus petite borne
supérieure. En effet, nous avons ce qui suit :
4.3. Lemme :
Pour une orthoalgèbre (L,⊕,0,1) , ce qui suit est équivalent.
a. a ⊕ b = a ∨ b pour tout a, b dans L.
b. Si a ⊕ b , b ⊕ c et c ⊕ a existent, alors également a ⊕ b ⊕ c
c. L'orthoensemble partiellement ordonné (L, ≤, ') est orthomodulaire, c'est-à-dire que pour tout
a, b ∈ L , si a ≤ b alors (b ∧ a ′) ∨ a ′ existe et est égal à b.
Une orthoalgèbre satisfaisant la condition (b) est dite orthocohérente. En d'autres mots : une
orthoalgèbre est orthocohérente si et seulement si les sous-ensembles finis sommables de paires
sont disjonction sommables. Le lemme nous dit que toute orthoalgèbre orthocohérente est
automatiquement un ensemble partiellement ordonné orthomodulaire. Inversement, un ensemble
partiellement ordonné orthocomplémenté est orthomodulaire si et seulement si a ⊕ b = a ∨ b est
défini pour toutes les paires avec a ≤ b ′ et l'opération binaire partielle résultante est associative,
auquel cas la structure résultante (L,⊕,0,1) est une orthoalgèbre orthocohérente dont l'ordre
canonique est en accord avec l'ordre donné sur L. Donc, les ensembles partiellement ordonnés
orthomodulaires (le cadre de la version de Mackey de la logique quantique) sont équivalents à des
orthoalgèbres orthocohérentes.
Certaines versions de l'orthocohérence furent prises par Mackey et plusieurs de ses successeurs
comme un axiome (il apparaît, sous une forme infinitaire, comme l'axiome V de Mackey, une
condition reliée mais plus forte apparaît dans la définition d'une algèbre booléenne partielle dans le
travail de Kochen et Specker [1965]). Cependant, il est assez facile de construire des modèles
d'espaces de tests simples ayant des interprétations parfaitement immédiates et même classiques
dont la logique n'est pas orthocohérente. Pour autant que nous le sachions, on n'a jamais donné une
raison totalement forcée pour voir l'orthocohérence comme une propriété essentielle de tout modèle
physique raisonnable. De plus, certaines constructions apparemment assez bien motivées qu'on
désire effectuer avec des espaces de tests tendent à détruire l'orthocohérence.
Réseaux de propriétés
La décision d'accepter les mesures et leurs résultats comme concepts primitifs dans notre
description de systèmes physiques ne signifie pas que nous devons oublier de parler des propriétés
physiques d'un tel système. En effet, un tel discours est facilement accommodé à notre formalisme
actuel. Dans l'approche que nous avons suivie, un système physique est représenté par un modèle
probabiliste ( A , ∆ ) et les états du système sont identifiés avec les poids de probabilité dans ∆ .
Classiquement, tout sous-ensemble Γ de l'espace d'état ( A , ∆ ) correspond à une propriété
catégorie du système. Cependant, en mécanique quantique, et même classiquement, toutes les
propriétés ne seront pas testables (ou "physiques") (en mécanique quantique, les seuls sous-
ensembles de l'espace d'état correspondant à des sous-espaces fermés de l'espace de Hilbert sont
testables, on prend habituellement seulement, par exemple, les ensembles de Borel pour
correspondre à des propriétés testables : la différence est que les propriétés testables dans ce dernier
cas forment encore une algèbre booléenne des ensembles alors qu'ils ne le font pas dans le cas
précédent).
Une manière de structurer cette distinction est comme suit. Le support d'un ensemble d'états Γ
inclus dans ∆ est l'ensemble S (Γ ) = {x ∈ X | ∃ω ∈ Γ(ω ( x ) > 0)} des résultats qui sont possibles
quand la propriété Γ est obtenue. Il y a un sens dans lequel deux propriétés sont empiriquement
indistinguables si elles ont le même support : nous ne pouvons pas les distinguer par l'utilisation
d'une seule exécution d'un seul test. Nous pouvons donc désirer identifier les propriétés physiques
avec les classes de propriétés classiquement physiquement indistinguables ou, de manière
équivalente, avec leurs supports associés. Cependant, si nous voulons adhérer au programme de
représentation des propriétés physiques comme des sous-ensembles (plutôt que des classes
d'équivalence de sous-ensembles) de l'espace des états, nous pouvons faire aussi comme suit.
Définissons une application F : P ( X ) → P (∆ ) par F ( J ) = {ω ∈ ∆ | S (ω ) ⊆ J }. L'application
Γ → F (S (Γ )) est alors un opérateur de fermeture sur P (∆ ) et la collection des ensembles fermés
(c'est-à-dire le domaine de F) est un réseau complet d'ensembles, fermé sous l'intersection
arbitraire. Evidemment, les propriétés classiques, sous-ensembles de ∆ , ont le même support si et
seulement si elles ont la même fermeture, ainsi nous pouvons identifier les propriétés physiques
avec les sous-ensembles fermés de l'espace des états.
4.4. Définition
Le réseau de propriétés du modèle ( A , ∆ ) est le réseau complet L = L( A , ∆ ) de tous les sous-
ensembles de ( A , ∆ ) de la forme F(J), J étant un ensemble de résultats.
Nous avons maintenant deux "logiques" différentes associées à une entité ( A , ∆ ) avec A
algébrique : une "logique" Π ( A ) de propositions expérimentales qui est une orthoalgèbre mais
généralement pas un réseau et une "logique" L( A , ∆ ) de propriétés qui est un réseau complet mais
rarement orthocomplémenté d'une manière naturelle (Randall et Foulis, 1983). Les deux sont reliés
par une application naturelle [ ] : Π → L donnée par p → [ p ] = F (J p ) où pour chaque p ∈ Π ,
J p = {x ∈ X | p ( x ) ≤ p ′}. C'est-à-dire que J p est l'ensemble des résultats qui sont consistants avec
p et [p] est la plus grande (c'est-à-dire la plus faible) propriété physique rendant p certain d'être
confirmé si testé.
La réponse est : sans hypothèse supplémentaire, pas beaucoup. Le réseau L(H) a plusieurs
propriétés d'ordre assez spéciales. Premièrement, il est atomique, tout élément est la disjonction
d'éléments non nuls minimaux (c'est-à-dire, des sous-espaces à une dimension). Deuxièmement, il
est irréductible, il ne peut pas être exprimé comme un produit direct non trivial de réseaux
orthomodulaires plus simples. Et finalement et le plus important, il satisfait la loi dite de
recouvrement atomique : si p ∈ L(H ) est un atome et p ≤/ q , alors p ∨ q recouvre q (aucun
élément de L(H) n'est strictement entre p ∨ q et q).
Ces propriétés ne sont pas suffisantes pour capturer L(H) mais elles nous donnent le bon panier.
Soit V un espace produit scalaire sur un anneau division involutif D. Un sous-espace M de V est dit
être ⊥ -fermé si et seulement si M = M ⊥⊥ où M ⊥ = {v ∈ V | ∀m ∈ E ( v, m = 0)}. Ordonné par
l'inclusion des ensembles, la collection L(V) de tous les sous-espaces ⊥ -fermés de V forme un
réseau atomique complet, orthocomplémenté par l'application M → M ⊥ . Un théorème de
Amemiya et Araki [1965] montre qu'un espace produit scalaire V réel, complexe ou quaternionique
avec L(V) orthomodulaire est nécessairement complet. Pour cette raison, un espace produit scalaire
V sur un anneau division involutif est appelé un espace de Hilbert généralisé si son réseau de sous-
espaces fermés L(V) est orthomodulaire. Le théorème de représentation suivant est dû à C. Piron
[1964] :
5.1. Théorème
Soit L un réseau orthomodulaire complet, atomique, irréductible satisfaisant la loi de recouvrement
atomique. Si L contient au moins 4 atomes orthogonaux, alors il existe un anneau division involutif
D et un espace produit scalaire V sur D tel que L est isomorphe à L(V).
On notera que des espaces de Hilbert généralisés ont été construits sur des anneaux divisions assez
exotiques. Donc, bien qu'il nous amène de manière tentante près de la solution, le théorème de
Piron ne nous fait pas parcourir tout le chemin vers la mécanique quantique orthodoxe.
La loi de recouvrement présente un problème plus délicat. Bien qu'il soit probablement prudent de
dire qu'aucun argument simple et entièrement satisfaisant n'ait été donné pour supposer sa validité
générale, Piron [1964, 1976] et d'autres (par exemple Beltrametti et Cassinelli [1981] et Guz
[1980]) ont dérivé la loi de recouvrement à partir d'hypothèses sur la manière dont les résultats des
mesures autorisent l'inférence à partir d'un état initial vers un état final. Voici un bref résumé de
comment cet argument fonctionne. Supposons qu'il y ait une certaine manière raisonnable de
définir, pour un état initial q du système, représenté par un atome du réseau logiques/propriétés L,
un état final ϕ p (q ) , ou un autre atome ou peut-être 0, conditionné à la proposition p ayant été
confirmée. Différents arguments ont été fournis suggérant que le seul candidat raisonnable pour une
telle application est la projection de Sasaki ϕ p : L → L , définie par ϕ p (q ) = (q ∨ p ′) ∧ p . On peut
montrer qu'un réseau orthomodulaire atomique satisfait la loi de recouvrement atomique juste
quand la projection de Sasaki projette des atomes sur des atomes ou 0. Une autre vue intéressante
de la loi de recouvrement est développée par Cohen et Svetlichny [1987].
IV.6. Représentations classiques
L'éternelle question dans l'interprétation de la mécanique quantique est de savoir si oui ou non une
explication essentiellement classique est disponible, même en principe, pour les phénomènes
quantiques. La logique quantique a joué un grand rôle en mettant en forme (et en clarifiant) cette
discussion, en particulier en nous permettant d'être assez précis sur ce que nous voulons dire par
une explication classique.
Plongements classiques
Supposons que nous ayons un modèle statistique ( A , ∆ ) . Une approche très directe pour construire
une "interprétation classique" de ( A , ∆ ) commencerait par essayer de plonger A dans un espace de
test de Borel B avec l'espoir d'alors prendre en compte les états statistiques de ∆ comme des
moyennes sur des états classiques, c'est-à-dire sans dispersion, "cachés". Donc, nous désirons
trouver un ensemble S et une application X → P (S ) assignant à chaque résultat x de A un
{ }
ensemble x ∗ inclus dans S de telle manière que pour chaque test E ∈ A , x ∗ | x ∈ E forme une
partition de S. Si cela peut être fait, alors chaque résultat x de A enregistre simplement le fait que
le système est dans un des états d'un certain ensemble d'états, c'est-à-dire x ∗ . Soit Σ la Σ -algèbre
{ }
des ensembles générés par les ensembles de la forme x ∗ | x ∈ E , nous trouvons que chaque
( )
mesure de probabilité µ sur Σ ramène à un état µ ∗ sur A , c'est-à-dire µ ∗ ( x ) = µ x ∗ . Tant que
tout état dans ∆ est de cette forme, nous pouvons affirmer avoir donné une interprétation
entièrement classique du modèle ( A , ∆ ) .
Le candidat minimal pour S est l'ensemble de tous les états sans dispersion sur A. Poser
x ∗ = {s ∈ S | s ( x ) = 1} nous donne une interprétation classique comme ci-dessus que nous
appellerons image classique de A . Toute autre interprétation classique se factorise en celle-là.
Notez, cependant, que l'application x → x ∗ est injective seulement s'il y a suffisament d'états libres
de dispersion pour séparer les différents résultats de A . Si A n'a pas d'états sans dispersion, alors
son image classique est vide. Le théorème de Gleason nous dit que c'est le cas pour les modèles de
la mécanique quantique. Donc, ce type particulier d'explication classique n'est pas disponible pour
les modèles de la mécanique quantique.
Il est quelquefois négligé que même si un espace de tests A a un ensemble séparé d'états sans
dispersion, il peut exister des états statistiques sur A qui ne peuvent pas être réalisés comme des
mixtures de ces états. L'image classique ne fournit pas d'explication pour de tels états. Pour un
exemple très simple de cette sorte de chose, considérons l'espace de tests :
(1) A = {{a, x, b}, {b, y, c}, {c, z , a}} et l'état ω (a ) = ω (b ) = ω (c ) = 1 / 2 , ω ( x ) = ω ( y ) = ω ( z ) = 0 .
C'est un simple exercice de montrer que ω ne peut pas être exprimé comme une moyenne pondérée
d'états à valeurs [0,1] sur A . Pour des exemples supplémentaires et une discussion de ce point, voir
Wright [1980].
6.1. Lemme
Soit A semi-classique. Alors A a un ensemble séparé d'états sans dispersion et tout état extrême
sur A est sans dispersion.
Tant que A est localement dénombrable (c'est-à-dire qu'aucun test E dans A est non dénombrable),
tout état peut être représenté comme une combinaison convexe, dans un sens approprié, d'états
extrêmes [Wilce, 1992]. Donc, tous les états d'un espace de tests semi-classique localement
dénombrable ont une interprétation classique.
Même si ni les espaces de tests de Borel ni les espaces de tests quantiques ne sont semi-classiques,
on peut affirmer que dans toute situation réelle de laboratoire, la semi-classicalité est une règle.
Habituellement, quand on écrit dans un livre de laboratoire qu'on a effectué un test donné et obtenu
un résultat donné, on a toujours un enregistrement de quel test a été effectué. En effet, étant donné
un espace de tests A , nous pouvons toujours former un espace de test semi-classique en effectuant
simplement le co-produit (union disjointe) des tests dans A . Plus formellement :
6.2. Définition
Pour chaque test E dans A , soit E ~ = {(x, E ) | x ∈ E} . Le recouvrement semi-classique de A est
{
l'espace de tests A ~ = E ~ | E ∈ A }
Nous pouvons voir A comme venant de A ~ par élimination de l'enregistrement de quel test fut
effectué pour assurer un résultat donné. Notons que tout état dans A définit un état ω ~ dans A ~
par ω ~ ( x, E ) = ω ( x ) . L'application ω → ω ~ est totalement injective, donc nous pouvons identifier
l'espace d'états de A avec un sous-ensemble de l'espace d'états de A ~ . Notons qu'il y aura
typiquement plusieurs états de A ~ qui ne descendent pas d'états de A . Nous pouvons désirer les
voir comme "non physiques" puisqu'ils ne respectent pas l'identification des résultats
(probablement, physiquement motivé) par laquelle A est défini.
Puisqu'il est semi-classique, A ~ admet une interprétation classique. Examinons cela. Un élément
( )
de S A ~ vient d'une application f : A ~ → X assignant à chaque test E ∈ A un résultat
f (E ) ∈ E . C'est un exemple (assez brutal) de ce qu'on veut dire par une variable cachée
contextuelle (sans dispersion). La construction ci-dessus nous dit que chaque variable cachée
contextuelle de ce type sera disponible pour des modèles statistiques assez généraux. Pour d'autres
résultats du même effet, voir Kochen et Specker [1967], Gudder [1970], Holevo [1982] et, dans une
direction différente, Pitowsky [1989].
Notons que les simples variables aléatoires sur A correspondent exactement à de simples variables
aléatoires sur A ~ et que ces variables, en retour, correspondent à certaines des variables aléatoires
( )
simples (dans le sens habituel) sur l'espace mesurable S A ~ . Donc, nous avons l'image suivante :
le modèle ( A , ∆ ) peut toujours être obtenu d'un modèle classique simplement en omettant certaines
variables aléatoires et en identifiant les résultats qui ne peuvent plus être distingués par celles qui
restent.
Tout cela peut suggérer que notre théorie des probabilités généralisée ne présente pas d'écart
conceptuel significatif de la théorie classique des probabilités. D'un autre coté, les modèles
construits dans les lignes précédentes ont un caractère distinctement ad hoc. En particulier,
l'ensemble des états "physiques" dans un des modèles classiques (ou semi-classiques) construits ci-
dessus est déterminé non par un principe physique indépendant mais seulement par la consistance
avec le modèle original non semi-classique. Une autre objection est que les variables cachées
contextuelles introduites dans cette section sont fortement non locales. Il est maintenant largement
reconnu que cette non-localité est le principal nœud de la non classicalité dans les modèles
quantiques (et plus généraux) (voir le théorème de Bell et le théorème de Malament).
Exercices
1. Montrez que pour l'espace de test (1) de la section IV.6 ω ne peut pas être exprimé comme une
moyenne pondérée d'états à valeurs [0,1] sur A .
IV.7. Systèmes composites
Certaines des propriétés les plus intriguantes de la mécanique quantique viennent en relation avec
les tentatives de décrire des systèmes physiques composites. C'est dans ce contexte, par exemple,
qu'à la fois le problème de la mesure et les résultats de non localité centrés sur le théorème de Bell
se produisent. Il est intéressant que des systèmes couplés présentent aussi un défi au programme de
logique quantique. Nous conclurons avec une description de deux résultats qui montrent que le
couplage de modèles de logique quantique tend à nous éloigner plus loin de la réalité de la
mécanique quantique des espaces de Hilbert.
Foulis et Randall ont montré qu'aucun plongement de ce type n'existe pour lequel B est
orthocohérent.
Théorème d'Aerts
Un autre résultat ayant une force assez similaire est celui de Aerts [1982]. Si L1 et L2 sont deux
réseaux de Piron, Aerts construit d'une manière assez naturelle un réseau L représentant deux
systèmes séparés, chacun modélisé part un des réseaux donnés. Ici "séparé" signifie que chaque état
pur du grand système L est entièrement déterminé par les états des deux systèmes composants L1 et
L2 . Aerts montre alors que L est également un réseau de Piron si et seulement si au moins un des
deux facteurs L1 et L2 est classique (ce résultat a récemment été renforcé par Ischi [2000] de
plusieurs manières).
La conséquence de ces résultats négatifs est que la construction directe de modèles plausibles pour
des systèmes composites détruit les conditions de régularité (orthocohérence dans le cas du résultat
de Foulis - Randall, orthomodularité et la loi de recouvrement dans celui d'Aert) qui ont largement
été utilisés pour la reconstruction du formalisme habituel de la mécanique quantique. Cela met en
doute qu'aucune de ces conditions ne puisse être vue comme ayant l'universalité que la plus part des
versions optimistes de Mackey demandaient. Bien sûr, cela n'écarte pas la possibilité que ces
conditions puissent encore être motivées dans le cas de systèmes physiques particulièrement
simples.
IV.8. Complément sur la théorie de base des relations ordonnées
Ce qui suit est le résumé le plus bref possible des notions d'ordre utilisées dans le texte principal.
Pour une bonne introduction à cette matière, voir Davey & Priestley [1990]. Des traitements plus
avancés peuvent être trouvés dans Gratzer [1998] et Birkhoff [1967].
Ensembles ordonnés
Un ordre partiel, à fortiori, un ordre, sur un ensemble P est une relation binaire transitive,
réflexive et antisymétrique sur P. Donc, pour tout p, q, r ∈ P , nous avons
1.
2. et seulement si p = q
3. Si et , alors
Si , nous disons que p est plus petit que ou sous p et q est plus grand que ou au-dessus de p
dans l'ordre.
Un ensemble partiellement ordonné, ou poset, est une paire (P, ) où P est un ensemble et est un
ordre spécifié sur P. Il est habituel d'utiliser P à la fois pour l'ensemble et la structure, laissant
implicite quand c'est possible. Toute collection de sous-ensembles d'un certain ensemble fixé X,
ordonnée par l'inclusion des ensembles, est un poset. En particulier, l'ensemble des parties P ( X )
est un poset sous l'inclusion des ensembles.
Les concepts de conjonction et disjonction s'étendent à des sous-ensembles infinis d'un poset P.
Donc, si A ⊆ P , la conjonction de A est le plus grand élément (s'il existe) sous A tandis que la
disjonction de A est le plus petit élément (s'il existe) au-dessus de A. Nous notons la conjonction de
A par ∧ A ou par ∧ a∈A a . De même la disjonction de A est notée par ∨ A ou par ∨ a∈A a .
Réseaux
Un réseau est un poset (L, ) dans lequel chaque paire d'élément a à la fois une conjonction et une
disjonction. Un réseau complet est un réseau dans lequel tout sous-ensemble de L a une conjonction
et une disjonction. Notez que P ( X ) est un réseau complet par rapport à l'inclusion des ensembles
ainsi que l'ensemble de tous les sous-espaces d'un espace vectoriel. L'ensemble des sous-ensembles
finis d'un ensemble infini X est un réseau mais pas un réseau complet. L'ensemble des sous-
ensembles d'un ensemble fini ayant un nombre pair d'éléments est un exemple de poset qui n'est pas
un réseau.
Le réseau ensemble des parties P ( X ) , par exemple, est distributif (comme tout réseau d'ensembles
dans lequel conjonction et disjonction sont donnés par l'intersection et l'union des ensembles).
D'autre part, le réseau des sous-espaces d'un espace vectoriel n'est pas distributif, pour des raisons
qui deviendront claires dans un moment.
Un réseau L est dit borné si et seulement s'il contient un plus petit élément 0 et un plus grand
élément 1. Notez que tout réseau complet est automatiquement borné. Pour la suite, tous les réseaux
sont supposés bornés sauf indication contraire.
Un complément d'un élément p d'un réseau (borné) L est un autre élément q tel que p ∧ q = 0 et
p ∨ q = 1.
Dans le réseau P ( X ) , tout élément a exactement un complément, plus précisément son ensemble
complément habituel. D'autre part, dans le réseau des sous-espaces d'un espace vectoriel, un
élément aura typiquement une infinité de compléments. Par exemple, si L est le réseau des sous-
espaces de l'espace euclidien à trois dimensions, alors le complément d'un plan donné passant par
l'origine est fourni par toute ligne passant par l'origine mais qui n'est pas dans le plan.
Proposition :
Si L est distributif, un élément de L peut avoir au plus un complément.
Démonstration :
Supposons que q et r soient des compléments de p. Alors, puisque L est distributif, nous avons :
q = q ∧1
= q ∧ (p ∨ r)
(4) = (q ∧ p ) ∨ (q ∧ r )
= 0 ∨ (q ∧ r )
=q∧r
Donc, . De manière symétrique, nous avons ; donc q = r .
Donc, aucun réseau dans lequel les éléments ont de multiples compléments n'est distributif. En
particulier, le réseau des sous-espaces d'un espace vectoriel (de dimension plus grande que 1) n'est
pas distributif.
Si un réseau est distributif, il peut n'y avoir que certains de ses éléments qui ont un complément
tandis que d'autres n'en ont pas. Un réseau distributif dans lequel tous les éléments ont un
complément est appelé un réseau booléen ou une algèbre booléenne. L'exemple de base, bien sûr,
est l'ensemble des parties P ( X ) d'un ensemble X. Plus généralement, toute collection de sous-
ensembles de X fermée sous l'union, l'intersection et le complément est une algèbre booléenne; un
théorème de Stone et Birkhoff nous dit qu'à un isomorphisme près toute algèbre booléenne est
obtenue de cette manière.
Orthoréseaux
Dans certains réseaux avec des compléments multiples (donc non distributifs), il est possible de
sélectionner pour chaque élément p un complément privilégié p' de telle manière que
a. Si alors
b. p ′′ = p
Notez à nouveau que si un réseau distributif peut être orthocomplémenté totalement, c'est une
algèbre booléenne et donc il peut être orthocomplémenté d'une seule manière. Dans le cas de L(H),
l'orthocomplémentation qu'on a à l'esprit est M → M ⊥ où M ⊥ est défini dans la section IV.1. Plus
généralement, si V est un espace produit scalaire (complet ou non), soit L(V ) l'ensemble des sous-
espaces M de V tel que M = M ⊥⊥ (un tel sous-espace est dit être algébriquement fermé). C'est à
nouveau un réseau complet orthocomplémenté par l'application M → M ⊥ .
Orthomodularité
Il y a une caractérisation frappante de l'ordre du réseau des sous-espaces fermés d'un espace de
Hilbert parmi les réseaux L(V ) de sous-espaces fermés d'espaces produits scalaires plus généraux.
Un orthoréseau L est dit orthomodulaire si et seulement si pour toute paire p, q dans L avec ,
(5) (q ∧ p ′) ∨ p = q
Notez que c'est un affaiblissement de la loi distributive. Donc, un réseau booléen est
orthomodulaire. Il n'est pas difficile de montrer que si H est un espace de Hilbert, alors L(H ) est
orthomodulaire. L'inverse frappant de ce fait est dû à Amemiya et Araki [1965] :
Théorème
Soit V un espace produit scalaire (sur R, C ou les quaternions) tel que L(V ) est orthomodulaire.
Alors V est complet, c'est-à-dire un espace de Hilbert.
Un opérateur de fermeture sur un poset P est une application préservant l'ordre cl = P → P telle
que pour tout p ∈ P ,
- cl (cl ( p )) = p
-
De manière duale, un opérateur intérieur sur P est une application préservant l'ordre int : P → P
sur P telle que pour tout p ∈ P ,
- int (int ( p )) = p
-
Les éléments dans le domaine de cl sont dits être fermés; ceux dans le domaine de int sont dits être
ouverts. Si P est un réseau (complet), alors l'ensemble des sous-ensembles fermés, respectivement
ouverts, sous l'application de fermeture ou intérieure est à nouveau un réseau (complet).
Comme illustration, supposons que O et C sont des collections de sous-ensembles d'un ensemble
X avec O fermé sous les unions arbitraires et C sous les intersections arbitraires. Pour tout
ensemble A inclus dans X, soit :
(6) cl ( A) = ∩{C ∈ C | A ⊆ C }
(7) int ( A) = ∪{O ∈ O| O ⊆ A}
Alors cl et int sont des opérateurs intérieurs sur P ( X ) pour lequel les ensembles fermés et ouverts
sont précisément C et O, respectivement. L'exemple le plus familier, bien sûr, est celui dans lequel
O et C sont les ensembles respectivement ouverts et fermés d'un espace topologique. Un autre cas
particulier important est celui dans lequel C est l'ensemble des sous-espaces linéaires d'un espace
vectoriel V. Dans ce cas, l'application span : P (V ) → P (V ) envoyant chaque sous-ensemble de V
sur son span est une fermeture correspondante.
Une adjonction entre deux posets P et Q est une paire ordonnée (f, g) d'applications f : P → Q et
g : Q → P reliées par la condition que pour tout p ∈ P , q ∈ Q
(8) si et seulement si
Dans ce cas, nous appelons f un adjoint gauche pour g et g un adjoint droit pour f. Deux faits de
base sur les adjonctions, facilement démontrées, sont les suivantes :
Proposition
Soit f : L → M une application préservant l'ordre entre les réseaux complets L et M. Alors
A. f préserve les disjonctions arbitraires si et seulement si c'est un adjoint droit
B. g préserve les conjonctions arbitraires si et seulement si c'est un adjoint gauche
Proposition
Soit (f, g) une adjonction entre les réseaux complets L et M. Alors
a. g o f : L → L
b. f o g : M → M
V. Applications
Le sujet étant vaste nous ne donnerons ici qu'une brève introduction au sujet.
Introduction
La cryptographie quantique permet à deux interlocuteurs de s'échanger une clé en toute sécurité. En
effet, cette méthode permet non seulement de démasquer toute tentative d'espionnage grâce aux
propriétés de la mécanique quantique, mais également de réduire la quantité d'information détenue
par un éventuel espion à un niveau arbitrairement bas et ce grâce à des algorithmes classiques
("privacy amplification"). On le voit donc, la cryptographie quantique constitue un outil très
précieux pour des systèmes de cryptographie symétrique où les deux interlocuteurs doivent
impérativement posséder la même clé et ce en toute confidentialité.
Les fondements de la cryptographie quantique ont été établis, entre autres, par les travaux de
Charles H. Bennett et Gilles Brassard.
Protocole
Le principe d'indétermination d'Heisenberg affirme que certaines quantités ne peuvent pas être
mesurées simultanément avec une précision arbitraire. Ainsi dans le transport de clé "quantique",
l'information est transportée par les photons, ces composants élémentaires de la lumière. Chaque
photon peut être polarisé, c'est-à-dire que l'on impose une direction à son champ électrique. La
polarisation est mesurée par un angle qui varie de 0° à 180°. Dans le protocole que nous décrivons,
dû aux canadiens C.H. Bennett et G. Brassard, la polarisation peut prendre 4 valeurs : 0°, 45°, 90°,
135°. Pour les photons polarisés à 0° ou à 90°, on parle de polarisation rectiligne, pour ceux
polarisés à 45° ou 135°, de polarisation diagonale. Il nous faut pouvoir détecter la polarisation des
photons, Pour cela, on utilise un filtre polarisant suivi d'un détecteur de photons. Si un photon
polarisé à 0° rencontre un filtre polarisant orienté à 0°, il traverse ce filtre polarisant et est
enregistré par le détecteur placé juste après. Si un photon polarisé à 90° rencontre le même filtre, il
est immédiatement stoppé et le détecteur n'enregistre rien. Maintenant, si le photon est polarisé
diagonalement (45° ou 135°), une fois sur deux, il traverse le filtre, et une fois sur deux, il est
stoppé (c'est le caractère très particulier des photons en mécanique quantique). Si on peut distinguer
entre une polarisation à 0° et à 90°, il est impossible de distinguer en même temps entre une
polarisation à 45° et à 135°. De la même façon, on peut utiliser un filtre polarisant orienté à 45° : il
laisse passer les photons polarisés à 45°, stoppe deux polarisés à 135°, et se comporte aléatoirement
avec ceux à 0° et 90°. Notons que placer deux filtres en séries ne permet pas d'améliorer la
détection. En effet, une fois que le photon passe un filtre, disons à 0°, il est alors polarisé dans cette
direction et ce quelle que soit sa polarisation initiale. Il y a réduction de la fonction d'onde. D'un
point de vue quantique, si on décrit l'état de polarisation à 45° dans la base rectiligne, on a l'état :
(1)
1
( 0° + 90° )
2
Le passage dans le filtre à 0° constitue une mesure de l'état correspondant. Si le photon passe le
2
filtre, avec une probabilité 1 / 2 = 1 / 2 , il se retrouve dans l'état 0° .
Décrivons alors le protocole qu'Alice et Bob doivent respecter pour qu'Alice envoie à Bob une clé
secrète constituée de 0 et de 1. Ils disposent de deux canaux d'échange : un canal quantique où ils
peuvent s'échanger des photons polarisés et un canal classique (par exemple en ondes radios), non
protégé, où ils peuvent discuter. Ils conviennent que les photons polarisés à 0° ou 45° représentent
0 et ceux polarisés à 90° ou 135° représentent 1. Alice émet, sur le canal quantique, une suite de
photons polarisés au hasard parmi 0°, 45°, 90° et 135°. A l'autre bout, Bob reçoit les photons et
mesure aléatoirement ou leur polarisation rectiligne (filtre placé à 0°) ou leur polarisation diagonale
(filtre placé à 45°). Si le photon traverse le filtre, Bob note 0, sinon il note 1. Bien sûr, certaines
mesures de Bob (en moyenne, une sur deux) n'ont pas d'intérêt : il a pu essayer de mesurer la
polarisation rectiligne d'un photon polarisé à 45°, ce qui donne un résultat aléatoire (par exemple, le
photon a été bloqué par le filtre, Bob note donc 1 alors qu'Alice avait envoyé 0). Pour éliminer ces
bits sans sens, il indique à Alice, par le canal radio, quelle type de mesure (rectiligne ou diagonale)
il a faite pour chaque photon. Par le même canal radio, Alice indique quelles sont les mesures
correctes (à savoir s'il a utilisé le bon type de mesure). Notons que cet échange n'apporte aucune
information à un tiers écoutant le canal classique car les 0 ou les 1 ont chacun une chance sur deux
d'être transmis par une polarisation diagonale ou rectiligne. Ainsi, Alice et Bob ont en commun un
certain nombre de bits car ils ont été mesurés de la même manière par Alice et Bob.
Il faut encore vérifier que ce protocole est sûr. Si Caroline écoute le canal quantique, elle peut faire
la même chose que Bob, c'est-à-dire intercepter les photons en plaçant un filtre polarisant tantôt
rectiligne, tantôt diagonal. Pour que Bob ne se doute de rien, elle doit réémettre un photon polarisé.
Elle va essayer d'envoyer le même photon qu'Alice, mais comme elle a une chance sur deux d'avoir
choisi le mauvais filtre et comme le photon, même lorsqu'il passe le filtre a son état modifié, elle a
une chance sur deux d'avoir un résultat différent d'avec le photon original, et finalement, pour
chaque photon intercepté par Caroline, il y a une chance sur 4 que Bob reçoive une information
erronée. Alice et Bob décident alors d'utiliser une partie des bits transférer non pour transmettre la
clé mais en matière de contrôle. Ces bits sont choisis aléatoirement par Alice et publié ensuite par
le canal radio et échangés avec Bob. S'ils sont différents, ils ont une preuve qu'ils ont été écoutés et
laissent alors tomber la clé qu'ils viennent de transférer. A noter qu'à ce stade Caroline n'a pas pu
décrypter l'information puisque ses mesures ont une chance sur deux d'être faites dans la mauvaise
direction. En comparant suffisamment de bits, ils ont une garantie presque absolue de ne pas avoir
été écoutés.
On peut également utiliser d'autres protocoles et en particulier des paires de photons intriqués
échangés préalablement. Alice et Bob effectuent alors des mesures rectilignes et diagonales
aléatoires puis échangent l'information sur la direction qu'ils ont employée. Alice indique
également les mesures qui ont donné pour résultat les bits qu'elle souhaite transmettre. Bob peut
alors en déduire les bits à partir de ses propres mesures. Le protocole est très proche du précédent
autant dans son usage que dans sa garantie de confidentialité. Ici, la perturbation introduire par
Caroline en mesurant certains des photons est la destruction de leur intrication. Vous pouvez
vérifier que si Caroline émet elle-même des paires de photons de polarisation connue, les échanges
d'Alice et Bob ne lui permettront pas d'en déduire l'information échangée.
Notons que les protocoles de cryptographie quantique sont relativement complexes et lourds et
donc lents. Ils servent ainsi essentiellement à transmettre des clés symétriques qui sont ensuite
utilisées pour une cryptographie classique réputée sûre (les protocoles classiques symétriques étant
habituellement très solides).
Amplification de la confidentialité
Les protocoles de cryptographie quantique arrivent à des résultats que la cryptographie classique
n'atteint pas. Ils permettent à Alice et Bob de générer et partager des clés aléatoires qui sont très
semblables. Dans des conditions parfaites, elles sont identiques, mais il y a en fait un taux d'erreur.
Ils leur permettent aussi d'approximer le niveau d'observation de l'observateur externe
(eavesdropper) et ainsi de calculer l'information maximale que Caroline peut posséder par rapport à
la clé partagée par Alice et Bob. Ce sont des résultats intéressants par eux-mêmes, mais ils ne
suffisent pas à résoudre le problème de la distribution des clés. En effet, il serait désastreux que
Caroline apprenne même une petite partie de la clé : elle pourrait alors tirer profit de cette
information pour arriver à casse le code de cryptage employé pour envoyer les messages à l'aide de
cette clé. Puisque les erreurs et le bruit de fond ne peuvent jamais être évités complètement, Alice
et Bob ne peuvent jamais garantir que Caroline n'a aucune information sur leurs clés. Puisque les
erreurs de communication et les effets de l'observation externe ne peuvent pas être distingués, Alice
et Bob doivent supposer que toutes les incohérences sont dues à l'action de Caroline.
Indiscernabilité
Supposons qu'Alice possède un atome de rubidium (l'élément chimique préféré des physiciens pour
ce type d'expérience), qui est dans son état fondamental, que Bertrand dispose d'un atome
répondant aux mêmes caractéristiques. Il est important de noter que ces deux atomes sont
indiscernables, ce qui signifie qu'il n'y a aucune différence entre eux (en dehors de leur position).
Si Alice et Bertrand avaient par exemple deux boules de verre semblant identiques et qu'ils les
échangeaient, alors quelque chose changerait. Si on disposait d'un microscope très puissant, on
pourrait trouver une différence entre les deux boules en observant les défauts microscopiques du
verre. Avec des atomes du même type et dans le même état quantique, il n'y a réellement aucune
différence. La situation physique dans laquelle Alice a le premier atome et Bertrand le second est
exactement la même qu'en inversant les atomes. D'une certaine manière, il est même faux de dire
que les atomes sont différents l'un de l'autre, de les identifier, de leur donner une individualité en
disant que chacun est possédé par l'un de nos deux protagonistes. Il serait plus approprié de dire que
les deux emplacements dans l'espace ont la propriété que les champs quantiques fondamentaux ont
les valeurs définissant l'état fondamental de l'atome de rubidium.
Il est à noter que l'état quantique de l'atome d'Alice sera modifié dans cette opération. C'est une
conséquence d'un théorème dit de "non-clonage" de la mécanique quantique. Si l'on pouvait copier
exactement l'état quantique d'un système, sans qu'ils soient intriqués, on serait en mesure de
déterminer plusieurs grandeurs incompatibles simultanément en effectuant la mesure sur les deux
systèmes. En un sens, la propriété (l'état excité) a réellement été téléporté.
Si l'on considère la mécanique quantique comme complète et deux particules identiques étant
indiscernables, transporter l'état quantique est équivalent à transporter la particule elle-même.
Le miracle de cette opération est qu'elle peut s'effectuer à distance en utilisant des particules
intriquées.
La méthode
En prérequis, Bertrand a produit deux particules (ou deux atomes) appelées I et II qui sont
intriquées de manière maximale pour deux états. En notant 0 et 1 les deux états, on aura
(1) ψ =
1
(
0 I ⊗ 0 II + 1 I ⊗ 1 II )
2
Ces états peuvent, par exemple, être des états de polarisation de deux photons.
Cela signifie que si les particules I et II ne sont ni dans l'état 0 ni dans l'état 1 , mais plutôt les
deux simultanément, et que si on mesure l'une d'entre elles on trouvera sa valeur comme état 0 ou
1 avec une probabilité égale à 1/2 et que la mesure de l'autre particule donnera exactement le
même résultat.
Bertrand a donné à Alice la particule I et a gardé la particule II. A partir de maintenant, Alice peut
envoyer l'état quantique de son atome à Bertrand (ou l'inverse).
Si Alice a maintenant un état qu'elle veut téléporter à Bertrand, elle effectue ce qu'on appelle une
mesure de Bell sur l'atome de rubidium et sur la particule I. Cette mesure conjointe consiste à
mesurer l'état quantique de l'atome en fonction de l'état quantique de la particule I. On mesure en
quelque sorte le produit état de l'atome * état de I. Ce qu'on mesure c'est la corrélation "atome
excité" - "état 0 de la particule I" ou "atome non excité" - "état 1 de la particule I". Il est clair que
l'on ne manipule alors qu'une information binaire et la mesure d'états plus complexes nécessite plus
de particules intriquées (plus de qubits).
Cette mesure ne permet pas de connaître l'état de l'atome car le résultat dépend de l'état de la
particule I. Mais en effectuant cette mesure, l'état qu'avait l'atome se retrouve intriqué avec la
particule II de Bertrand.
En utilisant un canal de communication ordinaire, Alice peut communiquer son résultat de mesure
à Bertrand. Bertrand peut alors utiliser ce résultat et sa particule II en les faisant interagir de
manière appropriée afin d'intriquer l'état de son atome à la particule II. Il effectue en fait une
mesure conjointe de l'état de l'atome * l'état de II ou de l'état de l'atome * l'opposé de l'état de II
selon que le résultat d'Alice a donné une valeur positive ou nulle. Ainsi l'état de son atome se
retrouve intriqué avec l'état initial de l'atome d'Alice.
Bertrand n'a plus qu'a effectuer une mesure de l'état de son atome afin de savoir quel était l'état de
l'atome d'Alice avant ces opérations.
Si au lieu d'utiliser des particules différentes des atomes initiaux on utilise des particules identiques
(par exemple trois particules de rubidium), la dernière opération est simplifiée car on a déjà une
particule II qui est intriquée avec l'état initial de l'atome d'Alice et une opération utilisant le résultat
de mesure suffit à lui donner l'état approprié.
Expérimentations
La première démonstration expérimentale fut effectuée à l'université d'Innsbruck (en Autriche) en
1997 par le groupe de Anton Zeilinger. Leur configuration permit de téléporter l'état quantique de
polarisation à travers une table optique. Une expérience ayant eu lieu quelque temps plus tôt à
Rome, par le groupe de De Martini, avait montré le principe de la téléportation, mais en impliquant
seulement deux particules au lieu de trois : une portant l'information à téléporter et deux particules
intriquées qui fournissent le canal quantique et qui doivent être indépendantes de celle portant l'état.
En 2004, un autre groupe de recherche à l'université d'Innsbruck et un groupe au NIST démontra la
téléportation d'atomes : l'état quantique électronique d'un ion de calcium fut téléporté vers un autre,
l'ensemble des ions étant contenu dans un piège à ions linéaire.
Permutation de l'intrication
Si un état en téléportation est lui-même intriqué avec un autre état, l'intrication est téléportée avec
lui. Si Alice a une particule qui est intriquée avec une particule détenue par Carole et qu'elle la
téléporte à Bertrand, à l'issue de l'opération c'est la particule de Bertrand qui est intriquée avec celle
de Carole.
Autre exemple plus symétrique : supposons qu'Alice possède une particule, Bertrand deux et Carole
une seule. La particule d'Alice et la première de Bertrand sont intriquées, de même que la seconde
de Bertrand et celle de Carole :
Maintenant Bertrand effectue une mesure de Bell intriquant ses deux particules. Maintenant, les
deux particules d'Alice et Carole sont intriquées :
Alice --- Carole
Cet effet permet de construire un répéteur quantique utile à la cryptographie. Ces répéteurs sont
toutefois encore à l'état de recherche. Les principales difficultés étant liées à l'imperfection des
différents dispositifs et à la décohérence que nous allons maintenant voir.
VI. Décohérence
La décohérence induite par l'environnement et la supersélection ont été un sujet de recherches
intensives pendant ces deux dernières décennies. Jusqu'à présent, leurs implications pour les
problèmes de fondation de la mécanique quantique, plus particulièrement le problème de la mesure
quantique, sont restées un sujet de grande controverse.
VI.1. Matrice densité
La matrice densité est utilisée intensivement dans l'étude de la décohérence. Un rappel est donc le
bienvenu.
La matrice densité ou opérateur densité est une entité mathématique introduire par le
mathématicien et physicien John von Neumann. Elle permet de résumer en une seule matrice tout
l'ensemble possible des états quantiques d'un système physique donné à un instant donné, mariant
ainsi mécanique quantique et physique statistique.
Définition
Cas pur
La description du système se fait ici grâce à un vecteur d'état ψ (t ) que l'on peut développer sur la
base des { u n }:
(1) ψ (t ) = ∑ c (t ) u
n n
n
avec
∑ c (t ) =1
2
(2) n
n
L'aspect statistique introduit ici est de deux natures, l'une classique et l'autre quantique :
1. Classique : dû à l'estimation du ket par une distribution statistique des différents kets possibles.
Les différentes probabilités p i représentent habituellement les proportions de particules dans
l'état ψ i dans une collection d'un grand nombre de particules. Mais cette forme de statistique
peut aussi s'appliquer à un système seul. L'exemple typique étant l'état d'un dé classique après
son jet. Il est dans six états possibles avec des probabilités égales.
2. Quantique : indétermination quantique fondamentale même si le système est statistiquement
parfaitement déterminé.
Propriétés
La matrice obtenue a les propriétés suivantes :
Elle est hermitique, ρˆ = ρˆ + , elle peut donc être diagonalisée et ses valeurs propres sont
positives.
Sa trace est égale à 1, Tr ( ρˆ ) = 1 , conservation de la probabilité totale.
Elle doit être définie positive ou nulle.
Dans le cas d'un état pur, l'opérateur densité est alors un projecteur : ρˆ 2 = ρˆ .
( )
Tr ρˆ 2 ≤ 1 , avec égalité si et seulement si le système physique est dans un état pur (c'est-à-dire
que tous les p i sont nuls sauf un).
Valeur moyenne
On peut calculer la valeur moyenne d'un observable A à partir de la formule :
( )
(6) Aˆ = ψ Aˆ ψ = Tr Aˆ ρˆ = Tr ρˆAˆ ( )
N
avec ρˆ = ∑ p i ρˆ i est la matrice densité d'un mélange statistique d'états.
i
L'entropie d'un état pur est nulle car il n'y a aucune incertitude sur l'état du système. On peut aussi
trouver une base où la matrice est diagonale, avec des 0 et un 1 sur la diagonale, ce qui donne bien
une entropie égale à 0.
VI.2. Introduction
Les implications du programme de décohérence pour les fondations de la mécanique quantique ont
été le sujet de débats continuels depuis la première formulation précise du programme au début des
années 1980. L'idée clé promue par la décohérence est basée sur le fait que des systèmes quantiques
réalistes ne sont jamais isolés mais sont immergés dans l'environnement et interagissent
continuellement avec lui. Le programme de décohérence étudie alors, entièrement dans le
formalisme quantique standard (c'est à dire sans ajouter de nouveaux éléments à la théorie
mathématique ou à ses interprétations), la formation résultante de corrélations quantiques entre les
états du système et son environnement et les effets souvent surprenant de ces interactions système -
environnement. En bref, la décohérence met en lumière une suppression locale des interférences
entre états privilégiés sélectionnés par l'interaction avec l'environnement.
Quand le concept de décohérence fut d'abord introduit pour une audience scientifique plus large par
l'article de Zurek (1991) publié dans Physics Today, il déclencha une série de commentaires
controversés de la part des lecteurs (voir la publication de Physics Today avril 1993). En réponse
aux critiques, Zurek (2003a, p.718) déclare :
Dans un champ où la controverse a régné aussi longtemps, cette résistance à un nouveau
paradigme [c'est à dire la décohérence] n'est pas surprenante.
D'Espagnat, qui défend une vue qui considère l'explication de nos expériences (c'est-à-dire les
"apparitions") comme la seule demande "sûre" pour une théorie physique, déclare (d'Espagnat,
2000, p.136) :
Pour les systèmes macroscopiques, les apparitions sont celles du monde classique (pas
d'interférence, etc.), même dans les circonstances, telles que celles se produisant dans les mesures
quantiques, où les effets quantiques prennent place et où les probabilités quantiques interviennent
(...). La décohérence explique les apparitions mentionnées c'est le résultat le plus important. (...)
Aussi longtemps que nous resterons dans la réalité des seules prédictions que nous observons (c'est
à dire qui nous apparaissent), et que nous évitons d'affirmer quoi que ce soit sur "les choses qui
doivent être avant que nous les observions", aucune rupture dans la linéarité de la dynamique
quantique n'est nécessaire.
Dans son livre monumental sur les fondations de la mécanique quantique, Auletta (2000, p.791)
conclu que :
La théorie de la mesure pourrait être une partie de l'interprétation de la mécanique quantique
seulement pour étendre ce qui est encore un problème ouvert, et nous pensons que ce n'est
largement plus le cas.
D'un autre coté, même les principaux adhérents de la décohérence sont prudents sur le fait que la
décohérence a résolu le problème de la mesure. Joos (1999, p.14) écrit :
Est-ce que la décohérence résout le problème de la mesure ? Clairement non. Ce que la
décohérence nous dit est que certains objets apparaissent classiques quand ils sont observés. Mais
qu'est-ce qu'une observation ? A un certain moment, nous devons encore appliquer les règles
habituelles de probabilité de la théorie quantique.
Parmi toutes ces déclarations, Kiefer et Joos (1998, p.5) avertissent que :
On trouve souvent explicitement ou implicitement des déclarations sur l'effet que les processus ci-
dessus sont équivalent à la réduction de la fonction d'onde (ou même résolvent le problème de la
mesure). De telles déclarations sont certainement non fondées.
Les réussites clés du programme de décohérence, en dehors de leurs applications pour les
problèmes conceptuels, ne semblent pas non plus être universellement comprises. Zurek (1998,
p.1800) remarque :
L'aspect diagonal éventuel de la matrice densité (...) est un sous-produit (...) mais pas l'essence de
la décohérence. J'insiste sur cela car l'aspect diagonal de la matrice densité dans certaines bases a
été occasionnellement (mal) interprété comme un accomplissement clé de la décohérence. C'est une
erreur. Toute matrice densité est diagonalisable dans certaines bases. Cela apporte peu à
l'interprétation.
Ces remarques controversées montrent qu'une discussion équilibrée sur les aspects clés de la
décohérence et leurs implications pour les fondations de la mécanique quantique est dépassée. Le
programme de décohérence a fait de grands progrès pendant la dernière décennie et il serait
inapproprié d'ignorer sa pertinence dans les problèmes conceptuels. Cependant, il est également
important de réaliser les limites de la décohérence pour fournir des réponses consistantes et non
circulaires aux questions de fondation.
Une excellente revue du programme de décohérence a récemment été donnée par Zurek (2003). Il
traite principalement des techniques de la décohérence, bien qu'il contient quelques discussions sur
comment la décohérence peut être employée dans le contexte d'une interprétation d'états relatifs
pour motiver les postulats de base de la mécanique quantique. Utile pour une première orientation
et un premier aperçu, la section de Bacciagaluppi (2003a) dans l'encyclopédie de Standford de
philosophie fournit (par comparaison à cette présentation relativement courte) une introduction au
rôle de la décohérence dans les fondations de la mécanique quantique, incluant des commentaires
sur la relation entre la décohérence et plusieurs interprétations populaires de la théorie quantique.
En dépit de ces contributions récentes de valeur à la littérature, une discussion détaillée et complète
du rôle de la décohérence dans les fondations de la mécanique quantique semble encore en suspens.
Nous commencerons par un résumé du problème de la mesure qui illustre les difficultés clés qui
sont associées avec la description de la mesure quantique dans le formalisme quantique et qui sont
toutes traitées sous une certaine forme par le programme de décohérence. Ensuite nous introduirons
alors et discuterons les principaux aspects de la théorie de la décohérence en insistant
particulièrement sur leurs implications sur les fondations.
VI.3. Le problème de la mesure
Un des éléments les plus révolutionnaires introduit dans la théorie physique par la mécanique
quantique est le principe de superposition, mathématiquement fondé par la linéarité de l'espace de
Hilbert. Si 1 et 2 sont deux états alors la mécanique quantique nous dit que toute combinaison
linéaire α 1 + β 2 correspond aussi à un état possible. Bien que de telles superposition d'états
aient été intensivement expérimentalement vérifiées pour des systèmes microscopiques (par
exemple à travers l'observation d'effets d'interférence), l'application du formalisme aux systèmes
macroscopiques semble conduire immédiatement à plusieurs conflits avec notre expérience de la
vie de tous les jours. Un livre n'a jamais été observé être dans un état à la fois "ici" et "là" (c'est-à-
dire être une superposition de positions macroscopiques distinctes) et un chat de Schrödinger qui
est une superposition de vivant et mort n'a pas beaucoup de ressemblance avec ce que nous
percevons. Le problème est alors de réconcilier l'immensité de l'espace de Hilbert des états
possibles avec l'observation du nombre considérablement plus faible d'états macroscopiques
"classiques" définis par un petit nombre de propriétés déterminées et robustes tel que la position et
le moment. Pourquoi le monde nous apparaît-il classique en dépit de la nature quantique sous-
jacente supposée qui devrait en principe permettre des superpositions arbitraires ?
VI.3.1. Schéma de mesure quantique
Cette question est habituellement illustrée dans le contexte de la mesure quantique où des
superpositions microscopiques sont, via l'intrication quantique, amplifiées dans la réalité
macroscopique et conduisent donc à des états très "non classiques" qui ne semblent pas
correspondre à ce qui est réellement perçu à la fin de la mesure. Dans le schéma de mesure idéale
imaginé par von Neumann (1932), un système S (typiquement microscopique), représenté par une
base de vecteurs { S n } dans un espace de Hilbert H S , interagit avec un appareil de mesure A,
décrit par une base de vecteurs { An } générant un espace de Hilbert H A où les An sont supposés
correspondre à des positions "pointeurs" macroscopiquement discernables qui correspondent aux
résultats d'une mesure si S est dans l'état S n (par exemple la position d'une aiguille sur un cadran
indiquant le résultat de la mesure).
Notons que le schéma de von Neumann est en contraste abrupt avec l'interprétation de Copenhague
où la mesure n'est pas traitée comme une interaction système - appareil mais plutôt comme une
composante indépendante de la théorie, représentée entièrement en termes fondamentalement
classiques.
Cette évolution dynamique est souvent appelée une prémesure afin d'insister sur le fait que le
processus décrit par l'équation (1) ne suffit pas pour conclure directement qu'une mesure a
réellement été effectuée. Cela pour deux raisons. Premièrement, le coté droit est une superposition
d'états système - appareil. Donc, sans fournir un processus physique additionnel (disons un certain
mécanisme de réduction de la fonction d'onde) ou en donnant une interprétation appropriée d'une
telle superposition, il n'est pas clair comment prendre en compte, étant donné l'état final composite,
les positions définies des pointeurs qui sont perçus comme le résultat d'une mesure réelle - c'est-à-
dire pourquoi percevons-nous le pointeur dans une position An mais pas dans une superposition
de positions (le problème des résultats définis) ? Deuxièmement, le développement de l'état
composite final n'est en général pas unique et donc l'observable mesuré n'est pas défini de manière
unique non plus (problème de la base privilégiée). La première difficulté est typiquement appelée
dans la littérature le problème de la mesure, mais le problème de la base privilégiée est au moins
aussi important puisqu'il n'y a même pas de sens à s'inquiéter d'un résultat spécifique si l'ensemble
des résultats possibles n'est pas clairement défini. Nous regarderons donc le problème de la mesure
comme étant composé à la fois du problème des résultats définis et du problème de la base
privilégiée et nous discuterons de ces composantes plus en détail dans la suite.
VI.3.2. Le problème des résultats définis
Cela peut explicitement être montré spécialement à des échelles microscopiques en effectuant des
expériences qui conduisent à une observation directe des figures d'interférences au lieu de la
réalisation d'un des termes de l'état pur superposé, par exemple, dans un dispositif où des électrons
passent individuellement (un à la fois) à travers deux fentes. Comme c'est bien connu, cette
expérience montre clairement que, dans le formalisme standard de la mécanique quantique,
l'électron ne doit pas être décrit par une des fonctions d'onde décrivant le passage de l'électron à
travers une fente particulière (ψ 1 ou ψ 2 ) mais seulement par la superposition de ces fonctions
d'onde (ψ 1 + ψ 2 ) puisque la distribution de densité correcte ρ de la figure sur l'écran n'est pas
donnée par la somme des carrés des fonctions d'onde décrivant l'addition de passages individuels à
travers une seule fente ( ρ = ψ 1 + ψ 2 ) mais seulement par le carré de la somme des fonctions
2 2
d'onde individuelles ( ρ = ψ 1 + ψ 2 ).
2
En d'autres mots, si un ensemble interprétation pouvait être attaché à une superposition, cette
dernière représenterait simplement des états déterminés plus fondamentalement et basé sur la
connaissance additionnelle donnée par les résultats des mesures, nous pourrions choisir simplement
un sous-ensemble consistant en états de pointeurs définis obtenus dans la mesure. Mais alors,
puisque l'évolution dans le temps a été strictement déterministe selon l'équation de Schrödinger,
nous pourrions faire marche à arrière dans le temps à ce sous-ensemble et donc aussi spécifier l'état
initial plus complètement ("post - sélection") et donc cet état ne pourrait nécessairement pas être
identique à l'état préparé initialement sur le coté gauche de l'équation (1) de la section précédente.
VI.3.2.2. Superpositions et attribution du résultat
Dans l'interprétation standard ("orthodoxe") de la mécanique quantique, un observable
correspondant à une quantité physique a une valeur définie si et seulement si le système est dans un
état propre de l'observable. Si le système est cependant dans une superposition de tels états propres,
comme dans l'équation de mesure, il est, selon l'interprétation orthodoxe, sans signification de
parler de l'état du système comme ayant toutes les valeurs définies de l'observable à la fois (c'est
habituellement appelé "le lien valeur propre - état propre" ou "lien v-e" pour faire court). Le lien v-
e, cependant, ne nous est pas forcé par la structure de la mécanique quantique ou par des
contraintes empiriques (Bub, 1997). Le concept de "valeurs" (classiques) qui peuvent être
attribuées à travers le lien v-e basé sur les observables et l'existence d'états propres exacts de ces
observables a donc fréquemment été affaibli ou abandonné. Par exemple, les résultats des mesures
sont typiquement enregistrés dans l'espace position (pointeurs positions, etc.) mais il n'existe pas
d'état propre exact de l'opérateur position et les états pointeurs ne sont jamais exactement
mutuellement orthogonaux. On peut alors (explicitement ou implicitement) promouvoir un lien v-e
"flou" ou créer le concept d'observables et de valeurs entièrement et directement comme des
fonctions d'onde qui évoluent dans le temps (en travaillant dans le point de vue de Schrödinger) et
les matrices densité correspondantes. Aussi, s'il est considéré suffisant d'expliquer nos perceptions
plutôt que de décrire l'état "absolu" de l'univers entier (voir l'argument ci-dessous), on peut
seulement demander que le lien v-e (exact ou flou) soit valable dans un sens "relatif", c'est à dire
pour l'état du reste de l'univers relativement à l'état de l'observateur.
Alors, pour résoudre le problème des états définis, certaines interprétations (par exemple les
interprétations modales et les interprétations des états relatifs) interprètent la superposition de l'état
final de manière à expliquer l'existence, ou au moins la perception subjective, de "résultats" même
si l'état composite final a la forme d'une superposition. D'autres interprétations tentent de résoudre
le problème de la mesure en modifiant la dynamique strictement unitaire de Schrödinger. La plus
importante, l'interprétation orthodoxe postule un mécanisme de réduction qui transforme une
matrice de densité d'états purs en un ensemble ignorance interprétable d'états individuels (une
"mixture propre"). Les théories avec réduction physique de la fonction d'onde ajoutent des termes
stochastiques à l'équation de Schrödinger qui induit une réduction effective (bien qu'approximative)
pour les états des systèmes macroscopiques (Ghirardi et al., 1986, Gisin, 1984, Pearle, 1979, 1999)
tandis que d'autres auteurs suggèrent que la réduction se produit au niveau de l'esprit d'un
observateur conscient (Stapp, 1993, Wigner, 1963). La mécanique de Bohm, d'autre part, maintient
une évolution dans le temps unitaire de la fonction d'onde mais introduit une loi dynamique
additionnelle qui gouverne explicitement les positions toujours déterminées de toutes les particules
dans le système.
VI.3.2.3. Valeurs définies objectives vs subjectives
En général, la valeur définie (macroscopique), et donc une solution aux problèmes des résultats
dans la théorie quantique de la mesure, peut être obtenue à un niveau ontologique (objectif) ou
observationnel (subjectif). Les valeurs définies objectives s'efforcent d'assurer des valeurs définies
"réelles" dans le monde macroscopique tandis que les valeurs définies subjectives tentent seulement
d'expliquer pourquoi le monde macroscopique semble être défini, et donc ne tentent pas de définir
la réalité physique sous-jacente (quelle que puisse être cette réalité). Cela soulève la question de la
signification de cette distinction par rapport à la formation d'une théorie satisfaisante du monde
physique. Il peut sembler qu'une solution au problème de la mesure basée sur une valeur définie
garantie subjective, mais pas objective, est seulement bonne "pour tout usage pratique", abrégé, de
manière plutôt désobligeante, comme "FAPP" par Bell (1990) (For All Practical Purpose), et donc
n'est pas capable de résoudre le problème "fondamental" qui semblerait pertinent pour la
construction d'une théorie précise que Bell réclamait de manière si véhémente.
Il semble, cependant, que cette critique n'est pas justifiée et que les valeurs définies subjectives
pourraient être vues à l'égal des valeurs définies objectives par rapport à une solution satisfaisante
de problème de la mesure. Nous demandons des valeurs définies objectives car nous faisons
l'expérience au niveau subjectif de l'observation et cela ne devrait pas être vu comme une nécessité
a priori pour une théorie physique. Si nous savons indépendamment de notre expérience que les
valeurs définies existent dans la nature, des valeurs subjectives en suivraient probablement aussi tôt
que nous employons un modèle qui relie le phénomène physique "externe" avec notre appareil
perceptif et cognitif "interne" où la simplicité attendue d'un tel modèle peut être justifiée en se
référant à l'identité présumée des lois physiques gouvernant les processus externes et internes. Mais
puisque la connaissance est basée sur l'expérience, c'est à dire sur l'observation, l'existence de
valeurs définies objectives peut seulement être dérivée de l'observation de valeurs définies. Et de
plus, l'observation nous dit que les valeurs définies ne sont en fait pas une propriété universelle de
la nature, mais plutôt une propriété des objets macroscopiques où la ligne de démarcation de la
réalité macroscopique est difficile à tracer précisément. Des expériences d'interférence
mésoscopiques ont démontré clairement de flou de cette limite. Etant donné la perte de définition
précise de la limite, toute demande pour des valeurs définies fondamentales au niveau objectif
devrait être basé sur un engagement beaucoup plus profond et plus général vers des valeurs définies
qui s'appliquent à toute entité physique (ou système), de long en large, sans s'occuper de sa taille ou
de ses propriétés physiques.
Donc, si nous réalisons que la sensation souvent profonde que l'engagement à des valeurs définies
objectives générales est seulement basée sur notre expérience des systèmes macroscopiques et que
ces valeurs définies échouent en fait d'une manière observable pour les systèmes microscopiques et
même certains systèmes mésoscopiques, on ne voit pas de fondement astreignant sur lequel les
valeurs définies objectives doivent être exigées comme une partie d'une théorie physique
satisfaisante pourvu que la théorie puisse prendre en compte des valeurs définies subjectives
observationnelles en accord avec notre expérience. Donc, nous suggérons d'attribuer la même
légitimité aux propositions pour une solution du problème de la mesure qui réalise "seulement" des
valeurs définies subjectives mais pas objectives. Après tout, le problème de la mesure vient
seulement d'un affrontement entre notre expérience et certaines implications du formalisme
quantique. D'Espagnat (2000, pp. 134-135) a défendu un point de vue similaire :
Le fait que nous percevions des "choses" comme les objets macroscopiques en des endroits précis
est dû, au moins partiellement, à la structure de nos sens et de notre équipement intellectuel. Nous
ne devrions donc pas l'écarter de l'ensemble des connaissances sûres que nous avons pour prendre
en compte la définition d'un état quantique. (...) En fait, les scientifiques affirment avec raison que
le but de la science est de décrire l'expérience humaine et pas de décrire "ce qu'est la réalité", et
aussi longtemps que nous désirons décrire l'expérience humaine, c'est-à-dire aussi longtemps que
nous nous contentions d'être capable de prédire ce qui sera observé dans toutes les circonstances
possibles (...) nous n'aurons pas besoin de postuler l'existence, dans un certain sens absolu,
d'objets non observés (c'est à dire pas encore observés) ayant une place précise dans l'espace
ordinaire à trois dimensions.
VI.3.3. Le problème de la base privilégiée
La seconde difficulté associée à la mesure quantique est connue comme le problème de la base
privilégiée qui démontre que l'observable mesuré n'est en général pas défini de manière unique par
l'équation de mesure. Pour tout choix d'états systèmes { S n }, nous pouvons trouver des états
appareils correspondant { An } et vice versa, pour réécrire de manière équivalente l'état final
émergeant de l'interaction de prémesure, c'est-à-dire le coté droit de l'équation de mesure. En
général, cependant, pour certains choix d'états appareils, les nouveaux états systèmes
correspondants ne seront pas mutuellement orthogonaux, ainsi l'observable associé à ces états ne
sera pas hermitique ce qui n'est habituellement pas désirable (bien que non interdit, voir la
discussion de Zurek, 2003). Inversement, pour assurer des résultats distincts, nous devons en
général exiger (au moins approximativement) l'orthogonalité des états (pointeurs) appareils et il suit
alors du théorème de décomposition biorthogonal que le développement de l'état final de prémesure
système - appareil de l'équation de mesure :
(2) ψ = ∑ c n S n An
n
est unique mais seulement si tous les coefficients c n sont distincts. Autrement, nous pouvons en
général réécrire l'état en termes de vecteurs d'états différents,
(3) ψ = ∑ c n′ S n′ An′
n
et le même état de post-mesure semble correspondre à deux mesures différentes, c'est-à-dire aux
observables A = ∑n λ n S n S n et B = ∑n λ n′ S n′ S n′ du système, bien qu'en général A et B ne
commutent pas.
Maintenant supposons que le système 2 agit comme un dispositif de mesure pour le spin du
système 1. Alors les équations (3) et (4) impliquent que le dispositif de mesure a établit une
corrélation avec à la fois le spin z et x du système 2. Cela signifie que, si nous interprétons la
formation d'une telle corrélation comme une mesure dans l'esprit du schéma de von Neumann (sans
supposer de réduction), notre appareil (système 2) pourrait être considéré comme ayant mesuré
aussi le spin x une fois qu'il a mesuré le spin z et vice versa, en dépit de la non-commutativité des
observables de spin correspondants σ x et σ z . De plus, puisque nous pouvons écrire l'équation (3)
d'une infinité de manière différente, il semble qu'une fois que l'appareil a mesuré le spin du système
1 le long d'une direction, il peut aussi être vu comme ayant mesuré le spin le long de toute autre
direction, à nouveau en contradiction apparente avec la mécanique quantique due à la non-
commutativité des observables de spin correspondants à différentes orientations spatiales.
Il semble donc que la mécanique quantique n'a rien à dire sur quels observables du système sont
enregistrés, via la formation des corrélations quantiques, par l'appareil. Cela peut être formulé en un
théorème général (Auletta, 2000, Zurek, 1982) : quand la mécanique quantique est appliquée à un
objet composite isolé consistant en un système S et un appareil A, elle ne peut pas déterminer quel
observable du système a été mesuré, en contradiction évidente avec notre expérience des appareils
de mesure qui semblent être "conçus" pour mesurer certaines quantités.
VI.3.4. La transition quantique - classique et la décohérence
En essence, comme nous l'avons vu ci-dessus, le problème de la mesure traite de la transition d'un
monde quantique, décrit par des superpositions essentiellement arbitraires de vecteurs d'états, à
notre perception des états "classiques" du monde macroscopique, c'est à dire un ensemble
relativement très petit d'états permis par le principe de superposition de la mécanique quantique
ayant seulement quelques propriétés déterminées et robustes tel que la position, le moment, etc. La
question de pourquoi et comment notre expérience d'un monde "classique" émerge de la mécanique
quantique réside donc au cœur des problèmes de fondation de la théorie quantique.
Le programme de décohérence (à partir des idées et concepts clés, voir Joos et Zeh (1985), Joos et
al. (2003), Kübler et Zeh (1973), Zeh (1970, 1973, 1995, 1996, 1999), Zurek (1981, 1982, 1991,
1993, 2003)) est basée sur l'idée que de telles corrélations sont ubiquistes, que pratiquement tous
les systèmes physiques doivent interagir d'une certaine manière avec leur environnement (par
exemple avec les photons environnant qui créent alors l'expérience visuelle de l'observateur) qui
consiste typiquement en un grand nombre de degrés de liberté qui sont difficilement totalement
contrôlés. C'est seulement dans des cas très particuliers de phénomènes typiquement
microscopiques (atomiques), tel que l'affirme le programme de décohérence, que l'idéalisation de
systèmes isolés est applicable et que les prédictions de la mécanique quantique linéaire (c'est-à-dire
une grand classe de superpositions d'états) peuvent réellement être confirmés par l'observation.
Dans la majorité des cas accessibles à notre expérience, cependant, l'interaction avec
l'environnement est si dominante qu'elle empêche l'observation du monde quantique "pur"
(Cisnerosy et al., 1998, Galindo et al., 1962, Giulini, 2000, Wick et al., 1952, 1970, Wightman,
2005) dans l'espace des états observables qui conduit à des états correspondant aux propriétés
"classiques" de notre expérience. Les interférences entre de tels états sont localement supprimées et
sont donc devenues inaccessibles à l'observateur.
L'aspect probablement le plus surprenant de la décohérence est l'efficacité des interactions système
- environnement. La décohérence a typiquement lieu sur des échelles de temps extrêmement
courtes et nécessite la présence de seulement un environnement minimal (Joos et Zeh, 1985). A
cause du grand nombre de degrés de liberté de l'environnement, il est habituellement très difficile
de démêler l'intrication système - environnement ce qui a été affirmé comme une source de notre
impression de l'irréversibilité de la nature (voir Zurek, 2003, et les références inclues). En général,
l'effet de la décohérence s'accroît avec la taille du système (des échelles microscopiques aux
macroscopiques) mais il est important de noter qu'il existe des exemples, considérés comme
quelque peu exotiques, où l'influence décohérente de l'environnement peut être suffisament
atténuée pour conduire à des superpositions mésoscopiques et même macroscopiques, par exemple
dans le cas des dispositifs supraconducteurs à interférences quantiques (SQUID) où la
superposition de courants macroscopiques devient observable. Inversement, certains systèmes
microscopiques (par exemple certaines molécules chirales qui existent dans différentes
configurations spatiales distinctes) peuvent être sujets à une décohérence remarquablement forte.
Notons que la persistance de la cohérence dans l'état total est importante pour assurer la
possibilité de décrire des cas spéciaux où des superpositions mésoscopiques ou macroscopiques
ont été expérimentalement réalisées.
2. Super sélection induite par l'environnement. La sélection des ensembles d'états privilégiés,
souvent appelée "pointeurs d'états", qui sont robustes (dans le sens de corrélations maintenues
dans le temps) en dépit de leur immersion dans l'environnement. Ces états sont déterminés par
la forme de l'interaction entre le système et son environnement et il est suggéré qu'ils
correspondent aux états "classiques" de notre expérience.
Finalement, insistons sur le fait que la décohérence vient d'une application directe du formalisme de
la mécanique quantique à une description de l'interaction des systèmes physiques avec leur
environnement. En elle-même la décohérence n'est donc ni une interprétation, ni une modification
de la mécanique quantique. Donc, les implications de la décohérence doivent être interprétées dans
le contexte des différentes interprétations de la mécanique quantique. Aussi, puisque les effets de la
décohérence ont été étudiés extensivement à la fois dans les modèles théoriques et expérimentaux
(pour un résumé, voir par exemple Joos et al., 2003, Zurek, 2003), leur existence peut être
considérée comme un fait bien confirmé.
VI.4.1. Résolution en sous systèmes
Notons que la décohérence dérive de la pré supposition de l'existence et de la possibilité d'une
division du monde en "système(s)" et "environnement". Dans le programme de décohérence, le
terme "environnement" est habituellement compris comme le "reste" du système dans le sens que
ses degrés de liberté ne sont typiquement pas (ou ne peuvent pas être ou n'ont pas besoin d'être)
contrôlés et ne sont pas directement pertinents pour l'observation considérée (par exemple, les
nombreux degrés de liberté microscopiques du système), mais que l'environnement inclut
néanmoins "tous ces degrés de liberté qui contribuent de manière significative à l'évolution de l'état
de l'appareil" (Zurek, 1981, p. 1520).
Ce dualisme système - environnement est généralement associé avec l'intrication quantique qui
décrit toujours une corrélation entre des parties de l'univers. Sans résoudre l'univers en sous
systèmes individuels, le problème de la mesure disparaît évidemment : le vecteur d'état ψ de
l'univers entier (si nous osons postuler cet état total , voir les contrarguments de Auletta (2000))
évolue de manière déterministe selon l'équation de Schrödinger ih∂ / ∂t ψ = H ψ qui ne pose
aucune difficulté d'interprétation. C'est seulement lorsque nous décomposons l'espace de Hilbert
des états totaux H de l'univers en un produit de deux espaces H 1 ⊗ H 2 et que nous formons le
vecteur d'état joint ψ = ψ 1 ψ 2 et que nous désirons décrire un état individuel (à coté de l'état
joint qui décrit une corrélation) d'un des deux systèmes (disons l'appareil) que le problème de la
mesure survient. Zurek (2003a, p. 718) pose cela comme :
En l'absence de système, le problème de l'interprétation semble disparaître. Il n'y a tout simplement
pas besoin de "réduction" dans un univers sans système. Notre expérience de la réalité classique ne
s'applique pas à l'univers comme un tout, vu de l'extérieur, mais aux systèmes contenus dedans.
De plus, des termes comme "observation", "corrélation" et "interaction" ont naturellement peu de
sens sans une division en systèmes. Zeh a suggéré que la localité de l'observateur définit une
observation dans le sens que toute observation vient de l'ignorance d'une partie de l'univers et que
cela définit aussi les "faits" qui peuvent se produire dans un système quantique. Landsman (1995,
pp. 45-46) affirme de manière similaire :
L'essence d'une "mesure", "fait", ou "événement" en mécanique quantique tient dans la non-
observation ou la non-pertinence d'une certaine partie du système en question (...) Un monde sans
parties déclarées ou forcées sans intérêt est un monde sans fait.
Une idée fréquemment proposée est d'abandonner la notion d'une résolution "absolue" et à la place
de postuler la relativité intrinsèque des espaces d'états distincts et des propriétés qui émergent des
corrélations entre ces espaces définis relativement (voir, par exemple, les propositions, non reliées à
la décohérence, de Everett, 1957, Mermin, 1998, Rovelli, 1996). Ici, on peut utiliser la leçon
apprise de l'intrication quantique, c'est-à-dire accepter que ce soit une propriété intrinsèque de la
nature et ne pas voir ses implications contre intuitives, dans le sens non classique, comme des
paradoxes qui demandent une résolution plus importante, comme un signal que la vue relative des
systèmes et corrélations sont en effet un chemin satisfaisant afin d'arriver à une description de la
nature qui est complète et objective comme le domaine de notre expérience (qui est basée sur des
observations inévitablement locales) nous le permet.
VI.4.2. Le concept de matrice de densité réduite
Puisque les matrices de densité réduite sont un outil clef de la décohérence, il est intéressant de
résumer brièvement leurs propriétés de base et leur interprétation dans ce qui suit. Le concept de
matrice de densité réduite est relié aux débuts de la mécanique quantique (Furry, 1936, Landau,
1927, von Neumann, 1932, pour quelques remarques historiques, voir Pessoa Jr., 1998). Dans le
contexte d'un système de deux systèmes intriqués dans un état pur de type EPR :
(1) ψ
1
(
+1− 2− −1+ 2 )
2
Il a été réalisé très tôt que pour un observable O qui se rattache seulement au système 1,
Oˆ = Oˆ 1 ⊗ Iˆ2 où I est l'opérateur identité, la matrice de densité état pur ρ = ψ ψ conduit, selon la
règle de la trace O = Tr ( ρ O ) et étant donné la règle de Born usuelle pour le calcul des
probabilités, à exactement les mêmes statistiques que la matrice de densité réduite ρ1 qui est
obtenue en prenant la trace sur les degrés de liberté du système 2 (c'est à dire les états + 2
et − 2 )
(2) ρ1 = Tr2 ψ ψ = 2 + ψ ψ + 2 + 2 − ψ ψ − 2
puisque l'on montre facilement que pour cet observable O
(3) O ψ = Tr ( ρ O ) = Tr1 ( ρ1O1 )
Ce résultat est valable en général pour tout état pur ∑α φi φi 2 L φi d'une résolution d'un
{ } sont supposés former des bases orthonormales dans leurs
i i 1 N
espaces de Hilbert respectifs H j , j =1, ..., N. Pour tout observable O qui se rattache seulement au
système j, O = I 1 ⊗ I 2 L I j −1 ⊗ O j ⊗ I j +1 L ⊗ I N , les statistiques de O générées en appliquant la
règle de trace seront identiques que l'on utilise la matrice de densité d'état pur ρ = ψ ψ ou la
matrice de densité réduite ρ j = Tr1,K, j −1, j +1,K, N ψ ψ puisque à nouveau
O = Tr ( ρ O ) = Tr j (ρ j O j ).
La situation typique dans laquelle la matrice de densité réduite apparaît est la suivante. Avant une
interaction de type prémesure, les observateurs savent que chaque système individuel est dans un
certain état pur (inconnu). Après l'interaction, c'est à dire après que la corrélation entre les systèmes
est établie, l'observateur a accès seulement à un des systèmes, disons le système 1. Tout ce qui peut
être connu sur l'état du système composite doit donc être dérivé des mesures sur le système 1 qui
conduiront aux résultats possibles du système 1 et leur distribution de probabilité. Toute
information qui peut être extraite par l'observateur est alors exhaustivement et correctement
contenue dans la matrice de densité réduite du système 1 en supposant que la règle de Born pour les
probabilités quantiques soit valable.
Retournons à l'exemple type EPR, équations (1) et (2). Si nous supposons que les états du système
2 sont orthogonaux, 2 + − 2 = 0 , ρ1 devient diagonal,
(4) ρ1 = Tr2 ψ ψ =
1
(+ + )
1
+
1
( − − )1
2 2
Mais cette matrice de densité est formellement identique à la matrice de densité qui serait obtenue
si le système 1 était dans un état mixte, c'est-à-dire dans un des deux états + 1 et − 1 avec des
probabilités égales et où c'est une question d'ignorance de savoir dans quel état le système 1 est (ce
qui revient à une interprétation d'ignorance classique d'ensembles "propres"), par opposition à la
superposition ψ où les deux termes sont considérés présent ce qui pourrait en principe être
confirmé par des expériences d'interférences appropriées. Cela implique qu'une mesure d'un
observable qui se rattache seulement au système 1 ne peut pas distinguer entre les deux cas d'état
pur et mixte.
Comme discuté par Bub (1997, pp. 208-210), ce résultat est également valable pour tout observable
du système composite qui se factorise sous la forme O = O1 ⊗ O2 où O1 et O2 ne commutent pas
avec les opérateurs projections ( ± ± )
1
et ( ± ± )
2
respectivement.
Cependant, notons que l'identité formelle de la matrice de densité réduite à une matrice de densité
d'état mixte est facilement mal interprétée comme impliquant que l'état du système peut être vu
comme mixte aussi (voir aussi la discussion dans d'Espagnat, 1988). Mais les matrices de densité
sont seulement un outil de calcul pour calculer la distribution de probabilité pour l'ensemble des
résultats possibles des mesures. Elles ne spécifient donc pas l'état du système.
Dans ce contexte, nous notons que toute matrice d'état non pur peut être écrite de plusieurs
manières différentes, démontrant que toute partition dans un ensemble particulier d'états quantiques
est arbitraire.
Puisque les deux systèmes sont intriqués et que le système composite total est encore décrit par une
superposition, il suit des règles standards de la mécanique quantique qu'aucun état individuel défini
ne peut être attribué à un des systèmes. La matrice de densité réduite ressemble à une matrice de
densité mixte car si on mesure réellement un observable du système, on devrait s'attendre à avoir un
résultat défini avec une certaine probabilité. En termes de mesures statistiques, cela est équivalent à
une situation où le système était dans un des états de l'ensemble possible des résultats depuis le
début, c'est à dire avant la mesure. Comme Pessoa Jr. (1998, p. 432) le dit,
Prendre une trace partielle revient à une version statistique du postulat de projection.
VI.4.3. Un schéma de mesure de von Neumann modifié
Reconsidérons maintenant le modèle de von Neumann de la mesure quantique idéale, mais
maintenant avec l'environnement inclut. Nous désignerons l'environnement par E et nous
représenterons son état avant l'interaction de mesure par le vecteur d'état initial E 0 dans un
espace de Hilbert H E . Comme d'habitude nous supposerons que l'espace d'état de l'objet composite
système - environnement - appareil est donné par le produit tensoriel des espaces de Hilbert
individuel, H S ⊗ H A ⊗ H E . La linéarité de l'équation de Schrödinger conduit alors à l'évolution
dans le temps suivante du système entier S-A-E,
(1) (2 )
(1) ∑ c n S n Ar E 0 → ∑ c n S n An E 0 → ∑ c n S n An E n
n n n
où les E n sont les états de l'environnement associés avec les différents états pointeurs An de
l'appareil de mesure. Notons que tandis que pour deux systèmes, disons S et A, il existe toujours
une décomposition diagonale ("Schmidt") de l'état final de la forme ∑ c n S n An , pour les trois
n
toujours possible. Cela implique que l'hamiltonien complet qui induit une évolution dans le temps
du type ci-dessus, équation (1), doit être d'une forme spéciale.
Pour un exemple d'un tel hamiltonien, voir le modèle de Zurek (1981, 1982). Pour un commentaire
critique concernant les limitations sur la forme de l'opérateur évolution et la possibilité d'un
désaccord résultant avec l'évidence expérimentale, voir Pessoa Jr. (1998).
Typiquement, les E n seront des états produits de plusieurs états de sous-systèmes microscopiques
εn i
correspondant aux parties individuelles qui forment l'environnement, c'est-à-dire
E n = ε n 1 ε n 2 ε n 3 L . Nous voyons qu'une corrélation non séparable et, dans la plus part des
cas, dans tous les cas pratiques (à cause du nombre énorme de degrés de liberté de
l'environnement), irréversibles entre les états de la combinaison système - appareil avec les
différents états de l'environnement E a été établie. Notons que l'équation (1) implique aussi que
l'environnement a enregistré l'état de la composition système - appareil. L'environnement agit donc
comme un dispositif de mesure amplificateur d'ordre élevé (puisqu'il est composé de plusieurs
sous-systèmes).
VI.4.4. Décohérence et suppression locale d'interférence
L'interaction avec l'environnement conduit typiquement à une annulation rapide des termes
diagonaux dans la matrice de densité locale décrivant la distribution de probabilité pour le résultat
des mesures sur le système. Cet effet est maintenant connu comme la décohérence induite par
l'environnement et il a aussi fréquemment été affirmé impliquer une résolution au moins partielle
du problème de la mesure.
VI.4.4.1. Formalisme général
Plus haut, nous avons déjà introduit le concept de matrices de densité locales (ou réduites) et
indiqué leur cadre interprétatif. Dans le contexte du programme de décohérence, les matrices de
densité réduites apparaissent comme suit. Toute observation sera typiquement restreinte à la
composante système - appareil, S-A, tandis que les nombreux degrés de liberté de l'environnement
E restent inobservés. Bien sûr, typiquement certains degrés de liberté de l'environnement seront
toujours inclus dans notre observation (par exemple certains des photons diffusés par l'appareil) et
nous les inclurons donc dans "la partie S-A observée de l'univers". Le point crucial est qu'il reste un
nombre considérablement plus grand de degrés de liberté de l'environnement qui ne sont pas
observés directement.
Supposons alors que l'opérateur OSA représente un observable de S-A seulement. Sa valeur
moyenne OSA est donnée par
(1) OSA = Tr ( ρ SAE [OSA ⊗ I E ]) = TrSA ( ρ SA OSA )
où la matrice de densité ρ SAE de la combinaison totale S-A-E
(2) ρ SAE = ∑ c m c n∗ S m Am E m S n An E n
m,n
a, dans tout cas pratique de prédiction statistique, été remplacée par la matrice de densité locale (ou
réduite) ρ SA obtenue en "prenant la trace des degrés de liberté inobservés de l'environnement",
c'est-à-dire
(3) ρ SA = TrE ( ρ SAE ) = ∑ c m c n∗ S m Am S n An E n E m
m ,n
n n
Ici, Pn(S ) et Pn( A ) sont les projecteurs sur les états propres de S et A respectivement. Donc les termes
d'interférence ont disparus dans cette représentation locale, c'est-à-dire que la cohérence de phase a
été totalement perdue. C'est précisément l'effet appelé décohérence induite par l'environnement. La
matrices de densité locale décohérée décrivant la distribution de probabilité des résultats d'une
mesure sur la combinaison système - appareil est formellement (approximativement) identique à la
matrice de densité d'états mixtes. Mais comme nous l'avons signalé plus haut, nous devons
interpréter avec précaution cet état des choses car la cohérence complète est gardée dans la matrice
de densité totale ρ SAE .
VI.4.4.2. Un modèle a deux états parfaitement soluble pour la
décohérence
Pour voir comment l'orthogonalité mutuelle approximative des vecteurs d'états se produit, discutons
d'un modèle simple qui fut d'abord introduit par Zurek (1982). Considérons un système S avec des
{ }
états à deux spins ⇑ , ⇓ qui interagissent avec l'environnement E décrit par une collection de N
{ }
autres spins à deux états représentés par ↑ k , ↓ k , k = 1, ..., N. Les hamiltoniens propres H S et
H E et l'hamiltonien d'auto-interaction H EE de l'environnement sont posés égaux à zéro. Seul
l'hamiltonien d'interaction H SE qui décrit le couplage du spin du système aux spins de
l'environnement est supposé non nul et de la forme
( ) (
(1) H SE = ⇑ ⇑ − ⇓ ⇓ ⊗ ∑ g k ↑ k ↑ k − ↓ k ↓ k ⊗ I k ′ ) k ′≠ k
k
( )
N
(4) E⇑ (t ) = E⇓ (− t ) = ⊗ α k exp(ig k t ) ↑ k + β exp(− ig k t ) ↓ k
k =1
où le coefficient d'interférence z (t ) qui détermine le poids des éléments non diagonaux dans la
matrice de densité réduite est donné par
N
(6) z (t ) = E⇑ (t ) E ⇓ (t ) = ∏ α k exp(ig k t ) + β k exp(− ig k t )
2 2
k =1
Et donc
( ) − 1 sin
N
(7) z (t ) = ∏1 + α k
2 2
− βk
2 2 2
2g k t
k =1
A t = 0, z (t ) = 1 , c'est-à-dire que les termes d'interférence sont totalement présents, comme attendu.
Si α k
2
= 0 ou 1 pour chaque k, c'est-à-dire si l'environnement est un état propre de l'hamiltonien
d'interaction H SE du type ↑1 ↑ 2 ↑ 3 L ↑ N , et/ou si 2 g k t = mπ (m = 0, 1, ...), alors z (t ) = 1 et
2
la cohérence est maintenue au cours du temps. Cependant, dans des circonstances réalistes, nous
pouvons typiquement supposer une distribution aléatoire des états initiaux de l'environnement
(c'est-à-dire des coefficients α k , β k ) et des coefficients de couplage g k . Alors, pour la moyenne à
longue durée,
( ) → 0
N
(8) z (t ) ≅ 2 − N ∏1 + α k
2 2
− βk N →∞
2 2
t →∞ k =1
ainsi les éléments non diagonaux dans la matrice de densité réduite sont fortement amortis pour de
grands N.
On peut aussi montrer qu'étant donné des hypothèses très générales, sur la distribution des
couplages g k (précisément en demandant que leur distribution initiale ait une variance finie, par
exemple une distribution statistique gaussienne), z (t ) exhibe une dépendance gaussienne du temps
( )
de la forme z (r ) ~ exp(iAt ) exp − B 2 t 2 / 2 , où A et B sont des constantes réelles (Zurek et al.,
2003). Pour le cas particulier où α k = α et g k = g pour tout k, ce comportement de z (t ) peut être
vu immédiatement en réécrivant d'abord z (t ) comme le développement binomial
(
z (t ) = α exp(igt ) + β exp(− igt )
2 2
)
N
(9) N
N 2 ( N −l )
= ∑ α β exp(ig (2l − N )t )
2l
l =0 l
Pour de grands N, la distribution binomiale peut être approchée par une gaussienne
N 2l 2 ( N −l )
exp − l − N α
2 2
(
/ 2 N α β
2 2
) ( )
(10) α β ≈
l 2πN α β
2 2
N
(
exp − l − N α ) /(2 N α
2 2 2
β
2
)
(11) z (t ) = ∑ exp(ig (El − N )t )
2πN α β
2 2
l =0
Les calculs détaillés du modèle, où l'environnement est typiquement représenté par un modèle plus
sophistiqué consistant en une collection d'oscillateurs harmoniques (Caldeira et Leggett, 1993, Hu
et al., 1992, Joos et al., 2003, Unruh et Zurek, 1989, Zurek, 2003, Zurek et al, 2003), ont montré
que l'amortissement se produit sur des échelles de temps extrêmement courtes τ D qui sont
typiquement plusieurs ordres de grandeur plus court que la relaxation thermique. Même des
systèmes microscopiques tel que de grandes molécules perdent rapidement leur cohérence par
interaction avec le rayonnement thermique sur une échelle de temps qui est dans tous les cas
d'observation pratique beaucoup plus court que toute observation ne pourrait le résoudre. Pour des
systèmes mésoscopiques tel que des particules de poussière, le rayonnement cosmologique à 3K est
suffisant pour conduire à une décohérence forte et immédiate (Joos et Zeh, 1985, Zurek, 1991).
En τ D , z (t ) approche de zéro et reste proche de zéro, fluctuant avec une déviation standard
moyenne de type marche aléatoire σ ~ N (Zurek, 1982). Cependant, la périodicité multiple de
z (t ) implique que la cohérence et donc la pureté de la matrice de densité réduite réapparaîtra après
un certain temps τ r que l'on peut montrer être très long et du type temps de récurrence de Poincaré
avec τ r ~ N ! . Pour des environnements macroscopiques de tailles réalistes mais finies, τ r peut
excéder l'âge de l'univers (Zurek, 1982) mais rester néanmoins finie.
D'un point de vue conceptuel, la récurrence de la cohérence est de peu d'importance. Le temps de
récurrence pourrait seulement être infiniment long dans le cas hypothétique d'un environnement
infiniment grand; dans cette situation les termes non diagonaux dans la matrice de densité réduite
seraient irréversiblement amortis et perdus à la limite t → ∞ ce qui est quelque fois vu comme
décrivant une réduction physique du vecteur d'état (Hepp, 1972). Mais ni la supposition de taille ou
de temps infinis ne sont réalisés dans la nature (Bell, 1975), et l'information ne peut pas vraiment
être perdue (comme cela se produit avec une "vraie" réduction du vecteur d'état) via une évolution
unitaire du temps, la cohérence complète est toujours entièrement retenue à tout moment dans la
matrice de densité totale ρ SAE (t ) = ψ (t ) ψ (t ) .
Nous pouvons donc dire la conclusion générale que, excepté pour des systèmes microscopiques ou
mésoscopiques isolés et préparés avec précaution, l'interaction du système avec l'environnement
conduit les éléments non diagonaux de la matrice de densité locale, exprimée dans la base des
pointeurs et décrivant la probabilité de distribution des résultats possibles d'une mesure sur le
système, à devenir extrêmement petits en un temps très court et que ce processus est irréversible
dans toutes les situations pratiques.
VI.4.5. Supersélection induite par l'environnement
Revenons à la deuxième principale conséquence de l'interaction avec l'environnement, c'est-à-dire
la sélection induite par l'environnement des états de base stables privilégiés. Nous avons discuté
plus haut que le schéma de mesure de la mécanique quantique comme représenté par l'équation de
mesure ne définit pas de manière unique le développement des états après mesure, et donc laisse
ouverte la question des observables qui peuvent être considérés comme ayant été mesurés par
l'appareil. Cette situation est changée par l'inclusion des états d'environnement pour les deux
raisons suivantes :
1. Supersélection induite par l'environnement d'une base privilégiée. L'interaction entre l'appareil
et l'environnement distingue un ensemble d'observables mutuellement commutants.
2. L'existence d'un théorème d'unicité de tridécomposition (Bub, 1997, Clifton, 1995, Elby et Bub,
1994). Si un état ψ dans un espace de Hilbert H 1 ⊗ H 2 ⊗ H 3 peut être décomposé sous
forme diagonale ("Schmidt") ψ = ∑i α i φ i 1
φi 2
φi 3
, le développement est unique pourvu
{ } et {φ } soient des ensembles de vecteurs normalisés, linéairement
que les φ i 1 i 2
normalisés non mutuellement colinéaires dans H 3 . Cela peut être généralisé à un théorème
d'unicité de N-décomposition où N ≥ 3 . Notez qu'il n'est pas toujours possible de décomposer
un état pur arbitraire de plus de deux systèmes ( N ≥ 3 ) sous la forme de Schmidt
| ψ = ∑i α i φ i 1 φ i 2 L φ i N , mais si la décomposition existe, son unicité est garantie.
Bien sûr, étant donné tout état pur dans l'espace de Hilbert composite H 1 ⊗ H 2 ⊗ H 3 , le théorème
d'unicité de tridécomposition ne nous dit pas si une décomposition de Schmidt existe ni ne spécifie
le développement unique lui-même (pourvu que la décomposition soit possible) et puisque les états
précis de l'environnement ne sont généralement pas connus, un critère additionnel est nécessaire
pour déterminer quels seront les états privilégiés.
VI.4.5.1. Critère de stabilité et base de pointeurs
Le programme de décohérence a tenté de définir un tel critère basé sur l'interaction avec
l'environnement et l'idée d'une robustesse et de la préservation des corrélations. L'environnement
joue donc un double rôle en suggérant une solution au problème de la base privilégiée et en
garantissant son unicité via le théorème d'unicité de tridécomposition.
Pour les limitations fondamentales sur la précision des mesures de von Neumann d'opérateurs qui
ne commutent pas avec une quantité globalement conservée, voir le théorème Wigner - Araki -
Yanase (Araki et Yanase, 1906, Wigner, 1952).
Il fut donc suggéré d'abord par Zurek (1981) de prendre la base de pointeurs privilégiée comme la
base qui "contient un enregistrement fiable de l'état du système S" (op.cit. p.1519), c'est-à-dire la
base dans laquelle les corrélations systèmes - appareils S n An sont laissées non perturbées par la
formation subséquente de corrélations avec l'environnement ("critère de stabilité"). Un critère
suffisant pour des états pointeurs dynamiquement stables qui préserve les corrélations système -
appareil en dépit des interactions de l'appareil avec l'environnement est alors trouvé en exigeant que
tous les opérateurs projections des états pointeurs Pn( A ) = An An commutent avec l'hamiltonien
d'interaction appareil - environnement H AE .
Pour la simplicité, nous supposons que l'environnement E interagit directement seulement avec
l'appareil mais pas avec le système S.
C'est-à-dire :
[ ]
(1) Pn( A ) , H AE = 0 pour tout n
Cela implique que toute corrélation du système mesuré (ou de tout autre système, par exemple un
observateur) avec les états propres d'un observable appareil privilégié,
(2) O A = ∑ λ n Pn( A )
n
est préservée et que les états de l'environnement reflètent fidèlement les états pointeurs Pn( A ) . Dans
ce cas, l'environnement peut être vu comme effectuant une mesure non destructive sur l'appareil.
L'exigence de commutativité, équation (1), est évidemment satisfaite si H AE est une fonction de
O A , H AE = H AE (O A ) . Inversement, les corrélations système - appareil où les états de l'appareil ne
sont pas des états propres d'un observable qui commute avec H AE seront en général rapidement
détruites par l'interaction.
Vu d'une autre manière, cela implique que l'environnement détermine à travers la forme de
l'hamiltonien d'interaction H AE un observable appareil privilégié O A , équation (2), et donc aussi
les états du système qui sont mesurés par l'appareil, c'est-à-dire fidèlement enregistré via la
formation de corrélations quantiques dynamiquement stables. Le théorème d'unicité de
tridécomposition garantit alors l'unicité du développement de l'état final ψ = ∑n c n S n An E n
(où aucune contrainte sur les c n ne doit être imposée) et donc l'unicité de la base de pointeurs
privilégiée.
A côté de l'exigence de commutativité, équation (1), d'autres critères (similaires) ont été suggérés
pour la sélection de la base de pointeurs privilégiés car il s'avère que dans les cas réalistes la simple
relation de l'équation (1) peut habituellement seulement être approximativement satisfaite (Zurek,
1993, Zurek et al, 1993). Des critères plus généraux, par exemple basés sur l'entropie de von
Neumann, − Tr ρ φ2 (t ) ln ρ φ2 (t ) , ou la pureté, − Tr ρ φ2 (t ) , qui soutiennent le but de trouver les états
les plus robustes (ou les états qui deviennent moins intriqués avec l'environnement au cours de
l'évolution), ont été suggérés (Zurek, 1993, 1998, 2003, Zurek et al, 1993). Les états pointeurs sont
obtenus par un extremum sur la mesure (c'est-à-dire en minimisant l'entropie ou en maximisant la
pureté, etc.) sur l'état initial ψ et en exigeant que les états résultant soient robustes en faisant
varier t. L'application de cette méthode conduit à un classement des états pointeurs possibles par
rapport à leur "classicalité", c'est-à-dire leur robustesse par rapport à l'interaction avec
l'environnement et permet donc la sélection de la base de pointeurs privilégiée basée sur les états
pointeurs "les plus classiques" ("crible de prédicabilité", voir Zurek, 1993, Zurek et al, 1993). Bien
que les critères proposés diffèrent quelque peu et que d'autres critères significatifs pourraient être
suggérés dans le futur, on espère que dans la limite macroscopique les états pointeurs stables
résultant obtenus selon différents critères s'avèrent être très similaires (Zurek, 2003). Pour certains
modèles élémentaires (en particulier pour les modèles d'oscillateurs harmoniques qui conduisent à
des états cohérents pour les états pointeurs), cela a déjà été vérifié explicitement (voir Joos et al,
2003, Diosi et Kiefer, 2000 et références inclues).
VI.4.5.2. Sélection et propriétés quasi classiques
Les hamiltoniens d'interaction système - environnement décrivent souvent un processus de collision
de particules environnantes (photons, molécules d'air, etc.) avec le système étudié. Puisque les lois
des forces décrivant de tels processus dépendent typiquement d'une certaine puissance de la
distance (tel que la loi en ∝ r −2 de la loi de Newton ou de Coulomb), l'hamiltonien d'interaction
commutera habituellement avec la base position, et donc, selon l'exigence de commutativité de
l'équation (1) de la section précédente, la base privilégiée sera dans l'espace position. Le fait que la
position soit fréquemment la propriété déterminée de notre expérience peut être expliqué en se
rapportant à la dépendance de la plus part des interactions avec la distance (Zurek, 1981, 1982,
1991).
Cela est valable en particulier pour les systèmes mésoscopiques et macroscopiques, comme cela fut
démontré par exemple par l'étude pionnière de Joos et Zeh (1985) où les photons environnant et les
molécules d'air sont montrés "mesurer" continûment la structure spatiale des particules de poussière
conduisant à une rapide décohérence en une mixture apparente (c'est-à-dire impropre) de paquets
d'ondes qui sont fortement concentrés dans l'espace position. Des résultats similaires sont même
quelque fois valables pour des systèmes microscopiques (qui sont habituellement trouvés dans les
états propres de l'énergie, voir ci-dessous) quand ils se produisent dans des structures spatiales
distinctes qui sont fortement couplées au médium environnant. Par exemple, les molécules chirales
tel que le sucre sont toujours observées dans des états propres de chiralité (gauche et droit) qui sont
des superpositions de différents états propres de l'énergie (Harris et Stodolsky, 1981, Zeh, 1999).
Cela est expliqué par le fait que la structure spatiale de ces molécules est "guidée" continûment par
l'environnement, par exemple à travers la diffusion de molécules d'air qui conduisent à un couplage
beaucoup plus fort que celui qui serait typiquement obtenu par un dispositif de mesure qui était
destiné à mesurer, par exemple, la parité ou l'énergie. De plus toutes tentatives pour préparer de
telles molécules dans des états propres de l'énergie conduirait immédiatement à une décohérence
vers des états propres environnalement stables ("dynamiquement robustes") sélectionnant donc la
position comme la base privilégiée.
D'un autre coté, il est bien connu que plusieurs systèmes, particulièrement dans le domaine
microscopique, sont typiquement trouvés dans des états propres de l'énergie, même si l'hamiltonien
d'interaction dépend d'un observable différent de l'énergie, par exemple la position. Paz et Zurek
(1999) ont montré que cette situation se produit quand les fréquences dominantes présentes dans
l'environnement sont significativement plus basses que la fréquence intrinsèque du système, c'est-à-
dire quand la séparation entre les états propres d'énergie du système est plus grande que la plus
grande énergie disponible dans l'environnement. Alors l'environnement sera seulement capable de
guider des quantités qui sont constantes avec le mouvement conduisant donc à une supersélection
induite par l'environnement d'états propres de l'énergie pour le système.
Un autre exemple de supersélection induite par l'environnement qui a été étudié est relié au fait que
seuls les états propres de l'opérateur de charge sont observés mais jamais de superposition de
différentes charges. L'existence des règles de supersélection correspondantes furent d'abord
seulement postulées (Wick et al, 1952, 1970) mais pourraient être effectivement expliquées dans le
cadre de la décohérence en se reportant à l'interaction de la charge avec son propre champ (lointain)
de Coulomb qui prend le rôle d'un "environnement", conduisant à la décohérence immédiate des
superpositions de charge en une mixture apparente d'états propres de la charge (Giulini, 2000,
Giulini et al, 1995).
En général, trois cas différents ont typiquement été distingués (par exemple, dans Paz et Zurek,
1999) pour les types d'observables pointeurs émergeant de l'interaction avec l'environnement selon
la force relative de l'hamiltonien du système H S et de l'hamiltonien d'interaction système -
environnement H SE :
1. Quand les dynamiques du système sont dominées par H SE , c'est-à-dire l'interaction avec
l'environnement, les états pointeurs seront des états propres de H SE (et donc typiquement des
états propres de position). Ce cas correspond au dispositif de mesure quantique typique. Voir,
par exemple, le modèle de Zurek (1981, 1982) et son résumé ci-dessus.
2. Quand l'interaction avec l'environnement est faible et que H S domine l'évolution du système
(c'est-à-dire quand l'environnement est "lent" dans le sens ci-dessus), un cas qui se produit
fréquemment dans le domaine microscopique, les états pointeurs qui apparaissent sont des états
propres de l'énergie de H S (Paz et Zurek, 1999).
3. Dans le cas intermédiaire, quand l'évolution du système est gouvernée par H SE et H S d'une
manière approximativement égale, les états privilégiés résultant représentent un "compromis"
entre les deux premiers cas, par exemple, le modèle fréquemment étudié de mouvement
brownien quantique a montré l'émergence d'états pointeurs localisés dans l'espace des phases,
c'est-à-dire à la fois du moment et de la position, dans une telle situation (Eisert, 2004, Joos et
al, 2003, Unruh et Zurek, 1989, Zurek, 2003, Zurek et al, 1993).
VI.4.5.3. Implications pour le problème de la base privilégiée
L'idée du programme de décohérence que la base privilégiée est sélectionnée par l'exigence que les
corrélations soient préservées en dépit de l'interaction avec l'environnement et donc choisi à travers
la forme de l'hamiltonien interaction système - environnement, semble certainement raisonnable
puisque seuls de tels états "robustes" seront en général observables, et après tout nous demandons
seulement une explication pour nos expériences (voir la discussion plus haut). Bien que seuls des
exemples particuliers aient été étudiés (pour un survol et des références, voir par exemple
Blanchard et al, 2000, Joos et al, 2003, Zurek, 2003), les résultats suggèrent donc fortement que les
propriétés sélectionnées sont en accord avec nos observations : pour des objets mésoscopiques et
macroscopiques les interactions de collision dépendant de la distance avec les molécules d'air
environnantes, les photons, etc. conduira en général à une décohérence immédiate en paquets
d'ondes spatialement localisés comme base privilégiée. D'un autre coté, quand l'environnement
est assez "lent", comme dans le cas fréquent des systèmes microscopiques, la supersélection induite
par l'environnement conduira typiquement à des états propres de l'énergie comme états privilégiés.
Le mérite clair de l'approche de la supersélection induite par l'environnement réside dans le fait que
la base privilégiée n'est pas choisie d'une manière ad hoc comme pour simplement rendre nos
mesures déterminées ou comme pour totalement correspondre à nos expériences de la manière dont
les quantités physiques sont habituellement perçues comme déterminées (par exemple la position).
A la place, la sélection est motivée par des bases physiques indépendantes de l'observateur,
précisément à travers l'hamiltonien d'interaction système - environnement. Le vaste espace des
superpositions possibles de la mécanique quantique est fortement réduit car les lois gouvernant les
interactions physiques dépendent seulement de quelques quantités physiques (position, moment,
charge, etc.) et le fait que ce sont précisément les propriétés qui nous apparaissent déterminées est
expliqué par la dépendance de la base privilégiée à la forme de l'interaction. L'apparence de
"classicalité" est donc basée sur la structure des lois physiques - une approche certainement très
satisfaisante et raisonnable.
Nous pouvons aussi nous inquiéter de la généralité de cette approche. On aurait besoin de montrer
que toute supersélection induite par l'environnement conduit en fait précisément à ces propriétés
qui nous apparaissent déterminées. Mais cela nécessiterait la connaissance précise du système de
l'hamiltonien d'interaction. Pour de simples modèles élémentaires, les hamiltoniens pertinents
peuvent être écrits explicitement. Dans les cas plus compliqués et réalistes, ce sera en général très
difficile si pas impossible puisque la forme de l'hamiltonien dépendra des systèmes particuliers ou
des appareils et de l'environnement guide considéré où en plus l'environnement n'est pas seulement
difficile à définir précisément mais change aussi continuellement, est incontrôlable et par essence
infiniment grand.
Mais la situation n'est pas aussi désespérée qu'elle puisse sembler, puisque nous savons que
l'hamiltonien d'interaction sera en général basé sur l'ensemble des lois physiques connues qui en
retour emploient seulement un nombre relativement petit de quantités physiques. Aussi longtemps
que nous supposons le critère de stabilité et que nous considérons l'ensemble des quantités
physiques connues, nous pouvons automatiquement anticiper la base privilégiée comme un membre
de cet ensemble. La question restante, bien que très pertinente, est alors, cependant, quel sous-
ensemble de ces propriétés sera choisi dans une situation physique spécifique (par exemple, le
système sera-t-il trouvé de préférence dans un état propre de l'énergie ou de la position ?) et à quel
point cela correspondra-t-il à l'évidence expérimentale ? Pour donner une réponse, une
connaissance plus détaillée de l'hamiltonien d'interaction et de sa force relative par rapport à
l'hamiltonien du système sera habituellement nécessaire afin de vérifier cette approche. D'autre
part, comme mentionné plus haut, il existe d'autres critères que l'exigence de commutativité et il n'a
pas encore été totalement exploré si tous conduisent aux même propriétés déterminées.
Finalement, une difficulté conceptuelle fondamentale de l'approche basée sur la décohérence pour
le problème de la base privilégiée est le manque de critère général pour ce qui définit les systèmes
et les degrés de liberté "non observés" de "l'environnement" (voir la discussion dans la section sur
la résolution en sous-systèmes). Bien que dans plusieurs situations de type laboratoire, la séparation
entre système et environnement puisse venir naturellement, il n'est pas clair a priori comment les
observables quasi-classiques peuvent être définis à travers la supersélection induite par
l'environnement sur des échelles plus grandes et plus générales, c'est-à-dire quand une plus grande
partie de l'univers est considérée où la séparation en sous-systèmes n'est pas suggérée par une
disposition spécifique système - appareil - environnement.
Pour résumer, la supersélection induite par l'environnement d'une base privilégiée (i) propose une
explication pourquoi une base de pointeurs particulière est choisie parmi toutes, précisément, en
affirmant que seule la base de pointeurs qui conduit à un enregistrement stable et donc perceptible
quand l'interaction de l'appareil avec l'environnement est prise en compte; et (ii) elle affirme que les
bases privilégiées correspondent à un sous-ensemble de l'ensemble des propriétés déterminées de
notre expérience, puisque l'hamiltonien d'interaction qui gouverne dépendra seulement de ces
quantités. Mais elle ne nous dit pas en général quelle base de pointeurs sera précisément
sélectionnée dans toute situation physique. Il sera habituellement difficilement possible d'écrire
explicitement l'hamiltonien d'interaction pertinent dans les cas réalistes. Cela implique aussi qu'il
sera difficile d'affirmer que tout critère proposé basé sur l'interaction avec l'environnement conduira
toujours et en toute généralité aux propriétés précises que nous percevons comme déterminées.
Du travail reste donc à faire pour pleinement explorer la validité générale et l'applicabilité de
l'approche de la supersélection induite par l'environnement. Mais puisque les résultats obtenus
jusqu'ici sur des modèles élémentaires ont été trouvés en accord prometteur avec les données
empiriques, il y a peu de raison de douter que le programme de décohérence ait proposé un critère
très plausible pour expliquer l'émergence des états privilégiés et de leur robustesse. Le fait que
l'approche soit dérivée de principes physiques devrait être pris en compte en plus en sa faveur.
VI.4.5.4. Base de pointeurs vs états instantanés de Schmidt
Les bases dites de Schmidt, obtenues en diagonalisant la matrice de densité (réduite) du système à
chaque instant du temps ont été fréquemment étudiées par rapport à leur capacité à donner une base
privilégiée (voir, par exemple, Albrecht, 1992, 1993, Zeh, 1973) et a conduit certains à considérer
les bases de Schmidt comme décrivant des "états pointeurs instantanés" (Albrecht, 1992).
Cependant, comme cela a été souligné (par exemple par Zurek, 1993), toute matrice de densité est
diagonale dans une certaine base et cette base ne jouera pas en général de rôle interprétatif spécial.
Les états pointeurs qui sont supposés correspondre à des observables stables quasi-classiques
doivent être dérivés d'un critère explicite de classicalité (typiquement, le critère de stabilité). La
simple procédure de diagonalisation mathématique de la matrice de densité instantanée ne suffira
en général pas à déterminer les bases de pointeurs quasi classiques (voir les études de Barvinsky et
Kamenshchik, 1995, Kent et McElwaine, 1997).
Dans une méthode plus raffinée, on évite de calculer les états de Schmidt instantanés et on autorise
à la place un temps de décohérence caractéristique τ D durant laquelle la matrice de densité réduite
se décohère (un processus qui peut être décrit par une équation maître appropriée) et devient
approximativement diagonale dans la base de pointeurs stables, c'est-à-dire la base qui est
sélectionnée par le critère de stabilité. Les états de Schmidt sont alors calculés en diagonalisant la
matrice de densité décohérée. Puisque la décohérence conduit habituellement à diagonaliser
rapidement la matrice de densité réduite dans la base de pointeurs sélectionnée par la stabilité avec
une très bonne approximation, les états de Schmidt résultant sont pratiquement dégénérés. Cette
dernière situation est facilement illustrée en considérant la matrice de densité décohérée
approximativement diagonalisée
1 / 2 + δ ω∗
(1) ρ =
ω 1 / 2 − δ
où ω << 1 (forte décohérence) et δ << 1 (quasi-dégénérescence) (Albrecht, 1993). Si la
décohérence conduit à une diagonalisation exacte (c'est-à-dire, ω = 0 ), les états propres seront,
pour toute valeur fixée de δ , proportionnels à (0,1) et (1,0) (correspondants aux états pointeurs
"idéaux"). Cependant, pour un ω > 0 donné (diagonalisation approximative) et ω → 0
(dégénérescence), les états propres deviennent proportionnels à (± ω / ω ,1) ce qui implique que
dans le cas de la dégénérescence, la décomposition de Schmidt de la matrice de densité réduite peut
conduire à des états privilégiés qui sont très différents des états pointeurs stables, même si c'est la
matrice de densité réduite décohérée, plutôt qu'instantanée, qui est utilisée.
En résumé, il est important d'insister sur le fait que la stabilité (ou un critère similaire) est
l'exigence pertinente pour l'émergence d'une base quasi classique privilégiées qui ne peut en
général pas être obtenues en simplement diagonalisant la matrice de densité réduite instantanée.
Cependant, les états propres de la matrice de densité réduite décohérée seront dans de nombreux
cas proches des états pointeurs stables quasi-classiques particulièrement quand ces états pointeurs
sont suffisament non dégénérés.
VI.4.5.5. Règles de supersélection exacte
L'absence stricte d'interférence peut seulement être attendue pour des quantités discrètes. Un
exemple important est la charge électrique. Cela peut-il être compris à l'aide de la décohérence ?
Nous savons de la théorie de Maxwell que toute charge porte avec elle une charge électrique
associée et ainsi une superposition de charges peut être écrite sous la forme
(1) ∑ c q ψ qtotal = ∑ c q χ qnue ψ qchamp = ∑ c q χ qlocal ψ qchamp lointain
q q q
Puisque nous pouvons seulement observer la charge habillée (de son champ électrique) locale, elle
doit être décrite par la matrice densité
(2) ρ = ∑ c q
2
χ qlocal χ qlocal
q
Si les champs lointains sont orthogonaux (discernables), la cohérence serait localement absente.
Ainsi la question se pose : est-ce que le champ de Coulomb fait seulement partie de la cinématique
(implémentée par la contrainte de Gauss) ou représente-t-elle un degré de liberté dynamique
quantique et donc devons-nous considérer la décohérence via un champ de Coulomb retardé ?
Que nous disent les expériences ? Une superposition de cette forme peut être observée pour des
particules chargées (voir la contribution de Hasselbach). D'un autre coté, le champ de Coulomb
classique (retardé) contiendra de l'information sur le chemin parcouru par la particule chargée,
détruisant la cohérence. La situation n'apparaît pas très claire. Donc, une question essentielle reste :
Une situation similaire se pose en gravité quantique où nous pouvons nous attendre à ce que les
superpositions de masses (énergies) différentes soient décohérées par la courbure de l'espace.
Une autre règle importante de supersélection exacte interdit les états superposés avec des spins
entiers et demi-entiers, par exemple
(3) | ψ = spin 1 + spin 1 / 2
qui se transformerait sous une rotation 2π en
(4) ψ 2π = spin 1 − spin 1 / 2
C'est clairement un état différent à cause de la différence relative de phase. Si on demande qu'une
telle rotation ne change rien, un tel état doit être exclu. C'est un argument standard en faveur de la
règle de supersélection de "univalence". D'un autre coté, on a observé le changement de signe des
particules de spin 1/2 sous une rotation (relative) de 2π dans certaines expériences. Donc, il nous
reste deux options : ou nous voyons le groupe SO(3) comme le groupe de rotation propre aussi en
théorie quantique. Alors rien ne doit changer si nous tournons le système d'un angle 2π . Donc
nous pouvons dériver cette règle de supersélection de la symétrie. Mais cela peut seulement être un
préjugé classique. L'autre choix est d'utiliser SU(2) au lieu de SO(3) comme groupe de rotation.
Alors nous avons en effet besoin d'expliquer pourquoi ces étranges superpositions ne se produisent
jamais. Ce dernier choix revient à garder le principe de superposition comme principe fondamental
de la théorie. En termes plus techniques, nous devrions éviter d'utiliser des groupes avec des
représentations non uniques tel que SO(3). Dans les théories de supersymétrie les bosons et les
fermions sont traités sur un pied d'égalité ainsi il serait naturel de superposer leurs états (ce qui ne
se fait apparemment jamais en théorie des particules).
L'argument largement utilisé que les états physiques doivent être représentés par des rayons, pas
par des vecteurs, dans l'espace de Hilbert car la phase d'un vecteur d'état ne peut pas être observée
est trompeur. Puisque les phases relatives sont certainement pertinentes, on devrait préférer un
vecteur comme concept d'état physique fondamental plutôt qu'un rayon. Les rayons ne peuvent pas
être superposés sans utiliser (implicitement) des vecteurs.
D'une manière similaire on pourrait déduire l'argument bien connu conduisant de la symétrie
galiléenne de la mécanique quantique non relativiste à la règle de supersélection de la masse. Dans
ce cas, nous pourrions maintenir le principe de superposition et remplacer le groupe de Galilée par
un groupe plus large. Comment cela peut être fait est montré par Domenico Giulini.
VI.4.6.1. Localisation
L'exemple maintenant standard de la décohérence est la localisation d'objets macroscopiques.
Pourquoi les objets macroscopiques apparaissent-ils toujours localisés dans l'espace ? La cohérence
entre différentes positions macroscopiques est détruite très rapidement à cause de la forte influence
du processus de diffusion. La description formelle peut être la suivante. Soit x l'état propre
position d'un objet macroscopique et χ l'état de la particule entrante. Suivant le schéma de von
Neumann, la diffusion de telles particules par un objet localisé à la position x peut être écrit comme
(1) x χ → t
x χ x = x Sx χ
où l'état diffusé peut être calculé en pratique par l'utilisation d'une matrice S appropriée. Pour l'état
initial le plus général d'un paquet d'ondes, nous avons alors
(2) ∫ d 3 xϕ ( x ) x χ →t
∫ d xϕ (x ) x S x χ
3
Bien sûr, un seul processus de diffusion ne résoudra habituellement pas une petite distance, ainsi
dans la plus part des cas, les éléments de matrice sur le coté droit de (3) seront proches de un. Si
nous ajoutons les contributions de plusieurs processus de diffusion, un amortissement exponentiel
de la cohérence spatiale en résulte :
{ }
(4) ρ ( x, x ′, t ) = ρ ( x, x ′,0 ) exp − Λt ( x − x ′)
2
La force de cet effet est décrite par un seul paramètre Λ qui peut être appelé "taux de localisation".
Il est donné par
k 2 Nvσ eff
(5) Λ =
V
Ici, k est le nombre d'onde des particules entrantes, Nv / V le flux et σ eff est de l'ordre de la section
efficace totale. Certaines valeurs de Λ sont données dans la table suivante.
a = 10 −3 cm a = 10 −5 cm a = 10 −6 cm
Poussière Poussière Grosse molécule
Rayonnement cosmologique fossile 10 6 10 −6 10 −12
Photons à 300 K 1019 1012 10 6
Lumière solaire (sur Terre) 10 21 1017 1013
Molécules d'air 10 36 10 32 10 30
Vide de laboratoire 10 23 1019 1017
( 10 3 particules par cm 3 )
La plus part des nombres dans la table sont assez grands, montrant le couplage extrêmement fort
des objets macroscopiques, tel que des grains de poussière, avec leur environnement naturel. Même
dans l'espace intergalactique, le rayonnement fossile à 3K ne peut pas simplement être négligé.
Donc, la principale leçon est : les objets macroscopiques ne sont pas même approximativement
isolés.
Une description unitaire consistante doit donc inclure l'environnement et finalement l'univers
entier.
Une des premières indications de l'importance du couplage dynamique des objets macroscopiques
avec leur environnement fut Dieter Zeh qui écrivit dans son article de 1970 dans Fond. Phys. :
Puisque les interactions entre les systèmes macroscopiques sont effectives même à des distances
astronomiques, le seul "système fermé" est l'univers entier... Il est bien sûr très questionable de
décrire l'univers par une fonction d'onde qui obéit à l'équation de Schrödinger. Autrement,
cependant, il n'y a pas d'inconsistance dans la mesure où il n'y a pas de théorie.
C'est maintenant plus ou moins un lieu commun mais ce n'était pas le cas il y a 30 ans quand il
envoya une première version de cet article au journal Il Nuevo Cimento. On note dans la réponse
des referees :
L'article est complètement insensé. Il est clair que l'auteur n'a pas totalement compris le problème
et les contributions précédentes dans ce domaine.
(H.D. Zeh, communication privée).
La position du centre de masse des grains de poussière devient "classique" via la décohérence. La
structure spatiale des molécules représente un autre exemple très important. Considérons un modèle
simple de molécule chirale.
Les versions droites et gauches de la molécule ont une structure spatiale assez bien définie tandis
que l'état de base est, pour des raisons de symétrie, une superposition des deux états chiraux. Ces
configurations chirales sont habituellement séparées par une barrière tunnel qui est si grande que
sous des circonstances normales l'effet tunnel est très improbable comme cela fut déjà montré par
Hund en 1929. Mais cela seul n'explique pas pourquoi (en effet la plus part) les molécules chirales
ne sont jamais trouvées dans des états propres de l'énergie !
Dans un modèle simplifié avec des états propres quasi dégénérés faiblement liés 1 et 2 , les
configurations droites et gauches peuvent être données par
L =
1
(1 + 2 )
2
(11)
R =
1
(1 − 2 )
2
Comme l'environnement reconnaît la structure spatiale via le processus de diffusion, seuls les états
chiraux sont stables contre la décohérence,
(12) R, L Φ 0 →t
R, L Φ R , L
L'instabilité quantique des états propres de l'énergie (c'est-à-dire la parité) des molécules représente
un exemple typique de "brisure spontanée de symétrie" induite par la décohérence. De plus, les
transitions entre les états orientés spatialement sont supprimées par l'effet Zeno quantique, décrit ci-
dessous.
VI.4.6.2. Effet Zeno quantique
La conséquence la plus dramatique d'une interaction forte de type mesure d'un système avec son
environnement est l'effet Zeno quantique. Il a été découvert plusieurs fois et est quelque fois appelé
"effet du chien de garde" ou "comportement de la marmite surveillée" bien que la plupart des gens
utilisent le terme d'effet Zeno. Il est surprenant seulement si on colle à une image classique où
l'observation d'un système et juste vérifier son état ne devrait pas l'influencer. Un tel préjugé est
certainement formé par notre expérience de tous les jours où l'observation des choses dans notre
environnement ne change pas leurs propriétés. Comme cela est bien connu depuis les débuts de la
mécanique quantique, l'observation peut changer de manière drastique le système observé.
L'essence de l'effet Zeno quantique peut facilement être montrée comme suit. Considérons la
"désintégration" d'un système qui est initialement préparé dans l'état "non désintégré" u . La
probabilité de trouver le système non désintégré, c'est-à-dire dans le même état u au temps t est
pour de petits intervalles de temps donné par
P(t ) = u exp(− iHt ) u
2
(1)
( )
= 1 − (∆H ) t 2 + O t 4
2
avec
(2) (∆H ) = u H 2 u − u H u
2 2
N
Le résultat est toujours plus grand que la probabilité d'une seule mesure donnée par (1). A la limite
de mesures arbitrairement denses, le système ne se désintègre plus,
t2
(4) PN (t ) = 1 − (∆H ) N →∞
+ L →1
2
Donc, nous trouvons que des mesures répétées peuvent complètement gêner l'évolution naturelle
d'un système quantique. Un tel résultat est clairement assez distinct de ce qui est observé pour des
systèmes classiques. En effet, l'exemple paradigme pour un processus stochastique classique, la
désintégration exponentielle,
(5) P(t ) = exp(− Γt )
n'est pas influencée par des observations répétées puisque pour N mesures nous avons simplement
N
t
(6) PN (t ) = exp − Γ = exp(− Γt )
N
Jusqu'ici nous avons traité le processus de mesure dans notre discussion de l'effet Zeno de la
manière habituelle en supposant une réduction de l'état du système sur le sous-espace
correspondant au résultat de la mesure. Un tel traitement peut être étendu en employant un modèle
de von Neumann pour le processus de mesure, par exemple, en le couplant à un état pointeur d'un
système à deux états. Un simple modèle élémentaire est donné par l'hamiltonien
(7) H = H 0 + H int = V ( 1 2 + 2 1 ) + E 2 2 + γ pˆ ( 1 1 − 2 2 )
où les transitions entre les états 1 et 2 (induites par la "perturbation" V) sont monitorées par un
pointeur (la constante de couplage γ ). Ce modèle montre déjà tous les phénomènes typiques
mentionnés ci-dessus.
Une extension du modèle précédent permet une analyse de la transition de l'effet Zeno à un
comportement maître (décrite par les taux de transition comme cela fut d'abord étudié en
mécanique quantique par Pauli en 1928). On peut montrer que pour plusieurs (micro-)états qui ne
sont pas suffisament résolus par l'environnement, la règle d'or de Fermi peut être retrouvée, avec
des taux de transition qui ne sont plus réduit par l'effet Zeno. Néanmoins, l'interférence entre les
macroétats est supprimée très rapidement.
Exercice
1. Il a été affirmé que l'existence de la base privilégiée était liée à l'hamiltonien d'interaction avec
l'environnement. Ainsi, si l'interaction dépend de la distance, la base position se retrouve
privilégiée. Tandis qu'à l'échelle atomique, la base énergie est privilégiée.
Nous vous proposons d'étudier un modèle simple afin d'avoir un aperçu de ce qui se passe à
l'échelle microscopique.
Considérons un atome pouvant être dans deux états d'énergie E1 et E 2 . On supposera pour
simplifier qu'il n'y a qu'un électron en orbite autour d'un proton et que les fonctions d'onde
correspondantes sont sphériques et homogènes sur un rayon respectivement R1 et R2 . Calculez
les énergies correspondantes.
Supposons maintenant que l'environnement est composé d'un gaz de photons aléatoires et que
chaque photon est caractérisé par une onde plane et un champ électrique E k (k variant de 1 à N
photons). A nouveau, pour simplifier, nous poserons égal à zéro les hamiltoniens propres de
l'atome et du gaz de photons et nous ne considérerons que l'hamiltonien d'interaction entre les
photons et l'électron de l'atome. Connaissant l'interaction entre un champ électrique et la charge
électrique de l'atome, calculez l'hamiltonien d'interaction.
En vous inspirant de la section VI.4.4.2, calculez l'état initial et l'état au cours du temps. Puis
calculez la matrice de densité réduite.
Considérez ensuite que la direction de E k est aléatoire avec une distribution uniforme et une
grandeur décrite par une distribution gaussienne.
Comment évolue la matrice de densité réduite pour N très grand ? Quelle est la base privilégiée
?
2. Dans la section VI.4.4.2 seules l'interaction entre les spins et l'environnement a été prise en
compte. Les interactions entre spins ont été négligées par facilité. Discutez qualitativement de
l'effet de ces interactions sur les résultats de cette section.
VII. Théorie de Bohm
La mécanique bohmienne, qui est aussi appelée théorie de de Broglie - Bohm, le modèle onde
pilote et l'interprétation causale de la mécanique quantique, est une version de la mécanique
quantique découverte par Louis de Broglie en 1927 et redécouverte par David Bohm en 1952. C'est
l'exemple le plus simple de ce qui est souvent appelé une interprétation à variables cachées de la
mécanique quantique. En mécanique bohmienne, un système de particules est décrit en partie par sa
fonction d'onde, évoluant, comme d'habitude, selon l'équation de Schrödinger. Cependant, la
fonction d'onde fournit seulement une description partielle du système. Cette description est
complétée par la spécification des positions réelles des particules. Ces dernières évoluent selon
l'équation guide qui exprime la vitesse des particules en terme de la fonction d'onde. Donc, en
mécanique bohmienne, la configuration d'un système de particules évolue via un mouvement
déterministe chorégraphié par la fonction d'onde. En particulier, quand une particule est envoyée
dans un appareil à deux fentes, la fente à travers laquelle elle passe et l'endroit où elle arrive sur la
plaque photographique sont complètement déterminés par sa position initiale et la fonction d'onde.
La mécanique bohmienne hérite et rend explicite la non-localité implicite dans la notion, commune
à presque toutes les formulations et interprétations de la théorie quantique, d'une fonction d'onde
sur l'espace de configuration d'un système à plusieurs particules. Elle explique tous les phénomènes
gouvernés par la mécanique quantique non relativiste, depuis les lignes spectrales et la théorie des
collisions à la supraconductivité, l'effet Hall quantique et le calcul quantique. En particulier, les
postulats habituels de mesure de la théorie quantique, incluant la réduction de la fonction d'onde et
les probabilités données par le carré des amplitudes de probabilité, émerge de l'analyse des deux
équations du mouvement, l'équation de Schrödinger et l'équation guide, sans l'invocation
traditionnelle d'un statut spécial et quelque peut obscur de l'observation.
Il peut sembler, puisque cela est largement accepté, que tout système quantique est complètement
décrit par sa fonction d'onde, que la mécanique quantique est basée fondamentalement sur le
comportement des fonctions d'onde. Assez naturellement, aucun physicien ne désirait que ce soit
vrai plus que ne le fit Erwin Schrödinger, le père de la fonction d'onde. Néanmoins, Schrödinger
trouva ultimement cela impossible à croire. Sa difficulté n'était pas tant la nouveauté de la fonction
d'onde (Schrödinger, 1935) :
Qu'elle soit une construction mathématique abstraite intuitive est un scrupule qui fait toujours
surface contre de nouveaux moyens de pensée et qui ne porte pas de grand message.
Mais plutôt, c'était que le "flou" suggéré par le caractère dispersé de la fonction d'onde :
Affecte macroscopiquement les choses visibles et tangibles pour lesquelles le terme "flou" semble
simplement faux.
Par exemple, dans le même article, Schrödinger nota qu'il peut arriver dans une désintégration
radioactive que :
La particule émergeante est décrite ... comme une onde sphérique ... qui se heurte de manière
continue à un écran luminescent sur son étendue complète. L'écran, cependant, ne montre pas une
surface brillante uniforme plus ou moins constante mais plutôt de la lumière à un instant en un
endroit...
Et il observe qu'on peut facilement provoquer, par exemple en incluant un chat dans le système, des
"situations assez ridicules" avec :
La fonction ψ du système entier ayant en elle le chat vivant et mort (excusez l'expression) mélangé
ou dispersé en parts égales.
C'est donc à cause du "problème de la mesure", des superpositions macroscopiques, que
Schrödinger trouva difficile de voir la fonction d'onde comme "représentant la réalité". Mais alors
qu'est-elle ? Avec une désapprobation évidente, Schrödinger décrit comme :
La doctrine régnante se sauve elle-même en ayant recours à l'épistémologie. On nous dit qu'il n'y a
pas de distinction à faire entre l'état d'un objet naturel et ce que je sais sur lui ou, peut-être mieux,
que je peux savoir sur lui si j'ai certains problèmes. En réalité, tel qu'elle le dit, il y a
intrinsèquement seulement la conscience, l'observation, la mesure.
Il y a peut-être une raison très simple pour laquelle il y a tant de difficulté à discerner dans la
description quantique les objets dont nous croyons qu'ils devraient être décrit par la mécanique
quantique. Peut-être que la description quantique n'est pas l'histoire complète, une possibilité plus
habituellement associée à Albert Einstein.
En 1935 Einstein, Boris Podolosky et Nathan Rosen affirmèrent cette possibilité dans le fameux
article EPR (Einstein et al., 1935), qu'ils concluent avec ce qui suit :
Bien que nous ayons donc montré que la fonction d'onde ne fournit pas une description complète de
la réalité physique, cela laisse ouverte la question de savoir si oui ou non une telle description
existe. Nous croyons, cependant, qu'une telle théorie est possible.
L'argument donné dans l'article EPR pour cette conclusion invoque les corrélations quantiques et
une hypothèse de localité.
Plus tard, sur la base de plus ou moins les mêmes considérations que celles de Schrödinger notées
ci-dessus, Einstein conclut à nouveau que la fonction d'onde ne fournit pas une description
complète des systèmes individuels et l'idée qu'il appelait "cette interprétation pratiquement la plus
évidente" (Einstein, 1949, p.672). En relation avec une théorie incorporant une description plus
complète, Einstein remarque que :
La théorie quantique statistique prendrait ... une position approximativement analogue à celle de la
mécanique statistique dans le cadre de la mécanique classique.
Il est peut-être utile de noter ici que la mécanique bohmienne, comme nous le verrons, satisfait
exactement cette description.
Même si énormément de progrès ont été fait (interprétations, décohérence) depuis ces réflexions, il
reste intéressant de considérer la théorie de Bohm et de voir ce qu'elle peut apporter et quels sont
ses défauts.
VII.2. L'impossibilité des variables cachées ... ou la non-localité
inévitable ?
John von Neumann, un des plus grands mathématiciens du vingtième siècle, affirma avoir prouvé
mathématiquement que le rêve d'Einstein, d'une complétude ou d'une réinterprétation déterministe
de la mécanique quantique était impossible. Il en conclut que (von Neumann, 1932, p.325 de la
traduction anglaise)
Ce n'est donc pas, comme cela est souvent supposé, une question de réinterprétation de la
mécanique quantique, le système actuel de la mécanique quantique serait objectivement faux si une
autre description des processus élémentaires que la statistique était possible.
Cette affirmation de von Neumann fut presque universellement acceptée parmi les physiciens et les
philosophes de la science. Par exemple, Mas Born formula l'interprétation statistique de la fonction
d'onde, assuré que (Born, 1949, p.109)
Aucun paramètre caché ne peut être introduit avec l'aide de laquelle la description indéterministe
pourrait être transformée en une déterministe. Donc, si une théorie future serait déterministe, elle
ne peut pas être une modification de l'actuelle mais doit être essentiellement différente.
Il y avait, cependant, un physicien qui écrivait sur ce sujet avec une plus grande clarté et
profondeur que Wigner lui-même, c'est-à-dire J.S. Bell dont Wigner loua la démonstration de
l'impossibilité d'une complétude déterministe de la théorie quantique telle que la mécanique
bohmienne. Voici comment Bell lui-même a réagit à la découverte de Bohm (Bell, 1987, p.160) :
Mais en 1952 je vis que l'impossible avait été fait. C'est un article de David Bohm. Bohm a montré
explicitement comment des paramètres pouvaient en effet être introduit, dans la mécanique
ondulatoire non relativiste, avec l'aide desquels la description indéterministe pouvait être
transformée en une déterministe. Plus important, selon moi, l'objectivité de la version orthodoxe, la
référence nécessaire à "l'observateur" peut être éliminée...
Mais alors pourquoi Born ne m'a-t-il pas parlé de cette "onde pilote" ? Est-ce seulement pour
indiquer qu'elle était fausse ? Pourquoi von Neumann ne l'a-t-il pas considéré ? Plus incroyable,
pourquoi les gens ont produit des preuves "d'impossibilités" après 1952 et aussi récemment que
1978 ? ... Pourquoi est-ce que l'image de l'onde pilote est ignorée dans les livres ? Ne devrait-elle
pas être enseignée, non comme la seule manière, mais comme un antidote à l'auto satisfaction
prévalante ? Pour nous montrer que l'approximation, la subjectivité et l'indéterminisme ne nous
sont pas imposés par les faits expérimentaux mais par des choix théoriques délibérés ?
Quoi qu'en dise Wigner, Bell n'a pas établit l'impossibilité d'une reformulation déterministe de la
théorie quantique ni jamais fait d'affirmation de ce type. Au contraire, au cours des dernières
décennies, jusqu'à sa mort en 1990, Bell fut le premier défenseur, pour une bonne partie de sa
période pratiquement le seul défenseur, de la mécanique bohmienne qu'il est supposé avoir démoli.
La mécanique bohmienne est bien sûr autant un contre exemple à l'argument de Kochen et Specker
pour l'impossibilité des variables cachées tout comme pour celui de von Neumann. C'est
évidemment un contre exemple à tout argument de ce type. Aussi raisonnables que soient les
hypothèses d'un tel argument, certaines d'entre elles doivent échouer pour la mécanique bohmienne.
Wigner avait assez raison de suggérer que les hypothèses de Kochen et Specker sont plus
convaincantes que celles de von Neumann. Elles apparaissent en fait assez raisonnables en effet.
Cependant, elles ne sont pas absolues et incontournables. L'impression qu'elles ont soulevée est une
erreur pénétrante, un réalisme naïf sur les opérateurs, qui sera discuté ci-dessous dans les sections
sur les observables quantiques, le spin et la contextualité.
Un des résultats de John Bell fut de remplacer les "axiomes arbitraires" (Bell, 1987, page 11) de
Kochen et Specker et les autres par une hypothèse de localité et de non-action à distance. Il serait
difficile d'argumenter sur le caractère raisonnable d'une telle hypothèse, même si on est porté à
douter de son inévitabilité. Bell a montré que la formulation à variables cachées de la mécanique
quantique doit être non locale comme, en effet, l'est la mécanique bohmienne. Mais il a montré
beaucoup plus.
Dans un article célèbre publié en 1964, Bell montra que la théorie quantique elle-même est
irréductiblement non locale. Ce fait sur la mécanique quantique, basé sur une analyse courte et
mathématiquement simple, pourrait avoir été reconnu immédiatement après la découverte de la
théorie quantique dans les années 20. Que cela ne se soit pas passé est sans doute dû en partie à
l'obscurité de la théorie quantique orthodoxe et à l'ambiguïté de ses engagements. C'est, en fait, son
examen de la mécanique bohmienne qui conduisit Bell à son analyse de non-localité. Au cours de
cette investigation de la mécanique bohmienne, il observa que (Bell, 1987, p.11) :
Dans cette théorie, un mécanisme causal explicite existe par lequel la disposition d'une pièce de
l'appareil affecte le résultat obtenu avec une pièce distante.
Bohm, bien sûr, fut attentif à ces propriétés de son schéma et leur a porté beaucoup d'attention.
Cependant, on doit insister sur le fait qu'à ma connaissance, il n'y a aucune preuve que toute
explication à variables cachées de la mécanique quantique doit avoir ce caractère extraordinaire.
Il serait donc intéressant, peut-être, de poursuivre encore les "preuves d'impossibilité" en
remplaçant les axiomes arbitraires objectés ci-dessus par certaines conditions de localité ou de
séparabilité des systèmes distants.
Dans une note, Bell ajoute que "depuis la fin de cet article, une telle preuve a été trouvée". Cette
preuve fut publiée dans son article de 1964, "sur le paradoxe de Einstein-Podolsky-Rosen", dans
lequel il dérive les inégalités de Bell, la base de sa conclusion de la non-localité quantique.
Il est utile d'insister sur le fait que l'analyse de Bell montre en effet que toute explication des
phénomènes quantiques doit être non locale, pas seulement les explications à variables cachées.
Bell montra que la non-localité est impliquée par les prédictions de la théorie quantique standard
elle-même. Donc, si la nature est gouvernée par ces prédictions, alors la nature est non locale [que
la nature soit ainsi gouvernée, même dans les expériences cruciales des corrélations EPR, a
maintenant été établi avec un grand nombre d'expériences, dont la plus concluante est peut-être
celle d'Aspect (Aspect et al., 1982)].
Bell a aussi insisté sur ce point (par déterminisme, Bell ici veut dire variables cachées) :
Il est important de noter que le degré limité avec lequel le déterminisme joue un rôle dans
l'argument EPR n'est pas supposé mais inféré. Ce qui est tenu pour sacré est le principe de
"causalité locale" - ou "pas d'action à distance"...
Il est remarquablement difficile de mettre ce point en évidence que le déterminisme n'est pas un
présupposé de l'analyse (Bell, 1987, p.143).
En dépit de mon insistance pour que le déterminisme soit inféré plutôt que supposé, vous pouvez
encore soupçonner quelque peu que c'est une préoccupation pour le déterminisme qui crée le
problème. Notez bien alors que l'argument suivant ne fait aucune mention de quelque que manière
que ce soit au déterminisme... Finalement vous pouvez suspecter que toute notion de particule et
d'orbite de particule... nous a quelque peu égaré... Ainsi l'argument qui suit ne mentionnera pas les
particules ni les champs ni toute autre image particulière de ce qui serait au niveau microscopique.
Ni n'impliquera l'utilisation des mots "système quantique" qui peut avoir un effet malheureux sur la
discussion. La difficulté n'est pas de créer une telle image ou une telle terminologie. Elle est créée
par les prédictions sur les corrélations dans les résultats visibles de certains dispositifs
expérimentaux concevables (Bell, 1987, p.150).
Le "problème" et la "difficulté" auquel Bell se réfère ci-dessus est le conflit entre les prédictions de
la théorie quantique et qu'elle puisse être inférée, appelons là C, à partir d'une hypothèse de localité
dans la version de Bohm de l'argument EPR, un conflit établit par les inégalités de Bell. C concerne
l'existence d'une certaine sorte de variables cachées, qui peuvent être appelées variables cachées
locales, mais ce fait est de peu d'importance substantive. Ce qui est important n'est pas tant
l'identité de C que le fait que C est incompatible avec les prédictions de la théorie quantique.
L'identité de C est, cependant, d'une grande signification historique : il est responsable de la
croyance erronée que Bell prouva que les variables cachées sont impossibles, une croyance encore
récemment presque universellement partagée par les physiciens, aussi bien pour la vue, même
maintenant presque universellement acceptée, que le résultat de Bell n'exclut pas les variables
cachées locales, une vue qui est trompeuse.
Même s'il existe maintenant des contre exemples (voir le tom VII) montrant qu'une description
locale est possible, la possibilité de la non-localité ne peut être exclue a priori. Par conséquent,
l'étude d'une version à variables cachées non locales reste intéressante.
VII.3. Histoire
L'approche de l'onde pilote de la théorie quantique fut initiée, avant même la découverte de la
mécanique quantique elle-même, par Einstein, qui espérait que les phénomènes d'interférence
impliquant des photons corpusculaires pourraient être expliqués si le mouvement des photons était
en quelque sorte guidé par le champ électromagnétique qui aurait donc joué le rôle de ce qu'il
appelait un Führungsfeld ou champ guide (Wigner, 1976, p.262). Tandis que la notion de champ
électromagnétique comme champ guide s'avéra plutôt problématique, la possibilité que pour un
système d'électrons la fonction d'onde puisse jouer ce rôle de champ guide ou d'onde pilote, fut
exploré par Max Born dans son article fondant la théorie quantique des collisions (Born, 1926), une
suggestion pour laquelle Heisenberg était profondément antipathique.
Born et de Broglie abandonnèrent très rapidement l'approche de l'onde pilote et devinrent des
supporters enthousiastes du consensus rapidement développé en faveur de l'interprétation de
Copenhague. La mécanique bohmienne fut redécouverte en 1952 par David Bohm (Bohm, 1952),
la première personne à comprendre véritablement sa signification et ses implications. Son principal
supporter durant les années 60, 70 et 80 fut John Bell.
VII.4. Les équations de définition de la mécanique bohmienne
En mécanique bohmienne, la fonction d'onde, obéissant à l'équation de Schrödinger, ne fournit pas
une description ou représentation complète d'un système quantique. Plutôt, elle gouverne le
mouvement des variables fondamentales, les positions des particules : dans la version de Bohm de
la théorie quantique, la mécanique quantique est fondamentalement le comportement des particules.
Les particules sont décrites par leurs positions et la mécanique bohmienne prescrit comment elles
changent avec le temps. Dans ce sens, pour la mécanique bohmienne, les particules, décrites par
leurs positions, sont primaires ou primitives tandis que la fonction d'onde est secondaire ou dérivée.
Pour un système de N particules, ces deux équations (avec les spécifications détaillées de
l'hamiltonien, incluant toutes les interactions contribuant à l'énergie potentielle) définissent
complètement la mécanique bohmienne. Cette théorie déterministe des particules en mouvement
explique tous les phénomènes de la mécanique quantique non relativiste depuis les effets
d'interférence aux lignes spectrales (Bohm, 1952, pp. 175-178) jusqu'au spin (Bell, 1964, p.10) et
elle le fait d'une manière totalement ordinaire comme nous l'expliquerons dans les sections
suivantes.
La forme de l'équation guide donné ci-dessus est, pour une fonction d'onde scalaire, décrivant des
particules sans spin, un peu plus compliquée que nécessaire puisque le complexe conjugué de la
fonction d'onde apparaissant au numérateur et au dénominateur s'annulent. Si on cherche une
équation d'évolution pour la configuration compatible avec les symétries de l'espace-temps de
l'équation de Schrödinger, on arrive presque immédiatement à l'équation guide sous sa forme plus
simple comme la plus simple possibilité.
Cependant, la forme donnée ci-dessus a deux avantages : premièrement, elle a un sens pour des
particules avec spin et tous les phénomènes quantiques paradoxaux apparents associés au spin sont,
en fait, pris en compte par la mécanique bohmienne sans ajout supplémentaire. Deuxièmement, et
cela est crucial au fait que la mécanique bohmienne est empiriquement équivalente à la mécanique
quantique orthodoxe, le coté droit de l'équation d'onde est J / ρ , le rapport du courant de
probabilité quantique à la densité de probabilité quantique. Cela montre avant tout qu'il ne faut pas
d'imagination pour deviner que l'équation guide s'obtient à partir de l'équation de Schrödinger en un
regard puisque la formule classique pour le courant est la densité fois la vitesse. De plus, il suit de
l'équation de continuité quantique ∂ρ / ∂t + div J = 0 , une conséquence immédiate de l'équation de
Schrödinger, que si à un certain moment (disons l'instant initial) la configuration Q de notre
système est aléatoire avec une distribution donnée par ψ = ψ ∗ψ , cela sera vrai à tout moment
2
Cela démontre que toute affirmation sur l'effet que les prédictions de la mécanique quantique sont
incompatibles avec l'existence de variables cachées, avec un modèle détermine sous-jacent dans
lequel l'aléatoire quantique vient de moyennes sur l'ignorance, est fausse. La mécanique bohmienne
nous fournis justement un tel modèle : pour toute expérience quantique, nous prenons simplement
comme système bohmien pertinent le système combiné qui inclut le système sur lequel l'expérience
est effectuée ainsi que tous les instruments de mesure et autres dispositifs utilisés en effectuant
l'expérience (avec tous les autres systèmes avec lesquels ils ont une interaction significative au
cours de l'expérience). Le modèle des "variables cachées" est alors obtenu en regardant la
configuration initiale de ce grand système comme aléatoire de la manière quantique habituelle avec
une distribution donnée par ψ . La configuration initiale est alors transformée, via l'équation
2
Comme le paragraphe précédent le suggère et comme nous en discuterons plus en détail dans les
sections suivantes, en mécanique bohmienne il n'y a pas besoin, et en effet aucune place, pour tout
"postulat de mesure" ou axiomes gouvernant le comportement des autres "observables" : de tels
axiomes seraient au mieux redondants et pourraient être éventuellement inconsistants.
VII.5. Le potentiel quantique
La mécanique bohmienne a été présentée ici comme une théorie du premier ordre dans laquelle
c'est la vitesse, le taux de changement de la position, qui est fondamental : c'est la quantité, donnée
par l'équation guide, qui est spécifiée par la théorie, directement et simplement, avec les concepts
(newtonien) du second ordre d'accélération et de force, le travail et l'énergie ne jouant pas un rôle
fondamental. Elle est vue, fondamentalement, comme une théorie du second ordre décrivant des
particules se mouvant sous l'influence de forces parmi lesquelles, cependant, on doit inclure une
force venant d'un "potentiel quantique".
Dans son article sur les variables cachées de 1952 (Bohm 1952), Bohm arriva à sa théorie en
écrivant la fonction d'onde sous forme polaire ψ = R exp(iS / h ) où S et R sont réels, avec R non
négatif et en réécrivant l'équation de Schrödinger en terme de ces nouvelles variables pour obtenir
une paire d'équations d'évolution couplées : l'équation de continuité pour ρ = R 2 et une équation
modifiée de Hamilton-Jacobi pour S, différant de l'équation habituelle de Hamilton-Jacobi
seulement par l'apparition d'un terme supplémentaire, le potentiel quantique
h 2 ∂ 2k R
(1) U = −∑
k 2m k R
à coté du terme classique d'énergie potentielle.
Bohm a alors utilisé l'équation modifiée de Hamilton-Jacobi pour définir les trajectoires des
particules juste comme cela est fait pour l'équation classique de Hamilton-Jacobi, c'est-à-dire, en
identifiant ∂ k S avec mk v k , c'est-à-dire en posant
dQ k ∂ k S
(2) =
dt mk
qui est équivalente à l'équation guide pour des particules sans spin [notez que sous cette forme,
l'équation guide est déjà suggérée par la relation de de Broglie (équation pré-Schrödinger) p = hk ,
ainsi que par l'équation d'eikonal de l'optique classique]. Le mouvement résultant est précisément
ce qui serait obtenu classiquement si les particules subissent, en plus des forces habituelles, la force
générée par le potentiel quantique.
La formulation du potentiel quantique de la théorie de de Broglie - Bohm est encore assez
largement utilisée. Par exemple, la théorie est présentée de cette manière dans deux monographies
existantes, de Bohm et Hiley et de Holland. Et sans s'occuper de savoir si oui ou non on considère
le potentiel quantique comme fondamental, elle peut en fait être assez utile afin de voir le plus
facilement que la mécanique newtonienne devrait émerger en moyenne de la mécanique bohmienne
à la limite classique. On voit alors que la (taille du) potentiel quantique fournit une mesure de la
déviation de la mécanique quantique de son approximation classique. De plus, le potentiel
quantique peut aussi être utilisé pour développer des schémas d'approximation pour les solutions de
l'équation de Schrödinger (Nerukh et Frederick, 2000).
De plus, la relation entre mécanique classique et mécanique bohmienne qui est suggérée par le
potentiel quantique est assez trompeuse. La mécanique bohmienne n'est pas simplement de la
mécanique classique avec un terme de force additionnel. En mécanique bohmienne, les vitesses ne
sont pas indépendantes des positions comme elles le sont classiquement mais sont contraintes par
l'équation guide. Dans la théorie classique de Hamilton-Jacobi, la fonction S peut être entièrement
éliminée et la description en termes de S simplifiée et réduite à une description de dimension finie
avec les variables de base de positions et de moments (non contraints) de toutes les particules
données par les équations de Hamilton ou de Newton.
Il peut être affirmé que le défaut le plus sérieux dans la formulation du potentiel quantique de la
mécanique bohmienne est qu'elle donne une impression complètement fausse du chemin que l'on
doit parcourir afin de convertir la théorie quantique orthodoxe en quelque chose de plus rationnel.
Le potentiel quantique suggère, et en effet cela a souvent été dit, qu'afin de transformer l'équation
de Schrödinger en une théorie qui peut, dans ce qui est souvent appelé en termes "réalistes",
expliquer les phénomènes quantiques, dont plusieurs sont extrêmement non locaux, nous devons
ajouter à la théorie un potentiel quantique compliqué d'un caractère grossièrement non local. Il
devrait être clair que de tels sentiments sont inappropriés puisque le potentiel quantique n'a pas
besoin d'être mentionné dans la formulation de la mécanique bohmienne et en tout cas est
simplement un reflet de la fonction d'onde que la mécanique bohmienne n'ajoute pas mais partage
avec la théorie quantique orthodoxe.
VII.6. L'expérience à deux fentes
Selon Richard Feynman, l'expérience à deux fentes pour les électrons est (Feynman et al., 1963,
p.37-2)
Un phénomène qui est impossible, absolument impossible, à expliquer d'une manière classique et
qui est au cœur de la mécanique quantique. En réalité elle contient le seul mystère".
Cette expérience (Feynman 1867, p.130)
A été conçue pour contenir tout le mystère de la mécanique quantique, pour vous mettre face aux
paradoxes et mystères et particularités de la nature à cent pour cent".
Comme la question (Feynman 1967, p.145),
Comment cela marche-t-il réellement ? Quelle machinerie produit réellement cette chose ?
Personne ne connaît de machinerie. Personne ne peut vous donner une explication plus profonde
de ce phénomène que celle que j'ai donnée, c'est-à-dire une description.
Mais la mécanique bohmienne est justement une telle explication plus profonde. Elle résout le
dilemme de l'apparition dans le même phénomène des propriétés à la fois corpusculaires et
ondulatoires d'une manière assez directe : la mécanique bohmienne est une théorie du mouvement
décrivant une particule (ou des particules) guidée par une onde. Ici nous avons une famille de
trajectoires bohmiennes pour l'expérience à deux fentes.
Bien que chaque trajectoire passe par une seule des fentes, l'onde passe à travers les deux, le profil
d'interférence qui se développe donc dans l'onde génère une figure similaire aux trajectoires
guidées par cette onde.
Le problème est le suivant. Supposons que la fonction d'onde d'un système individuel fournisse une
description complète de ce système. Quand nous analysons le processus de mesure en termes
quantiques, nous trouvons que la fonction d'onde après la mesure pour le système et l'appareil
venant de l'équation de Schrödinger pour le système composite implique typiquement une
superposition de termes correspondant à ce que nous aimerions voir comme les différents résultats
possibles, par exemple, différentes orientations d'aiguilles. Il est difficile de discerner dans cette
description de la situation après mesure le résultat réel de la mesure, par exemple, une certaine
orientation spécifique des aiguilles. Mais le point complet de la théorie quantique et la raison pour
laquelle nous croyons en elle est que cela est supposé fournir une explication remarquable, ou au
moins efficace, de nos observations, c'est-à-dire des résultats des mesures. En bref, le problème de
la mesure est le suivant : la théorie quantique implique que la mesure échoue typiquement pour
avoir des résultats du type pour lequel la théorie fut créée pour l'expliquer.
Par contraste si, comme Einstein, nous regardons la description fournie par la fonction d'onde
comme incomplète, le problème de la mesure s'évanouit : avec une théorie ou interprétation comme
la mécanique bohmienne, dans laquelle la description de la situation après mesure inclus, en plus de
la fonction d'onde, au moins les valeurs des variables qui enregistrent le résultat, il n'y a pas de
problème de mesure. En mécanique bohmienne, les aiguilles pointent toujours sur un résultat
définis.
Le problème de la mesure est souvent exprimé un peut différemment. Il est noté que les livres de
mécanique quantique fournissent deux règles pour l'évolution de la fonction d'onde d'un système
quantique : une dynamique déterministe donnée par l'équation de Schrödinger quand le système
n'est pas "mesuré" ou observé et une réduction aléatoire de la fonction d'onde dans un état propre
de "l'observable mesuré" quand il l'est. Cependant, les objections continuent, les livres de
mécanique quantique ne fournissent pas une explication cohérente de comment ces deux règles
apparemment incompatibles peuvent être réconciliées.
Que cette formulation du problème de la mesure soit plus ou moins équivalent à la précédente
devrait être assez clair : si une fonction d'onde fournit une description complète de la situation après
mesure, le résultat de la mesure doit correspondre à une fonction d'onde décrivant le résultat réel,
c'est-à-dire une fonction d'onde "réduite". D'où la règle de réduction. Mais il est difficile de prendre
sérieusement l'idée que ces interactions entre système et appareil que nous appelons mesures soient
gouvernées par des lois différentes de celles gouvernant toutes les autres interactions. D'où
l'incompatibilité apparente des deux règles.
On pense largement par les défenseurs de la théorie quantique orthodoxe que le problème de la
mesure lui-même est quelque peu résolu par la décohérence. Il n'est pas facile de comprendre cette
croyance. Dans la première formulation du problème de la mesure, rien ne nous empêche d'inclure
dans l'appareil toutes les sources de décohérence. Mais alors, il n'y a plus de place pour que la
décohérence soit en aucune manière pertinente pour cet argument.
VII.8. La réduction de la fonction d'onde
Dans la section précédente, il fut indiqué que la réduction de la fonction d'onde peut être vue en
mécanique bohmienne comme une chose pragmatique. Cependant, il y a un sens dans lequel la
réduction de la fonction d'onde en mécanique bohmienne est plus qu'une question de pratique. Si
nous nous concentrons sur ce qui devrait être vu comme la fonction d'onde, non du système
composite système et appareil, qui à strictement parler reste une superposition si le système
composite est traité comme fermé durant le processus de mesure, mais du système lui-même, nous
trouvons que pour la mécanique bohmienne, cela provoque en effet une réduction, exactement
comme décrit par le formalisme quantique. L'élément clé ici est la notion de fonction d'onde
conditionnelle d'un sous système d'un système plus large, décrite brièvement dans cette section et
discutée en détail, avec la notion reliée de fonction d'onde effective, dans Dürr et al., 1992, section
5.
Il y a une réponse assez évidente à cela, une fonction naturelle de x qui incorpore de manière
souhaitable la structure objective, c'est-à-dire la fonction d'onde conditionnelle
(1) ψ ( x ) = Ψ ( x, Y )
obtenue en plongeant la configuration réelle de l'environnement dans la fonction d'onde du grand
système (cette définition est appropriée seulement pour des fonctions d'onde scalaire; pour des
particules avec spin, la situation serait un peu plus compliquée). Il s'ensuit alors immédiatement que
la configuration du sous-système obéit à l'équation guide avec la fonction d'onde conditionnelle sur
le coté droit.
De plus, en prenant en compte la manière dont la fonction d'onde conditionnelle dépend du temps t
(2) ψ t ( x ) = Ψt ( x, Yt )
via la dépendance en le temps de Y ainsi que de Ψ , il n'est pas difficile de voir (Dürr et al. 1992)
que la fonction d'onde conditionnelle obéit à l'équation de Schrödinger du sous-système quand le
système est de manière souhaitable découplée de l'environnement, cela signifie en particulier que
Ψ a une forme particulière, qui peut être appelée une forme de produit effectif (similaire mais plus
générale que le produit de superposition produit dans une "mesure quantique idéale"), auquel cas la
fonction d'onde du sous-système est aussi appelée sa fonction d'onde effective, et, en utilisant
l'hypothèse de l'équilibre quantique, qu'elle se réduit aléatoirement selon les règles habituelles de la
mécanique quantique sous précisément ces conditions de l'interaction entre le sous-système et son
environnement qui définit une mesure quantique idéale.
Il est peut-être utile de noter que la théorie quantique orthodoxe n'a pas les ressources, c'est-à-dire
la configuration réelle de l'environnement, qui rend possible la définition de la fonction d'onde
conditionnelle. En effet, d'un point de vue orthodoxe, cela signifierait que la fonction d'onde d'un
sous-système est totalement obscure.
VII.9. Aléatoire quantique
Selon le formalisme quantique, la densité de probabilité pour trouver un système dont la fonction
d'onde est ψ dans la configuration q est ψ (q ) . Dans la mesure où les résultats des mesures sont
2
statut et la justification de cette hypothèse de l'équilibre quantique est une question assez délicate et
qui a été explorée avec beaucoup de détails (Dürr et al. 1992). Voici quelques points pertinents.
C'est maintenant un fait assez familier que les systèmes dynamiques conduisent assez généralement
au comportement de caractère statistique, avec les statistiques données par la (ou une) distribution
de probabilité stationnaire pour la dynamique. De même en mécanique bohmienne, excepté que la
stationnarité du système bohmien n'est pas le bon concept et c'est plutôt la notion d'équivariance qui
est pertinente. Une probabilité de distribution ρ ψ sur l'espace de configuration, dépendant de la
fonction d'onde ψ , est équivariante si
(1) (ρ ψ )t = ρ ψ (t )
où la dépendance en t sur le coté droit vient de l'équation de Schrödinger et sur le coté gauche de
l'évolution des distributions de probabilité venant du flot induit par l'équation guide. Donc
l'équivariance exprime la compatibilité mutuelle, relative à ρ ψ , de l'évolution de Schrödinger de la
fonction d'onde et du mouvement bohmien de la configuration. C'est une conséquence immédiate
de l'équation guide et de l'équation de continuité quantique que ρ ψ = ψ (q ) est équivariant.
2
Considérons d'abord la mécanique classique. Les observables sont des fonctions sur l'espace des
phases, des fonctions des positions et impulsions des particules. La théorie est définie par les
axiomes gouvernant le comportement des observables de base, les équations de Newton pour les
positions ou d'Hamilton pour les positions et les impulsions. Quel serait le but de faire des axiomes
additionnels pour d'autres observables ? Après tout, le comportement de tout observable est
entièrement déterminé par le comportement des observables de base. Par exemple, pour la
mécanique classique, le principe de la conservation de l'énergie est un théorème, pas un axiome.
La situation peut sembler différente en mécanique quantique car en mécanique quantique il n'y a
pas d'observables de base ayant les propriétés que tous les autres observables sont fonction d'eux.
Cela est relié au fait qu'en mécanique quantique, avec son orientation positiviste, aucun observable
n'est pris sérieusement comme décrivant des propriétés objectives, comme ayant réellement des
valeurs qu'ils soient ou non mesurés. A la place, toute affirmation sur les observables de la
mécanique quantique est supposée être comprises comme une affirmation sur la mesure des
observables.
Mais si l'en est ainsi, la situation par rapport aux autres observables de la mécanique quantique n'est
pas vraiment si différente de la mécanique classique. Quelle que soit la signification supposée en
mécanique quantique des mesures des (valeurs des) observables, que, nous affirmons croire, ne pas
avoir réellement de valeurs, elle doit au moins se rapporter à certaines expériences impliquant des
interactions entre le système "mesuré" et un appareil "de mesure" conduisant à un résultat
reconnaissable donné potentiellement par, disons, une orientation d'aiguille. Mais alors, si les
axiomes que nous avons suffisent pour le comportement des orientations des aiguilles (au moins
quand elles sont observées), les règles pour la mesure des autres observables doivent être des
théorèmes suivant de ces axiomes, pas des axiomes supplémentaires.
Il devrait être clair suite aux discussions qui précèdent que, en supposant les hypothèses de
l'équilibre quantique, toute analyse de la mesure d'un observable quantique pour la théorie
quantique orthodoxe, quelle que soit sa signification et l'expérience correspondante pouvant être
effectuée, fournit ipso facto au moins une explication adéquate en mécanique bohmienne. La seule
partie de la théorie quantique orthodoxe pertinente à l'analyse est l'évolution de Schrödinger et cela
est partagé avec la mécanique bohmienne. La principale différence dans les deux explications est
que l'orthodoxe rencontre le problème de la mesure avant d'atteindre une conclusion satisfaisante
tandis que l'explication bohmienne ne le fait pas. Cette différence vient bien sûr du fait de ce que la
mécanique bohmienne ajoute, à la théorie quantique orthodoxe, les configurations réelles.
Dans le reste de cette section, nous souhaitons toucher un mot sur la signification des observables
quantiques en mécanique bohmienne : sur comment ils émergent naturellement et ce qu'ils
signifient (il suit de ce qui a été dit dans les trois paragraphes précédents que ce que nous concluons
ici sur les observables quantiques pour la mécanique bohmienne est valable également pour la
théorie quantique orthodoxe).
Il arrive que la mécanique bohmienne conduise à une association naturelle entre les expériences et
les observables dit généralisés, donné par des mesures d'opérateurs positifs (Davies 1976) ou
POVM, O(dz ) , sur les espaces de valeurs des résultats des expériences (Berndl, Daumer et al.
1995). Cette association est telle que la distribution de probabilité du résultat Z d'une expérience,
quand elle est effectuée sur un système avec la fonction d'onde ψ , est donnée par ψ O(dz )ψ (où
est le produit scalaire habituel entre les vecteurs d'états quantiques).
De plus, cette conclusion est basiquement une conséquence immédiate de la signification d'une
expérience dans une perspective bohmienne : un couplage du système à l'appareil conduisant à un
résultat Z qui est une fonction de la configuration finale du système total, par exemple l'orientation
d'une aiguille. Analysé en termes de la mécanique bohmienne, l'expérience définit une application
de la fonction d'onde initiale du système vers la distribution du résultat. Cela suit directement de la
structure de la mécanique bohmienne et du fait que la distribution d'équilibre quantique est
quadratique en la fonction d'onde, c'est-à-dire une application bilinéaire (ou plus précisément
sesquilinéaire). Une telle application est équivalente à un POVM.
L'exemple le plus simple d'un POVM est un observable quantique standard correspondant à un
opérateur hermitique A sur l'espace de Hilbert des états quantiques (c'est-à-dire les fonctions
d'ondes). Pour la mécanique bohmienne, plus ou moins toute expérience de "type mesure" est
associée avec ce type spécial de POVM et l'axiome familier de mesure quantique que la distribution
du résultat de "la mesure de l'observable A" est donnée par la mesure spectrale de A relativement à
la fonction d'onde (dans les cas les plus simples juste le carré des amplitudes dites de probabilité)
est donc obtenu.
Pour une variété de raisons, il devient rapidement presque universel, après que la mécanique
quantique fut découverte, de parler d'une expérience associée à un opérateur A de la manière que
nous venons de décrire comme une mesure de l'observable A comme si l'opérateur correspondait à
une propriété du système qui est en un certain sens mesuré par cette expérience. C'est une grande
source de confusion sur la signification et les implications de la théorie quantique que ce réalisme
naïf sur les opérateurs (Daumer et al. 1997).
VII.11. Spin
A la fois la manière dont les observables non configurationnels sont traités en mécanique
bohmienne et certaines des difficultés causées par le réalisme naïf sur les opérateurs mentionnés ci-
dessus peuvent être illustrées joliment avec le cas du spin.
Le spin est l'observable quantique canonique n'ayant aucune contrepartie classique, réputé être
impossible à saisir d'une manière non quantique. La source de la difficulté n'est pas tant que le spin
est quantifié dans le sens que ses valeurs permises forment un ensemble discret (pour une particule
de spin 1/2, ± h / 2 ), l'énergie aussi peut être quantifiée dans ce sens, ni même précisément que les
composantes du spin dans les différentes directions ne commutent pas et ainsi ne peuvent pas être
simultanément discutées, mesurées, imaginées ou quoi que ce soit que nous soyons empêchés de
faire avec des observables non commutant. La difficulté est plutôt qu'il n'y a pas de quantité
ordinaire (non quantique) qui, comme l'observable du spin, est un vecteur et qui est aussi tel que ses
composantes dans toutes les directions possibles appartiennent au même ensemble discret. Le
problème, en d'autres mots, est que les relations vectorielles habituelles entre les différentes
composantes du vecteur spin ne sont pas compatibles avec les conditions de quantification sur les
valeurs de ces composantes.
Pour une particule de spin 1 le problème est même plus sévère. Puisque les composantes du spin
dans différentes directions ne sont pas simultanément mesurables, les relations vectorielles
impossibles pour les composantes du spin d'une particule quantique ne sont pas des relations
observables. Simon Kochen et Ernst Specker (Kochen et Specker 1967) ont montré que pour une
particule de spin 1, les carrés des composantes du spin dans les différentes directions satisfont,
selon la théorie quantique, une collection de relations, chacune individuellement observable, qui
prisent ensembles sont impossibles : les relations sont incompatibles avec l'idée que les mesures de
ces observables révèlent simplement leur valeurs préexistantes plutôt que, comme nous sommes
pressés de croire en théorie quantique, les créer. Ce théorème de Kochen - Specker continue à être
vu par de nombreux physiciens et philosophes de la physique comme un argument définitif contre
la possibilité des variables cachées.
Nous pouvons donc naturellement nous demander comment la mécanique bohmienne fait pour
traiter le spin. Mais cette question a déjà été répondue ici. La mécanique bohmienne a un sens pour
des particules avec spin, c'est-à-dire des particules dont les fonctions d'onde sont des spineurs.
Quand de telles particules sont correctement dirigées vers un appareil de Stern-Gerlach, elles
émergent en se déplaçant dans un ensemble plus ou moins discrets de directions, 2 directions
possibles pour des particules de spin 1/2, ayant 2 composantes du spin, 3 pour le spin 1 avec 3
composantes, etc. Cela se produit parce que les aimants de Stern-Gerlach sont ainsi conçus et
orientés pour qu'un paquet d'onde (une fonction d'onde localisée avec une vitesse raisonnablement
bien définie) dirigé à travers l'aimant sera, en vertu de l'évolution de Schrödinger, séparé en deux
paquets distincts, correspondant aux composantes du spin de la fonction d'onde et se déplaçant dans
un ensemble discret de directions. La particule elle-même, selon sa position initiale, finira dans un
des paquets se déplaçant dans une des directions.
La distribution de probabilité pour le résultat d'une telle expérience de Stern-Gerlach est utilement
exprimée en termes des opérateurs de spin de la mécanique quantique, pour une particule de spin
1/2 donnée par les matrices de spin de Pauli, de la manière expliquée ci-dessus. Dans une
perspective bohmienne, il n'y a pas d'indice de paradoxe dans tout cela à moins que nous soyons
séduit par le réalisme naïf sur les opérateurs en insistant, en dépit de son impossibilité évidente, que
les opérateurs de spin correspondent à de véritables propriétés des particules.
VII.12. Contextualité
Le théorème de Kochen et Specker, le théorème précédent de Gleason (Gleason 1957 et Bell 1966)
ainsi qu'une variété d'autres résultats incluant les inégalités de Bell montrent que toute formulation
à variables cachées de la mécanique quantique doit être contextuelle. Elle doit violer l'hypothèse de
non contextualité "que la mesure d'un observable doit conduire à la même valeur indépendamment
de la manière de la mesurer" (Bell 1987, p.9). Pour beaucoup de physiciens et de philosophes de la
science, la contextualité a semblé un grand prix à payer pour des bénéfices plutôt modestes,
largement psychologique pourraient-ils dire, fournis par les variables cachées.
Même plusieurs bohmiens suggèrent que la contextualité marque un écart significatif des principes
classiques. Par exemple, Bohm et Hiley (1993) écrivent que "la dépendance au contexte des
résultats des mesures est une indication supplémentaire de comment notre interprétation n'implique
pas un simple retour aux principes de base de la physique classique".
Cependant, pour comprendre la contextualité dans la perspective bohmienne il faut préciser que
presque plus rien n'a besoin d'être expliqué. Considérons un opérateur A qui commute avec les
opérateurs B et C (qui, cependant, ne commutent pas ensemble). Ce qui est souvent appelé "le
résultat de A" dans une expérience "mesurant A avec B" est habituellement en désaccord avec "le
résultat de A" dans une expérience "mesurant A avec C" car, même si tout le reste est le même, ces
expériences sont différentes et des expériences différentes ont habituellement des résultats
différents. La référence trompeuse à la mesure, avec le réalisme naïf associé sur les opérateurs, rend
la contextualité plus important qu'elle ne l'est.
Si nous évitons le réalisme naïf sur les opérateurs, la contextualité explique un peu plus que
l'observation assez peu remarquable que les résultats des expériences dépendraient de comment
elles sont effectuées même quand les expériences considérées sont associées avec le même
opérateur de la manière expliquée ci-dessus. David Albert (Albert 1992, p.153) a donné un exemple
particulièrement simple et frappant de cette dépendance pour les expériences de Stern-Gerlach
"mesurant" la composante z du spin. Si on renverse la polarité des aimants pour "mesurer" la
composante z du spin, en gardant la même géométrie, on obtient un autre aimant "mesurant" la
composante z du spin. L'utilisation de l'un ou l'autre de ces deux aimants conduira souvent à des
conclusions opposées sur la "valeur de la composante z du spin" avant la "mesure" (pour la même
valeur initiale de la position de la particule).
On devrait insister sur le fait que la non-localité en mécanique bohmienne dérive seulement de la
non-localité construite dans la structure de la théorie quantique standard, comme fournie par une
fonction d'onde sur l'espace de configuration, une abstraction qui, grossièrement, combine, ou lie,
des particules distantes en une seule réalité irréductible. Comme Bell (Bell 1987, p.115) l'a
souligné,
Que l'équation guide, dans le cas général, ne se propage pas dans l'espace ordinaire à trois
dimensions mais dans un espace de configuration multidimensionnel est à l'origine de la "non-
localité" notoire de la mécanique quantique. C'est un mérite de la version de de Broglie - Bohm de
montrer cela si explicitement qu'elle ne peut pas être ignorée.
Donc la relation de vitesse non locale dans l'équation guide est un des aspects de la non-localité de
la mécanique bohmienne. Il y a aussi la non-localité, ou non séparabilité, implicite dans la fonction
d'onde elle-même et dans sa propagation, une non-localité qui en fait ne suppose pas la structure,
les configurations réelles, que la mécanique bohmienne ajoute à la théorie quantique orthodoxe. Et
comme Bell l'a montré, en utilisant la relation entre la fonction d'onde et les prédictions de la
mécanique quantique concernant les résultats expérimentaux, cette non-localité ne peut pas
facilement être écartée.
La non-localité de la mécanique bohmienne peut être appréciée peut-être plus efficacement, sous
tous ses aspects, en se concentrant sur la fonction d'onde conditionnelle. Supposons, par exemple,
que dans l'expérience EPR-Bohm la particule 1 passe à travers son dispositif de Stern-Gerlach
avant que la particule 2 n'arrive à son appareil. Alors l'orientation des aimants de Stern-Gerlach
pour la particule 1 aura un effet significatif sur la fonction d'onde conditionnelle de la particule 2 :
si les aimants de Stern-Gerlach pour la particule sont orientés pour "mesurer la composante z du
spin", alors après que la particule 1 soit passée à travers son aimant, la fonction d'onde
conditionnelle de la particule 2 sera un vecteur propre (ou état propre) de la composante z du spin
(en fait, appartenant à la valeur propre qui est le négatif de celle "mesurée" pour la particule 1) et la
même chose est vraie pour toute autre composante du spin. Vous pouvez dicter le type d'état propre
de spin produit pour la particule 2 en choisissant de manière appropriée l'orientation d'un aimant
arbitrairement distant. Comme le comportement futur de la particule 2, en particulier comment elle
est affectée par son aimant, cela dépend bien sûr beaucoup du caractère de sa fonction d'onde
conditionnelle et donc est très fortement influencé par le choix d'orientation de l'aimant distant.
Cet effet non local sur la fonction d'onde conditionnelle de la particule 2 suit de la combinaison de
l'analyse standard de l'évolution de la fonction d'onde dans l'expérience EPR-Bohm avec la
définition de la fonction d'onde conditionnelle (pour la simplicité, nous ignorons la symétrie par
permutation). Avant que les aimants soient atteints, la fonction d'onde EPR-Bohm est la somme de
deux termes, correspondant aux valeurs non nulles de deux des quatre composantes de spin jointes
possibles pour les deux particules, chaque terme est un produit d'un état propre pour une
composante du spin dans une direction donnée pour la particule avec l'état propre opposé (c'est-à-
dire appartenant à la valeur propre qui est la négative de la valeur propre de la particule 1) pour la
composante du spin dans la même direction pour la particule 2. De plus, en vertu de la symétrie
sous les rotations, il se fait que la fonction d'onde EPR-Bohm a la propriété que toute composante
du spin, c'est-à-dire dans toute direction, peut être utilisée dans cette décomposition (cette propriété
est très intéressante).
La non-localité de la mécanique bohmienne a une propriété remarquable : elle est cachée par
l'équilibre quantique. C'est une conséquence de l'hypothèse de l'équilibre quantique que les effets
non locaux en mécanique bohmienne ne conduisent pas à des conséquences observables qui sont
aussi contrôlables, nous ne pouvons pas les utiliser pour envoyer des messages instantanés. Cela
suit du fait que, étant donné l'hypothèse de l'équilibre quantique, les conséquences observables de
la mécanique bohmienne sont les mêmes que celles de la théorie quantique orthodoxe pour laquelle
la communication instantanée basée sur la non-localité quantique est impossible (voir Eberhard
1978). L'importance de l'équilibre quantique pour obscurcir la non-localité de la mécanique
bohmienne a été soulignée par Valentini (1991).
VII.14. Invariance de Lorentz
Comme la théorie quantique non relativiste, dont elle est une version, la mécanique bohmienne est
incompatible avec la relativité restreinte, un principe central de la physique : elle n'est pas
invariante de Lorentz. La mécanique bohmienne ne peut pas non plus être facilement modifiée pour
devenir invariante de Lorentz. Les configurations, définies par les positions simultanées des
particules, jouent un rôle crucial dans sa formation, l'équation guide définissant une évolution dans
l'espace de configuration.
Cette difficulté avec l'invariance de Lorentz est intimement reliée à la non-localité de la mécanique
bohmienne. Puisque la théorie quantique elle-même, en vertu simplement du caractère de ses
prédictions concernant les corrélations EPR-Bohm, est irréductiblement non locale, on peut
s'attendre à des difficultés considérables avec l'invariance de Lorentz de la théorie quantique
orthodoxe aussi bien qu'avec la mécanique bohmienne. Par exemple, la règle de réduction des livres
de théorie quantique viole de manière flagrante l'invariance de Lorentz. De fait, la non-localité
intrinsèque de la théorie quantique présente des difficultés formidables pour le développement de
toute formulation (plusieurs particules) invariante de Lorentz qui évite l'aspect vague de la théorie
quantique orthodoxe (voir Maudlin 1994).
La vue la plus commune sur la question de l'invariance de Lorentz et la non-localité quantique est
qu'une description détaillée des processus quantiques microscopiques, telle qu'elle serait fournie par
une extension de la mécanique bohmienne au domaine relativiste devrait violer l'invariance de
Lorentz. Dans cette vue, l'invariance de Lorentz est une symétrie émergente obéissant à nos
observations, une conséquence statistique de l'équilibre quantique qui gouverne les résultats des
expériences quantiques. C'est l'opinion de Bohm et Hiley (1993), Holland (1993) et Valentini
(2001).
Bien qu'il se peut que la non-localité invariante de Lorentz reste quelque peu énigmatique. Les
questions sont extrêmement subtiles. Par exemple Bell (1987, page 155) trouverait :
Perturbant... l'impossibilité de "messages" plus rapide que la lumière qui suit de la mécanique
quantique ordinaire qui jusqu'ici est non ambiguë et adéquate pour les procédures que nous
pouvons effectuer. L'élucidation exacte de concepts comme "message" et "nous" serait un
formidable défi.
Bien que l'équilibre quantique et l'incertitude absolue qui l'affecte (Fürr et al.) puisse être utile ici,
la situation reste énigmatique.
VII.15. Objections
Toux ceux qui ont porté des arguments sur les fondations de la mécanique quantique, quelle que
soit leur position seraient d'accord avec l'observation suivante de Tolstoy :
Je sais que la plus part des hommes, incluant ceux qui ont facile avec les problèmes de grande
complexité, peuvent rarement accepter les vérités même les plus simples et les plus évidentes sur
elles qui les obligent à admettre la fausseté des conclusions qu'ils ont pris plaisir à expliquer aux
collègues, qu'ils ont fièrement enseignés aux autres et qu'ils ont tissé fil après fil dans la fabrique
de leur vie.
Un grand nombre d'objections ont été et continuent à être soulevées contre la mécanique
bohmienne. Voici quelques-unes d'entre elles : la mécanique bohmienne fait des prédictions sur les
résultats des expériences différents de ceux de la théorie quantique orthodoxe ainsi elle est fausse.
La mécanique bohmienne fait les mêmes prédictions sur les résultats des expériences que la théorie
quantique orthodoxe ainsi elle n'est pas testable et donc sans signification. La mécanique
bohmienne est mathématiquement équivalente à la théorie quantique orthodoxe et donc n'est pas
réellement une alternative du tout. La mécanique bohmienne est plus compliquée que la théorie
quantique orthodoxe, puisqu'elle implique une équation supplémentaire (cette objection est basée
sur l'erreur surprenante commune que la théorie quantique orthodoxe est définie seulement par
l'équation de Schrödinger et n'a pas réellement besoin comme partie de sa formulation des postulats
de mesure trouvés dans les livres sur la théorie quantique. C'est seulement dans un cadre des
univers multiples que cette vue pourrait commencer à avoir un sens, mais nous doutons fortement
qu'elle ait un sens même là). La mécanique bohmienne nécessite de postuler un potentiel quantique
mystérieux et indétectable. La mécanique bohmienne nécessite l'addition à la théorie quantique
d'une mystérieuse onde pilote. La mécanique bohmienne, comme l'a montré von Neuman, ne peut
pas marcher. La mécanique bohmienne, comme Kochen et Specker l'ont montré, ne peut pas
marcher. La mécanique bohmienne, comme Bell l'a montré, ne peut pas marcher. La mécanique
bohmienne est une régression enfantine à des modes discrétisés classiques de pensée. Les
trajectoires bohmiennes sont folles puisqu'elles peuvent être courbées même quand aucune force
classique n'est présente. Les trajectoires bohmiennes sont folles puisqu'une particule bohmienne
peut être au repos dans des états quantiques stationnaires. Les trajectoires bohmiennes sont folles
puisqu'une particule bohmienne ne peut être au repos sans des états quantiques stationnaires même
quand ils sont des états propres d'énergie élevée. Les trajectoires bohmiennes sont surréalistes. La
mécanique bohmienne, puisqu'elle est déterministe, est incompatible avec l'aléatoire quantique. La
mécanique bohmienne est non locale. La mécanique bohmienne est intuitive. La mécanique
bohmienne est l'interprétation des univers multiples déguisée (pour un bout de discussion sur
certaines de ces objections, voir l'échange de lettres sur la théorie quantique sans observateurs, dans
l'édition de février 1999 de Physics Today, particulièrement les quatre dernières des huit lettres).
La plus part de ces objections ont peu ou pas de mérite. Certaines viennent d'un réalisme naïf sur
les opérateurs, certaines de l'idée que, dans la mesure ou les concepts de la physique classique
s'appliquent, les lois de la physique classique sont plus ou moins considérées valides a priori,
certaines d'une incapacité à saisir le point de la mécanique bohmienne et certaines d'une complète
ignorance.
Il est peut-être utile de mentionner qu'en dépit de l'équivalence empirique entre la mécanique
bohmienne et la théorie quantique orthodoxe, il y a une variété d'expériences et de questions
expérimentales qui ne rentrent pas confortablement dans le formalisme quantique standard mais
sont facilement manipulées par la mécanique bohmienne. Parmi elles il y a les résidences et temps
tunnels (Leavens 1996), les temps d'évasion et positions d'évasion (Daumer et al. 1997), la théorie
de la diffusion (Dürr et al., 2000) et le chaos quantique (Cushing 1994, Dürr et al., 1992).
D'ailleurs, cet ajout ontologique est vraiment restreint. La nature de la fonction d'onde n'est pas
précisée et celle-ci continue à contenir l'essentiel des propriétés quantiques comme le spin.
Cette objection n'est toutefois qu'affaire de goût, comme la plus part des interprétations de la
mécanique quantique. Et la théorie de Bohm a tout de même le mérite de montrer une
construction explicite et réussie d'une théorie à variables cachées.
De plus, il y a une propriété frappante de la mécanique quantique qui est souvent présentée
comme une objection mais est mieux regardée comme une révélation importante sur la
signification de la mécanique quantique : en mécanique bohmienne, la fonction d'onde agit sur
la position des particules mais évolue comme si elle était autonome via l'équation de
Schrödinger, elle n'est pas modifiée par les particules. Ce point est discuté dans Dürr et al. 1997
et dans Goldstein et Teufel 2001 où il est suggéré que, dans une perspective plus profonde que
celle permise par la mécanique bohmienne standard ou la théorie quantique, la fonction d'onde
devrait être vue comme nomologique, comme un objet exprimant utilement la loi du
mouvement quelque peu analogue à l'hamiltonien de la mécanique classique et qu'une équation
de type Schrödinger dépendant du temps, dans cette perspective (cosmologique) plus profonde,
est simplement phénoménologique.
Un autre aspect souvent soulevé est le caractère hautement non classique des trajectoires des
particules. Objection reprise dans les exemples ci-dessus. Les trajectoires peuvent être
hautement saccadées. Un exemple typique est fournit par la collision d'un paquet d'ondes avec
une barrière de potentiel. Rappelez-vous la figure, la fonction d'onde a des oscillations rapides,
serrées et variant dans le temps. Cela implique, avec l'équation guide, que de nombreuses
particules suivent des trajectoires très curieuses en faisant des aller-retour dans ou aux alentours
de la barrière, sans qu'aucune raison plausible ne puisse être invoquée (autre que l'évolution de
la fonction d'onde).
Toutefois, il ne s'agit pas là d'une objection grave car la théorie de Bohm n'a pas vocation à être
une théorie classique ! Sinon, elle n'aurait plus besoin de l'équation de Schrödinger. Le
problème est plutôt à rapprocher du statut de la fonction d'onde dans la théorie.
Un problème plus sérieux est relié à l'équivarance. La théorie de Bohm ne reproduit
correctement les résultats de la mécanique quantique que si la densité de particules (ou plutôt de
trajectoires et c'est alors une densité de probabilité statistique classique) est égale à ψ (t ) . Si
2
elle est égale, alors elle le reste et il n'y a pas d problème. Mais la difficulté est de comprendre
pourquoi, au départ, elle a justement cette densité.
Les arguments des tenants à cette approche parlent, nous l'avons vu, d'équilibre dynamique
analogue à l'équilibre thermique.
Mais ce n'est pas ce qui est observé sur des modèles simples. Si l'on considère un système
simple, un écart à la densité ψ (t ) à tendance à diverger et à s'éloigner rapidement des
2
prédictions de la mécanique quantique. L'équivariance est instable. Peut-être que dans des
situations complexes avec de nombreux sous-systèmes, de nombreuses particules et l'interaction
avec l'environnement, une telle convergence peut-elle se produire. Mais cela reste largement à
démontrer.
Comme signalé, le statut de l'invariance de Lorentz et donc de la relativité reste peu clair.
Plusieurs fois, la non-localité est signalée comme étant incontournable en mécanique quantique.
Notamment par Bell. Mais cette affirmation est fausse car il existe des interprétations locales
comme la mécanique quantique relationnelle, ce qui constitue un contre-exemple. Le problème
est souvent amplifié par une confusion commune : la confusion entre description locale et lois
locales. Une description locale est une description où on peut décrire chaque composante d'un
système localement, sans faire référence au reste du système. Par exemple lorsque l'on décrit
une boule de verre à un instant donné, on en fait une description non locale (on décrit
l'ensemble de la boule, dans toute son extension spatiale, en un instant donné t). Mais on peut
passer à une description locale en décrivant chaque parcelle de la boule et des relations (liaisons
moléculaires) avec les parcelles voisines. Que ce ne soit pas possible en mécanique quantique
est probablement vrai, mais il faut rapprocher cela de la non séparabilité et pas de la non-
localité : on ne peut décrire isolément correctement une partie d'un système. L'intrication en est
l'exemple le plus frappant. Mais cela ne veut pas dire que les lois décrivant l'évolution du
système sont non locales. Le formalisme de l'équation de Schrödinger est parfaitement local,
c'est une équation aux dérivées partielles. Et en mécanique quantique relativiste ou en théorie
quantique des champs, la localité est garantie par les relations de commutation qui sont nulles
pour des opérateurs agissant en deux points de l'espace-temps séparés par un intervalle spatial.
La difficulté ne se situe donc qu'au niveau de l'interprétation (par exemple, la réduction) mais,
comme signalé, cette difficulté peut être contournée.
La mécanique bohmienne n'explique pas des phénomènes tels que la création et l'annihilation
caractéristiques de la théorie quantique des champs. Ce n'est pas une objection à la mécanique
bohmienne mais simplement une reconnaissance que la théorie quantique des champs explique
beaucoup plus que la mécanique quantique non relativiste, qu'elle soit sous forme orthodoxe ou
bohmienne. Elle souligne cependant le besoin de trouver une version bohmienne adéquate, si
pas attirante, de la théorie quantique des champs et des théories de jauge en particulier, un
problème qui est plutôt largement ouvert. Quelques tentatives dans cette direction peuvent être
trouvées dans Bohm et Hiley 1993, Holland 1993, Bell 1987 (p.173) et dans certains articles
dans Cushing et al. 1996 (pour une discussion générale sur cette question et du point et valeur
de la mécanique bohmienne, voir les échanges de lettres entre Goldstein et Weinberg).
Le théorème de Malament montre que la difficulté est sans doute beaucoup plus grande que l'on
ne croît.
Mais même sans faire appel à ce théorème, des difficultés sont aisément mises en évidence.
Outre le problème du nombre de particules variables (et leur création / annihilation), le nombre
de particules n'est pas invariant en théorie quantique des champs. Il dépend de l'observateur ! Il
est, par exemple, différent pour un observateur inertiel et un observateur accéléré (Unruh,
Hawking, Bogoliubov).
Un autre aspect est simplement fournit par l'analyse EPR-Bohm. La particule qui est mesurée
influence l'autre de manière non locale. Pour un autre observateur en mouvement, la relativité
montre que les mesures, si elles sont séparées par un intervalle spatial, peuvent avoir leur ordre
temporel renversé. Dans ce cas, cela signifie que l'influence de la particule est non seulement
non locale mais remonte le temps !
Il est donc clair qu'une interprétation basée sur une ontologie corpusculaire est en défaut. Il
faudrait peut-être baser les objets fondamentaux sur des champs bien que cela fasse perdre une
partie des avantages d'une telle théorie bohmienne puisque la théorie des champs a déjà ces
champs comme objets fondamentaux.
Calculez d'abord la fonction d'onde en tout point. Puis résolvez l'équation des trajectoires pour
différentes conditions initiales.
2. Calculez de même les trajectoires d'une particule dans un puits carré à une dimension, pour les
deux états de plus basse énergie.