Professional Documents
Culture Documents
Prambule
Ce document fait un rsum rapide de lanalyse smantique latente. Il sagit dune mthode
statistique permettant dextraire automatiquement des relations conceptuelles entre les termes
dune collection de textes (par exemple : mobylette et voiture sont deux types de vehicule et sont
donc relis conceptuellement).
X = U V >
o U et V sont des matrices orthonormales et est une matrice diagonale contenant les valeurs
singulires de X. Il suffit alors de se fixer un espace de dimension K et prserver la valeur des
K premires valeurs singulires de (i.e. de X) et annuler les autres. La matrice modifie des
valeurs singulires permet de calculer un nouveau codage des textes dans lespace smantique
latent par :
X = U V > .
Exemple
Voici un exemple tir du livre Modeling the Internet and the Web de Pierre Baldi, Paolo
Frasconi, Padhraic Smyth.
Conclusion
Mthode extrmement simple et trs efficace pour lextraction de relations conceptuelles entre
termes. La question de la dimension conserver reste un paramtre rgler. Lutilisation de cette
mthode ncessite par ailleurs la disponibilit dune bibliothque dalgbre linaire permettant de
grer des matrices de grande dimension (et ventuellement creuses).