Professional Documents
Culture Documents
` et recherche dinformation
HMUL8R6B: Acces
Indexation, representation
Massih-Reza Amini
Universite Joseph Fourier
Laboratoire dInformatique de Grenoble
Massih-Reza.Amini@imag.fr
2/32
Introduction
Representation
Indexation
Objectifs du module
`
q Lobjectif de cours est dintroduire les principaux modeles
en Recherche dInformation (RI).
et algorithmes utilises
1. Lindexation et la representation
des documents
2. Les modeles
standard de la RI
3. La RI sur le web
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
3/32
Representation
Introduction
Indexation
LDA
2002
1950
Modle
informa6onnel
2010
Modle
de
langue
1998
LSA
1re
confrence
CORIA
1990
2004
Google
1998
1960
1970
Inven6on
mot
RI
1950
1980
1990
MIB
1977
RI
vectoriel
1965
RI
probabiliste
1960
Massih-Reza.Amini@imag.fr
Dbut
OKAPI
1983
2000
2010
BM25
1994
PLSA
1998
4/32
Representation
Introduction
Indexation
Indexation et representation
d1
Collection de documents
Reprsentation
de documents
di
dn
d2
d1
d5
d6
dj
Reprsentation dans
lespace des termes
d3
d4
d8
dN
Vocabulaire
Prtraitements
linguistiques
Indexation
de termes
t1
d1 d4 d101
t2
d2 d7
t3
d1 d31
.
.
.
.
Termes du
vocabulaire
Massih-Reza.Amini@imag.fr
Index
invers
` a` linformation
RICM4, Acces
5/32
Introduction
Representation
Indexation
Pretraitements
linguistiques : segmentation
suite de caracteres
en el
semantiques,
ou mots :
linformation donne sens a` lesprit
` segmentation l, information, donne, sens, a,
` l, esprit
Apres
soit 7 mots mais seulement 6 types.
`
sequence
de caracteres.
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
6/32
Introduction
Representation
Indexation
Pretraitements
linguistiques : segmentation
des specificit
es
q Pour certaines langues asiatiques comme par exemple le
par
chinois, les mots dans un texte ne sont pas separ
es
ements
separation
entre les differents
el
lexicaux.
Neanmoins,
chaque langue de ce groupe linguistique a sa
specificit
e propre.
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
7/32
Introduction
Representation
Indexation
Pretraitements
linguistiques : segmentation
q Par exemple pour le francais, nous avons
lexicaux a` trait dunion comme chasse-crois
q Les composes
e,
peut-etre,
rendez-vous, etc.
lexicaux a` apostrophe comme jusquou,
q Les composes
`
aujourdhui, prudhomme, etc.
Metiers),
Msieur, j, etc.
` P.-V., etc.
q Les sigles et les acronymes comme K7, A.R., CV, cad,
q Ce probleme
devient meme
extreme
avec lallemand, ou`
secrivent
gungsgesetz
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
8/32
Introduction
Representation
Indexation
Pretraitements
linguistiques : segmentation
tache
:
http://www.ims.uni-stuttgart.de/projekte/
corplex/TreeTagger/.
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
9/32
Introduction
Representation
Indexation
Pretraitements
linguistiques : normalisation
q La normalisation de mots est le processus qui transforme
sequences
de caracteres
de leurs mots associes.
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
10/32
Introduction
Representation
Indexation
Pretraitements
linguistiques : normalisation
textuelle
`
transformations superficielles sur les sequences
de caracteres
de ces mots.
`
a` lexemple ci-dessus,
q Les ponctuations. La regle
de base appliquee
et qui concerne tous les acronymes, est denlever les points et les traits
dunion apparaissant dans les mots.
eraliser
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
11/32
Introduction
Representation
Indexation
Pretraitements
linguistiques : normalisation
linguistique
langue utilisee.
http://snowball.tartarus.org/algorithms/french/
stemmer.html
pour enlever les
q La lemmatisation fait une analyse linguistique poussee
variantes flexionnelles des mots afin de les ramener sous leur forme
ou encyclopedique.
lemmatisee
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
12/32
Representation
Introduction
Indexation
Pretraitements
linguistiques : Filtrage
ee
dans tous les documents dune
avec une frequence
elev
collection et qui napportent que peu dinformation sur le
contenu dun document.
presents
dans la collection de Wikipedia
francais :
de
des
au
qui
quel
ou
la
d
dans
que
quelle
se
le
les
par
avec
s
sont
et
est
pour
son
pas
aux
en
un
sur
plus
n
qu
l
une
date
se
je
sa
du
il
a
sans
y
elle
` a` linformation
RICM4, Acces
13/32
Introduction
Representation
Indexation
Wikipedia
francais pretrait
ee
Variables
# de documents de la collection
# total doccurrences des mots
Symboles
N
M
sur le disque
Taille de la collection segment
ee
# de types de mots
` racinisation
# de types de mots apres
# de termes du vocabulaire
# moyen de termes par document
sur le disque
Taille de la collection pretrait
ee
Massih-Reza.Amini@imag.fr
My
MNor
V
Valeurs
1 349 539
696 668 157
416
4.6 GB
757 476
604 444
604 244
225
2.8 GB
` a` linformation
RICM4, Acces
14/32
Representation
Introduction
Indexation
dans le Wikipedia
francais?
q On note ensuite que le filtrage des documents par lanti-dictionnaire,
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
15/32
Representation
Introduction
Indexation
Loi de Heaps
La loi de Heaps stipule que la taille du vocabulaire (V ) crot
Massih-Reza.Amini@imag.fr
16/32
Representation
Introduction
Indexation
Loi de Zipf
18
16
14
ln(fc)
12
10
8
6
4
2
0
0
10
ln(rang)
Massih-Reza.Amini@imag.fr
12
14
16
18
rang(m)
rang
1
2
3
4
5
6
7
8
mot
de
la
le
et
en
l
du
des
frequence
36, 875, 868
16, 565, 726
12, 639, 034
11, 587, 487
10, 885, 221
8, 937, 203
8, 541, 846
8, 302, 026
` a` linformation
RICM4, Acces
17/32
Introduction
Representation
Indexation
Exercices
tirage aleatoire
avec remise dans lensemble des My differents
types de mots
de la collection de documents.
Z r
r
X
dx
1
par
est approchee
= ln r
i
1 x
i=1
lev
Ek , suit une loi binomiale dont on precisera
les
`
parametres.
En deduire
lesperance
de Sk .
` a` linformation
RICM4, Acces
18/32
Introduction
Representation
Indexation
Exercices
a une
On suppose que le 50ieme mot le plus frequent
dune langue ` donnee
probabilite dapparition de 0.02 dans nimporte quelle collection de cette
langue. Soit C` un corpus de documents de la langue ` contenant 10, 000
mots differents.
q Quel est le rang dun mot qui apparat 40 fois dans C` ?
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
19/32
Introduction
Representation
Indexation
Representation
vectorielle des docs
` vectoriel (ou Vector Space Model), propose par
q Le modele
dans differentes
`
communement
utilisee
taches
de lacces
a` linformation.
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
20/32
Representation
Introduction
Indexation
Ponderations
de termes les plus usuelles
tfti ,d
1+ln(tfti ,d )
1+ln(moy tf (d))
idfti
Massih-Reza.Amini@imag.fr
max{0, ln
1
1
kdk
Ndfti
dfti
= P1V
i=1
1
(Chard ) , 0
wid
<<1
` a` linformation
RICM4, Acces
21/32
Representation
Introduction
Indexation
par:
S = {x1 , ..., xn } contenant n observations qui sont chacune une realisation
de X , cette entropie est estimee
Hb (X ) =
n
X
i=1
erien,
dune variable
Soit C = {dj }N
` chaque document dj C est la realisation
j=1 une collection de N documents, ou
aleatoire
D suivant une loi de probabilite uniforme. Montrer dans ce cas que lentropie de D est :
H(D) = ln
1
N
Dans le cas ou` lon dispose de deux sources X et Y , lentropie restante provenant de la v .a. X lorsque lon connat
par :
parfaitement Y , sappelle lentropie conditionnelle, H(X | Y ), et est calculee
H(X | Y ) =
P(X = xj | Y ) ln P(X = xj | Y )
j=1
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
22/32
Introduction
Representation
Indexation
Representation
vectorielle des docs (2)
permet davoir
La representation
vectorielle adoptee
`
:
directement acces aux outils mathematiques associes
reduction
distances, similarites,
de dimensions, ...
Exercices
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
23/32
Representation
Introduction
Indexation
Une representation
creuse !
La majorite des termes de la collection napparaissent pas dans
un document donne ; chaque document a donc la majeure
nulles ; un gain despace peut etre
nulles
obtenu en ne representant
pas ces coordonnees
Exemple de representation
creuse :
int l
TabTermes int[l]
document d
TabPoids float[l]
edent
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
24/32
Introduction
Representation
Indexation
Index inverse
qui fait correspondre chaque
q La structure de donnees
terme du vocabulaire a` la liste des documents qui le
contiennent est la facon la plus rapide pour trouver un
donnee
dans une collection de
terme dune requete
index inverse.
mettent gen
le vocabulaire et une partie des
sur disque.
les autres informations etant
stockees
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
25/32
Representation
Introduction
Indexation
Extrac,on
t4
t5
d1
t1
t2
t4
t1
d2
t5
t2
t1
t3
d3
Collec,on
Massih-Reza.Amini@imag.fr
terme
Iddoc
t2
t4
t5
t1
t2
t4
t1
t5
t2
t1
t3
1
1
1
2
2
2
2
3
3
3
3
Trie
terme
t1
t1
t1
t2
t2
t2
t3
t4
t4
t5
t5
Regroupement
Iddoc
2
2
3
1
2
3
3
1
2
1
3
terme; df
Liste de docs; 6
t1 ; 2
2; 2
3; 1
t2 ; 3
1; 1
2; 1
t3 ; 1
3; 1
t4 ; 2
1; 1
2; 1
t5 ; 2
1; 1
3; 1
3; 1
Indexeur
` a` linformation
RICM4, Acces
26/32
Introduction
Representation
Indexation
regissent
la construction du fichier inverse :
1. Extraction des paires didentifiants (terme, doc), passe
` sur la collection
complete
2. Tri des paires suivant les id. de terme, puis les id. de docs
`
Ces etapes
ne posent aucun probleme
dans le cas de petites
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
27/32
Representation
Introduction
Indexation
Cas de memoire
insuffisante
Il faut dans ce cas stocker des informations temporaires sur
disque
Trois etapes
:
ecriture
dans une serie
de fichier
le fichier inverse
3. Fusion des differents
fichier pour creer
Algorithme associe : Blocked sort-based indexing (BSBI)
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
28/32
Introduction
Representation
Indexation
n n+1
5.
block ParseBlock()
6.
BSBI-Invert(block)
7.
WriteBlockToDisk(block,fn )
Massih-Reza.Amini@imag.fr
` a` linformation
RICM4, Acces
29/32
Introduction
Representation
Indexation
Le resultat
(deuxieme
cle).
est donc un fichier inverse pour le
bloc lu. Complexite en O(T log T ) ou` T est le nombre de paires
etre
plus longues)
Exemple
t1 = brutus, t2 = caesar, t3 = julius, t4 = kill, t5 = noble
t1 : d1 , d2
t2 : d2 , d3
t3 : d 4
Massih-Reza.Amini@imag.fr
t1 : d5
t2 : d5 , d6
t3 : d7
t2 : d8
t4 : d8
t5 : d8
` a` linformation
RICM4, Acces
30/32
Representation
Introduction
Indexation
cas distribue
Index inverse:
J-R
A-I
J-R
Serveur
Serveur
S-Z
terme
Liste de docs
J-R
Regroupement
A-I
A-I
S-Z
S-Z
A-I
J-R
S-Z
Collec&on
Massih-Reza.Amini@imag.fr
Analyseurs
Inverseurs
` a` linformation
RICM4, Acces
31/32
Introduction
Representation
Indexation
cas dynamique
Index inverse:
La technique de mise a` jour directe sur place
Vocabulaire
Index
sur
le
disque
Nouvelles
Listes
en
mmoire
Vocabulaire
Index
actualis
sur
le
disque
Massih-Reza.Amini@imag.fr
t1 t2 t3 t4 t5
t1
1 LD(t1)
t3
1 LD(t3)
t1 t2 t3 t4 t5
` a` linformation
RICM4, Acces
32/32
Introduction
Representation
Indexation
cas dynamique
Index inverse:
La technique de fusion
Vocabulaire
Index
sur
le
disque
Nouvelles
Listes
en
mmoire
Vocabulaire
Massih-Reza.Amini@imag.fr
t1 t2 t3 t4 t5
t1
1 LD(t1)
t3
1 LD(t3)
t1 t2 t3 t4 t5
` a` linformation
RICM4, Acces