You are on page 1of 262

THESE

prsente et soutenue publiquement le 06 avril 2010 Annecy-le-Vieux en vue du

Doctorat de

mention STIC Traitement de l'Information par

l'UNIVERSITE DE SAVOIE
M. Grgory PAS

Analyse conjointe texte et image pour la caractrisation de lms d'animation.

Thse prpare au LISTIC et encadre par :

Pr Patrick LAMBERT Dr Daniel BEAUCHENE

COMPOSITION DU JURY Prsident : Rapporteurs : Examinateurs : Pr Matthieu CORD, UPMC-PARIS VI, Paris Pr Christophe DUCOTTET, Univ. Jean Monnet, Saint-Etienne Pr Sylvie DESPRS, Univ. Paris 13, Paris Pr Matthieu CORD, UPMC-PARIS VI, Paris Dr Ladjel BELLATRECHE, ENSMA, Poitiers Dr Franoise DELOULE, Univ. Savoie, Chambry

Rsum : Le dveloppement rapide des nouvelles technologies de l'information a provoqu

ces dernires annes une augmentation considrable de la masse de donnes disposition de l'utilisateur. An d'exploiter de manire rationnelle et ecace l'ensemble de ces donnes la solution passe par l'indexation de ces documents multimdia. C'est dans ce contexte que ce situe cette thse et plus spciquement dans celui de l'indexation d'une base numrique de lms d'animation, telle que celle mise en place par la CITIA (Cit de l'image en mouvement). L'objectif principal de cette thse est de proposer une mthodologie permettant de prendre en compte des informations issues de l'analyse de l'image et celles issues des pri-textes (synopsis, critiques, analyses, etc.). Ces deux sources d'information sont de niveau smantique trs dirent et leur utilisation conjointe permet une caractrisation riche et smantique des squences vido. L'extraction automatique de descripteurs images est aborde dans ces travaux travers la caractrisation des couleurs et de l'activit du lm. L'analyse automatique des synopsis permet quant elle de caractriser la thmatique du lm et permet, grce au scnario actanciel, la caractrisation de l'action de la squence. Finalement ces informations sont utilises conjointement pour retrouver et dcrire localement les passages d'action et permettent d'obtenir l'atmosphre du lm grce leur fusion oue.

Abstract : These last years, the fast development of new technologies allows digital media

collections and the circulation of these data growing in size and number. However, the exploitation of these data remains a whole problem and creates a strong requirement for ecient tools to manipulate it. The current trend is in search of automatic indexing technique, based on semantic document contents. In the context of Annecy International Animation Film Festival the animated movie characterization presented in our works consists in information fusion between information contained in the animated movie images, textual information extracted from festival registration form and the expert knowledge. This information fusion uses color statistics and activity measure extracted from automatic image sequence analysis and uses textual description and emotion measure from automatic textual analysis. Two characterizations are provided from this information fusion. A rst global characterization consists in a dramatic emotion classication and a second local characterization consists in the time-localized action description from the actant scenario.

Mots clefs : Caractrisation de lms, cinma d'animation, analyse d'images, analyse de

textes, Extraction d'information, scnario actanciel, fusion d'information, systme de fusion ou.

Remerciements
Cette thse a t mene au sein du Laboratoire d'Informatique, Systmes et Traitement de l'Information et de la Connaissance (LISTIC) de l'Universit de Savoie et a t co-nance par l'Assemble des Pays de Savoie (APS), le LISTIC et Polytech'Savoie. Mes premiers remerciements vont donc naturellement ces institutions. Je remercie madame Sylvie Desprs et monsieur Christophe Ducottet d'avoir bien voulu rapporter mes travaux ainsi que les membres du jury monsieur Matthieu Cord et monsieur Ladjel Bellatreche pour leurs remarques et suggestions concernant ce manuscrit et plus gnralement sur mes travaux de thse. La soutenance d'une thse est un vnement unique qui marque la n d'une exprience qui fut trs enrichissante. Ainsi je tiens remercier chaleureusement madame Franoise Delloule, messieurs Daniel Beauchne et Patrick Lambert qui m'ont accompagn tout au long de ces annes. J'ai une sincre gratitude pour ces trois chercheurs de communauts scientiques direntes auprs desquels j'ai beaucoup appris. Je souhaite remercier Philippe Bolon et plus gnralement l'ensemble du laboratoire de m'avoir accueilli au sein du LISTIC. Un grand merci en particulier Jolle et Samia notre secrtariat de choc pour leur disponibilit, leur coute et leur gentillesse. Un merci tout particulier mes collgues de bureau Amory Bisserier, Olivier Passalacqua, Florent Martin et Nabile Fakhfakh pour leur soutien, leur sympathie, et les grands moments musicaux o les extravagances vocales taient au rendez-vous. Un grand merci galement aux doctorants et personnel technique Azadeh, Yajing, Andreea, Renaud, Sylvain, Alain, Abdellah, Fabien et Sbastien. Merci mille fois mes amis et tout ceux qui m'ont soutenu par votre prsence ou vos messages d'encouragement le jour de la soutenance Cline, Amandine, Baba, milie, Pat, Juju, Pim's, Soso, Christelle, Anne-So, Patoune, Guillaine, Max, Alex, Delf, Flo, Yo et j'en oublie... Merci galement Not'in Game Gospel mon chappatoire musicale pour l'motion et la richesse humaine que vous m'apportez. Mes derniers remerciements vont tout naturellement ceux qui partage ma vie. Je pense bien sr ma famille qui m'a soutenu et qui m'a permis d'aller jusqu'au bout de ce projet de thse.

Il faut avoir une musique en soi pour faire danser le monde.


Nietzsche Friedrich Wilhelm

Table des matires


Liste des acronymes v

I Introduction
1 Le contexte gnral : les systmes d'indexation
1.1 1.2 Prsentation du contexte gnral . . . . . . . . . . . . . . . . . . . . . . . . . Les systmes d'indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 1.2.2 1.2.3 1.3 1.3.1 1.3.2 1.3.3 1.4 Les systmes d'indexation image . . . . . . . . . . . . . . . . . . . . . Les systmes d'indexation audio . . . . . . . . . . . . . . . . . . . . . Les systmes d'indexation de squences d'images . . . . . . . . . . . . La segmentation des documents vido . . . . . . . . . . . . . . . . . . La description du contenu . . . . . . . . . . . . . . . . . . . . . . . . . L'analyse multimodale . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
3
3 4 6 7 9 10 13 14 17 20

Les systmes d'indexation de lms . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Le contexte de travail : les lms d'animation


2.1 Prsentation du contexte de travail . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.1.2 2.1.3 2.2 CITIA et la base de lms d'animation . . . . . . . . . . . . . . . . . . Les lms d'animation . . . . . . . . . . . . . . . . . . . . . . . . . . . Les ches d'inscription . . . . . . . . . . . . . . . . . . . . . . . . . . .

21
21 21 22 26 28

Prsentation des objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

II Extraction d'information
3 Extraction d'information partir des images
3.1 L'existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 3.1.2 3.2 3.2.1 3.2.2 3.2.3 Les grandes approches et leurs possibles applications aux lms d'animation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . L'existant pour les squences d'animation . . . . . . . . . . . . . . . . Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La dtection du changement de contenu . . . . . . . . . . . . . . . . . i

31
33
33 34 37 43 43 44 45

Propositions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ii 3.2.4 3.2.5 3.3 Mesure de l'activit

TABLE DES MATIRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 59 68

Le condenseur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Extraction d'information partir des textes


4.1 4.2 Bref tat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.4 4.4.1 4.4.2 4.4.3 4.5 4.5.1 4.5.2 4.5.3 4.6 La statistique textuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse lexicale globale . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse topologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le scnario actanciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les tapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . L'analyse syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . . . La tche d'Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . La statistique textuelle applique aux synopsis des lms d'animation . . . . .

69
70 70 79 80 88 89 90 90 92 92 92 94 99

Modlisation d'un synopsis

L'Extraction d'Information . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Analyse thmatique

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Constitution du dictionnaire thmatique du drame . . . . . . . . . . . 106 Test et rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Conclusion partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

III

Fusion d'information
5.1

113
115

5 La fusion d'information entre le texte et l'image


5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.1.6 5.2 5.3

tat de l'art sur la fusion d'information . . . . . . . . . . . . . . . . . . . . . 115 Les objectifs d'un systme de fusion . . . . . . . . . . . . . . . . . . . 118 Structure d'un systme de fusion . . . . . . . . . . . . . . . . . . . . . 119 L'acquisition de l'information . . . . . . . . . . . . . . . . . . . . . . . 119 La reprsentation de l'information . . . . . . . . . . . . . . . . . . . . 121 La combinaison de l'information . . . . . . . . . . . . . . . . . . . . . 121 L'interprtation de l'information . . . . . . . . . . . . . . . . . . . . . 130

Prsentation des objectifs et de la mthodologie de fusion . . . . . . . . . . . 130 Caractrisation globale des lms applique au genre des lms d'animation . . 132 5.3.1 5.3.2 5.3.3 5.3.4 Fusion des indicateurs texte . . . . . . . . . . . . . . . . . . . . . . . . 135 Fusion des indicateurs image . . . . . . . . . . . . . . . . . . . . . . . 143 Fusion du texte et de l'image . . . . . . . . . . . . . . . . . . . . . . . 146 Test et rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

TABLE DES MATIRES 5.4

iii

Caractrisation locale des lms applique l'activit . . . . . . . . . . . . . . 151 5.4.1 5.4.2 Quels liens tablir entre le texte et les images ? . . . . . . . . . . . . . 152 Caractrisation de l'activit locale . . . . . . . . . . . . . . . . . . . . 154

5.5

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

IV Conclusion
6 Conclusions et Perspectives
6.1 6.2

159
161

Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

V Annexes
A Les techniques d'animation

165
167

A.1 Le dessin anim : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 A.2 Animation d'objets 2D : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 A.3 Animation en volume (objets 3D) : . . . . . . . . . . . . . . . . . . . . . . . . 168 A.4 Animation numrique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

B La base d'animation de CITIA

171

B.1 Rpartition des lms en fonction de l'anne d'inscription . . . . . . . . . . . . 171 B.2 Rpartition en fonction de la dure des lms . . . . . . . . . . . . . . . . . . . 171 B.3 Rpartition des lms par pays de production . . . . . . . . . . . . . . . . . . . 172 B.4 Rpartition des lms suivant le public vis . . . . . . . . . . . . . . . . . . . . 175 B.5 Rpartition des lms suivant la technique d'animation . . . . . . . . . . . . . 175 B.6 Rpartition des lms suivant le genre d'animation dclar . . . . . . . . . . . 177 B.7 Rpartition des synopsis suivant le nombre de mots . . . . . . . . . . . . . . . 177

C Tests et rsultats de l'analyse d'image

179

C.1 Le choix de la mthode de comparaison des blocs . . . . . . . . . . . . . . . . 179 C.1.1 Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 C.2 Le choix des distances dans la classication ascendante hirarchique . . . . . . 181 C.2.1 Distance entre individus . . . . . . . . . . . . . . . . . . . . . . . . . . 182 C.2.2 Distance entre clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 C.2.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 C.2.4 Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

D Tests et rsultats de l'analyse de texte


D.2 Classication supervise des synopsis suivant les genres des lms d'animation

185
206

D.1 Analyse syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

iv D.3 Analyse thmatique

TABLE DES MATIRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

D.3.1 Thmatique du Drame . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 D.3.2 Thmatique du Policier . . . . . . . . . . . . . . . . . . . . . . . . . . 213 D.3.3 Thmatique de l'Humour . . . . . . . . . . . . . . . . . . . . . . . . . 217

E Annexe chapitre fusion

221

E.1 Systmes ous . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 E.1.1 La thmatique du Policier . . . . . . . . . . . . . . . . . . . . . . . . . 221 E.1.2 La thmatique de l'Humour . . . . . . . . . . . . . . . . . . . . . . . . 224 E.1.3 Le concept de Froideur . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 E.1.4 Le concept de Monotonie . . . . . . . . . . . . . . . . . . . . . . . . . 227 E.1.5 Le concept d'Uniformit . . . . . . . . . . . . . . . . . . . . . . . . . . 228 E.2 La base des 107 lms d'animation . . . . . . . . . . . . . . . . . . . . . . . . . 230

VI Bibliographie
Publications de l'auteur Bibliographie

231
233 248

Liste des acronymes


CITIA Cit de l'Image en Mouvement FIFA Festival International du Film d'Animation d'Annecy MIFA March International du Film d'Animation CICA Centre International du Cinma d'Animation LISTIC Laboratoire d'Informatique Systmes, Traitement de l'Information et de la Connaissance SCC Short Color Change NBS National Bureau of Standards ISCC Inter-Society Color Cuncil CMC Color Measurement Committee AaA Algorithme Accumulation CAH Classication Ascendante Hirarchique EI Extraction d'Information NE Named Entity CO Coreference resolution TE Template Element TR Template Relation ST Scenario Template MUC Message Understanding Conference LG Link Grammar TAL Traitement Automatique de la Langue AFC Analyse Factorielle des Correspondances OCR Optical Character Recognition ASR Automatic Speech Recognition SVM Support Vector Machine FFT Fast Fourier Transform STFT Short-Time Fourier Transform ADT Analyse de Donnes Textuelles SMO Sequential Minimal Optimization MLP Multi-Layer Perceptron

vi

TABLE DES MATIRES

Premire partie

Introduction

Le contexte gnral : les systmes d'indexation

Chapitre 1

Rsum : Dans ce chapitre nous abordons les problmatiques d'indexation de

documents multimdias qui passent par les problmatiques de caractrisation de ces documents. Cet tat de l'art du domaine prsente les direntes solutions habituellement mises en uvre dans les problmes de caractrisation et d'indexation des documents contenant aussi bien des images, du son, des textes que de vidos.

1.1 Prsentation du contexte gnral


La masse de donnes multimdia personnelles ou collaboratives est en trs forte augmentation depuis quelques annes. Le stockage et la circulation de ces donnes, informations ou connaissances, sont facilits par le dveloppement rapide des nouvelles technologies de l'information de ces dernires annes. Cependant, l'exploitation rationnelle et ecace de ces grandes masses de donnes reste un problme entier. Ainsi l'identication des informations pertinentes d'un document passe par une opration d'indexation. Cette opration consiste analyser le contenu de ce document et le transcrire dans un langage documentaire. Cette normalisation et codication du contenu des documents reposent sur des index qui permettent de classer un document parmi un ensemble de documents d'une collection donne et facilitent in ne la recherche de ce document pour l'utilisateur. Traditionnellement l'indexation par motscls, qui s'appuie sur une information externe (de type liste de mots), est lourde mettre en uvre et manque parfois d'ecacit pour des documents vido (par exemple, retrouver des passages spciques dans une vido indexe globalement). Cette information externe est le plus souvent issue d'un oprateur humain qui analyse et catgorise le document suivant son contenu et l'interprtation qu'il en fait. Cette approche est quasiment infaisable lorsque l'on doit indexer de grandes quantits d'informations (pages web ou images de vidos par exemple). En eet, la lecture et/ou l'interprtation des documents est un processus cognitif complexe qui prend un certain temps. En revanche, ces index ont l'avantage d'tre d'un haut niveau smantique puisque directement issus et formaliss par l'homme, mais sourent quelquefois d'une certaine htrognit, car ils proviennent d'une interprtation humaine. Depuis les annes 90 la tendance est la recherche de techniques d'indexation automatiques ou semi-automatiques, bases sur le contenu et la smantique. Ce problme est un vritable 3

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

d et se dcline suivant plusieurs aspects. Les informations extraites partir des documents doivent permettre une indexation able et pertinente. La modlisation, la reprsentation et l'organisation de cette information doivent tre souples et ecaces. De plus, l'interaction homme-machine ncessaire l'utilisation et la consultation de ces bases de donnes multimdias (dont la nature est variable : textuelle ou/et vido ou/et image) est une problmatique importante qui n'a t prise en compte que rcemment. Cette thmatique de recherche mergente est dsormais considre comme une thmatique prioritaire et des eorts importants sont dploys travers le monde pour apporter des solutions fonctionnelles dont les retombes techniques et conomiques sont considrables (chire d'aaire de Google en 2008 6 milliards de $). Trois grands champs se dgagent dans la tche de recherche de documents multimdia :  L'extraction de descripteurs et la caractrisation des documents. Ce champ consiste en l'extraction de descripteurs de haut niveau, bass sur le document et sur des connaissances universelles ou spciques au document ou au domaine. Ces descriptions sont issues directement de l'information contenue sur le support documentaire et transformes en caractristiques de haut niveau smantique.  L'organisation et la gestion des documents. Ce champ consiste organiser et modliser les descriptions/index des documents pour permettre la recherche et la visualisation de ces documents. Les techniques utilises sont bases sur les modles de connaissances de la gestion documentaire et du web smantique. An d'exploiter efcacement ou d'aider la gnration de ces index, annotations ou mta-donnes, ces connaissances sont gnralement issues des modles du domaine, du savoir-faire des auteurs et/ou des pratiques et besoins des utilisateurs.  La recherche et visualisation des documents. Ce champ consiste retrouver partir d'une requte formule par l'utilisateur, les documents ou fragments documentaires pralablement indexs et permettre une visualisation et une navigation dans le corpus documentaire. Dans le cas de vidos par exemple, la visualisation des documents est souvent aide par des outils de synthse permettant de crer des rsums des documents originaux an d'acclrer la navigation dans la base. Les techniques utilises sont bases sur des modles de connaissances (modles de domaine, pratiques des utilisateurs, etc.) et sur les contraintes lies aux infrastructures et aux supports de visualisation, etc. Dans cette thse nous nous intressons principalement au premier champ nonc ci-dessus, c'est--dire l'obtention de descripteurs issus du/des signal(aux) et leurs transformations pour obtenir des descripteurs de plus haut niveau smantique.

1.2 Les systmes d'indexation


Nous venons de voir que pour rechercher et manipuler les documents multimdia, les index dcrivant leur contenu doivent tre riches et aussi complets que possible. Pour cela, la caractrisation puis l'indexation des donnes peuvent prendre deux formes principales : l'annotation manuelle ou l'annotation automatique. Qu'elle soit manuelle ou automatique, le cot (temps d'analyse, complexit algorithmique, nombre et pertinence des index, souplesse, etc.) de l'annotation de contenu est directement li au niveau de dtail dsir, ce qui

1.2. LES SYSTMES D'INDEXATION

dnit la granularit de l'indexation [Faudemay et al., 1998, Ramesh et al., 2002]. En eet, pour un niveau de dtail lev il faut une analyse plus importante du contenu des donnes. L'annotation humaine a l'avantage d'orir des index de haut niveau smantique mais elle est lourde et demande beaucoup de ressources et de temps humain. Les mthodes automatiques assistes par ordinateur sont beaucoup plus rapides car elles ne demandent pas ou peu d'intervention humaine. Cependant elles ne sont pas capables l'heure actuelle de fournir les mmes informations que les mthodes manuelles. Ce constat, tabli depuis longtemps pour les documents textuels [Salton, 1968, Anderson et Prez-Carballo, 2001], est d'autant plus vrai pour les documents multimdia (image, musique, vido) qui ne bncient pas d'une tradition aussi longue et dont l'indexation ncessite une interprtation du contenu qui passe par l'utilisation de techniques d'analyse avances bases sur l'intelligence articielle. Cette interprtation qui reste un processus cognitif complexe soure en l'tat des techniques de ne pas apporter la richesse informationnelle (niveau smantique) attendue par l'homme. Cet cart entre l'information extraite automatiquement par des algorithmes et l'information issue de l'interprtation humaine est le vritable verrou technologique dans la tche d'indexation multimdia et porte le nom de foss smantique ou semantic gap. Ce foss est particulirement important lorsque les documents indexer sont des images. Le moteur de recherche Google a beau tre leader dans son domaine, il n'en reste pas moins qu'il reste confront cet pineux problme qu'est l'indexation des images sur Internet. Dans ce moteur de recherche, les images sont indexes partir du texte entourant l'image l'intrieur de la page web. Ainsi le systme ne tient pas compte du contenu smantique propre l'image. Par exemple, on voit sur la gure 1.1 que dans les image 11,12,15 et 17 (en partant d'en haut gauche) montrent une voiture et une machine bois : ces images ont t abusivement indexes par le mot clef wagon car la rfrence textuelle (le nom du chier) associe, contient le mot wagon, le contenu de l'image ayant t compltement occult.

Figure 1.1  Rsultat propos par Google-Image pour la requte wagon

Ce moteur de recherche permet cependant un ltrage bas sur des attributs bas niveau issus directement de l'image : un ltrage suivant la couleur dominante peut tre ralis ou bien encore une reconnaissance du type d'image (dessin, photo, clip-art) ou une dtection des

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

visages (options accessibles partir du bandeau suprieur sur la gure 1.1). Nous voyons sur cet exemple de moteur de recherche que les informations issues du document image restent pauvres en smantique et demeurent bien loin des informations de contenu attendues par l'utilisateur. Le travail d'indexation des images est complexe et de longue haleine. Une nouvelle piste, mais qui utilise encore l'intervention humaine, est explore par Google qui fait appel ses internautes pour l'aider dans l'indexation et le rfrencement des images sur Internet en leur demandant d'attribuer eux-mme des mots clefs par l'intermdiaire d'un jeu interactif 1 . A travers cet exemple on voit toute la dicult du travail d'indexation qui reste une thmatique de recherche essentielle. Ainsi pour [Snoek et Worring, 2005] trois questions se posent. La premire est lie la granularit des indexations et s'exprime ainsi : Quoi indexer ? : par exemple, le document en entier, les grandes parties ou des parties plus nes. La deuxime est lie la nature des index et s'exprime ainsi : Quels index ? : par exemple, le nom des joueurs dans un match de football, leurs positions et dplacements dans le temps, etc. La troisime est lie aux sources ou modalits et leur analyse et s'exprime ainsi : Comment indexer ? : par exemple, utiliser un classieur statistique appliqu au contenu auditif seulement ou utiliser un algorithme de reconnaissance de visages. Pour cette dernire question, de nombreuses solutions ont t dveloppes depuis une vingtaine d'annes, bases souvent sur une approche uni-modale, c'est--dire sur l'utilisation d'une seule source d'information pour caractriser le document. Si nous reprenons l'exemple de la gure 1.1, la modalit exploite est le texte. Cette uni-modalit se retrouve dans les premiers systmes d'indexation de contenu qui sont bass sur la similarit de descripteurs bas niveau (features) extraits d'une des modalits du mdia. Ces descripteurs sont gnralement extraits de la modalit la plus caractristique du document trait (descripteurs image dans le cas de photo, descripteurs audio dans le cas de musique, etc.).

1.2.1 Les systmes d'indexation image


Dans les systmes d'indexation de bases d'images statiques ou CBIR ("Content-Based Image Retrieval"), l'analyse du contenu des images se dcline suivant trois axes principaux : la couleur, la forme et la texture [Smeulders et al., 2000, Liu et al., 2007].

L'analyse des couleurs est une caractristique fondamentale dans le systme visuel humain. De ce fait c'est une des directions les plus utilises dans les algorithmes d'analyse d'images. Les couleurs sont analyses en utilisant dirents espaces, en commenant par le classique espace RVB et en passant des espaces plus complexes comme par exemple les espaces perceptuels (HSV, Lab, etc.). L'analyse des formes utilise les proprits gomtriques des objets contenus dans l'image pour caractriser la scne. Ceci demande en gnral la dtection pralable des objets, le plus souvent par des techniques de segmentation par approche contours ou rgions. Ces caractristiques ne doivent pas dpendre du point de vue sous lequel ces objets sont observs. Dirents descripteurs de formes, invariants aux transformations gomtriques de l'image [Rivlin et Weiss, 1995], sont proposs et permettent galement de solutionner le problme d'occlusion entre dirents objets li la projection de l'espace rel 3D dans l'espace 2D de l'image [Schmid et Mohr, 1997].
1. http://images.google.com/imagelabeler

1.2. LES SYSTMES D'INDEXATION

L'analyse des textures est galement trs utilise car ces informations permettent de caractriser les proprits des matriaux prsents dans l'image. La classication de texture trouve par exemple des applications dans la recherche d'images [Gimel'Farb et Jain, 1996] ou l'analyse d'images mdicales. Les dmarches existantes se divisent en trois approches fondamentales [Liu et al., 2009] : les approches statistiques, les approches structurelles et les approches spectrales. Parmi ces trois approches de nombreux algorithmes ont t proposs comme l'utilisation des moments statistiques dans [Avils-Cruz et al., 2005] ou l'utilisation de modle markovien dans [Choi et Baraniuk, 2001] ou encore l'utilisation d'ondelettes dans [Pothos et al., 2007].
Pour [Liu et al., 2007], la position spatiale est aussi un descripteur bas niveau souvent utilis dans les systmes de caractrisation d'images. Par exemple, le ciel et la mer peuvent avoir des descripteurs couleur et de texture assez similaires alors que leurs dispositions spatiales sont direntes (partie suprieure de l'image pour le ciel et partie infrieure pour la mer). Les systmes d'indexation s'appuient souvent sur une tape de catgorisation. Les mthodes de catgorisation peuvent tre classes en deux catgories [Pujol, 2009] : une caractrisation globale qui consiste caractriser l'image dans sa totalit (paysage naturel, couchers/levers de soleil, etc ) et une caractrisation locale qui consiste caractriser les lments composant l'image (arbre, mer, soleil, etc). Ces approches tentent de rpondre au problme du passage la smantique par l'utilisation de classieurs (et de leurs combinaisons) an d'associer un concept connu un ensemble de valeurs des descripteurs images. Ces mthodes utilisent le plus souvent des algorithmes d'apprentissage supervis comme les Support Vector Machine (SVM), les rseaux de neurones ou des approches probabilistes bases sur des modles comme les Mixtures de Gaussiennes (GMM) ou les chaines de Markov caches (HMM). Ces dernires annes sont apparues des mthodes performantes, dites par sacs de mots (bag of features), utilises pour catgoriser des images. Ces mthodes sont inspires de la linguistique o les documents textuels sont caractriss par un ensemble de mots (sac de mots), issus d'un dictionnaire, o l'ordre des mots dans le regroupement (sac) est sans importance. En vision, cette mthode consiste modliser une image par un ensemble de mots qui sont en ralit une simple distribution de caractristiques locales (texture, couleur, etc) extraites de rgions d'intrts. Un des premiers travaux sur ce principe a permis dans [Ullman et al., 2001] de retrouver des voitures et des visages partir de fragments d'image. De nombreux travaux [Lazebnik et al., 2006, Larlus, 2008] se sont galement inspirs de cette approche permettant dans [Lazebnik et al., 2006] de retrouver des scnes plus ou moins complexes (campagne, ville, fort, chambre, etc) ou dans [Van de Sande et al., 2008] de retrouver de nombreux concepts issus du PASCAL Visual Object Challenge et du Mediamill Challenge . Pour un tat de l'art en recherche d'image voir [Datta et al., 2008].

1.2.2 Les systmes d'indexation audio


On retrouve galement cette uni-modalit dans les systmes d'indexation audio. Dans de tels systmes d'indexation, l'analyse du contenu des documents sonores est dveloppe selon deux axes principaux : la reprsentation temps-amplitude du signal, ainsi que la reprsentation spectrale du signal [Lu, 2001]. Parmi les descripteurs temporels les plus couramment

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

utiliss on peut citer :

peut se faire de plusieurs manires et permet de discriminer la parole de la musique car la parole prsente gnralement plus de variations que la musique.

L'nergie moyenne : elle permet de caractriser le volume du signal sonore. Son calcul

Rate ou ZCR). Il caractrise la frquence de changements de signe du signal. Cela permet de dtecter les signaux de parole par les brusques variations de son prol temporel. D'autres descripteurs sont calculs dans le domaine frquentiel :

Le ZCR : c'est le taux de passages zro de la forme d'onde temporelle (Zero Crossing

quences. Son calcul se fait classiquement partir du signal temporel en utilisant la transforme de Fourier et de ses nombreuses variantes (Fast Fourier Transform (FFT), Short-Time Fourier Transform (STFT), Ondelettes, etc). L'analyse du spectrogramme (diagramme associant chaque instant t d'un signal son spectre frquentiel) permet d'identier des sons, comme les timbres des instruments musicaux ou la parole. On peut citer un certain nombre de mesures caractrisant le spectre frquentiel comme la mesure d'asymtrie (Skewness), le calcul du coecient d'aplatissement (Kurtosis) ou encore le calcul des MFCCs (MelFrequency Cepstral Coecients).

Le spectre frquentiel permet de caractriser le signal par la distribution des fr-

L'harmonicit accompagne souvent la mesure de la frquence fondamentale. Le degr d'harmonicit du signal permet de mesurer la richesse d'un son en harmonique (multiples de la frquence fondamentale). Un son parfaitement harmonique est un son dont les raies spectrales sont situes des frquences multiples entires de la frquence fondamentale. En outre, ce descripteur est un bon indicateur dans la classication des timbres des instruments de musique.
senter les signaux musicaux. Le spectre du signal audio est projet sur l'chelle chromatique (compose de 12 demi-tons dans une octave) crant ainsi un vecteur de Chroma. Ce vecteur intgre l'nergie dans toutes les bandes correspondant chacun des douze degrs de l'chelle chromatique de la gamme musicale. De plus, les notes spares d'exactement une octave tant perues comme semblables, connatre la distribution du chroma mme sans frquence absolue (c'est--dire l'octave originale) peut fournir des informations musicales utiles sur le morceau et permet de mesurer la similitude musicale perue. De nombreuses solutions ont t dveloppes partir de ces indicateurs et les mlomanes peuvent par exemple retrouver des morceaux de musique par similarit rythmique [Foote, 1999] ou par similarit des squences d'accords [Hanna et al., 2009]. Dans [Essid, 2005], ces descripteurs permettent de retrouver les instruments de musique utiliss dans les morceaux musicaux. Ils permettent aussi de dtecter des pleurs dans [Petridis et Pantic, 2008], de retrouver des vnements dans les vido sportives (applaudissements, frappe dans la balle, siement, etc.), ou de reconnatre les motions transmises dans la musique [Trohidis et al., 2008] et la parole [Xiao et al., 2009]. Pour plus de dtails voir les tats de l'art de [Scaringella et al., 2006] et de [Orio, 2006].

Le vecteur de chroma ou Chroma features est un puissant descripteur pour repr-

1.2. LES SYSTMES D'INDEXATION

1.2.3 Les systmes d'indexation de squences d'images


L'arrive et la diusion de la vido numrique ont orient les systmes d'indexation vers les squences d'images. Les systmes d'indexation des squences d'images ou CBISR ("ContentBased Image Sequence Retrieval") sont la base l'extension temporelle des systmes CBIR. Dans ce cas, le traitement n'est pas eectu sur des images statiques indpendantes les unes des autres, mais sur des squences qui sont des suites temporelles d'images ou des images en mouvement. Le premier problme qui se pose est le volume des donnes. A une cadence de 25 images par seconde, une squence d'images de 10 minutes contient 15000 images. Un lm lui seul est ainsi quivalent, du point de vue de la taille, une base contenant plusieurs dizaines de milliers d'images, avec bien sr une forte redondance de l'information entre les images. D'autre part, l'information spatiale fournie par l'image s'ajoute une nouvelle information traiter : l'information temporelle. Si dans un systme CBIR deux images qui contiennent les mmes objets sont considres comme similaires du point de vue de leur contenu, dans un systme CBISR deux squences d'images contenant les mmes objets peuvent avoir des contenus trs dirents si l'on prend en compte l'aspect temporel. Ainsi, le comportement des objets et l'volution temporelle de la scne sont des informations essentielles pour la comprhension du contenu des squences et donc pour la tche d'indexation. De nombreux travaux portant sur l'analyse du mouvement dans les squences d'images ont t entrepris durant cette dcennie. Les caractristiques mesures par l'analyse de mouvement (motion analysis) dcoulent gnralement d'approches spatio-temporelles. Cela permet par exemple, d'extraire des caractristiques sur la trajectoire des objets, ou sur les mouvements de camra (zoom, travelling, rotation, . . . ). Deux grandes directions d'analyse sont dnies dans [Jeannin et Divakaran, 2001], d'une part l'analyse du mouvement global de la camra et d'autre part l'analyse locale du mouvement des objets

vido ou de groupes d'images. Une premire information extraite est le mouvement de la camra. Les dplacements particuliers de la camra sont dtermins parmi tout un ensemble de mouvements possibles. Typiquement les informations retenues pour dtecter un mouvement spcique sont la direction et l'amplitude du mouvement, sa position dans la squence et sa dure. De nombreuses approches ont t explores [Bouthemy et al., 1999, Duan et al., 2004] comme l'analyse des vecteurs de mouvement (motion vector) 2 dont l'analyse des directions permet de dterminer le mouvement d'une camra [Zhang et al., 1995]. Cette information de mouvement permet de localiser les passages importants de la squence comme par exemple le fait de focaliser l'attention des spectateurs (arrt sur une scne prcise, puis zoom sur le visage d'un personnage). Une seconde information souvent exploite est l'intensit du mouvement. Cette grandeur qui mesure globalement l'amplitude du mouvement dans les images est un bon indicateur de l'activit de la scne.

Le mouvement global. L'analyse du mouvement global est eectue au niveau des plans

vement local ou mouvement des objets qui n'aecte que certaines rgions de l'image. Ces mesures de dplacement sont gnralement eectues au niveau du pixel et utilisent com2. vecteur 2D dans l'espace image reprsentant le dplacement d'un mme bloc de pixels entre deux images. Il permet de passer des coordonnes du bloc dans l'image de rfrence l'instant t, aux coordonnes du mme bloc dans l'image un temps t+1.

Le mouvement local. La deuxime direction d'analyse est la caractrisation du mou-

10

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

munment une modlisation du mouvement permettant de retrouver dans la squence des dplacements similaires. Ces analyses permettent de retrouver la trajectoire des objets, dnie par l'volution temporelle de certains points d'intrt de l'objet, comme par exemple le centre de gravit ou certains points de contour [Panagiotakis et al., 2006]. Parmi les mthodes souvent rencontres dans la littrature, on peut citer le ot optique (optical ow) dont le calcul consiste extraire un champ de vitesses dense partir d'une squence d'images en faisant l'hypothse que l'intensit (ou la couleur) est conserve au cours du dplacement [Qunot, 1996]. On peut noter que le ot optique, bien que ce soit une mesure locale, peut-tre utilis pour obtenir une mesure globale du mouvement dans la squence. D'autres mthodes de dtection consistent dtecter dans le domaine spatial et temporel les points d'intrts (interest points) dont les valeurs image ont une variation locale signicative la fois dans l'espace mais aussi dans le temps [Laptev, 2005]. Pour un tat de l'art sur les techniques d'analyse du mouvement des objets on pourra se rapporter [Koprinska et Carrato, 2001] [Smith et al., 2004] ou [Trucco et Plakas, 2006]. Les squences d'images sont trs souvent associes une bande son (et plus rarement du texte) pour former des documents vido. Bien entendu, ces informations (image, audio, texte) ne sont pas indpendantes les uns des autres. Il y a synchronisation de celles-ci et un certain nombre de liens smantiques existent entre elles. Par exemple lorsqu'un joueur de football est dans une action et qu'il marque un but, l'enthousiasme du public et des commentateurs sportifs est mesurable sur la bande son [Leonardi et al., 2003]. Cependant ces liens ne sont pas toujours triviaux et peuvent devenir subjectifs dans le cas de lms artistiques, lms auxquels nous allons nous intresser plus spciquement dans la suite.

1.3 Les systmes d'indexation de lms


Dans ce paragraphe, nous nous limitons l'indexation des vidos particulires que sont les lms. Un lm est une uvre produite par un auteur, et se distingue donc des autres vidos, les vidos de surveillance par exemple. En eet, un lm est conu dans un environnement de production et est le rsultat d'un projet artistique voulu par son auteur. Pour exprimer cette ide, l'auteur utilise gnralement plusieurs modalits :  La modalit visuelle : c'est la mise en scne, c'est--dire tout ce qui est naturellement ou articiellement cr et que le spectateur peut voir.  La modalit audio : c'est tout ce que le spectateur peut entendre, c'est--dire la parole, la musique, les sons ambiants.  La modalit textuelle : c'est tout ce que le spectateur peut lire. C'est par exemple le texte se superposant aux images, mais cela peut galement tre des pri-textes, c'est-dire des textes qui parlent du lm (rsum, script, sous titrage . . . ). L'exploitation conjointe de ces modalits des ns de caractrisation du document vido semble de ce fait naturelle. Comme nous l'avons dj voqu, la caractrisation dpend du niveau de dtails dsir. Pour les documents vido cette granularit peut s'exprimer suivant cinq niveaux (voir gure 1.2). Chaque niveau reprsente une (des) unit(s) multimodale(s) dont le contenu smantique est homogne [Davenport et al., 1991].

1.3. LES SYSTMES D'INDEXATION DE FILMS

11

Figure 1.2  Hirarchie des dirents niveaux smantiques composant le document vido

 L'intention c'est--dire pourquoi le document existe (divertissement, information, communication, etc.).  Le genre est en fait le style du document (long-mtrage, documentaire, lm publicitaire, etc.).  Le sous genre est un sous-ensemble du genre dans lequel les documents vido partagent le mme contenu smantique (lms d'horreur, d'aventure, policier, etc.). Les niveaux suivants dcoupent le document vido en segments bass sur l'homognit de la modalit ou du contenu, et correspondent donc une dcomposition du support.  L'unit logique ou scne comprend un ensemble de plans qui sont lis du point de vue smantique. Le contenu d'une scne doit respecter la rgle des trois units, comme dans le thtre classique du xviie sicle : unit de lieu, unit de temps et unit d'action [Corridoni et Del Bimbo, 1995]. C'est par exemple une course poursuite avec les forces de police dans un lm d'action.  L'vnement ou plan vido est un court segment vido (vnement nomm) dont le contenu ne change pas dans le temps. La squence d'images ainsi obtenue prsente une continuit visuelle. Cela peut tre le moment o une voiture poursuivante fait un tonneau ou les images montrant une explosion dans une scne de course poursuite d'un lm d'action. L'auteur utilise trois lments pour construire un plan vido : le cadre qui est le lieu et le temps de l'vnement, les objets statiques ou dynamiques qui sont des entits inanimes (dans le sens de "non vivant") et enn les personnages qui sont des personnes ou des animaux.

12

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

Dans le cas d'un lm, l'auteur, lors de la cration de son document visuel, part d'une intention artistique et utilise une ou plusieurs modalits pour construire son lm. Chacune de ces modalits est une squence temporelle constitue d'lments fondamentaux dont la nature est intrinsquement lie au support de l'information. La modalit visuelle par exemple, est une succession temporelle d'images dont l'lment fondamental est l'image. De mme, la modalit audio est constitue d'lments fondamentaux qui sont des chantillons audio d'une courte dure (notes dans le cas de la musique). Les dirents caractres forment les units fondamentales pour la modalit textuelle. Ainsi, l'agrgation de ces lments fondamentaux forme le plan vido. La cration prend alors tout son sens lorsque l'auteur concatne ces dirents plans partir de chacune des modalits, pour former un ensemble cohrent (une scne) qui constituera in ne le document tout entier. Cette juxtaposition se fait grce l'utilisation de transitions dont l'utilisation est importante pour obtenir une continuit ou une discontinuit, visuelle ou sonore [Lienhart, 2001]. Dans les lms, on retrouve principalement trois types de transition :

(a) fondu au noir fade out

(b) fondu enchan dissolve

Figure 1.3  Transitions graduelles pour la modalit image

 Abrupte de type cut : c'est le passage d'un plan un autre par simple juxtaposition de ceux-ci (transition abrupte entre deux images pour la modalit image ou utilisation d'un silence pour obtenir une transition franche pour la modalit audio [Boggs, 1996]).  Graduelle de type fondu ou fade : les images s'assombrissent progressivement jusqu' ce qu'elles deviennent entirement noires (fondu la fermeture fade out gure 1.3.a). Le plan suivant peut alors commencer par une image noire et s'claircir jusqu' tre normalement visible (fondu l'ouverture fade in). Ou alors c'est la baisse du niveau sonore jusqu'au silence pour la modalit audio.  Graduelle de type fondu enchan ou dissolve : cela consiste superposer deux plans durant un court laps de temps, en diminuant la luminosit du premier tout en augmentant celle du second (dans le cas de la modalit image voir gure 1.3.b). Cela consiste aussi baisser graduellement le volume d'un signal sonore tout en augmentant le volume d'un second. Dans le texte, les transitions sont portes par les signes de ponctuation (espaces, points, guillemets, etc.) ou des eets graphiques (mise en couleur, en gras, etc.) [Perrot, 1980].

1.3. LES SYSTMES D'INDEXATION DE FILMS

13

Lorsque l'on cherche caractriser un document vido et plus particulirement un lm, une part importante de la caractrisation consiste retrouver les dirents niveaux smantiques qui le composent (voir gure 1.2). Lorsque l'on ne dispose que du lm, cette analyse automatique ne peut se faire que du bas vers le haut de la pyramide (l'intention de l'auteur n'est pas toujours une information disponible). La caractrisation du document doit donc commencer par la recherche de la structuration, sur les direntes modalits, de l'ensemble des informations attaches au document, et en particulier par la dtection des plans vido. La connaissance de cette structuration (ou segmentation) permet ensuite de remonter aux scnes puis aux sous genres et genres pour arriver enn l'intention de l'auteur. Ainsi, un systme d'analyse automatique doit, dans un premier temps, tre capable de segmenter le document.

1.3.1 La segmentation des documents vido


La segmentation en plans est gnralement obtenue partir de l'analyse des modalits image et/ou audio. Habituellement, une seule de ces modalits (le plus souvent l'image) sert pour l'analyse automatique de la segmentation car, dans le cas des lms, il y a habituellement synchronisation entre ces deux modalits. Notons que la segmentation des textes, lorsqu'ils existent, est gnralement faite indpendamment des informations image et audio.

Segmentation de la modalit image : Plusieurs techniques permettent de retrouver les plans vido partir des squences d'images. Elles utilisent la dtection des transitions vido et portent le nom de shot boundary detection. La littrature abonde d'algorithmes de dtection de transitions abruptes (cut) fonds sur la comparaison des images successives de la squence vido. Ils se basent sur la comparaison de pixels, de contours, de textures, de points d'intrts, de blocs ou de vecteurs de mouvement. Les seuils ncessaires ces comparaisons sont xs manuellement ou dynamiquement Ces techniques peuvent tre calcules directement depuis les images ou alors depuis le ux de donnes dans le cas de vido compresses (MPEG). On pourra se reporter aux tats de l'art de [Aigrain et al., 1996] et [Brunelli et al., 1999] pour plus de dtails. Cependant la comparaison image image pour la dtection de transition progressive est souvent insusante car les changements au sein des images successives ne sont pas toujours signicatifs. Direntes techniques ont t mises au point pour palier ce problme dans [Zhang et al., 1993, Arman et al., 1993, Corridoni et Del Bimbo, 1995, Lu et Suganthan, 2004]. Pour plus de dtails, voir un tat de l'art dans [Cotsaces et al., 2006].
la segmentation d'un document partir de la bande son [Carr et Philippe, 2000]. La dtection de transitions brutales s'apparente la dtection des silences qui, dans [Patel et Sethi, 1996], est ralise par l'analyse de l'nergie moyenne. Si la moyenne de l'nergie du signal, pour une fentre temporelle donne, est infrieure un seuil alors un silence de mme longueur que la fentre est dtect. A partir du calcul des spectres et de l'extraction de certaines proprits, Essid dans [Essid, 2005] segmente les passages musicaux. Pour de plus amples informations on pourra se reporter l'tat de l'art de [Carr et Philippe, 2000]).

Segmentation de la modalit audio : De nombreux travaux existent en ce qui concerne

Segmentation de la modalit texte : La segmentation d'un texte (chapitre, section, paragraphe, . . . ) passe par la dtection des signes et marqueurs typographiques tels que :

14

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

les signes de ponctuation [Mourad, 1999], la cohsion lexicale [Choi et Baraniuk, 2001] ou la dtection de la rupture de thme [Sitbon et Bellot, 2005]. Cependant ces techniques ne s'appliquent que sur des textes longs (plusieurs milliers de mots) et de tels textes ne sont gnralement pas disponibles avec le document vido (sauf dans le cas de document sous titr o le chier texte de sous titrage est disponible sur le support DVD). Cependant, mme si l'heure actuelle les lms regroupent principalement les modalits image et audio, il n'est pas exclu d'intgrer cette modalit textuelle l'avenir (avec le format MPEG7 par exemple). Ainsi, l'exploitation de la description textuelle (des images et de l'action du lm par exemple) en synchronisation avec les autres modalits (comme dans un story board) pourrait tre envisage pour segmenter le lm. Toutefois de tels travaux, exploitant la modalit textuelle pour segmenter le document vido, sont trs peu frquents (non trouvs dans la littrature consulte). Une fois la structure du document obtenue, l'tape suivante consiste analyser et caractriser les dirents plans an d'extraire une description, si possible smantique, de leur contenu. La caractrisation de l'information contenue dans ces plans vido permet par la suite de retrouver les scnes et de remonter la pyramide. Aprs sa capacit de segmentation, un systme d'analyse automatique doit donc tre en mesure d'analyser et de dcrire l'information contenue dans les plans vido.

1.3.2 La description du contenu


An d'accder au contenu des plans vido, les techniques automatiques doivent tre capables de retrouver et caractriser les objets et personnages constituant la scne en tirant prot des direntes sources d'information. Les approches d'extraction de contenu peuvent tre regroupes en trois groupes : la dtection de scne et de concept, la dtection d'objets et la dtection de personnes. Typiquement, les objets et personnes sont les lments principaux que l'on retrouve dans les plans vido. Leur apparence est voulue par l'auteur en utilisant des eets dpendants de chaque modalit. Par exemple, d'un point de vue visuel, l'auteur peut jouer avec les couleurs, l'clairage, l'angle, la distance et les mouvements de camra. Mais il peut galement jouer sur le volume, le rythme, et les styles musicaux de la bande son, ou encore jouer sur l'apparence, la couleur du texte. Finalement tous ces lments de style permettent l'auteur de faire passer son intention artistique.

1.3.2.1 La description de la scne


La description de la scne correspond aux lieux, temps et actions de l'histoire. C'est en fait le dcor ou concept du plan vido mais par extrapolation cela peut galement tre l'ambiance, l'atmosphre de ce segment vido ou mme encore des actions particulires. La modalit visuelle apporte beaucoup d'lments pour extraire cette information de contexte. Le mouvement local, et donc l'analyse des squences d'images, est moins dterminant pour cette tche. En eet, le dcor est un lment essentiellement statique alors que les personnages sont gnralement des lments dynamiques. C'est pourquoi les travaux sur la description de scne sont souvent issus de l'indexation des images statiques o les descripteurs de couleur et de texture sont largement utiliss (voir le 1.2.1). On trouve de nombreux travaux dans ce domaine. Par exemple dans [Szummer et Picard, 1998], ces descripteurs per-

1.3. LES SYSTMES D'INDEXATION DE FILMS

15

mettent de direncier automatiquement les scnes d'intrieur des scnes d'extrieur. D'autres travaux comme ceux de [Vailaya et al., 1998] s'intressent aux scnes en extrieur et, grce l'utilisation d'histogrammes couleur et de mesures de cohrence sur les vecteurs de direction spatiale des contours, permettent de retrouver et discriminer les images de villes des images de paysages naturels. Ensuite, les mmes auteurs dans [Vailaya et al., 2001] ou d'autres comme [Szummer et Picard, 1998] ou [Snoek et al., 2006] se focalisent sur les paysages naturels et retrouvent les forts, les montagnes, la mer, les plages, le dsert, les chutes d'eau mais galement le ciel et les couchers/levers de soleil. Au del des scnes naturelles ou urbaines, les travaux rcents s'intressent la dtection de concepts smantiques qui correspondent habituellement une description du cadre ou de l'action. Ces travaux, en particulier ceux dvelopps dans le cadre du challenge TRECVID, s'intressent la dtection de  High-Level Feature [Smeaton et al., 2009] tel que courir/marcher, fumer, boire, des concepts comme la violence physique, les catastrophes naturelles, les incendies, etc. Ainsi plus de 101 concepts smantiques sont recherchs automatiquement [Snoek et al., 2006]. Voir [Smeulders et al., 2000] et [Lavee et al., 2009] pour un tat de l'art des mthodes et descripteurs utiliss pour retrouver automatiquement des concepts smantiques dans les vido. En ce qui concerne la modalit audio, de nombreux travaux permettent de retrouver des environnements sonores particuliers. Par exemple dans [Zhang et Kuo, 1999], les auteurs sont capables de discriminer les sons naturels ou synthtiques par l'utilisation du timbre et du rythme. Ainsi la reconnaissance de sons spciques [Wold et al., 1996, Lu et al., 2002] comme la pluie, la foule, l'eau (rivire, mer, . . . ), le tonnerre, des explosions, permet ensuite de reconnatre des environnements plus globaux [Chu et al., 2006] comme les halls d'accueil (ouverture/fermeture occasionnelle de portes, bruit loign des ascenseurs, individus parlant tranquillement), les restaurants/cafs (bruit de foule, sonnerie des caisses enregistreuses, dplacement des chaises), la rue (trac des autobus et des voitures). De plus, la reconnaissance d'instruments de musique [Herrera-Boyer et al., 2003] ainsi que la classication des genres musicaux [Tzanetakis et Cook, 2002] ont permis des travaux sur l'motion ou l'atmosphre vhicule par le son [Zentner et al., 2008, Ruvolo et al., 2008]. Pour [Petrushin, 1999, Lee et Narayanan, 2005] cette motion est analyse partir des dialogues entre les personnages. La modalit texte peut galement fournir des informations utiles pour la description de scne. Ces informations, trs souvent des indications de lieu, de temps et/ou d'ambiance, peuvent tre extraites des mta-donnes [Bulterman et al., 2007, Buehler et al., 2009]. Mais il est galement possible d'obtenir des informations partir du texte prsent dans les images ou des paroles de la bande son. Des techniques spciques d'extraction de caractres ou d'analyse de la parole sont alors ncessaires pour obtenir ce texte [Snoek et al., 2005, Bertini et al., 2006]. Ce changement de modalit sera trait dans le 1.3.3.1

1.3.2.2 La dtection d'objets


Les objets dont nous parlons ici sont des entits statiques ou dynamiques dans le document vido. Comme dans le cas de la description d'une scne, les approches concernant la modalit visuelle sont souvent issues de la reconnaissance d'objets dans les images statiques mais utilisent galement la dtection locale de mouvements. Les descripteurs de

16

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

forme, de texture et de couleur sont trs utiliss dans ces travaux pour retrouver des animaux comme les poissons [Mokhtarian et al., 1997] ou de nombreux objets comme des btiments, voitures, bicyclettes, routes, arbres, etc. [Swets et Weng, 1996, Del Bimbo, 1999, Van de Sande et al., 2008, Pujol, 2009]. Comme nous l'avons dj voqu, ces travaux font l'objet de challenges comme PASCAL Visual Object Challenge ou Mediamill Challenge ou encore dans TRECVID HLF . Des objets spciques peuvent galement tre retrouvs en utilisant la modalit audio. Par exemple dans [Wold et al., 1996] et [Zhang et Kuo, 1999] des tintements de cloche, les sonneries de tlphone, les aboiements de chien ou des pleurs peuvent tre dtects. Mais le plus souvent, la modalit audio sert reconnatre des vnements comme rpondre au tlphone, ouvrir une porte, reconnatre les pas d'une personne qui marche, des bruits de vaisselles, etc. [Istrate, 2003, Cristani et al., 2007] ou dans le cas de vido sportives : une faute sie par l'arbitre, un service au tennis, un but au football, etc. [Xu et al., 2008]. L'extraction d'information partir des textes permet comme dans le cas de la description de la scne de retrouver des objets spciques. Cependant, la dtection d'objets est limite un certain nombre d'objets bien spciques. En eet la tche de dtection de contenu est grandement simplie lorsque l'on sait ce que l'on recherche (par exemple, de la fort ou des voitures) car les connaissances a priori permettent de se focaliser sur des attributs particuliers et pertinents. La tche est donc plus dicile en l'absence de cette connaissance. D'ailleurs, un dtecteur gnrique reste encore inaccessible et demeure le but ultime pour les chercheurs en analyse de documents vido.

1.3.2.3 La dtection de personnes


Cette partie peut tre vue comme une sous partie de la dtection d'objets. En eet les approches sont souvent assez proches de celles utilises pour les autres dtections de contenu. Beaucoup de travaux sur ce sujet sont issus des tudes faites en tlsurveillance. Le principe de base consiste dtecter les visages ou les corps humains en se basant sur les connaissances a priori des formes, des textures et couleurs et sur l'entranement d'algorithmes d'apprentissage [Zhao et al., 2003]. Ces approches fonctionnent relativement bien et permettent de retrouver, comme dans [Snoek et al., 2006], des personnages publics comme : G. Bush jr, Y. Arafat, J. Kerry, B. Clinton, etc. De mme, les algorithmes de reconnaissance de la parole et d'extraction des dialogues entre les personnages partir de la bande son sont maintenant au point et peuvent contribuer la dtection de personnes. La dtection d'une personne dans un texte passe gnralement par la recherche d'un nom propre dans le corpus textuel [Satoh et al., 1999]. Pour tre ecace, ces systmes utilisent des techniques de traitement de la langue naturelle. Ces techniques se basent sur des dictionnaires, thsaurus, analyseurs lexicaux, syntaxiques et smantiques. Nous reviendrons sur ces approches dans le chapitre consacr l'analyse des textes et plus particulirement dans la section consacre l'extraction d'information partir de texte 4.4. Nous venons de voir que la description de contenu permet, l'heure actuelle, de contribuer la dtection et la description d'objets, lieux, personnages spciques. Les modalits visuelles et audio sont intressantes pour dtecter l'environnement dans lequel est situ le passage vi-

1.3. LES SYSTMES D'INDEXATION DE FILMS

17

Figure 1.4  Image de Times Square issue d'un document vido

do. L'utilisation de la modalit textuelle permet, quant elle, de dcrire plus prcisment les lments mis en uvre (lieu gographique, nom des personnes, . . .). L'utilisation conjointe (ou fusion) de ces informations issues des direntes modalits est donc ncessaire pour obtenir une description pertinente, riche et smantique du document cinmatographique. Par exemple sur la gure 1.4, l'image apporte l'information de scne (ville), car il est possible de dtecter des immeubles, des voitures et des personnes. L'audio peut conrmer cela en prcisant que c'est une ville amricaine (bruit de sirne d'ambulance par exemple). Cependant, bien qu'une personne reconnatrait immdiatement que la ville est New York (taxis jaunes, buildings) et une vue de Times Square (panneaux lumineux), l'analyse automatique partir de ces deux modalits n'apporte pas cette prcision. Seule l'utilisation du texte dans ce cas apporte cette information (lieu et temps de la scne prciss dans l'image). Nous voyons travers cet exemple que la fusion de ces direntes modalits peut fournir des informations caractrisant le document vido avec un plus haut niveau smantique que par l'utilisation d'une seule de ces modalits. Cette analyse multimodale va tre prsente dans la prochaine section.

1.3.3 L'analyse multimodale


Aprs la segmentation du document vido dont le rsultat est la structure du lm en plans vido puis l'extraction et la description du contenu de chacun de ces segments, nous avons vu l'intrt d'utiliser conjointement les direntes modalits an d'obtenir une meilleure caractrisation du document. La problmatique maintenant est d'arriver fusionner ces direntes informations pour arriver une description smantique du lm. Cependant, les informations extraites des direntes modalits ne sont pas toujours de mme niveau smantique, et il est souvent ncessaire, dans une tape pralable, de convertir ces informations avant de les fusionner.

18

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION

1.3.3.1 La conversion de modalit


An d'extraire le contenu d'une modalit il est parfois prfrable de convertir cette modalit. Cette conversion est gnralement faite vers la modalit textuelle. En eet, nous avons vu dans la section prcdente que cette modalit apportait bien souvent une information d'un niveau smantique suprieur aux autres modalits.

Figure 1.5  Conversion de modalit et fusion des informations de contenu

Classiquement, la conversion du texte prsent dans les images au texte passe par l'utilisation d'algorithmes de reconnaissance optique de caractres ou Optical Character Recognition (OCR) (voir gure 1.5). Il faut pralablement dtecter la prsence de texte dans les images puis localiser ce texte. Il existe principalement deux techniques bases sur la dtection de rgions ou sur la dtection de textures. La dtection de rgions est base sur les caractristiques colorimtriques (les couleurs du texte en opposition avec la couleur du fond). Dans [Lienhart et Wernicke, 2002] les lignes de texte sont dtectes en exploitant les dirences de contraste. La dtection de texte base sur la texture, utilise la dirence de texture entre le texte et le fond de l'image [Zhong et al., 1995] (pour un tat de l'art sur l'extraction et l'utilisation de texte partir des images voir [Jung et al., 2004, Yan et Hauptmann, 2007]). La modalit textuelle est galement obtenue partir de la bande son lorsque celle ci contient un dialogue. Aprs une dtection de la parole dans le support audio, les dirents phonmes sont extraits an de reconstruire les mots. Ces systmes, baptiss reconnaissance automatique de la parole ou Automatic Speech Recognition (ASR), donnent de bons rsultats (de 90% de taux de reconnaissance pour l'anglais [Xie et al., 2004] et 85% pour le nnois 40% pour l'arabe gyptien [Creutz et al., 2007]) dans des conditions idales, sans bruits ou perturbations. Mais les rsultats sont moins bons (30% de taux d'erreur) lorsque le fond sonore est bruit (musique, foule, etc.) [Hauptmann et al., 2002].

1.3. LES SYSTMES D'INDEXATION DE FILMS

19

1.3.3.2 La multimodalit
Le principe de l'analyse ou de l'intgration multimodale est d'amliorer la caractrisation du document par l'apport d'informations redondantes, complmentaires ou nouvelles. Ainsi l'ajout d'une modalit peut se dcliner suivant trois buts :  la vrication des informations. Lorsque les informations sont redondantes cela permet partir de deux modalits de vrier les informations issues de la troisime modalit.  la compensation des informations. Lorsque les informations sont complmentaires cela permet par exemple de prciser et de compenser l'imprcision d'une information partir des deux autres modalits.  l'ajout d'information. Lorsque les informations sont direntes cela permet de caractriser plus largement le document et peut permettre par exemple, de faire du raisonnement partir de bases de connaissances. Prenons l'exemple d'une vido personnelle dont le titre (mta-donne) est : Vacances 2008 aux Etats Unis . Une image extraite de cette vido pourrait tre la gure 1.4. Une analyse et une reconnaissance des objets sur cette image conduirait par exemple trouver la voiture au premier plan dont la caractristique couleur est jaune. Les informations extraites des autres modalits pourraient tre : une information sur la scne (dans une rue en ville) partir de l'audio (klaxons, bruits urbains), le pays (aux USA) partir des mta-donnes et enn la ville ( New York) o se droule la scne partir du texte incrust dans l'image. Finalement, pour caractriser l'objet dtect dans l'image il serait possible de faire un raisonnement simple partir d'une base de connaissances comme suit :

U SA + N ewY ork + Rue + V oiture + de couleur jaune = T axi


Par cet ajout d'information multimodale le systme pourrait caractriser automatiquement la voiture dtecte dans l'image comme tant un taxi New Yorkais (Yellow Car). Pour atteindre l'intgration et la fusion de ces informations, [Snoek et Worring, 2005] proposent de classer les direntes approches selon trois catgories distinctes :  L'extraction de contenu peut tre symtrique ou asymtrique. Lorsque les extractions de contenu de chacune des modalits sont indpendantes, elles sont dites symtriques. Les informations sont extraites paralllement et les tapes d'extraction ne sont pas mises en cascade comme dans le cas asymtrique. Dans ce dernier cas, les extracteurs sont mis en srie et il y a donc interaction entre eux. L'information extraite d'une modalit va orienter l'extraction d'information de(s) autre(s) modalit(s).  Le processus d'intgration peut tre itratif ou non itratif. Lorsque l'intgration des informations se fait par cycles, le processus d'intgration est dit itratif, comme dans [Naphide et Huang, 2001] o les informations et leurs interactions sont modlises par des poids dans un rseau baysien modis itrativement. Notons que les approches bases sur des processus d'intgration itratifs sont plus rares.  La mthode d'intgration (on parle aussi de fusion de donnes) peut tre base sur des connaissances a priori o l'intgration des donnes est obtenue par une expertise

20

CHAPITRE 1. LE CONTEXTE GNRAL : LES SYSTMES D'INDEXATION et des rgles de combinaison. Dans [Tsekeridou et Pitas, 1999] la combinaison entre les informations audio et vido (dtection de la parole, de silence, de l'identit de la personne qui parle, prsence d'un visage, absence d'un visage, prsence d'un visage qui parle) apporte l'utilisateur des informations beaucoup plus dtailles. Par exemple la personne X parle et est prsente dans la scne Y (caractrise par sa dure) ou un reportage apparat dans la scne Z (caractrise par sa dure) tandis que le journaliste W raconte l'histoire sans tre prsent dans la scne. Les informations audio et visuelle contiennent des contenus dirents qu'il est possible de combiner grce des rgles d'interaction comme celles de l'exemple ci dessus. Dans [Valet, 2001] la dtection de zones d'intrt dans des images sismique est obtenue par raisonnement ou imitant celui des experts du domaine. Les travaux utilisant cette mthode d'intgration sont plus rares et les descripteurs issus des extracteurs d'information doivent tre explicites et comprhensibles par l'homme an de leur appliquer des rgles de fusion issues d'une connaissance du domaine. L'intgration des informations est obtenue galement par l'utilisation de classieur lorsque de telles connaissances ne sont pas disponibles. De nombreux algorithmes de classication ont t utiliss (SVM, rseau de neurones, rseau baysien . . . ). Dans ces approches chaque concept est caractris par un ensemble de descripteurs vus comme les axes d'un hyper-espace. Le but est de trouver les rgions permettant de sparer et caractriser les concepts suivant ces descripteurs.

Un bon aperu des travaux couvrant ces direntes approches est prsent par l'tat de l'art de [Snoek et Worring, 2005]. Notons tout de mme que la grande majorit des travaux d'analyse multimodale sont du type symtrique avec des mthodes de classication statistiques dans des processus de fusion non itratifs. De plus, la synchronisation et l'alignement des modalits sont fondamentaux pour permettre une intgration et une fusion des informations extraites.

1.4 Conclusion
Pour conclure ce chapitre, l'utilisation conjointe des direntes modalits audio, image et texte est ncessaire pour caractriser ecacement les documents vido et plus prcisment les lms. Cette caractrisation passe par l'tape de segmentation permettant de retrouver les segments vido dont le contenu est smantiquement homogne. La description de ces plans video est base sur la dtection d'lments spciques dont la caractrisation et la description smantique se font le plus souvent par l'intermdiaire de la modalit textuelle (gnralement non disponible avec le lm sauf aprs conversion de modalit). De plus, la connaissance et l'apport d'information a priori du domaine permet d'amliorer les processus d'extraction et de fusion d'information et permet in ne une caractrisation plus prcise du lm. Cependant, la majorit des travaux prsents prcdemment ont t tests et dvelopps sur des donnes applicatives constitues de lms classiques, c'est--dire mettant en scne des personnes (tres humains) dans des environnement rels. Nos travaux se dmarquent des travaux prcdents par la caractrisation de lms d'animation dont les caractristiques se distinguent des lms classiques sur de nombreux aspects. C'est ce que nous allons voir dans le chapitre suivant.

Le contexte de travail : les lms d'animation

Chapitre 2

Rsum : Dans ce chapitre nous prsentons le contexte de travail de ces travaux

de thse lis au domaine applicatif du cinma d'animation. Nous abordons les problmatiques d'indexation et de caractrisation de ces lms particuliers que sont les squences d'animation. Nous prsentons les caractristiques de ces lms ainsi que celles de la base de donnes vido et textuelle dont nous disposons. Puis nous prsentons les problmatiques et les solutions apportes dans nos travaux.

2.1 Prsentation du contexte de travail


Nous venons de voir les ds que posent l'indexation de documents multimdia et les solutions mises en uvre, en particulier dans le cas de lms. C'est dans ce contexte que se situent les travaux de cette thse, avec comme spcicit leur application la base numrise de lms d'animation mise en place par la Cit de l'Image en Mouvement (CITIA) dans le cadre du Festival International du Film d'Animation d'Annecy. Aussi, avant toute chose, nous allons voir quelles sont les caractristiques de ces documents vido particuliers.

2.1.1 CITIA et la base de lms d'animation


Porte par la communaut de l'agglomration d'Annecy, le dpartement de la Haute-Savoie et la Rgion Rhne Alpes, CITIA [CITIA, 2009b] tire ses origines du Festival International du Film d'Animation d'Annecy (FIFA) qui confre Annecy depuis plus de 45 ans une renomme mondiale dans le domaine du lm d'animation. Le Centre International du Cinma d'Animation (CICA), association Loi de 1901 cre en 1984, a constitu les fondements de ce projet travers ses direntes missions : organisation du festival et du March International du Film d'Animation (MIFA), promotion, diusion et soutien du cinma image par image, dveloppement et exploitation d'un centre de documentation multimdia. Dans le contexte de cette dernire mission, CITIA, tablissement Public de Coopration Culturelle, regroupe sous forme numrise l'important fond documentaire du CICA. La 21

22

CHAPITRE 2. LE CONTEXTE DE TRAVAIL : LES FILMS D'ANIMATION

constitution de cette base numrique des lms d'animation est en cours de constitution (numrisation et stockage des lms) et contiendra terme 30000 lms auxquels s'ajouteront annuellement les quelques centaines de lms mis en comptition lors de chaque festival. De cette faon les professionnels de l'animation et les coles spcialises pourront bientt avoir accs ce fond et notamment des extraits de lms d'animation via internet. L'exploitation de cette base et l'laboration de mthodes documentaires associant base de connaissances textuelles et analyse automatique des lms d'animation constituent le cadre d'un partenariat entre le Laboratoire d'Informatique Systmes, Traitement de l'Information et de la Connaissance (LISTIC) et CITIA [CITIA, 2009c]. Ce contexte pluridisciplinaire et cette base particulire contribuent l'originalit de nos travaux. L'indexation et la caractrisation des documents numriques que sont les lms d'animation du CICA, constituent le cadre mthodologique et applicatif des travaux prsents dans ce manuscrit. Nous avons vu prcdemment que l'utilisation d'information a priori et de connaissances sur les documents indexer amliorent la caractrisation automatique des vidos. Nous allons donc prciser dans les sections suivantes quelles sont les caractristiques particulires des lms d'animation de CITIA et en quoi ces lms dirent des lms classiques.

2.1.2 Les lms d'animation


Le cinma est un art qui ore au public une uvre (ou lm par mtonymie) compose d'images en mouvement gnralement projetes la cadence de 24 images par seconde. C'est la succession rapide d'images dirant en moyenne peu les unes des autres qui fournit au spectateur l'illusion d'une image anime, reproduisant les mouvements et trajectoires de la vie relle. Grce la persistance rtinienne et l'eet phi, les techniques de projection permettent l'tre humain de voir cette srie d'images discrtes comme un ux visuel continu. De ce principe de base est n l'animation ou cinma d'animation. Cet art regroupe toutes les uvres (ou lms) dans lesquelles l'auteur donne l'illusion de la vie des objets qui par nature sont inertes. Nous voyons donc apparatre une dirence signicative avec les lms que l'on nommera  classiques  car mettant en scne principalement des tres humains et/ou animaux (bien que les lms d'animation puissent aussi utiliser des images naturelles). En partant de ce principe, les facettes de l'animation sont pratiquement sans limite. Du point de vue artistique l'auteur propose, par l'intermdiaire de son uvre, la communication d'une motion au spectateur qui regarde son lm d'animation. Cette intention artistique, dans le cas des lms d'animation, s'exprime de direntes manires, depuis l'utilisation de techniques d'animation particulires jusqu'aux genres et sujets traits. Dans ce qui suit, parmi ces direntes formes d'expression, nous nous intresserons plus particulirement celles qui intressent la mise en place des techniques d'indexation automatiques.

2.1.2.1 Les techniques d'animation


Depuis l'invention du cinma d'animation la n du xixe sicle, les artistes n'ont pas manqu d'imagination pour dvelopper des techniques leur permettant de crer l'illusion du mouvement image par image. Depuis le dessin sur papier, en passant par la pte modeler, pour arriver la pixilation puis l'image de synthse, tout est permis et aujourd'hui encore de nouvelles techniques apparaissent (l'annexe B.5 donne une rpartition des lms de la base CITIA en fonction des techniques d'animation). Ces techniques, souvent trs dif-

2.1. PRSENTATION DU CONTEXTE DE TRAVAIL

23

frentes, rendent trs diciles les analyses de contenu partir des squences d'images. En eet, les textures, couleurs, contrastes, etc, en un mot les caractristiques image sont fortement inuences par les techniques d'animation (voir gure 2.1.a) et les eets spciaux qui en dcoulent (voir gure 2.1.c). C'est l'utilisation de ces techniques particulires qui distingue fondamentalement le cinma d'animation du cinma classique. Le dtail en images de ces techniques est disponible en annexe A.

(a) Varit des techniques d'animation

(b) Palettes de couleurs direntes

(c) Eets visuels

(d) Complexit du contenu

Figure 2.1  Les particularits des lms d'animation (source : les lms de CITIA).

2.1.2.2 Les couleurs


L'usage de la couleur fait partie de l'ventail des possibilits que les auteurs ont leur disposition pour faire passer leurs intentions artistiques. Dans les lms d'animation, il est assez frquent de trouver l'utilisation d'une palette de couleurs particulire contenant un nombre rduit de couleurs. C'est une des dirences majeures avec les images/vues relles. En eet il est techniquement trs dicile pour l'artiste de peindre la totalit des variations colores que l'on retrouve dans une image relle (voir gure 2.1.b). Bien que l'arrive des images numriques ait boulevers les techniques de colorisation (dans une image numrique, le choix des couleurs se fait parmi plus de 16 millions de couleurs), l'artiste utilise gnralement une palette de couleurs rduite pour construire sa squence anime. Souvent, le choix et la distribution de ces couleurs traduit l'intention artistique de l'auteur. Cela permet de transmettre certains sentiments ou sensations comme la chaleur, l'harmonie, le contraste, la joie, la tristesse, etc. On retrouve de nombreux travaux sur la thorie des couleurs depuis l'Antiquit jusqu' nos jours en passant par Newton ou Goethe. Par exemple, le physicien Rumford fut, ds 1797, le premier armer que les couleurs n'taient harmonieuses que si leur mlange donnait du blanc. Plus tard dans Le cercle chromatique d'Itten [Itten, 1974], Johannes Itten tente de rationaliser l'utilisation de la couleur et ses contrastes chez les artistes peintres. Dans sa thorie, le contraste de la couleur peut aussi bien exprimer une joie

24

CHAPITRE 2. LE CONTEXTE DE TRAVAIL : LES FILMS D'ANIMATION

dbordante qu'une profonde tristesse. angle droit avec l'axe jaune / violet, sur le cercle chromatique (voir gure 2.2), se trouvent les couleurs rouge-orange (couleur la plus chaude) et bleu turquoise (couleur la plus froide). Le contraste chaud-froid le plus fort est obtenu en juxtaposant ces deux couleurs. Dans le mme ordre d'ides, il a t montr que dans une pice peinte en bleu-vert, les personnes trouveront qu'il fait froid 15 C alors que dans une pice rouge-orang, elles ne ressentiront le froid qu' 11-12 C. Pour Birren [Birren, 1969] il y a une loi de l'harmonie des couleurs. Selon lui, la beaut rsulte d'un bon ordonnancement des couleurs. Dans les lms d'animation, l'utilisation d'une palette de couleur rduite permet d'utiliser des techniques d'analyse mettant en vidence les couleurs dominantes, les contrastes, les harmonies, etc. ([Ionescu, 2007])

Figure 2.2  Roue chromatique de Johannes Itten

2.1.2.3 Les genres


Une autre des caractristiques singulires des lms de la base s'exprime travers les genres traits. En eet, les genres sont nombreux (ces lms ne sont pas tous axs sur le divertissement) et les frontires entre les genres pas toujours trs nettes, crant ainsi une multitude de contenus diciles analyser automatiquement. Bien que l'on retrouve en partie la diversit des sujets traits dans les lms classiques (genre policier, humoristique, comdie, aventure, etc.), il prdomine nanmoins dans les lms de CITIA une volont artistique qui aboutit souvent des lms trs originaux dont le contenu n'est pas toujours facile classer dans une catgorie. De plus, le fait de donner vie des objets inertes par nature, permet une cration sans limite puisque l'artiste ne subit pas les contraintes naturelles de notre monde (pesanteur, continuum espace-temps, etc.) rendant sans fondement un certain nombre d'hypothses de mouvement par exemple. Les spcialistes de l'animation estiment que 30% des lms d'animation prsents au festival ne peuvent pas tre rsums tant leur contenu est singulier (voir gure 2.1.d) (information recueillie durant une conversation prive auprs de Giannalberto Bendazzi professeur l'universit de Milan spcialiste du cinma d'animation 1 ). Cette particularit des lms d'animation rend donc quasi impossible leur analyse automatique sans information externe. Dans l'annexe B.6, nous donnons la rpartition des lms dans la base selon le genre dclar.

1. http://www.lapisvillage.net/static/cur_bendazzi.htm

2.1. PRSENTATION DU CONTEXTE DE TRAVAIL

25

2.1.2.4 Bilan
On l'a vu, les lms de CITIA sont dirents des lms naturels et des lms grand public d'animation (communment appels dessins anims). Cette dirence tient essentiellement leur contenu qui relve souvent d'une intention artistique plus que d'une recherche de divertissement. Les caractristiques les plus importantes des lms d'animation peuvent se rsumer de la manire suivante :  Les techniques d'animation : sont spciques et peuvent tre mixes entre elles (voir gure 2.1.a et annexe B.5).  Les couleurs : marquent une volont de l'auteur et sont une signature de l'uvre et/ou de l'artiste (voir gure 2.1.b).  Le contenu : prsente une varit extrme (voir gure 2.1.d et annexe B.4).  Les vnements : ils ne suivent pas forcment une chronologie bien tablie (continuum espace-temps). Des objets peuvent apparatre ou disparatre de la scne, se mettre lviter, et les personnages peuvent courir dans les airs. Tout est possible et ne dpend que de l'imagination de l'artiste.  Les personnages : si il y en a, ils peuvent prendre n'importe quelle forme, couleur ou texture.  Les eets spciaux : certains eets sont propres au cinma d'animation comme par exemple le Short Color Change (SCC), brusque variation de couleur dans un mme plan (voir gure 2.1.c).  La dure : les lms d'animation sont gnralement du type court mtrage d'une dure moyenne de 10 minutes (voir annexe B.2). Toutes ces caractristiques, en l'absence d'information externe supplmentaire, rendent trs diciles la ralisation des tches d'indexation et de caractrisation automatique des lms d'animation. L'extraction de descripteurs de haut niveau smantique partir de l'image (comme la dtection de visage) est trs dlicate, compte tenu de la grande variabilit des caractristiques image et du manque d'information a priori. En eet, les informations a priori de forme, texture, couleur qui permettent de nombreux dtecteurs de retrouver des visages ou autres objets spciques comme des voitures, des buildings, etc, ne fonctionnent plus sur la majorit des lms d'animation car ces connaissances issues du monde rel, ne sont pas toujours valides dans le monde de l'animation. C'est ce que nous avons baptis le paradoxe de Donald . Nous voyons dans les images de la gure 2.3 que les caractristiques de forme, de textures, et de couleurs que l'on pourrait apprendre de la gure 2.3.a ne sont plus des attributs image pertinents pour retrouver un canard sur les images issus de lms d'animation (gure 2.3.b .f). Dans la base des lms de CITIA, le stockage d'un lm est complt par sa che d'inscription, dans laquelle est rassembl un certain nombre d'informations directement lies au lm. Cette ressource textuelle, dont la prsentation dtaille est faite dans la section suivante, peut

26

CHAPITRE 2. LE CONTEXTE DE TRAVAIL : LES FILMS D'ANIMATION

(a)

(b)

(c)

(d)

(e)

(f)

(a) : Canard colvert, (b) : Donald Duck de Disney (1934), (c) Day Duck de Tex Avery (1937), (d) : Le vilain petit canard de Disney (1931), (e) : Le vilain petit canard et moi de Gebeka Films (2005), (f ) : Chicken Little de Disney (2004)
Figure 2.3  Dirents canards : du rel l'animation.

tre trs utile pour la caractrisation des lms. Dans nos travaux, nous proposons d'exploiter l'information issue de ces pritextes, en complment des informations extraites des lms, an d'apporter une information de haut niveau smantique.

2.1.3 Les ches d'inscription


Pour inscrire un lm la slection du festival, les auteurs doivent fournir une che d'inscription contenant un certain nombre d'informations concernant le lm. L'ensemble de ces ches est regroup pour former une base textuelle accessible depuis un moteur de recherche, appel Animaquid, disponible sur le site de CITIA ([CITIA, 2009a]). On retrouve dans ces ches des informations essentielles comme :  Le titre du lm (dans la langue originale, en franais et en anglais), la nationalit et l'anne de production.  Les noms des auteurs : scnario, graphismes, sons, etc.  Des indications sur les techniques utilises, l'ge du public vis, le genre du lm, sa dure, son support.  Un synopsis en franais et en anglais qui est un court texte descriptif du sujet trait par le lm (en moyenne 20 mots voir annexe B.7). La gure ci-dessous (gure 2.4) prsente, titre d'exemple, la che du lm Au bout du monde.

2.1. PRSENTATION DU CONTEXTE DE TRAVAIL


'

27
$

Titre Au bout du monde (At the End of the Earth) Synopsis Pose sur le pic d'une colline, une maison balance alternativement de Identit Ralisation : Konstantin BRONZIT, Pays : France, Anne : 1998, Dure :
07 mn 45 s droite gauche, au grand dam de ses habitants. To the great displeasure if its inhabitants, a house set on top of a hill sways from left to right.

Technique Technique(s) utilise(s) : Dessin sur cellulos, Procd : Couleur, Ver&

sion : Sans dialogue ni commentaire, Catgorie : 1999 Courts mtrages, Genre(s) : Humour, Public(s) vis(s) : Tout public

Figure 2.4  Fiche d'inscription au FIFA du lm

Au bout du monde

Malheureusement ces ches prsentent quelques imperfections :  les donnes sont parfois incompltes, en particulier pour les lms les plus anciens : des champs - genre, technique, synopsis - ne sont pas renseigns).  Les indications ont t le plus souvent remplies par ceux qui ont inscrit le lm au festival, mais aussi parfois par les personnes qui ont saisi les donnes dans la base, ce qui attnue la abilit de certaines de ces informations, en particulier quand il s'agit du genre ou du rsum.  Les synopsis (qui sont des textes courts) prsentent une trs grande variabilit dans la manire dont ils sont rdigs. Selon les cas, au lieu d'tre un rsum, cela peut tre une accroche voire dans certains cas une pense philosophique ( To be eaten or not to be eaten ? That is the question !  pour le lm Circuit Marine ).  La qualit des traductions est variable selon les priodes de saisie.  Les techniques et les genres renseigns sont quelquefois insolites. Par exemple les genres personnel, afrique, spirituel, etc., ne sont pas (et ne peuvent pas tre) rfrencs dans l'ontologie des genres 2 [Beauchne et Deloule, 2009]. En conclusion, nous avons donc un corpus dont la qualit n'est pas homogne. Nanmoins, cette ressource textuelle est trs intressante exploiter pour caractriser les lms car elle permet d'apporter des informations a priori, de haut niveau smantique, sur le document vido, informations dicilement disponibles par ailleurs tant les caractristiques des lms sont particulires. Le contexte gnral tant prsent nous allons prciser maintenant les objectifs de ces travaux.
2. Une ontologie des genres a pu tre construite par l'quipe Condillac du LISTIC avec l'aide des experts de l'animation

28

CHAPITRE 2. LE CONTEXTE DE TRAVAIL : LES FILMS D'ANIMATION

2.2 Prsentation des objectifs


An d'exploiter ecacement cette base de lms d'animation, il est ncessaire de disposer d'outils logiciels plus performants que l'outil (Animaquid) actuellement utilis. En eet, Animaquid n'utilise que des lments textuels (Titre, Auteur, etc.) issus des bulletins d'inscription au festival. Notre travail est une participation au dveloppement de ces nouveaux outils logiciels. Plus spciquement, les travaux eectus dans cette thse ont pour objectif la caractrisation des lms d'animation. Cette caractrisation, dont la qualit dtermine l'efcacit des outils d'exploitation de la base, est construite partir de la fusion d'informations lies aux lms. Les informations que nous avons exploites sont extraites de trois sources :  les squences d'images : des descripteurs de type couleur, texture, forme, mouvement, etc. peuvent tre extraits de l'analyse des images. Ces descripteurs restent d'un niveau smantique relativement faible. En eet, comme nous l'avons dj voqu, la recherche de descripteurs de plus haut niveau, comme des visages humains, des voitures, etc. est dicilement envisageable dans le cas des lms d'animation (c'est le paradoxe de Donald).  les pri-textes : des informations sur le lm et son contenu peuvent tre extraites des textes issus des ches d'inscription. En particulier, les synopsis permettent d'accder des informations dont le niveau smantique est lev.  L'expertise du domaine : en eet la connaissance des experts du cinma d'animation est une information importante dans le processus de fusion d'information. L'objectif principal (voir gure 2.5) et l'originalit de cette thse est la mise en place de mthodologies permettant de fusionner les informations extraites de ces deux modalits.

Figure 2.5  Principe de la fusion d'information texte et image

2.2. PRSENTATION DES OBJECTIFS

29

A notre connaissance, peu de travaux en indexation vido ont tent ce type de fusion multimodale. Cette fusion pose en eet un certain nombre de dicults :  Une dirence de niveau smantique : l'analyse des images apporte une information dont le niveau smantique reste faible alors que les synopsis contiennent au contraire une information dont le contenu smantique est lev.  Une dsynchronisation : en eet, les informations obtenues partir des synopsis ont gnralement un lien smantique avec les images mais ce lien n'est pas repr sur l'chelle temporelle de la vido (voir 1.3.3.2). Ainsi, un synopsis pourra parler du "dbut de l'histoire", ce qui reste trs imprcis compar la prcision de synchronisation que l'on a par exemple sur des sous-titres.  Une dirence dans la quantit d'information : les images apportent une trs grande quantit d'information (plusieurs milliers d'images par squence vido) alors que les synopsis contiennent au contraire une information en quantit trs rduite ( 20 mots). Parmi les sources d'information disponibles, il y a galement la bande son du lm et, ventuellement, le texte obtenu aprs conversion de modalit (1.3.3.1). Nous avons choisi de ne pas exploiter ces sources. En eet, les lms d'animation ne contiennent pas toujours de dialogues et ces derniers peuvent tre dans n'importe quelle langue (langue d'origine du pays de production). De plus, les musiques ou bruit d'ambiance prsentent une grande variabilit qui les rendent dicilement exploitables. Quant aux textes, ils sont trs rares et leur exploitation ne se justie donc pas. Ce mmoire s'articule autour de deux parties :

L'extraction d'information est aborde travers :  l'analyse des squences d'images dans le chapitre 3, o des informations de couleur
et d'activit sont extraites de la modalit vido.  l'analyse des textes dans le chapitre 4, o des informations d'atmosphre et de description du lm sont extraites des synopsis.

La fusion d'information est aborde dans le chapitre 5 travers la fusion des infor-

mations issues de l'analyse des images et de l'analyse des textes an d'obtenir une caractrisation smantique des lms. Cette caractrisation des lms est faite un niveau global o nous cherchons caractriser l'atmosphre dgage par le lm et un niveau local o nous cherchons dcrire grce au texte les passages d'action.

30

CHAPITRE 2. LE CONTEXTE DE TRAVAIL : LES FILMS D'ANIMATION

Deuxime partie

Extraction d'information

31

Extraction d'information partir des images

Chapitre 3

Rsum : Dans ce chapitre consacr aux images nous abordons la caractri-

sation des squences d'animation par extraction d'informations sur la couleur (caractristique importante des lms d'animation) et sur l'activit dans ces squences d'images. La premire partie de ce chapitre fait la synthse des applications images transposables notre contexte d'tude puis une seconde partie dtaille notre approche et son fonctionnement. Notre solution est base sur un algorithme dit accumulation d'erreur qui permet d'extraire d'une squence d'images un ensemble d'images clefs permettant travers direntes tapes et traitements, la mesure des caractristiques recherches.

Dans les travaux prsents dans ce manuscrit, la tche d'indexation des lms d'animation passe par l'extraction d'information et la caractrisation du document partir des modalits image et texte. Dans ce chapitre nous nous intresserons la caractrisation des squences d'animation partir des images. Cette caractrisation passe par l'analyse et l'exploitation des couleurs dans les images ainsi que par la recherche d'une caractrisation de l'activit dans les squences vido.

3.1 L'existant
Nous avons dj vu dans le chapitre 1.2.1 un certain nombre d'approches permettant d'indexer les images ou les squences d'images. Ces approches sont troitement lies la nature des images traites (image naturelle, vue extrieure, vue intrieure, paysage, ville, etc.) et s'appuient le plus souvent sur des connaissances a priori de couleur, texture, forme, mouvement, etc. (par exemple : la pelouse est gnralement verte, les villes sont constitues d'immeubles ce qui entrane la prsence de lignes verticales dans les images). Dans le cas particulier des lms d'animation ces connaissances a priori sont fortement remises en cause. Ainsi nous allons dans un premier temps dtailler les approches classiquement utilises dans la caractrisation d'images et discuter de leur application possible dans le cas des lms d'animation.

33

34

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

3.1.1 Les grandes approches et leurs possibles applications aux lms d'animation
Nous avons vu dans le chapitre sur l'indexation que l'extraction d'information partir des squences d'images peut tre dcompose en deux parties. La premire consiste extraire l'information partir des images. La seconde consiste quant elle utiliser la dimension temporelle des vidos (les squence d'images). Dans le cas de l'extraction d'information partir des images un certain nombre de descripteurs peuvent tre extraits automatiquement partir des proprits suivantes :

visuelles. En eet, l'il humain est plus sensible aux changements de teinte des couleurs qu' la prsence de mouvement. De plus, les lms d'animation constituent un type particulier d'expression artistique. Chaque lm a sa propre distribution des couleurs voulue par l'auteur (voir 2.1.2.2). Dans un lm d'animation, l'artiste choisit les couleurs qu'il va utiliser pour composer son uvre en concordance avec son projet artistique. Ainsi, les couleurs prdominantes utilises dans la squence, la combinaison de ces couleurs, les impressions transmises, etc. sont des caractristiques intressantes exploiter [Ionescu et al., 2005a]. L'analyse des couleurs dans les squences d'images est donc une orientation privilgie dans notre contexte applicatif.

Les couleurs : elles jouent un rle trs important dans la transmission d'informations

relles et les mthodes d'analyse utilises sont gnralement bases sur des approches contours ou des approches rgions [Zhang et Lu, 2004]. Bien que les mthodes d'extraction de formes soient envisageables dans notre contexte applicatif, la dicult majeure rside dans le passage de ces descriptions gomtriques des concepts exploitables. En eet, les connaissances a priori et les proprits gomtriques bien connues de certains objets de notre monde (par exemple une voiture, un btiment, un arbre ou un visage) permettent par des mthodes d'apprentissage de retrouver ces formes et la reconnaissance des concepts dans les images issues des lms plus conventionnels [Mokhtarian et al., 1997]. La dtection automatique de visage par exemple utilise trs souvent ces informations de formes [Zhao et al., 2003]. Malheureusement dans le domaine de l'animation, ces approches sont confrontes l'extrme variabilit des caractristiques de formes des objets recherchs. Par exemple la dtection de visage de personnages d'animation partir des caractristiques de forme semble beaucoup plus complexe mettre en uvre lorsque l'on regarde la diversit des formes utilises dans le panel de visages prsent sur la gure 3.1. Ainsi, cause du paradoxe de Donald il est peu probable que cette caractristique soit intressante dans l'immdiat pour notre champ d'application.

Les formes : elles sont dcrites par leurs proprits gomtriques globales ou structu-

Les textures : elles permettent de caractriser les proprits des matriaux prsents dans l'image. Leurs calculs sont bass sur des analyses statistiques, structurelles ou spectrales [Liu et al., 2009]. Cependant comme dans le cas de l'analyse des formes, l'utilisation de textures des ns de caractrisation semble dlicate dans le domaine de l'animation. En eet, les textures utilises sont fortement lies aux techniques d'animation. Ces techniques et la diversit des textures utilises pour construire les lments du lm traduisent la volont artistique de l'auteur. On voit sur la gure 3.2 la grande variabilit des textures utilises pour

3.1. L'EXISTANT

35

2D or not 2D

La bouche cousue

Louise

Atama Yama

Casa

Le roman de mon me

Hello

Moznosti dialogu

King Kong hr3

Figure 3.1  Direntes formes de visages de quelques personnages d'animation.

composer les visages des personnages. Les matriaux utiliss caractristiques de ces textures sont trs nombreux et vont de la synthse numrique la pte modeler en passant par l'utilisation d'objets divers et varis comme des ptes alimentaires, des lgumes ou des ferrailles (crou, vis, etc.). Dans ces conditions ce descripteur ne permettra probablement pas de reconnatre et nommer des objets l'intrieur d'une image.

Dans le cas des squences d'images la prise en compte de l'aspect temporel des images permet de caractriser les dirents mouvements prsents dans le lm. L'analyse globale et l'analyse locale du mouvement sont des approches intressantes pour l'analyse des lms en gnral.

consiste gnralement caractriser les mouvements de camra [Bouthemy et al., 1999] ou [Duan et al., 2004]. Cette information de mouvement permet de localiser les passages importants de la squence comme par exemple le fait de focaliser l'attention des spectateurs (arrt sur une scne prcise, puis zoom sur le visage d'un personnage). Ces techniques cinmatographiques (zoom, travelling, etc.) sont gnralement utilises dans l'animation d'objets mais se retrouvent aussi quelques fois dans des dessins anims. Cette caractristique ne nous a pas sembl trs discriminante pour la description du contenu d'un lm, elle ne sera donc pas

Le mouvement global : L'analyse du mouvement global, on l'a vu prcdemment,

36

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

(a) Rusalka

(b) Nos Adieux. . .

(c) Amerlock

(d) Bunny

(e) Histoire. . .

(f) Ex-enfant

(g) Crac

(h) How to cope. . .

(i) Ferrailles

Figure 3.2  Direntes textures composant les visages de personnages d'animation. Technique d'animation correspondant aux images :(a) : peinture sur verre, (b) Nos Adieux au Music Hall : animation de ptes alimentaires, (c) : pte modeler, (d) : ordinateur 3D, (e) Histoire Extraordinaire De Mme Keeskemet : dessin sur cellulos, (f ) : cran d'pingles, (g) : dessin au crayon pastel, (h) How to cope with death : ordinateur 2D, (i) : animation d'objets.

envisage dans ce manuscrit.

Le mouvement local : La deuxime direction d'analyse est la caractrisation du mouvement local ou mouvement des objets [Laptev, 2005, Trucco et Plakas, 2006]. Cette information est intressante pour faire du suivi d'objet mais l encore si le but est de caractriser smantiquement ces mouvements (courir, marcher, voler, sauter, etc.) alors il devient dicile d'obtenir cette reconnaissance partir des caractristiques du mouvement seul comme cela peut tre fait pour reconnatre des squences o le mouvement local est dterminant, comme par exemple certaines squences d'athltisme [Ramasso, 2007]. En eet, la faible connaissance que l'on peut attacher ces mouvements tant ils prsentent de variabilit dans le domaine de l'animation ne permet pas leur caractrisation. Par exemple dans la clbre srie de cartoons amricains produits par le studio Warner Bros (Bip Bip et Coyote, Speedy Gonzales, etc.) les personnages ont gnralement des mouvements non compatibles avec les lois physiques du monde rel. Par consquent, cette approche ne sera pas envisage dans le cadre de notre tude. Nous y reviendrons la n de ce manuscrit dans les perspectives de nos travaux.
Parmi l'ensemble des possibilits technologiques oertes (description de scne, dtection

3.1. L'EXISTANT

37

d'objets, de personnes et de visages, etc.) un grand nombre de mthodes robustes fonctionnent bien en raison des hypothses faites sur les donnes traites. Par exemple, dans les vidos sportives comme un match de football, les indicateurs de couleur, de forme et de texture sont trs intressants exploiter et permettent de caractriser assez nement les lments composant les images (terrain, joueurs) compte tenu du peu de variabilit de ces descripteurs associs aux concepts recherchs. De plus, les hypothses faites sur les dplacements et les mouvements des objets permettent par exemple de retrouver l'action d'un joueur ou un tir au but. Malheureusement, un grand nombre de ces hypothses sont remises en question dans le contexte des lms d'animation. De ce fait, l'application des approches retrouves dans la littrature du domaine est vite limite car confronte au passage des descriptions bas niveaux des caractristiques plus complexes. Dans nos travaux, nous nous intressons donc plus particulirement des caractrisations globales des lms ; ainsi, nous cherchons obtenir des lments comme l'atmosphre, partir d'informations utilisant les aspects couleurs vritablement spciques aux lms d'animation et partir d'information comme l'activit issue des squences d'images.

3.1.2 L'existant pour les squences d'animation


Nous prsentons dans cette section un certain nombre de travaux dvelopps au LISTIC sur la caractrisation des squences d'animation, point de dpart des travaux de thse prsents dans ce mmoire. Dans l'objectif de caractriser les lms d'animation partir d'une information uni-modale, les travaux de Bodgan Ionescu [Ionescu, 2007] ont permis d'obtenir un ensemble de descripteurs symboliques bass sur la couleur et sur l'activit dans les squences d'animation.

3.1.2.1 Les descripteurs bass sur la couleur


Dans [Ionescu, 2007], une description statistique des couleurs prdominantes est calcule partir d'un rsum de la squence vido. Dans ces travaux, la distribution des couleurs est caractrise par un histogramme global pondr des couleurs. Cet histogramme sert ensuite de point de dpart pour le calcul d'un certain nombre de descripteurs symboliques des couleurs dans l'analyse smantique des squences d'images.
palette des couleurs

Squence

plan 1 plan 2
segmentation en plans

p% p%
slection des images par plan histogramme moyen global pondr

...
plan i

...
p%

rduction des couleurs et calcul histogrammes

...
hist. moyens

poids de chaque plan

Figure 3.3  Le calcul de l'histogramme global pondr.

La mthode est illustre par la gure 3.3 dont voici le dtail des tapes :

38

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

 le dcoupage en plans : dans un premier temps la squence est segmente en plans vido par la dtection des transitions vido du type : cuts, fades, dissolves et les changements brefs de couleurs SCC qui sont des eets de couleurs particuliers, spciques aux lms d'animation (voir gure 2.1.c)). Les plans vido sont dtermins par la dtection des transitions vido obtenues selon la mthode prsente dans [Ionescu et al., 2005a]. Cette tape permet d'enlever les informations peu pertinentes du point de vue de la couleur comme par exemple les images de transition, les images noires, les plans trop courts qui sont peu visibles, etc.  le calcul du rsum : un rsum de la squence est calcul de manire automatique pour rduire la redondance temporelle. Dans ce rsum, chaque plan vido de la squence est reprsent par un pourcentage p% de ses images, centr sur le milieu du plan. En eet, il y a une trs forte probabilit pour que l'action importante d'un plan se droule en son milieu. Le meilleur compromis entre le temps de calcul et la qualit de la distribution globale des couleurs est obtenu empiriquement en prenant p% [15%, 20%].  la rduction des couleurs : elle est applique sur une image sous-chantillonne compte tenu de la quasi-invariance de l'histogramme couleur d'une image un souschantillonnage spatial, c'est--dire en divisant la taille de l'image par un facteur k donn (k=4). Cette premire tape permet de diminuer la complexit des calculs et donc de diminuer les temps d'excution. De plus, la couleur des images numriques est habituellement reprsente en utilisant 24 bits, soit plus de 16 millions de couleurs possibles. Ce nombre de couleurs (ou bin ou batons de l'histogramme) est bien trop lev et une rduction pralable des couleurs est indispensable pour traiter ecacement les images. La mthode utilise dans [Ionescu, 2007] consiste associer chaque couleur de l'image une couleur de rfrence contenue dans une palette de couleur xe. La palette Webmaster [Visibone, 2009] de 216 couleurs est utilise ici car elle prsente l'avantage de dcrire de manire textuelle chaque couleur, en terme de Teinte, de Clart, etc. L'algorithme d'association des couleurs de l'image celles de la palette est bas sur la diusion d'erreurs et permet de conserver une bonne qualit visuelle de l'image aprs rduction des couleurs [Ionescu et al., 2005b].  les histogrammes moyens : ils sont calculs partir des couleurs de chacune des images composant le rsum. Cet histogramme est une mesure de la distribution globale des couleurs du plan et a pour expression :

i (c) = h

1
i Nimg

i Nimg

j =1

hi,j (c)

(3.1)

i o Nimg est le nombre d'images retenues dans le plan i soit p% de ses images, hi,j (c) est l'histogramme couleur de l'image j du plan i et c est l'indice des couleurs dans la palette Webmaster [Visibone, 2009], c = 1, ..., 216. Les histogrammes hi,j (c) sont calculs pour les images sous chantillonnes spatialement et avec les couleurs rduites. Les valeurs ainsi obtenues pour les histogrammes moyens sont normalises entre 0 et 1 et reprsentent le pourcentage d'apparition des couleurs l'intrieur de chaque plan.

3.1. L'EXISTANT

39

 l'histogramme global pondr de la squence est la somme pondre de tous les histogrammes moyens de chaque plan vido :
Nplans

hseq (c) =
i=1

i (c) i h

(3.2)

i (c) est l'histogramme moyen du plan i avec i = 1, ..., Nplans et Nplans le nombre o h total de plans et o c est l'indice des couleurs dans la palette Webmaster de 216 couleurs. La pondration (i ) de chacun des histogrammes moyens dpend de la longueur du plan vido i et vaut : i =
i Nimg Nf ilm

(3.3)

i o Nimg est le nombre d'images du plan i et Nf ilm est le nombre d'images de la squence entire. Les valeurs de l'histogramme global pondr, hseq (c), correspondent au pourcentage d'apparition de chaque couleur c de la palette utilise dans la squence. Ce sont des valeurs positives qui sont calcules de telle sorte que leur somme soit gale 1.

L'utilisation d'un histogramme couleur global pondr permet de caractriser globalement la distribution des direntes couleurs dans la squence. Cette caractrisation est importante dans les lms d'animation et est motive par le fait que les lms d'animation utilisent gnralement une palette de couleurs rduite propre chaque lm, sorte de signature couleur. De plus, une analyse de cet histogramme permet d'obtenir des caractristiques d'un plus haut niveau smantique. Ces caractristiques sont calcules partir de l'histogramme couleur global pondr dont voici quelques exemples : Le coecient de couleurs claires, Pclaires , est la proportion des couleurs claires prsentes dans la squence. Il est facile de retrouver ces couleurs dans la palette Webmaster en utilisant la description textuelle associe. Ici il sut que le nom de ces couleurs contienne des mots comme light ou pale . Ainsi Pclaires est dni par :
216

Pclaires =
c=1

hseq (c)|{M otclaire N om(c)}


(3.4)

M otclaire {light, pale, white}

o c est l'indice d'une couleur et N om(c) est l'oprateur qui retourne le nom associ la couleur d'indice c. Le coecient de couleurs fonces, Pf once es , reprsente le rapport des couleurs sombres prsentes dans la squence. Une couleur est considre comme tant fonce si son nom contient l'un des mots suivants : dark, obscure, ou black.

40

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

En raison du ct artistique des lms d'animation et de l'utilisation rchie des couleurs par l'auteur, un certain nombre de rgles issues du domaine de la peinture peuvent tre utilises pour caractriser des motions ou sensations transmises par son uvre [Itten, 1974]. Il est bien connu que certaines couleurs sont considres comme dgageant une certaine chaleur, ou au contraire une sensation de froid. Sur ce principe et en correspondance avec la roue des couleurs de Itten, des descripteurs sont dnis et permettent de quantier ces sensations. Le coecient de couleurs chaudes, Pchaudes , est la proportion de couleurs chaudes prsentes dans la squence. Les couleurs considres comme tant chaudes sont les couleurs appartenant l'ensemble chaud = {Yellow, Orange, Red, Yellow Orange, Red Orange, Red Violet, Magenta, Pink and Spring } (voir gure 3.4). Une couleur de la squence est considre comme chaude si son nom contient l'un des mots de l'ensemble chaud .

Figure 3.4  Les couleurs chaudes et froides sur la route de Itten

D'autres descripteurs sont calculs partir de la roue de Itten, comme la prsence de couleurs adjacentes ou la prsence de couleurs complmentaires. Pour voir les mthodes de calcul de ces descripteurs voir le chapitre 7 dans [Ionescu, 2007]. Toutefois, ces descriptions sont purement numriques et il est dicile d'apprcier cette valeur quantitative. Par exemple, lorsque l'on n'est pas spcialiste du domaine de l'animation, une valeur numrique de descripteur ne permet pas d'exprimer une sensation perue. Une proportion de couleurs chaudes gale 0.33 ne permet pas de se faire une ide qualitative de cette proportion. Est-ce que cette proportion est importante ou pas pour de tels lms ? Pour rpondre cette question, l'approche envisage dans [Ionescu, 2007] est de transformer cette valeur numrique en une valeur symbolique par l'utilisation d'ensembles ous. En eet, la formalisation oue permet la conversion entre les mesures numriques et les expressions linguistiques proches de notre mode de perception. Ainsi le concept de proportion de couleurs chaudes est dcrit en utilisant trois variables linguistiques illustres par les symboles suivants : prsence Faible de couleurs chaudes , prsence Moyenne de couleurs chaudes et prsence Haute de couleurs chaudes . La signication oue de chaque symbole est traduite par sa fonction d'appartenance : F aible , M oyenne et Haute et est illustre par la gure E.6. Le principe est le mme pour le calcul des valeurs symboliques des autres descripteurs.

3.1. L'EXISTANT

41

De plus, le formalisme ou permet la combinaison de ces descripteurs par l'utilisation de rgles de combinaison et permet de construire de nouvelles expressions linguistiques (infrences oues) comme par exemple le concept de froideur. L'approche oue et ses concepts seront prsents dans le chapitre 5 consacr la fusion d'information. Finalement, ces descripteurs couleurs seront utiliss dans le chapitre 5 consacr la fusion d'information pour caractriser les lms partir de la modalit image.

3.1.2.2 Les descripteurs bass sur l'analyse des plans vido


De faon similaire ce qui a t fait pour la caractrisation des couleurs dans les squences d'animation, les travaux dans [Ionescu, 2007] fournissent des descripteurs obtenus partir de la distribution des plans vido. Pour caractriser la distribution des plans vido, un indicateur nomm T (i) est calcul partir de la dtection des transitions et reprsente le nombre de changements de plan survenus dans une plage de dure T partir de l'image l'instant i. Cet indicateur est li la structure temporelle de la squence et permet de calculer deux descripteurs : le rythme de la squence et la mesure de l'action.

Le rythme de la squence (v T ) reprsente le nombre moyen de changements de plan dans une fentre de temps T (valeur xe empiriquement T = 5s). Le paramtre v T est li au droulement temporel de la squence. Plus il y a de l'activit, c'est--dire de changements de plan par unit de temps T plus v T est lev. Cela traduit donc un rythme de la squence d'animation qui peut tre dcrit par trois valeurs linguistiques : rythme lent , rythme moyen et rythme rapide . La signication oue de chaque symbole est illustre par sa fonction d'appartenance oue. La partition oue de l'univers de discours, v T =5s , est dtermine par l'ensemble des fonctions d'appartenance aux trois symboles : lent , moyen et rapide (voir la gure 3.5).
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30 35 40 45
_

lent

moyen

rapide

10 v

50

d'appartenance oues : lent (bleu), moyen (rouge) et rapide (vert) (l'axe des ordonnes correspond au degr d'appartenance).

Figure 3.5  La partition oue de l'univers de discours v T dtermine par les fonctions

L'action moyenne de la squence (Raction ) reprsente la proportion de passages o l'activit est signicative par rapport au reste de la squence. L'hypothse faite dans

42

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

[Ionescu, 2007] est que les passages du lm o il y a beaucoup de changements de plan sont des passages o l'action est signicative. Cette hypothse est justie par le fait que la relation entre la frquence des changements de plan et l'action est trs souvent utilise dans les techniques de gnration automatique de rsums de squences, comme les bande-annonces. A partir de cette hypothse, B.Ionescu construit un signal binaire fonction du temps, dni par : 1 si T (i) > v T faction (i) = (3.5) 0 sinon qui reprsente les passages o l'action est signicative par rapport l'ensemble de la squence. C'est--dire que l'action est considre comme signicative si le nombre de changements de plan par unit de temps T est suprieur la moyenne v T de T (i) calcule sur l'ensemble de la squence. Enn, quelques post-traitements sont appliqus sur la fonction faction (i) pour liminer les segments trop courts et pour fusionner les segments trs proches, obtenant ainsi la fonction binaire action Faction (i). Une description globale de l'action est ensuite calcule partir de la fonction action Faction (i). Le paramtre Raction reprsente le pourcentage de segments d'action par rapport la squence entire : Taction (3.6) Raction = Tf ilm o Taction est la dure totale des segments d'action et Tf ilm est la dure totale du lm. Comme pour les autres descripteurs, le concept d'action est dcrit par trois valeurs linguistiques, action faible , action moyenne et action leve est calcul partir de cette mesure.

3.1.2.3 Limites de ces descripteurs


Nous venons de voir partir des travaux de thse de Bogdan Ionescu qu'un certain nombre de descripteurs bas niveau sont extraits des squences d'images. Ces descripteurs sont de natures bien direntes et correspondent d'une part une description globale des couleurs et de leurs rapports artistiques dans les images et d'autre part une description de l'activit et du rythme dans la squence vido. Ces descripteurs sont calculs partir de l'analyse des plans vido qui correspond au premier niveau d'analyse de la pyramide des niveaux smantiques des documents vido (voir gure 1.2). Cette analyse va donc bien dans le sens propos par [Davenport et al., 1991] et donne de bons rsultats sur les lms construits sur ce modle. Cependant, il apparat trois problmes majeurs dans l'obtention de ces descripteurs lorsque l'on veut traiter l'ensemble de la base d'animation de CITIA :  L'hypothse de construction du document vido partir de plans vido est habituellement vrie lorsque l'on traite des lms naturels, longs mtrages (au moins 90 minutes) ou courts mtrages (moins de 45 minutes). Mais cette hypothse est inapproprie sur de nombreux lms d'animation dont nous disposons. En eet, 44% des lms de la base sont considrs comme de trs courts mtrages (moins de 5 minutes, voir gure B.2). Ainsi, la construction du lm d'animation est vite limite quelques plans vido comme c'est gnralement le cas dans les lms en pte modeler o les personnages et les objets apparaissent et disparaissent de la scne continuellement. Les caractristiques de couleurs extraites ne sont plus du tout pertinentes si il y a peu de plans vido (on

3.2. PROPOSITIONS

43

rappelle en eet que les descripteurs couleurs reposent sur la construction d'un rsum statique obtenu partir des plans voir la gure 3.3).  L'activit dans la squence d'animation est mesure partir de la distribution des transitions. Or la sensation de rythme dans une squence ne se traduit pas seulement par l'utilisation de plans dirents mais passe aussi par la sensation de l'activit l'intrieur de ces plans. Par consquent cette manire de procder ne prend pas en compte l'activit intra-plan qui est lie aux changements entre les images d'un mme plan. Il semble alors plus judicieux de mesurer cette activit directement partir des changements de contenu des images composant le lm d'animation.  Enn, une troisime limite concerne la mesure de l'action globale. En eet, le paramtre Raction reprsente le pourcentage de segments d'action par rapport la squence entire. Or les segments d'action sont dnis comme les passages o le nombre de changements de plan par unit de temps T est suprieur la moyenne v T de T (i) calcule sur l'ensemble de la squence. Par consquent Raction est une mesure relative au lm et ne permet pas une comparaison absolue des lms entre eux. Finalement, pour s'aranchir de ces dfauts, nous proposons un nouvelle mthodologie pour le calcul des descripteurs de couleur et de rythme. Cette approche base sur la mesure des changements de contenu s'oprant dans les images vite la dtection des transitions et propose des mesures d'activit absolue.

3.2 Propositions
Nous avons vu que l'approche par dtection de plans a ses limites sur certains lms d'animation et nous souhaitons nous aranchir de cette segmentation en plans.

3.2.1 Les objectifs


L'objectif principal est de conserver les descripteurs issus des travaux de la thse de Bogdan Ionescu, tout en rendant les mthodes de calcul gnralisables l'ensemble des lms de la base de CITIA (en particulier dans le cas des lms monoplan). Nous proposons deux amliorations :  Rduire la squence vido un ensemble d'images reprsentatives du lm, dans lequel la redondance de contenu est fortement rduite. Ce condensat d'images servira de rsum statique, point de dpart pour le calcul des histogrammes couleurs (voir la gure 3.3).  Mesurer l'activit et le rythme dans la squence vido partir des changements de contenu s'oprant l'intrieur des images. En eet, nous partons de l'hypothse que l'activit dans les lms d'animation est lie la frquence du changement de contenu.

44

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

3.2.2 Notre approche


Les deux objectifs prsents ci dessus ont en commun d'tre bass sur une analyse du contenu des images. Cette analyse consiste retrouver parmi toutes les images de la squence vido, les images dont le contenu est susamment dirent du reste de la squence. Cela impose de mesurer une dissimilarit entre les images. En eet, nous ne cherchons pas savoir o se trouve les dirences de contenu, ni savoir quelle est la nature de ce contenu. Nous voulons retrouver les images qui d'un point de vue global (celui du spectateur) ont une dirence signicative entre elles. De plus, il semble assez vident qu'il y a beaucoup plus d'images direntes (c'est--dire dont le contenu est dirent) dans les passages du lm o l'action est leve que dans les passages o il y a peu d'action. Par consquent, la densit d'images direntes servira mesurer l'activit inter et intra-plans de la squence. Enn, l'approche que nous proposons permet de s'aranchir de l'tape de dtection des transitions, ce qui lui confre une plus grande gnralit.

Figure 3.6  Vision globale du systme

L'organisation gnrale de notre approche est prsente sur la gure 3.6. La premire tape nomme Rducteur permet de rduire le nombre d'images de la squence vido en supprimant la redondance entre les images successives, tout en gardant l'essentiel de l'information contenue dans le lm. Son rle est double. D'une part elle permet d'extraire dans le temps, un ensemble d'images clefs dont le contenu est globalement dirent d'une image l'autre. L'analyse de la distribution temporelle de ces images clefs permettra de mesurer l'activit dans la squence vido (tape d'analyse de l'activit). D'autre part, c'est un pr-traitement pour l'tape du condenseur qui permet la cration du condensat (sorte de rsum global sans aucune smantique) en ne slectionnant qu'un nombre limit d'images pour le calcul et l'analyse des caractristiques couleur. Dans les sections suivantes, nous dtaillerons les direntes tapes prsentes ci-dessus. Nous commencerons par dtailler l'tage du rducteur puis nous verrons comment caractriser l'activit et le rythme dans les lms d'animation pour nir par la mthode permettant de

3.2. PROPOSITIONS gnrer le condensat pralable l'extraction des caractristiques couleur.

45

3.2.3 La dtection du changement de contenu


Pour la dtection des plans, deux images conscutives sont gnralement compares entre elles via une mtrique qui traduit la ressemblance ou dissemblance de contenu entre ces images. Calcule entre 2 images successives, cette dirence reste gnralement faible, mme en prsence d'un mouvement de camra d'amplitude moyenne, du dplacement des lments de la scne ou d'un changement dans le fond de l'image. Une valeur importante de cette mesure correspond la plupart du temps un changement de plan, ou un eet spcial. Ainsi si cette comparaison dpasse un seuil alors un changement de plan shot break est dclar. Replac dans le contexte des lms d'animation et la lumire de ce qui a t prcis plus tt, nous pouvons avec ce principe dtecter :  Un changement de plan.  Une dirence nette entre les deux images compares qui peut tre lie un eet particulier. Par exemple un changement bref de couleur (SCC) (voir gure 2.1). Or une squence vido contient beaucoup d'images similaires conscutives. Une seconde de lm est quivalente 25 images et dans une scne continue o l'activit n'est pas trs leve il n'y a pas de gros changements durant cette seconde. Il y a donc au moins 25 images qui sont quasi semblables, d'o une forte redondance dans le contenu. Ainsi l'ide de comparer les images une une conscutivement ne permet pas de faire apparatre des dirences de contenu mais seulement des discontinuits nettes. Nous avons donc mis en place un algorithme capable de dtecter les changements de contenu dans la vido en nous inspirant des travaux de Tong [Lu et Suganthan, 2004].

3.2.3.1 L'algorithme accumulation de dirences


Dans l'objectif de dtecter des transitions graduelles comme les fondus enchans fade et dissolve, qui sont deux types de transition qui ne se traduisent pas par un changement brutal du contenu entre images successives (voir gure 1.3), Tong a introduit un algorithme accumulation de dirences dont la particularit est sa capacit mmoriser les changements entre images conscutives. Nous avons donc adapt cet algorithme notre problme et aux lms d'animation.

3.2.3.1.1 Principe On suppose disposer d'une mesure de dirence entre images tra-

duisant la dissemblance de contenu entre ces images. Pour arriver extraire d'une squence vido un ensemble d'images signicativement distinctes, une solution consiste accumuler progressivement les dirences entre images successives. Lorsque l'accumulation de ces diffrences dpasse un seuil, cela signie que les images correspondant au dbut et la n de l'accumulation peuvent tre considres comme distinctes. La remise zro du systme ainsi que l'itration de ce mcanisme permet d'extraire un ensemble d'images clefs. La gure 3.7 illustre ce principe. La premire image de la squence est utilise comme image de rfrence. Ensuite les images successives (en abscisse) sont compares cette image

46

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

de rfrence, les dirences sont accumules jusqu' ce que leur nombre (en ordonne) dpasse le seuil (en vert) x empiriquement. L'image pour laquelle la valeur des dirences accumules dpasse le seuil est marque comme signicativement dirente de l'image prise comme rfrence (on parle aussi d'image clef). Elle devient son tour l'image de rfrence pour la suite du traitement. Le processus s'arrte lorsque la dernire image de la squence est analyse. Il faut noter que ce mcanisme permet la fois de dtecter les changements de plan et les volutions progressives du contenu des images.

Figure 3.7  Graphique illustrant le principe de l'accumulation de dirences (Le pourcentage de dirences est en ordonne et le numro de l'image en abscisse. Le seuil est reprsent en vert)

3.2.3.1.2 Fonctionnement On l'a vu prcdemment l'algorithme de Tong est bas sur une mesure de similarit entre images. Pour mettre en forme et comparer les images entre elles plus rapidement, l'auteur utilise une mthode de dcoupage en blocs. Chaque image est dcoupe en un ensemble de N*N blocs de pixels de tailles gales dont les valeurs moyennes (couleur des pixels composant le bloc) permettent de crer une matrice rduite (de N*N lments) de l'image. La comparaison de deux images se fait donc en comparant les matrices rduites des images (lment lment) en utilisant un seuil Tb x par l'utilisateur et une distance dans l'espace RGB. Ce seuil xe la valeur de la distance entre deux lments au del de laquelle ces deux lments sont considrs comme dirents.
L'algorithme 1 prsente le fonctionnement du systme. La premire image du lm Im (d'index i = 1) est extraite de la vido en utilisant la fonction Film.getImageAt() puis

3.2. PROPOSITIONS

47

Algorithme 1: Accumulation de dirences input : Un lm (F ilm) output : La liste des images clefs (ListN umKeyF rame) 1 begin
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

ListN umKeyF rame 0; M atstate 0; Im Film.getImageAt(1 ); Iref ReductInBlocs(Im);

for i 2 to Film.nbImage() do
Im Film.getImageAt(i ); Icur ReductInBlocs(Im);

//compare Iref et Icur puis marque les dirences dans M atstate foreach element(m, n) in matrix M atstate (m, n) do //si pas dj marqu dirent if M atstate (m, n) = Statedif f erent then M atstate (m, n) CompareAndGetState(m,n,M atstate ,Iref ,Icur );

end end

//si le nombre de dirences excde le seuil Td if T d NumberOfDifferentBloc(M atstate ) then //ajout d'une image clef ListNumKeyFrame.add(i ); M atstate 0;

end end end

Iref Icur ;

elle est rduite en blocs, comme expliqu ci-dessus, via la fonction ReductInBlocs(). Cette image rduite est ensuite copie dans la matrice de rfrence Iref et devient l'image de rfrence (ligne 5). L'image suivante d'indice i est son tour rduite puis stocke dans la matrice courante Icur (ligne 8). Les deux matrices prcdentes Icur et Iref sont compares (lignes 10 15) via la fonction CompareAndGetState() en comparant leurs lments deux deux. Le rsultat de ces N*N comparaisons est retranscrit dans la matrice d'tat M atstate (m, n) aussi appele accumulateur. Chaque lment de cette matrice correspond l'tat de la comparaison entre Icur (m, n) et Iref (m, n) (ligne 13). De plus, les lments d'indice (m, n) de la matrice M atstate sont mis jour seulement lorsque l'tat de la comparaison prcdente (entre l'image de rfrence et l'image d'indice i 1) n'est pas l'tat Statedif f erent (ligne 12). Ainsi, un lment de la matrice d'tat marqu comme dirent le restera jusqu' la remise zro de l'accumulateur (M atstate 0 ligne 19). Finalement cette remise zro est excute lorsque l'accumulation c'est--dire lorsque le nombre d'lments marqus comme dirents dans l'accumulateur (Statedif f erent ) dpasse un seuil T d (ligne 17). Le nombre d'lments marqus comme diffrents (M atstate (m, n) == Statedif f erent ) est obtenu grce la fonction NumberOfDif-

48

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

ferentBloc() (ligne 17). Le seuil T d reprsente le pourcentage d'lments marqus comme dirents dans M atstate et il est x empiriquement 20%. Ainsi, lorsque le nombre de diffrences dpasse ce seuil, alors l'indice de l'image courante i est enregistr dans la liste des images clefs ListNumKeyFrame.add(i) (ligne 18), la matrice d'tat est remise zro (ligne 19) et l'image courante est prise comme nouvelle rfrence (Iref Icur ligne 20). L'itration de ce processus s'arrte lorsque la dernire image de la squence est analyse (F ilm.nbImage ligne 6). Le principe de l'accumulation rside dans le fait que les lments de la matrice d'tat marqus comme dirents le restent jusqu' ce qu'une nouvelle image soit prise comme rfrence.

Figure 3.8  Compensation du mouvement (recherche des blocs se dplaant), (a) accumu-

lateur, (b) image analyser, (d) matrice d'tat

Comme le mouvement des objets et de la camra est important dans les lms d'animation et spcialement dans les lms monoplan, la compensation du mouvement utilise par Tong est conserve dans l'algorithme. Imaginons que d'une image l'autre un bloc de pixels se dplace d'une position (par exemple le bloc gris de l'image a. l'image b. sur la gure 3.8). La comparaison entre les matrices Iref et Icur conduira considrer les deux blocs (entours de rouge en a. et b.) Iref (m, n) et Icur (m, n) comme dirents alors qu'en ralit le contenu des images reste globalement le mme, il s'est juste dplac. An de palier ce problme l'algorithme va vrier si l'lment Icur (m, n) ne s'est pas dplac. Si le bloc analys (Icur (m, n)) se retrouve dans l'un de ses 8 plus proches voisins dans la matrice de rfrence Iref (m, n) (c'est le cas sur l'exemple c. de la gure 3.8 le bloc Icur (m, n) est retrouv en Iref (i, j )) alors les lments en question ne seront pas marqus comme dirents mais marqus comme dplacs dans la matrice d'tat M atstate (bloc bleu sur la gure 3.8 d. et lignes 6 et 7 de l'algorithme 2). La matrice de rfrence Iref est mise jour en recopiant de l'image courante Icur les deux lments de dpart et d'arrive (sur la gure 3.8 e. Iref (m, n) Icur (m, n) et Iref (i, j ) Icur (i, j ) lignes 9 et 10 de l'algorithme 2). Finalement la mise jour de l'accumulateur permet de suivre et de compenser ce dplacement. Cependant il apparat un deuxime problme avec cette solution. Imaginons que d'une image l'autre l'objet n'a pas le temps de se dplacer d'un bloc un autre mais qu'il ne s'est dplac que d'une partie de bloc (voir gure 3.9). Ce mouvement partiel ne sera pas dtect par la compensation de mouvement et conduira considrer l'lment comme dirent. Pour remdier ce problme la solution consiste ne pas statuer immdiatement sur l'tat du bloc mais attendre pour vrier si il y a un dplacement sur les images suivantes (sur les images i + 1, i + 2, . . .). Ainsi durant cette priode transitoire les blocs sont marqus

3.2. PROPOSITIONS

49

Figure 3.9  Mouvement partiel d'un bloc au court du temps

dans l'accumulateur (M atstate ) comme temporairement dirents. On considre qu'au bout de 4 images conscutives (i + 4) le bloc doit avoir ni son mouvement partiel et donc tre retrouv parmi ses voisins. Sinon, il passe d'un tat temporairement dirent un tat dirent. Ce mcanisme d'attente se retrouve dans l'implmentation de la fonction CompareAndGetState() entre les lignes 20 et 26 de l'algorithme 2. Lorsque les lments Icur (m, n) et Iref (m, n) sont dirents (ligne 2) et que l'lment Icur (m, n) n'a pas t retrouv dans le voisinage de Iref (m, n) (ligne 13) alors l'algorithme dcrmente l'lment M atstate (m, n) de la matrice d'tat (ligne 22). Chaque tat de la matrice M atstate est en ralit un chire dont la signication est la suivante : tat Numro

Statedif f erent -4

temp3 -3

temp2 -2

temp1 -1

Statesame 0

Statemove 1

On peut noter que la dirence d'index minimum sparant deux images clefs conscutive vaut 4. En eet, si l'image de rfrence a l'index i et si les images courantes i + 1, i + 2, i + 3, i + 4 sont toutes direntes alors tous les blocs de la matrice d'tat passeront par les tats temp1, puis temp2, puis temp3 et enn Statedif f erent . Finalement la premire image clef aura l'index i et la deuxime image clef aura l'index i + 4. Notons galement que ce mcanisme permet d'liminer le bruit ou des eets spciaux de courte dure comme les changements brefs de couleur.

3.2.3.2 Amliorations et nouveauts


On l'a vu prcdemment l'algorithme de Tong est bas sur une mesure de similarit entre images. Cette similarit est value en comparant les matrices rduites des images (lment lment) en utilisant un seuil et une distance dans l'espace RGB. Nous avons modi cette tape car ses performances taient trs dpendantes du choix du seuil. En eet, il est dicile d'envisager un seuil xe pour l'ensemble des lms d'animation. De plus pour un mme lm, ce seuil est dicilement apprciable. Aussi, le principe de dcoupage en blocs a t conserv mais on extrait pour chaque cellule la valeur mdiane vectorielle des pixels composant le bloc (voir gure 3.10.c), ceci an de ne pas faire apparatre des fausses couleurs (voir gure 3.10.b) tout en attnuant le bruit dans l'image. En eet, certaines vidos sont issues d'une numrisation de support comme les VHS et comportent beaucoup de bruit.

La comparaison des blocs a galement t repense. En eet, dans les travaux de Tong

50

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

Algorithme 2: CompareAndGetState(m,n,M atstate ,&Iref ,Icur ) begin if Iref (m, n) = Icur (m, n) then

//Chercher parmi les 8 voisins de Iref (m, n) d'indices i,j l'lment Icur (m, n) foreach i [1; 0; 1] and j [1; 0; 1] do if i = 0 and j = 0 then if Iref (m + i, n + j ) = Icur (m, n) then i m + i; j n + j; break;

end end end if Icur (m, n) a migr de la position (i, j ) dans Iref then
//Marquer comme dplac M atstate (m, n) Statemove ; M atstate (i, j ) Statemove ; //Met jour la matrice de rfrence Iref (m, n) Icur (m, n) ; Iref (i, j ) Icur (i, j ) ; //temporairement dirent M atstate (m, n) M atstate (m, n)-1; -4 then M atstate (m, n) Statedif f erent ;

else

if M atstate (m, n) end end else

end return M atstate (m, n) end

M atstate (m, n) Statesame ;

cette comparaison est eectue l'aide de la distance Euclidienne dans l'espace RGB. Or, les distances calcules dans cet espace ne retent pas la perception de proximit colorimtrique de l'homme. De plus, il est dicile dans cet espace de choisir un seuil xe permettant de dterminer si deux blocs sont similaires ou non. An de supprimer cette contrainte du seuil et en raison des caractristiques couleurs des lms que nous traitons, nous prfrons baser cette tape sur la comparaison des noms de couleur issus de la technique de color naming . Cette technique consiste nommer les couleurs, c'est--dire que la couleur d'un bloc n'est plus reprsente par un triplet de valeurs numriques reprsentant la couleur mdiane mais par le nom de cette couleur mdiane. Ainsi chaque image est reprsente par une matrice de taille N*N dont chaque lment est un nom de couleur associ la valeur colorimtrique mdiane des pixels composant le bloc quivalent. La comparaison de deux images passe par la

3.2. PROPOSITIONS

51

(a)

(b)

(c)

Figure 3.10  Illustration de la rduction d'un bloc de pixel en une valeur RGB. (a)

: Bloc de pixels rduire, (b) : Rduction avec la moyenne fait apparatre une nouvelle couleur marron, (c) rduction avec la mdiane vectorielle fait apparatre la couleur relle majoritaire
comparaison des noms de couleur des lments (de mme indice) de leurs matrices rduites. Le mcanisme d'association d'un nom une couleur color naming est dtaill ci-dessous.

3.2.3.3 La comparaison par color naming


On l'a vu prcdemment chaque image est rduite (dans une matrice N*N) an de simplier les comparaisons. Mais la principale dicult est d'tablir la similarit ou la dirence entre deux blocs. Une mthode gnralement utilise est de prendre une mtrique dans un espace colorimtrique adquate (La*b* par exemple). Le problme avec cette solution est qu'il faut choisir l'espace colorimtrique mais surtout qu'il faut introduire un seuil permettant de dire pour une distance calcule si les blocs sont similaires ou non. An de simplier la tche de comparaison et de supprimer ce seuil, l'ide propose est de comparer les blocs comme le fait un tre humain. C'est--dire en utilisant un ensemble de symboles de rfrence (en l'occurrence le nom des couleurs) qui permettent de pouvoir comparer plus facilement 2 couleurs entre elles. Avec cette mthode la comparaison entre 2 blocs devient trs simple puisqu'elle est binaire (mme nom de couleur ou noms dirents). An d'exploiter cette proprit nous avons besoin d'un systme capable pour une couleur donne, de fournir son nom. Il existe plusieurs dictionnaires de noms de couleur. Celui que nous avons retenu est le dictionnaire ISCC-NBS [Kelly et Judd, 1955] commandite par le Inter-Society Color Cuncil (ISCC) l'intention du National Bureau of Standards (NBS). Pour simplier la description d'une couleur, l'ISCC-NBS a standardis le nom de 267 couleurs du nuancier de Munsell. Chaque nom a donc une correspondance exacte avec une couleur bien dtermine dans ce systme. Pour ce faire, les 10 termes de base suivants ont t retenus : pink, red, orange, brown, yellow, olive, green, blue, violet, purple. Puis 28 noms ont t crs partir de ces termes, par combinaison en paire : reddish orange (orange tirant sur le rouge), bluish green (vert tirant sur le bleu), etc..., auxquels il faut ajouter les 3 noms white, gray et black (respectivement blanc, gris et noir). Enn des adjectifs (very, strong, vivid,. . . ) sont choisis pour traduire les nuances d'une teinte donne (voir gure 3.11). Des travaux comme ceux de Menegaz [Menegaz et al., 2007] utilisent d'autres dictionnaires comme par exemple celui propos par Berlin et Kay [Berlin et Kay, 1969] qui se limite 11 couleurs de base. Bien qu'un lm d'animation utilise un jeu de couleurs (palette) rduit par rapport la diversit des couleurs que l'on trouve dans les squences naturelles, se limiter 11 couleurs est beaucoup trop restrictif pour permettre une comparaison acceptable entre les images.

52

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

Figure 3.11  Extraction de la table des couleurs ISCC-NBS de Pink et Red

Finalement utiliser une rduction 267 termes est un bon compromis [Ionescu et al., 2005b] car cela permet de rester dle aux couleurs d'origine de l'image tout en rduisant le nombre de comparaisons possibles. De plus, la notation ISCC-NBS tient n'utiliser qu'un nombre restreint de termes directement explicites et les combiner entre eux ce qui peut tre utile pour une comparaison plus  intelligente  des couleurs. Notons galement que la classication faite par l'ISCC-NBS fait que deux couleurs avec deux noms dirents sont visuellement bien direntes. Finalement cette comparaison des couleurs est plus volue qu'une simple quantication de l'espace couleur car plus proche d'une approche humaine. Le systme de color naming utilis est bas sur l'algorithme de [Mojsilovic, 2005] qui pour une couleur donne recherche la couleur du dictionnaire qui visuellement semble la plus proche dans l'espace La*b*. Pour illustrer ce principe la couleur dont on cherche le nom (reprsente par une toile dans l'espace 3D CIELAB sur la gure 3.12) est compare aux couleurs de rfrence du dictionnaire couleur en utilisant une distance base sur la distance DeltaE76 (voir equation 3.14). Ainsi, l'algorithme calcule les distances (reprsentes par des ches noires sur la gure 3.13) entre la couleur dont on cherche le nom (reprsente par une toile de couleur bleue sur la gure 3.13) et les couleurs de rfrence (reprsentes par des pavs colors). La couleur dont on cherche le nom prend le nom de la couleur de rfrence dont elle est la plus proche c'est--dire dont la distance est la plus faible (dans l'exemple de la gure 3.13 la couleur analyse porte ainsi le nom red blue). Notons que la gure 3.13 n'est qu'une reprsentation 2D par projection le long de l'axe de luminosit (L) de l'espace CIELAB 3D. Les 267 distances sont bien sr calcules dans l'espace CIELAB 3D. La gure 3.13 permet d'illustrer simplement le mcanisme de color naming.

3.2.3.3.1 Comparaison des couleurs base sur leur nom A partir de la table initiale

du ISCC-NBS compose de 267 couleurs et du mcanisme de color naming nous sommes capables de comparer simplement deux couleurs entres elles. Si elles n'ont pas le mme nom alors elles sont considres comme direntes. Cependant, cette faon de procder semble assez brutale. En eet, parmi les couleurs du dictionnaire beaucoup sont des variantes d'une

3.2. PROPOSITIONS

53

Figure 3.13  Projection de l'espace CIELAB

reprsente dans l'espace CIELAB

Figure 3.12  Couleur de nom inconnu

et des couleurs de rfrence du dictionnaire couleur (seules quelques distances sont reprsentes)

mme couleur de base qui utilisent des adjectifs distinctifs comme Ple, Fonc, Clair, etc. Ces couleurs semblent assez proches et dire qu'un strong pink est quasi semblable un vivid pink permet une comparaison plus nuance. Nous avons donc regroup les couleurs selon leur nom de couleur de base. Ainsi en faisant abstraction des adjectifs introduisant les nuances et en regroupant les entres du dictionnaire suivant le nom de la couleur de base on obtient 31 noms de couleurs permettant des comparaisons plus grossires. La gure 3.14 montre par exemple deux regroupements possible partir des couleurs de base Pink et Brown. De cette faon la couleur strong pink n'est pas dirente de la couleur vivid pink car leurs couleurs de base ont le mme nom (voir gure 3.15).

Figure 3.14  Extrait de regroupements des 267 couleurs du ISCC-NBS suivant leur couleur

de base

54

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

Figure 3.15  Comparaison des noms de couleur avec la mthode pleine (267 noms) et la

mthode rduite (31 noms)

Aprs dirents tests raliss sur des lms d'animation (voir annexe C.1) la mthode de comparaison  rduite  aux 31 couleurs de base s'est rvle moins intressante pour notre objectif de synthtiser l'ensemble du lm en minimisant la redondance entre les images. En eet, lorsque l'on compare les images partir des couleurs de base la comparaison devient trop grossire. Ce phnomne est ampli par la rduction en blocs des images traites. Finalement, cette comparaison nit par trop simplier le lm et on perd des passages importants de celuici. La mthode  pleine  qui consiste utiliser le nom complet des couleurs du dictionnaire ISCC-NBS a donc nalement t prfre.

3.2.4 Mesure de l'activit


Nous venons de voir que le rducteur, bas sur l'algorithme accumulation de dirences, permet d'obtenir un ensemble d'images clefs lies au changement de contenu dans les images du lms. Or, comme nous l'avons vu prcdemment, nous partons de l'hypothse que :

les zones o les changements de plan ainsi que les changements de contenu sont frquents correspondent des passages du lm o l'action est leve.

Figure 3.16  Images clefs en sortir du rducteur en fonction de l'activit

L'hypothse ci dessus se traduit en sortie du rducteur par une densit d'images clefs plus importante dans les passages du lm o le contenu volue rapidement au cours du temps et

3.2. PROPOSITIONS

55

o les changements de plan sont frquents. L'exemple de la gure 3.16 illustre ce principe. Ainsi, nous proposons d'valuer l'action de deux manires :  d'abord travers une description globale qui permet de caractriser l'action contenue dans l'ensemble du lm (activit globale).  ensuite, en construisant une mesure locale qui se prsente sous la forme d'une fonction du temps, binaire, indiquant chaque instant, c'est--dire chaque image de la squence, s'il y a ou non une action signicative (activit locale).

3.2.4.1 Mesure de l'activit globale


Nous proposons de mesurer l'activit globale de la squence partir de la distribution des images clefs au cours du temps. Sur la gure 3.16 on voit que plus l'activit est importante, plus la densit d'images clefs est grande et plus le temps sparant ces images clefs est faible. Ainsi, il y a une relation entre l'activit et la frquence d'apparition des images clefs.

3.2.4.1.1 Calcul de l'activit Dans un premier temps nous dnissons l'indicateur T (i) comme la mesure du temps exprime en secondes sparant deux images clefs conscutives i et i + 1 (voir gure 3.17).

Figure 3.17  Calcul du temps moyen entre les images clefs

Nous calculons ensuite le premier paramtre caractristique de la squence qui est l'intervalle de temps moyen sparant deux images clefs successives E (T ).

E (T ) =

1 N 1

N 1

T (i)
i=1

(3.7)

o N est le nombre total d'images clefs extraites de la squence d'animation et E (T ) [4 TR , +]. Du fait du mcanisme de compensation de mouvement partiel, la dirence d'indice minimum sparant deux images clefs conscutive est de 4. Le temps d'chantillonnage des images dans un lm est TR = 1/FR o FR (Frame Rate ) est le nombre d'images par seconde utilises pour construire le lm. Cependant il est plus commode de caractriser l'activit globale de la squence vido par la frquence d'apparition des images clefs dnie par :

Fmoyen =

1 E (T )

(3.8)

avec Fmoyen [0, FR /4] o FR (Frame Rate ) est le nombre d'images par seconde utilises pour construire le lm. En gnral FR vaut 25 images par seconde.

56

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

Or, cette mesure n'est pas normalise entre 0 et 1. Pour obtenir cette normalisation nous utilisons un coecient de normalisation correspondant la valeur maximale possible de Fmoyen :

Activite =

4 Fmoyen FR

(3.9)

Cette caractristique permet une comparaison absolue de l'activit des lms. Intuitivement, un lm dont la frquence moyenne est Fmoyen = 3 images clefs par seconde une activit bien suprieure un lm de frquence moyenne Fmoyen = 0.8 images clefs par seconde. Cette mesure permet donc une comparaison des lms entre eux, ce que le descripteur issu de l'quation 3.6 ne permettait pas. Comme prsent au dbut de ce chapitre, cette valeur numrique est transforme en une valeur symbolique par l'utilisation d'ensembles ous. Le concept linguistique Activit globale de la squence est dcrit par trois valeurs linguistiques : activit faible , activit moyenne et activit haute . La partition oue FActivite de l'univers de discours, RActivite , est dtermine par l'ensemble des fonctions d'appartenance aux trois symboles : F , M et H qui constituent le partitionnement de l'univers de discours RActivite not LActivite (RActivite ), et est illustre par la gure E.8. Ces fonctions d'appartenance sont obtenues par expertise du domaine.

Figure 3.18  La partition oue FActivite de l'univers de discours de la mesure d'activit globale RActivite est dtermine par les fonctions d'appartenance oues : F (RActivite ) = 1, RActivite [0, 6], M (RActivite ) = 1, RActivite [12, 16] et H (RActivite ) = 1, RActivite [28, 100], (l'axe des ordonnes correspond au degr d'appartenance).

L'activit globale permet de caractriser l'activit dans la squence d'animation. Cependant, ce descripteur ne nous renseigne pas sur la distribution de cette activit tout au long de la squence. Ainsi nous allons calculer un second descripteur, le rythme de la squence.

le rythme de la squence. On cherche mesurer par l'intermdiaire du rythme si l'activit est prsente en continu ou entrecoupe de passages plus calmes. Ainsi, le rythme est li l'homognit de la squence vido. Numriquement, nous dnissons le rythme comme l'cart type de l'indicateur T .

3.2.4.1.2 Calcul du rythme Une deuxime caractristique intressante extraire est

3.2. PROPOSITIONS Film


Frank Film

57 URL http://www.dailymotion. com/video/x700s6_ 65% 7% frank-film-frank-mouris-1973_ creation http://www.dailymotion. com/video/x2gtpo_ 29% 12% jan-svankmajer-dimensions-of-dialog_ shortfilms http://www.dailymotion.com/video/ 9% 12% x8dr7p_harvie-krumpet-vostfr_ creation 8% Act Ryt

Mouris, 1973

Dimensions of dialog

Svankmajer, 1983
Harvie Krumpet

Elliot, 2003
La Rvolution des crabes De

Pins, 2004

Au bout du monde Bron-

zit, 1998
internet.

5%

http://www.dailymotion.com/video/ 48% x2k6ll_la-revolution-des-crabes_ creation http://www.dailymotion. com/video/x4v0c4_ 31% konstantin-bronzit-au-bout-du-monde_ shortfilms

Figure 3.19  Valeur de l'activit et du rythme mesure sur quelques lms disponibles via

Rythme = T =

2 E [2 T ] E [T ]

(3.10)

Or, cette dnition du rythme n'est pas normalise entre 0 et 1. Pour obtenir cette normalisation nous utilisons un coecient de normalisation correspondant la valeur maximale possible de T : max(T ) min(T ) max = (3.11) T 2 max majorant Ce coecient T , nous dnissons ainsi la valeur normalise du rythme T Rnorm par : T Rnorm = max (3.12) T Par analogie avec la musique, l'activit que nous avons dnie plus haut correspond au tempo du morceau musicale. C'est la vitesse laquelle est joue la rythmique. Alors que le calcul du rythme dnit ici donne une image des changements rythmiques du lm. Contrairement au descripteur d'activit globale, le descripteur de rythme est moins facile manipuler. En eet, sur la gure 3.19 les lms sont rangs suivant l'activit mesure et lorsque l'on regarde ces lms on  ressent  bien cette hirarchie. Le descripteur d'activit permet eectivement de comparer les lms entre-eux. Cependant comparer les lms sur la base du rythme est beaucoup plus dicile en raison du caractre relatif de cette mesure. Cette comparaison est envisageable pour une mesure d'activit identique. En eet, bien que les lms La Rvolution des crabes et Harvie Krumpet aient la mme mesure d'activit le deuxime lm nous apparat bien plus rythm que le premier comme le laisse apparatre la mesure du rythme. Cette comparaison sur le rythme n'est cependant plus valide lorsque la mesure d'activit est dirente (par exemple entre Dimensions of dialog et Harvie Krumpet voir gure 3.19).

58

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

Rnorm est dtermine par les fonctions d'appartenance oues : Lent (Rnorm ) = 1, Rnorm [0, 16] (bleu), M oyen (Rnorm ) = 1, Rnorm [21, 27] (vert) et Rapide (Rnorm ) = 1, Rnorm [32, 100] (rouge), (l'axe des ordonnes correspond au degr d'appartenance).

Figure 3.20  La partition oue FRythme de l'univers de discours de la mesure du rythme

De plus, comme pour le descripteur d'activit globale, cette valeur numrique est transforme en une valeur symbolique par l'utilisation d'ensembles ous. Le concept linguistique Rythme de la squence est dcrit par trois valeurs linguistiques : rythme lent , rythme moyen et rythme rapide . La signication oue de chaque symbole est illustre par sa fonction d'appartenance oue (voir la gure 3.20). Les partitions oues ont t dtermines par expertise du domaine.

3.2.4.2 Mesure de l'activit locale


Nous cherchons retrouver les passages de la vido o l'activit est signicative par rapport l'ensemble de la squence. Nous adoptons la mme dmarche que dans [Ionescu, 2007].

Figure 3.21  Exemple de la fonction

Action(i) pour le lm Le moine et le poisson

Plus prcisment, la mesure est eectue de la manire suivante :

3.2. PROPOSITIONS

59

 dans un premier temps, nous dnissons un indicateur de base reli la structure temporelle de la squence. Cet indicateur, not T (i), o i dsigne le numro de l'image, reprsente le nombre d'images clefs dans une plage de dure T (typiquement T = 5s).  dans un second temps nous dnissons les segments d'action dnis par seuillage de la fonction T (i).

Action(i) =

1 si T (i) > v T 0 sinon

(3.13)

Ce qui signie que l'action est considre comme signicative si le nombre d'images clefs par dure de temps T (ou densit) est suprieur la moyenne v T de T (i) calcule sur l'ensemble de la squence.  enn, nous procdons quelques post-traitements (ouvertures et fermetures morphologiques) sur la fonction segments d'action (limination des segments trop courts et fusion des segments trs proches) obtenant ainsi la fonction Action(i) . La gure 3.21 donne une illustration de la mesure de l'action locale pour le lm Le moine et le poisson. Notons enn que cette mesure de l'action locale prsente un caractre relatif puisque le seuil de binarisation est dpendant du contenu de chaque lm.

3.2.5 Le condenseur
Comme on l'a vu prcdemment, l'algorithme accumulation est un pr-traitement pour l'tage du condenseur. En eet, cet tage permet la cration d'un condensat (ncessaire au calcul des caractristiques couleurs) en ne slectionnant qu'un nombre limit d'images reprsentatives de la squence entire.

Figure 3.22  Ensemble des images clefs la sortie de l'algorithme accumulation sur un lm d'animation (Borale, (3197 images) )

60

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

En moyenne l'algorithme accumulation rduit la longueur du lm 4.2% 1 de sa longueur originale. Bien que cette tape rduise considrablement la redondance de l'information il reste encore beaucoup trop d'images et l'information restante n'est pas vraiment synthtise (voir gure 3.22). De plus, on retrouve encore beaucoup de redondance si le lm analys est construit avec un plan qui revient plusieurs fois dans le temps.

Figure 3.23  Chaine de traitements du condenseur

Nous devons slectionner un certain nombre d'images dans l'ensemble des images issues du rducteur. Ces images doivent donc tre direntes entre elles an d'obtenir une rduction du nombre d'images composant le condensat la plus ecace possible. Pour raliser cette tape nous devons regrouper les images par similarit visuelle. C'est l'tape de classication (voir gure 3.23). Enn, l'tape de slection (voir gure 3.23) permet de slectionner une image reprsentative de chacun des regroupements (clusters) pour constituer le condensat.

3.2.5.1 La Classication Ascendante Hirarchique


Classier, c'est regrouper entre eux des objets similaires selon un critre prdni. Les techniques de classication visent rpartir n individus, caractriss par un ensemble de variables X1 , X2 , . . . , Xp en m sous-groupes les plus homognes possibles. On distingue deux grandes familles de techniques de classication :  La classication non hirarchique ou partitionnement, aboutissant la dissociation de tous les individus en m classes d'quivalence o le nombre m de classes est x a priori.  La classication hirarchique : un niveau l donn, deux individus peuvent tre regroups dans un mme groupe, alors qu' un niveau l + 1, ils seront dissocis et appartiendront deux sous-groupes dirents. La distinction entre ces deux familles vient du choix du nombre de classes. Dans notre cas ce nombre de classes n'est pas connu a priori c'est pourquoi on prfrera une Classication Ascendante Hirarchique (CAH). De plus, ce qui nous intresse ce n'est pas la hirarchie, mais une typologie, c'est--dire une partition de l'ensemble des donnes en clusters. Pour obtenir l'ensemble des clusters naux il est ncessaire de dnir et de passer par les tapes suivantes :
1. tests raliss sur une base trs diversie de 107 lms d'animation.

3.2. PROPOSITIONS

61

1. Construire la hirarchie tant donn un cluster, quelle est la meilleure manire de le scinder en deux "enfants" ? Ou bien, l'inverse, comment choisir deux clusters dans le but de les fusionner en un unique cluster parent ? Ces deux questions donnent naissance, respectivement, aux Hirarchies Descendantes et Ascendantes. 2. Choisir une typologie dans la hirarchie tant donne une hirarchie, quelle section de l'arbre doit tre retenue comme typologie nale ? La CAH procde par fusions successives de clusters dj existants. A chaque tape, les deux clusters qui vont tre fusionns sont ceux dont la distance est la plus faible. Il faut donc dnir la distance entre deux individus puis la distance entre deux groupes d'individus. Initialement la CAH considre toutes les observations comme tant des clusters ne contenant qu'une seule observation (singleton). La premire tape consiste fusionner dans un cluster les deux observations les plus proches (au sens de la distance entre individus choisie), puis de continuer, en fusionnant chaque tape les deux clusters les plus proches. Le processus s'arrte quand les deux clusters restant fusionnent dans l'unique cluster contenant toutes les observations.

Figure 3.24  Dendogramme et les images correspondantes

ordonne et index de l'image dans la vido en abscisse).

(mesure de la dirence en

La reprsentation la plus communment utilise pour tracer l'arbre de la hirarchie ainsi obtenu est le dendogramme (voir gure 3.24). Une rgle gnralement utilise pour obtenir les typologies qui ont le plus de chance d'tre signicatives est de tracer une ligne horizontale

62

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

en travers du dendogramme, et de ne retenir dans la typologie que les clusters terminaux qui sont juste au-dessus de cette ligne [Ennaji et al., 2003]. En changeant la hauteur de la ligne, on change le nombre de clusters retenus, et on dispose ainsi d'un moyen simple pour faire varier la granularit de la typologie nale. Ainsi, si l'on connait le nombre de clusters ou plus particulirement le nombre d'images composant le condensat (en considrant que l'on extrait une image par cluster), on peut construire facilement un ensemble d'images statiques fortement reprsentatives de la squence. Mais cette connaissance, a priori du nombre de clusters est rarement la disposition de l'utilisateur. Plusieurs mthodes ont t proposes pour dterminer le point de coupure et ainsi trouver automatiquement le nombre de clusters [Calinski et Harabasz, 1974, Milligan et Cooper, 1985, Krzanowski et Lai, 1985, Ennaji et al., 2003]. La dnition d'une distance entre clusters demande la dnition pralable d'une distance entre les individus classier (dans notre cas les individus sont des images). De nombreuses distances ont t utilises an de juger de la similarit entre les images (voir annexe C.2). Finalement la mthode par dcomposition en bloc est un bon compromis entre vitesse et performance et est dnie comme suit :

d(fi , fj ) = DeltaE 76(Px (L, a, b), Py (L, a, b)) =

1 N2

N2

(DeltaE 76(Fi (k ), Fj (k )))


k=1

2 2 (Lx Ly )2 + (a x ay ) + (bx by ) (3.14)

o fi et fj dsignent deux images. Chacune de ces images est transforme, par dcoupage en blocs, en une matrice rduite (Fi et Fj ) de taille N*N (comme explique dans 3.2.3.1.2 o est extrait pour chaque cellule la valeur mdiane vectorielle des pixels composant le bloc). Cette valeur mdiane est reprsente par un triplet de valeur (L,a*,b*) dans l'espace CIELab. N est x pour obtenir des blocs d'une cinquantaine de pixels (par exemple sur une image de 800*600 pixels on xe N = 97). On calcule les N 2 distances, bases sur la formule de dirence de couleur (DeltaE76) du systme colorimtrique ClE1976Lab o la distance entre les composantes Lab des deux points (Px et Py ) de cet espace est base sur la distance euclidienne. Ensuite la moyenne de ces N 2 distances sert de mtrique pour la comparaison des deux images (quation 3.14). A partir de cette distance entre individus il reste dterminer la distance D(X, Y ) entre deux groupes d'individus ou clusters X et Y . Gnralement les distances utilises sont le minimum, le maximum ou la moyenne pondre des distances entre les singletons (xn ) qui constituent les deux clusters. Les gures ci dessous illustrent ces distances :  Saut minimum Single linkage" :

D(X, Y ) = min(d(x, y )) where x X, y Y

(3.15)

3.2. PROPOSITIONS  Saut maximum Complete linkage" :

63

D(X, Y ) = max(d(x, y )) where x X, y Y


 Saut moyen Average linkage" :

(3.16)

1 D(X, Y ) = (X ) (Y )

(X ) (Y )

d(xi , yj ) where xi X, yj Y
i=1 j =1

(3.17)

Aprs dirents tests nous avons retenu la mthode de clustering Complete linkage qui donne de bons rsultats (voir annexe C.2 pour les dirents tests). L'ensemble des paramtres de l'algorithme de classication tant xs, nous obtenons un dendogramme (un exemple d'un tel dendogramme est reprsent sur la gure 3.24). Cette reprsentation fait apparatre les hirarchies de clusters et les images correspondantes. Finalement, une slection des images dans chacun des clusters est ncessaire pour construire le condensat d'images statiques du lm d'animation.

3.2.5.2 La slection des images


La CAH permet d'obtenir Nclusters clusters d'images similaires. Il faut donc extraire pour chaque cluster une image reprsentative. On propose de prendre l'image mdiane Imed (C ) du cluster C , c'est--dire l'image dont la distance cumule aux autres images du cluster est la plus faible. En traitement d'images plusieurs composantes (image couleur par exemple), la formulation classique des ltres mdian vectoriel consiste calculer la sortie du ltre comme le vecteur qui minimise la somme des carts cumuls tous les autres vecteurs de la fentre de ltrage. On obtient ainsi le vecteur le plus reprsentatif de la fentre. Les carts entre images sont fournis par la mesure de distance dnie par l'quation 3.14. Nous introduisons la distance cumule de l'image i aux autres images du cluster comme suit :

Dcum (fi ) =
fj C,fj =fi

d(fi , fj )

(3.18)

o Dcum (fi ) est la distance cumule de l'image fi aux autres images du cluster C , d(fi , fj ) est la distance dnie prcdemment (quation 3.14). Enn, l'image reprsentative du cluster est l'image fi dont la distance cumule Dcum (fi ) est la plus petite parmi les distances cumules du cluster C (equation 3.19).

Imed (C ) = arg min Dcum (fj )


fj C

(3.19)

64

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

L'image mdiane peut tre choisie comme l'image reprsentative de l'ensemble des images du cluster. La gure 3.25 donne un exemple d'une telle slection. Ainsi les images 331, 448 et 254 sont les images reprsentatives de leur cluster respectif (dlimit par des pointills verts). Dans le cas particulier des clusters 2 lments nous avons fait le choix arbitraire de slectionner la deuxime image du cluster (par exemple les images 291, 471 et 180 sur la gure 3.25). Lorsque le cluster ne contient qu'une seule image le choix de son image reprsentative est trivial.

Figure 3.25  Coupure du dendogramme pour obtenir 7 clusters.

dendogramme (distance

(Le seuil de coupure du 27) est en rouge. Les clusters ainsi obtenus sont en vert)

Aprs l'tape de slection nous obtenons le condensat, sorte de  rsum  de la squence vido compos d'un ensemble de Nclusters images reprsentatives. Rappelons ici que notre objectif initial (voir la gure 3.6) est d'obtenir la caractrisation couleur de la squence vido partir de l'analyse des histogrammes couleurs. Or, on l'a vu prcdemment, cette caractrisation globale de la squence s'appuie sur le calcul d'un histogramme global pondr (voir l'quation 3.2). Cet histogramme est en ralit la somme pondre de tous les histogrammes moyens calculs pour chacune des images reprsentatives de la squence, o cette pondration i reprsente le pourcentage d'images de la squence vido appartenant au plan i. Elle dpend donc de la longueur du plan vido considr. Dans notre approche l'utilisation des plans n'est plus considre et par consquent leur longueur n'est pas disponible. Cependant, pour conserver ce mcanisme de pondration et donc accorder une importance dirente aux histogrammes calculs partir des images du condensat, nous proposons une nouvelle dnition de cette pondration comme tant la longueur du cluster Ci auquel appartient l'image i. Nous dnissons la longueur d'un cluster comme tant la somme des longueurs des soussquences d'images composant ce cluster. Une sous-squence d'images clefs est un ensemble ordonn (suivant les indices) d'au moins deux images clefs appartenant au mme cluster. Sa longueur est dnie comme le nombre d'images (ou dirence d'indice) entre la premire et la dernire image de la sous-squence. Les sous-squences d'images dans un mme cluster sont gnralement dues des plans

3.2. PROPOSITIONS

65

Figure 3.26  Illustration d'une sous-squence dans un cluster

contenant le mme contenu mais revenant dirent moment dans le lm comme sur la gure 3.26. Puisque ces plans ont un mme contenu les images clefs extraites de ces passages du lm seront regroupes au sein d'un mme cluster par l'tape de slection. Ainsi dans l'exemple de la gure 3.26 le cluster A contient 2 sous-squences (A1 [i, i + 40, i + 100] et A2 [i + 120, i + 180] respectivement issues des deux plans A). La longueur d'une soussquence d'images est dnie comme la dirence d'index entre la dernire et la premire image de la sous-squence. Dans l'exemple prsent par la gure 3.26 la longueur de la soussquence A1 vaut LA1 = 100 et la longueur de la sous-squence A2 vaut LA2 = 60. Finalement la longueur du cluster A est la somme des longueurs de ses sous-squences soit LA = 160.

Figure 3.27  Calcul des longueurs des sous-squences composant les clusters

squences sont en couleur)

(Les sous-

A partir du dendogramme de la gure 3.25 on construit le tableau de la gure 3.27. Ce tableau reprsente les images clefs ordonnes suivant leur numro d'apparition (N Image Clef ). Y gure galement le numro du cluster auquel appartient l'image (Cluster ), ainsi que son index dans la squence vido (N index seq ). A partir de ce tableau il est facile de retrouver les sous-squences d'images. Ce sont les images dont les indices N index seq se suivent et qui ont le mme numro de cluster (cellules en couleur sur la gure 3.27). La longueur d'une sous-squence d'images est dnie comme la dirence d'index entre la dernire et la premire image de la sous-squence. Par exemple, sur la gure 3.27, le cluster C1 est constitu de l'unique sous-squence d'images SC 1 = [296, 331, 346] de longueur Lseq = 346 296 = 50 images. De plus, le cluster C5 constitue un cas particulier. En eet, il est constitu de deux images trs sombres correspondant au dbut (image d'indice 230) et la n du lm (image d'indice 471). Ce cluster, dont l'image reprsentative est arbitrairement choisie comme la deuxime image (image d'indice 471), ne contient pas de sous-squence (ou d'images conscutives). En eet les deux images

66

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

de ce cluster ne constituent pas une sous-squence puisque d'autres images de clusters dirents les sparent. Par consquent la longueur de ce cluster est gale la longueur d'une image. Finalement pour chaque cluster i nous dnissons un poids i :

i =

Lcluster (i) Nclusters Lcluster (j ) j =1


j Nsseq

(3.20)

Lcluster (j ) =
k=1

Lsseq (k )

(3.21)

j o Nsseq est le nombre de sous-squences d'images dans le cluster j , Lsseq (k ) est la longueur de la sous-squence k du cluster j et Nclusters est le nombre de clusters dans la squence vido.

Nclusters

hseq (c) =
i=1

hi (c) i

(3.22)

Pour chaque cluster i nous calculons l'histogramme des couleurs rduites hi (c) (c l'indice de la couleur) de l'image Imed (i) comme prsent au dbut de ce chapitre (voir quation 3.1). L'histogramme global pondr de la squence est ensuite calcul (voir quation 3.22) comme la somme pondre par i de l'histogramme de chacun des clusters hi (c) (i = 1, ..., Nclusters et Nclusters le nombre total de clusters). Le processus de cration du condensat (condenseur) permet de fournir un ensemble d'images reprsentatives de la squence vido an de calculer un histogramme global pondr des couleurs permettant ainsi le calcul des descripteurs symboliques dcrits prcdemment. Toutefois, ce nombre d'images (ou de clusters) doit tre x par l'utilisateur (voir gure 3.23). Nous allons voir comment xer ce paramtre.

3.2.5.2.1 Le choix du pourcentage d'images utilises La qualit de la reprsenta-

tion de la distribution globale des couleurs par l'histogramme global pondr est lie la valeur du nombre d'images retenues pour construire le condensat. An de dterminer la valeur optimale de ce paramtre (Nclusters ) nous avons eectu l'tude suivante : Nous partons de la reprsentation la plus dle de la distribution globale des couleurs dans la squence vido obtenue en utilisant toutes les images de la squence. L'histogramme global obtenu dans cette situation, hseq (c) = hi (c)|iseq , est utilis comme rfrence pour mesurer la qualit de la reprsentation de la distribution globale des couleurs hseq (c) obtenue pour direntes valeurs de Nclusters . Pour faciliter l'tude nous dnissons le paramtre N% comme tant le pourcentage d'images clefs conserves pour composer le condensat et in ne, pour calculer l'histogramme global des couleurs hseq (c).

3.2. PROPOSITIONS

67

N% = 100

Nclusters Nimages
clef s

(3.23)

Pour trouver la valeur optimale de N% nous avons calcul plusieurs histogrammes globaux pondrs pour direntes valeurs de N% . Nous les avons ensuite compars la rfrence hseq (c). Comme mesure de similarit nous avons utilis la distance euclidienne, dE (h1, h2) entre l'histogramme global pondr obtenu pour un pourcentage N% d'images (hseq (c)|N% ) et l'histogramme de rfrence hseq (c) calcul partir de toutes les images de la squence vido :
216

dE (hseq , hseq |N% ) =


c=1

(hseq (c) hseq (c)|N% )2

(3.24)

o c est l'indice des couleurs de la palette "Webmaster" de 216 couleurs. Nous avons galement calcul les histogrammes globaux non pondrs pour direntes valeurs de N% . Puis nous les avons compars la rfrence hseq (c). Un histogramme global non pondr hseq (c) est dni comme la moyenne arithmtique de chacun des histogrammes calculs partir des images du condensat (voir equation 3.25).
Nclusters

hseq (c) =

1 Nclusters

hi (c)
i=1

(3.25)

Figure 3.28  Inuence du paramtre N% sur le calcul de l'histogramme global

La gure 3.28 prsente les rsultats des tests eectus sur une base de 100 lms d'animation. Les distances sont normalises entre 0 et 1 en utilisant un coecient de normalisation 1 correspondant la valeur maximale possible de la distance dE soit . Une distance de 0 2

68

CHAPITRE 3. EXTRACTION D'INFORMATION PARTIR DES IMAGES

signie que l'histogramme global calcul partir du condensat est parfaitement identique l'histogramme de rfrence hseq (c). Au contraire une distance de 1 signie que les histogrammes sont totalement dirents. On remarque d'aprs cette gure que l'utilisation d'un histogramme global pondr (courbe rouge) est un bon choix par rapport l'utilisation d'un histogramme global non pondr (courbe bleue). En eet, on remarque que d'une faon gnrale l'erreur commise est moins importante dans le cas de la pondration. Comme on pouvait s'y attendre l'erreur diminue lorsque l'on augmente le nombre d'images dans le condensat. Cependant, dans le cas de la pondration, on remarque que l'erreur augmente partir de N% = 50%, ceci s'explique par le fait que l'on diminue l'inuence des  gros  clusters (correspondant des passages longs du lm o l'activit est faible) en les morcelant et en donnant du mme coup plus d'importance des images atypiques issues de passages courts du lm. Finalement, la valeur optimale du nombre d'images N% se situe aux alentours de 30%. A cette valeur l'erreur commise (au sens de la distance entre histogrammes) est infrieure 4%. La cration du condensat ncessaire au calcul des caractristiques couleur du lm ncessite de choisir seulement 30% des images clefs issues du rducteur pour composer le condensat. Le calcul des caractristiques couleur est donc acclr tout en commettant en moyenne une erreur infrieure 4%.

3.3 Conclusion
Dans ce chapitre nous avons vu comment extraire de l'information partir des images. Cette caractrisation d'un niveau smantique relativement faible, passe par la caractrisation des couleurs utilises dans la squence vido ainsi que la caractrisation de l'activit et du rythme. Ces caractrisations s'appuient sur une analyse du changement de contenu s'oprant dans la squence d'images et utilise un algorithme accumulation de dirences. An d'obtenir une caractrisation plus riche de la squence d'animation, l'apport de connaissances et d'informations smantiques externes est ncessaire. Cet apport d'information externe passe dans notre approche par l'analyse du texte contenu dans les pri-textes et notamment les synopsis des lms d'animation. C'est ce que nous allons voir dans le chapitre suivant.

Extraction d'information partir des textes

Chapitre 4

sances et d'informations a priori est ncessaire, tant des ns de caractrisation de squences d'animation que pour l'extraction de caractristiques partir de l'image. Cet apport d'informations peut se faire par l'analyse des synopsis des ches d'inscription des lms d'animation enregistrs auprs du CITIA. L'approche prsente dans ce chapitre consiste analyser automatiquement ces textes an d'en extraire une information utile pour caractriser la squence d'animation. Deux grandes approches sont envisages ici : d'abord une analyse statistique du corpus qui permet d'apprhender les textes et leurs vocabulaires et qui permet de faire de l'analyse thmatique pour la recherche d'atmosphre lie un genre, ici le Drame. Ensuite, une analyse par extraction d'information permet via la structure syntaxique de la phrase, d'extraire des informations pertinentes modlises sous la forme d'un scnario actanciel.

Rsum : Nous avons vu dans les prcdents chapitres que l'apport de connais-

Nous avons vu dans les prcdents chapitres que l'apport de connaissances et d'informations a priori est ncessaire, tant des ns de caractrisation de squences d'animation que pour l'extraction de caractristiques partir de l'image. Cet apport d'information peut se faire par l'analyse des synopsis des ches d'inscription des lms d'animation enregistrs auprs du CITIA lors du festival (voir la gure 2.4). L'approche prsente dans ce chapitre consiste analyser automatiquement ces textes an d'en extraire une information utile pour caractriser la squence d'animation. Ainsi nous aborderons dans l'tat de l'art les mthodes gnralement mises en uvre pour caractriser des corpus textuels. Nous prsenterons ensuite les rsultats d'une analyse statistique sur le corpus des synopsis franais qui nous permettra de reprer un ensemble de caractristiques de ces textes. Cette tape pralable de caractrisation de l'ensemble des synopsis nous permet par la suite de caractriser chacun des synopsis an d'en extraire une information pertinente et structure grce l'tape d'extraction d'information. Cette tape base sur un ensemble d'analyses du lexique et de la structure du texte permet d'isoler les actions mises en jeu dans le lm. Finalement une deuxime caractrisation du synopsis sera aborde travers l'analyse thmatique. Cette analyse nous permet le reprage des atmosphres dgages par le texte comme par exemple celle du Drame.

69

70

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

4.1 Bref tat de l'art


A l'heure actuelle, on estime que la quantit d'information stocke dans le monde double tous les vingt mois (que ce soit dans les pages web, dans les librairies en ligne ou dans les serveurs de courrier lectronique). Il est donc indispensable de crer des outils permettant d'exploiter ces informations. Le domaine de l'analyse automatique de texte s'est dvelopp pour rpondre cette volont de gestion par le contenu des sources volumineuses de textes. Bien que les techniques se soient largement dveloppes ces dernires annes, l'analyse de l'ensemble des informations prsentes dans un texte est un processus trs complexe et reste encore l'heure actuelle limite un domaine prcis ou restreint une comprhension basique du sens. Un grand nombre de disciplines et de domaines de recherche, la croise des chemins entre la linguistique, les mathmatiques et l'informatique tentent de rpondre des objectifs bien dnis et passent par les questions : Quel type de texte analyse-t-on ? Pour rpondre quelles questions ? Dsire-t-on tudier le vocabulaire d'un texte en vue d'une analyse du style ? Cherche-t-on reprer les contenus ? etc.

4.1.1 La statistique textuelle


Le texte constitue un passage oblig dans des disciplines trs direntes (recherche documentaire, extraction d'informations, texte mining, etc.) dont l'analyse fait intervenir, des degrs dirents, la linguistique et les technologies de l'informatique. La linguistique est l'tude du langage humain. Elle regroupe un certain nombre d'coles qui n'abordent pas cet objet d'tude (le langage) du mme point de vue. La linguistique structurale tudie la langue comme un systme dot d'une structure dcomposable. Elle est fonde ds 1910 par Ferdinand de Saussure [Saussure et al., 1922] et reste le courant dominant jusque dans les annes 70. La linguistique nonciative, qui hrite de la linguistique structurale, tudie l'acte de produire un nonc et pas simplement l'nonc lui-mme. D'autres linguistiques sont associes une discipline particulire (sociologie, ethnologie, psychologie, neurologie, etc). De plus, dans une vision structurelle du langage, on distingue plusieurs domaines qui tudient des faits de langue de natures direntes :  la phontique : tudie les dirents phones ou sons produits par l'appareil phonatoire humain.  la phonologie : tudie comment sont agencs les phonmes (36 en franais) d'une langue pour former des mots. Il ne faut pas confondre la phonologie avec la phontique qui, elle, s'intresse aux sons eux-mmes, indpendamment de leur fonctionnement les uns avec les autres.  la morphologie : tudie la faon dont se combinent les morphmes ou lments variables dans les mots pour former des lemmes. Par exemple la drivation lexicale du prxe re et du radical partir donne repartir . Dans l'nonc Aller au march , au est un amalgame des morphmes  et le .  la lexicologie : tudie les lemmes (ou vocabulaires dans les usages courants) composant le lexique d'une langue (environ 60 000, en franais liste non exhaustive).

4.1. BREF TAT DE L'ART

71

 la syntaxe : tudie les relations des mots composant la phrase. La syntaxe regroupe les principes et les rgles de construction des phrases dans une langue naturelle.  la smantique : tudie les signis c'est--dire la signication ou contenu du message.  la pragmatique : tudie les rapports entre l'nonc produit par des nonciateurs et la situation de cet nonc. Ce sont les lments du langage dont la signication ne peut tre comprise qu'en connaissant le contexte. videment, ces domaines et les rgles associes ne sont pas cloisonns. Il existe de nombreuses relations entre toutes ces approches et les direntes linguistiques. Ainsi, l'analyse lexicale (tude du lexique) ne peut tre compltement conduite sans s'appuyer sur le sens des mots (smantique). Cette analyse smantique s'appuie elle-mme sur la place et la fonction des mots dans la phrase (syntaxe) mais peut aussi s'appuyer sur le contexte de l'nonciation (pragmatique). L'analyse automatique d'un texte est une manire d'obtenir une reprsentation de l'information contenue dans le texte par une comprhension informatise de cette information. A cette n, la rencontre de la statistique et de la linguistique donne naissance ds le dbut du xxe sicle l'tude des textes via les nombres. Cette nouvelle approche en linguistique consiste voir le document travers la lorgnette des nombres et des chires. L'tude manuelle des distributions lexicales c'est--dire l'extraction de listes de mots (morphmes et lexmes) a permis [Estoup, 1916] et plus tard [Zipf, 1949] d'tablir des lois empiriques. Georges Kinglsey Zipf a observ qu'en classant et en ordonnant les mots contenus dans un texte par ordre dcroissant des frquences d'apparition, on observe que le produit de cette frquence par le rang du mot dans ce classement est gale une constante et vaut approximativement 1 pour les textes longs (voir une dmonstration accessible l'adresse 1 ). Rang x Frquence constante K

La notion de savoir ce que l'on compte est une notion importante qui apparat ds lors que l'on dsire compter et faire des analyses statistiques sur des objets que l'on veut comparer. Lebart appelle cela les units de la statistique textuelle et prcise qu'une norme doit tre dnie permettant d'isoler de la chane textuelle les direntes units sur lesquelles porteront les dnombrements venir. L'opration qui permet de dcouper le texte en units minimales (c'est--dire en units que l'on ne dcomposera plus) s'appelle la segmentation du texte [Lebart et Salem, 1994]. Le choix de cette unit de comptage peut se faire dirents niveaux avec des complexits diverses :  l'chelle du mot pour obtenir le lemme ou le phonme.  l'chelle du syntagme pour obtenir la catgorie grammaticale.
1. http://users.info.unicaen.fr/~giguet/java/zipf.html

72

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES  l'chelle de la phrase ou du texte pour isoler le(s) concept(s) et obtenir un sens.

Gnralement le mot est pris comme unit de comptage dont la segmentation automatique consiste extraire une suite de caractres dlimits par des caractres dlimiteurs (classiquement les signes de ponctuation, espace, etc.) ses deux extrmits. Cependant, pour un mme texte cette segmentation varie d'un domaine d'tude l'autre et ne conduit pas au mme dcompte. Par exemple, le chercheur en informatique prfrera le regroupement en une seule unit (le lemme) du singulier et du pluriel du mot algorithme. Par contre ce regroupement ne sera pas souhait dans l'tude des textes politiques. En eet, le pluriel d'un mme substantif renvoie souvent des notions direntes, parfois en opposition (par exemple l'opposition dans les textes rcents de dfense de la libert / dfense des liberts qui renvoie des courants politiques opposs [Lebart et Salem, 1994]). Cette tape dite de lemmatisation, consiste rduire chacun des mots en une entit appele lemme (ou forme canonique). Ainsi la forme canonique d'un verbe est ce mme verbe l'innitif, pour les autres mots la forme canonique est le mot au masculin singulier. Par exemple l'adjectif petit existe sous quatre formes petit, petite, petits et petites . Il existe beaucoup plus de formes du verbe avoir (ai, as, a, avons, ais, avons eu, ayez eu, eussions eu, aurions, etc). Cette tape permet des dcomptes sur des units bien dnies du point de vue de la langue et parat sduisante. Cependant la lemmatisation d'un texte n'est pas une tape triviale et se heurte des problmes dicilement solvables. Il est souvent ncessaire de lever pralablement certaines ambiguts qui prennent naissance par exemple dans des homographies (avions issu du verbe avoir, et avions : substantif masculin pluriel), mais galement dans des ambiguts smantiques (Une livre de pain qu'il livre avec un livre de recette). Certaines de ces ambiguts peuvent toutefois tre leves par une analyse grammaticale de la phrase ou l'examen du contexte immdiat ou loign (paragraphe, texte entier, etc.). L'intrt de cette tape est largement discut et Labb crit dans [Labb, 2002]  l'exprience prouve que la correction orthographique, la normalisation des graphies et la lemmatisation sont des oprations indispensables pour mettre disposition une information able . Il voque une exprience prsente en 1995 par M. Sylberztein sur deux annes du journal Le Monde, exprience que rsume la gure 4.1. Sur les articles de 1992, il a dcompt 21,8 millions de mots sous prs de 242 000 formes direntes. Puis l'anne suivante il a dcompt 23,2 millions de mots sous 247 000 formes. La comparaison du vocabulaire sur les deux annes fait apparatre un noyau commun ridiculement faible.  Le journal aurait-il chang de langue entre 1992 et 1993 ?  Aprs correction et lemmatisation des graphies, le tableau est radicalement dirent. Le vocabulaire ne compte plus que 41.000 entres dont les deux tiers sont communes aux deux annes. Cependant une vieille querelle a longtemps oppos les partisans et les adversaires de la lemmatisation [Brunet, 2000] et cette querelle semble trouver un consensus :  La dcision, conclut Andr Salem, est d'ordre conomique. Il est dans l'absolu toujours prfrable de disposer d'un double rseau de dcomptes (en formes graphiques et en lemmes). Une lemmatisation complte, sur un corpus important, reste une opration coteuse. Indispensable dans un travail de recherche, elle est beaucoup moins justie s'il s'agit d'obtenir rapidement des visualisations et des typologies [. . . ] . L'analyse statistique lexicale commence rellement son dveloppement partir de 1960 grce l'essor de l'informatique. Ainsi, le projet du Trsor de la Langue Franaise voit le jour et a pour vocation de constituer une grande bibliothque informatise, la base Frantext. Aid par la constitution d'un tel corpus, Charles Muller entreprend une srie d'tudes comparatives sur le vocabulaire des grands auteurs et tudie les uvres de Corneille sur support infor-

4.1. BREF TAT DE L'ART

73

Figure 4.1  Le vocabulaire du Monde sur deux annes (en formes graphiques brutes puis en lemmes) issu de [Labb, 2002]

matique [Muller, 1967]. Ses mthodes quantitatives tentent de rpondre des proccupations dj anciennes sur la comparaison, la richesse, la spcicit ou l'volution du vocabulaire entre dirents auteurs. De nombreux travaux voient le jour o l'analyse stylistique permet de rechercher la paternit d'uvres littraires. Par exemple l'aaire Corneille-Molire 2 a fait et fait encore couler beaucoup d'encre. En eet, cette polmique de la littrature franaise commence avec le pote Lous qui attribue en 1919 l'uvre de Molire Corneille. Cette controverse sera reprise par des romanciers mais prendra une toute autre dimension lorsque Labb la confrontera en 2001 aux statistiques textuelles [Labb et Labb, 2001]. Sa mthode, inspire des travaux du domaine et de la distance intertextuelle introduite par E.Brunet [Brunet et al., 2004], consiste mesurer la distance entre deux textes. Dans [Brunet, 1988] la distance absolue entre deux textes A et B est la surface (en terme de vocabulaire) des deux textes moins leur intersection,

Figure 4.2  Distance intertextuelle

2. http://corneille-moliere.org

74

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

(a, b) =

1 2

Na i=1 |Fia

Fib |

Na

Nb i=1 |Fib

Fia |

Nb

(4.1)

c'est--dire la somme des dirences entre les frquences absolues de chacun des mots des deux textes (quation 4.1 et gure 4.2). Avec Fia et Fib frquence du mot i dans A et dans B. Na et Nb nombre de mots dans A et B (taille du texte). L'indice vaut 1 si les deux textes compars ne partagent aucun mot. En revanche, le minimum thorique de cet indice ne peut atteindre zro que dans le cas particulier de Na = Nb . Ainsi dans [Labb et Labb, 2001], l'auteur propose de simuler la rduction du plus grand des deux textes la taille du plus petit. Cette distance est applique sur les uvres de Molire et de Corneille (64 pices). L'auteur conclut qu'il y a une parent d'une partie des pices de Molire avec Corneille et qu'il s'opre un chass-crois entre les deux uvres. Cette tude t fortement critique par les statisticiens et les historiens. La statistique lexicale s'est galement bien dveloppe dans les pays anglo-saxons o elle a surtout t utilise en analyse stylistique. L'tude entreprise par Mosteller et Wallace [Mosteller et Wallace, 1984], dont les conclusions sur la paternit des textes de rexion sur la nouvelle constitution amricaine, Le Fdraliste The Federalist Papers , furent convaincantes et reconnues par les disciplines historiques, donna une lgitimit ce domaine d'tude. The Federalist Papers est un recueil d'articles faisant la promotion de la nouvelle constitution amricaine (1787-1788 ) et du nouveau gouvernement amricain. Ces articles, crits par James Madison, Alexander Hamilton et John Jay, signs sous le pseudonyme Publius, taient une excellente rfrence pour comprendre la nouvelle Constitution amricaine que le peuple tait appel ratier. Bien que la paternit de ces textes soit sre pour 73 de ces articles, il reste un doute et une discorde entre les direntes coles de pense, sur la paternit des 12 autres textes. C'est l'analyse de ces textes par la statistique textuelle qui a permis de trancher sur l'attribution des auteurs [Mosteller et Wallace, 1984, Fung, 2003]. L'analyse lexicomtrique a t utilise sur les discours politiques [Lebart et Salem, 1994]. Dans [Labb et Monire, 2000] les auteurs s'intressent aux discours prononcs par les Premiers ministres qubcois pour ouvrir les sessions parlementaires depuis 1945. L'utilisation de la distance inter-textuelle puis l'utilisation de la classication automatique (CAH) met en valeur quelques grands pisodes dans la vie politique de la province canadienne et souligne la singularit des deux passages au pouvoir du parti qubcois. L'analyse lexicomtrique des discours politiques se retrouve dans de nombreux travaux [Marchand et Monnoyer-Smith, 2000], [Labb et Monire, 2008], [Foucault et Francois, 2009]. Jean-Paul Benzcri [Benzcri et Benzcri, 1980] ouvre en France, le champ de l'analyse et l'exploration des donnes multidimensionnelles ainsi que des mthodes de classication automatique [Sebastiani, 2002]. Ces travaux ont permis l'analyse de grands tableaux de contingence grce l'analyse des correspondances et l'analyse factorielle. Ces analyses permettent de tester l'indpendance des donnes et de dcrire les proximits ou loignement des donnes contingentes (sous l'hypothse d'indpendance). Ainsi, il est possible de tracer la cartographie des associations lexicales susceptibles de rvler les rseaux smantiques 3 ou modles
3. reprsentation des concepts (portant un sens dans un domaine donn) au travers de leurs relations mutuelles.

4.1. BREF TAT DE L'ART

75

mentaux 4 dont le texte porte la trace. C'est ensuite au spcialiste d'interprter ces entits abstraites. Cela permet par exemple de retrouver les grandes thmatiques dans un texte et de mettre jour les structures linguistiques qui les caractrisent. Dans [Marchand, 2008] une carte d'Analyse Factorielle des Correspondances (AFC) (voir gure 4.3) est construite partir de l'analyse des dclarations de politique gnrale des Premiers ministres sous la V ieme rpublique. Cette reprsentation permet d'identier l'volution des dclarations politiques en fonction du temps et permet de voir la rpartition des discours politiques en fonction des proximits et des loignements de leur lexique. Aprs la dernire lection prsidentielle (6 mai 2007), le nouveau prsident a convoqu les parlementaires de sa majorit avant la dclaration de politique gnrale de son premier ministre, pour leur livrer sa  feuille de route . Les commentateurs ont t unanimes pour dire qu'il avait prononc un discours de politique gnrale. Or, la gure 4.3 montre que ce discours ne partage pas les proprits d'une dclaration de politique gnrale : les procdures statistiques (AFC) isolent ce discours et l'opposent l'ensemble des autres dclarations de la V ieme Rpublique [Marchand, 2008].

Figure 4.3  AFC des dclarations de politique gnrale des Premiers Ministres franais (1959-2007) et de la feuille de route de N. Sarkozy. issu de [Marchand, 2008]

Cette analyse exploratoire multidimensionnelle couple l'analyse textuelle est largement utilise dans les tudes qualitatives comme le dpouillement de questionnaires dans des tudes en sociologie [Patrice et al., 2004, Gurin-Pac, 1997], psychologie et marketing [Desmarais et Moscarola, 2004]. Ds l'apparition du courant Benzcriste de nombreuses approches informatises pour l'analyse statistique des textes ont vu le jour comme SPADT (Le4. modles qui combinent des reprsentations du monde, des modes de raisonnement, des guides pour l'action.

76

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

bart, ENST et CISIA, Paris), LEXICO (Salem, Paris 3), HYPERBASE (Brunet, Universit de Nice) et ALCESTE (Reinert, CNRS). La mthode ALCESTE, l'origine du logiciel du mme nom [Reinert, 1986], permet de quantier un texte pour en extraire les structures signiantes les plus fortes. Selon son auteur [Reinert, 1997, Reinert, 2002, Reinert, 2008] cette mthode permet travers un ensemble de calculs, de cartographier les principaux lieux communs d'un discours, ou mondes lexicaux, qui sont des traces purement smiotiques inscrites dans la matrialit mme du texte. Un monde lexical est la trace lexicale d'un rfrent ou point de vue particulier utilis par l'nonciateur pour construire ses noncs. ALCESTE procde par fractionnements successifs du texte en fragments de tailles relativement analogues, nomms units de contexte (squences de textes de longueurs comparables, qui peuvent souvent concider avec les phrases). Ces fragments sont ensuite classs statistiquement selon une procdure descendante hirarchique. L'objectif de cette classication descendante hirarchique est la rpartition des noncs en classes marques par le contraste de leur vocabulaire [Kalampalikis, 2003]. Elle a pour avantage de ne pas exiger de connaissances a priori sur le texte analyser.

4.1.1.1 L'volution vers la topologie textuelle


L'Analyse de Donnes Textuelles (ADT), on l'a vu, est base sur les dnombrements et les frquences des mots. Cette analyse voit le texte comme un sac de mots et renonce prendre en compte le positionnement dans le texte des units dnombres. Aujourd'hui cet tat de fait volue et Mayare dans [Mayare, 2007] constate que :  l'analyse de donnes textuelles admet aujourd'hui qu'un texte ou un corpus textuel n'est pas seulement une urne anarchique pleine de donnes linguistiques mlanges, mais aussi un espace ou un plan sur lequel ces donnes s'enchanent (plus que s'additionnent) et s'organisent au l du texte . C'est Etienne Brunet qui le concde en 2006 aprs une vie de recherche consacre l'ADT. Malgr les travaux pionniers de Lafon en 1984 [Lafon et Muller, 1984] sur les rafales, il regrette en eet que :  l'ADT se soit surtout attache jusqu'ici aux frquences, sans trop s'occuper des squences . Dsormais l'organisation non-squentielle originelle de la lexicomtrie prend en compte l'organisation spatiale, linaire ou continue et devient l'organisation topologique textuelle. C'est Lamalle et Salem qui les premiers font une cartographie textuelle en localisant au l du corpus l'apparition des units linguistiques (les mots) retenues [Lamalle et Salem, 2002]. Dans cette tude d'o est extraite la gure 4.4, les 2319 paragraphes du corpus des congrs de la CFDT entre 1978 et 1998, sont reprsents par un carr de taille xe. Les carrs de couleur sombre signalent la prsence, au sein du paragraphe concern, d'au moins une occurrence du type cartographi (ici la classe nego+ contient un ensemble de mots en rapport avec la ngociation). Ce type de reprsentation permet de localiser et de voir les priodes concernes par cette unit de dcompte. La linarit du texte et ses enchanements thmatiques ne sont plus ignors dans ces analyses. Une reprsentation comme celle de la gure 4.4 a un pouvoir descriptif vident qui permet la comprhension des corpus textuels en restituant leur droulement. Dans [Salem, 2004], l'auteur fait apparatre grce au lexique les liens entres deux textes analyss simultanment. Lorsque les deux textes sont aligns (cet alignement peut se faire de plusieurs faons : en se basant sur les paragraphes ou partir d'une chronologie ou bien encore dans le cas de discours en fonction des tours de paroles, etc.) il est possible, en dressant la topologie des deux textes,

4.1. BREF TAT DE L'ART

77

Figure 4.4  Topologie des occurences de la classe

nego+ dans les 2319 paragraphes des 8 congrs CFDT (La division du texte en priodes (annes des congrs de l'organisation syndicale) est matrialise par des lignes horizontales rouges. issu de [Lamalle et Salem,
2002]

de suivre l'volution des vocables 5 choisis et de suivre les interactions entre les deux textes ; ce phnomne est nomm par l'auteur la rsonance textuelle. L'auteur prsente comme exemple une confrontation verbale entre plusieurs locuteurs (F. Mitterrand et J. Chirac en 1988), la rsonance permet de juger de l'inuence des productions de chacun des locuteurs sur celles de l'autre. Dans [Longre et al., 2004], les auteurs tudient la rpartition globale des temps verbaux le long de l'axe syntagmatique 6 pour valuer les distances et similarits entre des textes lemmatiss d'historiens latins. L'utilisation du voisinage d'un vocable pris comme pivot permet l'analyse des micro5. lment du langage, considr quant sa signication et son individualit lexicale, synonyme de mot.
(dfinition du TLFi)

6. axe horizontale sur lequel s'opre l'enchanement de l'nonc (la chane parle / crite)

78

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

distributions. Dans [Viprey, 2004], cette micro-distribution est repre dans le temps et redistribue sous contrainte d'quidistribution. L'utilisation d'un analyse par AFC permet ensuite d'obtenir une vue synthtique de l'volution du vocable pivot et de ses cooccurrents. Certains auteurs s'intressent la mesure automatique de ces caractristiques spatiales. Dans [Brunet, 2006] l'auteur s'intresse aux squences dont la reprsentation graphique permet de reprer les rafales et le rythme du discours. Son approche consiste suivre le parcours (en terme de frquence) d'un mot tout au long du corpus (constitu d'une compilation de textes littraires) sans s'arrter aux barrires des textes. La gure 4.5 illustre ceci. L'axe horizontal reprsente le corpus o les textes et leurs frontires sont reprsents par des lignes verticales. Le mot recherch est reprsent squentiellement de sa premire occurrence (en bas gauche) sa dernire (en haut droite), chaque point tant dtermin en abscisse par la position du mot dans le corpus et en ordonne par le numro de l'occurrence. Quand les points se concentrent et s'orientent vers la verticale, il s'agit d'une rafale , une concentration des occurrences due un changement thmatique ou stylistique. Quand les points s'espacent et s'inclinent l'horizontale, cela correspond une rarfaction momentane de l'objet recherch. Dans le corpus romanesque trait par Brunet, l'amour est utilis dans la gure 4.5 pour illustrer la mthode. L'amour n'est pas quitablement partag.  Il jaillit verticalement dans la Nouvelle Hlose, dans Indiana de Georges Sand et dans Un Amour de Swann et il s'tiole en un mince let languissant de Flaubert Verne et Zola . L'auteur utilise ensuite une mtrique (le test de Lafon ) lui permettant de retrouver les distributions irrgulires. Cette analyse est ritre sur un ensemble de mots permettant ainsi de lister les vocables dont les rpartitions sont rgulires ou au contraire irrgulires dans l'espace ou le temps.

Figure 4.5  Reprsentation graphique en squence du mot amour, de Marivaux Proust issu de [Brunet, 2006]

Pour [Vonfelt, 2008] l'axe diachronique du texte est vu comme un axe temporel sur lequel apparaissent les occurrences de l'unit linguistique compte (dans cette tude ce sont les caractres). La mesure du temps sparant l'apparition de ces occurrences prises deux deux (appele temps de retour ) sert caractriser l'activit de l'unit linguistique. Pour mesurer la distance entre deux textes Vonfelt calcule la distribution puis la rpartition de ces temps de retour pour plusieurs units linguistiques. La distance entre deux textes est obtenue

4.2. LA STATISTIQUE TEXTUELLE APPLIQUE AUX SYNOPSIS DES FILMS D'ANIMATION en comparant les courbes de rpartition pour un ensemble d'units linguistiques.

79

L'analyse de donnes textuelles permet d'extraire, de reprsenter et de synthtiser l'information contenue dans de gros corpus textuels. La puissance de l'outil informatique coupl la statistique permet d'apprhender plus facilement et en un minimum de temps cette masse de donnes que reprsente le texte. Dans cette thse, nous allons nous intresser aux informations textuelles contenues dans les ches d'inscription et plus particulirement aux synopsis des lms prsents au FIFA que nous avons dj prsents dans le chapitre 2.1.3.

4.2 La statistique textuelle applique aux synopsis des lms d'animation


Pour inscrire un lm la slection du festival, les auteurs doivent fournir une che d'inscription contenant des informations concernant leur uvre. Nous allons travailler sur les synopsis de ces lms qui sont des textes courts (en moyenne 20 mots, voir gure 4.6) en franais et en anglais et qui dcrivent sous forme de rsum ou d'accroche le sujet trait par le lm. Notre corpus est constitu des synopsis des lms d'animation inscrits au festival et des lms d'animation hors concours issus d'un fond historique (lms du dbut du xxe sicle). La gure 4.6 prsente un bilan lexical des dirents champs des ches d'inscription.

Figure 4.6  Statistiques sur le corpus textuel issu des 18155 ches d'inscription du CITIA

On peut voir un certain nombre de caractristiques de ces textes. On remarque dans cette base que les titres des lms ne sont pas souvent renseigns. Ceci s'explique par la nature de cette base qui contient les ches de lms hors concours (non formates pour le FIFA). C'est par exemple le cas de lms publicitaires qui n'ont pas de nom. Les synopsis anglais ne sont pas toujours disponibles (absents pour 24% de la base). Ceci s'explique par le fait que ces textes sont souvent issus d'une traduction des synopsis franais. Le lexique utilis dans les titres des lms est un vocabulaire riche puisque les mots dirents reprsentent 40% de l'ensemble des mots utiliss dans les titres. Ce chire descend 8% dans le cas des synopsis. Ceci traduit le fait que les synopsis sont des textes descriptifs utilisant peu de vocabulaire spcique. Ce vocabulaire est consensuel puisque partag par l'ensemble des synopsis. On retrouve cette tendance lorsque l'on analyse les mots uniques (hapax 7 ). En eet, 30% des mots utiliss dans les titres sont des hapax c'est--dire qu'ils ne sont pas partags par d'autres titres. Seulement 4% des mots utiliss dans les synopsis sont spciques et utiliss une seule fois (zoolympique, compacteur, incorruptible, mrite, percepteur, Benayoun, etc.). Le calcul des mots les plus frquents est ralis partir des textes dbarrasss des mots outils (mots
7. hapax ou apax dsigne un fait de langue (mot, expression, construction) dont il n'existe qu'une seule occurrence dans un corpus donn. Larousse

80

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

vides de sens, voir la dnition juste aprs 4.2.1.1). On voit que le terme le plus rcurrent dans les synopsis franais est homme et world dans les synopsis anglais. Cette dirence peut s'expliquer par la dirence de taille des deux corpus (le corpus anglais est 25% moins grand que celui du franais) et surtout par la traduction du mot homme suivant que l'on parle de la personne ou de l'humanit (man, mankind, human, humanity, etc.). Dans la suite de cette tude, nous allons nous intresser au corpus textuel constitu des 18155 synopsis franais. Ce corpus contient un peu plus de 420 000 mots ce qui fait que les analyses statistiques ont du sens. En eet, plus le corpus est volumineux, plus les rgularits et eets statistiques sont signicatifs.

4.2.1 Analyse lexicale globale


Puisque la masse de donnes textuelles est volumineuse, une analyse et une approximation lexicale s'impose an d'en extraire les informations signicatives. L'ide est d'apprhender le texte partir des mots et/ou expressions les plus frquemment utiliss. Dans un premier temps nous analysons la macro-distribution des termes dans le corpus. Cette analyse lexicale est ralise en utilisant le logiciel Le Sphinx [Sphinx, 2009].

4.2.1.1 Rduction du lexique


tation plus facile il est ncessaire de supprimer un certain nombre de mots n'apportant pas rellement de sens. Ces mots outils ou mots grammaticaux, sont des mots dont le rle syntaxique et grammatical est plus important que le rle smantique (je, et, en, le, etc.). Mais plus gnralement ces mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les conserver car non discriminants pour le document (de, le, sa, maintenant, encore, etc). La dtection puis la suppression de tels mots partir d'un dictionnaire de mots vides permet de rduire la taille du lexique (voir le tableau 4.1 dans la liste du bas o les mots de et le etc. ont t supprims). Nous remarquons galement dans le texte rduit (sans mots outils) l'apparition du terme dun qui est en ralit une omission de l'apostrophe dans le chier source. Aprs suppression des mots-outils nous obtenons une liste de mots caractrisant macroscopiquement le corpus. On remarque que les termes comme homme, enfants, femme, lle, garon renvoient aux personnages mis en scne dans les lms. Ces personnages sont des tres humains. Les termes comme vie, monde, histoire, srie, aventures, amour, renvoient au contexte et l'histoire du lm. Puis on a un ensemble de qualicatifs comme petit, jeune, petite, grand qui permettent d'apporter un complment d'information. On remarque la prsence frquente de termes pluriels comme enfants et aventures signiant que les synopsis traitent le plus souvent de plusieurs enfants et de plusieurs aventures. On remarque galement que petit est deux fois plus utilis que petite, ce constat est aussi vrai pour grand et grande. Les synopsis emploient-ils plus souvent le masculin que le fminin ?

4.2.1.1.1 Mots vides An de rduire la taille du lexique et rendre ainsi son interpr-

4.2.1.1.2 Segments rpts De tels aperus de textes, ports par les lexiques, peuvent parfois conduire de mauvaises interprtations. En eet, certaines associations de mots sont ncessaires pour comprendre quel est le signi et rsoudre des ambiguts (par exemple

4.2. LA STATISTIQUE TEXTUELLE APPLIQUE AUX SYNOPSIS DES FILMS D'ANIMATION de 20477 et 11377 a 8910 d 6886 en 4617 du 3934 se 3514 par 2584 s 1821 ce 1581 homme 1445 monde 1268 petit 1084 jeune 692 aventures 588 petite 570 jour 524 garon 491 grand 469 publicit 453 un 13289 la 12535 le 9456 une 8958 les 7296 l 7010 des 5910 dans 5275 est 4276 pour 3995 il 3830 qui 3697 sur 3084 son 3018 au 2273 sa 2055 que 1809 avec 1693 mais 1528 ses 1509 lm 1389 vie 1387 histoire 1189 deux 1119 srie 768 fait 732 enfants 687 femme 601 aprs 583 ville 575 tre 557 lle 540 trs 523 faire 507 mme 478 peut 471 trois 466 temps 465 dun 447 amour 440

81

Texte Brut

Texte sans les mots-outils

mots-outils) avec les nombres d'occurrences pour chaque mot

Table 4.1  Liste des 30 mots les plus frquents dans le corpus brut et rduit (sans les

le mot arrter seul est ambigu alors que arrter de travailler ne l'est pas). Ainsi, il faut restituer chaque mot dans son contexte en cherchant les segments rpts et en produisant des cartes d'associations lexicales. Les segments rpts (squences de mots rpts l'identique) renvoient les rigidits du texte, comme les formules toutes faites ou les expressions. La gure 4.7 montre la liste des 100 premiers segments rpts. On retrouve des expressions de la langue franaise comme : mettant en scne, peut-tre, tait une fois, jusqu'au jour, mais galement des lments du genre et de la technique du lm d'animation comme : Spot publicitaire, dessin anim, Bande-annonce, science-ction, noir et blanc, pte modeler, vues relles, etc. Ces lments techniques permettent de dcrire le contexte ou la technique du lm. Voici quelques synopsis dans lesquels apparaissent les termes prcdents :

Film publicitaire pour l'eau de Vittel. Film publicitaire pour les lampes Mazda. Film publicitaire pour Lucky Strike. Film publicitaire pour les bonbons Mentos. Court-mtrage pilote prsentant deux super hros au chmage. Ce court-mtrage d'animation raconte la cavale du criminel travers la ville. Au cours d'une projection d'un court mtrage europen, le lm devient un vrai casse-tte pour le projectionniste.  Une main dgrossit, dfriche la matire blanche de la pte modeler. Elle joue, elle caresse au gr de ses caprices, pour la simple beaut du geste et, petit petit, force d'empreintes, faonne un visage.
      

82

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

Figure 4.7  Liste des 100 premiers segments rpts rangs par nombre d'occurrences.

Les expressions commenant par une majuscule sont soit des noms propres, soit des expressions qui commencent au moins une fois dans le corpus le dbut d'une phrase.
 La ralit, le sexe et l'amour font peur Ana qui manque d'exprience et tombe sous le charme d'une star de cinma rotique en pte modeler.  Peinture abstraite anime en pte modeler.

On retrouve galement dans ces segments rpts des personnages de contes et de clbres maisons de production comme chaperon Rouge, Porky Pig, Looney Tunes, Merrie Melodies ceci vient probablement du fait qu'un certain nombre de lms sont antrieurs au festival et correspondent aux lms hors concours (lms anciens crs avant le festival).

4.2.1.1.3 Lemmatisation Pour simplier le lexique et augmenter la pertinence de son analyse il peut tre intressant de supprimer les formes chies de certains mots. Cette tape dite de lemmatisation, consiste rduire chacun des mots en une entit appele lemme (ou forme canonique). De ce fait, on rassemble par exemple les occurrences de petit, petite, petits, petites avec celle de petit ou bien encore les occurrences de avoir, ai, as, a, avons, ais, avons eu, ayez eu, eussions eu, aurions, etc. avec celle de avoir. Chacun des mots du lexique est remplac par sa forme canonique (voir tableau 4.2 le mot petite est devenu petit, le mot enfants est devenu enfant).
Pour les substantifs, lorsque l'on regarde les 30 termes les plus frquents dans le corpus lemmatis et rduit on retrouve un lexique dont les caractristiques sont les mmes que celui du corpus sans la lemmatisation. On retrouve un vocabulaire li l'tre humain (homme, femme, enfant, lle) plus un terme personnage qui apparat. On retrouve les ingrdients d'une histoire avec une qute aventure, dcouvrir, trouver. Par contre on constate bien un phno-

4.2. LA STATISTIQUE TEXTUELLE APPLIQUE AUX SYNOPSIS DES FILMS D'ANIMATION tre lm faire pas pouvoir grand personnage aller lle dcouvrir 4478 1529 1214 1138 910 746 700 668 586 541 petit histoire monde enfant tout aventure voir jour ami trs 1749 1358 1205 1059 908 737 678 625 573 523 homme vie avoir plus jeune femme autre srie ville trouver 1660 1306 1173 951 864 706 677 612 570 522

83

Texte Lemmatis sans mots-outils

Table 4.2  Liste des 30 mots les plus frquents dans le corpus lemmatis et rduit avec les

nombres d'occurrences pour chaque mot

mne bien connu de la lemmatisation qui est de faire remonter les verbes. Ainsi le verbe tre devient le mot le plus frquent traduisant une description de l'tat de l'histoire (personnage, contexte, etc.). Le verbe faire est ensuite le verbe le plus frquent, il traduit une description de l'action de l'histoire (les personnages font quelque chose). Le verbe avoir est le troisime verbe le plus frquent, il traduit une description des proprits (le personnage a quelque chose).

4.2.1.2 Associations lexicales


D'une manire moins rigide que les segments rpts la statistique des associations lexicales (via l'AFC) donne une ide de la propension associer les mots les uns aux autres ou au contraire ne pas les faire coexister dans une mme expression en l'occurrence le synopsis. Cette analyse est intressante lorsque l'on ne sait pas quelles sont les grandes thmatiques du corpus. Pour raliser cette analyse, nous reprenons le lexique du tableau 4.2 des 100 lemmes les plus frquents. Ainsi, chaque synopsis ou entre du corpus est dcrit par un sous ensemble de ces 100 termes. L'analyse des associations lexicale de ces termes consiste crer un tableau de contingence (voir matrice 4.2), o ni,j reprsente le nombre de synopsis contenant la fois le terme i et le terme j. Plus ce nombre est important plus les termes ont tendance tre associs dans un synopsis.

n1,1 n1,2 n1,J n2,1 n2,2 n2,J . . . . . . . . . . . . nI,1 nI,2 nI,J

(4.2)

Une AFC permet ensuite de dterminer s'il existe un lien privilgi ou non entre 2 termes. Cette analyse compare les eectifs du tableau ceux qu'on aurait obtenus si les eectifs taient rpartis proportionnellement et indpendamment. Pour tester cette hypothse d'indpendance, le test du Chi2 consiste mesurer l'cart entre ce qui est constat et le cas d'indpendance. Si la mesure du Chi2 est grande on prsume l'existence entre les deux modalits d'un lien d'autant plus signicatif que l'cart est grand. On peut donner une reprsentation plus visuelle des carts l'indpendance par l'utilisation d'une carte d'analyse factorielle des correspondances. Elle consiste tracer une carte

84

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

partir des rsultats de l'AFC en disposant les modalits en fonction des carts la situation d'indpendance. Par dfaut, chaque modalit est reprsente par un pav de surface proportionnelle son eectif. Leurs positions les unes par rapport aux autres s'interprtent ainsi (issu du manuel du logiciel Sphinx) :  Deux modalits lignes et colonnes seront d'autant plus proches que les eectifs du tableau sont en excs par rapport l'indpendance : attraction.  Les modalits lignes et colonnes seront d'autant plus loignes que les eectifs du tableau sont en dcit par rapport l'indpendance : rpulsion.  Les modalits lignes ou colonnes situes la priphrie de la carte signalent des prols originaux. Au contraire, une position centrale interdit tout commentaire (prol sans originalit ou point mal reprsent dans le systme d'axes de la carte).

Figure 4.8  Carte de l'Analyse factorielle des correspondances multiples pour la recherche

de thmatiques dans le corpus sans lemmatisation.

Les cartes AFC des gures 4.8 et 4.9 (zoom de la partie centrale de la gure 4.8) calcules sur les synopsis franais sans mots outils permettent, travers l'agencement des modalits et des constellations, d'identier des rseaux smantiques (ou congurations smantiques). Nous pouvons identier partir de ces cartes 4 constellations smantiques permettant d'identier des thmatiques propre au corpus :  La thmatique du Film contenant les mots clefs lm, images, musique, bande, animation, anim, publicit, publicitaire (sur la gure 4.8) regroupe les lments typiques de construction des lms d'animation. Ces mots clefs sont assez loigns du reste du lexique (origine de la carte) montrant le cot atypique de ces termes et de cette thmatique.  La thmatique Les Histoires contenant les mots clefs srie, aventures, raconte, nouvelle, conte, voyage, histoire, monde, personnage, personnages, hros, enfants (quadrant du bas de la gure 4.9). On retrouve les caractristiques des types d'histoires racontes avec dans la partie de gauche une proximit entre conte, raconte, nouvelle qui correspond au type d'histoire et une proximit plus dans la partie de droite entre personnage(s), Hros, animaux, enfants.

4.2. LA STATISTIQUE TEXTUELLE APPLIQUE AUX SYNOPSIS DES FILMS D'ANIMATION

85

Figure 4.9  Carte de l'Analyse factorielle des correspondances multiples pour la recherche

de thmatiques dans le corpus sans lemmatisation (zoom sur la constellation au centre du graphique).

 La thmatique La vie de l'Homme contenant les mots clefs homme, femme, rencontre, vieux, amour, mort, travail, terre, guerre, gens (quadrant haut-droit de la gure 4.9). On remarque la proximit entre amour et mort et donc de leurs cooccurrences frquentes, ce qui montre que l'on est dans un registre dramatique.  La thmatique La Famille contenant les mots clefs famille, mre, pre, garon, lle, enfant, maison, chien, chat, oiseau (quadrant haut-gauche de la gure 4.9). Ce groupe est associ dirents qualicatifs comme petit(e), grand(e), jeune. Notons que la variance totale explique par les axes principaux retenus semble assez faible. Ceci est normal puisque nous travaillons sur des donnes textuelles associes aux synopsis (une vingtaine de mots en moyenne) dont l'unit de comptage est le mot. Le nombre de combinaisons possibles entre les termes retenus au sein d'un synopsis est donc quasi inni augmentant ainsi considrablement les dimensions de l'espace de reprsentation des associations. Aussi, la projection de cet hyperespace dans un espace bidimensionnel se traduit par une variance totale explique assez faible. De plus cette approche ne tient absolument

86

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

pas compte des relations spatiales qui existent entre les mots (relations essentiellement dues la syntaxe). Finalement les synopsis sont vus comme un sac de mots et les thmatiques identies ne sont que des tendances associer des termes entre eux au sein des synopsis. De plus l'interprtation de ces regroupements n'est pas nave et reste guide par une certaine expertise du corpus et du domaine. Malgr tout il est intressant de voir si l'on retrouve ces mmes thmatiques sur le corpus lemmatis.

Figure 4.10  Carte de l'Analyse factorielle des correspondances multiples pour la recherche

de thmatiques dans le corpus avec lemmatisation

Les cartes AFC des gures 4.10 et 4.11 (zoom de la partie centrale de la gure 4.10) calcules sur les synopsis franais rduits aux lemmes et aux segments rpts sans les motsoutils, permettent travers l'agencement des modalits et des constellations d'identier les mmes rseaux smantiques que prcdemment :  La thmatique du Film contenant les mmes mots clefs que prcdemment avec en plus montrer, raliser, animer (sur la gure 4.10) regroupe les lments de construction des lms d'animation. L'ajout de ces mots vient appuyer ce que l'on a vu avec les segments rpts. Un certain nombre de synopsis prsentent le contexte/but conomique et/ou technique (Ce lm montre que . . . , Ce lm est ralis avec . . . , etc.).  La thmatique Les Histoires contenant les mmes mots clefs que prcdemment nouvelle est devenu nouvel, raconte est devenu raconter ((quadrant haut-droit de la gure 4.11). On retrouve la proximit entre conte et enfant.

4.2. LA STATISTIQUE TEXTUELLE APPLIQUE AUX SYNOPSIS DES FILMS D'ANIMATION

87

Figure 4.11  Carte de l'Analyse factorielle des correspondances multiples pour la recherche

de thmatiques dans le corpus avec lemmatisation (zoom sur la constellation au centre du graphique)

 La thmatique La vie de l'Homme contenant les mots clefs homme, femme, rencontrer, amour, mort, personne, rve, vie (quadrant bas-gauche de la gure 4.11). Les termes comme travail, guerre ont disparu (nous conservons les 100 termes les plus frquents) laissant place un ensemble de verbes comme perdre, tenter, sortir, pouvoir, venir, chercher qui dcrivent les actions de l'Homme sur son environnement. On retrouve la proximit dramatique entre amour et mort.  La thmatique La Famille contenant les mmes mots clefs que prcdemment (quadrant haut-gauche de la gure 4.11). La grande dirence entre ces deux analyses vient de l'ajout d'un grand nombre de verbes (les exions grammaticales des verbes diminuaient leur frquence dans l'analyse non lemmatise) qui pour la plupart se situent entre les thmatiques de la famille et de la vie de l'homme (voir, savoir, faire, aller, trouver, dcouvrir, trouver, retrouver, etc.). Cette analyse lexicale des distributions globales nous a permis d'isoler les quatre thmatiques du corpus qui taient vues comme un sac de mots. Nous allons appliquer une analyse topologique an de voir si il y a une volution du corpus et de ses thmatiques au cours du temps.

88

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

4.2.2 Analyse topologique


Le corpus sur lequel nous avons travaill est en ralit un ensemble de synopsis reprs dans le temps par l'anne de prsentation du lm au FIFA. Cette information chronologique est intressante exploiter pour tudier l'volution du corpus et de ses thmatiques au cours du temps. Nous allons nous intresser maintenant cette analyse topologique du corpus des synopsis des lms d'animation.

4.2.2.1 Dcoupage du corpus en fonction du temps


Dans un premier temps nous regroupons les synopsis par priode de 10 ans. Notre corpus est divis en classes dcennales partir de 1960 (dbut du festival). Avant 1960 les synopsis tant moins nombreux nous les regroupons par classes de 20 ans. La gure 4.12 montre la rpartition du corpus suivant l'axe chronologique.

Figure 4.12  Rpartition des synopsis dans le temps

4.2.2.2 Reprage des thmatiques


Nous voulons tudier l'volution dans le temps, des quatre thmatiques retrouves grce l'analyse des macrodistributions lexicales. Pour cela nous reprons dans chacun des synopsis du corpus, les lexiques des quatre thmatiques. Par exemple le lm The Girl Who Swallowed Beesest dont le synopsis est Une jeune lle amre se lance dans un morne voyage o la magie et l'inattendu s'allient pour changer son cur contient les mots lle et voyage appartenant respectivement aux thmatiques Famille et Histoires. Ainsi ce synopsis sera marqu comme appartenant ces deux thmatiques. Le tableau 4.3 reprsente la couverture de ces thmatiques dans le corpus. On remarque que cette couverture est relativement bonne compte tenu de la trs faible quantit de vocabulaire qui les dnit. Le nombre de citations est suprieur au nombre d'observations du fait de rponses multiples.

4.2.2.3 Rpartition des thmatiques dans le temps


Finalement, nous rapprochons le reprage des thmatiques aux classes chronologiques an de voir leur volution au cours du temps. L'utilisation d'une table de contingence permet pour chaque sous corpus (synopsis appartenant une classe chronologique) de reprer la microdistribution de chacune des thmatiques. La carte (voir gure 4.13) issue d'une AFC

4.2. LA STATISTIQUE TEXTUELLE APPLIQUE AUX SYNOPSIS DES FILMS D'ANIMATION Nb. citation 7349 4981 3458 2677 2959 18155 Frquence 40.5% 27.4% 19.0% 14.7% 16.3%

89

Non rponse HISTOIRES VIE_HOMME FAMILLE FILM TOTAL OBS.

Table 4.3  Couverture des thmatiques sur l'ensemble du corpus

permet de juger de la distribution des thmatiques dans le temps par rapport une situation d'indpendance.

Figure 4.13  Carte AFC des thmatiques dans le temps

Ainsi, on remarque que la thmatique du lm, qui consiste le plus souvent expliciter le contexte de production du lm et/ou la technique d'animation, a tendance tre beaucoup plus prsente avant 1960. Beaucoup de ces lms hors-concours sont des prcurseurs des techniques d'animation ce qui peut expliquer que les synopsis en font tat et mettent en avant la technicit. Finalement il y a moins de place pour dcrire l'histoire du lm. Par contre on remarque que les autres thmatiques ont une propension se rpartir de manire homogne dans le temps partir de 1960. On peut donc conclure que les thmatiques repres par l'analyse lexicale histoires, famille et vie de l'homme sont probablement beaucoup plus prsentes dans les lms du festival que dans les lms hors-concours (plus anciens).

4.2.3 Conclusion partielle


On a vu dans cette partie que l'analyse statistique textuelle permet d'apprhender de faon macroscopique l'information contenue dans le corpus des synopsis franais. De plus cette information, on l'a vu, est stable au cours du temps quand celui-ci est rduit la priode du festival d'animation. Grce cette analyse globale nous avons pu isoler des caractristiques intressantes de ces textes comme les thmatiques gnrales abordes dans ces lms. En eet, ces lms ont tendance aborder des sujets de socit c'est--dire qu'ils mettent en scne des histoires (aventure, voyage, nouvelle) centres sur l'Homme (et ses actions sur son environnement), ses relations (la famille) et sa vie (l'amour, le travail, les drames, etc.). Cependant cette information globale ou macroscopique ne rend pas compte des contenus et des dtails des histoires propres chaque lm et donc chaque synopsis. Notre objectif

90

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

tant la caractrisation de chaque lm il est ncessaire de procder une analyse plus dtaille de chacun des synopsis. Cette analyse locale doit en plus tenir compte des spcicits de ces textes qui passent par une htrognit des vocabulaires et de leur taille (une vingtaine de mots en moyenne dans un synopsis) et passent galement par les thmes abords (mis en lumire juste avant). Nous devons mettre en place une nouvelle analyse capable d'extraire une information descriptive du synopsis, c'est la phase d'extraction d'information qui ncessite de dnir au pralable le modle de l'information que l'on cherche extraire.

4.3 Modlisation d'un synopsis


L'extraction d'information consiste extraire une information structure partir d'un texte. Cela ncessite de dnir une structure ou un patron sur lequel l'analyse va s'appuyer an de retrouver les informations pertinentes. Bien videment cette structure est dpendante du contexte et de la tche que l'on dsire raliser. Ainsi, le patron servant la recherche d'information caractrisant les spams dans un serveur de messagerie est dirent d'un patron en recherche d'information en gntique. Dans le cas des synopsis, nous avons vu grce l'analyse statistique du corpus que, d'une faon globale, l'information contenue dans les synopsis pouvait tre regroupe sous forme de trois thmatiques principales en relation avec l'histoire raconte par le lm (la quatrime FILM - concerne une thmatique connexe au lm et aux techniques d'animation). Bien que ces textes soient courts ils permettent gnralement de synthtiser le sujet trait par le lm (qui sont eux aussi courts 10 min). Ainsi partir de l'analyse statistique du corpus et d'une expertise du domaine, un ensemble de caractristiques communes prsentes dans ces pritextes a pu tre isol. Ces caractristiques ont pu tre prcises, hirarchises et regroupes pour former un modle d'information reprsentatif de l'information d'un synopsis. Nous cherchons donc extraire des synopsis des informations bien prcises comme les personnages, leurs actions et le contexte de ces actions (les lieux et les temps de l'histoire). Finalement dans ce modle nous avons choisi de nous focaliser sur la recherche des actions dcrites dans les textes (actions mises en lumire dans la thmatique de la vie de l'Homme, voir gure 4.11).

4.3.1 Le scnario actanciel


Ces informations sont modlises sous la forme d'un schma spcique que nous avons baptis Scnario Actanciel (voir la gure 4.14). Ce schma spcique se distingue du schma narratif et du schma actanciel. En eet le schma narratif [Propp et al., 1970, Bremond, 1973] permet selon Propp l'analyse d'un rcit et d'en extraire la structure en s'appuyant sur les lments suivants :  la situation initiale, (ou tat initial).  l'lment dclencheur qui modie la situation initiale.  les pripties (toutes les actions) entreprises par le(s) hro(s) pour atteindre son (leur) but.

4.3. MODLISATION D'UN SYNOPSIS  l'lment de rsolution (dnouement) qui conduit la situation nale.  la situation nale qui est la n du rcit.

91

Le schma actanciel [Greimas, 1966] explicite les relations entre les actants qui permettent le rcit. On retrouve dans ce dernier les lments suivants :  Le destinateur est le mandateur qui pousse le hros agir, celui qui l'envoie en mission.  Le sujet (ou hros) est celui qui accomplit l'action, celui qui eectue la qute.  L'objet est ce que cherche le sujet ou ce qu'il doit accomplir.  Le destinataire est le bnciaire de l'action du sujet.  L'opposant qui nuit au sujet et l'empche d'agir.  L'adjuvant est la personne (ou l'objet) qui vient en aide au sujet, lui permettant de surmonter les preuves auxquelles il se trouve confront. Dans le cas des synopsis ces schmas sont inadapts car beaucoup trop complexes. En eet les synopsis ne sont pas toujours des textes narratifs et ils sont bien trop courts pour apporter la richesse informationnelle ncessaire l'instanciation de ces modles. Ainsi nous proposons un schma beaucoup plus simple et proche de l'information contenue dans les textes dont nous disposons.

Figure 4.14  Le scnario actanciel sous forme d'un schma UML

Notre scnario actanciel ou modle d'information (gure 4.14) nous permet de nous focaliser sur l'action. L'action (ou procs 8 du verbe) fait intervenir des actants (sujets et complments d'objets du verbe) qui sont des acteurs (ceux qui participent l'action) ou des objets (ceux qui subissent ou permettent l'action). Cette action se droule dans une scne qui est la description du contexte temporel et/ou locatif (complments circonstanciels de lieux et/ou de temps). Ce modle nous permet donc de capturer l'information de type action contenue dans les quelques lignes d'un synopsis.
8. On dit d'un verbe qu'il indique un procs quand il exprime une action ralise par le sujet, par opposition notamment aux verbes exprimant un tat ou un rsultat. Dictionnaire de linguistique, Larousse, 1991

92

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

4.3.2 Exemple
Voici un exemple pour expliciter notre approche. Prenons le synopsis du lm Bus Stop :  Un caribou et un Canadien se disputent un peu de place sur un banc en attendant l'autobus.  nous avons :  3 Actants : dont 2 Acteurs (un caribou et un Canadien ) et un Objet (la place )  1 Action : se disputer  1 Scne -lieux : banc -temps : en attendant l'autobus ce qui donne le scnario actanciel de la gure 4.15.

Figure 4.15  Le scnario actanciel (sous forme d'un schma UML) du synopsis du lm

Stop

Bus

4.4 L'Extraction d'Information


Le but de cette tape est d'extraire automatiquement partir d'une ressource textuelle rduite, en l'occurrence un synopsis, une information structure selon notre scnario actanciel. En ralit l'Extraction d'Information (EI) en traitement de la langue est une sorte de systme de recherche d'information qui consiste retrouver une information structure l'intrieur du texte. Pralablement, il faut tre capable d'expliciter et structurer l'information que l'on dsire retrouver dans les textes analyser. L'EI est donc une approche dirente de l'Extraction de Connaissances qui consiste analyser un corpus volumineux sans aucune connaissance a priori sur le(s) texte(s) an d'en extraire une information.

4.4.1 Les tapes


La chane de traitements permettant de raliser cette tche automatiquement est une chane assez classique en EI [Kosseim et Lapalme, 1998, Muslea, 1999, Cunningham, 2005, Sarawagi, 2008]. Le schma que nous avons adopt (gure 4.16) est compos d'un ensemble

4.4. L'EXTRACTION D'INFORMATION

93

Figure 4.16  Diagramme des direntes tapes de l'extraction d'information partir d'un

synopsis

d'tapes qui permettent de passer du texte non ou peu structur vers sa reprsentation structure. Nous allons dtailler brivement l'ensemble de ces tapes :  La segmentation de texte est une phase ncessaire pour un trs grand nombre d'applications en traitement automatique du langage. Elle permet le dcoupage du texte en units homognes et interprtables comme les mots, les phrases ou les paragraphes. La segmentation s'appuie le plus souvent sur les signes de ponctuation qui constituent des marques pivot pour identier les phrases [Mourad, 1999].  L'Analyse lexicale vise transformer un ensemble de caractres en un lexme (mot). Cette analyse se base sur un tiqueteur lexical qui recherche la catgorie lexicale de chaque mot (article, nom, verbe, dterminant, etc.) en se basant sur des lexiques, mais galement sur des outils de dsambigusation smantique. Par exemple dans la phrase  je plante une plante verte  le mot plante peut tre un nom ou un verbe.  L'Analyse syntaxique consiste exhiber la structure d'un texte construit en utilisant un ensemble de rgles de syntaxe formant une grammaire formelle. Cette analyse donne alors prcisment la faon dont les rgles de syntaxe sont combines dans le texte. Connatre la structure syntaxique d'un nonc permet d'expliciter les relations de dpendance (par exemple entre sujet et objet) entre les dirents lexmes, puis de construire une reprsentation du sens de cet nonc.  La tche d'Interprtation consiste ajouter de l'information smantique l'analyse syntaxique an de permettre l'application de rgles d'extraction pour instancier le modle de reprsentation de l'information qui, dans notre cas, est le scnario actanciel. La tche d'Interprtation qui consiste en une analyse smantique s'appuie gnralement sur 5 grandes tapes dnies par la Message Understanding Conference (MUC) [Grishman, 1996] que l'on retrouve dans la plupart des systmes d'EI [Cunningham, 2005].

Named Entity (NE) Recognition ,  la reconnaissance des entits nommes ", comme les

personnes et les organisations mais galement les lieux, les expressions temporelles et certains types d'expressions numriques.

94

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

Coreference resolution (CO) ,  la rsolution des corfrences ", consiste en l'identication

des mots ou segments qui se rfrent au mme objet. Par exemple l'anaphore est un type de corfrence. Dans la phrase  Jean n'avait pas de stylo : je lui ai prt le mien , le pronom possessif  le mien  est une anaphore dont l'antcdent est le nom  stylo .

Template Element (TE) construction ,  la rsolution des descriptions ", consiste en la

construction des tables d'lments dans lesquelles sont ajoutes aux entits reconnues par l'tape de NE les informations descriptives contenues dans le texte.

Template Relation (TR) construction ,  la rsolution des relations ", consiste en l'identication des relations entre les entits trouves dans l'tape de TE. Cela peut tre par exemple des relations de type employ (entre une personne et une entreprise).

Scenario Template (ST) production ,  l'instanciation du modle d'information ", c'est la

sortie du systme. Il remplit le modle de reprsentation de l'information prdnie par l'utilisateur en liant ensemble les entits extraites de l'tape du TE avec les relations extraites du TR.

An d'illustrer ces direntes tapes prenons l'exemple suivant :  La fuse rouge brillant a t mise feu mardi. C'est l'invention du Dr Head. Il fait partie du personnel scientique de Rockets Inc. .  L'tape du NE extrait les entits suivantes fuse, mardi, Dr. Head et Rockets Inc.  L'tape du CO trouve que c'est se rfre la fuse et que Il se rfre au Dr. Head.  L'tape du TE dcouvre que la fuse est rouge brillant et qu'elle est l'invention de Head.  L'tape du TR dcouvre que le Dr. Head travaille pour l'entreprise Rockets Inc.  L'tape du ST dcouvre que l'vnement prsent ici est le lancement d'une fuse et que les direntes entits y sont impliques.

Nous venons de voir qu'une analyse smantique du texte permet d'identier les informations pertinentes an d'instancier le modle d'information. Dans le cadre de l'analyse des synopsis, nous allons nous intresser aux premires tapes qui consistent analyser le lexique et la syntaxe du texte. Puis nous verrons comment la tche d'interprtation est ralise pour instancier le scnario actanciel.

4.4.2 L'analyse syntaxique


Un premier travail, prliminaire l'analyse smantique, est l'analyse syntaxique dnomme aussi analyse linguistique qui consiste tudier les dpendances syntaxiques entre

4.4. L'EXTRACTION D'INFORMATION

95

units c'est--dire d'exhiber la structure d'un texte crit dans une langue naturelle. Un analyseur syntaxique (parser, en anglais) est un programme informatique qui ralise cette tche automatiquement. La structure rvle par l'analyse est en fait la structure grammaticale qui donne alors prcisment la faon dont les rgles de syntaxe sont combines dans le texte. Par exemple les units interprtables pour qualier un objet ou un concept du monde rel sont en gnral les groupes nominaux [Haddad et Chevallet, 2003, Turenne, 2001]. De plus, l'instanciation automatique du scnario actanciel est fortement dpendante de cette analyse syntaxique. En eet, le sujet d'un verbe d'action sera toujours un Actant, les complments circonstanciels de lieu et de temps seront quant eux les lments de la Scne. Contrairement aux approches classiques, ce n'est pas l'tape de reconnaissance des entits nommes (NE) qui permettra de retrouver coup sr les acteurs de notre scnario actanciel. En eet, dans un texte classique les acteurs sont des tres humains que l'on retrouvera grce la reconnaissance des entits nommes. Dans le cas des synopsis, cet a priori est remis en question. Par exemple dans la phrase : Les trois petits cochons s'enfuient et se rfugient dans la maison de briques , la reconnaissance des entits nommes (NE) ne permet pas de retrouver les actants du lm (un cochon est un animal et non une personne) c'est principalement la syntaxe et la reconnaissance des rgles grammaticales (ici le lien entre le sujet et le verbe d'action) qui conduiront l'instanciation du modle. Pour raliser cette analyse nous avons dcid d'utiliser les synopsis anglais car l'ensemble des outils de Traitement Automatique de la Langue (TAL) disponibles et modiables (en open source) sont diciles trouver pour le franais. Nous utilisons donc l'analyseur Link Grammar (LG) qui est un parser de la langue anglaise implmentant dj une segmentation et une analyse lexicale. De plus ce parser est rgulirement amlior 9 et on le retrouve dans de nombreux travaux [Madhyastha et al., 2003, Pyysalo et al., 2006, Curtis et al., 2009, Hakenberg et al., 2009].

4.4.2.1 Un analyseur syntaxique : Link Grammar


LG est un parser pour la langue anglaise [Sleator et Temperley, 1991] bas sur le modle introduit par Lucien Tesnire des grammaires de dpendance (Dependency Grammar) dont le principe est qu'un mot dpend d'un autre. Dans une phrase, les mots ne font pas que se suivre, ils entretiennent galement des relations. La principale caractristique de ces grammaires est que la structure d'une phrase est vue comme un mot appel tte (verbe), auquel sont attachs des modicateurs (par exemple les sujets, les complments). Les modicateurs peuvent leur tour possder des modicateurs et la structure d'une phrase devient une arborescence (gure 4.17) [Aubin, 2002].

Plus spciquement LG utilise un ensemble de mots dnis dans un dictionnaire et contraints par des rgles de combinaison (linking requirement). Une phrase grammaticalement correcte est donc une squence de mots telle qu'il existe un chemin qui permet de connecter tous les mots entre eux. La gure 4.18 montre un tel dictionnaire pour les mots a, the, cat, snake, Mary, ran, et chased. Chaque mot a un ou plusieurs connecteurs qui peuvent s'encher les uns dans les autres (sous rserve d'tre compatibles). Ainsi le mot cat besoin de saturer ses connecteurs (point noir gure 4.18). Il doit donc mettre en jeu un connecteur de type D (connexion entre un dterminant et un nom) sa gauche ET l'un des deux connecteurs : de type O (connexion
9. http://www.abisource.com/projects/link-grammar

96

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

Figure 4.17  Arbre des dpendances syntaxiques

Figure 4.18  Extrait du dictionnaire de Link Grammar

entre un verbe et un objet) sa gauche OU un connecteur de type S (connexion entre un nom sujet et un verbe) sa droite. Le diagramme 4.19 montre comment l'ensemble des mots de la phrase The cat chased a snake peuvent crer un ensemble de liens ( linkage ) corrects (Correct : signiant que les liens ne se croisent pas et qu'ils susent connecter tous les mots ensemble).

Figure 4.19  Diagramme de liaisons correctes

Il est facile de voir que les phrases Mary chased the cat et The cat ran sont aussi des phrases grammaticalement correctes. Par contre comme on peut le voir sur la gure 4.20 la phrase the Mary chased cat est incorrecte. Ainsi l'analyse de la structure grammaticale d'une phrase est dtermine par les connecteurs mis en jeu lors de la cration des liens ( linkage ) de cette dernire, chaque connecteur ayant un rle syntaxique particulier (par exemple le connecteur S correspond au rle de sujet par rapport au verbe). Par contre une des dicults rencontre avec LG est qu'il cre plusieurs schmas possibles pour une mme phrase, cela pouvant aller jusqu' plusieurs centaines de schmas de liaisons ( linkages ) pour une phrase contenant une dizaine de mots. Dans [Kakkonen, 2008, Pyysalo et al., 2006, Molla et Hutchinson, 2003] les auteurs n'utilisent que le premier rsultat retourn par l'algorithme qui est le schma le plus plausible. Or ne prendre

4.4. L'EXTRACTION D'INFORMATION

97

Figure 4.20  Diagramme de liaisons incorrectes

qu'un schma ( linkage ) ne permet pas d'obtenir la structure syntaxique complte de la phrase et notamment lorsqu'il y a plusieurs sujets. Dans la phrase John and Matt run on the road ne prendre que le premier  linkage  fait que l'on perd un des 2 sujets (gure 4.21). An de remdier ce problme nous avons programm un module statistique qui se focalise sur le verbe et ses relations. Ainsi tous les schmas retourns par LG sont pris en compte et chaque mot se voit attribu la catgorie o il apparat le plus de fois.

Figure 4.21  Rsultats de Link Grammar quand il y a 2 sujets

LG), pour chaque mot, les liens qui lui sont attribus et plus particulirement les liens du

Dans l'exemple de la gure 4.21 le module regarde (parmi les 2 schmas retourns par

type sujet (S), verbe (V), objet (O) et complment adverbial (A). On cre 4 tables (une pour chaque type) de contingence dans lesquelles on note le nombre de fois (parmi tous les schmas retourns) o le mot a t catgoris sujet, verbe, objet ou complment adverbial. On obtient pour cet exemple les tables suivantes (chaque case correspond un mot de la phrase)

S V O A

1 0 0 0

0 0 0 0

1 0 0 0

0 2 0 0

0 0 0 2

0 0 0 2

0 0 0 2

A partir de ce tableau il est facile de calculer des paramtres statistiques et d'aecter chaque mot sa catgorie syntaxique la plus probable. Dans cet exemple les sujets sont John and Matt, le verbe est run, il n y a pas de complment d'objet et le complment adverbial est on the road. Finalement ce module permet de retrouver les 4 groupes ou lments syntaxiques importants pour instancier le scnario actanciel. Voir l'annexe D.1 pour dirents exemples sur des phrases issues des synopsis.

98

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

4.4.2.2 Tests et rsultats


Une valuation de cet outil est ralise partir d'une vrit terrain construite la main et constitue d'une trentaine de synopsis. Le tableau 4.5 prsente une synthse des rsultats obtenus pour chacune des catgories grammaticales sous la forme d'une mesure de prcision et d'une mesure de rappel.

Prcision Rappel

Sujet Verbe Objet Adverbial


0.93 0.91 0.98 0.96 0.95 0.93 0.96 0.88

Table 4.4  Rsultats de l'analyse syntaxique sous forme de Prcision et de Rappel

On remarque travers ces rsultats que l'algorithme retrouve avec une trs bonne prcision les verbes et les groupes verbaux ( 98%). Cependant ils ne sont pas toujours tous retrouvs (rappel de 96%). Cette remarque est galement valable pour les sujets et groupes sujets. Ceci vient du fait que la recherche des groupes sujets est fortement lie la recherche des verbes. Bien que les synopsis soient trs souvent composs d'un sujet et d'un verbe clairement identiables, il y a cependant des phrases trs complexes qui sont par exemple composes de plusieurs verbes n'ayant qu'un seul sujet. Dans cette situation le rappel des verbes chute car l'algorithme tente de retrouver des couples sujet - verbe suivis d'un complment du verbe. Il existe des situations (comme dans la phrase suivante par exemple) o ces couples sont dicilement identiables :

The experiences of a paper character crumpled, rolled up, distorted, thrown away, shaken about, ending up by an encounter which is both sweet and light
l'algorithme dtecte 166 schmas ( linkage ) possibles et dtecte bien les 7 verbes puis retourne nalement trois structures Sujet-Verbe-Objet-Adverbial :

Sujet : the experiences of a paper character Verbe : crumpled Objet : Adverbial : rolled up
Dans cette structure le sujet et le premier verbe sont correctement retrouvs alors que le deuxime verbe est interprt par l'algorithme comme un complment adverbial du premier verbe car celui-ci vient juste aprs. Puis il retourne la deuxime structure suivante :

Sujet : the experiences of a paper character Verbe : distorted Objet : Adverbial : crumpled, rolled, thrown
L'algorithme retourne une deuxime structure identique la premire o les verbes sont vus comme des complments du verbe distorted. Ceci vient du fait que l'algorithme tente de retrouver des  linkage  o chaque mot met en jeu des connecteurs qui lui sont propres.

4.4. L'EXTRACTION D'INFORMATION

99

Or les verbes ne sont gnralement pas connects les uns aux autres ce qui conduit l'interprtation errone prcdente. Finalement seule la dernire structure (plus conventionnelle) est retrouve :

Sujet : an encounter Verbe : is Objet : Adverbial : sweet , light


Les complments d'objets et complments adverbiaux sont beaucoup plus diciles extraire de ces textes, mme par un oprateur humain en raison de la complexit syntaxique de certains synopsis. De plus, la distinction entre les dirents types de complments est un processus complexe qui se fait bien souvent sur la base de la comprhension smantique de la phrase. De plus, dans certaines situations (voir l'exemple ci dessus) des verbes peuvent tre interprts comme des complments adverbiaux ce qui augmente le nombre de mauvaises dtections faisant ainsi chuter la prcision. Finalement, nous sommes arrivs la conclusion assez naturelle que cet algorithme donne de bon rsultats lorsque les phrases sont courtes et bien formes. Par contre les rsultats sont dgrads lorsque les phrases deviennent longues et complexes. De plus les rsultats de ces analyses restent satisfaisants, ce qui permet d'aborder la phase d'instanciation du scnario actanciel.

4.4.3 La tche d'Interprtation


La tche d'Interprtation (voir gure 4.22) a pour but d'instancier le modle d'information. Pour cela cette tche s'appuie sur l'analyse syntaxique et sur la reconnaissance smantique des lments du texte. Dans ce dernier cas, il est ncessite d'avoir des connaissances pour reconnaitre et construire le modle d'information. Ainsi, l'utilisation de ressources smantiques extrieures comme le thsaurus WordNet permet d'avoir un rfrentiel assez complet et gnral pour pouvoir mettre en place cette tche.

Figure 4.22  Instanciation du scnario actanciel

L'instanciation du scnario actanciel (voir gure 4.22) se fait partir des trois ressources suivantes :  L'information syntaxique : Cette information permet de connaitre les liens syntaxiques qui lient les dirent lments de la phrase. Or nous l'avons vu prcdemment, les

100

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES informations prsentes dans le scnario actanciel sont fortement lies la structure syntaxique de la phrase. Par exemple, l'Action du scnario actanciel sera toujours un verbe dont le sujet sera toujours un Actant.  L'information smantique : Cette information apporte par le rseau smantique WordNet, permet de caractriser smantiquement les lments constituant la phrase. Ce rseau de concepts nous permet de ltrer les lments de la phrase suivant leur catgorie conceptuelle.  Les rgles d'instanciation : Un ensemble de rgles permet, partir des informations de syntaxe et des informations conceptuelles, d'attribuer aux lments de la phrase une place et un rle dans le scnario actanciel.

Puisque l'analyse syntaxique a t vue prcdemment nous allons maintenant dtailler l'utilisation du thsaurus WordNet ainsi que les rgles d'instanciation.

4.4.3.1 Un thsaurus : WordNet


WordNet [Miller, 1995] est une base de donnes lexicales ( 150, 000 mots) dveloppe par des linguistes du laboratoire des sciences cognitives de l'universit de Princeton. Son but est de rpertorier, classier et mettre en relation de diverses manires le contenu smantique et lexical de la langue anglaise. Les noms, verbes, adjectifs et adverbes sont organiss en ensembles de synonymes (synsets 115, 000), reprsentant un groupe de mots interchangeables, dnotant un sens ou un usage particulier. WordNet 10 rpertorie ainsi une grande varit de relations smantiques permettant d'organiser le sens des mots (et donc par extension les mots eux-mmes). Il regroupe de nombreux mots et concepts de la langue anglaise en restant indpendant d'un domaine. Ceci est important pour nous car les synopsis n'utilisent pas un vocabulaire spcialis et sont trs htrognes. On peut dnir de manire succincte ces relations comme suit (il existe d'autres relations plus spciques aux verbes) :  Relation Synonymie : le synset (synonym set), reprsente un ensemble de mots qui sont interchangeables dans un contexte donn.  Relation Hyperonymie : c'est le terme gnrique utilis pour dsigner une classe englobant des instances de classes plus spciques. Y est un hyperonyme (hypernyme) de X si X est une sorte de (kind of) Y.  Relation Hyponymie : c'est le terme utilis pour dsigner une classe spcique d'une classe gnrique (relation inverse de Hypernymie). X est un hyponyme de Y si X est un type de (kind of) Y.  Relation Holonymie : c'est le terme utilis pour dsigner une classe constitue d'autres classes (mronymes). Y est un holonyme de X si X est une partie de (is a part of ) Y.
10. Nous avons ralis une version pour Windows qui est disponible http://sourceforge.net/projects/ wordnet30forwin

4.4. L'EXTRACTION D'INFORMATION

101

 Relation Mronymie : c'est le terme utilis pour dsigner une classe/partie constituante (part of), substance de (substance of) ou membre (member of) d'une autre classe (relation inverse de l'Holonymie). X est un mronyme de Y si X est une partie de Y. exemple : avion a comme meronymes porte, moteur ; moteur a comme meronymes hlice, racteur.

Figure 4.23  Extrait d'une partie de la hirarchie des hyponymes de move sous WordNet

La gure 4.23 prsente une sous hirarchie de WordNet correspondant au concept move. A partir de cette hirarchie il est facile de retrouver les verbes de mouvement. En eet, pour un lment donn il sut de parcourir la hirarchie de ses hyperonymes an de vrier qu'il est un hyponyme du concept gnral move . Cette ressource et ce mcanisme de parcours du rseau des hyperonymes nous permet de caractriser smantiquement les lments de la phrase partir d'un ensemble de concepts gnraux de base lis au scnario actanciel. Nous avons dni trois super-concepts lis aux classes du scnario actanciel qui contiennent chacun des concepts de base de WordNet :  L'Action. Un lment X appartient ce super-concept si il a au moins dans son rseau d'hyperonymes un des concepts de base de WordNet inclus dans le super-concept Action. Nous dnissons ce super-concept comme l'ensemble des concepts de base suivant : Action = {travel, go, move, locomote, change}

X Action Si :

travel Hyperonyme(X ) go Hyperonyme(X ) move Hyperonyme(X ) locomote Hyperonyme(X ) change Hyperonyme(X )

OU OU OU OU

 Le Lieu. Un lment X appartient ce super-concept si il a au moins dans son rseau d'hyperonymes un des concepts de base de WordNet inclus dans le super-concept Lieu. Nous dnissons ce super-concept comme l'ensemble des concepts de base suivant :

Lieu = {area, location, place, land, construction}

102

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

X Lieu Si :

area Hyperonyme(X ) location Hyperonyme(X ) place Hyperonyme(X ) land Hyperonyme(X ) construction Hyperonyme(X )

OU OU OU OU

 Le Temps. Un lment X appartient ce super-concept si il a au moins dans son rseau d'hyperonymes un des concepts de base de WordNet inclus dans le super-concept Temps. Nous dnissons ce super-concept comme l'ensemble des concepts de base suivant : Temps = {event, time period, time unit}

X T emps Si :

event Hyperonyme(X ) time period Hyperonyme(X ) time unit Hyperonyme(X )

OU OU

Les super-concepts lis aux actants et notamment aux acteurs n'ont pas t dvelopps ci dessus. En eet, comme nous l'avons dj dit, les connaissances a priori du monde rel ne s'appliquent pratiquement plus dans le monde de l'animation. Dans notre monde rel un acteur est un tre vivant qui est l'origine de l'action, c'est donc une entit qui est anime et vivante. Dans WordNet cela reviendrait dnir le super-concept Acteur qui contiendrait un des concepts de base comme person ou living thing. Cependant cette caractristique des actants n'est plus valable dans le cadre de l'animation puisque par dnition un lm d'animation est une uvre dans laquelle l'auteur donne l'illusion de la vie des objets qui par nature sont inertes. Par exemple Bob l'ponge n'est pas dni comme une personne dans WordNet car le mot sponge est dni comme un absorbent material . Dans le lm The Inspector Goes Back Home le synopsis dcrit l'histoire suivante :  An inspector walks the streets of the town, carefully trying to avoid danger. At home he washes his feet and reads the newspaper. Suddenly he notices a nger-print starting to run away. The inspector stalks its trail all over town. In the end he realises that he has been pursuing the print of his own nger. . Dans ce synopsis l'empreinte digitale (nger-print) est personnalise puisqu'elle ralise une action qui est courir. Finalement cette entit qui par dnition est inanime (dans WordNet nger-print appartient au concept abstraction, abstract entity) doit apparatre comme un Actant dans le scnario actanciel. Par consquent, la seule restriction que nous faisons pour dnir un actant provient de la catgorie lexicale auquel appartient l'lment que l'on cherche catgoriser. En eet, un actant doit obligatoirement tre un nom, nous excluons donc les adjectifs et les adverbes.

4.4.3.2 Les rgles d'instanciation


Lorsque l'on dispose de la syntaxe et de la catgorie smantique des lments de la phrase nous pouvons grce l'utilisation de rgles, instancier les direntes classes du scnario actanciel. En eet, ces rgles permettent de relier les connaissances syntaxiques et conceptuelles aux catgories du scnario actanciel. Nous prsentons ici l'ensemble de ces rgles pour chacune des catgories du scnario actanciel :  L'Action. Cet lment fondamental du scnario actanciel est li un verbe conjugu 11 et est dni comme ceci :
11. le verbe est li au moins un sujet et au moins un complment (d'objet direct/indirect ou adverbial)

4.4. L'EXTRACTION D'INFORMATION

103

l'lment X est une Action Si :

X est un verbe conjugu X Action

ET

 Les Acteurs. Ces lments sont les initiateurs de l'action et sont dnis comme ceci :

X est un Acteur Si :

X est un : nom ou nom propre ou pronom X est sujet du verbe d'action

ET

 Les Objets. Ces lments sont spectateurs de l'action et sont dnis comme ceci :

X est un Objet Si :

X est un : nom ou nom propre ou pronom X est complment d'objet du verbe d'action

ET

 Les Scnes Locatives. Ces lments sont le contexte locatif o se produit l'action et sont dnis comme ceci :

X est un Lieu Si :

X est complment adverbial du verbe d'action X Lieu

ET

 Les Scnes Temporelles. Ces lments sont le contexte temporel o se produit l'action et sont dnis comme ceci :

X est un Temps Si :

X est complment adverbial du verbe d'action X T emps

ET

Voir l'annexe D.1 pour dirents exemples sur des phrases issues des synopsis. Finalement la dirence entre les Acteurs et les Objets est lie leur relation syntaxique par rapport au verbe de l'action.

4.4.3.3 Tests et rsultats


Une valuation de cet outil est ralise partir d'une vrit terrain construite la main et constitue d'une trentaine de synopsis. Le tableau prsente les rsultats pour chacune des catgories grammaticales sous forme de prcision et de rappel. On remarque travers ces rsultats que l'algorithme retrouve avec une trs bonne prcision les actions. Ce rsultat vient du fait que l'analyse syntaxique retrouve gnralement assez bien les verbes de la phrase (le rappel de l'analyse syntaxique est de 96%). De plus, lorsque l'on ltre ceux-ci avec WordNet on limine les lments qui auraient pu tre classs

104

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

Prcision Rappel

Acteur Objet Action Scne lieu Scne temps


0.94 0.91 0.97 0.95 1 1 0.91 0.86 0.97 0.91

Table 4.5  Rsultats de l'instanciation automatique du Scnario Actanciel

abusivement comme des verbes. Enn le rappel est proche de 100% car les verbes non retrouvs par l'analyse syntaxique ne sont quasiment jamais des verbes d'action. Cela vient du fait que LG retrouve trs bien les schmas Sujet+Verbe+Complment du verbe qui sont les schmas lis au scnario actanciel et donc aux verbes d'action. Les actants quant eux obtiennent des rsultats identiques (en rappel) ceux de l'analyse syntaxique des groupes sujets et objets, ce qui est cohrent avec les rgles d'instanciation. En eet, l'utilisation du thsaurus permet simplement de ltrer les rsultats de l'analyse syntaxique et donc d'amliorer les rsultats de prcision. Les rsultats lis la recherche de la scne sont les moins bons. Ceci est d la grande varit des complments adverbiaux retrouvs par LG. En eet, ils peuvent tre de nombreuses natures comme des complments circonstanciels de lieu ou de temps (ceux qui nous intressent ici) mais galement des complments circonstanciels de manire, de cause , de consquence, etc. C'est l'utilisation de WordNet qui permet de distinguer les lieux des temps. Cependant notre approche ne tient pas compte de la polysmie 12 des termes rencontrs. Ainsi dans WordNet de nombreux termes peuvent, suivant leurs sens, appartenir au super-concept de lieu et/ou de temps.

4.5 Analyse thmatique


Nous venons de voir qu'il est possible partir du synopsis d'obtenir un modle et une description dtaille de l'action mise en uvre dans les lms d'animation. Cependant cette information est trs souvent lie une description locale de ce qui se passe dans la squence vido, elle est donc plus dicile exploiter pour caractriser globalement le lm. Dans cet objectif, nous envisageons dans nos travaux la caractrisation globale de la squence d'animation travers la sensation ou atmosphre dgage par le lm. Cette caractristique qui correspond gnralement au genre du lm est une information importante pour caractriser l'uvre dans son ensemble. De plus, cette caractrisation globale travers le genre du lm d'animation est motive par le fait que ce champ est trs souvent mal ou peu renseign dans les ches d'inscription au festival. Dans notre contexte, cette description gnrale de la squence est envisage par l'analyse du synopsis et du vocabulaire utilis pour dcrire le lm. En eet les champs lexicaux des vocabulaires utiliss dans les textes sont les marqueurs d'une volont de la part de l'auteur de crer un contexte ou une atmosphre son histoire. Il y a donc une relation entre le champ lexical port par les vocabulaires et cette atmosphre dgage par le texte. Dans une approche purement statistique nous avons tent de retrouver les genres d'animation des lms partir des synopsis et de la prsence de termes spciques caractristiques (voir annexe D.2 sur la classication supervise des synopsis). Dans cette approche un en12. Proprit d'un terme qui prsente plusieurs sens. Les mots les plus frquemment utiliss sont le plus souvent polysmiques. En revanche, la monosmie caractrise surtout les vocabulaires scientiques et techniques.

4.5. ANALYSE THMATIQUE

105

semble de termes spciques sont extraits par une analyse statistique du corpus et de son vocabulaire. Ces termes spciques sont consigns dans des rfrences lexicales (liste de mots partageant une mme thmatique ou de mme champ lexical) qui servent ensuite discriminer les genres des lms d'animation. Cependant mme si cette approche permet de retrouver des genres comme le genre Publicitaire, Artistique, Exprimental ou Musical, ces lexiques comportent beaucoup de bruits (ici le bruit dsigne le fait que les termes appartenant une rfrence lexicale ne partagent pas tous le mme signi (ou champ lexical) et/ou que ces signis n'ont aucun rapport avec la thmatique commune de la rfrence lexicale). Ce bruit et le manque de smantique de ces rfrences lexicales contribuent dgrader les rsultats. En eet, on retrouve les termes comme beau, espoir dans la rfrence lexicale du drame alors que ces termes traduisent plutt une atmosphre positive. On retrouve galement des termes comme exprience, fentre, parfois, etc, qui n'ont aucun rapport avec la thmatique du drame et qui constituent du bruit smantique par rapport la thmatique de la rfrence lexicale. Finalement, l'analyse de ces lexiques (constitus automatiquement par analyse statistique) nous a permis de mettre en vidence des regroupements smantiques l'intrieur de ces rfrences lexicales et plus particulirement dans le cas du lexique associ au genre Dramatique. En eet, des thmes comme la mort, la guerre, l'horreur, etc, ont pu tre retrouvs. Ainsi nous proposons de porter notre analyse sur ce genre particulier du "drame" dont le vocabulaire est facilement reconnaissable car habituellement li une atmosphre noire, funbre et inquitante. De plus, on  sent bien  que les informations apportes par l'image comme la couleur et ses contrastes peuvent traduire une atmosphre dans la squence vido qui peut tre relie et complte par une atmosphre traduite par le texte. Finalement, pour identier une atmosphre lie au drame partir du texte nous proposons d'utiliser une analyse thmatique des synopsis. Une thmatique est une liste de dictionnaires composs de mots ou de regroupements de mots (ou expressions) relevant d'un mme thme. L'analyse thmatique sert mesurer la tendance de la thmatique tre prsente dans le texte. Cette mesure est eectue par l'intermdiaire de l'intensit lexicale Ilex dnie comme tant le rapport entre le nombre de mots du texte T x appartenant la thmatique T h et le nombre total de mots dans ce mme texte.

Ilex =

card(T x T h) card(T x)

(4.3)

avec Ilex [0; 1]. Le calcul de l'intensit lexicale peut tre vu comme le calcul du tf dans le calcul du tf-idf. Malheureusement, une telle ressource linguistique n'a pas t trouve (WordNet ne dispose pas d'un hyper-concept li au drame). Nous avons donc cr cette ressource linguistique que nous nommons dictionnaire thmatique du drame. Notons que la qualit en terme de prcision et d'incertitude de la mesure de l'intensit lexicale est lie la richesse (en terme de vocabulaire) du dictionnaire thmatique mais passe galement par la prsence de bruit smantique dans ce dictionnaire (les signis de chacun des termes constituant ce dictionnaire doivent appartenir au thme considr). Pour satisfaire ces deux contraintes et an de simplier la tche de constitution du dictionnaire par la non prise en compte des direntes exions des termes, nous utilisons les versions lemmatises des synopsis. Pour obtenir une richesse susante en terme de vocabulaire de notre dictionnaire et obtenir ainsi une plus grande couverture de notre ressource thmatique nous utilisons, pour un terme donn, l'ensemble de ses synonymes (termes ayant un signi (ou sens) identique) obtenus grce

106

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

au dictionnaire des synonymes CRISCO 13 . Ce dictionnaire [Manguin et al., 2004] est mis disposition du grand public par le Centre de Recherche Inter-langues sur la Signication en COntexte de l'Universit de Caen Basse-Normandie. Il contient approximativement 49 000 entres et 396 000 relations synonymiques issues d'un regroupement de sept dictionnaires classiques : le Bailly, le Benac, le Du Chazaud, le Guizot, le Lafaye, le Larousse et le Robert.

4.5.1 Constitution du dictionnaire thmatique du drame


Notre objectif est de constituer un dictionnaire thmatique semi-automatiquement par le regroupement de synonymes partir d'un ensemble de termes de dpart (nots germes par la suite). Pour cela nous avons dvelopp un algorithme de parcours du rseau synonymique du CRISCO qui permet d'extraire l'ensemble des synonymes des germes tout en prenant en compte les points suivants :  une vrication du parcours a t implmente pour viter les rebouclages innis dans des parties du rseau.  une profondeur maximale de parcours du rseau a t xe pour ne pas utiliser de termes dont le signi serait trop loign de la thmatique recherche.  la vrication de la non extraction d'antonymes. En eet, le parcours d'un tel rseau conduit trs rapidement sur des termes antonymes des germes (termes fondateurs de la thmatique). Par exemple partir du germe drame nous obtenons les synonymes de premier niveau {accident, cantate, catastrophe, dramatique, vnement, mlodrame, opra, opra-comique, oratorio, pice, pice de thtre, thtre, tragdie, tragi-comdie } dont les antonymes sont {comdie, farce, idylle }. Maintenant si nous parcourons l'ensemble des synonymes du deuxime niveau (les synonymes des synonymes du germe) nous obtenons pour le terme thtre la liste de ses synonymes {amphithtre, arne, boui-boui, boulevard, bunraku, caf-concert, caf-thtre, comdie, compagnie, dcor, drame, emplacement, endroit, farce, kabuki, lieu, littrature, mimesis, miracle, mystre, n, oeuvre, opra, opra-comique, pigeonnier, planches, plateau, salle, scne, site, studio, trteaux }. On remarque que parmi les synonymes du deuxime niveau on obtient le terme comdie qui est un antonyme du germe (drame). Une telle vrication est donc ncessaire pour ne pas regrouper les germes et leurs antonymes. Pour lancer le processus de constitution du dictionnaire il faut au pralable dnir un ensemble de germes. Pour cela nous cherchons parmi l'ensemble des 5804 synopsis de la base des lms inscrits au festival (voir annexe B) le vocabulaire spcique des synopsis des lms dont le genre dclar est le drame. Pour obtenir ce vocabulaire nous cherchons obtenir la liste des mots qui pour une catgorie ou un contexte (en l'occurrence le drame dclar) semblent tre sur-reprsents par rapport aux autres catgories ou contextes. Cette liste de mots est construite partir de l'indice de spcicit de chaque modalit. Cet indicateur est le rapport entre le nombre d'utilisations observes et le nombre thorique d'utilisations tel qu'il rsulterait d'un emploi proportionnel au nombre total de mots prononcs par la catgorie considre. Les calculs de cet indice de spcicit s'apparentent aux calculs eectus pour le test du Chi2 [Sphinx, 2009]. Il s'agit de mettre en vidence des carts une rpartition
13. http://www.crisco.unicaen.fr/cgi-bin/cherches.cgi

4.5. ANALYSE THMATIQUE

107

de rfrence. On procde en calculant un eectif thorique rpondant une hypothse de rpartition proportionnelle des lments tudis. L'cart la rfrence est mis en vidence par le rapport entre l'eectif thorique et celui que l'on observe. Si on note N le nombre total de mots dans le corpus, m le mot utilis, la catgorie considre, Nm le nombre de fois o le mot m est utilis par toutes les catgories confondues, N le nombre total de mots dans la catgorie et Nm () le nombre de fois o le mot m est utilis dans la catgorie alors le nombre thorique d'utilisations tel qu'il rsulterait d'un emploi proportionnel au nombre total de mots prononcs par la catgorie considre est gal :

NT h (m) = N
et donc l'indice de spcicit est gal :
Ispe (m) =

Nm N

(4.4)

Nm () NT h (m)

(4.5)

 si les 2 eectifs sont identiques, le rapport est gal 1, la rpartition est proportionnelle.  si l'eectif rel est suprieur l'eectif thorique, l'lment considr est sur-reprsent dans la catgorie considre et le rapport est suprieur 1.  si l'eectif rel est infrieur l'eectif thorique, l'lment considr est sous-reprsent dans la catgorie considre et le rapport est infrieur 1.  si un mot est spcique une seule des catgories alors son indice de spcicit tend vers l'inni. Avec cette mesure on peut par exemple extraire les mots exclusifs une catgorie. Nous appliquons ce calcul sur les synopsis lemmatiss et dbarrasss des mots outils et est suprieur 1.5. Nous obtenons nous conservons les mots dont l'indice de spcicit Ispe = ) cette catgorie du une liste de plus de 1900 termes dont 370 sont exclusifs (Ispe drame. C'est par exemple les termes comme areusement, angoisser, barjot, conspiration, geisha, laideur, poignarder, vulnrabilit. Parmi ces termes beaucoup traduisent une atmosphre noire, dramatique, morbide ou violente (voir annexe D.4) mme si il y a beaucoup de bruit (termes ne partageant pas le champ lexical du drame). Aprs ltrage manuel 14 de cette liste de mots spciques nous obtenons une liste de plus de 80 germes comme : drame, mort, macabre, accident, dtruire, terrible, violent, violer, sinistre, sacrier, etc. (voir annexe D.5). Le dictionnaire est constitu de l'ensemble des synonymes de niveau 1 et 2 de ces 80 germes puis il est ltr manuellement an de supprimer les termes aberrants (bruit). Finalement ce dictionnaire de la thmatique du drame est constitu d'un peu moins de 800 termes.

4.5.2 Test et rsultats


Pour vrier le pouvoir discriminant de cette mesure nous calculons pour chaque synopsis l'intensit thmatique du drame (intensit lexicale associe au thme du drame), puis nous calculons la moyenne des intensits thmatiques pour chacune des catgories du genre dclar sans tenir compte des non-rponses. On voit sur la gure 4.24 que cette intensit thmatique
14. nous ne conservons que les termes qui se rapportent au drame c'est--dire des concepts comme la mort, la guerre, la sourance, la tristesse, l'horreur, la noirceur, etc.

108

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

est importante et signicative (les noms des critres discriminants sont encadrs et correspondent des moyennes signicativement direntes de l'ensemble de l'chantillon au risque de 95% (test de student)) dans le cas des genres Humour noir, Policier, Drame et Satire.

Figure 4.24  Moyenne des intensits thmatiques du drame en fonction du genre dclar

Cependant mme si le genre humour noir a un indice thmatique important cette catgorie de lm est trs minoritaire puisque seulement 2 lms sur 5804 ont t dclar de ce genre. Pour valuer le pouvoir discriminant de cette mesure thmatique, nous dcidons de classier navement et simplement les synopsis suivant cette intensit thmatique avec la rgle suivante :

SI 8.3 Idrame (S ) ALORS Genrepredit (S ) DRAM E .


Si l'intensit thmatique dramatique Idrame du synopsis S est suprieure au seuil de 8.3% (moyenne des intensits thmatique associes au Drame) alors on considre que le genre du lm d'animation est le drame. Nous comparons les rsultats de cette rgle avec le genre dclar. Si le genre dclar est le drame alors la classieur a retrouv le genre du lm sinon il s'est tromp. Nous obtenons la matrice de confusion (voir tableau 4.6) o chaque colonne de la matrice reprsente le nombre d'occurrences d'une classe estime, tandis que chaque ligne reprsente le nombre d'occurrences d'une classe dclare (ou de rfrence). Nous pouvons voir sur la gure 4.25 et avec la matrice de confusion 4.6 que le nombre de Faux Positifs (FP) et de Faux Ngatifs (FN) qui reprsentent l'erreur globale de la prdiction sont relativement importants (24%). A partir de cette matrice de confusion nous calculons les deux indicateurs que sont la prcision et le rappel :

4.5. ANALYSE THMATIQUE


XX XXX

109 Estim
XXX

Dclar

XXX

N onDrame
2892 (VN) 363 (FN)

Drame
614 (FP) 194 (VP)

N onDrame Drame

Table 4.6  Matrice de confusion sur la prdiction du Drame.

Positif (FP), Faux Ngatif (FN), Vrai Positif (VP)

Vrai Ngatif (VN), Faux

Figure 4.25  Reprsentation graphique des rsultats sur la prdiction du Drame

Prcision =

VP 194 = = 24% V P + FP 194 + 614 VP 194 Rappel = = = 34% V P + FN 194 + 363

Nous utilisons galement le F-score (ou F-mesure) mesure qui combine la prcision et le rappel :

Fscore = 2

P R 24 34 =2 = 28% P +R 24 + 34

On remarque que ces taux sont relativement faibles et que les rsultats ne sont pas bons (loin de 100%). Cependant ils sont nettement amliors (augmentation de 385% du rappel et de 71% de la prcision) par rapport l'approche purement statistique (voir gure D.3). Les causes de ces faibles rsultats sont les suivantes :  Ces faibles rsultats sont lis l'utilisation de vocabulaires connotation dramatique dans un contexte qui ne l'est pas ou bien des atmosphres dramatiques qui ne sont perceptibles qu' travers la comprhension de l'nonc et non par l'utilisation d'un vocabulaire spcique. C'est par exemple le cas dans les synopsis des lms suivants :

Le bonhomme de neige (1960) : Le printemps annonce la n de l'idylle entre une

llette et un bonhomme de neige. Lorsque ce dernier a tout fait fondu, demeure

110

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

sa place une eur, hommage d'aection.

Le mange (1979) : Dans une ville, par une nuit de violent orage, titubant sous de

grands parapluies noirs, des silhouettes convergent vers un mystrieux mange de chevaux de bois.

Signal (1983) : Un train s'apprte partir. On entend le signal de dpart et les voya-

geurs se prcipitent vers les wagons, mais un autre signal les ramne vers le quai. Les signaux se succdent, crant un norme aolement.

 Ces faibles rsultats sont lis galement l'utilisation d'une vrit terrain de mauvaise qualit. En eet le champ des genres dclars de la base de synopsis est pris comme vrit terrain ; or ce champ est souvent mal renseign ce qui conduit augmenter le nombre de Faux Positifs. Par exemple lorsque l'on s'intresse ces derniers (voir gure 4.26) on remarque que beaucoup de ces synopsis sont dclars comme Policier, Satire, Humour alors qu'ils dgagent, par leur lexique, une atmosphre dramatique. Dans ce dernier cas cette dualit entre humour et drame peut tre voulue par l'auteur mais correspondrait probablement plus au genre Humour noir.

The Old Man and the Flower (1960) : Genre dclar : Aventure

L'histoire d'un vieux bonhomme seul. Une eur le remarque et lui donne de la joie mais il la perd.

La pie voleuse (1964) : Genre dclar : Comdie Musicale

La guerre termine, ne trouvant chez lui que ruines, un soldat descend aux enfers. Le diable l'engage pour entretenir le feu sous les chaudrons. De ceux-ci sortent successivement un capitaine, un marchal et le roi, qui supplient le soldat de les librer. Il refuse, les enferme soigneusement dans leur chaudire et dcide de remonter sur Terre o, sans ces tyrans, la vie est maintenant belle.

La mtamorphose de M. Samsa (1977) : Genre dclar : Fantastique

M. Samsa, en s'veillant un matin, dcouvre qu'il est transform en cafard. Il connat la sourance de la rclusion et celle d'tre rejet de ceux dont il a jusqu'alors partag l'existence..

Les jeux des anges (1983) : Genre dclar : Satire

Une vision o la tragdie et l'horreur de notre monde moderne, dans ce qu'il engendre de violence et de svices, sont symbolises et suggres beaucoup plus que dcrites : un reportage dans la cit des anges.

Taxi de nuit (1996) : Genre dclar : Policier

Parce qu'il s'est aventur un soir dans la 42e rue et qu'il a rencontr Slacks, un chaueur de taxi va tre condamn mort. C'est de prison qu'il nous raconte son histoire.

4.6. CONCLUSION

111

Figure 4.26  Rpartition des rsultats de la prdiction du Drame suivant le genre dclar.

Les eectifs sont entre parenthses. Les eectifs sont suprieurs aux nombres d'observations en raison de rponses multiples (plusieurs genres par synopsis)

4.5.3 Conclusion partielle


Finalement, l'utilisation du lexique seul n'est pas susante pour retrouver coup sr les genres d'animation ; il est ncessaire de prendre en compte d'autres informations. L'amlioration des rsultats prcdents passe par exemple par la diminution des fausses dtections (FP) qui peut tre ralise grce :  La dtection d'autres atmosphres comme le Policier, l'Humour (voir les annexes D.3.2 et D.3.3 pour l'analyse thmatique de ces atmosphres) qui sont l'origine des fausses dtection permettrait de ne pas classer ces synopsis comme Dramatique.  L'apport d'informations non textuelles issues du lm lui mme comme les informations de couleur ou d'activit permettrait de complter les informations textuelles.

4.6 Conclusion
Dans ce chapitre nous avons vu comment extraire de l'information partir de textes pour caractriser les lms d'animation. Cette caractrisation des lms travers les synopsis s'opre suivant deux niveaux. En eet, nous avons vu comment extraire une information plutt locale (c'est--dire localise dans une sous-squence du lm) par l'intermdiaire du scnario actanciel. Ce dernier dcrit l'action, les protagonistes et le contexte de l'histoire. Nous avons vu galement, comment extraire une information globale au travers de l'atmosphre dgage par le lm. Cette information (qui est lie au genre d'animation) est tudie dans nos travaux

112

CHAPITRE 4. EXTRACTION D'INFORMATION PARTIR DES TEXTES

au travers de la thmatique du drame. Cependant les rsultats de la recherche d'atmosphre dramatique au travers de l'analyse des lexiques ne sont pas satisfaisants et l'apport d'autres sources d'information est ncessaire pour pouvoir les amliorer. Cette utilisation conjointe de direntes sources d'information des ns de caractrisation des lms est aborde dans la partie concernant la fusion d'information dans le chapitre suivant.

Troisime partie

Fusion d'information

113

La fusion d'information entre le texte et l'image

Chapitre 5

Rsum : Dans ce chapitre sont abordes les problmatiques de fusion d'infor-

mation entre les deux sources d'informations htrognes que sont les images et le texte. En eet, notre approche permet d'utiliser conjointement les informations issues de l'analyse des squences d'images et de l'analyse des synopsis dans le but de caractriser les lms d'animation. Cette caractrisation est prsente suivant deux niveaux dirents travers la caractrisation globale et locale de la squence vido. La caractrisation globale du lm est base sur l'analyse de l'atmosphre dgage partir des images et des textes. La fusion de ces informations est obtenue en s'appuyant sur une expertise du domaine et implmente par des systmes de fusion oue. La caractrisation locale du lm quant elle est base sur l'analyse de l'activit dans les images et sur la description textuelle de cette activit partir du scnario actanciel.

Nous avons vu dans les prcdents chapitres les mthodes qui permettent l'extraction de caractristiques partir des lms d'animation. Ces informations issues de sources direntes vont dans ce chapitre tre utilises conjointement an de caractriser le lm de faon plus pertinente que si l'on ne disposait que d'une source d'information. Ainsi, nous allons voir dans ce chapitre les caractristiques d'un systme de fusion d'information et sa mise en uvre dans notre contexte applicatif.

5.1 tat de l'art sur la fusion d'information


Qu'est ce que la fusion d'information ? Pour rpondre cette question prenons comme exemple le plus complexe et le plus sophistiqu des systmes de fusion d'information, c'est-dire le cerveau. Le cerveau ralise un processus cognitif extraordinaire lui permettant d'ana115

116

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

lyser et d'agrger des centaines d'informations de nature direntes arrivant en parallle et chaque instant. La combinaison de ces informations issues de nos sens, nous permet de raliser une interprtation de l'environnement et de prendre des dcisions en consquence. Par exemple, si nous nous intressons la fonction de stabilisation (c'est--dire rester debout) grossirement trois informations sont utilises : la position transmise par l'oreille interne (sorte de niveau bulle), la position dans l'espace transmise par la vue et enn des informations sur l'environnement sur lequel nous voluons transmises par l'intermdiaire de certains capteurs du pied. C'est la combinaison de ces trois informations qui nous permet de vaincre la gravit et de nous maintenir en quilibre. L'utilisation de ces direntes sources d'information est ncessaire pour garantir au processus de maintien en quilibre une performance optimale quelque soit la situation dans laquelle se trouve le corps et qui peut tre aecte par dirents facteurs externes ou internes. En eet, les conditions extrieures comme un sol glissant, la prsence de brouillard ou d'obscurit peuvent dgrader les informations utilises par le cerveau et conduisent une incertitude sur l'environnement dans lequel nous voluons. L'valuation de la situation peut galement tre aecte par des conditions internes au systme de fusion c'est par exemple l'entranement d'un funambule ou d'un patineur mais cela peut galement tre des dgradations du systme lui mme par exemple au manque de sobrit de la personne. Finalement la qualit du rsultat de la fusion de ces informations a des consquences importantes sur les dcisions et les actions entreprendre. La prise en compte de ces imperfections (imprcision, incertitude, etc.) par le systme de fusion augmente sa robustesse et permet la prise de dcision dans un contexte perturb. Ainsi, toutes ces prouesses ralises par notre cerveau n'ont cess d'inspirer les techniques dveloppes pour la fusion d'information. D'un point de vue technique, depuis de nombreuses annes, les donnes issues de sources diverses et varies que l'on nomme par exemple capteur dans les domaines industriel ou mdical ne cessent d'augmenter. Ces donnes, bien que porteuses d'une information, peuvent tre dgrades et manquer de prcision, de abilit ou d'interprtabilit. Se pose alors le problme de la prise en compte de l'ensemble de ces donnes pour tendre vers l'objectif voulu (rduire l'incertitude sur l'information rsultante en est un exemple). Le domaine de recherche de la fusion de donnes voit le jour dans les annes 60 pour rpondre au besoin de combiner ces donnes an d'amliorer la prise de dcision. Les mthodes mises en uvre sont diverses et sont gnralement bases sur des approches probabilistes [Goodman et al., 1997]. L'utilisation de la micro informatique et l'volution des technologies ont conduit l'utilisation de capteurs de plus en plus  intelligents , obtenant ainsi des donnes plus labores dont le niveau smantique est parfois plus lev que les donnes brutes. L'utilisation de la smantique permettant une meilleure interprtabilit des donnes conduit le domaine de la fusion de donnes muter et devenir le domaine de la fusion d'information dans les annes 90. Aujourd'hui un grand nombre d'applications dans des domaines dirents emploient la fusion d'information pour rpondre des problmatiques de plus en plus complexes. De plus, l'utilisateur devient un lment clef dans la chane de fusion puisque l'information issue du systme de fusion doit tre interprtable, si possible avec un niveau d'abstraction plus lev que les informations traites. Ces systmes coopratifs de fusion d'information permettent ainsi l'utilisateur d'interagir avec le systme de fusion assurant une coopration

5.1. TAT DE L'ART SUR LA FUSION D'INFORMATION entre l'Homme et la machine.

117

Dans la littrature, direntes dnitions de la fusion d'information ont t proposes et mettent en avant des aspects dirents comme [Valet, 2001] :  L'amlioration de la qualit des informations. Le rsultat de la fusion permet d'obtenir une meilleure information (en termes de conance, de certitude ou de robustesse).  L'obtention d'une nouvelle information. Le rsultat de la fusion doit apporter une information qu'il n'est pas possible d'obtenir partir des donnes tudies sparment.  L'lvation du niveau smantique du rsultat obtenu.  La prise de dcision partir des informations fusionnes. D'autres dnitions sont plus globales, comme celle propose par Lucien Wald [Wald, 1999] :

Data fusion is a formal framework in which are expressed the means and tools for the alliance of data originating from dierent sources. Data fusion aims at obtaining information of greater quality ; the exact denition of greater quality will depend upon the application.
 La fusion de donnes constitue un cadre formel dans lequel s'expriment les moyens et techniques permettant l'alliance des donnes provenant de sources diverses. Le but de la fusion de donnes est d'obtenir une information de meilleure qualit ; la dnition exacte de  meilleure qualit  dpendra de l'application. 
Cette dnition bien que gnrale est intressante car elle fait bien apparatre les points importants d'un systme de fusion d'information comme la dnition d'un cadre formel pour combiner des sources d'informations varies. Historiquement, la fusion d'information a t initialement rserve au domaine militaire pour des tches de dtection [Bastire, 1998, Li et al., 2002, Maussang et al., 2008], d'identication et de suivi [Wu et Zhu, 1999, Volgyesi et al., 2007] de cibles puis elle s'est trs vite tendue d'autres domaines comme le domaine de l'aronautique et du spatial [Volponi et al., 2003] avec par exemple l'imagerie satellitaire [Bujor et al., 2002] ou la commande d'engins (robots spatiaux, pilotage automatique d'avion [Korn, 2006], etc.). Elle s'est galement dveloppe dans le domaine mdical [Abbod et al., 2001] avec l'imagerie mdicale [Barra, 2000] et la dtection de pathologies ou avec l'assistance robotise dans les oprations chirurgicales [Troccaz, 2006, Cinquin et Troccaz, 2009]. Elle envahit aussi le domaine de l'assistance l'tre humain avec par exemple l'aide la conduite ou l'aide au contrle comme l'aiguillage du ciel ou la gestion de l'nergie lectrique [Besada et al., 2004]. Les domaines concerns par cette thmatique de recherche sont nombreux et ne cessent de s'accroitre avec l'augmentation du nombre de sources d'informations (issues de capteurs intelligents, d'images sophistiques, etc.), du dveloppement d'algorithmes et de l'accroissement des capacits de calcul. Cet engouement pour la fusion d'information est soutenu par le besoin d'information

118

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

de haut niveau smantique et de l'intgration de l'homme dans les systmes.

5.1.1 Les objectifs d'un systme de fusion


D'aprs la dnition de Wald un systme de fusion d'information permet d'obtenir une information dont la qualit dpend de l'application. Cela signie que le dveloppement du systme de fusion est li aux objectifs recherchs en sortie du systme. Les principaux objectifs sont dcrits dans [Valet, 2001, Dubois et Prade, 2004] et peuvent tre les suivants :

Rduction de la dimensionnalit et augmentation du niveau d'abstraction : Cela

consiste synthtiser dans l'information de sortie les informations en entre. L'utilisateur dispose alors d'une information synthtique plus facile interprter. Deux aspects sont considrer : le premier consiste en la rduction des dimensions de l'espace de reprsentation de l'information de sortie par rapport celui de l'espace d'entre. Le deuxime aspect est que la fusion va permettre d'augmenter le niveau d'abstraction qui caractrise l'information. Par exemple dans le cas d'une prise de dcision partir de plusieurs informations, la dcision a le degr d'abstraction maximal alors que les donnes issues directement des capteurs ont le plus faible degr d'abstraction. Cet objectif apparat dans la littrature consacre la fusion d'information comme le plus repandu [Valet et al., 2001].

Amlioration de la prcision et de la certitude de l'information : La dnition de Wald insiste sur la ncessit d'obtenir en sortie une information de meilleure qualit

qu'en entre. Cette notion de meilleure qualit est lie aux dfauts intrinsques des capteurs et des algorithmes de traitement des informations. En eet, une imprcision, une incertitude, un retard ou un manque de donnes apportent une imperfection des informations qu'il est ncessaire de rduire. La rduction de l'imprcision et/ou de l'incertitude de l'information est un aspect de la qualit de l'information fusionne. Ces notions de prcision et de certitude sont fortement lies : plus une information est prcise et plus elle risque d'tre incertaine et vice-versa. L'imprcision est lie l'estimation de la dirence entre la mesure d provenant du capteur et la valeur relle inconnue x mesurer. L'incertitude est un doute sur la ralit des hypothses ou la vracit d'une mesure (par exemple on doute des rsultats d'un sondage ralis sur seulement 100 personnes lors d'une lection prsidentielle).

Robustesse de l'information : La robustesse du rsultat de fusion est lie la abilit de

l'information obtenue en sortie du systme de fusion lorsque les informations d'entre sont bruites. Ces informations d'entre peuvent subir d'ventuelles dtriorations ou mme tre absentes. Pour tester la robustesse des systmes de fusion une mthode consiste ajouter du bruit aux donnes d'entre puis comparer les indicateurs de performance de l'information fusionne ceux obtenus sans bruit.

5.1. TAT DE L'ART SUR LA FUSION D'INFORMATION

119

5.1.2 Structure d'un systme de fusion


Habituellement la fusion d'information est prsente comme un systme compos de quatre tapes [Rombaut, 2001, Valet, 2001, Jullien, 2008]. Ces tapes sont reprsentes chronologiquement sur la gure 5.1, l'information circulant de gauche droite. La premire tape nomme acquisition de l'information recueille les caractristiques du systme physique tudier. Ensuite ces informations sont mises en forme pour la fusion dans l'tape de reprsentation. Une fois les informations mises en forme elles sont agrges par l'utilisation d'oprateurs de fusion dans l'tape de combinaison. Finalement une tape d'interprtation permet d'adapter l'information fusionne son usage ultrieur.

Figure 5.1  Structure d'un systme de fusion d'information

5.1.3 L'acquisition de l'information


La premire tape de la gure 5.1 est l'acquisition de l'information. Elle a pour but de recueillir des informations sur le systme que l'on souhaite tudier. Le rle du concepteur est important dans cette tape. En eet c'est lui qui dcide quelles sont et en quelle quantit les informations physiques pertinentes ncessaires pour obtenir l'information de sortie. On parle de niveau d'abstraction pour caractriser cette information [Rombaut, 2001]. Le niveau le plus faible correspond au signal issu du capteur ou donne brute. Le second niveau est le niveau de l'attribut, il correspond aux rsultats des traitements sur le signal (par exemple l'extraction des rgions ou des contours en traitement de l'image). Le niveau objet permet, partir du regroupement des attributs, de caractriser les objets physiques qui sont observs. Finalement le dernier niveau est le niveau de la dcision : il s'agit du niveau smantique le plus lev, o l'on cherche identier, classier, reconnatre ce qui est observ. Ces informations d'entre ne sont pas forcment isoles ou indpendantes. En eet il peut

120

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

exister un lien ou une dpendance entre ces informations [Valet, 2001]. Par exemple, la complmentarit entre deux sources d'information est employe lorsque ces sources mesurent

des informations direntes (de par leur nature ou bien leur plage de variation) concernant un mme phnomne. La redondance entre donnes exprime quant elle le caractre identique des informations sur le mme phnomne ou le mme objet. Cette proprit est gnralement exploite pour amliorer la qualit des informations en termes de prcision et d'incertitude. Le terme de recouvrement est aussi utilis lorsque les informations se recoupent partiellement. Les informations sont dites en concordance quand rien n'empche qu'elles soient vraies simultanment. Au contraire elles sont dites en conit lorsque leurs armations ne sont pas compatibles (elles ne peuvent tre vraies simultanment). On retrouve aussi la notion de cooprativit entre informations qui consiste faire cooprer direntes informations pour atteindre l'objectif de fusion. De nombreuses mthodes tentent de mesurer cette dpendance entre les informations. Dans [Jullien, 2008] l'auteur distingue deux types de dpendance, la dpendance fonctionnelle qui correspond au cas o les relations peuvent tre observes de manire dterministe et la dpendance statistique portant sur les relations entre les distributions statistiques des donnes. Dans ce dernier cas de nombreuses mthodes existent, souvent bases sur la quantication d'une relation statistique.

Le coecient de corrlation linaire de Bravais-Pearson est la mthode la plus connue.


Elle revient caractriser la relation ane entre la variable X (x1 , . . . , xn ) et la variable Y (y1 , . . . , yn ) (voir equation 5.1)
N

xy rp = = x y

(xi x ) (yi y )
i=1 N N

(5.1)

(xi x )2
i=1 i=1

(yi y )2

rp est gal 1 dans le cas o l'une des variables est une fonction ane croissante de l'autre variable (ou gale -1 dans le cas o la fonction ane est dcroissante). Les valeurs intermdiaires renseignent sur le degr de dpendance linaire entre les deux variables. Plus le coecient est proche des valeurs extrmes -1 et 1, plus la corrlation entre les variables est forte. Une corrlation gale 0 signie que les variables sont linairement indpendantes. Cependant la rciproque n'est pas vraie, car le coecient de corrlation indique uniquement une dpendance linaire. La corrlation de Spearman est utilise lorsque deux variables statistiques semblent corrles sans que la relation entre les deux variables soit de type ane. Elle consiste trouver un coecient de corrlation, non pas entre les valeurs prises par les deux variables, mais entre les rangs de ces valeurs.

L'information mutuelle de deux variables alatoires est une quantit mesurant la dpen-

dance statistique de ces variables. L'information mutuelle d'un couple (X,Y) de sources reprsente le degr d'interaction entre ces deux sources d'information. Elles sont dites indpendantes (I (X, Y ) = 0) si la ralisation de l'une n'apporte aucune information sur la ralisation de l'autre.

5.1. TAT DE L'ART SUR LA FUSION D'INFORMATION

121

I (X, Y ) =
x,y

P (x, y ) log

P (x, y ) P (x) P (y )

(5.2)

Les Q statistiques permettent de mesurer les dpendances entre les rsultats de deux classieurs. Dans [Kuncheva et Whitaker, 2003] l'auteur prsente 10 mesures de diversit entre classieur. La mesure note Qi,k permet de quantier la diversit des informations apportes par deux classieurs (Di et Dk ) partir des rsultats de classication (voir quation 5.3 et gure 5.2). La mesure Qi,k varie de -1 +1. Lorsque Qi,k vaut 0 les classieurs sont indpendants. Lorsque Qi,k tend vers +1 les classieurs ont tendance reconnaitre les mme objets. Lorsque Qi,k tend vers -1 les classieurs ont tendance reconnaitre des objets dirents. En notant N 11 le nombre d'lments correctement classis par les deux classieurs, N 00 le nombre d'lments mal classis par les deux classieurs, N 01 et N 10 le nombre d'lments correctement classis par seulement l'un des deux classieurs, on a alors :

Qi,k =

N 11 N 00 N 01 N 10 N 11 N 00 + N 01 N 10

(5.3)

Cette mesure sera utilise par la suite.

Figure 5.2  Rsultats de la classication

5.1.4 La reprsentation de l'information


Les informations acquises ne sont pas toujours homognes et sont dnies dans leur espace propre (celui du capteur). Cependant, la fusion de ces informations ne peut se faire que dans un espace de reprsentation commun . Cette tape permet de conditionner les informations issues de l'acquisition pour obtenir une reprsentation de l'information la plus proche possible de la ralit tout en ayant une complexit rduite au niveau du support de reprsentation . Gnralement, les supports mathmatiques les plus utiliss sont la thorie des probabilits, la thorie des sous-ensembles ous et la thorie de l'vidence [Valet, 2001]. Le format de cette information aprs conversion (les mthodes de conversion sont obtenues par apprentissage ou par expertise) peut tre une valeur ou une distribution numrique ou symbolique. Notons aussi que cette tape de reprsentation est parfois appele alignement des sources (dans [McDaniel, 2001], nous avons la dnition suivante : Data Alignment : Normalization of data with respect to time, space, and units to permit common data processing).

5.1.5 La combinaison de l'information


Une fois que les informations sont reprsentes dans un mme espace commun normalis dans l'espace, le temps et les units, l'opration d'agrgation peut tre applique. Ses

122

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

oprateurs de combinaison sont nombreux et plus ou moins complexes : ils peuvent tre une simple moyenne, l'utilisation de rgles oues, de classieur type SVM ou rseaux de neurones. Un exemple d'oprateur assez simple et trs souvent utilis dans la vie de tous les jours est la moyenne pondre. Prenons par exemple un conseil de classe qui se runit pour statuer sur le passage en classe suprieure des lves d'une classe (objectif de la fusion). L'lve constitue le systme (pour la gure 5.1) sur lequel un certain nombre de mesures sont effectues durant l'anne (devoirs nots) sur des proprits direntes (matires enseignes) de ce systme. Le conseil dsire obtenir en sortie du systme de fusion un indicateur global permettant de prendre une dcision quant au passage de l'lve dans la classe suprieure. Finalement, l'objectif de ce systme de fusion d'information consiste en la rduction de la dimensionnalit partir d'informations d'entre complmentaires. L'oprateur gnralement choisi est la moyenne pondre qui prend en entre les direntes mesures exprimes dans un mme espace commun (notes de 0 20) et qui, par une opration arithmtique, permet de synthtiser les direntes informations. videment les performances de ce systme dpendent fortement du choix des poids associs chacune des sources d'information (le coecient des matires). Dans cette tape de combinaison le concepteur du systme de fusion doit apporter une attention particulire au rglage des paramtres. Deux approches sont possibles (voir gure 5.1) :  L'utilisation d'une expertise et des connaissances sur le systme permet de xer a priori les paramtres de l'tape de combinaison. C'est la mthode gnralement admise dans notre exemple o des experts de l'enseignement xent les coecients des matires enseignes (coecient de 7 pour les mathmatiques au bac Scientique par exemple).  L'utilisation de mthodes automatiques (ou semi automatiques) permet, partir d'un ensemble d'exemples, d'apprendre les paramtres de l'tape de combinaison. Cette approche est utilise lorsque les paramtres de fusion ne sont pas connus a priori. Cette approche n'est gnralement pas utilise dans l'exemple prcdent. Le choix des paramtres est en ralit inuenc par les dpendances qui existent entre l'information en sortie et les informations en entre du systme de fusion (voir gure 5.3). Ces dpendances fonctionnelles peuvent modliser dirents liens smantiques entre ces informations [Jullien, 2008] :  Des liens de nature physique, issus des lois de la physique qui gouvernent le phnomne tudi et qui relient les informations d'entre celle de sortie.  Des liens de nature de conance. L'information de sortie apporte une plus grande conance certaines sources d'entre. Ainsi des liens de dpendance apparaissent. Par exemple pour raliser une synthse des sondages raliss durant une lection prsidentielle on accordera plus de conance une tude faite par une socit reconnue et neutre (type Ipsos) qu' un sondage indpendant d'un parti politique par exemple.  Des liens de nature prfrentielle qui modlisent les prfrences de l'utilisateur. Pour mesurer la sant d'une entreprise, la direction nancire accorde probablement plus d'importance aux chires d'aaires et de ventes alors que la direction des personnels

5.1. TAT DE L'ART SUR LA FUSION D'INFORMATION

123

accorde probablement plus d'importance des indicateurs humains comme le nombre d'arrts maladie par exemple.

Figure 5.3  Les dpendances dans un systme de fusion d'information) issu de [Jullien, 2008]

Au niveau de l'organisation de cette tape de combinaison on retrouve direntes architectures. Ces architectures de combinaison d'informations peuvent tre classes suivant deux catgories lorsque l'on s'intresse l'aspect temporel de la fusion [Valet, 2001] :

L'organisation parallle est l'architecture la plus utilise, les informations sont disponibles
en mme temps et sont agrges en mme temps.

L'organisation srie consiste agrger les informations successivement. Les informations

d'entre sont ordonnes : les deux premires sont agrges, puis ce rsultat intermdiaire est agrg avec la troisime entre et ainsi de suite.

L'implmentation des oprateurs d'agrgation repose sur un cadre mathmatique bien dni. En eet, son rle est double puisqu'il permet la reprsentation des informations dans un espace commun et permet l'agrgation par l'oprateur de fusion de ces informations. De plus, la modlisation de l'incertitude et de l'imprcision des informations traites est directement lie au formalisme mathmatique choisi. Parmi les cadres les plus classiques, on trouve la thorie des probabilits, la thorie des possibilits et la thorie de l'vidence [Rombaut, 2001]. Nous n'allons pas dtailler ces thories car largement traites dans la littrature mais nous allons prsenter succinctement les fondements et quelques oprateurs de combinaisons.

5.1.5.1 Thorie des probabilits


Les probabilits orent le plus ancien formalisme et mettent la disposition de l'utilisateur un certain nombre d'outils mathmatiques qui lui permettent de rgler la majorit des

124

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

problmes rencontrs surtout lorsque l'on a une approche statistique du problme traiter (ce qui n'est pas toujours le cas). Grce ce formalisme les informations d'entre sont modlises dans un espace commun o l'incertitude et l'imprcision peuvent tre reprsentes l'aide de probabilits ou de distributions de probabilits (o le modle Gaussien est souvent utilis). L'infrence Baysienne qui se dcline dans le cas continu et dans le cas discret est la mthode privilgie de combinaison dans la thorie des probabilits. Il s'agit pour une information conditionne par toute l'information disponible d'valuer sa probabilit d'tre vraie. Supposons que l'on dispose de n observations si , avec i [1; n], pour estimer dans quelle mesure des hypothses Hj sont vraies. Pour chaque source d'information, on dispose des probabilits conditionnelles P (si |Hj ) modlisant l'incertitude sur les mesures, c'est--dire la probabilit d'avoir la mesure si sachant que l'hypothse Hj est vraie. On suppose aussi que l'on dispose de la probabilit a priori P (Hj ) sur les hypothses. Si les sources d'information sont indpendantes alors la relation de Bayes est donne par l'equation 5.4.

P (Hj |si ) =

P (Hj ) i P (si |Hj ) k P (Hk ) i P (si |Hk )

(5.4)

Les probabilits P (si |Hj ) et P (Hj ) sont en pratique rarement connues. Elles sont souvent estimes partir des donnes ou connues par exprience.

5.1.5.2 Thorie de l'vidence


La thorie de l'vidence, appele aussi thorie de la croyance ou thorie de Dempster Shafer, initie par ces deux auteurs [Dempster, 1968, Shafer, 1976], est relativement rcente. C'est une gnralisation de l'infrence baysienne au traitement de l'incertain. Elle permet de manipuler des vnements non ncessairement exclusifs. Cette capacit lui confre l'avantage de pouvoir reprsenter explicitement, par l'utilisation de degrs de croyance, l'incertitude sur un vnement.

5.1.5.2.1 Cadre de la thorie Dans la thorie de l'vidence, le raisonnement porte sur le cadre de discernement dni comme un ensemble de N hypothses Hi exclusives et exhaustives. L'ensemble not 2 sert de rfrentiel de dnition pour valuer la vracit d'une proposition A. Cette proposition peut par exemple tre l'ensemble A = {H1 H2 H3 } note le plus souvent A = {H1 , H2 , H3 }. Le rfrentiel de dnition 2 = {, H1 , ..., HN , H1 H2 , . . . , H1 H2 H3 , . . . , } est compos de l'ensemble des 2N sous-ensembles A de .
Le formalisme mathmatique de cette thorie repose tout d'abord sur la dnition de masses accordes aux vnements. Pour exprimer un degr de conance pour chaque proposition A de 2 , il est possible de lui associer une masse d'vidence lmentaire m(A) qui indique toute la conance que l'on peut avoir dans cette proposition sans pour autant privilgier aucune des hypothses qui la composent. Cette masse m(A) correspond au degr de croyance place exactement sur la proposition A. Si A n'est pas une hypothse singleton (hypothse simple Hi et non une disjonction d'hypothses) alors cette masse ne peut, compte tenu de l'tat actuel de la connaissance, tre aecte un sous-ensemble plus spcique de A. La masse m(A) aecte une disjonction d'hypothses A est vue comme toute la masse susceptible d'tre transfre ultrieurement un sous-ensemble plus spcique cette disjonction (sous rserve d'apports d'informations supplmentaires permis par la loi de combinaison de

5.1. TAT DE L'ART SUR LA FUSION D'INFORMATION

125

Dempster). On l'appelle alors masse potentielle pour chaque hypothse participant cette disjonction. La fonction m est dnie de 2 sur [0; 1] par :

m : 2 [0; 1] A m(A)
et vrie les proprits :

m() = 0 m(A) = 1
A

Tout A avec m(A) > 0 est appel lment focal de 2 . L'ensemble des lments focaux constitue le noyau N . Notons que lorsque N = la notion de masse lmentaire est assimilable celle de probabilit. De plus, un apport du modle de l'vidence par rapport l'approche probabiliste est de ne pas tre oblig de rpartir la masse totale de probabilit sur des singletons permettant ainsi d'avoir une attitude moins arbitraire. En eet, aecter une masse non nulle une proposition A qui n'est pas un singleton, indique que l'ensemble des hypothses de A nous parat crdible mais sans pour autant prendre parti particulirement pour l'une d'entre elles [Chauveau, 2009].

5.1.5.2.2 Rgle de combinaison de Dempster La thorie de l'vidence ore des ou-

tils appropris pour la fusion de sources d'informations incertaines et/ou imprcises. A partir des jeux de masses nots mSk obtenus sur chacune des M sources d'information Sk , il est possible de construire un jeu de masses unique m par simple sommation orthogonale des jeux de masses mSk en utilisant une rgle de combinaison comme celle de Dempster. Ce jeu de masses m synthtise toute la connaissance contenue dans les jeux de masses issus de chacune des direntes sources et peut alors tre utilis par un module de dcision. Historiquement, l'oprateur de Dempster (appel galement somme orthogonale) est le premier oprateur de combinaison dni dans le cadre de la thorie de l'vidence. Son utilisation impose de respecter la condition d'indpendance des sources d'information combiner. La masse rsultant de la combinaison de M sources d'information Sk est note m et est dnie comme ceci [Lefevre et al., 2001] :

m = mS1 . . . mSk . . . mSM


o reprsente l'oprateur de combinaison de Dempster et s'crit :

m (A) =

m (A) = 1K 1

A1 ...AM = {

M k=1 mSk (Ak )} M A1 ...AM = { k=1 mSk (Ak )}

o le terme m (A) correspond la rgle de combinaison conjonctive et o K qui reprsente la masse aecte l'ensemble vide traduit le conit existant entre les sources. Lorsque

126

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

ce coecient est gal 1, les sources sont en conit total et ne peuvent tre fusionnes. A l'inverse, lorsque ce coecient est gal 0, les sources sont en accord parfait. De nombreuses applications utilisent la thorie des fonctions de croyance comme cadre mathmatique pour fusionner des informations dans des domaines varis comme en imagerie sonar [Maussang, 2005] ou dans l'analyse des squences sportives d'athltisme [Ramasso, 2007]. L'tat de l'art de [Ramasso, 2007] propose une vision plus dtaille des combinaisons possibles dans cette thorie.

5.1.5.3 Thorie des possibilits et des ensembles ous


Cette thorie rcente associe aux ensembles ous, introduite dans les annes 70 par Zadeh [Zadeh, 1975] puis dveloppe par Dubois et Prade [Dubois et Prade, 1988], constitue un cadre permettant de traiter les concepts d'imprcision et d'incertitude de nature non probabiliste. En eet, elle fournit le moyen de dire dans quelle mesure la ralisation d'un vnement est possible et dans quelle mesure on en est certain, sans toutefois avoir disposition l'valuation de la probabilit de cette ralisation. tant donn un ensemble de rfrence ni , on attribue chaque vnement A dni sur , c'est--dire chaque sous ensemble A de un coecient compris entre 0 et 1 valuant quel point cet vnement est possible. Dans cette thorie, ce coecient correspond la mesure de possibilit qui est une fonction dnie sur l'ensemble 2 des parties de :

: 2 [0; 1] A (A)
et vrie les proprits suivantes :

() = 0 () = 1
et

(i=1,2,... Ai ) = supi=1,2,... ((Ai ))

o sup indique le supremum des valeurs concernes, soit la plus grande d'entre elles dans le cas ni. Soient A1 et A2 deux vnements de 2 alors on dnit :

(A1 A2) = max((A1), (A2))

Une mesure de possibilit est totalement dnie si l'on attribue un coecient de possibilit toute partie de l'ensemble de rfrence . Elle est dnie plus simplement si l'on indique

5.1. TAT DE L'ART SUR LA FUSION D'INFORMATION

127

les coecients attribus seulement aux parties lmentaires de , une partie quelconque tant l'union de parties lmentaires. Une fonction de distribution de possibilit permet d'attribuer un degr de possibilit tout lment de et non plus toute partie de :

: [0; 1] Hi (Hi )
et

A 2 (A) = supHi A ( (Hi ))

La thorie des possibilits permet le traitement d'incertitudes de nature non probabiliste sur des vnements dcrits sans imprcision ni caractristique vague. Mais historiquement, Zadeh a introduit la thorie des possibilits propos de la caractrisation de variables par des descriptions linguistiques imprcises, reprsentes par des sous-ensembles ous. Un ensemble ou A de X est dni par une fonction d'appartenance qui associe chaque lment x de X , le degr A (x), compris entre 0 et 1, avec lequel x appartient A. La fonction d'appartenance de ces ensembles ous conduit la dnition d'une distribution de possibilits, qui permet de traiter les incertitudes engendres au cours d'un raisonnement fond sur les caractrisations oues des variables. En eet, une caractrisation oue telle que  grand  est dnie a priori et sa fonction d'appartenance A indique avec quel degr chaque lment de X lui appartient. Une proposition oue telle que  la taille est grande  est une description oue a posteriori de la variable linguistique  taille , aprs observation d'une situation particulire, qui dcrit de faon vague la taille d'un individu donn et indique dans quelle mesure il est possible que sa taille exacte soit tel ou tel lment de X . Ceci veut dire qu'une proposition oue induit une distribution de possibilit V,A sur X , dnie partir de la fonction d'appartenance associe A par [Bouchon-Meunier, 1993] :

x X V,A (x) = A (x)


Cette dnition exprime que, si est le degr d'appartenance d'un lment quelconque x de X la caractrisation oue A, la possibilit pour que la variable V prenne la valeur x, sachant que V est caractris par A, est aussi gale .

5.1.5.3.1 Les principaux oprateurs d'agrgation Le fait d'utiliser des sous-ensembles


ous pour dcrire des classes imparfaitement localises dans X , conduit caractriser, par exemple, les points de X communs direntes classes ou bien trangers ces classes. Les notions d'inclusion, d'intersection, d'union, de complment de sous-ensembles ous sont donc utiles. Ces oprations sur les sous-ensembles ous sont eectues l'aide d'oprateur qui peuvent tre regroups en quatre grandes classes [Grabisch et Perny, 2001] : ET logique (conjonction). Ainsi le rsultat de l'agrgation est lev (proche de 1) si et seulement si toutes les quantits agrger sont leves [Grabisch et Perny, 2001]. La famille des normes triangulaires ou t-normes, souvent notes est un sous ensemble de

Les oprateurs conjonctifs eectuent une agrgation des quantits comme le ferait un

128

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE ces oprateurs. Ses caractristiques sont bien connues (commutativit, associativit, 1 est l'lment neutre, 0 est l'lment absorbant, monotonie) [Fodor et Roubens, 1994]. Parmi les principales t-normes citons :  t-norme de Zadeh :

(x, y ) = min(x, y )
 t-norme probabiliste :

(x, y ) = xy
 t-norme de Lukasiewicz :

(x, y ) = max(x + y 1, 0)
 t-norme de Weber :

(1, y ) = y (x, 1) = x (x, y ) = 0 sinon

Les oprateurs disjonctifs eectuent une agrgation de type OU logique (disjonction).

Le rsultat de l'agrgation est lev ds que l'une des quantits agrger est leve. La famille des co-normes triangulaires ou t-conormes, souvent notes est un sous ensemble de ces oprateurs dont les caractristiques sont bien connues (commutativit, associativit, 0 est l'lment neutre, 1 est l'lment absorbant, monotonie). Parmi les principales t-conormes citons :  t-conorme de Zadeh :

(x, y ) = max(x, y )
 t-conorme probabiliste :

(x, y ) = x + y xy
 t-conorme de Lukasiewicz :

(x, y ) = min(x + y, 1)
 t-conorme de Weber :

(0, y ) = y (x, 0) = x (x, y ) = 1 sinon

Les oprateurs de compromis se situent par dnition entre les oprateurs disjonctifs et

conjonctifs. Ce sont par exemple la somme pondre, les oprateurs de moyenne, le minimum et maximum pondrs, les intgrales oues comme celle de Sugeno [Sugeno, 1974]. Voir [Grabisch et Perny, 2001] pour le dtail de ces oprateurs.

Les oprateurs hybrides sont les oprateurs qui ne peuvent tre classs dans les catgories

prcdentes, comme par exemple les oprateurs de Zimmermann et Zysno qui sont un mlange de t-normes et de t-conormes [Zimmermann et Zysno, 1980].

5.1. TAT DE L'ART SUR LA FUSION D'INFORMATION

129

La conjonction (ET logique) de Zadeh de l'ensemble ou A et de l'ensemble ou B dnis sur l'univers de discours U est un ensemble ou de fonction d'appartenance :

AB (x)) = min(A (x), B (x)) x U


La disjonction (OU logique) de Zadeh de l'ensemble ou A et de l'ensemble ou B dnis sur l'univers de discours U est un ensemble ou de fonction d'appartenance :

AB (x)) = max(A (x), B (x)) x U

Figure 5.4  Exemple d'oprateurs ous conjonctifs et disjonctifs

des lments importants de la reprsentation des connaissances imparfaitement dnies. Pour raisonner sur de telles connaissances (imprcises, vagues et/ou incertaines) on utilise la logique oue dont la mise en uvre peut tre ralise dans les systmes ous. Un systme ou (ou contrleur ou dans le domaine de l'automatique) peut tre vu comme un systme expert simple et fonctionnant partir d'une reprsentation des connaissances base sur les ensembles ous [Bouchon-Meunier, 1993]. D'une manire gnrale, un systme ou est constitu de trois tapes (voir gure 5.5) :

5.1.5.3.2 Les systmes ous Les sous-ensembles ous et la thorie des possibilits sont

Figure 5.5  Conguration gnrale d'un systme ou

1. La fuzzication ralise l'interface avec le monde extrieur. Elle consiste exprimer linguistiquement les valeurs numriques d'entre de nature direntes et vise les exprimer dans un espace homogne commun ce qui permet ainsi d'agrger des donnes

130

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE htrognes. Cette tape de fuzzication correspond l'tape de reprsentation de l'information de la gure 5.1.

2. L'infrence ou raisonnement ou est l'tape d'agrgation des donnes et correspond l'tape de combinaison dans la dcomposition des systmes de fusion (voir gure 5.1). Elle vise transformer la partie oue En issue de la fuzzication en une nouvelle partie oue Sn . La thorie des sous-ensembles ous propose divers mcanismes pour raliser cette combinaison dont le plus usit est la rgle oue. Ces rgles sont consignes dans une base de rgles de type SI-ALORS et traduisent symboliquement la connaissance des experts. La combinaison des entres oues est ralise grce aux oprateurs de combinaison oue puis l'utilisation d'une rgle d'infrence oue permet d'obtenir la sortie symbolique. 3. La dfuzzication consiste transformer si ncessaire le rsultat ou infr pour le mettre sous une forme nette (sous forme numrique par exemple dans le cas d'un contrleur ou). Cette tape de dfuzzication correspond l'tape d'interprtation de l'information de la gure 5.1. La ralisation d'un systme ou est recommande lorsque les rgles de fusion sont mal dnies ou diciles dcrire prcisment, par exemple en raison d'une trop grande complexit. Elle est galement trs utile lorsque les variables intervenant dans le processus sont caractrises de faon imprcise ou lorsque les connaissances sont exprimes en langage naturel et non numriquement.

5.1.6 L'interprtation de l'information


Cette dernire tape consiste transformer l'information obtenue en sortie de l'tape de combinaison sous une forme exploitable pour son utilisation par un organe de commande ou un utilisateur humain. Cela consiste changer la reprsentation de cette information directement par une transformation mathmatique, ou l'aide de la connaissance d'un expert. Par exemple, dans le cas d'une rgulation lorsque l'information fusionne est sous la forme d'une distribution de probabilits ou de possibilits, l'tape d'interprtation permet d'obtenir la valeur numrique de la commande (elle est alors assimilable l'opration de dfuzzication de la gure 5.5). Cette tape sert gnralement la prise de dcision mais peut galement consister en l'valuation de l'information fusionne pour permettre d'optimiser le systme de fusion par un bouclage de cette information interprte sur les paramtres de rglage des tapes prcdentes.

5.2 Prsentation des objectifs et de la mthodologie de fusion


Nous avons vu dans les chapitres prcdents que notre objectif est la caractrisation des lms d'animation partir de sources htrognes que sont les images et le texte. Les informations de couleur, de rythme et d'activit sont extraites des squences d'images sparment des informations textuelles comme la description de l'action et de l'atmosphre caractrisant le synopsis. Cette caractrisation des lms d'animation, comme nous l'avons vu au chapitre sur l'analyse des textes (4.5), peut tre ralise deux niveaux dirents :

5.2. PRSENTATION DES OBJECTIFS ET DE LA MTHODOLOGIE DE FUSION131  La fusion de ces informations peut servir pour caractriser le lm de faon globale. Cette caractrisation globale est envisage dans ce chapitre travers le genre d'animation. En eet, ce champ est trs souvent mal ou pas renseign dans les ches d'inscription au festival. Les informations apportes par l'image comme la couleur et ses contrastes peuvent traduire une atmosphre dans la squence vido qui peut tre complte et donc fusionne par une atmosphre traduite par le texte du synopsis. Une deuxime faon de caractriser la squence d'animation au niveau global passe par la caractrisation de son activit. L encore les indicateurs image et texte sont des caractristiques pertinentes pour caractriser l'activit de la squence vido.  La fusion de ces informations peut servir galement pour caractriser le lm de faon locale. La deuxime faon de caractriser la squence d'animation est envisage ici au niveau local c'est--dire situe dans le temps. En eet, nous avons vu avec le scnario actanciel que les synopsis pouvaient tre une description d'une ou de plusieurs partie(s) du lm o une action et des actants taient mis en scne. L'ide est donc d'aligner nos deux sources d'information que sont les images et le texte pour pouvoir dcrire localement les lments constituant la sous-squence. Pour atteindre ces objectifs de caractrisation deux niveaux nous proposons deux approches pour combiner les informations issues de l'image et du texte. Nous prsentons ci aprs les lments et le cadre mthodologique de ces approches.  Une approche par rgles expertes. Cette approche de fusion d'information est base sur l'intgration de connaissances fournies par un expert. Cette connaissance est code par des rgles de fusion qui traduisent les dpendances entre les informations de sortie et d'entre du systme de fusion. La thorie mathmatique utilise pour reprsenter et combiner ces informations de nature dirente (numrique et symbolique) est la thorie des sous-ensembles ous. En eet, cette thorie propose un cadre adapt pour coder la connaissance des experts sous forme de rgles descriptives claires et comprhensibles. Ainsi, les professionnels de l'animation peuvent comprendre et apprhender plus facilement le processus de combinaison des informations qui conduit caractriser automatiquement ces lms. Cet aspect est important car il n'est pas facile pour un artiste d'imaginer et d'accepter qu'un programme puisse analyser automatiquement son uvre. Dans ce sens, les informations numriques d'entre peuvent tre values par des mots attachs des concepts au moyen des descriptions linguistiques. Ces descriptions sont obtenues l'aide de fonctions d'appartenance permettant le passage de l'univers numrique l'univers symbolique. Le choix de cette approche symbolique est renforc par le fait que l'univers de sortie est non numrique (caractrisation symbolique du lm).  Une approche par apprentissage. Cette approche de fusion d'information est base sur l'utilisation d'algorithmes de classication supervise qui permettent d'exhiber automatiquement les liens fonctionnels entre les informations d'entres et de sortie. Cette approche est utilise lorsque l'on ne dispose pas de connaissances a priori sur ces relations qui sont obtenues automatiquement par apprentissage partir d'une base d'exemples.

132

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

5.3 Caractrisation globale des lms applique au genre des lms d'animation
Notre objectif dans cette section est de caractriser d'un point de vue global le lm travers une information qui est le genre des lms d'animation. Ce choix a plusieurs motivations :  Lorsque l'on regarde la rpartition des genres dclars des lms d'animation dans la base des ches d'inscription au festival (voir gure B.6 de l'annexe B), on remarque que dans 25% des cas les genres ne sont pas renseigns. Dans les autres cas cette information importante est souvent mal renseigne. Par consquent, la caractrisation automatique des lms permettra de complter ou de corriger ce champ.  nous disposons d'une ontologie des genres cre avec l'aide des experts du cinma d'animation permettant de s'appuyer sur des concepts hirarchises et des relations entre les dirents genres [Beauchne et Deloule, 2009].  les informations images et textuelles traduisent une atmosphre qui peut tre lie au genre du lm. En eet les couleurs et les mots utiliss dans ces uvres sont issus d'un choix artistique et traduisent l'ambiance ou l'atmosphre voulue par l'auteur. Ce lien entre la couleur et l'atmosphre dgage par l'image est fort et bien connu du monde artistique (voir 2.1.2.2). Dans cette tude sur le rapprochement entre le texte et l'image nous avons fait le choix de nous focaliser dans un premier temps sur le genre "drame". En eet, le lien entre la couleur et l'atmosphre dgage par l'image est renforc lorsque le lm aborde des sujets graves et dramatiques. De plus, le manque de diversit des couleurs ainsi que l'utilisation abondante de couleurs froides ou sombres (descripteurs images dont nous disposons) marquent cette volont de plonger le spectateur dans un contexte noir. Cependant ce lien entre le drame et les informations de couleurs peut tre incertain. En eet, un lm humoristique peut se passer la nuit sans que le sujet abord soit dramatique. L'auteur peut dans une volont artistique vouloir se dtacher de la  norme  et jouer avec les genres en traitant par exemple un sujet dramatique l'aide d'images colores, chaudes et aux couleurs varies. Ainsi, l'utilisation d'une information complmentaire d'un plus haut niveau smantique comme le texte (mesure de l'intensit thmatique du drame) peut complter ces informations apportes par l'image. Par consquent, la fusion des informations complmentaires issues des images et du texte a pour objectif d'apporter une information de meilleure qualit en diminuant son incertitude an d'arriver prendre une dcision quant l'appartenance de la squence d'animation au genre dramatique. La gure 5.6 prsente le systme de fusion dvelopp dans ce but. La caractrisation d'un lm d'animation partir des informations issues du texte et de l'image ( droite sur la gure) est eectue travers trois tages. Un premier tage (qui peut tre reli l'tape de reprsentation dans la dcomposition des systmes de fusion (voir gure 5.1)) permet de combiner les informations numriques issues de chaque source d'information an d'obtenir de nouveaux concepts (froideur, monotonie et uniformit) qui traduisent la volont artistique de plonger le spectateur dans une atmosphre dramatique. Ces nouvelles informations symboliques sont ensuite fusionnes dans un deuxime tage (qui peut tre reli l'tape de

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

133

combinaison dans la dcomposition des systmes de fusion (voir gure 5.1)) ddi chacune des sources an d'obtenir une information lie au drame. Ces deux informations issues du texte et de l'image (notes (7) et (8)) indiquent respectivement la possibilit que le synopsis et les images traduisent une atmosphre dramatique. Finalement le dernier tage (qui peut galement tre reli l'tape de combinaison dans la dcomposition des systmes de fusion (voir gure 5.1)) permet de fusionner ces deux informations complmentaires pour donner une information symbolique globale et certaine 1 sur l'atmosphre dramatique que dgage le lm d'animation.

1. c'est--dire dont l'incertitude a t diminue

134

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

Figure 5.6  Structure du systme de fusion d'information pour la caractrisation du genre dramatique

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

135

5.3.1 Fusion des indicateurs texte


Nous avons vu dans le chapitre prcdent une mthode d'analyse thmatique des synopsis pour identier une atmosphre lie au drame. Nous avons conclu que la mesure de l'intensit lexicale seule n'tait pas susante pour retrouver tous les lms dont le genre dclar est le drame (rappel 34%). De plus, avec cette mesure, des genres comme policier, humour ou satire sont souvent confondus avec le genre dramatique (prcision de 24%). Par consquent il est ncessaire d'amliorer cette information textuelle avant de la fusionner l'information image. Pour cela nous utilisons trois informations supplmentaires issues de l'analyse des textes :

L'intensit thmatique lie au genre Policier est utilise pour diminuer l'incertitude

quant la mesure du drame et ainsi permettre d'augmenter la mesure de prcision de la recherche du drame. Voir annexe D.3.2 pour le dtail du calcul de cet indicateur.

L'intensit thmatique lie au genre Humour est utilise pour diminuer l'incertitude
quant la mesure du drame et ainsi permettre d'augmenter la mesure de prcision de la recherche du drame. Voir annexe D.3.3 pour le dtail du calcul de cet indicateur.

La richesse du synopsis permet de nuancer la mesure de l'intensit thmatique. Les sy-

nopsis des lms d'animation ne font pas tous la mme longueur et il est important de prendre en compte cette information. En eet, plus un texte est long plus le nombre de mots  parasites  par rapport la thmatique recherche est important (il y a par exemple plus de qualicatifs dans la phrase), l'intensit thmatique est donc moins forte. A l'inverse plus le texte est court plus l'information est synthtique et plus l'intensit thmatique est forte. Par exemple dans la phrase  Cette histoire est dramatique  o il y a peu de qualicatifs, le terme dramatique (qui appartient au dictionnaire du drame) apparat une seule fois et a un fort impact du fait de la brivet du texte (4 mots). Par consquent l'intensit thmatique du drame pour cette phrase sera choisie gale 25% (1/4). Par contre dans la phrase  Dans ce petit conte pour enfants, l'histoire est dramatique  l'intensit thmatique du drame ne vaudra plus que 10% 2 . Ainsi nous dnissons la richesse d'un texte comme le nombre de termes dirents le composant. Cette mesure permet de nuancer la mesure de l'intensit thmatique.

Dans un premier temps nous fusionnons les deux sources d'informations textuelles que sont l'intensit thmatique et la richesse du synopsis (premier systme de fusion en haut gauche sur la gure 5.6). Nous optons pour un systme d'agrgation oue avec l'utilisation de rgles de combinaison issues de l'expertise du domaine. Le mcanisme de combinaison de ces informations est expliqu aprs.

5.3.1.1 La fuzzication
Les informations textuelles retenues pour caractriser l'atmosphre sont des mesures statistiques purement numriques (occurrences et nombre de mots). Elles sont donc transformes
2. An de simplier les calculs de cet exemple on ne lemmatise pas le texte et on ne supprime pas les mots outils

136

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

en valeurs symboliques par l'utilisation d'ensembles ous. Ainsi le concept de possibilit du genre dramatique associ l'intensit thmatique du mme nom IDrame est dcrit en utilisant cinq variables linguistiques illustres par les symboles suivants : possibilit Trs Faible d'tre du Drame, possibilit Faible d'tre du Drame, possibilit Moyenne d'tre du Drame, possibilit Haute d'tre du Drame et possibilit Trs Haute d'tre du Drame. Ce partitionnement de l'univers de discours IDrame est not LDrame (IDrame ){T F, F, M, H, T H } et il est choisi an de reprsenter  au mieux  (suivant l'expertise) les direntes classes smantique possibles de cette variable linguistique. Ce choix du nombre et la signication oue des symboles est obtenu par expertise du domaine. La signication oue de chaque symbole (ou terme linguistique) correspond dterminer le sous-ensemble ou des nombres qu'il reprsente. Elle est illustre sur la gure 5.7 par sa fonction d'appartenance (T F , F , M , H et T H ) de type trapzodale.

Figure 5.7  La signication oue des cinq termes du partitionnement LDrame de l'univers

de discours de l'intensit dramatique IDrame est dtermine par les fonctions d'appartenance oues : T F (IDrame ) = 1, IDrame [0, 2], F (IDrame ) = 1, IDrame [5, 6], M (IDrame ) = 1, IDrame [9, 12], H (IDrame ) = 1, IDrame [14, 40] et T H (IDrame ) = 1, IDrame [50, 100], (l'axe des ordonnes correspond au degr d'appartenance). Le concept de longueur du texte associ la mesure de richesse est dcrit en utilisant galement cinq variables linguistiques illustres par les symboles suivants : synopsis Trs Court, synopsis Court, synopsis Moyen, synopsis Long et synopsis Trs Long. La signication oue de chaque symbole de Lrichesse est traduite par sa fonction d'appartenance (de type trapzodale) : T C , C , M , L et T L , et est illustre par la gure 5.8.

De plus, et de faon gnrale, le partitionnement L(X ) = {A1 , A2 , . . . , An } des univers de discours X que nous traitons dans ce travail est ralis de faon avoir :

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

137

mine par l'ensemble des fonctions d'appartenance oues : T C (richesse) = 1, richesse [0, 3], C (richesse) = 1, richesse [5, 7], M (richesse) = 1, richesse [10, 17], L (richesse) = 1, richesse [20, 27] et T L (richesse) = 1, richesse [30, 100], (l'axe des ordonnes correspond au degr d'appartenance).

Figure 5.8  La partition oue de l'univers de discours de la richesse d'un synopsis est dter-

x X
Ai L(X )

Ai (x) = 1

(5.5)

Finalement, la description oue d'une information (ici une valeur numrique d'entre) consiste dterminer le sous-ensemble des termes linguistiques qui la qualie. Elle est obtenue en calculant le degr d'appartenance de cette grandeur numrique chacun des symboles servant d'crire l'attribut. Par exemple si la valeur numrique de l'intensit dramatique vaut 8 alors la description oue FDrame de cette entre est la suivante :

FDrame (8) = 0/Trs Faible + 0.33/Faible + 0.67/Moyen + 0/Haute + 0/Trs Haute


o la description oue FDrame de cette entre est compose d'un degr d'appartenance de 0.33 au symbole Faible et d'un degr d'appartenance de 0.67 au symbole Moyen. De plus, la contrainte donne dans l'quation 5.5 correspond un mode de raisonnement probabiliste beaucoup plus comprhensible et proche du raisonnement des experts.

5.3.1.2 La base de rgles


La fusion de ces deux informations symboliques se fait en utilisant un ensemble de rgles Si-Alors (IF-THEN) obtenues par expertise et qui permettent d'obtenir une information caractrisant la possibilit pour un synopsis d'tre associ une atmosphre ou un genre dramatique. Une rgle se compose de prmisses et d'une conclusion et reprsente les relations et combinaisons entre les entres et la sortie.

138

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE Par exemple, dans la rgle :

Si l'intensit thmatique est faible Alors le thme est peu probable
l'intensit thmatique reprsente la variable d'entre de l'infrence oue,faible reprsente le terme linguistique associ la variable d'entre, le thme reprsente la variable de sortie de l'infrence oue et peu probable reprsente le terme linguistique associ la variable de sortie. L'ensemble des rgles utilises ici peut tre reprsent sous la forme d'une matrice comme sur la gure 5.9 o les entres oues sont reprsentes en ligne (l'intensit thmatique IDrame ) et en colonne (la richesse) par leurs symboles linguistiques. La variable linguistique de sortie Drame est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que le synopsis traduise la thmatique du Drame. Les valeurs prises par la variable de sortie (note (2) sur la gure 5.6) sont reprsentes dans chacune des cellules de cette matrice. Si on prend la premire cellule (en haut gauche rgle N 1) et la dernire cellule (en bas droite rgle N 25) de la matrice de la gure 5.9 les rgles sont par exemple les suivantes : Numro 1 13 14 25 Rgle Si (IDrame Si (IDrame Si (IDrame Si (IDrame est est est est TF) ET (richesse est TC) Alors (Drame est Faible) M) ET (richesse est M) Alors (Drame est Moyen) M) ET (richesse est L) Alors (Drame est Haut) TH) ET (richesse est TL) Alors (Drame est Haut)

Figure 5.9  Rgles de combinaison entre l'intensit thmatique du Drame et de la richesse

du synopsis pour obtenir la mesure du Drame reprsente par 3 symboles Faible, Moyen, Haut

Ces rgles sont utilises pour simuler dans le systme ou le raisonnement des experts. Elles traduisent symboliquement la connaissance ou expertise du domaine et sont obtenues partir du raisonnement d'un expert, exprim dans le langage naturel.

5.3.1.3 L'infrence oue


Un systme ou est un systme qui mule le raisonnement d'un expert l'intrieur d'un domaine spcique de connaissances. Ce raisonnement ou permet d'infrer la sortie partir

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

139

des rgles expertes et il s'eectue selon le principe de combinaison-projection dnomm Zadeh's compositional rule of inference ou  modus ponens gnralis  [Mauris et al., 1996]. Son expression, dans le cas d'un systme deux entres (ici l'intensit thmatique et la richesse), reprsente sous forme symbolique, est la suivante :

Y LY , F (Y ) = (X1 ,X2 )LX1 LX2

2 (E1 (X1 ), E2 (X2 )), (X1 , X2 , Y

(5.6)

o dans cette expression :  LX1 et LX2 sont les univers linguistiques dcrivant les entres. Soit dans notre exemple :

LX1 LX2

= LIDrame

= {Trs Faible, Faible, Moyenne, Haute, Trs Haute }

= Lrichesse = {Trs Court, Court, Moyen, Long, Trs Long }

 X1 et X2 sont les variables linguistiques des entres prenant leurs valeurs respectivement dans les univers linguistiques LX1 et LX2 .  E1 (X1 ) et E2 (X2 ) sont les degrs d'appartenance des valeurs numriques x1 et x2 aux variables linguistiques X1 et X2 .  LY est l'univers linguistique dcrivant la sortie. Soit dans notre exemple :

LY

= LDrame = {Faible, Moyen, Haut }

 Y est la variable linguistique de sortie prenant ses valeurs dans l'univers linguistiques LY .  (X1 , X2 , Y ) reprsente les rgles symboliques oues. Ce terme vaut 1 quand la rgle liant X1 , X2 , Y existe sinon il vaut zro. Nous n'avons pas considr de pondration des rgles.  
1 2

est l'oprateur de combinaison ou de modus ponens gnralis. est le produit cartsien.

 est l'oprateur de projection. L'tape de combinaison consiste agrger de manire conjonctive l'aide d'une t-norme le terme (X1 , X2 , Y ) avec le rsultat de l'agrgation des prmisses ralises par l'oprateur 2 . Cette combinaison va aboutir un ensemble de poids sur l'appartenance de l'lment observ caractris par les mesures x1 et x2 au symbole Y . La projection de ces degrs est ralise par l'oprateur de projection qui est un oprateur disjonctif de type t-conorme. Cette combinaison/projection est rpte pour toutes les classes de sortie. Le rsultat nal est donc un rsultat ou compos de degrs d'appartenance aects chaque symbole de sortie. De plus, l'quation 5.6 de combinaison/projection peut tre tendue n entres puisque les oprateurs utiliss sont associatifs.

(x, (y, z )) =

( (x, y ), z )

140

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

Comme nous l'avons dj dit, le choix des partitionnements des univers de discours L(X ) a t eectu dans le but de modliser le raisonnement des experts, ce qui se traduit par une somme de l'ensemble des degrs gale un (voir l'quation 5.5). Pour conserver cette cohrence entre les entres et la sortie nous choisissons de conserver cette contrainte sur la sortie infre. Il a t montr dans [Mauris et al., 1996] que les oprateurs de combinaison et de projection avaient une inuence sur cette contrainte. Finalement nous choisissons d'implmenter les oprateurs suivants :

(x, y ) = x y (x, y ) = min(x + y, 1)


(5.7)

5.3.1.4 Illustration
Nous prsentons ici un exemple de raisonnement ou partir du systme de fusion que nous venons de dcrire. Nous xons les valeurs numriques d'entre IDrame = 7.8 pour l'intensit thmatique et richesse = 17.6 pour la richesse du texte. La fuzzication de ces entres permet partir des fonctions d'appartenance (gure 5.7 et gure 5.8) d'obtenir la description oue de chacune des entres :

FDrame (7.8) = 0/Trs Faible + 0.4/Faible + 0.6/Moyen + 0/Haute + 0/Trs Haute Frichesse (17.6) = 0/Trs Court + 0/Court + 0.8/Moyen + 0.2/Long + 0/Trs Long
On voit partir de ces descriptions que la mesure de l'intensit thmatique et de la richesse du synopsis sont dcrites respectivement par deux variables linguistiques (Faible,Moyen) et (Moyen,Long). La fusion de ces informations symboliques est faite en utilisant le mcanisme d'infrence qui utilise les rgles dnies par expertise (voir la gure 5.9). A partir de ce jeu de symboles seules 4 rgles sont actives (voir gure 5.10) :

Figure 5.10  Les quatre rgles actives (en gras) lorsque IDrame = 7.8 et richesse = 17.6

Numro 8 9 13 14

Rgle Si (IDrame Si (IDrame Si (IDrame Si (IDrame

est est est est

F) ET (richesse est M) Alors (Drame est Faible) F ET (richesse est L) Alors (Drame est Faible) M) ET (richesse est M) Alors (Drame est Moyen) M) ET (richesse est L) Alors (Drame est Haut)

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

141

Le rsultat de l'infrence partir de la rgle de combinaison/projection (voir quation 5.6) et des oprateurs dnis prcdemment (voir quation 5.7) est :

FDrame (IDrame = 7.8, richesse = 17.6) = 0.4/Faible + 0.48/Moyen + 0.12/Haute


Ce rsultat est prsent sous une forme oue traduisant une gradualit dans l'appartenance chacun des concepts recherchs. Il peut tre interprt de la faon suivante : le synopsis S d'intensit thmatique IDrame et de richesse richesse appartient avec un degr de 0.4 au concept  le synopsis une possibilit Faible de traduire du Drame . Il appartient aussi, avec un degr de 0.48, au concept  le synopsis une possibilit Moyenne de traduire du Drame  et enn il appartient avec un degr de 0.12 au concept  le synopsis une possibilit Haute de traduire du Drame . Cependant le but de cette fusion est d'tre capable de statuer sur l'appartenance ou non du synopsis au thme du drame. An de transformer le rsultat ou prcdent sous une forme nette nous choisissons de dfuzzier ce rsultat en recherchant le degr maximal prsent en sortie. Ainsi la classe de sortie ayant le degr d'appartenance maximal sera attribue au synopsis. Cette faon de procder semble assez naturelle du fait de la proprit impose sur la sortie (voir quation 5.5). Finalement un synopsis sera considr comme appartenant au drame si sa classe de sortie est Haut ou Moyen et s'exprime par la relation suivante :

Cout = arg max(out (L))


LLout

(5.8)

Drame(S ) =

1 si Cout {Moyen,Haut} 0 sinon

o le partitionnement de l'univers de discours de la sortie est Lout (X ) = {Faible,Moyen,Haut}. Nous dcidons de classier les 5804 synopsis de la base grce cette rgle de classication. Nous comparons les rsultats de classication avec le genre dclar. Si le genre dclar est le drame alors le classieur retrouv le genre du lm sinon il s'est tromp. Nous obtenons la matrice de confusion (voir tableau 5.1) o chaque colonne de la matrice reprsente le nombre d'occurrences d'une classe estime, tandis que chaque ligne reprsente le nombre d'occurrences d'une classe dclare (ou de rfrence).
XXX

Dclar

XXX Estim N onDrame XXX XX

Drame
834 (FP) 246 (VP)

N onDrame Drame

2672 (VN) 311 (FN)

Table 5.1  Matrice de confusion sur la prdiction du Drame.

Positif (FP), Faux Ngatif (FN), Vrai Positif (VP)

Vrai Ngatif (VN), Faux

A partir de cette matrice de confusion nous calculons deux indicateurs qui sont la prcision et le rappel :

142

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

Prcision =

VP 246 = = 23% V P + FP 246 + 834 VP 246 Rappel = = = 44% V P + FN 246 + 311

Nous utilisons galement le F-score (ou F-mesure) qui combine la prcision et le rappel :

Fscore = 2

P R 24 34 =2 = 30% P +R 24 + 34

On remarque que ces taux restent relativement faibles. Cependant l'utilisation et la fusion de l'information de richesse du synopsis a amlior les rsultats de rappel (augmentation de 30%) par rapport l'approche base uniquement sur l'intensit thmatique (voir gure 4.25). Finalement nous rptons ce principe de fusion d'information et de classication pour les couples d'entre {IP olicier , richesse du synopsis} et {IHumour , richesse du synopsis}. Les dnitions des partitions oues, les rgles de fusion et les rsultats de classication (F-score de 40% pour la thmatique du policier et de 17 % pour la thmatique de l'humoursont disponibles en annexe E.1.

5.3.1.5 Fusion Texte/Texte


Nous disposons de trois informations symboliques qui traduisent la possibilit du synopsis dgager une atmosphre lie au drame, au policier et l'humour. Nous avons vu dans le chapitre prcdent que les synopsis traitant de c'est deux dernires atmosphres utilisaient parfois un vocabulaire dramatique. An de diminuer l'incertitude sur la mesure du drame partir des intensits thmatiques il est intressent de prendre en compte ces informations  parasites . Puisque les informations sont dj sous forme symboliques leur fusion ncessite de dnir les rgles de combinaison prsentes sur la gure 5.11, o chaque tableau reprsente l'ensemble des combinaisons possibles entre les variables du Policier (en colonne) et de l'Humour (en ligne) et cela pour chacune des valeurs prises par la variable Drame (soit 3 valeurs et donc un tableau lorsque Drame=Faible, un tableau lorsque Drame=Moyen, un tableau lorsque Drame=Haut). La fusion de ces informations symboliques est obtenue par le principe de combinaison/projection. La variable linguistique de sortie DrameT exte est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que le synopsis traduise du drame. Les valeurs prises par cette variable de sortie (note (7) sur la gure 5.6) sont reprsentes dans chacune des cellules de cette matrice. On voit sur la gure 5.11 que plus le synopsis utilise un vocabulaire dramatique sans utiliser les vocabulaires de la thmatique du policier et de l'humour plus la possibilit qu'il soit du drame (information de sortie) est leve. Cette fusion exclusive permet de diminuer la certitude de l'information infre. On voit ici toute la puissance de ce systme de fusion car les rgles de combinaison sont claires et interprtables (voir mme triviales). L'information obtenue aprs fusion (DrameT exte note (7)) est utilise pour classier les lms. Les rsultats et leurs commentaires sont prsents dans 5.3.4.

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

143

Figure 5.11  Rgles de combinaison pour obtenir la variable linguistique de sortie

DrameT exte (information dans les cellules) entre les informations du Policier (en colonne) de l'Humour (en ligne) pour chacune des valeurs de la thmatique du Drame. Ces variables sont reprsentes par 3 symboles Faible, Moyen et Haut.

5.3.2 Fusion des indicateurs image


Nous avons prsent dans le chapitre consacr aux images un certain nombre de descripteurs images lis aux caractristiques colorimtriques de la squence vido et son activit. Nous prsentons ici le systme de fusion qui permet de passer de ces descripteurs numriques une information caractrisant l'atmosphre dramatique dgage par la squence d'images. Pour cela nous utilisons quatre informations issues de l'analyse des images :

Le ratio de Couleurs Fonces est utilis pour caractriser la proportion de couleurs sombres (voir le 3.1.2.1 et le chapitre 7 de [Ionescu, 2007] pour le dtail de son calcul). Cette information est utile pour dnir dirents concepts comme la froideur ou la monotonie.

Le ratio de Couleurs Chaudes est utilis pour caractriser la proportion de couleurs chaudes (voir le 3.1.2.1 et le chapitre 7 de [Ionescu, 2007] pour le dtail de son calcul). Cette information permet de donner la proportion de couleurs chaudes prsentes dans la squence et donc, par opposition, fournit l'absence de couleurs chaudes ce qui permet dnir le concept de froideur.

Le ration de Variation des Couleurs est utilis pour caractriser la richesse de la palette
couleur utilise pour composer le lm (voir chapitre 7 de [Ionescu, 2007] pour le dtail

144

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE de son calcul). Cette information est utile pour dnir le concept de monotonie.

L'Activit globale est utilise pour caractriser la frquence du changement de contenu dans les images. Cette information est utile pour dnir le concept de monotonie.
Nous fusionnons ces direntes sources d'informations numriques issues de l'analyse des images pour obtenir des descripteurs lis au drame. Ces nouvelles informations caractrisent les concepts artistiques utiliss pour construire une atmosphre noire, inquitante dans les lms d'animation. Ces dirents concepts sont issus d'une expertise symbolique formule dans un langage naturel et sont prsentes ci-aprs :

La froideur est un concept qui caractrise les images o il y a une forte dominance de

couleurs froides et sombres. Cette information est obtenue partir d'un systme ou (note (4) sur la gure 5.6) dont le principe est identique celui vu prcdemment. Bien sr, les partitions oues et les rgles de combinaison sont adaptes au contexte et donc aux informations images. Ces lments sont disponibles dans l'annexe E.1.3.

La monotonie est un concept qui caractrise les squences d'images o il y a une forte

dominance de couleurs fonces et o l'activit est faible. Cette information qui traduit une atmosphre lente et noire est obtenue partir d'un systme ou (note (5) sur la gure 5.6) dont le principe est identique celui vu prcdemment. Les partitions oues et les rgles de combinaison sont adaptes aux informations images et sont disponibles dans l'annexe E.1.4.

L'uniformit est un concept qui caractrise les squences d'images o il y a une forte domi-

nance de couleurs froides et o il y a une faible varit dans la palette couleur utilise pour composer le lm. Cette information traduit une atmosphre pauvre et froide en termes de couleur et est obtenue partir d'un systme ou (note (6) sur la gure 5.6) dont le principe est identique ceux vus prcdemment. Les partitions oues et les rgles de combinaisons sont adaptes aux informations images et sont disponibles dans l'annexe E.1.5.

Ces concepts dnis partir des valeurs numriques images sont lis au drame et permettent la caractrisation de l'atmosphre du lm. Ainsi pour obtenir une information moins incertaine nous proposons de fusionner ces concepts.

5.3.2.1 Fusion Image/Image


Nous disposons de trois informations symboliques traduisant la possibilit de la squence d'images dgager une atmosphre lie la froideur, la monotonie et l'uniformit, atmosphres lies une atmosphre dramatique. Ainsi il est intressant de les utiliser conjointement pour dnir la possibilit que les images dgagent une atmosphre dramatique. Puisque ces informations sont dj sous forme symbolique leur fusion ncessite de dnir des rgles de combinaison. Ces rgles de combinaison sont prsentes sur la gure 5.12 o chaque tableau

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

145

reprsente l'ensemble des combinaisons possibles entre les variables de l'Uniformit (en colonne) et de la Monotonie (en ligne) et cela pour chacune des valeurs prises par la variable de la Froideur (soit 3 valeurs et donc un tableau lorsque Froideur=Faible, un tableau lorsque Froideur=Moyen, un tableau lorsque Froideur=Haut).

Figure 5.12  Rgles de combinaison pour obtenir la variable linguistique de sortie

DrameImage (information dans les cellules) entre les informations de l'Uniformit (en colonne) et de la Monotonie (en ligne) pour chacune des valeurs de la Froideur. Ces variables sont reprsentes par 3 symboles Faible, Moyen et Haut.
La fusion de ces informations symboliques est obtenue par le principe de combinaison/projection. La variable linguistique de sortie DrameImage est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que les images traduisent du drame. Les valeurs prises par cette variable de sortie (note (8) sur la gure 5.6) sont reprsentes dans chacune des cellules de cette matrice. Ainsi on voit sur la gure 5.12 qu'un lm a une possibilit avec une appartenance de type moyenne ou leve d'tre dramatique si il a au moins deux des trois concepts prcdents dont la possibilit est leve. Naturellement, sa possibilit devient leve si le lm contient les trois concepts en mme temps avec une possibilit leve. Finalement, l'information de froideur qui est la plus caractristique du drame (en termes de certitude) a une importance suprieure par rapport aux deux autres concepts. Cette remarque est visible sur la troisime matrice o la possibilit de la froideur est leve. En eet, on voit que la possibilit du drame est de type Moyen mme si les informations de monotonie et d'uniformit sont moyennes. L'information obtenue aprs fusion (DrameImage note (8)) est utilise pour classier les lms. Les rsultats et leurs commentaires sont prsents au 5.3.4.

146

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

5.3.3 Fusion du texte et de l'image


Nous disposons prsent de deux informations symboliques caractrisant la possibilit du lm d'appartenir au genre du drame. Il reste donc combiner ces informations issues du texte et de l'image pour diminuer l'incertitude de chacune de ces informations prises indpendamment. Cette fusion d'information est assure par le dernier tage de notre systme de fusion prsent sur la gure 5.6 et correspond la sortie (9). Pour raliser cette combinaison nous appliquons le principe de combinaison/projection qui a dj t dni (voir quation 5.6). Ainsi nous dnissons la variable linguistique de sortie DrameF usion qui constitue le rsultat nal de fusion et qui est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que le lm traite d'un sujet dramatique. Les valeurs prises par cette variable de sortie sont disponibles dans chacune des cellules de la matrice (voir gure 5.13) qui reprsente la connaissance des experts.

Figure 5.13  Rgles de combinaison entre les informations textuelle et image reprsentes

par 3 symboles Faible, Moyen, Haut

On voit sur la gure 5.13 qu'un lm a une possibilit leve d'tre dramatique si chacune de ses deux sources ont une possibilit leve d'tre du drame (informations concordantes). Or on l'a vu, les informations textuelles sont des informations de plus haut niveau smantique que les informations images. En ralit, l'intensit thmatique permet de mesurer quasi directement des concepts qui sont proches de l'atmosphre recherche alors que les paramtres de couleurs ou d'activit ne mesurent que les traces d'une  norme  de cration lie cette atmosphre noire, inquitante. Par consquent, mme si ces deux informations mesurent les traces d'une volont artistique de plonger le spectateur dans l'atmosphre dramatique, l'incertitude concernant l'information textuelle est moins importante que celle concernant les images. Finalement, l'information du drame partir du texte a une importance suprieure dans le rsultat nal par rapport l'information du drame issue des images. Cette conance accorde l'information textuelle est visible dans les rgles de combinaison suivantes :

Numro 6 8

Rgle Si (DrameT exte est H) ET (DrameImage est M) Alors (DrameF usion est H) Si (DrameT exte est M) ET (DrameImage est H) Alors (DrameF usion est M)

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

147

5.3.4 Test et rsultats


Pour vrier le pouvoir discriminant des informations obtenues tout au long du processus de fusion nous dcidons de classier, partir des informations infres, les lms de la base dont nous disposons. La prise de dcision quant l'appartenance pour un lm au genre dramatique est reprsente par l'quation 5.8. Ainsi, si un lm est caractris par l'information Iout alors ce lm sera considr comme appartenant au drame si la classe de sortie de l'information Iout est Haut ou Moyen.

Figure 5.14  Rpartition des 107 lms suivant le ou les genres dclars

Nos tests sont eectus sur une base de 107 lms d'animation (107 synopsis) et la gure 5.14 reprsente la rpartition des lms suivant le genre dclar (voir galement l'annexe E.2 pour quelques caractristiques de cette base). Cet chantillon de la base de CITIA reste limit car malheureusement nous ne disposons pas des droits d'auteur et d'exploitation des lms sur la totalit de la base de CITIA. La gure 5.15 prsente les rsultats des dirents tests de classication o les informations qui ont permis la classication des lms sont reprsentes en colonne et o les mesures de prcision et de rappel sont reprsentes en ligne. Les numros des informations correspondent aux numros de la gure 5.6.

Figure 5.15  Rsultats de classication de la prdiction du Drame en termes de Prcision,

Rappel et F-Score (reprsentes en ligne), en fonction de l'information utilise (reprsente en colonne) pour les valeurs symboliques Moyen et Haut

148

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

On remarque que la fusion de l'intensit thmatique du drame et de la richesse du synopsis permet d'amliorer le rappel et de le faire passer de 81% (dans le cas d'un classication partir de l'intensit thmatique voir la gure 4.6) 88%. La prcision quant elle n'est pratiquement pas modie ce qui est normal car l'utilisation de la richesse permet en quelque sorte d'ajuster le seuil de l'intensit thmatique. Cela a pour consquence de retrouver beaucoup plus de synopsis dramatiques qu'avec un seuil xe (comme c'est le cas avec la mthode utilise dans la premire colonne). L'utilisation et la fusion des informations lies aux thmes du Policier et de l'Humour permet d'amliorer la prcision de la classication (de 41% 43%). En eet, ces informations permettent de ne considrer comme dramatique que les textes qui ont exclusivement un vocabulaire li au drame. Cela fait chuter le rappel (de 88% 81%) car comme on l'a vu sur l'analyse des textes certains lms dramatiques ont des synopsis qui mlangent les vocabulaires. Finalement l'information textuelle permet de retrouver avec un bon taux de rappel (de plus de 80%) les lms dramatiques, par contre elle est trs incertaine puisque la prcision n'est que de 43%. Les remarques sont identiques dans le cas des descripteurs images. En eet, les concepts comme la froideur ou l'uniformit permettent de retrouver avec un bon taux de rappel les lms dramatiques ce qui indique que ces lms d'animation suivent bien le principe artistique qui veut que l'atmosphre dgage par un lm est lie aux couleurs choisies pour le composer. Cependant ce principe est galement utilis pour d'autres catgories de lms comme le montre la mesure de prcision. Finalement, la fusion de ces trois sources permet d'amliorer signicativement la prcision de la classication (de 25% en moyenne 39%) et donc de diminuer l'incertitude de l'information image. Finalement la fusion du texte et de l'image qui doit permettre de diminuer l'incertitude de l'information, permet de classier les lms dramatiques avec une bonne prcision (prs de 80%). La fusion de ces deux sources complmentaires (complmentarit conrme par la mesure Qi,k = 0.2 de dpendance entre les classieurs image et texte voir 5.1.3) permet d'amliorer signicativement la prcision de la classication (de 41% en moyenne 78%) et donc de diminuer l'incertitude de l'information image et texte. Cependant le rappel n'est pas trs bon ce qui indique que tous les lms ne sont pas retrouvs. De plus, lorsque l'on s'intresse aux lms abusivement considrs comme du drame (les Faux Positifs) on trouve les lms suivants :

avec une pizza dans les mains. Il est presque assis lorsque le chauffeur freine brutalement. .

La bouche cousue (1998) : Genre dclar : Humour  Un personnage, au regard triste et perdu, monte dans le bus

Vent (1964) : Genre dclar : Aventure  Un homme se bat contre une tempte. Lorsque, soudain, il rencontre une llette, nous dcouvrons que quelqu'un contrle le vent. .
Ces lms sont tous les deux composs de couleurs froides et sombres impliquant une information DrameImage issue de l'image avec une possibilit leve. De plus, ils utilisent tous les deux des termes connotation dramatique ce qui implique une information DrameT exte issue

5.3. CARACTRISATION GLOBALE DES FILMS APPLIQUE AU GENRE DES FILMS D'ANIMATION

149

du texte avec une possibilit moyenne. Finalement la fusion de ces informations implique que ces lms ont une possibilit moyenne d'tre des lms dramatiques (voir la gure 5.13) et sont classs comme dramatiques par la rgle de classication. Pour diminuer le nombre de Faux Positifs, nous dcidons de changer la rgle de prise de dcision quant l'appartenance d'un lm au genre dramatique. Ainsi si un lm est caractris par l'information Iout alors ce lm sera considr comme appartenant au drame si la classe de sortie de l'information Iout est Haut. Les tests sont eectus sur la mme base de 107 lms d'animation et la gure 5.16 prsente les rsultats dans les mmes conditions exprimentales que prcdemment.

Figure 5.16  Rsultats de classication de la prdiction du Drame en termes de Prcision,

Rappel et F-Score (reprsents en ligne), en fonction de l'information utilise (reprsente en colonne) pour la valeur symbolique Haut On voit que la fusion du texte et de l'image permet d'avoir une excellente prcision (100%), mais le rappel a chut fortement (25%). Cela veut dire que l'information en sortie du systme de fusion a une trs bonne certitude mais cette information ne permet pas de retrouver tous les lms du genre dramatique. Cela veut dire galement que les sources d'informations utilises ne permettent pas de discriminer l'ensemble des lms dramatiques. Cela pose la question de savoir si il est nalement possible de dterminer le genre du lm partir de mesures ralises sur des lms aussi varis et aux contenus complexes en utilisant un systme de fusion par raisonnement et expertise. Pour rpondre cette question nous comparons notre mthode de fusion avec une approche par classication automatique supervise (mthode sans expertise). Deux algorithmes sont tests :  Les rseaux de neurones de type Multi-Layer Perceptron (MLP) sont couramment utiliss dans des problmes de classication supervise dans [Caicedo et al., 2008] ou bien encore dans [Tsai et Wu, 2008]. Le MLP est une extension multicouche du perceptron (rseau une couche, assez limit). Il utilise un algorithme d'apprentissage trs rpandu bas sur la mesure de l'erreur quadratique moyenne baptis rtropropagation du gradient d'erreur. Nous avons utilis l'algorithme disponible dans le logiciel de classication Weka [Witten et al., 1999].  Les SVM constituent galement une famille de classieurs couramment rencontrs dans dirents travaux comme dans [Tong et Chang, 2001, Caicedo et al., 2008]. Ces techniques ont t dcrites dans [Vapnik, 1996] et consistent dlimiter par la frontire la plus large possible les direntes catgories des chantillons de l'espace vectoriel du

150

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE corpus d'apprentissage. Les vecteurs supports constituent les lments dlimitant cette frontire. Nous avons utilis l'implmentation du type Sequential Minimal Optimization (SMO) [Platt, 1999] avec comme fonction noyau le cubic polynomial kernel ou polynme de degr trois disponible sous Weka [Witten et al., 1999].

La classication du genre dramatique est ralise partir des informations numriques texte et image prsentes prcdemment. Nous avons opt pour un test par validation croise de paramtre trois 3 .

Mthode Fusion Floue SVM MLP Prcision 78% 47% 44% Rappel 44% 68% 44% F-Score 56% 56% 44%
Table 5.2  Comparaison de mthodes de fusion.

On voit partir de ce test comparatif (tableau 5.2) que notre mthode par expertise et la mthode par SVM donnent des rsultats identiques (F-Score de 56%) bien meilleurs que les rsultats du rseau de neurones (F-Score de 44%). La mesure de rappel de notre systme n'est pas catastrophique puisqu'elle est identique la mthode du MLP. Seule la mthode de type SVM permet d'obtenir une mesure de rappel relativement bonne (68%). Cependant, notre mthode de fusion permet d'obtenir une prcision bien meilleure que celle obtenue par l'approche de type SVM. Cela veut dire que l'information en sortie de notre systme de fusion est moins incertaine que celle fournie par le classieur.Cependant mme si cette mthode retrouve 11 lms sur 16 elle ne permet pas de retrouver l'ensemble des lms.

En conclusion, il parat dicile de dterminer le genre de tous les lms partir des seules sources d'informations retenues dans ce travail. Soit il est ncessaire d'ajouter de nouvelles informations (modalit son par exemple), soit la varit des lms et des contenus constitue une frontire dicilement franchissable sans un processus cognitif complexe. Les rsultats de prcision de notre mthode sont encourageants car il dmontre que pour la moiti des lms dont nous disposons, les informations de couleur, d'activit et d'intensit thmatique permettent avec une bonne certitude de retrouver les lms dramatiques. Enn, notre systme a l'avantage d'tre compltement comprhensible et permet d'expliquer les rsultats car les rgles de combinaisons sont facilement explicitables, ce qui est trs important pour valider notre approche auprs des professionnels de l'animation. De plus, mme si l'expertise n'est pas facile formaliser la constitution du systme de fusion partir de connaissances a priori a un cot plus faible (en termes de temps pass par exemple ) que la constitution bien souvent fastidieuse d'une base d'apprentissage numrique, exhaustive, etc. utilise pour l'apprentissage de classieur comme c'est souvent le cas dans le domaine de l'image et la vido (par exemple dans TRECVid o des centaines d'heures de lms sont annots manuellement).

3. La base est dcoupe en trois parties gales, 2 parties de la base sont utilises pour l'apprentissage, la partie restante (1/3) est utilise pour tester le classieur appris. Cette opration est rpte 3 fois pour que chaque partie soit utilise en apprentissage et en test puis les rsultats sont moyenns

5.4. CARACTRISATION LOCALE DES FILMS APPLIQUE L'ACTIVIT

151

5.4 Caractrisation locale des lms applique l'activit


Notre second objectif est de caractriser d'un point de vue local 4 le lm travers une information qui est l'action. En eet nous dsirons dans cette section exploiter conjointement le scnario actanciel et les squences d'images. Ce choix est motiv par le fait que le scnario actanciel permet le plus souvent de dcrire et nommer l'action, les actants et la scne prsents dans la sous-squence vido. Ces informations sont d'un trs haut niveau smantique par rapport l'information qu'il est possible d'extraire des images (voir le chapitre consacr aux images). Cette ressource textuelle est donc trs intressante exploiter pour augmenter la smantique des informations issues des images. Malheureusement cette ressource est compltement dsynchronise par rapport la vido. En eet, les descriptions du scnario actanciel mais plus gnralement les descriptions faites par le synopsis ne sont pas repres sur l'axe temporel de la vido. Par consquent, on sait que l'action existe probablement dans les images mais on ne sait pas quel moment. Une premire tape consiste donc aligner ces deux sources (image et scnario actanciel) an de retrouver la sous-squence vido dcrite par le texte. Peu de travaux sont proposs dans cette optique car les ressources textuelles habituellement utilises sont soit les textes incrusts dans l'image ou alors des mta donnes comme les sous titrages [Marszalek et al., 2009] qui sont des informations parfaitement synchronises avec le support vido. L'ide dveloppe dans nos travaux est de raliser cette synchronisation partir de l'action. En eet, cette information fondamentale du scnario actanciel peut tre lie aux informations d'activit extraites de la squence d'images. Ainsi, si nous arrivons retrouver dans la squence vido le passage de l'action dcrite par le scnario actanciel, alors nous pourrons probablement retrouver et nommer dans l'image les autres lments du scnario actanciel (sous rserve d'avoir les dtecteurs image adquates comme la dtection de personnage). La dicult majeure pour l'instant est d'arriver faire le lien entre la mesure de l'activit et l'action dcrite dans le scnario actanciel. Plus prcisment, il serait intressant de savoir si il existe un lien entre l'activit mesure localement dans la squence d'images et les verbes utiliss pour dcrire le ou les passages du lm. Intuitivement on imagine mal qu'un synopsis puisse dcrire l'action d'une sous-squence et que l'activit dans cette sous-squence soit moins importante que dans le reste du lm. Autrement dit, si il existe un lien entre les termes d'action et l'activit mesure dans ces ou cette sous-squence(s), alors cette mesure dans ce(s) passage(s) doit probablement tre suprieure au reste du lm, ce qui se traduit par une mesure leve du rythme. Pour faire ce lien entre les termes et l'activit locale mesure dans le lm, nous avons explor deux pistes an de rpondre aux questions suivantes :

 l'action mentionne dans les synopsis correspond-elle au rythme de la squence ?  une action mentionne dans un synopsis correspond-elle une action locale (passage d'activit) mesure dans la squence ? Ces deux approches vont tre traites dans les sections suivantes

4. c'est--dire situ sur l'axe temporel de la vido

152

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

5.4.1 Quels liens tablir entre le texte et les images ?


Nous cherchons savoir si il existe une relation entre le rythme (ou changement d'activits) mesur par les images et les termes employs dans le synopsis notamment travers les verbes extraits du scnario actanciel. Dans une premire phase nous cherchons savoir quels sont les verbes dans les synopsis qui traduisent un rythme identiable dans les squences d'animation. L'ide est d'obtenir automatiquement les relations qu'il pourrait y avoir entre l'activit intrinsque des termes (par exemple chanter a une activit intrinsque plus faible que courir ) et le rythme qu'ils entrainent sur l'ensemble de la squence vido. La premire tape consiste extraire les verbes conjugus de chacun des synopsis. Pour cela nous utilisons l'analyseur grammatical LG et son module statistique prsents dans le chapitre sur l'analyse des textes. Notre analyse porte sur les synopsis anglais de la base des 107 lms d'animation dont nous disposons et permet l'extraction d'un peu plus de 250 verbes. De plus, comme de nombreux verbes renvoient un mme concept (relation d'hyperonymie) il est ncessaire de prendre en compte ces concepts globaux an de maximiser les chances de trouver des liens signicatifs entre le texte et l'image. Ainsi, pour chacun des verbes retrouvs dans le synopsis nous extrayons grce WordNet l'ensemble de ses hypernymes (voir gure 4.23). L'ensemble des verbes et de leurs hypernymes constituent une base d'un peu plus de 570 termes. La deuxime tape consiste constituer la base de tests. Pour chacun des 570 termes nous construisons un ensemble d'exemples dans lequel chaque terme (verbe du synopsis ou hypernyme) est associ la mesure du rythme (sous forme symbolique) issue de l'analyse des images (voir chapitre sur l'analyse des images 3.2.4). Lorsque le synopsis contient un verbe (terme) ayant plusieurs hypernymes, on constitue autant d'exemples que de termes, les attributs (numro du lm, rythme) restant identiques (voir la gure 5.17).

Figure 5.17  Principe de constitution des exemples

5.4. CARACTRISATION LOCALE DES FILMS APPLIQUE L'ACTIVIT

153

La troisime tape consiste en la phase d'analyse statistique. Cependant parmi les 570 exemples il y a beaucoup d'hapax (terme dont l'occurrence est gale un, verbes utiliss une seule fois) il est donc ncessaire de rduire l'espace de tests pour ne conserver que les termes les plus frquents an d'augmenter la pertinence des liens statistiques. Nous choisissons de ne conserver que les exemples dont l'occurrence du terme est suprieure ou gale 10. Par consquent, seuls les termes (hypernymes) suivants sont conservs :

Terme act Occurrence 26

be
50

change
12

make
25

perceive
12

travel
35

Ils forment ainsi une base de test de 160 exemples. Cet ensemble d'exemples est analys via une AFC an de montrer les associations statistiques entre les verbes et le rythme symbolique (voir le chapitre sur l'analyse des textes 4.2.1.2). Cette analyse permet de dterminer s'il existe un lien privilgi ou non entre 2 termes par comparaison avec le cas d'indpendance qu'on aurait obtenu si les eectifs taient rpartis proportionnellement et indpendamment. Cette analyse est simple et bien connue, et fournit un cadre statistique (test du Chi2 ) pour illustrer et valider les associations. On peut donner une reprsentation plus visuelle des carts l'indpendance par l'utilisation d'une carte d'analyse factorielle des correspondances. Elle consiste tracer une carte partir des rsultats de l'AFC en disposant les modalits en fonction des carts la situation d'indpendance. Par dfaut, chaque modalit est reprsente par un pav de surface proportionnelle son eectif. Leurs positions les unes par rapport aux autres permettent d'illustrer les propensions qu'ont les lments tre associs. La carte AFC de la gure 5.18 calcule sur les 160 exemples permet, travers l'agencement des modalits et des constellations, d'identier les associations entre les termes. Plus un verbe tendance tre associ un rythme symbolique plus ils seront proches. On remarque partir de ces associations que les termes comme  travel  5 traduisant du mouvement,  make  traduisant une action et  change  6 , traduisant une modication correspondent dans l'ensemble un rythme qui est compris entre moyen et lev. De plus, les verbes de perception comme  perceive  ou d'tat comme  be  ont tendance tre associs un rythme faible. Ceci est trs intressant car cela veut dire qu'un lm dont le synopsis dcrit une ou plusieurs action(s) est gnralement associ une mesure de rythme lev. Les rsultats de cette analyse permettent de mettre en lumire les liens qu'il y a entre notre mesure d'activit et l'utilisation de verbes d'action dans le synopsis. Plus gnralement cela valide notre intuition : les images portent la trace des descriptions textuelles faites dans le synopsis. Cela traduit galement que les actions dcrites dans le synopsis se retrouvent probablement dans les images o les changements de contenu sont importants par rapport au reste de la squence. L'tape suivante consiste vrier cette hypothse et caractriser de faon locale ce lien entre le synopsis et la mesure d'activit.
5. Synonymes extraits de WordNet : travel, go, move, locomote  (change location ; move, travel, or proceed, also metaphorically) 6. Synonymes extraits de WordNet : change, alter, modify  (cause to change ; make dierent ; cause a transformation)

154

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

Figure 5.18  Carte de l'Analyse factorielle des correspondances multiples pour la recherche

d'associations entre le rythme symbolique et les verbes utiliss pour dcrire le lm.

5.4.2 Caractrisation de l'activit locale


Nous venons de voir de faon globale que les synopsis qui emploient des verbes de mouvement font probablement rfrence un (des) passage(s) du lm o il y a une activit leve. Dans cette deuxime tude, nous avons tudi le synchronisme des termes utiliss dans le synopsis et les plages de la squence d'animation correspondant une activit locale leve. Pour vrier et quantier cette synchronisation (ou alignement) entre les deux sources d'information que sont les images (au travers des segments d'action locale) et le texte (au travers du scnario actanciel), nous proposons d'valuer pour chacun des lms le recouvrement temporel de ces informations. Cette tude eectue manuellement est ralise sur une vingtaine de lms. Dans un premier temps, nous retenons dans le synopsis anglais de chaque lm les verbes d'action du scnario actanciel, c'est--dire les verbes qui ont comme concept hypernyme  travel  (voir la gure 5.19). Dans un deuxime temps, nous reprons manuellement pour chaque lm la ou les soussquence(s) o l'action dcrite par le scnario actanciel est visible dans les images (ceci consti-

5.4. CARACTRISATION LOCALE DES FILMS APPLIQUE L'ACTIVIT

155

(a) Le moine et le poisson : A monk nds a sh in the water reservoir of his (b) L'homme aux bras ballants : In a sleepy town under a moonless sky, a
character with enormous arms is walking. Preceded by his shadow, he makes his way to an arena in order to achieve a ritual..

monastery. He tries to catch it using all kinds of means and, as the lm goes on, this becomes increasingly symbolic.

(c) Tamer of Wild Horses : Will the man manage to tame the beast of iron and (d) The ying man : A man is ying on the spot. Another man comes and tries
to do the same but can't.

re ? Yes, but only if it is without violence. Understood and loved, she takes the man to outer space.

sont souligns.

Figure 5.19  Synopsis anglais de quelques lms d'animation. Les verbes de mouvement

tue notre vrit terrain). Par exemple dans le lm Le moine et le poisson nous cherchons manuellement la ou les sous-squence(s) d'images o le moine tente d'attraper le poisson. Nous mettons ensuite en regard ces sous-squences avec la mesure locale d'activit dnie au paragraphe 3.2.4.2 dans le chapitre consacr aux images. Cette mise en correspondance est prsente pour quelques exemples sur la gure 5.20). Sur l'ensemble des lms analyss nous avons remarqu qu'il y a gnralement adquation entre la sous-squence o l'activit locale est leve et la sous-squence o l'action est dcrite par le(s) verbe(s) de mouvement. Les cas o il n'y a pas de synchronisation entre le descripteur image et l'action mentionne correspondent des synopsis ne faisant tout simplement pas rfrence une partie de la squence (synopsis gnraliste). An de mesurer les performances de cette synchronisation nous dcidons de nommer automatiquement l'action mise en scne dans chacune des sous-squences o l'activit est leve par le ou les termes de mouvement retrouv(s) dans le synopsis (voir la gure 5.21). Cette classication nave des sous-squences est ensuite compare la vrit terrain annote manuellement (voir les segments bleus sur la gure 5.21). Si la sous-squence d'activit locale est incluse dans la vrit terrain et si le terme la dsignant est le mme que celui de la vrit terrain alors cette sous-squence est considre comme correctement annote. Ainsi nous obtenons les rsultats prsents dans le tableau 5.3

Prcision 40% Rappel 90% F-Score 56%


Table 5.3  Rsultats de l'alignement automatique de l'image et du texte partir de l'activit

locale.

Nous voyons au travers de la mesure de Rappel du tableau 5.3 que l'on retrouve grce

156

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

(a) Le moine et le poisson

(b) L'homme aux bras ballants

(c) Tamer of Wild Horses

(d) The ying man


Figure 5.20  Activit locale mesure (rouge) et action (terme(s)) mise en scne dans la

squence vido (bleu) avec en abscisse le numro de l'image dans la squence.

la mesure d'activit locale quasiment toutes les scnes d'activit dcrites par le synopsis. Ce rsultat globalement bon laisse cependant un certain nombre de situations o la prsence d'une action dcrite dans le synopsis n'a pas t conrme par l'analyse d'image (voir la gure 5.21.c). Ceci se produit quand l'action releve dans le synopsis se traduit par une activit peu marque dans la squence (par exemple un personnage qui court lentement). Par contre la mesure de prcision est trs basse du fait que cette annotation des sous-squences est nave. En eet, l'analyse des images nous fournit des sous squences o l'activit est leve et o l'action mise en scne n'est pas celle attribue navement par le systme (voir par exemple la premire sous-squence d'activit sur la gure 5.21.a qui est reprsente par un smiley insatisfait). Cela se produit galement lorsque l'activit mesure dans les squences d'images n'est pas conrme par la prsence d'un verbe d'action dans le synopsis, ce qui a

5.5. CONCLUSION

157

(a) Le moine et le poisson

(b) L'homme aux bras ballants


Figure 5.21  Classication automatique des segments d'action

pour consquence d'augmenter le nombre de  Faux Positifs  et donc de diminuer la mesure de prcision.

5.5 Conclusion
Dans ce chapitre consacr la caractrisation des lms d'animation partir de l'utilisation conjointe des informations issues de l'analyse des images et de l'analyse des textes, nous avons prsent deux approches applicatives pour la fusion d'information entre le texte et l'image. Dans cette tude nous avons d'abord prsent une caractrisation globale des lms d'animation au travers des atmosphres dgages par le lm et le texte. Cette caractrisation de l'atmosphre dramatique est base sur une fusion par expertise implmente grce aux systmes ous. La fusion d'information entre ces deux sources a permis de montrer l'intrt d'une telle approche pour diminuer l'incertitude de l'information fusionne. En eet, une classication des genres dramatiques partir de cette information fusionne a permis d'obtenir de trs bons rsultats de prcision. Enn la comparaison de notre systme de fusion avec d'autres approches nous a permis de valider ses performances mais surtout de montrer son intrt qui est d'tre compltement explicable. Ce dernier point est important dans notre domaine applicatif pour lgitimer notre approche auprs des professionnels de l'animation.

158

CHAPITRE 5. LA FUSION D'INFORMATION ENTRE LE TEXTE ET L'IMAGE

Enn, nous avons prsent une caractrisation locale des lms d'animation travers l'activit prsente dans ces squences. Dans cette tude nous avons utilis deux types de descripteurs qui sont issus des pri-textes et des images. Notre approche utilise ces descripteurs conjointement en essayant de rapprocher une description de bas niveau smantique, qui est l'activit dans une squence d'animation, d'une description de haut niveau smantique, qui est une description textuelle de cette activit. Cette tude qualitative nous permet de montrer que les termes dnotant un mouvement correspondent trs souvent une ou des sous-squence(s) vido o l'activit locale est importante. En outre ces tudes qualitatives nous permettent d'envisager l'ajout de descripteurs et d'informations complmentaires mais nous permettent aussi d'envisager un passage l'chelle et d'exprimenter notre approche sur l'ensemble de la base des lms d'animations (ds obtention des droits d'exploitation) an d'en extraire des rgles et des rsultats rellement signicatifs. De plus, notons que la mthode de caractrisation de l'activit prsente ici est fortement lie au domaine de l'animation et que sa gnralisation des vidos plus conventionelles impliquerait d'utiliser d'autres descripteurs image comme par exemple la dtection de visage ou d'objets particuliers.

Quatrime partie

Conclusion

159

Conclusions et Perspectives

Chapitre 6

6.1 Conclusions
Dans ce mmoire, nous nous sommes intresss la caractrisation automatique de squences vido, et plus particulirement la caractrisation des lms du festival d'animation d'Annecy. Pour tre performante, l'indexation de telles donnes ncessite d'atteindre un niveau de description smantique. L'apport original de notre travail se situe dans la nature des informations extraites et utilises pour caractriser les documents vido. En eet, si l'utilisation de descripteurs issus de l'analyse des images ou du son est devenue incontournable pour la caractrisation de squences vido, l'utilisation du texte et en particulier de pri-textes est beaucoup plus limite. Les travaux qui proposent d'utiliser des informations textuelles connexes aux lms sont rares. Aussi, ce travail propose d'utiliser conjointement les deux sources d'information que sont les squences d'images et les synopsis des lms. L'utilisation de ces textes et des informations descriptives de niveau smantique lev qu'ils contiennent permet de complter et d'lever le niveau smantique des informations issues des images. Cette approche multimodale situent nos travaux la croise d'un certain nombre de disciplines scientiques : traitement de l'image, traitement automatique des langues, ingnierie des connaissances, fusion d'information. Mme si notre dmarche a t construite en tentant de lui donner un caractre gnrique, l'application de cette approche s'est appuye sur les spcicits du domaine envisag, celui du lm d'animation. Le contexte local a jou un rle important dans le choix de ce domaine. En eet, Annecy, avec son Festival International du Film d'Animation, est devenu depuis plus de quarante ans une rfrence mondiale dans le monde de l'animation. On peut galement notre que l'industrie de l'animation a connu ces dernires annes un essor important, en particulier grce l'volution des techniques de synthse d'images 3D. Dans ce contexte, nos travaux constituent une des premires dmarches s'intressant la caractrisation smantique des lms d'animation par fusion multimodale. Cette problmatique a t aborde en utilisant une analyse deux niveaux :  Une analyse bas niveau o des informations de couleurs et d'activit sont extraites des squences d'images. Ces informations d'un niveau smantique assez bas constituent une description globale des caractristiques de la squence d'animation.  Une analyse haut niveau o des informations descriptives sont extraites des textes et en particulier des synopsis. Ces informations d'un niveau smantique lev constituent une description prcise de la squence d'animation proche des concepts manipuls par 161

162 l'Homme.

CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES

L'analyse des squences d'images aborde ici est un prolongement des travaux raliss dans la thse de Bogdan Ioenscu [Ionescu, 2007] sur la caractrisation symbolique des lms d'animation. Des caractristiques lies la couleur comme la diversit, l'utilisation de couleurs fonces, etc. sont extraites d'une analyse statistique des images. Cette approche est base sur l'utilisation de dictionnaires couleurs, qui permettent une caractrisation smantique globale de la signature couleur de la squence vido. Une amlioration de l'analyse des squences d'images a t propose dans nos travaux pour lui donner un caractre gnrique ncessaire pour traiter l'ensemble des lms. En eet, la mthode initiale est base sur la dtection du dcoupage temporel du lm en squences. Or ce dcoupage habituellement utilis dans les longs mtrages ou les lms naturels n'est pas toujours mis en uvre dans les trs courtes squences vido. De plus, notre approche base sur un algorithme accumulation d'erreur permet de mesurer l'activit et le rythme de la squence vido de faon plus complte que la mthode propose initialement dans [Ionescu, 2007]. En eet, cette mesure est lie aux changements de contenu s'oprant dans les images et permet ainsi de mesurer l'activit intra et inter plans. L'analyse des textes est aborde ici suivant deux approches qui donnent naissance deux caractrisations direntes. Une premire approche statistique utilise un ensemble de dictionnaires thmatiques qui permettent de mesurer l'intensit du thme tre prsent dans le texte. Cette mesure permet de reprer des atmosphres dgages par le rcit comme l'atmosphre dramatique. Cette information permet de caractriser le lm de faon globale et permet de dterminer le genre du lm. Une deuxime approche base sur les mthodes d'extraction d'information permet partir des analyses lexicale, syntaxique et smantique d'extraire un scnario actanciel. Ce modle de reprsentation de l'information permet de modliser l'action mise en scne dans le lm.
Finalement, la caractrisation des lms est envisage partir de l'analyse conjointe de ces deux sources d'information et suivant deux niveaux d'abstraction. La caractrisation globale du lm est aborde au travers de l'analyse du genre "drame". En eet, la fusion du texte et de l'image permet de tirer prol de la complmentarit de ces deux sources d'information pour caractriser des atmosphres dramatiques. L'information d'appartenance au drame est obtenue partir des descripteurs images et de leur fusion. Cette fusion entre les informations colorimtrique et d'activit permet d'obtenir de nouveaux concepts lis cette thmatique. Cette information issue de l'image est fusionne l'intensit thmatique mesure partir du texte an de diminuer l'incertitude des informations et permettre ainsi de classier les lms comme dramatique avec une bonne prcision. Cette approche, mise en place travers la ralisation d'un systme ou, permet d'obtenir de bons rsultats et aboutit une caractrisation du drame avec une bonne certitude. Le deuxime niveau de caractrisation des lms est eectu au niveau local. Cette caractrisation a pour but de reprer dans le temps (sur le support vido) les lments du scnario actanciel, an de retrouver et nommer localement ses lments (personnage(s), action, contexte) dans les sous-squences vido. Le travail ralis est une premire tape de cette caractrisation dont l'objectif est la vrication de l'alignement des deux sources d'informations. Cet alignement est ralis grce l'utilisation conjointe des lments textuels du scnario actanciel ports par les verbes d'action et la mesure d'activit locale issue de l'image. Nous avons montr sur la base de tests que cet alignement est ralisable et permet de retrouver

6.2. PERSPECTIVES gnralement les sous-squences dcrites par le scnario actanciel.

163

6.2 Perspectives
Dans ces travaux nous avons montr la complmentarit des sources d'information que sont les images et le texte. Cette complmentarit permet une caractrisation multimodale des lms. Cependant plusieurs amliorations peuvent tre envisages :  Il est envisag un passage l'chelle. En eet, les exprimentations (hors texte) prsentes dans ce manuscrit sont ralises sur un sous ensemble de la base vido (107 lms), contrainte impose par un problme de droits d'exploitation. Cette base de test reste trop petite pour obtenir des rsultats statistiques rellement signicatifs. Une solution envisageable pour contourner ce problme de droits est d'eectuer directement les calculs et les analyses in situ (dans les locaux de CITIA). Cela ncessite, au niveau technique, le dveloppement d'une plateforme robuste et paramtrable distance qui puisse analyser les lms et envoyer les rsultats. Cela ncessite galement la mise en place d'une convention CITIA / Universit de Savoie, convention pour laquelle de premires discussions sont dj engages.  Il est envisag d'ajouter de nouveaux descripteurs caractrisant le genre. C'est par exemple la prise en compte de la modalit son. En eet, lorsque cette dernire est prsente dans la squence, elle pourrait jouer un rle important dans la caractrisation smantique du contenu des lms d'animation (prsence de dialogues, intensit et rythme de la musique, silences, bruits, etc.). Ces informations peuvent servir pour la caractrisation des atmosphres [Trohidis et al., 2008] et notamment pour retrouver d'autres lms dramatiques o les informations de couleurs et le synopsis n'apportent pas conjointement les informations caractristiques du drame (amlioration de la mesure de rappel). Elles peuvent servir galement pour la caractrisation locale de la squence d'animation en permettant l'alignement des modalits. L'information de prsence de dialogues permettrait de retrouver les sous-squences o des personnages sont prsents.  Il est envisag d'ajouter de nouveaux descripteurs images pour retrouver localement les mouvements des personnages. En eet, des travaux sont en cours sur l'extraction et la caractrisation des points d'intrt spatio-temporels. Ces points permettent de reprer dans les squences d'images les points ou rgions qui se dplacent dans les images. Ces points correspondent gnralement des personnages en action ou des objets anims d'un mouvement. L'intrt d'un tel descripteur est double. En eet, la mesure globale de l'activit de ces points est une mesure de l'action probablement plus prcise que celle prsente dans ces travaux (base sur les images clefs) car directement lie l'action des personnages. Cette mesure de l'activit permettrait probablement un meilleur alignement des sources. De plus, le deuxime intrt serait une caractrisation par l'image (direction, sens, rapidit, etc.) des actions dcrites par le scnario actanciel. Le passage par une tape d'apprentissage permettant de lier ces caractristiques des concepts haut-niveau permettrait de crer un rseau smantique o les descriptions bas niveau (rapidit, direction, etc.) seraient associs aux termes. Par exemple, la dirence dans la direction du mouvement permettrait la distinction entre sauter et marcher, et la dirence dans l'amplitude du mouvement distinguerait courir et marcher. Un tel

164

CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES rseau permettrait par la suite de faire automatiquement le lien entre la description du scnario actanciel et la mesure de l'action dans l'image. Imaginons que dans une sous-squence on dtecte deux objets en mouvement. Le premier mouvement est caractris par une direction verticale alors que le deuxime est caractris par une direction horizontale. De plus, si le synopsis fait rfrence aux actions sauter et courir comme dans :  Marie saute sur le trampoline pendant que Jean court aprs le ballon  alors ce rseau smantique permettrait de nommer automatiquement dans l'image le premier mouvement comme tant l'action sauter et de nommer automatiquement dans l'image le deuxime mouvement comme tant l'action courir. Dans cet exemple on pourrait galement nommer automatiquement les personnages.  Enn, il est envisageable d'ajouter de nouveaux descripteurs images pour retrouver localement les personnages, qui sont des lments fondamentaux pour la caractrisation du contenu des lms. Une des dicults majeure dans la reconnaissance des personnages d'animation vient de l'extrme variabilit des caractristiques couleurs, textures, et formes (voir le chapitre consacr l'analyse des images). En eet, la magie de l'animation est de pouvoir donner la vie des objets qui par nature sont inanims. Cependant, ces personnages anims ont presque systmatiquement une caractristique descriptive commune : ils ont des yeux. Ces sont d'ailleurs ces yeux qui leur confrent la qualit de personnage. Ainsi la mise en place d'un dtecteur capable de retrouver des yeux dans une rgion de l'image anime d'un mouvement permettrait trs certainement de retrouver les personnages du lm.

Cinquime partie

Annexes

165

Les techniques d'animation

Annexe A

C'est l'utilisation de techniques particulires qui distingue fondamentalement le cinma d'animation du cinma classique. Ces techniques peuvent tre regroupes suivant certaines caractristiques dont voici une liste non exhaustive.

A.1 Le dessin anim :


Cette technique d'animation est probablement la plus connue parmi les techniques utilises dans l'animation. Traditionnellement la version dite plastique est constitue de dcors peints sur papier, sur carton ou sur toile (dont la colorisation varie : gouache, acrylique, aquarelle ou autre) et des personnages et objets mouvants dessins sur feuilles puis encrs et gouachs sur cellulodes. Le cell, ou cellulo, ou cellulod est une feuille plastique transparente d'actate de cellulose sur laquelle sont peints la main les dirents lments d'un dessin anim. Les cellulos sont ensuite superposs et, grce leur transparence, il est ainsi possible de crer des scnes complexes sans tout redessiner chaque fois (toute partie immobile n'ayant pas tre redessine). Cela permet galement de crer des eets de perspective de mouvement. Par exemple lors d'un travelling les techniciens font dler les calques des vitesses direntes, d'autant plus lentes que le plan est loign. Il existe aussi d'autres techniques utilisant d'autres matriaux et techniques de colorisation (animation de personnages sur des feuilles de papiers, coloris la craie ou aux crayons de couleur par exemple). La production des grands studios amricains (Disney, Warner, MGM, Hanna-Barbera) a t essentiellement ralise partir de cette technique (voir gure A.1). Les uvres de pionniers comme le Franais mile Cohl (Fantasmagorie, 1908) et l'Amricain Winsor McCay (le crateur de Gertie le dinosaure, 1914) ont t ralises avec cette technique. Pour de plus amples informations voir [Williams et al., 2003].

A.2 Animation d'objets 2D :


Dans cette technique d'animation, l'auteur va utiliser des objets pour composer un plan (2D). La prise de vue est ralise image par image (souvent en vue de dessus) et c'est le dplacement et la composition de ces objets qui va donner une illusion de mouvement. Les matriaux les plus frquemment utiliss sont :

-Le Sable : An de raliser une image en mouvement, cette technique utilise les proprits
167

plastiques du sable. Le principe gnral (dont la prise de vue est ralise par le dessus)

168

ANNEXE A. LES TECHNIQUES D'ANIMATION

Figure A.1  Les dessins anims : conception et dessin

est l'utilisation d'une table lumineuse sur laquelle est dispose une couche de sable. Par dplacement de celui-ci, les couches de sable deviennent plus ou moins paisses et par consquent l'eet d'ombre et de lumire plus ou moins marqu (voir gure A.2 (a)).

-Le Papier dcoup : Cette technique est une des premires techniques utilises dans les

lms d'animation mais aussi l'une des plus conomiques. Le mouvement peut tre obtenu en remplaant divers lments dcoups ou en animant des personnages composs d'lments articuls. Cette technique est rcemment rapparue dans la dsormais clbre srie South Park ainsi que dans une publicit pour un oprateur tlphonique mobile franais (voir gure A.2 (b)). L'animation de photographies dcoupes constitue une variante de l'animation de papier dcoup traditionnelle.

-L'cran d'pingles : Cette technique invente par le Franais Alexandre Alexee con-

siste utiliser un cran blanc plac verticalement et perc de centaines de milliers de trous ( 240 000 trous) chacun travers par une pingle noire rtractable dpassant de la surface de l'cran. Une lumire est projete de biais des deux cots de l'cran ce qui fait que les ombres des pingles rendent l'cran noir. En faisant varier le degr d'enfoncement de certaines pingles (de faon former un dessin en relief), leurs ombres raccourcissent et ainsi le gris remplace le noir. Les pingles qui sont totalement enfonces ne laissent plus d'ombre et font donc apparatre le blanc de l'cran. L'esthtique de l'image ainsi forme est dle au graphisme et aux dgrads de gris prsents dans les gravures. C'est en 1933 qu'Alexee, aid de sa collaboratrice Claire Parker, termine Une nuit sur le mont Chauvei avec cette technique (voir gure A.2 (c)).

A.3 Animation en volume (objets 3D) :


Une scne (en gnral constitue d'objets) est photographie image par image. Entre chaque image, les objets de la scne sont lgrement dplacs. Lorsque le lm est projet une vitesse normale, la scne semble anime. L'animation en volume a en commun avec le cinma classique d'exiger du cinaste qu'il tienne compte d'lments de mise en scne comme lors des prises de vues relles. En eet, le choix de l'objectif, les mouvements de camra, la profondeur de champ, l'clairage, et les rapports spatiaux entre les lments ne sont pas virtuels, comme en dessin anim, mais plutt rels, comme dans les lms de ction avec acteurs. Parmi cette technique on retrouve :

A.4. ANIMATION NUMRIQUE :

169

(a) : Animation de Sable

(b) : lments dcoups

(c) : Ecran d'pingles


Figure A.2  Animation d'objets 2D

-Les Marionnettes : L'animation de marionnettes ou animation de poupes est fortement

inspire du thtre de marionnettes. Cette tradition d'Europe centrale explique l'implantation initiale de cette technique, dans cette partie du monde (La vengeance de l'oprateur cinmatographique (1912) du Russe Ladislas Starewitch) (voir gure A.3 (a)). pte modeler. Parmi les ralisations les plus connues de ces dernires annes gurent Wallace et Gromit et Chicken Run (voir gure A.3 (b)).

-La Pte modeler ou claymation : Cette fois-ci les objets sont sculpts dans de la

-La Pixilation : Dans cette technique ce sont des acteurs rels ou des objets qui sont lms image par image. Ce terme utilis la premire fois par Norman McLaren signie en

anglais tre dirig/ensorcel par un pixy, sorte de fe ou de lutin (rien voir avec les pixels). Il utilisa cette technique dans Voisins (1952) (voir gure A.3 (c)).

A.4 Animation numrique :


Cette technique est la plus rcente des techniques d'animation. Elle consiste en la cration assiste par ordinateur, ce qui implique que tout ou partie de l'animation est ralise numriquement. En animation 2D numrique le crayonn est souvent fait sur papier ou calque. Le coloriage et la composition 1 sont ensuite gnralement faits sur ordinateur aprs num1. La composition ou composting consiste assembler toutes les couches des dcors, des personnages et raliser les eets de camra, etc. pour en faire un plan unique

170

ANNEXE A. LES TECHNIQUES D'ANIMATION

(a) : Marionnettes

(b) : Pte modeler

(c) : Pixilation
Figure A.3  Animation en volume

risation du crayonn. Cependant, il est assez frquent que les dcors ou que les objets et personnages anims soient dj coloris, ou que tout soit compltement numrique (images de synthse via une tablette graphique par exemple). Finalement, Les possibilits de mixage entre animation numrique, eets spciaux numriques et animation traditionnelle sont quasiment innies. En animation 3D numrique les possibilits de mixage sont les mme qu'en 2D et l'approche cinmatographique est quivalente l'animation en volume mais cette fois ci dans un monde virtuel. Depuis quelques annes, l'utilisation de l'ordinateur est devenu un outil complmentaire dans les mains des artistes utilisant les techniques traditionnelles. Ainsi, depuis les annes 1990, l'apport de l'informatique se gnralise et se diversie dans le cinma d'animation faisant qu'aujourd'hui, cet outil est devenu incontournable dans la ralisation des lms. L'objectif de cette section n'est pas de faire la liste exhaustive des techniques d'animation qui est quasi innie, mais plutt de marquer la spcicit des lms prsents au FIFA par la description de quelques techniques d'animation assez rpandues. Parmi l'ventail de possibilits que les auteurs ont disposition pour faire passer leurs intentions artistiques, l'usage de la couleur dans les squences d'animation est lui aussi assez spcique.

La base d'animation de CITIA

Annexe B

Nous presentons ici les caractristiques de la base de lms d'animation. L'ensemble des ches d'inscription des lms inscrits au FIFA constitue une base de donnes textuelles. Cette base de donnes issue de Animaquid contient 5804 entres dont voici quelques caractristiques statistiques.

B.1 Rpartition des lms en fonction de l'anne d'inscription


Tout d'abord, le FIFA est un vnement annuel qui est n au dbut des annes 60. Lorsque l'on regarde la rpartition des lms disponibles suivant l'anne d'inscription au festival (gure B.1) on voit que depuis les annes 80, il y a une augmentation du nombre de lms inscrits et slectionns. Ceci montre que le FIFA devient un vnement incontournable dans le domaine de l'animation mais galement que ce domaine cinmatographique connat un succs dans des domaines varis depuis un peu plus 20 ans.

Figure B.1  Rpartition des lms suivant l'anne de production

B.2 Rpartition en fonction de la dure des lms


Une des caractristiques importante de ces lms concerne la dure de la squence vido. La dure moyenne des lms de la base est de 7.75 minutes (avec un cart-type de 11.29 171

172

ANNEXE B. LA BASE D'ANIMATION DE CITIA

minutes). On voit sur la gure E.13 que la majorit des lms (80%) ont une dure infrieure 10 minutes. Les lms de la base sont donc des lms courts et cette caractristique constitue une information a priori trs importante, notamment pour l'analyse des images et l'analyse des synopsis.

Figure B.2  Rpartition des lms suivant la dure exprime en minute

B.3 Rpartition des lms par pays de production


Sur la gure B.3 on voit la rpartition des lms par pays de production (seuls les plus reprsents y sont gurs). Ce que l'on voit clairement, c'est que les pays occidentaux sont trs prsents dans cette manifestation. On voit galement apparatre la dimension internationale avec les pays comme les tats-unis, le Canada, ou le Japon, etc. Mais ce qui est frappant c'est que 50% des lms inscrits au festival sont soit Franais, Anglais, ou Amricains.

Figure B.3  Rpartition des lms suivant le pays de production

sont les eectifs)

(les valeurs numriques

Quand on regarde la contribution des pays au cours du temps on obtient la gure B.4

B.3. RPARTITION DES FILMS PAR PAYS DE PRODUCTION

173

obtenue par AFC dont l'axe X (abscisse) reprsente 57% de la variance explique et dont l'axe Y (ordonne) reprsente 17% de la variance explique. On voit sur cette gure qu'il y a eu un apport signicatif de lms en provenance de Grande Bretagne durant la priode de 1990 2000 et en provenance des tats-Unis durant la priode de 1970 1980. La part franaise se situant plus dans la priode actuelle (annes 2000). En outre il est intressant de constater que, dans les dbuts du festival, une part signicative des lms venait de l'Europe de l'Est.

174

ANNEXE B. LA BASE D'ANIMATION DE CITIA

Figure B.4  Carte AFC : rpartition des lms par pays de production et anne d'inscription au festival

(la surface des carrs est proportionnelle aux eectifs, les carrs bleus sont les priodes de production, les carrs jaunes sont les pays de production)

B.4. RPARTITION DES FILMS SUIVANT LE PUBLIC VIS

175

B.4 Rpartition des lms suivant le public vis

Figure B.5  Rpartition des lms suivant le public vis

eectifs)

(les valeurs numriques sont les

Sur la gure B.5 on voit la rpartition des lms suivant le public vis. Il apparat clairement que le contenu des uvres est une des caractristiques des lms inscrits Annecy. En eet 25% de ces lms s'adressent un public d'adultes. On est donc dans un type de contenu assez loign des classiques de chez Disney car seulement 15% des lms s'adressent un public d'enfants.

B.5 Rpartition des lms suivant la technique d'animation

Figure B.6  Rpartition des lms suivant les principales techniques d'animation

centages sont calculs sur les 5804 entres de la base)

(Les pour-

Parmi les 70 techniques d'animation prsentes dans la base textuelle, seules les techniques

176

ANNEXE B. LA BASE D'ANIMATION DE CITIA

signicatives ont t conserves sur la gure B.6. Ainsi n'apparaissent que les techniques d'animation dont l'occurrence est suprieure 60. Le dessin sur cellulods, une des techniques les plus connues, a t signicativement utilis durant les annes 80 (voir gure B.7) et demeure la technique majoritairement utilise dans la base de CITIA (voir gure B.6). L'animation numrique, qui est une technique jeune (voir gure B.7) connat un engouement ces dernires annes et est galement trs prsente dans la base.

Figure B.7  Carte AFC : rpartition des lms par technique d'animation et anne d'inscription au festival (la surface des carrs est proportionnelle aux eectifs, les carrs jaunes sont les priodes de production, les carrs bleus sont les techniques d'animation)

B.6. RPARTITION DES FILMS SUIVANT LE GENRE D'ANIMATION DCLAR 177

B.6 Rpartition des lms suivant le genre d'animation dclar


Malheureusement, les genres d'animation (qui sont le reet du contenu du lm) sourent d'une trs grande htrognit. Dans la base de donnes, ce champ est constitu de beaucoup de catgories qui ne sont pas, ou ne peuvent pas tre associes un genre d'animation comme dni dans l'ontologie des genres. Bien que le quart de la base n'a pas un genre d'animation bien dni, on remarque que les lms humoristiques sont les plus prsents au festival. Cependant le thme du drame reprsente une part importante des lms dont le genre est attribu ( 11%).

Figure B.8  Rpartition des lms suivant les genres

(Les pourcentages sont calculs sur les 5804 entres de la base. NB : Le genre humour_noir n'apparat que 2 fois)

B.7 Rpartition des synopsis suivant le nombre de mots


La caractristique des synopsis dont nous disposons dans cette base textuelle est leur longueur. En eet les gure B.9 et B.10 montrent la rpartition des synopsis en fonction du nombre de mots qu'ils comportent. Pour les synopsis franais le nombre de mots moyen est 24 mots avec un cart-type de 15. Pour les synopsis anglais le nombre de mots moyen est 22 mots avec un cart-type de 14. Ainsi que ce soit en anglais ou en franais les textes dont nous disposons sont des textes courts (68% des synopsis ont entre 10 et 40 mots) avec une grande variabilit (en nombre de mots).

178

ANNEXE B. LA BASE D'ANIMATION DE CITIA

Figure B.9  Rpartition des synopsis franais suivant le nombre de mots qu'ils contiennent

Figure B.10  Rpartition des synopsis anglais suivant le nombre de mots qu'ils contiennent

Tests et rsultats de l'analyse d'image

Annexe C

Pour valider notre approche, nous avons test notre algorithme sur une base de 10 lms d'animation dont l'auteur [Bouillot, 2008] a cr pour chaque lm un rsum statique (voir gure C.1 (a)). Ces images apparaissent pour l'auteur comme des images essentielles pour caractriser son uvre. Ces rsums constituent donc notre vrit terrain. Pour exploiter cette dernire nous avons repr dans chaque lm et pour chaque image fournie le dbut et la n de la sous squence dans laquelle apparat cette image, obtenant ainsi, ce que nous appellerons les plages de la vrit terrain. Notre objectif est d'obtenir un condensat d'image le plus proche possible de la vrit terrain.

C.1 Le choix de la mthode de comparaison des blocs


Pour valider le choix de la mthode de comparaison des blocs nous avons test notre algorithme d'extraction d'image clefs sur la base des 10 lms d'animation de Daniel Bouillot. Pour mesurer ses performances nous partons de l'hypothse que les images clefs retournes par l'algorithme doivent tre le moins redondantes tout en couvrant le maximum de passages et moments du lm et en particulier les passages importants de la vrit terrain. Nous avons donc vri si les numros des images clefs retournes par l'Algorithme Accumulation (AaA) appartenaient aux plages de la vrit terrain. De cette manire nous cherchons vrier si l'AaA permet d'obtenir un ensemble d'images clef au contenu le moins redondant tout en couvrant le maximum de passages et moments importants du lm. Pour valuer les performances de la mthode propose nous l'avons compare d'autres mthodes de comparaison entre blocs. 1. La premire (RGB) est la mthode originale [Lu et Suganthan, 2004] base sur le calcul d'une distance Euclidienne dans l'espace RGB. Le seuil tant x de manire empirique. 2. La deuxime est l'utilisation de distances de similarit DeltaE(CIE 1976) et DeltaE(CMC) dnis dans l'espace colorimtrique CIE1976Lab par le Color Measurement Committee (CMC). An d'tre en mesure de comparer les blocs, le seuil est x 7 comme prconis dans [Mojsilovic, 2005]. 3. La troisime (Name267) est la mthode propose dans ce travail en utilisant les noms des couleurs. Nous avons utilis en ralit 2 comparaisons. Une comparaison  pleine  179

180

ANNEXE C. TESTS ET RSULTATS DE L'ANALYSE D'IMAGE

(a) Vrit Terrain


Figure C.1  Exemple sur un lm d'animation (Borale,

(b) Rsultats

(3197 images) ) : (a) Le rsum statique fourni par l'auteur, (b) Le rsum la sortie de l'algorithme accumulation.
avec les 267 couleurs du ISCC-NBS et une comparaison  rduite  aux 31 couleurs de base de ces 267 couleurs (Name31). 4. Enn, une exprience tmoin qui n'est autre qu'un tirage alatoire (Rand) des images clefs a t galement utilise pour relativiser les rsultats. Les rsultats sont prsents travers la prcision P et le rappel R, calculs sur chaque lm et moyenns sur l'ensemble des 10 lms tudis, dont voici une synthse :

Mthode Prcision Rappel

Name267 0.31 0.93

DeltaE76 0.32 0.90

DeltaECMC 0.28 0.81

Name31 0.26 0.73

RGB 0.23 0.57

Rand 0.15 0.37

C.1.1 Discussions
Notre objectif est d'obtenir un ensemble d'image les moins redondantes possibles tout en couvrant le maximum de passages du lm et notamment ceux qui sont considrs comme importants pour l'auteur. La mesure de prcision va tre aecte par le nombre d'images clefs non comprises dans les plages de la vrit terrain. Elles correspondent aux images comprises dans des passages moins importants du lm qui sont forcement extraites par l'AaA. Cette mesure est surtout aecte par le nombre d'images redondantes extraites de ces passages. La mesure de rappel, quant elle, va tre aecte par le nombre d'images comprises dans les plages de la vrit terrain mais non extraites par l'AaA. Cette mesure est lie l'objectif de couvrir le maximum de passages importants du lm. On peut voir sur la gure C.2 que les mthodes du  color naming  (Name267) et de la distance dans l'espace Lab (DeltaE76) donnent de bons rsultats. On peut remarquer que le

C.2. LE CHOIX DES DISTANCES DANS LA CLASSIFICATION ASCENDANTE HIRARCHIQUE

181

blocs

Figure C.2  Graphique Prcision Rappel en fonction des mthodes de comparaison des

rappel est trs bon alors que la prcision est passable. Ceci vient du fait que le nombre de  Key Frame  par rsum de la vrit terrain est en moyenne de 4 images et que l'AaA rduit en moyenne la longueur du lm 3.5% de sa longueur originale. On a donc beaucoup d'image la sortie de l'AaA (voir gure C.1) par rapport au nombre d'images de la vrit terrain. Les images de la vrit terrain ayant une forte probabilit d'tre dans les images clefs retournes par l'algorithme on a donc un rappel lev. De la mme manire beaucoup de bruit se trouve dans le rsultat ce qui explique pourquoi la prcision est faible. Par contre la mthode qui consiste calculer la distance dans l'espace RGB donne des rsultats similaires la mthode de slection alatoire. En ralit si cette dernire donne de bons rsultats c'est parce que la couverture de la vrit terrain est assez importante. Les sous squences correspondant la vrit terrain (plages) reprsentent en moyenne 23% de la longueur du lm.

C.2 Le choix des distances dans la classication ascendante hirarchique


La CAH demande la dnition pralable d'une distance entre les individus classier (dans notre cas les individus sont des images). De nombreuses distances ont t utilises an

182

ANNEXE C. TESTS ET RSULTATS DE L'ANALYSE D'IMAGE

de juger de la similarit entre les images :

C.2.1 Distance entre individus


1. La premire distance est base sur un histogramme global (quation C.1) dont le nombre de couleurs est rduit en utilisant une discrtisation uniforme de l'espace RGB. Ainsi le cube de l'espace RGB est divis en 125 petits cubes et chaque couleur est remplace par la valeur de la couleur du centre du cube auquel elle appartient [Ionescu et al., 2005b].
Nc

d(m, n) =
i=1

(Hm (i) Hn (i))2

(C.1)

Pour chaque image fm et fn deux histogrammes couleur Hm et Hn normaliss sont calculs. Ensuite la distance Euclidienne (quation C.1) est calcule sur ces histogrammes, avec i l'index de la couleur et N c = 125 reprsentent le nombre de couleurs. 2. La deuxime est base sur la dcomposition en bloc.

1 d(fi , fj ) = 2 N DeltaE 76(Px (L, a, b), Py (L, a, b)) =

N2

(DeltaE 76(Fi (k ), Fj (k )))


k=1

2 2 (Lx Ly )2 + (a x ay ) + (bx by )

(C.2)

O fi et fj dsignent deux images. Chacune de ces images est transforme en une matrice rduite (Fi et Fj ) de taille N*N o est extraite pour chaque cellule la valeur mdiane vectorielle des pixels composant le bloc. Cette valeur mdiane (ou pixel mdian Px ) est reprsente par un triplet de valeur (L,a*,b*) dans l'espace CIELab. On calcule les N 2 = 256 distances, bases sur la formule de dirence de couleur (DeltaE76) du systme colorimtrique ClE1976Lab o la distance entre deux points (Px et Py ) de cet espace est base sur la distance euclidienne. Ensuite la moyenne de ces N 2 distances sert de mtrique pour la comparaison des deux images. 3. Et nalement la troisime distance est simplement la moyenne des distances pixel pixel dans l'espace La b (quation C.3)

d(m, n) =

1 RC

C 2 2 (Lm (i, j ) Ln (i, j ))2 + (a m (i, j ) an (i, j )) + (bm (i, j ) bn (i, j ))

i=1 j =1

O R = Le nombre de lignes et C = Le nombre de colonnes dans l'image.

(C.3)

C.2.2 Distance entre clusters


Les distances D(X, Y ) entre deux clusters X et Y gnralement utilises sont le minimum, le maximum ou la moyenne pondre des distances entre les singletons (xn ) qui constituent les deux clusters.

C.2. LE CHOIX DES DISTANCES DANS LA CLASSIFICATION ASCENDANTE HIRARCHIQUE  Saut minimum Single linkage" :

183

D(X, Y ) = min(d(x, y )) where x X, y Y


 Saut maximum Complete linkage" :

(C.4)

D(X, Y ) = max(d(x, y )) where x X, y Y


 Saut moyen Average linkage" :
(X ) (Y )

(C.5)

D(X, Y ) =

1 (X ) (Y )

d(xi , yj ) where xi X, yj Y
i=1 j =1

(C.6)

C.2.3 Tests
On dsire avoir un indicateur sur les performances de cette phase de classication. L'ide est d'obtenir N clusters lorsque l'utilisateur dsire N images pour rsumer le lm. Dans cette optique il faudrait avoir une image de la vrit terrain par cluster. Par consquent on dnit l'exactitude du systme comme tant le nombre de cluster contenant une et une seule image de la vrit terrain (et qu'elle soit en plus direntes pour chaque cluster) sur le nombre de cluster (quation C.7).

Exactitude =

Nb cluster avec une et une seule image de la VT Nb cluster

(C.7)

On teste les direntes distances prsentes dans ce paragraphe sur les deux meilleures congurations de l'algorithme accumulation de dirences c'est--dire : color naming 267 et DeltaE76 (voir gure C.2). Le tableau C.1 synthtise les rsultats obtenus.

Mthode Exactitude Mthode Exactitude

A&A mthode comparaison image : DeltaE76, Rappel : 0.89 HC HA HS BA BS BC DS DA DC 0.32 0.33 0.33 0.34 0.38 0.40 0.45 0.47 0.53

A&A mthode comparaison image : Name267, Rappel : 0.93 HS HA BS HC BA BC DS DA DC 0.30 0.35 0.35 0.39 0.40 0.41 0.45 0.51 0.53

Table C.1  Comparaison des direntes mthodes de calcul de distances entre image et

cluster (mthode : H : Histogramme, B : Bloc, D : DeltaE76, C : Complete, S : Single, A : Average) Pour mieux valuer les rsultats prsents dans le tableau C.1 on propose de regrouper les rsultats suivant la mthode utilise pour comparer deux images entres elles et de faire la moyenne des valeurs correspondantes (voir tableau C.2). On fait de mme suivant la mthode

184

ANNEXE C. TESTS ET RSULTATS DE L'ANALYSE D'IMAGE

utilise pour comparer deux clusters entres eux (voir tableau C.3).

Mthode Exactitude

Block 0.40

Hist 0.41

DeltaE76 0.49

Table C.2  Moyenne des rsultats suivant la mthode de calcul des distances entre images

Mthode Exactitude

Single 0.38

Average 0.40

Complete 0.43

Table C.3  Moyenne des rsultats suivant la mthode de calcul des distances entre clusters

C.2.4 Discussions
On peut voir d'aprs les tableaux C.1 et C.3 que les mthodes de clustering Complete et Average donnent les meilleurs rsultats par rapport la mthode du saut minimum  Single linkage . On peut noter qu'il y'a souvent des images de transition entre deux images direntes. Un dsagrment majeur bien connu du saut minimum est l'eet de chaine qui met dans un mme groupe deux objets loigns lorsqu'il existe entre eux une suite de points peu loigns les uns des autres. Ceci explique pourquoi la mthode du saut minimum donne de moins bons rsultats. La mesure de similarit entre images base sur la 3ime mthode (pixel pixel) dnie par l'quation C.3 donne les meilleurs rsultats. Ceci s'explique par le fait que cette mthode considre chaque pixel de l'image et tend donner des valeurs importantes de distances pour deux images mme trs similaires. Par contre elle est gourmande en temps de calcul. On peut noter que la mthode de rduction en bloc tend vers cette mthode lorsque la taille des blocs diminue. Empiriquement on constate que lorsqu'un bloc a une taille infrieure ou gale une cinquantaine de pixels on obtient des rsultats similaires mais avec un gain en temps de calcul non ngligeable ( 30 sur des images de 800x600).

Tests et rsultats de l'analyse de texte

Annexe D

D.1 Analyse syntaxique


Voici quelques rsultats complets de l'analyse syntaxique et de l'instanciation du scnario actanciel sur des phrases issues de synopsis de lms d'animation. Voici ce qui est reprsent sur les pages suivantes :  La phrase issue du synopsis.  Les dirents  linkage  retourns par LG.  Les tableaux statistiques des lments (Sujet-Verbe-Objet-Adverbial) connects aux verbes retrouvs.  Le scnario actanciel instanci.

185

Phrase du synopsis : Granpa tells his grand-daughter a story about when he was a boy during the war.

186

Les dirents  linkage  retourns par LG :

Linkage: 1/6 SubLinkage: 1/1

+----------------------------------------------Xp----------------------------------------------+ | +----------------MVp----------------+ | | +-------------Osn------------+ | +------MVp-----+ | | +-------O-------+ | | +--Ost--+ +----Jp---+ | +---Wd---+--Ss--+ +----D----+ +-Ds-+ +--QI-+-Cs+-Ss+ +-Ds+ | +-D*u+ | | | | | | | | | | | | | | | | | | LEFT-WALL Granpa tells.v his grand-daughter a story.n about when he was.v a boy.n during the war.n .

Linkage: 2/6 SubLinkage: 1/1

+----------------------------------------------Xp----------------------------------------------+ | +-------------------------------MVp------------------------------+ | | +----------------MVp----------------+ | | | +-------------Osn------------+ | | | | +-------O-------+ | | +--Ost--+ +----Jp---+ | +---Wd---+--Ss--+ +----D----+ +-Ds-+ +--QI-+-Cs+-Ss+ +-Ds+ | +-D*u+ | | | | | | | | | | | | | | | | | | LEFT-WALL Granpa tells.v his grand-daughter a story.n about when he was.v a boy.n during the war.n .

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Linkage: 3/6 SubLinkage: 1/1

+----------------------------------------------Xp----------------------------------------------+ | +-------------Osn------------+ +------MVp-----+ | | +-------O-------+ | +--Ost--+ +----Jp---+ |

+---Wd---+--Ss--+ +----D----+ +-Ds-+--Mp--+--QI-+-Cs+-Ss+ +-Ds+ | +-D*u+ | | | | | | | | | | | | | | | | | | LEFT-WALL Granpa tells.v his grand-daughter a story.n about when he was.v a boy.n during the war.n .

D.1. ANALYSE SYNTAXIQUE

Linkage: 4/6 SubLinkage: 1/1

+----------------------------------------------Xp----------------------------------------------+ | +----------------MVp----------------+ | | +-------------Osn------------+ | | | +-------O-------+ | | +--Ost--+ +----Jp---+ | +---Wd---+--Ss--+ +----D----+ +-Ds-+ +--QI-+-Cs+-Ss+ +-Ds+--Mp--+ +-D*u+ | | | | | | | | | | | | | | | | | | LEFT-WALL Granpa tells.v his grand-daughter a story.n about when he was.v a boy.n during the war.n .

Linkage: 5/6 SubLinkage: 1/1

+----------------------------------------------Xp----------------------------------------------+ | +-------------------------------MVp------------------------------+ | | +-------------Osn------------+ | | | +-------O-------+ | +--Ost--+ +----Jp---+ | +---Wd---+--Ss--+ +----D----+ +-Ds-+--Mp--+--QI-+-Cs+-Ss+ +-Ds+ | +-D*u+ | | | | | | | | | | | | | | | | | | LEFT-WALL Granpa tells.v his grand-daughter a story.n about when he was.v a boy.n during the war.n .

Linkage: 6/6 SubLinkage: 1/1

+----------------------------------------------Xp----------------------------------------------+ | +-------------Osn------------+ | | +-------O-------+ | +--Ost--+ +----Jp---+ |

187

188

+---Wd---+--Ss--+ +----D----+ +-Ds-+--Mp--+--QI-+-Cs+-Ss+ +-Ds+--Mp--+ +-D*u+ | | | | | | | | | | | | | | | | | | LEFT-WALL Granpa tells.v his grand-daughter a story.n about when he was.v a boy.n during the war.n .

La liste et les occurrences des verbes retrouvs


Mean: 6 Std: 0

Verb: 0 0 6 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 Verbs = {tells(2),was(10),}

Recherche des lments Sujet-Verbe-Objet-Adverbial connects au premier verbe (tells) :


0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Mean: Mean: Mean: Mean: 6 Std: 0 0 Std: 0 6 Std: 0 2.5 Std: 0.7071

S: V: O: A:

0 0 0 0

6 0 0 0

X X X X

0 0 0 0

0 0 6 0

0 0 0 0

0 0 6 0

0 0 0 3

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 2

SVOA(1)

S V O A

= = = =

{Granpa } {tells } {grand-daughter, story } {about, during }

Recherche des groupes de mots connects aux lments prcdents :


00 00 00 06 00 00 00 00 06 00 00 00 00 06 00 00 00 00 06 00 00 00 00 00 06 00 00 00 00 06 00 00 00 00 06 00 00 00 00 00 00 00 00 00 00

SG: OG: OG: AG: AG:

00 00 00 00 00

06 00 00 00 00

00 00 00 00 00

00 06 00 00 00

00 06 00 00 00

00 00 06 00 00

00 00 06 00 00

00 00 00 06 00

00 00 00 06 00

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

SVOAGroup(1)

Subj = { Granpa "Granpa" } Verb = { tells } Obj = { grand-daughter "his grand-daughter" } { story "a story" } Adv = { about "about when he was a boy" } { during "during the war" }

Recherche des lments Sujet-Verbe-Objet-Adverbial connects au deuxime verbe (was) :


0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Mean: Mean: Mean: Mean: 6 0 6 0 Std: Std: Std: Std: 0 0 0 0

D.1. ANALYSE SYNTAXIQUE

S: V: O: A:

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

0 0 0 0

6 0 0 0

X X X X

0 0 0 0

0 6 6 0

0 0 0 2

SVOA(2)

S V O A

= = = =

{he } {was } {boy } {during }

Recherche des groupes de mots connects aux lments prcdents :

SG: 00 00 00 00 00 00 00 00 00 06 00 00 00 00 00 00 00 00 OG: 00 00 00 00 00 00 00 00 00 00 00 06 06 00 00 00 00 00 AG: 00 02 02 02 02 02 02 02 02 00 00 00 00 06 06 06 00 00

SVOAGroup(2)

Subj = { he "he" } Verb = { was } Obj = { boy "a boy" } Adv = { during "during the war" }

189

Instanciation du Scenario Actanciel :

190

*********** Actant: *********** |-Character = Granpa, |-Patient = grand-daughter "his grand-daughter", story "a story",

*********** Action: *********** |-Action = tell,

*********** Scene: *********** |-Locative = |-Temporal = war "during the war", <-- about when he was a boy -->

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Remarque : < xxx > signie que l'expression xxx constitue la scne.

Phrase du synopsis : when she was a child, she was abused physically by a man.

Les dirents  linkage  retourns par LG :

D.1. ANALYSE SYNTAXIQUE

Linkage: 1/1 SubLinkage: 1/1

+------------------------------------Xp-----------------------------------+ +----------------Wd---------------+ | | +-----------CO*s----------+ | | +----------Xc----------+ | | | | +---Ost--+ | | +-------MVp------+--Js-+ | | +-Cs+-Ss-+ +-Ds-+ | +-Ss-+---Pv--+---MVa---+ | +-Ds+ | | | | | | | | | | | | | | | | LEFT-WALL when she was.v a child.n , she was.v abused.v physically by a man.n .

La liste et les occurrences des verbes retrouvs

VG: 00 00 00 01 00 00 00 00 01 01 00 00 00 00 00 00 Mean: 1 Std: 0 Verbs = {was(3),was(8),abused(9),}

Recherche des lments Sujet-Verbe-Objet-Adverbial connects au premier verbe (was) :


00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 Mean: Mean: Mean: Mean: 1 0 1 0 Std: Std: Std: Std: 0 0 0 0

S: V: O: A:

00 00 00 00

00 00 00 00

01 00 00 00

X X X X

00 00 00 00

00 01 01 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

SVOA(1)

191

S V O A

= = = =

{she} {was} {child} {}

Recherche des groupes de mots connects aux lments prcdents :

192

SG: 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 00 OG: 00 00 00 00 01 01 00 00 00 00 00 00 00 00 00 00

SVOAGroup(1) Subj = { she "she" } Verb = { was } Obj = { child "a child" } Adv =

Recherche des lments Sujet-Verbe-Objet-Adverbial connects au deuxime verbe (was) :


00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 Mean: Mean: Mean: Mean: 1 1 0 0 Std: Std: Std: Std: 0 0 0 0

S: V: O: A:

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

01 00 00 00

X X X X

00 01 00 00

Recherche des lments Sujet-Verbe-Objet-Adverbial connects au troisime verbe (abused) :


00 00 00 01 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 Mean: Mean: Mean: Mean: 0 1 0 0 Std: Std: Std: Std: 0 0 0 0

S: V: O: A:

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 01 00 00

X X X X

Les deux verbes prcdents sont lis ils constituent ainsi un groupe verbal Recherche des lments Sujet-Verbe-Objet-Adverbial connects au groupe verbal (was abused) :
00 00 00 01 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 Mean: Mean: Mean: Mean: 1 0 0 0 Std: Std: Std: Std: 0 0 0 0

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

S: V: O: A:

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

01 00 00 00

X X X X

X X X X

SVOA(2)

S V O A

= = = =

{she } {was abused } {} {physically by}

D.1. ANALYSE SYNTAXIQUE

Recherche des groupes de mots connects aux lments prcdents :

SG: 00 00 00 00 00 00 00 01 00 00 00 00 00 00 00 00 AG: 00 00 00 00 00 00 00 00 00 00 01 00 00 00 00 00 AG: 00 00 00 00 00 00 00 00 00 00 00 01 01 01 00 00

SVOAGroup(2)

Subj = { she "she" } Verb = { was } Obj = { child "a child" } Adv =

Aucun verbes d'action a t retrouv ! ! !

Instanciation du Scenario Actanciel :

193

Phrase du synopsis : On the themes of communication between men, three short stories about dialogues.

194

Les dirents  linkage  retourns par LG :

Linkage: 1/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | | +------CO------+ | | +----Jp---+ +----Xc----+ | +-------MVp------+ | | | +--Dmc-+--Mp-+---Jp---+ +--Jp--+ | +--Sp--+---Op---+ +---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

Linkage: 2/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | +-----------------------Xc----------------------+ | | | +----Jp---+ | | +-------MVp------+ | | | +--Dmc-+--Mp-+---Jp---+-----Mp----+--Jp--+ | +--Sp--+---Op---+ +---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Linkage: 3/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ |

| | | | | LEFT-WALL

+-------------------------CO------------------------+ +-----------------------Xc----------------------+ | +----Jp---+------------Mp------------+ | | +-------MVp------+ | +--Dmc-+--Mp-+---Jp---+ +--Jp--+ | +--Sp--+---Op---+ +---Jp---+ | | | | | | | | | | | | | on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n

| | | | | .

D.1. ANALYSE SYNTAXIQUE

Linkage: 4/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | | +------CO------+ | | +----Jp---+ +----Xc----+ | | | | +--Dmc-+--Mp-+---Jp---+ +--Jp--+ | +--Sp--+---Op---+---Mp--+---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

Linkage: 5/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | +-----------------------Xc----------------------+ | | | +----Jp---+ | | | | | +--Dmc-+--Mp-+---Jp---+-----Mp----+--Jp--+ | +--Sp--+---Op---+---Mp--+---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .
195

196

Linkage: 6/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | +-----------------------Xc----------------------+ | | | +----Jp---+------------Mp------------+ | | | | | +--Dmc-+--Mp-+---Jp---+ +--Jp--+ | +--Sp--+---Op---+---Mp--+---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

Linkage: 7/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | | +-----------------CO----------------+ | | | | +------CO------+ | | +----Jp---+ | +----Xc----+ | +-------MVp------+ | | | +--Dmc-+ +---Jp---+ +--Jp--+ | +--Sp--+---Op---+ +---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

Linkage: 8/10 SubLinkage: 1/1

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | | +-----------------CO----------------+ | | +----Jp---+ +---------------Xc--------------+ | +-------MVp------+ |

| | +--Dmc-+ +---Jp---+-----Mp----+--Jp--+ | +--Sp--+---Op---+ +---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

D.1. ANALYSE SYNTAXIQUE

Linkage: 9/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | | +-----------------CO----------------+ | | | | +------CO------+ | | +----Jp---+ | +----Xc----+ | | | | +--Dmc-+ +---Jp---+ +--Jp--+ | +--Sp--+---Op---+---Mp--+---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

Linkage: 10/10 SubLinkage: 1/1

+------------------------------------------------Xp------------------------------------------------+ +----------------------------Wd----------------------------+ | | +-------------------------CO------------------------+ | | | +-----------------CO----------------+ | | +----Jp---+ +---------------Xc--------------+ | | | | +--Dmc-+ +---Jp---+-----Mp----+--Jp--+ | +--Sp--+---Op---+---Mp--+---Jp---+ | | | | | | | | | | | | | | | | LEFT-WALL on the themes.n of communication.n between men.n , three short.v stories.n about dialogues.n .

La liste et les occurrences des verbes retrouvs


197

VG: 00 00 00 00 00 00 00 00 00 00 10 00 00 00 00 00 Mean: 10 Std: 0 Verbs = {short(10),}

Recherche des lments Sujet-Verbe-Objet-Adverbial connects au premier verbe (short) :


X X X X 00 00 10 00 00 00 00 05 00 00 00 00 00 00 00 00 00 00 00 00 Mean: Mean: Mean: Mean: 10 Std: 0 0 Std: 0 10 Std: 0 0 Std: 0

198

S: V: O: A:

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

10 00 00 00

SVOA(1)

S V O A

= = = =

{three } {short } {stories } {about }

Recherche des groupes de mots connects aux lments prcdents :

SG: 00 00 00 00 00 00 00 00 00 10 00 00 00 00 00 00 OG: 00 00 00 00 00 00 00 00 00 00 00 10 00 00 00 00 AG: 00 00 00 00 00 00 00 00 00 00 00 00 10 10 00 00

SVOAGroup(1)

Subj = { three "three" } Verb = { short } Obj = { stories "stories" } Adv = { about "about dialogues" }

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Instanciation du Scenario Actanciel :

*********** Actant:

*********** |-Character = three, |-Patient = stories,

D.1. ANALYSE SYNTAXIQUE

*********** Action: *********** |-Action = short,

*********** Scene: *********** |-Locative = |-Temporal =

199

Phrase du synopsis : Based on a true story of a father and son who go on a shing trip in the untamed forests of Montreal.

200

Les dirents  linkage  retourns par LG :

Linkage: 1/54 SubLinkage: 1/2 +---------------------------------------------------------------| +--------------Wd--------------+-----------------Sp-------------| +-----Ds----+ +---Js--+ *** | | +---A--+--Mp-+ +--Ds-+ | | | | | | | LEFT-WALL [based] [on] a true.a story.n of a father.n and son.n [who]

-Xp----------------------------------------------------------------+ +-----------MVp-----------+ | Sp-+ +-------Js-------+ +---------Jp--------+ | | | +------Ds------+ | +-------Dmc------+ | +MVp+ | +----A---+ | | +----A----+--Mp--+--Js-+ | | | | | | | | | | | | | go.v on a fishing.g trip.n in the untamed.a forests.n of Montreal .

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

SubLinkage: 2/2

+---------------------------------------------------------------| +---------------------------Wd--------------------------+ *** | +-----------------Ds-----------------+ | | +---------------A---------------+-----Sp| | | | LEFT-WALL [based] [on] a true.a story.n of a father.n and son.n [who]

D.1. ANALYSE SYNTAXIQUE

-Xp----------------------------------------------------------------+ +-----------MVp-----------+ | | +-------Js-------+ +---------Jp--------+ | | | +------Ds------+ | +-------Dmc------+ | Sp-+MVp+ | +----A---+ | | +----A----+--Mp--+--Js-+ | | | | | | | | | | | | | go.v on a fishing.g trip.n in the untamed.a forests.n of Montreal .

Linkage: 2/54 SubLinkage: 1/2

+---------------------------------------------------------------| +--------------Wd--------------+-----------------Sp-------------| +-----Ds----+ +---Js--+ *** | | +---A--+--Mp-+ +--Ds-+ | | | | | | | LEFT-WALL [based] [on] a true.a story.n of a father.n and son.n [who]

-Xp----------------------------------------------------------------+ +-----------MVp-----------+ | Sp-+ +-------Js-------+ +---------Jp--------+ | | | +------Ds------+ | +-------Dmc------+ | +MVp+ | +---AN---+ | | +----A----+--Mp--+--Js-+ | | | | | | | | | | | | | go.v on a fishing.n trip.n in the untamed.a forests.n of Montreal .
201

SubLinkage: 2/2 +----------------------------------------------------------------

202

| +---------------------------Wd--------------------------+ *** | +-----------------Ds-----------------+ | | +---------------A---------------+-----Sp| | | | LEFT-WALL [based] [on] a true.a story.n of a father.n and son.n [who]

-Xp----------------------------------------------------------------+ +-----------MVp-----------+ | | +-------Js-------+ +---------Jp--------+ | | | +------Ds------+ | +-------Dmc------+ | Sp-+MVp+ | +---AN---+ | | +----A----+--Mp--+--Js-+ | | | | | | | | | | | | | go.v on a fishing.n trip.n in the untamed.a forests.n of Montreal .

* * *

Linkage: 54/54 SubLinkage: 1/2

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

+---------------------------------------------------------------+---------------------Wd---------------------+ | +--------------CO-------------+ *** | +------Js-----+ | | | +-----Ds----+ | | | | +---A--+ +--Ds-+----------Sp------| | | | | | |

LEFT-WALL [based] on a true.a story.n [of] a father.m and son.n [who]

D.1. ANALYSE SYNTAXIQUE

-Xp----------------------------------------------------------------+ | +---------------Mp--------------+ | +-------Js-------+ +---------Jp--------+ | | | +------Ds------+ | +-------Dmc------+ | | Sp-+MVp+ | +---AN---+-Mp-+ | +----A----+ +--Js-+ | | | | | | | | | | | | | go.v on a fishing.g trip.n in the untamed.a forests.n of Montreal .

SubLinkage: 2/2 +---------------------------------------------------------------+---------------------------Wd--------------------------+ | +-------------------CO-------------------+ *** | +------Js-----+ | | | +-----Ds----+ | | | | +---A--+ +-------Ds-------+-----Sp| | | | | | | LEFT-WALL [based] on a true.a story.n [of] a father.m and son.n [who]

-Xp----------------------------------------------------------------+ | +---------------Mp--------------+ | +-------Js-------+ +---------Jp--------+ | | | +------Ds------+ | +-------Dmc------+ | | Sp-+MVp+ | +---AN---+-Mp-+ | +----A----+ +--Js-+ | | | | | | | | | | | | | go.v on a fishing.g trip.n in the untamed.a forests.n of Montreal .

203

La liste et les occurrences des verbes retrouvs


Mean: 54 Std: 0

204

Verbs: 00 00 00 00 00 00 00 00 00 00 00 00 54 00 00 00 00 00 00 00 00 00 00 00 00 Verbs = {go(12),}

Recherche des lments Sujet-Verbe-Objet-Adverbial connects au premier verbe (tells) :


54 00 00 00 00 00 00 00 X X X X 00 00 00 00 00 00 00 00 00 00 00 00 Mean: 36 Std: 12.7279 00 00 00 00 00 00 00 00 00 00 00 00 Mean: 0 Std: 0 00 00 00 00 00 00 00 00 00 00 00 00 Mean: 0 Std: 0 108 00 00 00 36 00 00 00 00 00 00 00 Mean: 72 Std: 36

S: V: O: A:

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

00 00 00 00

36 00 00 00

00 00 00 00

00 00 00 00

18 00 00 00

00 00 00 00

SVOA(1)

S V O A

= = = =

{story father son } {go } {} {on }

Recherche des groupes de mots connects aux lments prcdents :


00 00 00 00 00 00 00 00 00 00 00 00 108 108 108 00 00 00 72 00 00 00 72 00 00 00 72 00 00 00 72 00 00 00 72 00 00 00 72 00 00 00 00 00

SG: SG: SG: AG:

00 00 00 00

00 00 00 00

36 00 00 00

72 00 00 00

72 00 00 00

108 36 00 00 00 00 00 00 00 00 36 54 108 00 00 00 00 00 00 00 00 00 00 108 00 00 00 00 00 00 00 00 00 00 00 108

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

SVOAGroup(1)

Subj = { story "a true story" } { father "a father" } { son "son" } Verb = { go } Obj = Adv = { on "on a fishing trip in the untamed forests of Montreal" }

Instanciation du Scenario Actanciel :

D.1. ANALYSE SYNTAXIQUE

*********** Actant: *********** |-Character = father " a father ", son, story " a true story ", |-Patient =

*********** Action: *********** |-Action = go,

*********** Scene: *********** |-Locative = Montreal " on a fishing trip in the untamed forests of Montreal ", | forests " on a fishing trip in the untamed forests of Montreal ", |-Temporal = fishing " on a fishing trip in the untamed forests of Montreal ", | trip " on a fishing trip in the untamed forests of Montreal ",

205

206

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

D.2 Classication supervise des synopsis suivant les genres des lms d'animation
Nous prsentons ici une approche de classication supervise des synopsis suivant les genres d'animation par analyse de textes. Le but de cette approche est d'obtenir automatiquement le genre d'un lm partir de l'analyse de son synopsis et de son vocabulaire. Notre approche se dcompose en plusieurs phases dcrites ici :  La premire tape est la phase d'apprentissage supervis qui consiste isoler les termes spciques de chacune des catgories du genre dclar. Pour cela on calcul pour l'ensemble des termes m du corpus et pour chacune des catgories du genre (avec [Artistique, Aventure, Publicitaire, Fantastique, Documentaire, Dramatique, rotique, Exprimental, Humoristique, Musical, Satire, Policier, Politique, Western]) leur indice de spcicit (voir la dnition de cet indice dans le 4.5.1 et quation 4.5). Cette opration est faite sur un corpus d'apprentissage constitu de 5804 synopsis non lemmatiss et nettoys des mots outils. Pour chacune des catgories du genre dclar nous constituons une rfrence lexicale (voir gure D.1) qui est compose d'une liste de termes associs un indice de spcicit. D'aprs l'quation 4.5 l'indice de spcicit [0; +[. Ainsi nous dcidons de rpartir cette mesure (voir est dans l'intervalle Ispe quation D.1)

(m) = Ispe

(m) Ispe

spe (m)

(m) < 1 si Ispe

sinon

(D.1)

(m) l'indice de spcicit rpartie pour le terme m de la catgorie et I (m) Avec Ispe spe (m) ] ; +[. l'indice de spcicit du terme m de la catgorie . Finalement Ispe

les catgories : Artistique, Aventure, Publicitaire et Fantastique

Figure D.1  Extrait des rfrences lexicales (terme + indice de spcicit rpartie) pour

D.2. CLASSIFICATION SUPERVISE DES SYNOPSIS SUIVANT LES GENRES DES FILMS D'ANIMATION 207  Dans la deuxime tape nous testons le pouvoir discriminant des termes spciques appris prcdemment. Ainsi, nous dterminons pour chaque synopsis son genre le plus probable que nous comparons in ne au genre dclar. Pour chaque synopsis S et pour chacune des catgories des genres, nous calculons un indice I (S ) qui traduit l'appartenance du synopsis S la catgorie . Soit pour le synopsis S le calcul de 14 indices (IArtistique (S ), IAventure (S ), ..., IW estern (S )) lis chacune des catgories du genre. Le calcul de ces indices se fait partir des rfrences lexicales (qui ont t constitues auparavant durant la phase d'apprentissage) et correspond la somme des indices de spcicit rpartie des termes appartenant au synopsis et la rfrence lexicale (voir l'quation D.2) o le synopsis S et la rfrence lexicale sont vus comme des ensembles de termes m.

I (S ) =
mS

(m) Ispe

(D.2)

Le calcul de ces indices I (S ) est ralis sur une base de test constitue d'un peu plus de 18150 synopsis contenant la base d'apprentissage. Nous partons de l'hypothse que les rfrences lexicales apprises ainsi que le calcul de l'indice I (S ) permettent de discriminer les catgories du genre. Cependant il nous apparat intressant de tester la vracit de cette hypothse. Pour cela nous calculons pour chacune des catgories , ses paramtres statistiques I (S ), I (S ) et I (S ), I (S ) correspondant respectivement la moyenne et l'cart type des indices I (S ) des synopsis S dont le genre dclar appartient la catgorie et des synopsis S dont le genre dclar n'appartient pas la catgorie . Par consquent l'indice I permet de discriminer les genres si I (S ) = I (S ). Nous proposons de comparer ces deux moyennes et nous posons = I (S ) I (S ). La division de par son cart type (donn par l'quation D.3) suit une loi normale centre rduite de moyenne 0 et d'cart type 1.

2 I (S )

card(S ) Z=

2 I (S )

card(S )

(D.3) (D.4)

| |

Finalement le test de Z ou de l'cart rduit (voir quation D.4) permet d'accepter l'hypothse avec un niveau de conance si < (Z ) o dsigne la fonction de rpartition de la loi normale centre rduite. Les rsultats sont prsents sur la gure D.2.

208 ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Figure D.2  Comparaison des moyennes des indices I (S ) et I (S ) par le test de Z. Nombre oui correspond card(S ), Moyenne oui correspond I (S ), Ecart-type oui correspond I (S ), Nombre non correspond card(S ), Moyenne non correspond I (S ), Ecart-type non correspond I (S ), Dirence moyennes correspond , Ecart-type moyenne correspond , Test Loi normale correspond (Z ), Rsultat test Z correspond < (Z ) avec (Z ) < 0.95 (Dirence non signicative), 0.95 (Z ) < 0.99 (Dirence signicative), 0.99 (Z ) (Dirence trs signicative)

D.2. CLASSIFICATION SUPERVISE DES SYNOPSIS SUIVANT LES GENRES DES FILMS D'ANIMATION 209  La troisime tape consiste attribuer chaque synopsis S le genre le plus probable suivant les indices d'appartenance aux catgories I (S ). Pour permettre une comparaison entre ces indices il est au pralable ncessaire de les normaliser. Pour cela nous considrons l'ensemble des indices d'appartenance la catgorie comme des rpartitions statistiques dnies par une moyenne et un cart-type . Cette rpartition peut tre transforme en une autre distribution statistique (voir quation D.5) qui a pour moyenne 0 et pour cart-type 1. La rpartition de ce nouvel indice d'appartenance aux catgories I (S ) est dite  centre rduite . L'intrt de standardiser cette variable est de pouvoir la comparer aux autres variables numriques.

I (S ) =

I (S )

(D.5)

Finalement la comparaison entre ces nouveaux indices d'appartenance aux catgories est trivial et nous attribuons au synopsis S la catgorie pour laquelle l'indice I (S ) est maximum (voir quation D.6).

Genre(S ) = arg max I (S )

(D.6)

 La quatrime tape consiste comparer les valeurs de genre calcules celles dclares (prises comme vrit terrain). Nous utilisons les mesures de prcision et de rappel pour quantier la qualit de la classication.

prcision =

synopsis de la catgorie synopsis attribu la catgorie synopsis attribu la catgorie

(D.7)

rappel =

synopsis de la catgorie synopsis attribu la catgorie synopsis de la catgorie

(D.8)

Les rsultats sont prsents sur la gure D.3.

Figure D.3  Rsultats de la classication automatique des synopsis

210

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Les rsultats de cette classication automatique sont prsents sur la gure D.3. On remarque que les rsultats sont disparates et que les rsultats dpassent rarement 50% de precision et/ou de rappel. Cependant on remarque que cette approche donne les meilleurs rsultats pour les catgories publicitaire et artistique que l'on retrouve une fois sur deux. Cela vient de l'utilisation d'un vocabulaire spcialis ou tout au moins spcique ces catgories particulires comme les termes publicitaire, publicit, spot pour le genre publicitaire ou les termes imaginaire, tableaux, cirque pour le genre artistique.

D.3. ANALYSE THMATIQUE

211

D.3 Analyse thmatique


D.3.1 Thmatique du Drame

Figure D.4  Liste des 100 premiers mots spciques du genre drame avec l'indice de sp-

cicit

212

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Figure D.5  Liste des germes pour la constitution du dictionnaire thmatique du drame

D.3. ANALYSE THMATIQUE

213

D.3.2 Thmatique du Policier

Comme pour la thmatique du Drame nous avons cr un dictionnaire thmatique du Policier qui contient un peu plus de 150 termes dont la gure D.7 reprsente les 120 premiers termes. Pour vrier le pouvoir discriminant de la mesure de l'intensit thmatique du policier nous calculons pour chaque synopsis son intensit thmatique puis nous calculons la moyenne des intensits thmatiques pour chacune des catgories du genre dclar sans tenir compte des non-rponses. On voit sur la gure D.6 que cette intensit thmatique est importante et signicative. Les noms des critres discriminants sont encadrs et correspondent des moyennes signicativement direntes de l'ensemble de l'chantillon au risque de 95% (test de student) dans le cas du genre Policier.

en fonction du genre dclar

Figure D.6  Moyenne des intensits thmatiques du policier et cart-types entre parenthses

214

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Figure D.7  Liste des 120 premiers mots et expressions du dictionnaire thmatique du

Policier

D.3. ANALYSE THMATIQUE

215

Nous dcidons de classier navement et simplement les synopsis suivant cette intensit thmatique avec la rgle suivante :

SI 12.33 Ipolicier (S ) ALORS Genrepredit (S ) P OLICIER.

XXX

XXX N onDrame XXX Dclar

XX

Estim

Drame
38 (FP) 12 (VP)

N onDrame Drame

3997 (VN) 16 (FN)

Figure D.8  Matrice de confusion sur la prdiction du Policier.

Positif (FP), Faux Ngatif (FN), Vrai Positif (VP)

Vrai Ngatif (VN), Faux

Nous pouvons voir avec la matrice de confusion D.8 et sur la gure D.9 que cette mesure permet de retrouver 43% des synopsis policier. A partir de ces rsultats nous calculons les deux indicateurs que sont la prcision et le rappel :

Prcision =

12 VP = = 24% V P + FP 12 + 38 VP 12 Rappel = = = 43% V P + FN 12 + 16

On remarque sur la gure D.9 que les Faux Positifs sont majoritairement dus aux synopsis du genre Humour, Satire, Exprimental et Drame.

216

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Figure D.9  Rpartition des rsultats de la prdiction du Policier suivant le genre dclar.

Les eectifs sont entre parenthses. Les eectifs sont suprieurs aux nombres d'observations en raison de rponses multiples (plusieurs genres par synopsis)

D.3. ANALYSE THMATIQUE

217

D.3.3 Thmatique de l'Humour


Comme pour la thmatique du Drame nous avons cr un dictionnaire thmatique de l'Humour qui contient un peu plus de 100 termes dont la gure D.11 reprsente les 100 premiers termes. Pour vrier le pouvoir discriminant de la mesure de l'intensit thmatique de l'humour nous calculons pour chaque synopsis son intensit thmatique puis nous calculons la moyenne des intensits thmatiques pour chacune des catgories du genre dclar sans tenir compte des non-rponses. On voit sur la gure D.10 que cette intensit thmatique est peu importante mais signicative (les noms des critres discriminants sont encadrs et correspondent des moyennes signicativement direntes de l'ensemble de l'chantillon au risque de 95% (test de student)) dans le cas du genre Humour.

Figure D.10  Moyenne des intensits thmatiques de l'humour et cart-types entre paren-

thses en fonction du genre dclar

218

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Figure D.11  Liste des 100 premiers mots et expressions du dictionnaire thmatique de

l'Humour

D.3. ANALYSE THMATIQUE

219

Nous dcidons de classier navement et simplement les synopsis suivant cette intensit thmatique avec la rgle suivante :

SI 3.9 Ihumour (S ) ALORS Genrepredit (S ) HU M OU R.

XX

Dclar

XXX

XX

Estim

N onDrame XXX X
2661 (VN) 1165 (FN)

Drame
115 (FP) 122 (VP)

N onDrame Drame

Figure D.12  Matrice de confusion sur la prdiction de l'humour.

Positif (FP), Faux Ngatif (FN), Vrai Positif (VP)

Vrai Ngatif (VN), Faux

Nous pouvons voir avec la matrice de confusion D.12 et sur la gure D.13 que cette mesure permet de ne retrouver que 9.5% des synopsis dont le genre dclar est l'humour. A partir de ces rsultats nous calculons les deux indicateurs que sont la prcision et le rappel :

Prcision =

122 VP = = 52% V P + FP 122 + 115 VP 122 Rappel = = = 9.5% V P + FN 12 + 1165

On remarque sur la gure D.13 que les Faux Ngatifs sont nombreux. Cela vient du fait que les lms d'animation humoristiques ne portent gnralement pas cette marque dans leur synopsis. Cependant lorsque le texte porte les traces d'une histoire humoristique alors le vocabulaire utilis est spcique (prcision assez bonne de 52%). De plus l'humour est un concept abstrait dicile saisir qui passe donc par une comprhension du texte.

220

ANNEXE D. TESTS ET RSULTATS DE L'ANALYSE DE TEXTE

Figure D.13  Rpartition des rsultats de la prdiction du genre humour suivant le genre

dclar. Les eectifs sont entre parenthses. Les eectifs sont suprieurs aux nombres d'observations en raison de rponses multiples (plusieurs genres par synopsis)

Annexe chapitre fusion

Annexe E

E.1 Systmes ous


E.1.1 La thmatique du Policier
Les informations textuelles (intensit thmatique du policier et richesse du synopsis) sont purement numriques elles sont donc transformes en valeurs symboliques par l'utilisation d'ensembles ous. Ainsi le concept de possibilit du genre policier associ l'intensit thmatique du mme nom est dcrit en utilisant cinq variables linguistiques illustres par les symboles suivants : possibilit Trs Faible d'tre du Policier, possibilit Faible d'tre du Policier, possibilit Moyenne d'tre du Policier, possibilit Haute d'tre du Policier et possibilit Trs Haute d'tre du Policier. La signication oue de chaque symbole (ou terme linguistique) revient dterminer le sous-ensemble ou des nombres qu'il reprsente. Elle est illustre par sa fonction d'appartenance de type trapzodale. La partition oue FP olicier de l'univers de discours, IP olicier , est dtermine par l'ensemble des fonctions d'appartenance aux cinq symboles : T F , F , M , H et T H qui constituent le partitionnement de l'univers de discours IP olicier not LP olicier (IP olicier ), et est illustre par la gure E.1. La fusion des informations symboliques associes l'intensit thmatique et la richesse est obtenue par le principe de combinaison/projection utilisant des rgles oues. L'ensemble de ces rgles peuvent tre reprsentes sous la forme d'une matrice comme sur la gure E.2 o les entres oues sont reprsentes en ligne (l'intensit thmatique IP olicier ) et en colonne (la richesse) par leurs symboles linguistiques. La variable linguistique de sortie Policier est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que le synopsis traduise la thmatique du Policier. Les valeurs prises par la variable de sortie sont reprsentes dans chacune des cellules de cette matrice. Finalement nous dcidons de classier les 5804 synopsis de la base grce la rgle de classication (voir quation 5.8). Nous comparons les rsultats de classication avec le genre dclar. Si le genre dclar est le policier alors la classieur retrouv le genre du lm sinon il s'est tromp. Nous obtenons la matrice de confusion (voir tableau E.1) o chaque colonne de la matrice reprsente le nombre d'occurrences d'une classe estime, tandis que chaque ligne reprsente le nombre d'occurrences d'une classe dclare (ou de rfrence). A partir de cette matrice de confusion nous calculons les deux indicateurs que sont la prcision et le rappel : 221

222

ANNEXE E. ANNEXE CHAPITRE FUSION

Figure E.1  La partition oue FP olicier de l'univers de discours de l'intensit thmatique IP olicier est dtermine par les fonctions d'appartenance oues : T F (IP olicier ) = 1, IP olicier [0, 4], F (IP olicier ) = 1, IP olicier [7, 10], M (IP olicier ) = 1, IP olicier [14, 20], H (IP olicier ) = 1, IP olicier [28, 40] et T H (IP olicier ) = 1, IP olicier [50, 100], (l'axe des ordonnes correspond au degr d'appartenance).

Figure E.2  Rgles de combinaison entre l'intensit thmatique du Policier et de la richesse

du synopsis pour obtenir la mesure du Policier reprsente par 3 symboles Faible, Moyen, Haut

Prcision =

VP 11 = = 40% V P + FP 11 + 17 VP 17 Rappel = = = 40% V P + FN 11 + 17

Nous utilisons galement le F-score (ou F-mesure) mesure qui combine la prcision et le

E.1. SYSTMES FLOUS


XX XXX

223 Estim
XXX

Dclar

XXX

N onP olicier
4018 (VN) 17 (FN)

P olicier
17 (FP) 11 (VP)

N onP olicier P olicier

Table E.1  Matrice de confusion sur la prdiction du Policier.

Positif (FP), Faux Ngatif (FN), Vrai Positif (VP)

Vrai Ngatif (VN), Faux

rappel :

Fscore = 2

P R 40 40 =2 = 40% P +R 40 + 40

On remarque que ces taux restent relativement faibles. Cependant l'utilisation et la fusion de l'information de richesse du synopsis a amlior les rsultats de prcision par rapport l'approche base uniquement sur l'intensit thmatique (voir tableau D.8).

224

ANNEXE E. ANNEXE CHAPITRE FUSION

E.1.2 La thmatique de l'Humour


Les informations textuelles (intensit thmatique de l'humour et richesse du synopsis) sont purement numriques elles sont donc transformes en valeurs symboliques par l'utilisation d'ensembles ous. Ainsi le concept de possibilit du genre humour associ l'intensit thmatique du mme nom est dcrit en utilisant cinq variables linguistiques illustres par les symboles suivants : possibilit Trs Faible d'tre de l'Humour, possibilit Faible d'tre de l'Humour, possibilit Moyenne d'tre de l'Humour, possibilit Haute d'tre de l'Humour et possibilit Trs Haute d'tre de l'Humour. La signication oue de chaque symbole (ou terme linguistique) revient dterminer le sous-ensemble ou des nombres qu'il reprsente et elle est illustre par sa fonction d'appartenance de type trapzodale. La partition oue FHumour de l'univers de discours, IHumour , est dtermine par l'ensemble des fonctions d'appartenance aux cinq symboles : T F , F , M , H et T H qui constituent le partitionnement de l'univers de discours IHumour not LHumour (IHumour ), et est illustre par la gure E.3.

Figure E.3  La partition oue FHumour de l'univers de discours de l'intensit thma-

tique IHumour est dtermine par les fonctions d'appartenance oues : T F (IHumour ) = 1, IHumour [0, 1], F (IHumour ) = 1, IHumour [2.5, 5], M (IHumour ) = 1, IHumour [6, 9], H (IHumour ) = 1, IHumour [14, 40] et T H (IHumour ) = 1, IHumour [50, 100], (l'axe des ordonnes correspond au degr d'appartenance).

La fusion des informations symboliques associes l'intensit thmatique et la richesse est obtenue par le principe de combinaison/projection utilisant des rgles oues. L'ensemble de ces rgles peuvent tre reprsentes sous la forme d'une matrice comme sur la gure E.4 o les entres oues sont reprsentes en ligne (l'intensit thmatique IHumour ) et en colonne (la richesse) par leurs symboles linguistiques. La variable linguistique de sortie Humour est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que le synopsis traduise la thmatique de l'Humour. Les valeurs prises par la variable de sortie sont reprsentes dans chacune des cellules de cette matrice. Finalement nous dcidons de classier les 5804 synopsis de la base grce la rgle de

E.1. SYSTMES FLOUS

225

du synopsis pour obtenir la mesure de l'Humour reprsente par 3 symboles Faible, Moyen, Haut

Figure E.4  Rgles de combinaison entre l'intensit thmatique de l'Humour et de la richesse

classication (voir quation 5.8). Nous comparons les rsultats de classication avec le genre dclar. Si le genre dclar est le humour alors la classieur retrouv le genre du lm sinon il s'est tromp. Nous obtenons la matrice de confusion (voir tableau E.2) o chaque colonne de la matrice reprsente le nombre d'occurrences d'une classe estime, tandis que chaque ligne reprsente le nombre d'occurrences d'une classe dclare (ou de rfrence).
XXX XXX Estim N onHumour XXX Dclar XX

Humour
124 (FP) 127 (VP)

N onHumour Humour

2652 (VN) 1160 (FN)

Table E.2  Matrice de confusion sur la prdiction de l'Humour.

Positif (FP), Faux Ngatif (FN), Vrai Positif (VP)

Vrai Ngatif (VN), Faux

A partir de cette matrice de confusion nous calculons les deux indicateurs que sont la prcision et le rappel :

Prcision =

VP 127 = = 51% V P + FP 127 + 124 127 VP = = 10% Rappel = V P + FN 127 + 1160

On remarque que ces taux restent relativement faibles et que l'utilisation et la fusion de l'information de richesse du synopsis n'a pas amlior les rsultats de prcision ou de rappel (mme scores) par rapport l'approche base uniquement sur l'intensit thmatique (voir tableau D.12).

226

ANNEXE E. ANNEXE CHAPITRE FUSION

E.1.3 Le concept de Froideur


Le concept de Froideur est dni partir des deux sources d'informations que sont le ratio de couleurs fonces et le ration de couleurs chaudes dans la squence d'images. La partition oue FF oncee de l'univers de discours, RF oncee , est dtermine par l'ensemble des fonctions d'appartenance aux quatre symboles : F , M , H et T H qui constituent le partitionnement de l'univers de discours RF oncee not LF oncee (RF oncee ), et est illustre par la gure E.5.

RF oncee est dtermine par les fonctions d'appartenance oues : F (RF oncee ) = 1, RF oncee [0, 35], M (RF oncee ) = 1, RF oncee [40, 60], H (RF oncee ) = 1, RF oncee [65, 75] et T H (RF oncee ) = 1, RF oncee [85, 100], (l'axe des ordonnes correspond au degr d'appartenance).

Figure E.5  La partition oue FF oncee de l'univers de discours du ration de couleurs fonces

La partition oue FChaude de l'univers de discours, RChaude , est dtermine par l'ensemble des fonctions d'appartenance aux trois symboles : F , M et H qui constituent le partitionnement de l'univers de discours RChaude not LChaude (RChaude ), et est illustre par la gure E.6. La fusion de ces informations symboliques est obtenue par le principe de combinaison/projection utilisant des rgles oues (voir la gure E.7). La variable linguistique de sortie Froideur est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que les images traduisent de la froideur. Les valeurs prises par la variable de sortie sont reprsentes dans chacune des cellules de cette matrice.

E.1. SYSTMES FLOUS

227

RChaude est dtermine par les fonctions d'appartenance oues : F (RChaude ) = 1, RChaude [0, 30], M (RChaude ) = 1, RChaude [34, 75] et H (RChaude ) = 1, RChaude [85, 100], (l'axe des ordonnes correspond au degr d'appartenance).

Figure E.6  La partition oue FChaude de l'univers de discours du ration de couleurs chaudes

Figure E.7  Rgles de combinaison entre le ratio de couleurs fonces et le ration de couleurs

chaudes pour obtenir la mesure de la Froideur reprsente par 3 symboles Faible, Moyen, Haut

E.1.4 Le concept de Monotonie


Le concept de lm Monotone est dni partir des deux sources d'informations que sont le ratio de couleurs fonces et la mesure de l'activit globale dans la squence d'images. La partition oue FF oncee a t vue juste avant (voir gure E.5). La partition oue FActivite de l'univers de discours, Activite, est dtermine par l'ensemble des fonctions d'appartenance aux trois symboles : F , M et H qui constituent le partitionnement de l'univers de discours Activite not LActivite (Activite), et est illustre par la gure E.8.

228

ANNEXE E. ANNEXE CHAPITRE FUSION

Figure E.8  La partition oue FActivite de l'univers de discours de la mesure d'activit globale Activite est dtermine par les fonctions d'appartenance oues : F (Activite) = 1, Activite [0, 6], M (Activite) = 1, Activite [12, 16] et H (Activite) = 1, Activite [28, 100], (l'axe des ordonnes correspond au degr d'appartenance).

La fusion de ces informations symboliques est obtenue par le principe de combinaison/projection utilisant des rgles oues (voir la gure E.9). La variable linguistique de sortie Monotone est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que les images traduisent de la monotonie. Les valeurs prises par la variable de sortie sont reprsentes dans chacune des cellules de cette matrice.

Figure E.9  Rgles de combinaison entre le ratio de couleurs fonces et la mesure d'activit

Haut

globale pour obtenir le concept de lm Monotone reprsent par 3 symboles Faible, Moyen,

E.1.5 Le concept d'Uniformit


Le concept de lm Uniforme est dni partir des deux sources d'informations que sont le ratio de couleurs chaudes et le ratio de varit des couleurs dans la squence d'images.

E.1. SYSTMES FLOUS

229

La partition oue FF oncee a t vue juste avant (voir gure E.5). La partition oue FV ariation de l'univers de discours, RV ariation , est dtermine par l'ensemble des fonctions d'appartenance aux trois symboles : F , M et H qui constituent le partitionnement de l'univers de discours RV ariation not LV ariation (RV ariation ), et est illustre par la gure E.10.

de la palette couleurs RV ariation est dtermine par les fonctions d'appartenance oues : F (RV ariation ) = 1, RV ariation [0, 30], M (RV ariation ) = 1, RV ariation [33, 50] et H (RV ariation ) = 1, RV ariation [65, 100], (l'axe des ordonnes correspond au degr d'appartenance). La fusion de ces informations symboliques est obtenue par le principe de combinaison/projection utilisant des rgles oues (voir la gure E.11). La variable linguistique de sortie Uniforme est reprsente par trois symboles Faible, Moyen, Haut exprimant la possibilit que les images traduisent de l'uniformit. Les valeurs prises par la variable de sortie sont reprsentes dans chacune des cellules de cette matrice.

Figure E.10  La partition oue FV ariation de l'univers de discours du ration de variation

230

ANNEXE E. ANNEXE CHAPITRE FUSION

Figure E.11  Rgles de combinaison entre le ratio de couleurs fonces et le ratio de variation

de la palette couleurs pour obtenir le concept de lm Uniforme reprsente par 3 symboles Faible, Moyen, Haut

E.2 La base des 107 lms d'animation

Figure E.12  Rpartition des 107 lms suivant l'anne de production

Figure E.13  Rpartition des 107 lms suivant la dure exprime en minutes

Sixime partie

Bibliographie

231

Publications de l'auteur
Confrences d'audience internationale avec actes
1. G. Pas, F. Deloule, D. Beauchene, P. Lambert, Animated movie activity characterization by image and text information fusion, 12th International Conference on Information Fusion, CD-ROM , Seattle, USA, July 2009, 8 pages. 2. R. Lagagnire, R. Bacco, A. Hocevar, P. Lambert, G. Pas, B. Ionescu, Video Summarization from Spatio-Telporal Features, TRECVID BBC Rushes Summarization Workshop, ACM International Conference on Multimedia, Vancouver, Canada, October 2008, pp. 144-148.

Confrences d'audience nationale et francophone avec actes


3. G. Pas, F. Deloule, D. Beauchene, P. Lambert, Analyse Texte et Image pour la caractrisation de l'activit dans les Films d'Animation, 27me congrs INFORSID, CD-ROM , Toulouse, FRANCE, mai 2009, 16 pages. 4. G. Pas, F. Deloule, D. Beauchene, P. Lambert, Caractrisation de lms d'animation pas analyse conjointe texte et image, 9me journes francophones Extraction et Gestion de Connaissances (EGC-ECOI), Strasbourg, FRANCE, janvier 2009, pp. 43-49.

Autres confrences
5. D. Beauchene, G. Pas, Analyse conjointe texte/image pour la caractrisation de lms d'animation, Journe scientique LIMA (Loisirs et Images), Saint-Etienne, FRANCE, juillet 2009.

Rapports
6. G. Pas, Analyse Texte et Image pour la caractrisation de Films d'Animation, Rapport interne n 08/08, LISTIC, 2008.

233

234

Bibliographie
[Abbod et al., 2001] Abbod, M., von Keyserlingk, D., Linkens, D. et Mahfouf, M. (2001). Survey of utilisation of fuzzy technology in medicine and healthcare. Fuzzy Sets and Systems, 120(2):331349. Cite la page 117. [Aigrain et al., 1996] Aigrain, P., Zhang, H. et Petkovic, D. (1996). Content-based representation and retrieval of visual media : A state-of-the-art review. Multimedia tools and applications, 3(3):179202. Cite la page 13. [Anderson et Prez-Carballo, 2001] Anderson, J. et Prez-Carballo, J. (2001). The nature of indexing : how humans and machines analyze messages and texts for retrieval. Part I : Research, and the nature of human indexing. Information Processing and Management, 37(2):231254. Cite la page 5. [Arman et al., 1993] Arman, F., Hsu, A. et Chiu, M. (1993). Image processing on compressed data for large video databases. pages 267272. Cite la page 13. [Aubin, 2002] Aubin, S. (2002). Grammaire de constituants ou grammaire de dpendance ? quel type d'analyseur choisir pour un systme d'extraction d'information ? Mmoire de D.E.A., Institut National de Langues et Civilisations Orientales. Cite la page 95. [Avils-Cruz et al., 2005] Avils-Cruz, C., Rangel-Kuoppa, R., Reyes-Ayala, M., Andrade-Gonzalez, A. et Escarela-Perez, R. (2005). High-order statistical texture analysis : font recognition applied. Pattern Recogn. Lett., 26(2):135145. Cite la page
7.

[Barra, 2000] Barra, V. (2000). Fusion d'images 3D du cerveau - Etude de modles et applications. Thse de doctorat, Universit d'Auvergne. Cite la page 117. [Bastire, 1998] Bastire, A. (1998). Methods for multisensor classication of airborne targets integrating evidence theory. Aerospace Science and Technology, 2(6):401411. Cite
la page 117.

[Beauchne et Deloule, 2009] Beauchne, D. et Deloule, F. (2009). Une exprience de construction d'ontologie. Journes Francophones sur les Ontologies (JFO), Poitiers, France. Cite aux pages 27 and 132. [Benzcri et Benzcri, 1980] Benzcri, J. et Benzcri, F. (1980). Pratique de l'analyse des donnes. Dunod Paris. Cite la page 74. [Berlin et Kay, 1969] Berlin, B. et Kay, P. (1969). Basic Color Terms : Their Universality and Evolution. University of California Press. Cite la page 51. [Bertini et al., 2006] Bertini, M., Del Bimbo, A. et Nunziati, W. (2006). Automatic detection of player's identity in soccer videos using faces and text cues. In MULTIMEDIA '06 : Proceedings of the 14th annual ACM international conference on Multimedia, pages 663666, New York, NY, USA. ACM. Cite la page 15. [Besada et al., 2004] Besada, J., Molina, J., Garca, J., Berlanga, A. et Portillo, J. (2004). Aircraft identication integrated into an airport surface surveillance video system. Machine Vision and Applications, 15(3):164171. Cite la page 117. [Birren, 1969] Birren, F. (1969). Principles of color. 235
Cite la page 24.

236

BIBLIOGRAPHIE

[Boggs, 1996] Boggs, J. (1996). The art of watching lms. Mayeld Publishing Company, 1280 Villa Street, Mountain View, CA 94041. Cite la page 12. [Bouchon-Meunier, 1993] Bouchon-Meunier, B. (1993). La logique oue. Presses universitaires de France. Cite aux pages 127 and 129. [Bouillot, 2008] Bouillot, D. (2008). Pages http ://www.lisiere.com/bouillot.htm. Cite la page 179. web de d.bouillot.

[Bouthemy et al., 1999] Bouthemy, P., Gelgon, M. et Ganansia, F. (1999). A unied approach to shot change detection and camera motion characterization. IEEE Transactions on Circuits and Systems for Video Technology, 9(7):10301044. Cite aux pages 9 and 35. [Bremond, 1973] Bremond, C. (1973). Logique du rcit. ditions du Seuil, Paris.
page 90. Cite la

[Brunelli et al., 1999] Brunelli, R., Mich, O. et Modena, C. (1999). A survey on the automatic indexing of video data. Journal of visual communication and image representation, 10(2):78112. Cite la page 13. [Brunet, 1988] Brunet, . (1988). Une mesure de la distance intertextuelle : la connexion lexicale. Revue Informatique et Statistique dans les Sciences humaines (Le nombre et le texte, pages 14. Cite la page 73. [Brunet, 2000] Brunet, E. (2000). Qui lemmatise dilemme attise. Lexicometrica, 2:119.
Cite la page 72.

[Brunet, 2006] Brunet, E. (2006). Navigation dans les rafales. Disponible sur : http ://www. cavi. univparis3. fr/lexicometrica/jadt/JADT2006-PLENIERE/JADT2006_EB. pdf. Cite
la page 78.

[Brunet et al., 2004] Brunet, ., Bases, C. et al. (2004). Peut-on mesurer la distance entre deux textes ? Cite la page 73. [Buehler et al., 2009] Buehler, P., Everingham, M. et Zisserman, A. (2009). Learning sign language by watching TV (using weakly aligned subtitles). In IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009), volume 2. Cite la page 15. [Bujor et al., 2002] Bujor, F., Valet, L., Trouve, E., Mauris, G. et Bolon, P. (2002). An interactive fuzzy fusion system applied to change detection inSAR images. In Fuzzy Systems, 2002. FUZZ-IEEE'02. Proceedings of the 2002 IEEE International Conference on, volume 2. Cite la page 117. [Bulterman et al., 2007] Bulterman, D. C. A., Jansen, A. J., Cesar, P. et Cruz-Lara, S. (2007). An ecient, streamable text format for multimedia captions and subtitles. In DocEng '07 : Proceedings of the 2007 ACM symposium on Document engineering, pages 101110, New York, NY, USA. ACM. Cite la page 15. [Caicedo et al., 2008] Caicedo, J., Gonzalez, F. et Romero, E. (2008). Content-based medical image retrieval using low-level visual features and modality identication. Lecture Notes In Computer Science, pages 615622. Cite la page 149. [Calinski et Harabasz, 1974] Calinski, R. et Harabasz, J. (1974). A dendrite method for cluster analysis. In Commun. Statistics, volume 3, pages 127. Cite la page 62. [Carr et Philippe, 2000] Carr, M. et Philippe, P. (2000). Indexation Audio : un tat de l'art. Annals of Telecommunications, 55(9):507525. Cite la page 13. [Chauveau, 2009] Chauveau, j. (2009). La thorie de l'vidence - notes de cours de master 1 informatique universit d'angers. http://julien.chauveau.online.fr/m1info/ intelligence_artificielle/assets/IA-3-Evidence.pdf. Cite la page 125.

BIBLIOGRAPHIE

237

[Choi et Baraniuk, 2001] Choi, H. et Baraniuk, R. (2001). Multiscale image segmentation using wavelet-domain hidden Markovmodels. IEEE Transactions on Image Processing, 10(9):13091321. Cite aux pages 7 and 14. [Chu et al., 2006] Chu, S., Narayanan, S., Kuo, C. et Mataric, M. (2006). Where am I ? Scene recognition for mobile robots using audio features. In 2006 IEEE International Conference on Multimedia and Expo, pages 885888. Cite la page 15. [Cinquin et Troccaz, 2009] Cinquin, P. et Troccaz, J. (2009). La chirurgie augmente Grenoble. La Revue pour l'histoire du CNRS, N 24-Automne. Cite la page 117. [CITIA, 2009a] CITIA (2009a). Animaquid. http ://www.citia.info/culture-patrimoineanimaquid.html. Cite la page 26. [CITIA, 2009b] CITIA (2009b). Citia, city of moving images. http ://www.annecy.org.
la page 21. Cite

[CITIA, 2009c] CITIA (2009c). Citia recherche. http ://labo.citia.info/.

Cite la page 22.

[Corridoni et Del Bimbo, 1995] Corridoni, J. et Del Bimbo, A. (1995). Film semantic analysis. Proceedings of Computer Architectures for Machine Perception, pages 202209.
Cite aux pages 11 and 13.

[Cotsaces et al., 2006] Cotsaces, C., Nikolaidis, N. et Pitas, I. (2006). Video shot detection and condensed representation. a review. IEEE signal processing magazine, 23(2):2837.
Cite la page 13.

[Creutz et al., 2007] Creutz, M., Hirsimki, T., Kurimo, M., Puurula, A., Pylkknen, J., Siivola, V., Varjokallio, M., Arisoy, E., Saralar, M. et Stolcke, A. (2007). Morph-based speech recognition and modeling of out-of-vocabulary words across languages. ACM Trans. Speech Lang. Process., 5(1):129. Cite la page 18. [Cristani et al., 2007] Cristani, M., Bicego, M. et Murino, V. (2007). Audio-visual event recognition in surveillance video sequences. IEEE transactions on multimedia, 9(2):257.
Cite la page 16.

[Cunningham, 2005] Cunningham, H. (2005). Information extraction, automatic. Encyclopedia of Language and Linguistics,, pages 665677. Cite aux pages 92 and 93. [Curtis et al., 2009] Curtis, J., Baxter, D., Wagner, P., Cabral, J., Schneider, D., Witbrock, M. et al. (2009). Methods of Rule Acquisition in the TextLearner System. In Proceedings of the 2009 AAAI Spring Symposium on Learning by Reading and Learning to Read. Cite la page 95. [Datta et al., 2008] Datta, R., Joshi, D., Li, J. et Wang, J. Z. (2008). Image retrieval : Ideas, inuences, and trends of the new age. ACM Comput. Surv., 40(2):160. Cite la page
7.

[Davenport et al., 1991] Davenport, G., Smith, T. et Pincever, N. (1991). Cinematic principles for multimedia. IEEE Computer Graphics & Applications, 11(4):6774. Cite aux
pages 10 and 42.

[Del Bimbo, 1999] Del Bimbo, A. (1999). Visual information retrieval. Morgan Kaufmann.
Cite la page 16.

[Dempster, 1968] Dempster, A. (1968). A generalization of Bayesian inference. Journal of the Royal Statistical Society. Series B (Methodological), 30(2):205247. Cite la page 124. [Desmarais et Moscarola, 2004] Desmarais, C. et Moscarola, J. (2004). Analyse de contenu et analyse lexicale, le cas d'une tude en management public. In Actes du colloque" L'analyse de donnes textuelles : De l'enqute aux corpus littraires. Cite la page 75.

238

BIBLIOGRAPHIE

[Duan et al., 2004] Duan, L.-Y., Xu, M., Tian, Q. et Xu, C.-S. (2004). Nonparametric motion model with applications to camera motion pattern classication. In MULTIMEDIA '04 : Proceedings of the 12th annual ACM international conference on Multimedia, pages 328331, New York, NY, USA. ACM. Cite aux pages 9 and 35. [Dubois et Prade, 1988] Dubois, D. et Prade, H. (1988). Possibility theory : an approach to computerized processing of uncertainty. Plenum Press New York. Cite la page 126. [Dubois et Prade, 2004] Dubois, D. et Prade, H. (2004). On the use of aggregation operations in information fusion processes. Fuzzy Sets and Systems, 142(1):143161. Cite la
page 118.

[Ennaji et al., 2003] Ennaji, A., Ribert, A. et Lecourtier, Y. (2003). From data topology to a modular classier. International Journal on Document Analysis and Recognition, 6(1):19. Cite la page 62. [Essid, 2005] Essid, S. (2005). Classiscation automatique des signaux audio-frquences : reconnaissance des instruments de musique. Thse de doctorat. Cite aux pages 8 and 13. [Estoup, 1916] Estoup, J. (1916). Gammes stnographiques. Institut Stenographique de France, Paris. Cite la page 71. [Faudemay et al., 1998] Faudemay, P., Durand, G., Seyrat, C. et Tondre, N. (1998). Indexing and retrieval of multimedia objects at dierent levels of granularity. In Proceedings of SPIE, volume 3527, page 112. Cite la page 5. [Fodor et Roubens, 1994] Fodor, J. et Roubens, M. (1994). Fuzzy preference modelling and multicriteria decision support. Kluwer Academic Pub. Cite la page 128. [Foote, 1999] Foote, J. (1999). An overview of audio information retrieval. Multimedia Systems, 7(1):210. Cite la page 8. [Foucault et Francois, 2009] Foucault, M. et Francois, A. (2009). General Policy Speech of Prime Ministers and Fiscal Choices in France : Preach Water and Drink Wine !. Do They Walk Like They Talk ? : Speech and Action in Policy Processes, page 131. Cite la
page 74.

[Fung, 2003] Fung, G. (2003). The disputed federalist papers : Svm feature selection via concave minimization. In Proceedings of the 2003 conference on Diversity in computing, pages 4246. ACM New York, NY, USA. Cite la page 74. [Gimel'Farb et Jain, 1996] Gimel'Farb, G. et Jain, A. (1996). On retrieving textured images from an image database. Pattern Recognition, 29(9):14611483. Cite la page 7. [Goodman et al., 1997] Goodman, I., Mahler, R. et Nguyen, H. (1997). Mathematics of data fusion. Springer. Cite la page 116. [Grabisch et Perny, 2001] Grabisch, M. et Perny, P. (2001). Agrgation multicritre. Utilisation de la logique oue, Hermes, Paris. Cite aux pages 127 and 128. [Greimas, 1966] Greimas, A. (1966). Smantique structurale. Inst. for Litt.
Cite la page 91.

[Grishman, 1996] Grishman, R. (1996). Message understanding conference-6 : A brief history. In Proceedings of the 16th International Conference on Computational Linguistics, pages 466471. Cite la page 93. [Gurin-Pac, 1997] Gurin-Pac, F. (1997). La statistique textuelle. Un outil exploratoire en sciences sociales. Population, 52(4):865887. Cite la page 75. [Haddad et Chevallet, 2003] Haddad, H. et Chevallet, J.-P. (2003). Utilisation des syntagmes nominaux pour la recherche d'information. Universit Jean Moulin LYON. EGC

BIBLIOGRAPHIE

239

2003 Journes francophones d'Extraction et de Gestion des Connaissances, Atelier "Fouilles de donnes et recherche d'informations dans des bases de donnes multi-mdia semistructures". Cite la page 95. [Hakenberg et al., 2009] Hakenberg, J., Solt, I., Tikk, D., Tari, L., Rheinlnder, A., Ngyuen, Q. L., Gonzalez, G. et Leser, U. (2009). Molecular event extraction from link grammar parse trees. In BioNLP '09 : Proceedings of the Workshop on BioNLP, pages 8694, Morristown, NJ, USA. Association for Computational Linguistics. Cite la page 95. [Hanna et al., 2009] Hanna, P., Rocher, T. et Robine, M. (2009). A robust retrieval system of polyphonic music based on chord progression similarity. In SIGIR '09 : Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, pages 768769, New York, NY, USA. ACM. Cite la page 8. [Hauptmann et al., 2002] Hauptmann, A. G., Jin, R. et Ng, T. D. (2002). Multi-modal information retrieval from broadcast video using ocr and speech recognition. In JCDL '02 : Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries, pages 160161, New York, NY, USA. ACM. Cite la page 18. [Herrera-Boyer et al., 2003] Herrera-Boyer, P., Peeters, G. et Dubnov, S. (2003). Automatic classication of musical instrument sounds. Journal of New Music Research, 32(1):321. Cite la page 15. [Ionescu, 2007] Ionescu, B. (2007). Caractrisation Symbolique de Squences d'images : Application aux Films d'Animation. Thse de doctorat, Universit de Savoie. Cite aux pages
24, 37, 38, 40, 41, 42, 58, 143, and 162.

[Ionescu et al., 2005a] Ionescu, B., Coquin, D., Lambert, P. et Buzuloiu, V. (2005a). Analysis and characterization of animation movies. ORASIS journes francophones des jeunes chercheurs en vision par ordinateur, CD-Rom. Cite aux pages 34 and 38. [Ionescu et al., 2005b] Ionescu, B., Coquin, D., Lambert, P. et Buzuloiu, V. (2005b). The inuence of the color reduction on cut detection in animation movies. Actes du 20me Colloque GRETSI sur le Traitement et l'Analyse du Signal et d'Image, CD-Rom. Cite aux
pages 38, 52, and 182.

[Istrate, 2003] Istrate, D. (2003). Dtection et reconnaissance des sons pour la surveillance mdicale. Thse de doctorat en informatique, Institut National Polytechnique de Grenoble - INPG. Cite la page 16. [Itten, 1974] Itten, J. (1974). The art of color : the subjective experience and objective rationale of color. Wiley. Cite aux pages 23 and 40. [Jeannin et Divakaran, 2001] Jeannin, S. et Divakaran, A. (2001). Mpeg-7 visual motion descriptors. IEEE Transactions on Circuits and Systems for Video Technology, 11(6):720 724. Cite la page 9. [Jullien, 2008] Jullien, S. (2008). Systmes coopratifs de fusion explicitant les dpendances entre les informations : application l'interprtation d'images tomographiques 3D et la slection de lms d'animation. Thse de doctorat, Universit de Savoie. Cite aux pages 119,
120, and 122.

[Jung et al., 2004] Jung, K., In Kim, K. et K. Jain, A. (2004). Text information extraction in images and video : a survey. Pattern Recognition, 37(5):977997. Cite la page 18. [Kakkonen, 2008] Kakkonen, T. (2008). Robustness evaluation of two ccg, a pcfg and a link grammar parsers. CoRR, abs/0801.3817. Cite la page 96.

240

BIBLIOGRAPHIE

[Kalampalikis, 2003] Kalampalikis, N. (2003). L'apport de la mthode Alceste dans l'analyse des reprsentations sociales. Mthodes d'tude des reprsentations sociales, pages 147 163. Cite la page 76. [Kelly et Judd, 1955] Kelly, K. et Judd, D. (1955). The iscc-nbs color names dictionary and the universal color language (the iscc-nbs method of designating colors and a dictionary for color names). Circular 553, National Bureau of Standards, Washington DC. Cite la
page 51.

[Koprinska et Carrato, 2001] Koprinska, I. et Carrato, S. (2001). Temporal video segmentation : A survey. Signal processing : Image communication, 16(5):477500. Cite la
page 10.

[Korn, 2006] Korn, B. (2006). Autonomous Sensor-based Landing Systems : Fusion of Vague and Incomplete Information by Application of Fuzzy Clustering Techniques. In From data and information analysis to knowledge engineering : proceedings of the 29th Annual Conference of the Gesellschaft f "ur Klassikation eV, University of Magdeburg, March 9-11, 2005, page 454. Springer.
Cite la page 117.

[Kosseim et Lapalme, 1998] Kosseim, L. et Lapalme, G. (1998). Exibum : Un systeme experimental d'extraction d'information bilingue. Rencontre Internationale sur l'extraction le ltrage et le rsum automatique (RIFRA-98), Sfax, Tunisia, pages 129140. Cite la
page 92.

[Krzanowski et Lai, 1985] Krzanowski, W. J. et Lai, Y. T. (1985). A criterion for determining the number of groups in a data set using sum-of-squares clustering. In Biometrics, volume 44, pages 2334. International Biometric Society. Cite la page 62. [Kuncheva et Whitaker, 2003] Kuncheva, L. et Whitaker, C. (2003). Measures of diversity in classier ensembles and their relationship with the ensemble accuracy. Machine Learning, 51(2):181207. Cite la page 121. [Labb et Labb, 2001] Labb, C. et Labb, D. (2001). Inter-Textual Distance and Authorship Attribution. Corneille and Molire. Cite aux pages 73 and 74. [Labb, 2002] Labb, D. (2002). LA LEMMATISATION DES GRANDES BASES DE TEXTES Un exemple : Corneille, Molire et Racine. L'dition lectronique en littrature et dictionnairique, valuation et bilan. Cite la page 72. [Labb et Monire, 2000] Labb, D. et Monire, D. (2000). La connexion intertextuelle. Application au discours gouvernemental qubcois. M. Rajman & J.-C. Chappelier (ds.), JADT, pages 8594. Cite la page 74. [Labb et Monire, 2008] Labb, D. et Monire, D. (2008). Je est-il un autre ? Actes JADT, 2008:647656. Cite la page 74. [Lafon et Muller, 1984] Lafon, P. et Muller, C. (1984). Dpouillements et statistiques en lexicomtrie Travaux de linguistique quantitative. Cite la page 76. [Lamalle et Salem, 2002] Lamalle, C. et Salem, A. (2002). Types gnraliss et topographie textuelle dans l'analyse quantitative des corpus textuels. Actes des JADT 2002, pages 403411. Cite la page 76. [Laptev, 2005] Laptev, I. (2005). On space-time interest points. International Journal of Computer Vision, 64(2):107123. Cite aux pages 10 and 36. [Larlus, 2008] Larlus, D. (2008). cration et utilisation de vocabulaires visuels pour la catgorisation d'images et la segmentation de classes d'objets. Thse de doctorat, Institut National Polytechnique de Grenoble - INPG. Cite la page 7.

BIBLIOGRAPHIE

241

[Lavee et al., 2009] Lavee, G., Rivlin, E. et Rudzsky, M. (2009). Understanding Video Events : A Survey of Methods for Automatic Interpretation of Semantic Occurrences in Video. Systems, Man, and Cybernetics, Part C : Applications and Reviews, IEEE Transactions, 39(5):489504. Cite la page 15. [Lazebnik et al., 2006] Lazebnik, S., Schmid, C. et Ponce, J. (2006). Beyond bags of features : Spatial pyramid matching for recognizing natural scene categories. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 2. Cite
la page 7.

[Lebart et Salem, 1994] Lebart, L. et Salem, A. (1994). Statistique textuelle. Paris : Dunod,| c1994. Cite aux pages 71, 72, and 74. [Lee et Narayanan, 2005] Lee, C. et Narayanan, S. (2005). Toward detecting emotions in spoken dialogs. IEEE Transactions on Speech and Audio Processing, 13(2):293303. Cite
la page 15.

[Lefevre et al., 2001] Lefevre, E., Colot, O., Vannoorenberghe, P. et De Brucq, D. (2001). Informations et combinaison : les liaisons conictuelles. Revue Traitement du Signal, 18(3):161177. Cite la page 125. [Leonardi et al., 2003] Leonardi, R., Migliorati, P. et Prandini, M. (2003). Semantic indexing of sports program sequences by audio-visual analysis. In Image Processing, 2003. ICIP 2003. Proceedings. 2003 International Conference on, volume 1. Cite la page 10. [Li et al., 2002] Li, D., Wong, K., Hu, Y. et Sayeed, A. (2002). Detection, classication and tracking of targets in distributed sensor networks. IEEE Signal Processing Magazine, 19(2):1729. Cite la page 117. [Lienhart, 2001] Lienhart, R. (2001). Reliable transition detection in videos : A survey and practitiner's guide. MRL, Intel Corporation, http ://www.lienhart.de/Publications/IJIG_AUG2001.pdf. Cite la page 12. [Lienhart et Wernicke, 2002] Lienhart, R. et Wernicke, A. (2002). Localizing and segmenting text in images and videos. IEEE Transactions on Circuits and Systems for Video Technology, 12(4):256268. Cite la page 18. [Liu et al., 2009] Liu, H., Dai, S., Song, E., Yang, C. et Hung, C.-C. (2009). A new kview algorithm for texture image classication using rotation-invariant feature. In SAC '09 : Proceedings of the 2009 ACM symposium on Applied Computing, pages 914921, New York, NY, USA. ACM. Cite aux pages 7 and 34. [Liu et al., 2007] Liu, Y., Zhang, D., Lu, G. et Ma, W.-Y. (2007). A survey of contentbased image retrieval with high-level semantics. Pattern Recognition, 40(1):262  282. Cite
aux pages 6 and 7.

[Longre et al., 2004] Longre, D., Luong, X. et Mellet, S. (2004). Temps verbaux, axe syntagmatique, topologie textuelle : analyse d'un corpus lemmatis. Actes des Journes internationales d'Analyse statistique des Donnes Textuelles. Cite la page 77. [Lu, 2001] Lu, G. (2001). Indexing and retrieval of audio : a survey. Multimedia Tools and Applications, 15(3):269290. Cite la page 7. [Lu et al., 2002] Lu, L., Zhang, H. et Jiang, H. (2002). Content analysis for audio classication and segmentation. IEEE transactions on speech and audio processing, 10(7):504516.
Cite la page 15.

[Lu et Suganthan, 2004] Lu, T. et Suganthan, P. N. (2004). An accumulation algorithm for video shot boundary detection. Multimedia Tools Appl., 22(1):89106. Cite aux pages 13,
45, and 179.

242

BIBLIOGRAPHIE

[Madhyastha et al., 2003] Madhyastha, H., Balakrishnan, N. et Ramakrishnan, K. (2003). Event Information Extraction Using Link Grammar. In 13th International Workshop on Research Issues in Data Engineering : Multi-lingual Information Management (RIDE'03). Cite la page 95. [Manguin et al., 2004] Manguin, J., Franois, J., Eufe, R., Fesenmeier, L., Ozouf, C. et Snchal, M. (2004). Le dictionnaire lectronique des synonymes du crisco : un mode d'emploi trois niveaux. Les Cahiers du CRISCO, 17. Cite la page 106. [Marchand, 2008] Marchand, P. (2008). Analyse lexicomtrique d'un genre : la dclaration de politique gnrale. proceedings of 9th International Conference on Textual Data statistical Analysis,, 2:777785. Cite la page 75. [Marchand et Monnoyer-Smith, 2000] Marchand, P. et Monnoyer-Smith, L. (2000). Les discours de politique gnrale franais : la n des clivages idologiques ? Mots, 62(1):13 30. Cite la page 74. [Marszalek et al., 2009] Marszalek, M., Laptev, I. et Schmid, C. (2009). Actions in context. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 0:29292936. Cite la page 151. [Mauris et al., 1996] Mauris, G., Benoit, E. et Foulloy, L. (1996). The aggregation of complementary information via fuzzy sensors. Measurement, 17(4):235249. Cite aux pages
139 and 140.

[Maussang, 2005] Maussang, F. (2005). Traitement d'images et fusion de donnes pour la dtection d'objets enfouis en acoustique sous-marine. Thse de doctorat, Universit Joseph-Fourier - Grenoble. Cite la page 126. [Maussang et al., 2008] Maussang, F., Rombaut, M., Chanussot, J., Htet, A. et Amate, M. (2008). Fusion of Local Statistical Parameters for Buried Underwater Mine Detection in Sonar Imaging. EURASIP Journal on Advances in Signal Processing, 2008:19 pages. Cite la page 117. [Mayare, 2007] Mayaffre, D. (2007). L'analyse des donnes textuelles aujourd'hui : du corpus comme une urne au corpus comme un plan. Retour sur les travaux actuels de topographie/topologie textuelle. Lexicomtrica, 7. Cite la page 76. [McDaniel, 2001] McDaniel, D. (2001). An Information Fusion Framework for Data Integration. In Proceedings of the 13th Software Technology Conference. Cite la page 121. [Menegaz et al., 2007] Menegaz, G., Troter, A. L., Sequeira, J. et Boi, J. M. (2007). A discrete model for color naming. EURASIP J. Appl. Signal Process., 2007(1):113113.
Cite la page 51.

[Miller, 1995] Miller, G. (1995). WordNet : a lexical database for English. Communications of the ACM, 38(11):3941. Cite la page 100. [Milligan et Cooper, 1985] Milligan, G. et Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50(2):159179.
Cite la page 62.

[Mojsilovic, 2005] Mojsilovic, A. (2005). A computational model for color naming and describing color composition of images. IEEE Transactions on Image Processing, 14(5): 690699. Cite aux pages 52 and 179. [Mokhtarian et al., 1997] Mokhtarian, F., Abbasi, S. et Kittler, J. (1997). Ecient and robust retrieval by shape content through curvature scale space. Image Databases and Multi-Media Search, pages 5158. Cite aux pages 16 and 34.

BIBLIOGRAPHIE

243

[Molla et Hutchinson, 2003] Molla, D. et Hutchinson, B. (2003). Intrinsic versus extrinsic evaluations of parsing systems. Cite la page 96. [Mosteller et Wallace, 1984] Mosteller, F. et Wallace, D. (1984). Applied Bayesian and classical inference : the case of the Federalist papers. Springer Verlag. Cite la page 74. [Mourad, 1999] Mourad, G. (1999). La segmentation de textes par l'tude de la ponctuation. CIDE.99 Confrence Internationale sur le Document Electronique, pages 155171.
Cite aux pages 14 and 93.

[Muller, 1967] Muller, C. (1967). tude de statistique lexicale : le vocabulaire du thtre de Pierre Corneille. Larousse. Cite la page 73. [Muslea, 1999] Muslea, I. (1999). Extraction patterns for information extraction tasks : A survey. In The AAAI-99 Workshop on Machine Learning for Information Extraction. Cite
la page 92.

[Naphide et Huang, 2001] Naphide, H. et Huang, T. (2001). A probabilistic framework for semantic video indexing, ltering, and retrieval. IEEE Transactions on Multimedia, 3(1):141151. Cite la page 19. [Orio, 2006] Orio, N. (2006). Music retrieval : A tutorial and review. Now Publishers Inc.
Cite la page 8.

[Panagiotakis et al., 2006] Panagiotakis, C., Ramasso, E., Tziritas, G., Rombaut, M. et Pellerin, D. (2006). Shape-motion based athlete tracking for multilevel action recognition. Lecture Notes in Computer Science, 4069:385. Cite la page 10. [Patel et Sethi, 1996] Patel, N. et Sethi, I. (1996). Audio characterization for video indexing. In Proceedings of SPIE, volume 2670, page 373. Cite la page 13. [Patrice et al., 2004] Patrice, C., Lionel, D., ric, D., Florence, D., Sbastien, S. et Roger, F. (2004). tude des reprsentations sociales de la chimiothrapie : une voie d'analyse des relations entre patients et mdecins oncologues. Bulletin du cancer, 91(3): 27984. Cite la page 75. [Perrot, 1980] Perrot, J. (1980). Ponctuation et fonctions linguistiques. Langue franaise, 45(1):6776. Cite la page 12. [Petridis et Pantic, 2008] Petridis, S. et Pantic, M. (2008). Fusion of audio and visual cues for laughter detection. In CIVR '08 : Proceedings of the 2008 international conference on Content-based image and video retrieval, pages 329338, New York, NY, USA. ACM. Cite
la page 8.

[Petrushin, 1999] Petrushin, V. (1999). Emotion in speech : Recognition and application to call centers. Articial Neu. Net. In Engr.(ANNIE'99), pages 710. Cite la page 15. [Platt, 1999] Platt, J. (1999). Fast training of support vector machines using sequential minimal optimization. Cite la page 150. [Pothos et al., 2007] Pothos, V. K., Theoharatos, C., Economou, G. et Ifantis, A. (2007). Texture retrieval based on a non-parametric measure for multivariate distributions. In CIVR '07 : Proceedings of the 6th ACM international conference on Image and video retrieval, pages 502509, New York, NY, USA. ACM. Cite la page 7. [Propp et al., 1970] Propp, V., Derrida, M., Kahn, C., Meletinski, E. et Todorov, T. (1970). Morphologie du conte. Seuil. Cite la page 90. [Pujol, 2009] Pujol, A. (2009). Contributions la Classication Smantique d'Images. Thse de doctorat en informatique, Ecole Centrale de Lyon. Cite aux pages 7 and 16.

244

BIBLIOGRAPHIE

[Pyysalo et al., 2006] Pyysalo, S., Ginter, F., Pahikkala, T., Boberg, J., Jrvinen, J. et Salakoski, T. (2006). Evaluation of two dependency parsers on biomedical corpus targeted at protein-protein interactions. International Journal of Medical Informatics, 75(6):430442. Cite aux pages 95 and 96. [Qunot, 1996] Qunot, G. (1996). Computation of optical ow using dynamic programming. In IAPR Workshop on machine vision applications, pages 249252. Cite la page
10.

[Ramasso, 2007] Ramasso, E. (2007). Reconnaissance de squences d'tats par le Modle des Croyances Transfrables. Application l'analyse de vidos d'athltisme. Thse de doctorat, Universit Joseph-Fourier - Grenoble. Cite aux pages 36 and 126. [Ramesh et al., 2002] Ramesh, G., Maniatty, W. et Zaki, M. (2002). Indexing and data access methods for database mining. In VIIth ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD 02), Madison, Wisconsin, USA. In proceedings. Citeseer. Cite la page 5. [Reinert, 1986] Reinert, M. (1986). Un logiciel d'analyse lexicale :(Alceste). Les Cahiers de l'analyse des donnes, 11(4):471481. Cite la page 76. [Reinert, 1997] Reinert, M. (1997). Les Mondes lexicaux des six numros de la revue Le Surralisme au Service de la Rvolution. Cahiers du centre de recherche sur le surralisme, pages 270302. Cite la page 76. [Reinert, 2002] Reinert, M. (2002). La tresse du sens et la mthode Alceste Application aux Rveries du promeneur solitaire. JADT 2000 : 5es Journes Internationales d'Analyse Statistique des Donnes Textuelles. Cite la page 76. [Reinert, 2008] Reinert, M. (2008). Mondes lexicaux stabiliss et analyse statistique de discours. Cite la page 76. [Rivlin et Weiss, 1995] Rivlin, E. et Weiss, I. (1995). Local invariants for recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(3):226238. Cite la page 6. [Rombaut, 2001] Rombaut, M. (2001). Fusion : Etat de l'art et perspectives. Rapport technique DSP 99.60.078, IUT de Troyes, laboratoire LM2S-UTT. Cite aux pages 119 and 123. [Ruvolo et al., 2008] Ruvolo, P., Fasel, I. et Movellan, J. (2008). Auditory mood detection for social and educational robots. In IEEE International Conference on Robotics and Automation, 2008. ICRA 2008, pages 35513556. Cite la page 15. [Salem, 2004] Salem, A. (2004). Introduction la rsonance textuelle. 7mes Journes internationales d'Analyse statistique des Donnes Textuelles, Louvain. Cite la page 76. [Salton, 1968] Salton, G. (1968). A comparison between manual and automatic indexing methods. Cite la page 5. [Sarawagi, 2008] Sarawagi, S. (2008). Information extraction. Foundations and Trends in Databases, 1(3):261377. Cite la page 92. [Satoh et al., 1999] Satoh, S., Nakamura, Y. et Kanade, T. (1999). Name-it : Naming and detecting faces in news videos. IEEE Multimedia, 6(1):2235. Cite la page 16. [Saussure et al., 1922] Saussure, F., Bally, C., Schehaye, A., Riedlinger, A., Calvet, L. et De Mauro, T. (1922). Cours de linguistique gnrale. Payot, Paris. Cite la
page 70.

[Scaringella et al., 2006] Scaringella, N., Zoia, G. et Mlynek, D. (2006). Automatic genre classication of music content : a survey. IEEE Signal Processing Magazine, 23(2): 133141. Cite la page 8.

BIBLIOGRAPHIE

245

[Schmid et Mohr, 1997] Schmid, C. et Mohr, R. (1997). Local grayvalue invariants for image retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(5): 530535. Cite la page 6. [Sebastiani, 2002] Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1):147. Cite la page 74. [Shafer, 1976] Shafer, G. (1976). A mathematical theory of evidence. Princeton university press Princeton, NJ. Cite la page 124. [Sitbon et Bellot, 2005] Sitbon, L. et Bellot, P. (2005). Segmentation thmatique par chanes lexicales pondres. TALN 2005, 1:505510. Cite la page 14. [Sleator et Temperley, 1991] Sleator, D. et Temperley, D. (1991). Parsing english with a link grammar. Rapport technique, Carnegie Mellon University Computer Science technical report CMU-CS-91-196. Cite la page 95. [Smeaton et al., 2009] Smeaton, A., Over, P. et Kraaij, W. (2009). High-Level Feature Detection from Video in TRECVid : a 5-Year Retrospective of Achievements. In Multimedia Content Analysis : Theory and Applications, pages 151174. Springer Verlag. Cite
la page 15.

[Smeulders et al., 2000] Smeulders, A., Worring, M., Santini, S., Gupta, A. et Jain, R. (2000). Content-based image retrieval at the end of the early years. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(12):13491380. Cite aux pages 6 and 15. [Smith et al., 2004] Smith, P., Drummond, T. et Cipolla, R. (2004). Layered motion segmentation and depth ordering by tracking edges. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(4):479492. Cite la page 10. [Snoek et Worring, 2005] Snoek, C. et Worring, M. (2005). Multimodal video indexing : A review of the state-of-the-art. Multimedia Tool and Applications, 25(1):535. Cite aux
pages 6, 19, and 20.

[Snoek et al., 2005] Snoek, C., Worring, M. et Smeulders, A. (2005). Early versus late fusion in semantic video analysis. In Proceedings of the 13th annual ACM International Conference on Multimedia, page 402. ACM. Cite la page 15. [Snoek et al., 2006] Snoek, C. G. M., Worring, M., van Gemert, J. C., Geusebroek, J.-M. et Smeulders, A. W. M. (2006). The challenge problem for automated detection of 101 semantic concepts in multimedia. In MULTIMEDIA '06 : Proceedings of the 14th annual ACM international conference on Multimedia, pages 421430, New York, NY, USA. ACM. Cite aux pages 15 and 16. [Sphinx, 2009] Sphinx (2009). Logiciel le sphinx. http ://www.lesphinx-developpement.fr.
Cite aux pages 80 and 106.

[Sugeno, 1974] Sugeno, M. (1974). Theory of fuzzy integrals and its applications. Thse de doctorat, Tokyo Institute of Technology Tokyo, Japan. Cite la page 128. [Swets et Weng, 1996] Swets, D. et Weng, J. (1996). Using discriminant eigenfeatures for image retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(8):831836. Cite la page 16. [Szummer et Picard, 1998] Szummer, M. et Picard, R. (1998). Indoor-outdoor image classication. In 1998 IEEE International Workshop on Content-Based Access of Image and Video Database, 1998. Proceedings., pages 4251. Cite aux pages 14 and 15.

246

BIBLIOGRAPHIE

[Tong et Chang, 2001] Tong, S. et Chang, E. (2001). Support vector machine active learning for image retrieval. In Proceedings of the ninth ACM international conference on Multimedia, pages 107118. ACM New York, NY, USA. Cite la page 149. [Troccaz, 2006] Troccaz, J. (2006). La chirurgie urologique assiste par ordinateur et robot. Prog. Urol, 16(2):112120. Cite la page 117. [Trohidis et al., 2008] Trohidis, K., Tsoumakas, G., Kalliris, G. et Vlahavas, I. (2008). Multilabel classication of music into emotions. In Proceedings of the 9th International Conference on Music Information Retrieval (ISMIR). Cite aux pages 8 and 163. [Trucco et Plakas, 2006] Trucco, E. et Plakas, K. (2006). Video tracking : a concise survey. IEEE Journal of Oceanic Engineering, 31(2):520529. Cite aux pages 10 and 36. [Tsai et Wu, 2008] Tsai, C. et Wu, J. (2008). Using neural network ensembles for bankruptcy prediction and credit scoring. Expert Systems with Applications, 34(4):26392649.
Cite la page 149.

[Tsekeridou et Pitas, 1999] Tsekeridou, S. et Pitas, I. (1999). Audio-visual content analysis for content-based video indexing. In Proc. of ICMCS, volume 1, pages 667672. Cite
la page 20.

[Turenne, 2001] Turenne, N. (2001). Etat de l'art de la classication automatique pour l'acquisition de connaissances partir de textes. Rapport technique, INRA. Cite la page
95.

[Tzanetakis et Cook, 2002] Tzanetakis, G. et Cook, P. (2002). Musical genre classication of audio signals. IEEE Transactions on speech and audio processing, 10(5):293302. Cite
la page 15.

[Ullman et al., 2001] Ullman, S., Sali, E. et Vidal-Naquet, M. (2001). A fragment-based approach to object representation and classication. Lecture notes in computer science, pages 85102. Cite la page 7. [Vailaya et al., 2001] Vailaya, A., Figueiredo, M., Jain, A., Zhang, H., Technol, A. et Alto, P. (2001). Image classication for content-based indexing. IEEE Transactions on Image Processing, 10(1):117130. Cite la page 15. [Vailaya et al., 1998] Vailaya, A., Jain, A. et Zhang, H. (1998). On image classication : City images vs. landscapes. Pattern Recognition, 31:19211936. Cite la page 15. [Valet, 2001] Valet, L. (2001). Un systme ou de fusion cooprative : application au traitement d'images naturelles. Thse de doctorat, Universit de Savoie. Cite aux pages 20, 117,
118, 119, 120, 121, and 123.

[Valet et al., 2001] Valet, L., Mauris, G. et Bolon, P. (2001). A statistical overview of recent literature in information fusion. IEEE Aerospace and Electronic Systems Magazine, 16(3):714. Cite la page 118. [Van de Sande et al., 2008] Van de Sande, K. E., Gevers, T. et Snoek, C. G. (2008). A comparison of color features for visual concept classication. In CIVR '08 : Proceedings of the 2008 international conference on Content-based image and video retrieval, pages 141150, New York, NY, USA. ACM. Cite aux pages 7 and 16. [Vapnik, 1996] Vapnik, V. (1996). Structure of statistical learning theory. Computational Learning and Probabilistic Reasoning, page 3. Cite la page 149. [Viprey, 2004] Viprey, J. (2004). Analyse squence de la micro-distribution lexicale. Actes des Journes internationales d'Analyse statistique des Donnes Textuelles. Cite la
page 78.

BIBLIOGRAPHIE

247

[Visibone, 2009] Visibone (2009). Webmaster palette. http ://www.visibone.com/colorlab/.


Cite la page 38.

[Volgyesi et al., 2007] Volgyesi, P., Balogh, G., Nadas, A., Nash, C. et Ledeczi, A. (2007). Shooter localization and weapon classication with soldier-wearable networked sensors. In Proceedings of the 5th international conference on Mobile systems, applications and services, page 126. ACM. Cite la page 117. [Volponi et al., 2003] Volponi, A., Brotherton, T., Luppold, R. et Simon, D. (2003). Development of an information fusion system for engine diagnostics and health management. In JANNAF 27th airbreathing propulsion subcommittee meeting. Citeseer. Cite la
page 117.

[Vonfelt, 2008] Vonfelt, S. (2008). La musique des lettres. Thse de doctorat, Universit de Toulouse-Le Mirail et Universit de Parme/Bologne. Cite la page 78. [Wald, 1999] Wald, L. (1999). Some terms of reference in data fusion. IEEE Transactions on Geoscience and Remote Sensing, 37(3 Part 1):11901193. Cite la page 117. [Williams et al., 2003] Williams, R., Cotte, O. et Quentin, B. (2003). Techniques d'animation pour le dessin anim, l'animation 3D et le jeu vido. Eyrolles. Cite la page 167. [Witten et al., 1999] Witten, I., of Waikato, U. et of Computer Science, D. (1999). Weka : Practical Machine Learning Tools and Techniques with Java Implementations. Dept. of Computer Science, University of Waikato. Cite aux pages 149 and 150. [Wold et al., 1996] Wold, E., Blum, T., Keislar, D. et Wheaten, J. (1996). Contentbased classication, search, and retrieval of audio. IEEE multimedia, 3(3):2736. Cite aux
pages 15 and 16.

[Wu et Zhu, 1999] Wu, Y. et Zhu, J. (1999). A fusion method for estimate of trajectory. Science in China Series E : Technological Sciences, 42(2):149156. Cite la page 117. [Xiao et al., 2009] Xiao, Z., Dellandra, E., Dou, W. et Chen, L. (2009). Recognition of emotions in speech by a hierarchical approach. In International Conference on Aective Computing and Intelligent Interaction (ACII). Cite la page 8. [Xie et al., 2004] Xie, H., Andreae, P., Zhang, M. et Warren, P. (2004). Learning models for english speech recognition. In ACSC '04 : Proceedings of the 27th Australasian conference on Computer science, pages 323329, Darlinghurst, Australia, Australia. Australian Computer Society, Inc. Cite la page 18. [Xu et al., 2008] Xu, M., Xu, C., Duan, L., Jin, J. S. et Luo, S. (2008). Audio keywords generation for sports video analysis. ACM Trans. Multimedia Comput. Commun. Appl., 4(2):123. Cite la page 16. [Yan et Hauptmann, 2007] Yan, R. et Hauptmann, A. (2007). A review of text and image retrieval approaches for broadcast news video. Information Retrieval, 10(4):445484. Cite
la page 18.

[Zadeh, 1975] Zadeh, L. (1975). The concept of a linguistic variable and its application to approximate reasoning. Information sciences, 8(3):199249. Cite la page 126. [Zentner et al., 2008] Zentner, M., Grandjean, D. et Scherer, K. (2008). Emotions evoked by the sound of music : Characterization, classication, and measurement. Emotion, 8(4):494521. Cite la page 15. [Zhang et Lu, 2004] Zhang, D. et Lu, G. (2004). Review of shape representation and description techniques. Pattern Recognition, 37(1):119. Cite la page 34.

248

BIBLIOGRAPHIE

[Zhang et al., 1993] Zhang, H., Kankanhalli, A. et Smoliar, S. (1993). Automatic partitioning of full-motion video. Multimedia Systems, pages 1028. Cite la page 13. [Zhang et al., 1995] Zhang, H., Low, C. et Smoliar, S. (1995). Video parsing and browsing using compressed data. Multimedia tools and applications, 1(1):89111. Cite la page 9. [Zhang et Kuo, 1999] Zhang, T. et Kuo, C. (1999). Hierarchical classication of audio data for archiving andretrieving. In 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999. ICASSP'99. Proceedings., volume 6. Cite aux pages 15 and 16. [Zhao et al., 2003] Zhao, W., Chellappa, R., Phillips, P. J. et Rosenfeld, A. (2003). Face recognition : A literature survey. ACM Comput. Surv., 35(4):399458. Cite aux pages
16 and 34.

[Zhong et al., 1995] Zhong, Y., Karu, K. et Jain, A. (1995). Locating text in complex color images. Pattern Recognition, 28(10):15231535. Cite la page 18. [Zimmermann et Zysno, 1980] Zimmermann, H. et Zysno, P. (1980). Latent connectives in human decision making. Fuzzy sets and systems, 4(1):3751. Cite la page 128. [Zipf, 1949] Zipf, G. (1949). Human behavior and the principle of least eort : An introduction to human ecology. addison-wesley press. Cite la page 71.

You might also like