You are on page 1of 27

PhiN-Beiheft 7/2014: 85

Glenn Roe (Australian National University)

L'tude littraire l're du numrique: du texte l'intertexte dans les "digital


humanities"

An integral part of the growing international field of concerns and practices in and around the "Digital
Humanities", computational and digitally-assisted approaches to humanities text collections have in the
past several years become increasingly prevalent. This article aims to explore both the promise and
perils of these new digital approaches to literary and historical data sets, as well as the methodological
underpinnings that inform their elaboration. In particular, we will examine several computational approaches to literary-historical analysis in French literature undertaken by the ARTFL Project at the
University of Chicago, one of the oldest North American centres for digital humanities research.

S'il est vrai qu'un mouvement littraire, ou bien savant, soit parvenu sur la scne ds
qu'un "manifeste" a t produit, alors on peut dire que les "Digital Humanities", ou
bien les "humanits numriques",1 sont arrives officiellement en France avec la publication (en ligne, bien sr) du "Manifeste des Digital humanities" lors de la 'nonconfrence' THATCamp qu'a eu lieu Paris le 1819 mai 2010 (Collectif 2011). Se
distinguant d'un texte analogue publi en 2009 l'Universit de Californie-Los Angeles (Collectif s.d.) d'une teneur beaucoup plus radical et contestataire, et ainsi
moins pertinent hors de son contexte amricain le "Manifeste des Digital humanities" francophone s'organise dans sa prsentation autour de trois ples fondamentaux :
1. Le tournant numrique pris par la socit modifie et interroge les conditions de production et
de diffusion des savoirs.
2. Pour nous, les digital humanities concernent l'ensemble des Sciences humaines et sociales,
des Arts et des Lettres. Les digital humanities ne font pas table rase du pass. Elles s'appuient,
au contraire, sur l'ensemble des paradigmes, savoir-faire et connaissances propres ces disciplines, tout en mobilisant les outils et les perspectives singulires du champ du numrique.
3. Les digital humanities dsignent une transdiscipline, porteuse des mthodes, des dispositifs et
des perspectives heuristiques lis au numrique dans le domaine des Sciences humaines et sociales. (Collectif 2011)

En suivant Aurlien Berra, je me sers du terme "humanits numriques" au lieu du double nologisme "digital humanities" transplant tel quel en franais. Pour une discussion plus soutenue des enjeux intellectuels des "humanits numriques" francophones, voir l'excellent carnet (blog) d'Aurlien
Berra, Philologie venir (Berra 2010).

PhiN-Beiheft 7/2014: 86

Soit. Mais, part les conditions de production et de diffusion des savoirs, repenses
pour s'engager mieux avec la culture montante du numrique, et la trs ncessaire
valorisation des approches traditionnelles des sciences humaines et sociales mobilises au champ numrique points essentiels sans doute dans la conception de cette
'transdiscipline' numrique et humaniste quelles sont en fait ces mthodes, ces dispositifs, et ces perspectives heuristiques susmentionns, lis pour ainsi dire, "au numrique dans le domaine des sciences humaines et sociales" ? En d'autres termes,
quelles sont les implications pour la recherche littraire, historique, culturelle ('humaniste', enfin) d'une vingtaine d'annes d'efforts de numrisation la fois de la part
des savants, des bibliothques nationales et universitaires et des entreprises commerciales censs remplir cette 'archive infinie' qu'est devenu l'internet et la bibliothque
numrique mondiale ? Quel sera enfin le rle des mthodes et des algorithmes dvelopps dans le domaine de l'informatique dans l'laboration et l'interrogation des collections numriques d'une porte videmment humaniste ? Questions pertinentes,
auxquelles les 'humanits numriques' doivent essayer de rpondre.

1 Introduction
Situes la rencontre des mthodes informatiques avec des ressources humanistes et
culturelles entre l'homme et la machine, on pourrait dire, l'humain et le numrique
les 'humanits numriques' auxquelles je veux faire rfrence peuvent tre conues
(dans un sens assez restreint, il faut l'admettre) comme l'application de nouvelles mthodes numriques l'tude, et aussi l'enseignement, de la littrature et de l'histoire.
Combinaison heureuse, si j'ose dire, des approches informatiques aux sciences humaines et sociales qui a rajeuni en quelque sorte la recherche humaniste angloamricaine ces dernires annes. C'est de cette mthodologie particulire et de ses
consquences pour le devenir des tudes littraires l're du numrique que je voudrais parler dans la prsente contribution. Mthodologie qui est (ou bien, qui devrait
tre) la base de ce nouveau champ d'tude et qui peut, en quelque sorte, nous aider
tous mieux cerner et effectuer ce tournant numrique dans l'tude historique et littraire.

PhiN-Beiheft 7/2014: 87

Cette volution particulire dans les mthodes de recherche, et aussi dans les pratiques savantes en gnral (et peut-tre mme dans la lecture tout court), est une manifestation, sans doute, d'une transformation culturelle plus large, devenu un lieu
commun de nos jours, du passage collectif de la culture de l'imprim et du livre
telle qu'elle a t dcrite par Elizabeth Eisenstein il y a dj une trentaine d'annes
(Eisenstein 1979) la culture numrique dans laquelle nous vivons videmment
aujourd'hui (voir Doueihi 2008 et 2011). Personne, peut-tre, n'a mieux compris les
enjeux intellectuels et socio-culturels de cette transformation de l'imprim au numrique que l'minent historien du livre Roger Chartier, qui la dcrit ainsi :
Le droulement squentiel du texte sur l'cran, la continuit qui lui est donne, le fait que ses
frontires ne sont plus aussi radicalement visibles que dans le livre qui enferme l'intrieur de
sa reliure ou de sa couverture le texte qu'il porte, la possibilit pour le lecteur de mler,
d'entrecroiser, d'assembler des textes qui sont inscrits dans la mme mmoire lectronique :
tous ces traits indiquent que la rvolution du texte lectronique est une rvolution des structures
du support matriel de l'crit comme des manires de lire. (Chartier 1997: 13)

Or, ce dpassement des contraintes physiques du codex que reprsentent les textes
numriques nous mne peut-tre remettre en question une fois encore cette vision
essentiellement 'humaniste' (dans toute l'ampleur de ce mot) de la littrature. Que
reste-t-il, en fait, des rsonances fines des mots et des textes littraires cet coulement linguistique pour ainsi dire, du phnomne littraire travers l'histoire ds
qu'on les transforme en textes numriques, qu'on les mle, les entrecroise, et les assemble avec des milliers et des milliers d'autres textes dans la prolifration croissante
de l'archive infinie ? Comment garantir l'historicit des textes et la textualit de l'histoire pour faire rfrence au programme des New Historicists amricains (Vesser
1989) l o le "droulement squentiel" du texte numrique ne fait aucune distinction textuelle entre ses donnes ? Comment, enfin, pourrions-nous concevoir un certain "humanisme numrique" pour emprunter le terme de Milad Doueihi qui ferait
valoir la fois la puissance de calcul de l'ordinateur (pour ne dire rien de sa puissance
socialisante) et de la spcificit des lettres 'humaines' traduites en donnes et dformes, en quelque sorte, comme objet d'tude ?
Ces questions, comme l'on peut deviner, se trouvent la base de toute une gamme de
rflexions sur les 'humanits numriques' (ou bien sur ses formes antrieures ou complmentaires de 'Humanities Computing' ou de 'New Media Studies') et leur relation

PhiN-Beiheft 7/2014: 88

avec les disciplines traditionnelles des sciences humaines et sociales. Questions qui
remontent au milieu du sicle dernier et la naissance de la computation scientifique,
c'est--dire des algorithmes (notamment promus par Alan Turing) qui forment la base
de l'informatique. Ce tournant quantitatif dans les sciences naturelles et physiques
(pures et dures) a ainsi contribu la rpartition, dcrite par C.P. Snow dans son article clbre, entre "deux cultures" l'une scientifique, l'autre humaniste dans la vie
intellectuelle de l'Occident (Snow 1993). Opposition binaire (et parfois arbitraire)
entre les sciences dites 'qualitatives' et celles supposes 'quantitatives', cette coupure
culturelle a marqu toute une gnration de savants et de chercheurs universitaires.
De nos jours, c'est une semblable fracture 'quantitative' ou bien 'informatique' ("the
digital divide" comme on dit en anglais) dans les sciences humaines et sociales que
les humanits numriques sont censes combler tche lourde, certes, mais qui fait
penser aux dfis mthodologiques affronts et surmonts par l'histoire quantitative
des annes 196070 mene par un Franois Furet ou un Henri-Jean Martin par
exemple.
Loin de remplacer les 'humanits traditionnelles', les humanits numriques offrent la
possibilit d'amplifier, d'augmenter, et de rajeunir les disciplines humanistes dont
elles proviennent, tout en forgeant de nouveaux liens interdisciplinaires. Et pourtant
dans mon domaine, savoir les tudes littraires, persiste une certaine dfiance face
aux nouvelles technologies je pense par exemple Stanley Fish, qui a rcemment
critiqu les humanits numriques dans le New York Times (Fish 2011, 2012a,
2012b). Cette rticence qui touche un grand nombre de chercheurs, d'enseignants et
mme d'tudiants, peut tre affronte, me semble-t-il, de deux manires : tout d'abord,
en soulignant la continuit historique et mthodologique des tudes et de la critique
textuelles (que ce soit numrique ou non-numrique) ; et ensuite, en insistant sur le
fait que l'approche numrique ne saurait se substituer une solide formation littraire
dans ses dimensions historiques, thoriques, et critiques. Cette formation est d'une
importance capitale car elle permet de rsister une facilit superficielle des pratiques informatiques, c'est--dire l'utilisation des outils numriques comme des fins
en soi.

PhiN-Beiheft 7/2014: 89

Ces rflexions sur la recherche informatique et les humanits numriques nous dmontrent, une fois encore, cette tension fondamentale dans les sciences (humaines ou
naturelles) entre la tradition et l'innovation ; tension dynamique qui est indissociable
de l'laboration rcente des humanits numriques (tension mme voque dans son
oxymore nominal de 'digital humanities') ; tension, enfin, que j'aimerais explorer par
le biais de l'interaction numrique du texte, du contexte, et de l'intertexte (on pourrait
facilement y ajouter l'hypertexte, mais cela romprait la rgle de trois).
Avant de passer ces trois points, j'ajouterais que si je peux apporter quelque chose
la discussion sur les humanits numriques, c'est partir d'une perspective unique,
pour ainsi dire, forme non seulement dans la rflexion sur et l'interaction avec le
numrique, mais aussi dans cette dialectique du dveloppement technologique et de la
recherche scientifique. Et que si je m'appuie beaucoup dans cet article sur les outils
dvelopps autour du moteur de recherche PhiloLogic du projet ARTFL, ce n'est pas
pour faire du proslytisme il existe d'autres manires d'interroger les textes numriques, et de trs bonnes. C'est simplement que mon exprience n'est pas l, et
qu'ayant particip dans la conception, dans l'laboration et dans le dploiement de
PhiloLogic, j'ai t expos pour ainsi dire une vision plus comprhensive des avantages et des inconvnients de ses applications l'tude littraire.2 Tout logiciel est
dtermin par les prjugs de son dveloppeur, et chaque dcision entreprise dans
l'laboration d'un outil reprsente autant de fonctionnalits gagnes que d'lments
perdus. L'important, pour nous, c'est d'avoir un libre accs ces prjugs, c'est d'tre
capable de les critiquer et de les amliorer. la diffrence des entreprises comme
Google, dont les algorithmes de recherche demeurent en quelque sorte des formules
magiques dont on n'a pas la moindre ide, la transparence des outils et du code dans
les humanits numriques nous donne l'occasion de participer leur laboration, afin
qu'ils se conforment autant que possible aux exigences de la communaut scientifique. Les approches numriques au texte, au contexte, et l'intertexte que je vais
montrer par la suite sont les miennes, mais il y a une multitude d'autres. Et c'est prci-

Sur le Projet ARTFL de l'Universit de Chicago, voir [http://artfl-project.uchicago.edu/] ; sur le logiciel PhiloLogic, voir [https://sites.google.com/site/philologic3/home].

PhiN-Beiheft 7/2014: 90

sment dans cette pluralit mthodologique que les humanits numriques trouvent
leur force.

2 Texte
Pour revenir littralement au texte, la premire phase, disons, dans le devenir des
tudes littraires ou textuelles l're numrique s'est focalise naturellement sur le
texte comme locus operandi et sur la nouvelle textualit numrique ce "radiant textuality" dont parle Jrme McGann (2004), par exemple. Phase qui hritait directement de la culture de l'imprim et du livre, cause sans doute d'un certain ftichisme
de l'objet matriel du livre, qui voulait reprendre l'hritage et mme le vocabulaire de
l'imprim en l'appliquant au numrique pensons aux 'pages' web, aux 'bookmarks'
ou signets des navigateurs, etc. C'est le moment aussi de l'essor des premires ditions numriques (trs spcialises en nature), et avec elles, les premiers systmes de
balisage comme la TEI (Text Encoding Initiative [http://www.tei-c.org]) censs
faciliter la reprsentation virtuelle des textes imprims sur l'cran.
Ces premiers efforts pour informatiser l'tude et la critique textuelle ne diffraient
pas, au moins d'une faon significative, des mthodes traditionnelles et avaient mme
une certaine teneur rtrograde, je dirais, qui faisait penser une sorte de 'New Criticism informatique'. Et en fait, bien des gards, la position critique de ces premiers
savants du texte numrique reprsentait un retour la rigueur philologique de la critique universitaire du XIXme et XXme sicles, refltant une profonde fidlit la
lettre au moment mme o l're du soupon hermneutique avait lieu. Mais, avec
l'avnement de l'internet, la textualit numrique s'affranchit et devient plus vivante,
plus diffuse, moins fixe, et en quelque sorte, omniprsente. La porte des tudes
littraires par ordinateur, aussi bien que la complexit de ses outils et l'ampleur de ses
collections, faisait face alors cette nouvelle ralit numrique.
Les nouvelles mthodes de recherche ralises grce au premiers efforts des praticiens de ce que l'on appelait l'poque 'Humanities Computing', et de la nouvelle
textualit promue par l'internet, peuvent tre considres comme une alliance de la
spcificit des mots (ou bien de la littrature) travers l'histoire et de cette maniabilit technique du texte numrique dont parle Roger Chartier. Pour en donner un

PhiN-Beiheft 7/2014: 91

exemple, je prsenterai une problmatique laquelle je m'intresse actuellement et


que jai explore avec l'aide de PhiloLogic. Mais, on pourrait facilement faire les
mmes sortes d'interrogation avec les outils Voyant [http://voyant-tools.org] dvelopps par Stfan Sinclair et Geoffrey Rockwell, ou bien avec d'autres moteurs de recherche informatiques. Disons, par exemple, que si vous tes intresss, comme je le
suis, aux acceptions diffrentes du mot 'moderne' (c'est dire, tout ce qui est moderne, modernisme, modernit, etc.) chez un crivain 'anti-moderne' tel que Charles
Pguy en empruntant la dsignation d'Antoine Compagnon (2005) PhiloLogic
vous fournit facilement, dans son contexte, toutes les occurrences du lemme 'modern*' tirs des uvres de Pguy (fig. 1) :3

Fig. 1 : Les occurrences du lemme 'modern*' tirs des uvres de Charles Pguy

Rsultats que vous pouvez aussi explorer dans un contexte plus large, ici quelques
occurrences du mot 'modernisme' (fig. 2) :

Fig. 2 : Les occurrences du mot 'modernisme' chez Pguy


3

Tous les rsultats qui suivent sont tirs de la base de donnes ARTFL-Frantext [http://artflproject.uchicago.edu/content/artfl-frantext] du projet ARTFL de l'Universit de Chicago.

PhiN-Beiheft 7/2014: 92

Une navigation qui est, comme on peut voir, enracine dans la terminologie de l'imprim avec des liens aux 'pages' aux 'paragraphes' aux 'chapitres', etc. et qui vous
permet enfin de tomber sur la page mme dans L'Argent suite o Pguy, bon antimoderne qu'il est, constate que "le modernisme consiste ne pas croire ce que l'on
croit", phrase typiquement pguyste d'ailleurs.
ct de cette fidlit l'uvre et sa cohrence textuelle si ncessaire d'ailleurs
l'tude littraire l'une des commodits de la recherche numrique, c'est l'oscillation
entre cette forme de lecture prcise et immersive d'un mot et de son contexte, et la
considration plus large des champs lexicaux dans lesquels ces mots oprent. Ici, par
exemple, le logiciel gnre un tableau de collocation du mot 'moderne' dans toutes ses
formes chez Pguy (fig. 3) :

Fig. 3 : Tableau de collocation du mot 'modern*' dans toutes ses formes chez Pguy

Ce qui donne, peut-tre, une ide de son usage et du champ lexical dans lequel il se
trouve le plus frquemment. On peut aussi comparer un tableau un autre, par
exemple la collocation des mots autour du lemme 'modern' dans le grand roman de
Marcel Proust, contemporain exact de Pguy (fig. 4) :

PhiN-Beiheft 7/2014: 93

Fig. 4 : Tableau de collocation du mot 'modern*' chez Marcel Proust

Pris ensemble (fig. 5), on notera peut-tre (ce qui n'est pas tonnant tant donn nos
deux auteurs) que pour Pguy, le 'moderne' est bel et bien un rgime d'historicit,
pour emprunter un terme Franois Hartog (2003), un systme temporel li au charnel (le monde et les hommes) de l'existence, alors que pour Proust, on peut dire, qu'il
y a un glissement vers le 'modernisme' plutt littraire, orient vers la stylistique ou
l'esthtique.

Fig. 5 : Tableaux de collocation du mot 'modern*' chez Pguy et Proust

Tout cela pour dire qu'il ne s'agit pas, en ce qui concerne ces approches numriques
de la littrature, d'un rductionnisme quelconque li aux aspects purement quantitatifs
des textes. Ni non plus d'une banalisation de la spcificit de l'uvre littraire au
contraire, ces approches facilitent la recherche littraire, elles nous aident tester des
hypothses, confirmer (ou bien rfuter) les intuitions intellectuelles, et dcouvrir

PhiN-Beiheft 7/2014: 94

des motifs, des rapports, et des allusions qui nous chapperaient peut-tre sans la mdiation numrique.
Ceci dit, il est nanmoins ais de reconnatre les limites des recherches textuelles bass sur les mots-cls et l on voit trs bien que l'innovation d'hier devient vite la
tradition d'aujourd'hui, comme disait d'ailleurs Stendhal des classiques et des romantiques. Si nous continuons notre investigation sur l'usage du 'moderne', en largissant
notre champ de recherche tous les ouvrages dans la base de donnes Frantext venant
de cette fin-de-sicle franaise (disons de 1880 1915), la tche interprtative devient
plus lourde :

Fig. 6 : Tableau de collocation des formes de 'modern*' dans ARTFL-Frantext (18801915)

Ici (fig. 6), un tableau de collocation pour les presque 4 000 occurrences des formes
de 'moderne' travers plus de 500 documents. Et puis, venant plus loin, en considrant tout le XIXme sicle de 1815 1915, on est confront avec presque 9 000 occurrences dans 1 500 documents. Et l, videmment, le champ lexical devient 'un peu de
tout dans tout' et la spcificit du mot-cl et de son contexte particulier se perdent
progressivement de vue. En introduisant un nombre croissant de textes supplmentaires, cette dialectique entre le dire et le vouloir-dire, entre les textes et les contextes,
commence se dfaire, et l'interprtation des rsultats devient de plus en plus difficile. Donc, la lecture prcise et attentive de ces 9 000 occurrences n'est pas tenable
comme moyen srieux de recherche littraire. Et par l, alors, il devient vident
qu'avec l'accroissement exponentiel des collections numriques, de nouvelles formes
de lecture et de recherche informatique sont requises.

PhiN-Beiheft 7/2014: 95

3 Contexte
Deuxime phase dans l'volution de la recherche littraire l're du numrique, c'est
celle qui rsulte de la surcharge d'information et des changements correspondants
qu'elle apporte la textualit numrique. Nous venons de voir que la consultation des
bases de donnes littraires, mme les plus soignes comme ARTFL-Frantext avec
ses 3 500 livres, arrive vite aux limites fonctionnelles de la recherche informatique.
Et, avec la prolifration progressive des ressources numriques, prise en charge, au
dbut, par les institutions publiques et les bibliothques universitaires, l'tendue des
archives numriques globales dpasse, en quelques sortes, ses bornes institutionnelles. Aprs donc l'avnement de la textualit numrique, hritire fidle de l'imprim, vient de nos jours une contextualit croissante des textes venant de partout, non
seulement des artfacts des livres imprims mais aussi des textes 'ns numriques'
(born-digital), des blogues, des articles en ligne, des courriels, etc.
Or, une des rponses possibles cette surcharge de textes numriques et de leur contextes, rponse provocante sans doute, a t celle lance par l'historien du roman
Franco Moretti de Stanford University : c'est, en fait, de ne plus lire ces textes, ou
plus prcisment, de les lire distance (distant reading en anglais). Comme son nom
l'indique, cette lecture distance s'oppose consciemment la lecture continue et intensive (close reading) des critiques traditionnels :
Distant reading: where distance, let me repeat it, is a condition of knowledge: it allows you to
focus on units that are much smaller or much larger than the text: devices, themes, tropes or
genres and systems. And if, between the very small and the very large, the text itself disappears,
well, it is one of those cases when one can justifiably say, less is more. If we want to understand
the system in its entirety, we must accept losing something. We always pay a price for theoretical knowledge: reality is infinitely rich; concepts are abstract, are poor. But it's precisely this
'poverty' that makes it possible to handle them, and therefore to know. This is why less is actually more. (Moretti 2000: 57-58)

La disparition du texte, voque par Moretti, est une rponse la croissance du contexte numrique, dans lequel les uvres individuelles se perdent sous la masse des
autres textes et deviennent de moins en moins visibles. Pour Moretti et ses adeptes, la
perte de spcificit de la chose littraire devient l'occasion d'une nouvelle mthode
d'tude, de cette 'lecture distance' ( mon sens, 'non-lecture') firement quantitative
de porte et plus concerne avec les mtadonnes, c'est--dire avec les descriptions

PhiN-Beiheft 7/2014: 96

formelles et informationnelles des textes qu'avec les donnes elles-mmes et le texte


qu'elles contiennent.
ces nouvelles approches quantitatives de la littrature de masse (Moretti analysant
les titres de tous les romans anglais publis tout au long du XIXme sicle, par
exemple) s'ajoute pendant les cinq dernires annes et par l'entre en scne des efforts
de numrisation massive grs cette fois-ci par des entreprises commerciales tel que
Google Books par exemple une vritable explosion de donnes textuelles. clatement massif de livres numriques qu'a provoqu la question pertinente de Gregory
Crane directeur du projet Perseus, donc de la bibliothque numrique des littratures grecques et latines : "Que faire avec un million de livres ?"
There are only about 30,000 days in a human life at a book a day, it would take 30 lifetimes to
read a million books and our research libraries contain more than ten times that number. Only
machines can read through the 400,000 books already publicly available for free download
from the Open Content Alliance. (Crane 2006)

Selon Crane, seules les machines peuvent lire ces millions de livres, ce qui est sans
doute vrai, mais ce qui est peut-tre aussi une autre manire de lire distance, ou encore de ne pas lire. Question pose en 2006, quand les corpus numriques n'avaient
pas encore atteint au millionime livre, alors que par la suite nous avons vu l'tablissement d'un corpus de plus de 5 millions de livres (chiffres qui augmentent tous les
jours). Rsultat direct du projet Google Books, cette base textuelle norme exige donc
une autre manire de lire distance, ou bien l'ordinateur, une nouvelle 'discipline'
(entre guillemets) de recherche informatique et linguistique qui s'appelle "culturomics". Effectu par une quipe de chercheurs Harvard et avec la participation de
plusieurs ingnieurs de Google, le travail informatique qui a engendr la "culturomique" a t le sujet d'un article trs mdiatis dans la prestigieuse revue scientifique
Science, avec des articles complmentaires dans le New York Times, la revue Nature,
etc. :
We constructed a corpus of digitized texts containing about 4% of all books ever printed. Analysis of this corpus enables us to investigate cultural trends quantitatively. We survey the vast
terrain of "culturomics" focusing on linguistic and cultural phenomena that were reflected in the
English language between 1800 and 2000. We show how this approach can provide insights
about fields as diverse as lexicography, the evolution of grammar, collective memory, the adoption of technology, the pursuit of fame, censorship, and historical epidemiology. "Culturomics"

PhiN-Beiheft 7/2014: 97

extends the boundaries of rigorous quantitative inquiry to a wide array of new phenomena
spanning the social sciences and the humanities. (Michel et al. 2010: 176)

Et l, nous voyons que cette mthode de recherche, marque par une forte navet par
rapport la complexit linguistique et culturelle des textes, s'appuie exclusivement
sur le quantitatif pur ici de la frquence d'occurrences des mots et des groupes de
mots (ces fameux "ngrams") comme moyen d'interprtation pour expliquer les phnomnes culturels. Et bien que je n'aie pas l'espace ici d'entrer dans toutes les insuffisances de cette mthodologie (entreprise, il faut le noter, sans aucun apport d'un humaniste), ce qu'on peut dire de positif de ce projet et de ses chercheurs, c'est qu'au
moins, ils ont mis leurs donnes en ligne pour qu'on puisse jouer un peu avec cette
collection numrique massive de livres, impensable il y a quelques annes:

Fig. 7 : Frquence des mots 'religion' et 'philosophie' au XVIIIme sicle par Google Ngrams

Ici en fait, avec ce Ngram Viewer [http://books.google.com/ngrams/], j'ai trace la


frquence des mots 'religion' (en bleu) et 'philosophie' (en rouge) tire du corpus de
langue franaise pendant le XVIIIme sicle (fig. 7). Mais, qu'est-ce que ce graphique
signifie ? Pour moi, en tant que spcialiste de l'Encyclopdie, cela me fait un certain
plaisir (d'un genre tout--fait superficiel, je dirais) de voir ce pic de la philosophie au
moment mme de la publication des 7 premiers volumes de l'ouvrage monumental de
Diderot et d'Alembert. Mais que dire de cette hausse des occurrences du mot 'religion'
autour des annes rvolutionnaires ? Sans la capacit de revenir aux textes mmes, de
voir non seulement la frquence brute des mots, mais aussi le champ lexical dans lequel ils se trouvent, il nous reste impossible de reconstruire la signification de ces

PhiN-Beiheft 7/2014: 98

mots, arrachs, comme ils sont, leur contexte. Il est trs probable, en ce cas, que
l'augmentation dans l'usage de 'philosophie' entre 1750 et 1760, aussi bien que celle
de 'religion' pendant la Rvolution, soient des chos des campagnes antiphilosophiques d'un ct et anticlricales de l'autre, plutt que des virages culturels
quelconques. Mais sans texte ni contexte pour situer nos mots, nous ne pouvons que
rester au niveau de la conjecture.
Je ne mentionne pas ces techniques informatiques pour 'pater les littraires' comme
Baudelaire les bourgeois, mais plutt, je les considre comme une sorte de plaidoyer
pour une comprhension plus largie, pour des dialogues interdisciplinaires plus actifs, enfin pour une collaboration plus efficace entre les sciences informatiques et les
sciences humaines et sociales. Et, c'est prcisment dans cet entrecroisement disciplinaire que je vois s'ouvrir un espace scientifique particulirement riche et utile pour
l'volution des humanits numriques.
Pour ma part, j'ai eu la bonne fortune pendant ces dernires annes d'tre entour la
fois d'autres 'humanistes numriques' et d'informaticiens scientifiques, que ce soit au
Computation Institute et au projet ARTFL l'Universit de Chicago, ou au sein de
l'e-Research Centre de l'Universit d'Oxford. L'norme avantage de cette dmarche
'fdrative' de la recherche, o plusieurs quipes avec des comptences et des intrts
diffrents contribuent la ralisation des mmes projets, consiste dans l'largissement
des horizons, des mthodes, et des champs de recherches que l'on peut aborder. Cette
approche fdrative la recherche m'a donc men une comprhension plus profonde pour une critique plus constructive, base sur une exprimentation prolonge et
sur de nouvelles techniques informatiques dans le domaine de la fouille de donnes
(data mining) et de l'apprentissage automatique (machine learning). Ces techniques
sont empruntes par ncessit aux sciences informatiques afin de mieux explorer la
bibliothque numrique globale (ou bien infinie, pour parler comme Borges) qui est
en train de se former.
Dans mes propres recherches, l'dition numrique de l'Encyclopdie de Diderot et
d'Alembert (2013) a servi de banc d'essai idal, en quelque sorte, pour l'exprimentation de ces nouvelles approches informatiques. L'application de ces techniques au
texte encyclopdique, et les publications qui en ont rsult, nous ont aid mieux

PhiN-Beiheft 7/2014: 99

comprendre la richesse de son systme de classification, ainsi que la construction


dialogique de son contenu (voir Horton et al. 2009, Allen et al. 2010, Horton et al.
2010). Elles offrent en sus de nouvelles possibilits d'explorer les relations complexes
que les articles entretiennent entre eux ainsi quavec des sources extrieures. De la
sorte, s'est ouvert pour moi comme nous le verrons tout un champ de recherche
sur les citations, l'autorit textuelle, et les relations intertextuelles de l'Encyclopdie.
Pour ne prendre qu'un seul exemple de ce travail, et pour ne pas trop entrer dans les
dtails, nous avons utilis des classificateurs automatiques (trs similaires, d'ailleurs,
ceux utiliss par les filtres anti-spam des logiciels de courriel) pour explorer le systme de classification de l'Encyclopdie. C'est--dire que nous avons exploit les
classes existantes de l'Encyclopdie (-peu-prs soixante-mille articles ayant des
classes assignes par des diteurs) o l'on voit par exemple que l'article "Beau" appartient la classe de 'mtaphysique'.
Et, avec les algorithmes classificateurs, nous avons construit un modle de classification bas sur le vocabulaire partag de tous les articles appartenant une seule classe
(c'est--dire dans le cas de 'mtaphysique', tous ses 145 articles). 4 Le modle qui en
rsulte, il faut le noter, reprsente une rduction des 2 900 classes individuelles de
l'dition originale (chiffre remarquable d'ailleurs), un nombre 'optimal' et plus efficace pour l'algorithme de 360 classes. Ce qui soulve une fois encore cette question
de la perte de spcificit inhrente aux textes humanistiques dans l'exploitation de
grandes collections numriques question que je laisse, pour le moment, ouverte.
Alors, ce modle de classification en main, on a pu assigner une classification d'abord
aux 13 000 articles qui en sont dpourvus dans l'dition originale:

Pour une explication plus dtaille de notre processus, voir Horton et al. 2009 et Horton / Roe (s.d.).

PhiN-Beiheft 7/2014: 100

Fig. 8 : Les 15 articles non-classifis retourns en 'Belles-Lettres'

Ci-dessus (fig. 8), nous voyons les 15 articles retourns avec la classe 'Belles-Lettres',
rsultats qui semblent tout--fait raisonnables vu les titres des articles. Et ensuite, on
a aussi reclassifi, pour ainsi dire, les soixante-mille articles ayant dj une classe
(que nous avons masqu lors de cette exprience) pour interroger ce qu'on appelle
l'intgrit du modle. Et l on a vu qu' peu prs 73 pour cent des articles sont retourns avec leurs classes originelles rsultat assez tonnant, en fait, si on considre la
complexit, voire l'irrgularit du systme des diteurs. Ce qui est intressant ici, et
ce qui diverge aussi le plus des approches purement informatiques (qui ne s'intressent, pour la plupart, qu' optimiser leurs modles) c'est une certaine valorisation des
rgions d'incertitude, je dirais, souleves par l'algorithme, c'est--dire les classifications modifies, qui diffrent et divergent de l'dition originale.

Fig. 9 : Slection d'articles en 'Belles-Lettres' avec nouvelles classes divergentes

Ici (fig. 9), en fait, nous voyons les cas o la machine a assign aux articles originellement classs en 'Belles-Lettres' une classification diffrente, rendant mieux compte

PhiN-Beiheft 7/2014: 101

peut-tre du contenu d'un article ("Cantate" par exemple en Musique, ou "Acrostiche"


en Posie), ou bien, comme tout outil heuristique, incitant des rflexions plus soutenues sur un article, comme "Auteur" curieusement class en Mtaphysique, tout en
soulignant la richesse que cette catgorie de 'Belles-Lettres' a eu pour les encyclopdistes.
La construction informatique de ce modle de classification nous a fourni aussi l'occasion de comparer cette abstraction des savoirs encyclopdiques avec l'abstraction
graphique du clbre "Systme figur des connaissances humaines" que Diderot et
d'Alembert ont mis en tte de leur ouvrage (fig. 10):

Fig. 10 : Systme figur des connaissances humaines de l'Encyclopdie

Comme on le sait, ce systme des connaissances, cens reprsenter l'organisation et


l'interdpendance des savoirs, a t base sur celui de Francis Bacon, divisant l'entendement dans les facults de mmoire (d'o l'histoire), de raison (d'o la philosophie),
et d'imagination (d'o la posie). Or, en se servant d'une autre technique tire de l'apprentissage automatique, c'est--dire le groupement par des mesures de similarit
lexicale (clustering) et l, on peut penser aux suggestions prescientes des livres 'similaires' que l'on aimerait sans doute acheter en parcourant Amazon.com, pour avoir
une ide de cette technologie. Nous avons alors regroup les 360 classes de notre
modle par rapport leur similarit lexicale (fig. 11):

PhiN-Beiheft 7/2014: 102

Fig. 11 : Rorganisation des disciplines de l'Encyclopdie par similarit lexicale

Et, part l'illisibilit de ce graphique, ce que nous trouvons est fascinant : c'est--dire
qu' la diffrence de l'organisation facultative de Bacon et du systme figur (ellemme une sorte de vestige des systmes mdivaux), l'organisation des savoirs que
nous avons construite, partir du texte mme de l'Encyclopdie, ressemble beaucoup
plus aux divisions disciplinaires qui se sont mises en place au XIXme sicle. C'est-dire, au sommet : les sciences humaines et sociales ; au milieu, les sciences physiques
; et en bas, les sciences biologiques et l'histoire naturelle. Restructuration des savoirs
dans l'Encyclopdie qui suggre une organisation textuelle de l'ouvrage qui a t
beaucoup plus tourne vers l'avenir, je dirais, que l'on ne le pensait auparavant.5
Toutefois, il va sans dire que ce nouveau systme de classification n'est pas cens
remplacer celui de Diderot et de d'Alembert, pas plus que ne le sont les nouvelles
classes assignes. Le texte, dans sa forme originelle et primordiale, demeure toujours
l, toujours prsent l'cran, le point de rfrence dfinitif de l'dition numrique et
du lecteur. Mais, prcisment cause de son format numrique, de sa non-fixit en
quelque sorte, on doit la considrer cette dition de l'Encyclopdie (et toute dition
numrique d'ailleurs) comme une dition 'vivante' pour ainsi dire, toujours en train
d'voluer, de s'amliorer et de s'enrichir. Et tandis que ces complments au texte 'quasi sacr' de Diderot choquent parfois les spcialistes, ce n'est pas, vrai dire, pour eux

Restructuration qui va tre ralise en quelque sorte la fin du XVIII me sicle par C.-J. Panckoucke
et son Encyclopdie mthodique, hritire directe de celle de Diderot et d'Alembert. Voir Blanckaert /
Poerret 2003, Groult 2011 et Panckoucke 2011.

PhiN-Beiheft 7/2014: 103

que nous faisons de telles expriences.6 En intgrant ces techniques l'dition numrique (au grand dam parfois de ces mmes spcialistes), nous pensons plutt aux tudiants, aux chercheurs, et aux lecteurs qui abordent peut-tre l'Encyclopdie pour la
premire fois : en leurs mains, ces nouvelles techniques informatiques deviennent des
outils heuristiques, pour ainsi dire, qui peuvent les aider dcouvrir, naviguer, et
interprter les multiples couches dialogiques du texte encyclopdique.
En fin de compte, ces expriences petite chelle sur l'Encyclopdie nous donnent
alors une ide de la porte, de la promesse, et de la puissance de ces nouvelles techniques informatiques pour exploiter les collections massives de textes numriques.
Mais, d'une manire plus significative peut-tre, elles reprsentent aussi des tentatives
d'exploration et de comprhension des algorithmes dvelopps dans les sciences informatiques et appliqus la recherche littraire et historique. Ce genre d'exprimentation novateur mme dans le domaine des humanits numriques sera de plus en
plus important afin que les efforts de numrisation massive comme ceux de Google
Books continuent transformer nos interactions avec les archives numriques.
4 Intertexte
En forme de conclusion, j'aimerais orienter un peu cet article vers l'avenir, vers cette
troisime phase dans le devenir des tudes littraires et numriques toujours en train
de se former : celle de la synthse entre la textualit restreinte des collections numriques soignes et scientifiques et la contextualit grandissante des textes l're de la
numrisation massive. Nous entrons, si j'ose dire, dans le moment de l'intertexte;
c'est--dire de l'interdpendance et de l'interconnexion des textes et des donnes.
Reflet moderne du rve de l'interconnectivit des savoirs promu par les philosophes,
cette intertextualit numrique requiert des approches synthtiques l'tude littraire,
capables d'offrir en mme temps, et la spcificit de l'uvre d'art et la pluralit des
systmes d'information qui l'entoure ; mthodes qui facilitent, d'une manire transparente et intuitive, on peut l'esprer, le mouvement entre la macroanalyse ou la lecture
distance des collections massives et la lecture intensive ou la microanalyse des
6

Certains parmi ces spcialistes ont particulirement mal compris ces nouveaux dveloppements, s'y
montrant peu disposs de saisir les enjeux mthodologiques - voire pistmologiques - du numrique
et le ct exprimental de ces essais. Voir Leca-Tsiomis 2013.

PhiN-Beiheft 7/2014: 104

textes numriques ; mobilit bilatrale et rciproque, enfin, entre le texte et le contexte par l'intermdiaire de l'intertexte.
En prenant l'intertextualit comme base thorique de nos recherches informatiques,
nous nous plaons consciemment dans la riche tradition de l'tude intertextuelle, telle
qu'elle a t dcrite par Julia Kristeva et Roland Barthes, ou bien de Harold Bloom,
la mme poque. En suivant Barthes :
Tout texte est un intertexte ; d'autres textes sont prsents en lui, des niveaux variables, sous
des formes plus ou moins reconnaissables : les textes de la culture antrieure et ceux de la culture environnante ; tout texte est un tissu nouveau de citations rvolues. (Barthes 1968/1973:
1013)

Et ensuite Harold Bloom: "Criticism is the art of knowing the hidden roads that go
from poem to poem" (Bloom 1997: 96). En s'appuyant donc sur nos expriences dans
la fouille des donnes et l'apprentissage automatique appliqus aux grandes collections numriques, nous nous mmes l'investigation des approches informatiques qui
identifieraient automatiquement "ce tissu de citations rvolues" dcrit par Barthes,
dans les bases de donnes numriques de plus en plus massives. Et, voulant commencer avec l'aspect le plus simple, le plus concret, le plus quantifiable, de l'intertextualit numrique, nous nous sommes efforcs de reprer des passages similaires dans des
uvres diffrentes approche beaucoup plus simple, il faut le dire, en thorie qu'en
pratique. Pour cela nous avons employ des algorithmes qui ont t dvelopps dans
le domaine de la bio-informatique pour identifier des squences similaires d'ADN
(voir Horton / Olsen / Roe 2010).
Port au domaine textuel, ces algorithmes ont des applications diverses, que ce soit
dans la dtection du plagiat, dans la collation des manuscrits ou de la critique gntique, et enfin, pour nous, dans l'identification des passages similaires entres des collections de textes.

Fig. 12 : L'incipit du Contrat social de Rousseau rendu en squences de trigrammes

PhiN-Beiheft 7/2014: 105

Dans fig. 12 nous voyons trs facilement les premires phrases du Contrat social de
Rousseau, par exemple, rendu en squences de trois mots (un trigramme) squences
que notre systme compare automatiquement deux textes et, ds qu'une squence se
rvle identique il enregistre le contexte, identifiant la longueur du passage avec une
flexibilit de correspondance qui est, en fait, trs importante vu les irrgularits des
textes littraires et l'espace informatique des collections numriques des sciences humaines et sociales.
Or, cette approche informatique nous permet d'envisager toute une gamme de recherches intertextuelles, base sur l'identification des passages similaires dans les
collections de milliers et de milliers de livres. Une fois encore, l'Encyclopdie nous a
servi de chantier exprimental pour explorer cette technique et les enjeux intellectuels
qui la sous-tendent.
En s'interrogeant sur les sources de l'Encyclopdie ici, le Dictionnaire historique et
critique de Pierre Bayle (prdcesseur avou des philosophes) nous avons identifi
que dans l'article sur "Spinosa" [sic] attribu l'abb Yvon, l'auteur encyclopdique
non seulement emprunte un passage de Bayle (sans citation d'ailleurs) qui rfute le
monisme spinoziste, mais qu'il utilise aussi le pronom personnel de Bayle en concluant son article avec le mme "Je finis par dire" (fig. 13) :

Fig. 13 : Squences identifis entre l'Encyclopdie et le Dictionnaire historique de Bayle

Parfois les emprunts sont plus vidents. la fin d'un article anodin sur les "charges"
de Boucher d'Argis, par exemple (fig. 14) :

PhiN-Beiheft 7/2014: 106

Fig. 14 : Squences identifis entre De l'esprit des lois et l'Encyclopdie

Diderot intervient avec son toile ditoriale (c'est--dire, la marque qu'il mettait au
dbut de tous ses articles) disant qu'avant de passer aux autres articles que ce serait
une ngligence de ne pas exposer ce que dit "l'auteur de l'esprit des lois sur la vnalit
des charges". Citation indirecte, en quelque sorte, sans guillemets et qui ne mentionne
pas le nom de Montesquieu. Mais l, nous sommes capables pour la premire fois
d'identifier exactement o Montesquieu commence et o Diderot finit, et aussi d'tablir partir de cette identification intertextuelle les hyperliens entre l'Encyclopdie et
le passage exact de L'Esprit des lois auquel il fait rfrence.
Nous avons aussi pu identifier des passages dans les uvres en traduction, ou bien
tires des bases de donnes non-corriges, comme c'est le cas avec le second trait de
John Locke tir de la collection Gale-ECCO (fig. 15) :

Fig. 15 : Squences identifis entre le second trait de Locke et l'Encyclopdie

Ici (fig. 15), Jaucourt utilise le texte de Locke, sans citation aucune, et l'entremle
son propos tout au long de l'article "Gouvernement".

PhiN-Beiheft 7/2014: 107

Ces recherches prliminaires nous ont men ainsi une considration affine et plus
profonde sur les diverses stratgies de citation employes par les encyclopdistes.
Nous avons dcel par exemple que, dans beaucoup de cas, l'acte de citer une source,
ou bien de ne pas la citer, dans l'Encyclopdie tait une fonction du statut de publication de l'uvre cite (que ce soit publi avec privilge ou permission tacite, en anonyme ou pseudonyme, etc.). C'est--dire que, prenant Voltaire comme exemple typique, une citation de la Henriade, ouvrage inoffensif, ne valait pas celle des Lettres
philosophiques, livre dangereux selon l'autorit, interdit et brl.
Et en fait (fig. 19) nous voyons par exemple, un passage tir prcisment des Lettres
philosophiques que Jaucourt insre dans l'Encyclopdie, mme avec attribution Voltaire et des guillemets, mais qu'il cite nanmoins sous le titre plus acceptable de Mlanges de littrature & de philosophie, en vitant la mention embarrassante des
Lettres anglaises :

Fig. 16 : Squence tir des Lettres philosophiques de Voltaire

Ces stratgies de 'non-citation' deviennent alors de plus en plus complexes, vue la


lgalit ou l'illgalit des uvres qu'ils citent. Ici, Jaucourt (une fois encore) fait rfrence un passage tir du trait matrialiste De l'esprit d'Helvtius livre condamn
et mme brl par le Parlement de Paris, et ouvrage, par ailleurs, indirectement responsable de la rvocation du privilge de l'Encyclopdie elle-mme en 1759 (fig. 17):

PhiN-Beiheft 7/2014: 108

Fig. 17 : Squence tir du trait De l'esprit d'Helvtius

Sans aucune indication o la citation commence et se termine, Jaucourt insre un trs


subtile "comme dit un beau gnie de ce sicle" pour indiquer la citation non-cite ;
rfrence, sans doute, pour le cognoscenti et les autres philosophes, l'auteur condamn.
Or, partir des passages identifis automatiquement entre l'Encyclopdie et les bases
de donnes littraires que nous avions consults, nous sommes arrivs une analyse
perante et soutenue des pratiques de citation des auteurs encyclopdiques et des
sources employes lors de la composition de cette uvre capitale (voir Roe 2013).
Enfin, ce que ce travail pointu tmoigne, d'une manire efficace, ce sont les possibilits d'approches informatiques dans la recherche littraire et historique. Ce n'est pas,
en fin de compte, que les questions abordes par ces mthodes de recherche diffrent
radicalement de celles que les savants et les universitaires ont toujours poses. Au
contraire, bien des gards les questions, les matires, et les objets de recherche demeurent relativement conformes d'une poque l'autre. Ce qui a chang dans cette
transformation de la culture de l'imprim et du livre celle du numrique, c'est la
porte des vidences, la richesse des preuves, et l'ampleur des examens que la recherche informatique apporte l'appui de la recherche savante traditionnelle. Et si
l'laboration de ces nouvelles approches informatiques se passe actuellement dans ce
domaine htroclite des 'humanits numriques', il est nanmoins essentiel que le
dveloppement technologique soit toujours clair par les questions de recherche humaniste. Ce que nous, les 'humanistes', apportons au numrique cette profonde con-

PhiN-Beiheft 7/2014: 109

naissance de la textualit et des enjeux linguistiques des phnomnes socio-culturels,


par exemple sera donc tout aussi important au devenir de la recherche littraire que
toute nouvelle technique issue du numrique. Et c'est prcisment partir de cette
interaction vive et rciproque de la technique et de la thorie, du texte, du contexte, et
de l'intertexte, que les 'humanits numriques' se dfinissent.

Bibliographie
Allen, Timothy / Douard, Stphane / Cooney, Charles / Horton, Russell / Morrissey,
Robert / Olsen, Mark / Roe, Glenn / Voyer, Robert (2010): "Plundering Philosophers: Identifying Sources of the Encyclopdie", in: Journal of the Association for
History and Computing 13.1. [http://hdl.handle.net/2027/spo.3310410.0013.107]
Barthes, Roland (1973): "Texte (thorie du)", in: Encyclopdia Universalis. Vol. 15.
Paris: Encyclopaedia Universalis France, 101317. [1968]
Blanckaert, Claude / Porret, Michel (dir., 2003): L'Encyclopdie mthodique (17821832): Des Lumires au positivisme. Genve : Droz.
Bloom, Harold (1997): The Anxiety of Influence: A Theory of Poetry. Oxford: Oxford
University Press.
Berra, Aurlien (2010): Philologie venir. Textes anciens et humanits numriques.
Paris: Open Edition. [http://philologia.hypotheses.org/]
Chartier, Roger (1997): Le Livre en rvolution. Paris: Textuel.
Collectif (s.d.): "Digital Humanities Manifesto 2.0".
[http://www.humanitiesblast.com/manifesto/Manifesto_V2.pdf]
Collectif (2011): "Manifeste des Digital humanities", THAT Camp Paris, dir. par Marin Dacos. Marseille: Open Edition. [http://tcp.hypotheses.org/318]
Compagnon, Antoine (2005): Les Antimodernes : De Joseph de Maistre Roland
Barthes. Paris: Gallimard.
Crane, Gregory (2006): "What Do You Do with a Million Books?", in: D-Lib Magazine 12.3. [http://www.dlib.org/dlib/march06/crane/03crane.html]
Diderot, Denis / d'Alembert, Jean le Rond (dir., 2013): Encyclopdie ou Dictionnaire
raisonn des sciences, des arts et des mtiers, d. par Robert Morrissey. Chicago:
ARTFL Encyclopdie Project. [http://encyclopedie.uchicago.edu/]

PhiN-Beiheft 7/2014: 110

Doueihi, Milad (2008): La grande conversion numrique. Paris: Seuil.


Doueihi, Milad (2011): Pour un humanisme numrique. Paris: Seuil.
Eisenstein, Elizabeth (1979): The Printing Press as an Agent of Change. Cambridge:
Cambridge University Press.
Fish, Stanley (2011): "The Old Order Changeth", in: New York Times Opinionator,
26 dc. [http://opinionator.blogs.nytimes.com/]
Fish, Stanley (2012a): "The Digital Humanities and the Transcending of Mortality",
in: New York Times Opinionator, 9 janv. [http://opinionator.blogs.nytimes.com/]
Fish, Stanley (2012b): "Mind Your P's and B's: The Digital Humanities and Interpretation", in: New York Times Opinionator, 23 janv.
[http://opinionator.blogs.nytimes.com/]
Groult, Martine (2011): Savoir et Matires : Pense scientifique et thorie de la connaissance de l'Encyclopdie l'Encyclopdie mthodique. Paris: CNRS.
Hartog, Franois (2003): Rgimes d'historicit : Prsentisme et expriences du temps.
Paris: Seuil.
Horton, Russell / Morrissey, Robert / Olsen, Mark / Roe, Glenn / Voyer, Robert
(2009): "Mining Eighteenth Century Ontologies: Machine Learning and Knowledge Classification in the Encyclopdie", in: Digital Humanities Quarterly 3.2.
[http://www.digitalhumanities.org/dhq/vol/3/2/000044/000044.html]
Horton, Russel / Olsen, Mark / Roe, Glenn (2010): "Something Borrowed: Sequence
Alignment and the Identification of Similar Passages in Large Text Collections",
in: Digital Studies / Le Champ numrique 2.1.
[http://www.digitalstudies.org/ojs/index.php/digital_studies/article/view/190/235]
Horton, Russell / Roe, Glenn (s.d.): "Machine Classifications", in: Encyclopdie Navigational Tools. Chicago: ARTFL Encyclopdie Project.
[https://encyclopedie.uchicago.edu/content/machine-classifications]
Marie Leca-Tsiomis (2013): " he se and buse of the igital umanities in the
istory of deas: o to tudy the ncyclopdie", in: History of European Ideas
34.4, 46776. [DOI:10.1080/01916599.2013.774115]
McGann, Jerome (2004): Radiant Textuality: Literature After the World Wide Web.
New York: Palgrave MacMillan.
Michel, Jean-Baptiste et al. (2010): "Quantitative Analysis of Culture Using Millions
of Digitized Books", in: Science 16, 176182 [DOI: 10.1126/science.1199644].

PhiN-Beiheft 7/2014: 111

Moretti, Franco (2000): "Conjectures on World Literature", in: New Left Review 1,
5468.
[http://newleftreview.org/II/1/franco-moretti-conjectures-on-world-literature]
Panckoucke, Charles-Joseph (2011): Prospectus et Mmoires de l'Encyclopdie mthodique. Saint-tienne: Publications de l'Universit de Saint-Etienne.
Roe, Glenn / Edelstein, Dan / Morrissey, Robert (2013): "To Quote or not to Quote:
Citation Strategies in the Encyclopdie", in: Journal of the History of Ideas 74.2,
21336.
Snow, Charles Percy (1993): The Two Cultures. Cambridge: Cambridge University
Press. [1959]
Vesser, Harold (dir., 1989): The New Historicism. New York: Routledge.

You might also like