L'analyse de données textuelles : des démarches heuristiques. L'exemple des grands barrages

Publié le 22/01/2010

Auteur(s) : Emeline Comby, maîtresse de conférences en géographie - Université Lyon 2
Sylviane Tabarly, professeure agrégée de géographie, responsable éditoriale de Géoconfluences de 2002 à 2012 - Dgesco et École normale supérieure de Lyon

Mode zen PDF

Analyser et décrypter ces discours, les confronter, les comparer, mettre à jour leurs évolutions, présentent un intérêt heuristique et pédagogique certains. Dans ces perspectives, les techniques de l'analyse de données textuelles (ADT) peuvent concerner, a priori, tout discours, qu'il soit oral ou écrit. Aussi l'ADT est-elle utilisable pour promouvoir l'interdisciplinarité, par exemple dans le cadre des travaux personnels encadrés (TPE) au lycée. Elle aide à prendre du recul, une distance critique face au discours et à en faire apparaître les points de vue, voire les partis pris, d'une manière épistémologiquement plus objective.

À la croisée de différentes disciplines, le discours est omniprésent dans le champ des Sciences humaines et sociales où les enquêtes reposent bien souvent sur des questionnaires (avec questions ouvertes), des entretiens semi-directifs retranscrits ou encore des sources de documentation, comme la presse ou différents documents d'archives (Grawitz, 2001). Par ailleurs, l'enseignant a recours à des documents, écrits ou audios, provenant de sources variées (médias, acteurs, textes institutionnels, etc.) et donnant lieu à un discours, d'ordre narratif, descriptif, explicatif ou argumentatif, pour reprendre les catégories enseignées au collège.

Analyser et décrypter ces discours, les confronter, les comparer, mettre à jour leurs évolutions, présentent un intérêt heuristique et pédagogique certains. Dans ces perspectives, les techniques de l'analyse de données textuelles (ADT) peuvent concerner, a priori, tout discours, qu'il soit oral ou écrit. Aussi l'ADT est-elle utilisable pour promouvoir l'interdisciplinarité, par exemple dans le cadre des travaux personnels encadrés (TPE) au lycée. Elle aide à prendre du recul, une distance critique face au discours et à en faire apparaître les points de vue, voire les partis pris, d'une manière épistémologiquement plus objective.

Issu de l'analyse des communications, l'analyse de contenu a pris son essor aux États-Unis, pendant les quatre premières décennies du XXe siècle (Lebart et Salem, 1994). Berelson (1952) a défini l'analyse de contenu (content analysis) comme "une technique de recherche pour la description objective, systématique et quantitative du contenu manifeste de la communication". Le codage du texte consiste à créer des thèmes, puis à les dénombrer dans le texte (nombre d'occurrences, proximité des occurrences, etc.). La dimension statistique de la démarche apparaît alors.

La statistique textuelle, quant à elle, est une discipline récente. Elle a connu un réel essor depuis les années 1990. La rencontre entre la linguistique et la statistique a été facilitée par le développement de l'informatique, les logiciels offrant de plus en plus de possibilités. En première approche, statistiques textuelles et analyses de données textuelles (parfois désignée par ADT) sont des synonymes qui désignent une méthode quantitative pour traiter le discours qui est une donnée qualitative (et ontologiquement subjective).

Le recours à l'informatique a permis d'appréhender des corpus de grande taille, de simplifier la préparation des textes, le codage et les décomptes. Mais il est aussi envisageable, en l'absence de moyens informatiques, de procéder à des analyses de textes simplifiées (repérages d'occurrences et co-occurences par exemple), sur des corpus limités, par des moyens "manuels" comme le surlignage de mots avec des couleurs différentes.

L'offre en logiciels d'analyse textuelle est, de nos jours, abondante. La première différence entre les logiciels est celle du coût puisqu'il existe les logiciels libres et gratuits et les logiciels payants. Chaque logiciel a ses normes et ses procédures de fonctionnement, on pourra en consulter une description dans l'article de ce dossier qui compare, plus particulièrement, TROPES ZOOM V7®, LEXICO® et ALCESTE® : "Visages médiatiques du barrage des Trois-Gorges : l'analyse statistique des données textuelles en géographie"

Dans la perspective d'une activité en classe avec des élèves, on pourra, selon les niveaux, sélectionner les logiciels en fonction de leur ergonomie générale, de leur facilité d'usage et des objectifs de l'étude. Il est par ailleurs tout à fait possible d'utiliser ces logiciels en ne mobilisant qu'une partie des techniques statistiques qu'ils développent.

Ainsi, l'intérêt est triple. Il est plus pratique de modifier un fichier informatique qu'un support papier, et ce afin de mener différentes hypothèses. Méthodologiquement ces logiciels apportent une plus-value aux recherches. Les analyses en sont alors enrichies.

Notons que l'utilisation de tels logiciels ne dispense pas d'un certain sens critique. Ainsi, elle ne prend pas toujours en compte les subtilités de la langue française, notamment au niveau des homographies (homonymies avec le même forme écrite). Il peut alors être utile de différencier ces mots identiques pour l'ordinateur, mais qui ne le sont pas : par exemple les termes "être" ou "tour".

Un glossaire simplifié de l'Analyse de données textuelles ADT (ou Analyse de texte par ordinateur, ATO)

- Association lexicale : elle donne (via l'analyse factorielle des correspondances multiples) une idée de la propension à associer les mots les uns aux autres ou au contraire à ne pas les faire coexister dans une même expression ; elle fait apparaître les réseaux sémantiques, les modèles cognitifs ou les configurations mentales qui, dans leur répétition, structurent le discours.

- Analyse de contenu : consiste à repérer les thèmes ou les idées contenus dans un corpus.

- Catégorisation : procédure qui consiste à associer à un mot, à un groupe de mots, ou à tout objet relevant d'un texte (signes typographiques, segments de texte, caractères spéciaux), des informations. Le terme de description lui est parfois préféré.

- Classe de mots clefs : ensemble de mots clefs révélateurs d'un même thème, permettant à la fois de le caractériser et d'en détecter les occurrences.

- Contexte : désigne la phrase ou la portion de texte qui contient un ou les mots recherchés, ce qui permet de décrire l'environnement lexical et contextuel de ceux-ci.

- Co-occurrence : présence simultanée, mais non forcément contiguë, dans un fragment de texte
(séquence, phrase, paragraphe, voisinage d'une occurrence, partie du corpus etc.) des occurrences de deux formes données (mots ou éléments linguistiques).

- Corpus : ensemble de productions linguistiques (langue écrite ou langue parlée) qui partagent les mêmes conditions de production et sont donc comparables entre elles suite à leur recueil à des fins analytiques ; énoncés oraux ou écrits représentatifs des usages d'une communauté linguistique.

- Dendrogramme : représentation graphique d'un arbre de classification hiérarchique, mettant en évidence l'inclusion progressive des classes.

- Discours : ensemble d'usages linguistiques codifiés attaché à un type de pratique sociale.

- Lexicométrie : ensemble de textes réunis à des fins de comparaison; servant de base à une étude quantitative.

- Mot clef : mot fortement révélateur d'un thème donné apparaissant fréquemment dans un corpus autour de ce thème.

- Occurrence : désigne un élément linguistique ou un mot toutes les fois qu'il apparaît dans un texte dans toutes ses déclinaisons.

- Unités de contexte élémentaire (uce) : unités de contexte délimitées par des ponctuations (phrases ou propositions indépendantes), ce terme est employé essentiellement par le logiciel ALCESTE®.

Des glossaires sur l'ADT / ATO : www.ling.uqam.ca/sato/glossaire/glos_idx.htm et www.owil.org/fr_lexique.htm

La sélection du corpus répond à certaines règles et doit obéir à certaines précautions. Les textes doivent présenter un volume suffisant, dont les limites dépendent des logiciels, afin d'éviter des biais statistiques. En outre, ils doivent avoir une certaine homogénéité par les questions et les thématiques abordées pour que le traitement présente un intérêt.

Ils doivent aussi répondre au projet clairement défini. S'agit-il de comparer des textes/discours émis dans des conditions identiques du point de vue de la source, de l'émetteur (presse, enquêtes ou entretiens à questionnaire directif ou non directif, discours scientifique, politique, etc.) ? Ou, au contraire, s'agit-il de comparer des textes/discours montrant des points de vue différents par leur émetteur ou par les conditions ou par les temporalités dans lesquels ils ont été émis ? ou s'agit-il encore, de synthétiser le point de vue de différentes sources comme c'est le cas dans l'application retenue sur le cas du barrage des Trois Gorges ?

L'accès, largement facilité, à de nombreuses ressources numériques en ligne permet la constitution de corpus pertinents. Mais l'enseignant prendra garde, dans la sélection des textes, aux effets de distorsion de la documentation trouvée sur le web (assez fréquente sur-représentation des "contre" et des "anti") et aux biais qu'elle peut engendrer.

Des propositions, des suggestions peuvent servir de "boîte à idées" pour l'enseignant en géographie, en voici quelques unes.

À travers les archives parlementaires, comparaisons et évolutions des discours et des débats sur quelques grands thèmes relatifs à l'aménagement du territoire, au développement durable, aux politiques urbaines, etc. - http://archives.assemblee-nationale.fr et www.senat.fr/leg/archives.html
Autour d'un problème d'aménagement du territoire (aménagements urbains, édification d'immeubles de grande hauteur, implantation d'éoliennes, de transports en commun en site propre, de déchetteries, etc.) comparaison et évolution des discours, à travers les délibérations des collectivités. Par exemple, parmi beaucoup d'autres :

> pour la ville de Paris, la consultation en ligne des débats et délibérations du Conseil de Paris :
www.paris.fr/portail/accueil/.../id=11859
> les délibérations du conseil municipal de la ville de Bordeaux : www.bordeaux.fr/ebx/portals/.../=494
> ou de toute autre collectivité donnant accès à ses archives numérisées en ligne.

Sur des problématiques géographiques à l'échelle mondiale, on pourra analyser et comparer les discours des médias, en utilisant, par exemple, le portail du Courrier International : www.courrierinternational.com/planetepresse/planeteP_accueil.asp

Pour prendre l'exemple des grands barrages (ouvrages de plus de 15 mètres de hauteur dont le réservoir contient au moins 3 millions de m³ d'eau selon la définition internationale) et des débats qu'ils suscitent, on pourra par exemple, faire des recherches sur les productions francophones (ou pourquoi pas en autres langues, sur la base d'une interdisciplinarité) autour de différents projets et réalisations (utiliser les mots clefs ci-dessous) :

En Turquie, autour du barrage d'Ilisu, dans le sud-est antatolien (sa construction, commencée en 2006 devrait être achevée en 2014), qui fait partie d'un projet plus ample de développement régional, le projet Guneydogu Anadolu Projesi (GAP).
Au Soudan, le barrage de Merowe situé en amont de la quatrième cataracte du Nil à 350 km au nord de Khartoum, de construction chinoise et mis en service en mars 2009.
Au Laos, le barrage de Nam Theun 2, sur un affluent du Mékong, destiné à l'approvisionnement régional (en particulier de la Thaïlande) et dont l'exploitation a commencé en 2009.
au Laos toujours, le projet d'extension du barrage de Theun-Hinboun
En République démocratique du Congo (RDC), sur le fleuve Congo, le projet du barrage du Grand Inga qui serait, s'il est réalisé, deux fois plus puissant que le barrage des Trois Gorges.
Au Mexique, le projet de La Parota, sur le fleuve Papagayo, dans l'État de Guerrero.

Les discours et les débats qui accompagnent ces grands projets sont particulièrement riches dans la mesure où ils confrontent, d'une part, des logiques se revendiquant du "développement durable" fondées sur une ressource énergétique renouvelable et sur une gestion contrôlée de la ressource en eau, d'autre part, des impacts sociaux et environnementaux qui peuvent apparaître négatifs.

Bibliographie et webographie

Analyse de données textuelles

Lebart L. et Salem A. – Statistique textuelle, Dunod, 342 p., 1994. Téléchargeable gratuitement à l'adresse suivante : www.cavi.univ-paris3.fr/lexicometrica/livre/st94/st94-tdm.html ou consultable ici : http://issuu.com/sfleury/docs/st-1994-lebart_salem
une revue électronique rassemble des articles, des retours sur expériences et les comptes-rendus des JADT (Journées internationales d'analyses de données statistiques textuelles). www.cavi.univ-paris3.fr/lexicometrica
Valérie Beaudouin (2000) "Statistique textuelle : une approche empirique du sens à base d'analyse distributionnelle", Texto ! [En ligne], URL : www.revue-texto.net/index.php?id=642 .
un cours sous format ppt qui permet de mieux comprendre l'intérêt et les limites de la démarche, tout en présentant certains logiciels. http://olivier.godechot.free.fr/hopfichiers/StatistiqueText_2007.pdf
des articles sur les statistiques textuelles ainsi que des exemples de traitement sous ALCESTE ®. www.melissa.ens-cachan.fr/rubrique.php3?id_rubrique=94 :

Les différents logiciels

logiciel ALCESTE® : www.image-zafar.com/index_alceste.htm
logiciels LEXiCO 2® et LEXICO 3® : www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW
logiciel TROPES® : www.acetic.fr/tropesfr.htm
un inventaire de logiciels et de leurs fonctions, le lien de référence qui permet aussi d'accéder aux sites Internet de certains logiciels : www.weblettres.net/sommaire.php?entree=20&rubrique=75&sousrub=251
une présentation brève de différentes applications en littérature : www.weblettres.net/sommaire.php?entree=20&rubrique=75&sousrub=252
Des glossaires sur l'ADT / ATO : www.ling.uqam.ca/sato/glossaire/glos_idx.htm et www.owil.org/fr_lexique.htm

Des exemples d'application

une application sur des textes historiques avec le logiciel Tropes® : http://back.ac-rennes.fr/pedagogie/hist_geo/ResInternet/Tropes/Tropes-Aide.htm :
un regard interdisciplinaire de professeurs sur le logiciel Tropes® : www.cafepedagogique.org/dossiers/logi.php :
un exemple d'un traitement sous ALCESTE® pour des parcours de vie : www.ethno-web.com/evenements.php?action=archive&id=5&numeve=5 :
une application sur des textes historiques avec le logiciel Tropes® : http://back.ac-rennes.fr/pedagogie/hist_geo/ResInternet/Tropes/Tropes-Aide.htm :
un regard interdisciplinaire de professeurs sur le logiciel Tropes® : www.cafepedagogique.org/dossiers/logi.php

Ressources générales autour des grands barrages

Dams and Development Project (DDP) du Programme des Nations unies pour l'environnement (Unep) : www.unep.org/dams
World Commission on Dams (WCD) : http://new.unep.org/dams/WCD/default.asp
Rapport "Barrages et développement" (2000) : http://new.unep.org/dams/WCD/report.asp
La Commission internationale des grands barrages (CIGB) : www.icold-cigb.net/default.aspx
International Rivers (people, water, life), une ONG américaine qui se mobilise pour la protection des bassins fluviaux et des populations qui leur sont associées : www.internationalrivers.org

Présentation et propositions : Emeline Comby et Sylviane Tabarly,

pour Géoconfluences le 22 janvier 2010

Pour citer cet article :

Emeline Comby et Sylviane Tabarly, « L'analyse de données textuelles : des démarches heuristiques. L'exemple des grands barrages », Géoconfluences, janvier 2010.
https://geoconfluences.ens-lyon.fr/doc/etpays/Chine/ChineFaire.htm

Outils personnels

Navigation

La Chine entre espaces domestiques et espace mondial