Dominic Forest | Recherches | Mai 2013

Informations

Date : Mai 2013 - Avril 2018
Rôle : cochercheur
Chercheuse principale : Marie-Claude L’Homme, Université de Montréal
Organisme : Conseil de recherche en sciences humaines du Canada
Programme : Subvention Savoir
Montant : 339 000 $

Comprendre le domaine de l’environnement textuellement et linguistiquement

Contexte

Le domaine de l’environnement est très complexe (faisant appel à des concepts de météorologie, de climatologie, de géologie, d’économie, etc.) et fait l’objet de publications variées (rapports d’expert, articles dans les journaux, pamphlets idéologiques, travaux de vulgarisation). Les enjeux soulevés par le domaine sont également de taille et de nouveaux mots apparaissent afin de les véhiculer. Il devient donc extrêmement difficile de s’y retrouver (experts et non-experts confondus).

Objectifs

Ce projet vise à proposer une méthode de caractérisation textuelle et linguistique du domaine de l’environnement en faisant appel à des modèles et méthodes mis au point en linguistique de corpus, en fouille de texte et en sémantique lexicale. Il fait donc appel à des théories, méthodes et techniques utilisées en linguistique, en sciences de l’information et en terminologie.

Méthode

D’abord, nous mettrons au point une typologie des textes du domaine de l’environnement qui prendra en compte deux axes :

la thématique abordée (par exemple, changements climatiques, recyclage, développement durable) ;
le niveau de spécialisation (expert à expert, expert à initié, expert à non-expert).

La typologie sera élaborée à partir de textes rédigés en anglais, en espagnol ou en français et s’inspirera de travaux portant sur les genres textuels de Biber (1988) et de Swales (1990) et les situations communicatives de Pearson (1998).

Par la suite, des techniques de fouille de textes descriptives seront mises à contribution pour identifier les thèmes dominants ou émergents dans les textes (par exemple, réduction, effet de serre, réchauffement, gaz de schiste). Cette étape sera réalisée en soumettant d’abord les corpus à des algorithmes de classification non supervisés (afin de regrouper les documents traitant de thématiques comparables), puis en extrayant les termes caractéristiques des regroupements générés. Cette démarche permet d’extraire la structure thématique présente dans les corpus. Nous faisons l’hypothèse que les thèmes identifiés au moyen des méthodes de fouille de texte constituent des noyaux conceptuels importants dans le domaine. Nous utiliserons ces thèmes pour amorcer la description linguistique du lexique utilisé dans les textes environnementaux.

La description linguistique s’appuiera sur une théorie de sémantique lexicale, à savoir le modèle des Frames Semantics (Fillmore 1982). Les FS sont des scénarios conceptuels qui fédèrent les unités du lexique qui peuvent les évoquer selon des perspectives différentes. Par exemple, on peut faire l’hypothèse que les unités « changement », « perturbation » et « bouleversement » évoquent le même Frame dans le domaine. La découverte des unités lexicales susceptibles d’appartenir au même Frame peut être réalisée semi-automatiquement au moyen de TermoStat (Drouin 2003), un extracteur de termes qui proposent des vues différentes sur le lexique contenu dans les textes. Une fois les Frames et leurs unités lexicales identifiés, nous procéderons à leur description en nous inspirant de la méthode FrameNet (Ruppenhofer et al. 2010). La méthode prévoit une annotation fine dans les corpus. Cette annotation peut être utilisée pour mieux caractériser les unités lexicales utilisées dans les textes.

Retombées

De manière générale, le projet débouchera sur une méthode permettant de mieux gérer l’information relative au domaine de l’environnement. Il permettra également de tester des méthodes de classification automatique et de les adapter à un domaine extrêmement complexe. Enfin, les descriptions lexicales seront rendues accessibles dans une ressource en ligne dont des applications terminologiques, lexicographiques ou didactiques pourront être dérivées.

Projet de recherche Mai 2013 - Avril 2018