Informations

  • Date : Mai 2014 - Avril 2018
  • Rôle : Chercheur principal
  • Organisme : Conseil de recherche en sciences humaines du Canada
  • Programme : Subvention Savoir
  • Montant : 171 250 $

Application de techniques de fouille de textes et de visualisation de l’information pour l’exploitation de grands corpus documentaires en sciences humaines numériques

Contexte

Le projet s'inscrit dans le domaine de la fouille de textes et de la visualisation de l'information appliquées aux sciences humaines numériques. Avec l'essor des technologies numériques, les pratiques de recherche dans les sciences humaines sont en constante mutation. Les chercheurs tentent de tirer profit des avantages qu'offre la documentation numérique. Cependant, la quantité d'informations disponibles en format numérique soulève d'importants enjeux auxquels aucune solution définitive n'a été proposée.

Objectifs

le projet consiste à évaluer la pertinence d'employer des stratégies de fouille de textes (algorithmes d'apprentissage-machine supervisés et non supervisés) pour assister des tâches d'extraction, d'organisation et de visualisation d'informations à partir de gros corpus documentaires en sciences humaines. Plus spécifiquement, les objectifs de ce projet consistent à :

  1. développer un prototype d'application en ligne, flexible et convivial à partir d'applications de fouille de données ouvertes (mais qui nécessitent des connaissances techniques très pointues), afin de permettre à la communauté de chercheurs en sciences humaines d'extraire et de structurer automatiquement les informations importantes dans des corpus documentaires ;
  2. concevoir différentes démarches méthodologiques de fouille de textes adaptées aux besoins des chercheurs en sciences humaines ;
  3. évaluer comment certaines techniques de fouille de textes peuvent être employées pour assister l'analyse et l'interprétation des documents textuels dans le domaine des sciences humaines.

Ce projet de recherche implique donc une interrelation entre un développement technologique (une plate-forme flexible et ergonomique de fouille de textes adaptée au traitement de corpus en sciences humaines) et une modélisation des besoins technologiques des chercheurs en sciences humaines.

Méthodologie

Le projet de recherche impliquera la conception, le déploiement et l'évaluation d'un prototype d'application de fouille de textes en ligne permettant d'implémenter et d'évaluer des méthodologies de fouille de textes afin d'assister la réalisation de tâches liées à l'analyse de documents textuels par des chercheurs en sciences humaines. Le prototype reposera sur une démarche méthodologique générique inspirée de travaux dans le domaine de la fouille de données. Cette démarche est composée de 4 étapes principales :

  1. le prétraitement des documents ;
  2. la transformation numérique des documents ;
  3. l'application des algorithmes d'apprentissage-machine ;
  4. l'évaluation, la visualisation et l'interprétation des informations extraites.

La démarche générique composée de ces principales étapes servira de canevas de base à la conception et à la validation de méthodologies plus spécifiques cherchant à répondre aux besoins des chercheurs en sciences humaines. En étant basé sur les opérations de base réalisées en sciences humaines (la découverte, l'annotation, la comparaison, l'échantillonnage, l'illustration et la représentation), le projet de recherche permettra le développement de prototypes qui assisteront diverses tâches, dont l'analyse thématique, l'analyse d'opinions et la modélisation des connaissances.

Retombées

La principale contribution de la recherche consistera en un prototype d'application de fouille de textes et de visualisation de l'information destiné aux chercheurs en sciences humaines afin de les assister dans l'analyse de très grands corpus de documents textuels. La plate-forme de fouille de documents textuels sera accessible sur le Web et permettra de modéliser des démarches méthodologiques de fouille de textes et de les implémenter dans des chaines de traitement informatiques qui correspondent précisément aux besoins de cette communauté de chercheurs.