Les mots de la campagne : comment et pourquoi

L’intérêt pour les données massives (Big data) est indéniable. Du milieu académique aux dirigeants d’entreprise, en passant par les élus et les fonctionnaires, tous souhaitent trouver la façon innovante pour tirer profit de la grande quantité de données dont nous disposons.

Les données massives sont l’incommensurable et toujours grandissante masse d’information que produit l’humanité à chaque instant. Elles prennent la forme de traces laissées notamment par les appareils intelligents, sur les réseaux sociaux ou avec des cartes fidélité. Les données massives sont la somme des données créées sans arrêt sur les faits et gestes des humains de toute la planète.

Or, que ce soit au service de la ville intelligente ou pour maximiser les profits, l’utilisation des données massives se traduit par une nouvelle forme de lecture utilisant des outils informatiques pour analyser une masse de données qui serait trop importante pour l’analyse humaine. On nomme Data Mining, ou fouille de données, certaines des activités d’analyse entourant les données massives.

La fouille de textes est une sous-discipline de la fouille de données. Cette activité consiste en l’analyse de corpus textuels, comme des discours, des articles ou des tweets, par exemple. Seulement, cette analyse ne tente pas de saisir le sens véhiculé par chaque texte, mais plutôt de découvrir des informations nouvelles, des tendances ou des constantes présentes dans le corpus. Un nouveau niveau de connaissance émane du corpus, que la lecture humaine de chacun des textes n’aurait pas pu permettre aussi rapidement et avec une perspective aussi globale.

La démarche implique :

  1.    La création du corpus
  2.    Le nettoyage des données
  3.    Le traitement des données
  4.    La visualisation et la présentation des données

En période électorale, les partis diffusent une masse d’information sur de multiples plateformes. Ces informations nous apparaissent comme un produit riche en potentiel d’analyse. Notre démarche vise à comparer tout au long de la campagne les mots des cinq principaux partis politiques fédéraux, d’une part entre eux et d’autre part avec les mots qu’ils ont utilisés lors des trois dernières élections fédérales. Notre processus est empreint de sérendipité; nous adaptons nos recherches en fonction du pouls de la campagne.