Des machines et des mots : les partis sont-ils cohérents?

L’une des tâches que la fouille nous permet d’effectuer est la catégorisation automatique. Par exemple il nous est possible en utilisant ce type de processus de prédire de quel parti politique provient un document. Ce qui est particulièrement intéressant dans ce type d’analyse, ce sont les erreurs, c’est-à-dire les documents dont le système a incorrectement prédit l’appartenance. Ces erreurs sont aussi parlantes, voire plus, que les documents pour lesquels le parti a été correctement prédit. En effectuant la catégorisation automatique des documents produits par les partis politiques, on peut obtenir un portrait révélateur de certaines tendances lexicales des partis ainsi que de leur proximité.

La catégorisation automatique se fait en deux temps : l’apprentissage et le test. Lors de la phase d’apprentissage, on donne à la machine une partie du corpus, associée aux catégories qu’elle doit apprendre. Par exemple, dans ce cas-ci, l’outil de fouille connaît le nom du parti qui a publié le communiqué et il doit s’entraîner à reconnaître ce qui distingue un parti d’un autre. Ensuite, nous fournissons à la machine le corpus de test. Cette fois, le nom du parti n’est pas lié aux communiqués. Sur la base de ce qu’il a appris dans la phase de test, l’outil doit associer un document à un parti.

Si vous voulez en savoir plus sur la méthodologie, cliquez ici.

Pour voir tout de suite l’analyse des résultats, cliquez ici.

Continuer la lecture de « Des machines et des mots : les partis sont-ils cohérents? »