{"id":305,"date":"2015-10-15T16:06:14","date_gmt":"2015-10-15T20:06:14","guid":{"rendered":"http:\/\/dominicforest.me\/fed2015\/?p=305"},"modified":"2016-06-01T16:04:53","modified_gmt":"2016-06-01T20:04:53","slug":"des-machines-et-des-mots-les-partis-sont-ils-coherents","status":"publish","type":"post","link":"http:\/\/dominicforest.me\/fed2015\/2015\/10\/15\/des-machines-et-des-mots-les-partis-sont-ils-coherents\/","title":{"rendered":"Des machines et des mots : les partis sont-ils coh\u00e9rents?"},"content":{"rendered":"<p><span style=\"font-weight: 400;\">L\u2019une des t\u00e2ches que la fouille nous permet d\u2019effectuer est la cat\u00e9gorisation automatique. Par exemple\u00a0il nous est possible en utilisant ce type de processus de pr\u00e9dire de quel parti politique provient un document. Ce qui est particuli\u00e8rement int\u00e9ressant dans ce type d&rsquo;analyse, ce\u00a0sont les erreurs, c\u2019est-\u00e0-dire les documents dont le syst\u00e8me a incorrectement pr\u00e9dit l&rsquo;appartenance. Ces erreurs\u00a0sont aussi parlantes, voire plus, que les documents pour lesquels\u00a0le parti a \u00e9t\u00e9 correctement pr\u00e9dit. En effectuant la cat\u00e9gorisation automatique des documents produits par les partis politiques, on peut obtenir un portrait r\u00e9v\u00e9lateur de certaines tendances lexicales des partis ainsi que de leur proximit\u00e9.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La cat\u00e9gorisation automatique se fait en deux temps : l\u2019apprentissage et le test. Lors de la phase d\u2019apprentissage, on donne \u00e0 la machine une partie du corpus, associ\u00e9e aux cat\u00e9gories qu\u2019elle doit apprendre. Par exemple, dans ce cas-ci, l\u2019outil de fouille conna\u00eet le nom du parti qui a publi\u00e9 le communiqu\u00e9 et il doit s\u2019entra\u00eener \u00e0 reconna\u00eetre ce qui distingue un parti d\u2019un autre. Ensuite, nous fournissons \u00e0 la machine le corpus de test. Cette fois, le nom du parti n\u2019est pas li\u00e9 aux communiqu\u00e9s. Sur la base de ce qu\u2019il a appris dans la phase de test, l\u2019outil doit associer un document \u00e0 un parti. <\/span><\/p>\n<p><span style=\"font-weight: 400;\">Si vous voulez en savoir plus sur la m\u00e9thodologie, <a href=\"#methodologie\">cliquez ici<\/a>. <\/span><\/p>\n<p><span style=\"font-weight: 400;\">Pour voir tout de suite l\u2019analyse des r\u00e9sultats, <a href=\"#analyse\">cliquez ici<\/a>.<\/span><\/p>\n<p><!--more--><\/p>\n<h2 id=\"resultats\"><span style=\"font-weight: 400;\">R\u00e9sultats<\/span><\/h2>\n<h3><span style=\"font-weight: 400;\">Apprentissage<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Le corpus d\u2019apprentissage est form\u00e9 des communiqu\u00e9s, billets de blogue et extraits\u00a0de plateforme publi\u00e9s sur les sites officiels des partis du 2 ao\u00fbt au 29 septembre, pour un total de 533 documents. Sur le lot, 515 ont \u00e9t\u00e9 correctement cat\u00e9goris\u00e9s. La justesse de la machine est donc de 97%. Soulignons ici que la justesse al\u00e9atoire se situe \u00e0 20%. En effet, l\u2019outil a une chance sur cinq d\u2019avoir la bonne r\u00e9ponse, \u00e9tant donn\u00e9 qu\u2019il y a cinq cat\u00e9gories (ou partis). <\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les r\u00e9sultats complets peuvent \u00eatre observ\u00e9s \u00e0 la figure 1. Afin de bien la lire, il faut comprendre les mesures de pr\u00e9cision et de rappel. <\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">La mesure de <\/span><b>pr\u00e9cision<\/b><span style=\"font-weight: 400;\"> calcule le nombre de documents qui ont \u00e9t\u00e9 <\/span><i><span style=\"font-weight: 400;\">correctement<\/span><\/i><span style=\"font-weight: 400;\"> plac\u00e9s dans la cat\u00e9gorie A par rapport \u00e0 <\/span><i><span style=\"font-weight: 400;\">l\u2019ensemble<\/span><\/i><span style=\"font-weight: 400;\"> des documents pr\u00e9dits dans la cat\u00e9gorie A. Si la mesure de pr\u00e9cision est tr\u00e8s basse, il y aura beaucoup de <\/span><b>bruit<\/b><span style=\"font-weight: 400;\"> dans nos r\u00e9sultats. Ainsi, beaucoup de documents appartenant aux autres cat\u00e9gories, comme B ou C, qui seraient injustement plac\u00e9s dans la cat\u00e9gorie A.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">La mesure de <\/span><b>rappel<\/b><span style=\"font-weight: 400;\"> calcule le nombre de documents qui ont \u00e9t\u00e9 pr\u00e9dits dans la cat\u00e9gorie A par rapport \u00e0 l\u2019ensemble des documents qui font partie de la cat\u00e9gorie A. Si la mesure de rappel est tr\u00e8s basse, il y aura beaucoup de <\/span><b>silence<\/b><span style=\"font-weight: 400;\"> dans nos r\u00e9sultats. Ainsi, beaucoup de documents qui appartiennent \u00e0 la cat\u00e9gorie A ne seraient pas plac\u00e9s dans la cat\u00e9gorie A.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Afin de rendre ces explications plus concr\u00e8tes, observons les r\u00e9sultats du Bloc qu\u00e9b\u00e9cois \u00e0 la <a href=\"#figure_1\">figure 1<\/a>. <\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">La <\/span><b>pr\u00e9cision<\/b><span style=\"font-weight: 400;\"> est repr\u00e9sent\u00e9e dans la premi\u00e8re colonne du tableau. On peut voir que 47 documents ont \u00e9t\u00e9 attribu\u00e9s au Bloc qu\u00e9b\u00e9cois et que les 47 ont tous \u00e9t\u00e9 r\u00e9ellement publi\u00e9s par les bloquistes. La pr\u00e9cision est donc de 100%.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Le <\/span><b>rappel<\/b><span style=\"font-weight: 400;\"> est repr\u00e9sent\u00e9 dans la premi\u00e8re ligne du tableau. Au total, 49 documents proviennent du Bloc qu\u00e9b\u00e9cois. 47 ont \u00e9t\u00e9 attribu\u00e9s au Bloc qu\u00e9b\u00e9cois, 1 au NPD et 1 au Parti lib\u00e9ral. Le rappel est donc de 47 sur 49, soit 95,92%. <\/span><\/li>\n<\/ul>\n<p><a id=\"figure_1\" href=\"http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_1.png\" data-rel=\"lightbox-image-0\" data-rl_title=\"\" data-rl_caption=\"\" title=\"\"><img loading=\"lazy\" class=\"aligncenter wp-image-307\" src=\"http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_1.png\" alt=\"figure_1\" width=\"600\" height=\"324\" srcset=\"http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_1.png 1008w, http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_1-300x162.png 300w\" sizes=\"(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><\/a><\/p>\n<p><span style=\"font-size: 80%;\">Figure 1. R\u00e9sultats obtenus avec le corpus d\u2019apprentissage (2 ao\u00fbt au 29 septembre)<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Soulignons le nombre peu \u00e9lev\u00e9 de documents publi\u00e9s par le Bloc qu\u00e9b\u00e9cois, qui n\u2019atteint m\u00eame pas 10% du corpus d\u2019apprentissage. Le Parti vert n\u2019est pas tr\u00e8s loin non plus, avec 12%. \u00c0 l\u2019autre extr\u00eame, le Parti lib\u00e9ral d\u00e9passe largement ses adversaires pour le nombre de publications (34%). Le Nouveau Parti d\u00e9mocratique le suit avec 27% des publications. Finalement, le Parti conservateur (17%) se tient pr\u00e8s de la moyenne statistique (20%). Alors que les r\u00e9sultats sont bons avec le corpus d\u2019apprentissage, c\u2019est-\u00e0-dire que la machine est capable de reconna\u00eetre les mots n\u00e9cessaires \u00e0 l\u2019identification du parti dans 97 % des cas, reste \u00e0 voir si les mots retenus seront suffisants pour faire la pr\u00e9diction pour de nouveaux documents.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Test<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Le corpus test est form\u00e9 des m\u00eames types de documents que le corpus d\u2019apprentissage. La p\u00e9riode de publication des documents est toutefois diff\u00e9rente, soit du 30 septembre au 8 octobre. Il est compos\u00e9 de 140 documents. Il est \u00e9tonnant de voir que le NPD d\u00e9passe maintenant le Parti lib\u00e9ral pour le pourcentage de publications; ils ont respectivement 37% et 25%. Autre changement\u00a0: le Parti vert (19%) d\u00e9passe le Parti conservateur (12%). De son c\u00f4t\u00e9, le Bloc qu\u00e9b\u00e9cois occupe une place encore plus restreinte, avec 6% des publications. <\/span><\/p>\n<p><span style=\"font-weight: 400;\">Sur les 140 documents, 115 ont \u00e9t\u00e9 correctement cat\u00e9goris\u00e9s, pour une justesse de 82,1\u00a0%. La pr\u00e9cision est \u00e9gale \u00e0 81,7 % et le rappel atteint 77,1%. Concernant les r\u00e9sultats beaucoup plus faibles du Bloc qu\u00e9b\u00e9cois, rappelons que son corpus d\u2019apprentissage est le plus mince des cinq partis. De plus, on remarque que le plus grand nombre de confusions provient d\u2019un m\u00e9lange entre NPD et Parti lib\u00e9ral, autant dans le corpus d\u2019apprentissage que dans le corpus test. Il peut s\u2019agir d\u2019une cons\u00e9quence de la proximit\u00e9 th\u00e9matique entre les deux partis, comme nous l\u2019avons vu dans un <a href=\"http:\/\/dominicforest.me\/fed2015\/2015\/09\/28\/les-sujets-abordes-par-les-partis\/\">pr\u00e9c\u00e9dent billet<\/a><\/span><span style=\"font-weight: 400;\">. <\/span><span style=\"font-weight: 400;\">Pour l\u2019ensemble des r\u00e9sultats, consultez la <a href=\"&quot;#figure_2\u201d\">figure 2<\/a>. <\/span><\/p>\n<p><a id=\"figure_2\" href=\"http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_3.png\" data-rel=\"lightbox-image-1\" data-rl_title=\"\" data-rl_caption=\"\" title=\"\"><img loading=\"lazy\" class=\"aligncenter wp-image-308\" src=\"http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_3.png\" alt=\"figure_3\" width=\"600\" height=\"336\" srcset=\"http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_3.png 965w, http:\/\/dominicforest.me\/fed2015\/wp-content\/uploads\/2015\/10\/figure_3-300x168.png 300w\" sizes=\"(max-width: 709px) 85vw, (max-width: 909px) 67vw, (max-width: 984px) 61vw, (max-width: 1362px) 45vw, 600px\" \/><\/a><\/p>\n<p><span style=\"font-size: 80%;\">Figure 2. R\u00e9sultats obtenus avec le corpus test (30 septembre au 8 octobre)<\/span><\/p>\n<h2 id=\"analyse\"><span style=\"font-weight: 400;\">Analyse<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Comme nous pouvons le constater dans la <a href=\"&quot;#figure_2\u201d\">figure 2<\/a>, vingt-cinq documents n\u2019ont pas \u00e9t\u00e9 correctement pr\u00e9dits. La prochaine \u00e9tape est d\u2019observer ces erreurs afin de tenter de les comprendre. En effet, elles peuvent \u00eatre r\u00e9v\u00e9latrices d\u2019un changement ou d\u2019une anomalie dans le discours d\u2019un parti. Nous avons r\u00e9pertori\u00e9 quatre cas de figure.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Qu\u00e9bec ou Canada?<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Un communiqu\u00e9 de presse du Parti lib\u00e9ral paru le 7 octobre a \u00e9t\u00e9 attribu\u00e9 au Bloc qu\u00e9b\u00e9cois \u00e0 cause des mots \u201cQu\u00e9bec\u201d et \u201cMontr\u00e9al\u201d, utilis\u00e9s \u00e0 plusieurs reprises. Il est rare que les partis, outre le Bloc qu\u00e9b\u00e9cois, s\u2019adressent aussi directement \u00e0 une province. <\/span><\/p>\n<p><span style=\"font-weight: 400;\">Inversement, un document du Bloc qu\u00e9b\u00e9cois du 28 septembre a \u00e9t\u00e9 attribu\u00e9 au Parti lib\u00e9ral. Traitant de paradis fiscaux, le communiqu\u00e9 ne contient pas une seule fois le mot \u201cQu\u00e9bec\u201d. Cet exemple nous permet de d\u00e9montrer une particularit\u00e9 de l\u2019algorithme retenu pour proc\u00e9der \u00e0 la cat\u00e9gorisation. Il est sensible non seulement \u00e0 la pr\u00e9sence, mais \u00e9galement \u00e0 l\u2019absence de termes dans un document pour pouvoir pr\u00e9dire sa cat\u00e9gorie. <\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Singer l\u2019adversaire<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Attaquer ses adversaires est monnaie courante lors de campagnes \u00e9lectorales. Dans plusieurs documents faisant partie des erreurs de pr\u00e9diction, on trouve ce type de document. Le 3 octobre 2015, par exemple, le Parti vert explique dans son blogue son opposition au projet de<\/span> <span style=\"font-weight: 400;\">Loi sur la tol\u00e9rance z\u00e9ro face aux pratiques culturelles barbares. <\/span><span style=\"font-weight: 400;\">Il emploie des mots et des id\u00e9es typiquement mis de l&rsquo;avant par le Parti conservateur, notamment dans le domaine juridique, expliquant pourquoi le document a \u00e9t\u00e9 pr\u00e9dit pour celui-ci. Le Parti vert cherche ainsi \u00e0 mettre en lumi\u00e8re l&rsquo;incoh\u00e9rence du gouvernement Harper qui s&rsquo;oppose \u00e0 une commission sur les femmes autochtones assassin\u00e9es et disparues.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">S\u2019inspirer de l\u2019adversaire<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Le 1<\/span><span style=\"font-weight: 400;\">er<\/span><span style=\"font-weight: 400;\"> octobre, le Parti conservateur a publi\u00e9 une lettre ouverte de Stephen Harper adress\u00e9e \u00e0 la fonction publique. Or, la machine a plut\u00f4t pr\u00e9dit que ce document provenait du Parti lib\u00e9ral. En effet, ce dernier a fr\u00e9quemment utilis\u00e9 cette formule pour transmettre son message. De plus, il y est beaucoup question de familles et de sant\u00e9, th\u00e8mes plus souvent abord\u00e9s par les lib\u00e9raux que par les conservateurs dans les communiqu\u00e9s de presse. <\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Le Partenariat transpacifique brouille les cartes<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Huit documents traitant du Partenariat transpacifique ont \u00e9t\u00e9 mal class\u00e9s par la machine. <\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">5 publi\u00e9s par le Nouveau Parti d\u00e9mocratique<\/span>\n<ul>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">2 pr\u00e9dits Parti lib\u00e9ral<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">2 pr\u00e9dits Parti vert<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">1 pr\u00e9dit Bloc qu\u00e9b\u00e9cois<\/span><\/li>\n<\/ul>\n<\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">3 publi\u00e9s par le Bloc qu\u00e9b\u00e9cois<\/span>\n<ul>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">2 pr\u00e9dits Nouveau Parti d\u00e9mocratique<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">1 pr\u00e9dit Parti lib\u00e9ral<\/span><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">D\u2019une part, on peut attribuer ces erreurs \u00e0 l&rsquo;absence du th\u00e8me dans le corpus d\u2019apprentissage, qui regroupe les documents ayant \u00e9t\u00e9 publi\u00e9s entre le 2 ao\u00fbt et le 29 septembre 2015. Cependant, une \u00e9tude des documents nous permet de voir que le Partenariat transpacifique implique plusieurs sph\u00e8res d\u2019activit\u00e9s de l\u2019\u00e9conomie canadienne et que les documents de campagne qui s\u2019y rapportent traitent de multiples enjeux comme l\u2019agriculture, l\u2019acc\u00e8s aux m\u00e9dicaments g\u00e9n\u00e9riques, les relations internationales et la libert\u00e9 sur internet. De plus, certains communiqu\u00e9s se concentrent sur un seul aspect du partenariat alors que d\u2019autres en regroupent plusieurs. Ainsi, l&rsquo;h\u00e9t\u00e9rog\u00e9n\u00e9it\u00e9 du th\u00e8me rend sa pr\u00e9diction plus complexe. <\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Conclusion<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Comme on a pu le voir, la cat\u00e9gorisation automatique des communiqu\u00e9s de presse, billets de blogue et extraits de plateforme publi\u00e9s par les partis politiques en cours de campagne permet de faire ressortir des cas particuliers o\u00f9 les partis sortent de leur discours habituel, se rapprochant parfois de leurs adversaires. D\u2019ici quelques jours, la p\u00e9riode \u00e9lectorale sera termin\u00e9e et nous disposerons alors d\u2019un corpus complet. Bien que plusieurs sujets soient sp\u00e9cifiques \u00e0 l\u2019actualit\u00e9, certains sont r\u00e9currents d\u2019une campagne \u00e0 l\u2019autre. Il sera donc int\u00e9ressant, dans quelques ann\u00e9es (ou quelques mois, selon les r\u00e9sultats du 19 octobre), d\u2019utiliser le corpus 2015 pour faire l\u2019apprentissage de la machine et ainsi pr\u00e9dire l\u2019appartenance des documents parus. Par ailleurs, la pr\u00e9sente analyse exclut les plateformes \u00e9lectorales, qui n\u2019\u00e9taient pas toutes disponibles au moment de cr\u00e9er le corpus d\u2019apprentissage. Comme elles couvrent normalement tous les enjeux jug\u00e9s pertinents par un parti pour la campagne en cours, il serait int\u00e9ressant de refaire l\u2019exercice en incluant les plateformes \u00e9lectorales dans le corpus d\u2019apprentissage. <\/span><\/p>\n<h2 id=\"methodologie\"><span style=\"font-weight: 400;\">M\u00e9thodologie<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">La cat\u00e9gorisation est une t\u00e2che pr\u00e9dictive qui repose sur un apprentissage assist\u00e9 de la machine. \u00c0 partir d\u2019un corpus d\u2019apprentissage, dans notre cas compos\u00e9 de 533 documents diffus\u00e9s par les partis politiques du 2 ao\u00fbt au 29 septembre, la machine s\u2019entraine \u00e0 reconna\u00eetre les caract\u00e9ristiques des diff\u00e9rentes cat\u00e9gories pour qu\u2019elle soit \u00e0 m\u00eame de pr\u00e9dire le parti auquel le document est associ\u00e9. Ainsi, lors de cette \u00e9tape, les noms des partis sont fournis \u00e0 la machine afin qu\u2019elle d\u00e9termine les mots capables de pr\u00e9dire les r\u00e9ponses \u00e0 un nouveau jeu de donn\u00e9es. Cette op\u00e9ration pose deux grands d\u00e9fis. Premi\u00e8rement, l\u2019algorithme doit \u00eatre capable de se souvenir de ce qu\u2019il a appris et il doit \u00eatre capable de g\u00e9n\u00e9raliser les apprentissages \u00e0 des contenus nouveaux. En cat\u00e9gorisation, la taille du corpus d\u2019apprentissage est un facteur important dans le succ\u00e8s de l\u2019op\u00e9ration. Plus le nombre de cat\u00e9gories \u00e0 pr\u00e9dire est grand, plus le corpus d\u2019apprentissage devra \u00eatre volumineux. Inversement, s\u2019il y a peu de cat\u00e9gories \u00e0 pr\u00e9dire, l\u2019apprentissage peut se faire \u00e0 partir d\u2019une poign\u00e9e de documents. Les documents du corpus doivent \u00eatre repr\u00e9sentatifs de chacune des cat\u00e9gories \u00e0 pr\u00e9dire. L\u2019algorithme doit avoir des exemples de chacune des cat\u00e9gories pour apprendre de leurs caract\u00e9ristiques pour \u00eatre en mesure d\u2019identifier les caract\u00e9ristiques dans un nouveau document.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Apr\u00e8s plusieurs it\u00e9rations sur le corpus d\u2019apprentissage, nous avons d\u00e9termin\u00e9 les param\u00e8tres optimaux pour effectuer la cat\u00e9gorisation. L\u2019algorithme choisi est le Naive Bayes, qui classe les documents en cat\u00e9gories en fonction de la probabilit\u00e9 d\u2019appartenance d\u2019un document dans chacune des cat\u00e9gories. La mesure d\u2019appartenance est calcul\u00e9e en fonction de la pr\u00e9sence ou de l\u2019absence de termes \u00e0 l\u2019int\u00e9rieur du document \u00e9valu\u00e9. Nous avons conserv\u00e9 les 760 termes les plus discriminants selon une mesure de chi-carr\u00e9 maximum, calcul\u00e9e en fonction du nombre d\u2019occurrences d\u2019un terme. Nous avons randomis\u00e9 les donn\u00e9es, car l\u2019algorithme d\u2019apprentissage est sensible \u00e0 l\u2019ordre d\u2019apparition des documents. La m\u00e9thode de validation crois\u00e9e utilis\u00e9e est le <\/span><i><span style=\"font-weight: 400;\">leave one out<\/span><\/i><span style=\"font-weight: 400;\">. <\/span><\/p>\n<p><a href=\"#resultats\">Retour aux r\u00e9sultats<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>L\u2019une des t\u00e2ches que la fouille nous permet d\u2019effectuer est la cat\u00e9gorisation automatique. Par exemple\u00a0il nous est possible en utilisant ce type de processus de pr\u00e9dire de quel parti politique provient un document. Ce qui est particuli\u00e8rement int\u00e9ressant dans ce type d&rsquo;analyse, ce\u00a0sont les erreurs, c\u2019est-\u00e0-dire les documents dont le syst\u00e8me a incorrectement pr\u00e9dit l&rsquo;appartenance. &hellip; <a href=\"http:\/\/dominicforest.me\/fed2015\/2015\/10\/15\/des-machines-et-des-mots-les-partis-sont-ils-coherents\/\" class=\"more-link\">Continuer la lecture<span class=\"screen-reader-text\"> de &laquo;&nbsp;Des machines et des mots : les partis sont-ils coh\u00e9rents?&nbsp;&raquo;<\/span><\/a><\/p>\n","protected":false},"author":5,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[20,21,10,4],"_links":{"self":[{"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/posts\/305"}],"collection":[{"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/comments?post=305"}],"version-history":[{"count":11,"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/posts\/305\/revisions"}],"predecessor-version":[{"id":319,"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/posts\/305\/revisions\/319"}],"wp:attachment":[{"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/media?parent=305"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/categories?post=305"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/dominicforest.me\/fed2015\/wp-json\/wp\/v2\/tags?post=305"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}