Textmining, la comparaison automatique ou presque

textminingCette semaine, voyons une application du textmining. Avec un collègue étudiant, nous avons étudié la comparaison de l’image communiquée par Samsung Mobile France par les communiqués de presse et l’image ressentie par les prescripteurs (tests des produits) et les utilisateurs (avis sur les produits).

Pour rappel, le textmining, text mining, text-mining, l’extraction de connaissances ou la fouille de texte, est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. [source Wikipedia]

Sources de l’analyse

L’étude de textmining menée vise à étudier l’image communiquée par Samsung Mobile France et l’image ressentie par les prescripteurs et les utilisateurs.

Nous avons donc décidé de sélectionner comme sources pour la communication officielle de Samsung Mobile France les communiqués de presse émis. C’est leur principal canal de diffusion d’information. Nous avons donc récupérer sur le site de Samsung France destiné à la presse les communiqués relatifs aux appareils mobiles ou aux nouveautés liées à la mobilité sur les années 2012 et 2013.

Pour avoir l’avis des prescripteurs, nous avons choisis deux sites de tests de produits high-tech mobiles. Nous avons choisis les tests des appareils mobiles Samsung sortis en 2012 et 2013 du site high-tech généraliste « Les Numériques » et ceux du site high-tech spécialisé mobiles « Les mobiles ». Ceci va aussi nous permettre de comparer le vocabulaire utilisé et les valeurs véhiculées sur un site généraliste par rapport à un site spécialisé.

Pour avoir l’avis des utilisateurs, nous avons choisis deux sites permettant aux utilisateurs de laisser leurs avis par produit. Nous avons sélectionné les avis sur les appareils mobiles Samsung sortis en 2012 et 2013 du site spécialisé high-tech « Les Numériques » et du site généraliste « Ciao ». Ceci va aussi nous permettre de comparer le vocabulaire utilisé par des utilisateurs plutôt technophiles et d’autres, a priori, non.

Textmining : préparation du corpus

Pour récupérer le contenu de nos différentes sources, nous avons utilisé différents outils :

  • Readability (pour les communiqués de presse et les tests), un outil qui permet de retirer tout le superflu d’une page Web, et d’en afficher le contenu essentiel. Il est un peu moins souple et puissant que certains outils java développés spécialement pour le textmining, mais il est disponible sous la forme de module complémentaire au navigateur Internet ;
  • Google Document, cet outil nous a permis via le navigateur Web de transformer le contenu affiché dans Readability en PDF, facilement importable dans WordMapper ;
  • PHP Simple HTML Dom (pour les avis), nous avons réalisé des scripts PHP permettant à partir des adresses Web des produits sur chaque site d’avis, de récupérer tous les avis utilisateurs agrégés par produit et par site sous un format texte, facilement importable.

Pour étudier au mieux les différentes sources dans WordMapper, nous avons formalisé ce corpus avec des cartouches identifiant les variables : Identifiant du fichier source, Type de source (officiel, test, avis), Site source, Type de mobile (téléphone ou tablette), Gamme, Modèle. 

Tout ceci nous a permis de sélectionner les mots signifiants, de réaliser des analyses factorielles et des tris croisés en effectifs avec les Khi-Deux par case. Je vous passe toutes les étapes d’analyse pour aller directement à nos conclusions.

Textmining : Samsung et les avis consommateurs

L’analyse factorielle nous a permis de voir, sur un des axes, une opposition entre les communiqués officiels de Samsung Mobile France et les avis des consommateurs.

L’analyse des mots signifiants pour Samsung sur cet axe, nous montre un discours orienté sur les nouveautés autour des catégories de vocabulaire : technique, commercial, fonctionnalités, applications et expérience utilisateur. Samsung Mobile France a un discours commercial décrivant les avancées techniques et les nouvelles fonctionnalités ; l’entreprise parle de ce qui va arriver et de ce que va pouvoir faire et ressentir le futur consommateur.

L’analyse des mots signifiants pour les avis utilisateurs, nous montre un discours orienté sur le vécu autour des catégories : technique et utilisabilité. Les utilisateurs donnent leurs avis et leurs expériences sur les produits qu’ils possèdent et utilisent chaque jour ; ils ont une vision pragmatique de modèles déjà sortis.

Textmining : Les avis consommateurs et les tests

L’analyse factorielle nous a permis de voir, sur un autre axe, une opposition entre les articles de prescripteurs et les avis des consommateurs.

L’analyse des mots signifiants pour les test , nous montre un discours objectif autour des catégories : design, fonctionnalités, modèle, technique. Les prescripteurs réalisent des tests en mesurant des performances techniques, l’ergonomie, le design et en décrivant les caractéristiques des modèles d’appareils mobiles ; le jugement se veut objectif.

L’analyse des mots signifiants pour les avis utilisateurs, nous montre un discours subjectif autour essentiellement de l’utilisabilité. Les utilisateurs parlent de leur expérience avec les appareils mobiles et de leur ressenti.

Conclusion

L’analyse Textmining dans WordMapper, nous a permis d’identifier les mots-clés et valeurs importantes pour chaque public autour de Samsung Mobile France.

Comme nous pouvions le penser, Samsung Mobile France, les prescripteurs et les utilisateurs ont des intérêts et des vocabulaires différents.

Samsung Mobile France est dans un discours d’annonces. La société utilise un vocabulaire commercial pour décrire les avancées techniques des produits et les nouvelles fonctionnalités à venir.

Dans leurs tests, les prescripteurs utilisent des méthodes pour pouvoir comparer les produits de façon objective. Le discours est orienté sur des aspects techniques, avec des chiffres et des mesures. Les tests sur le site high-tech généraliste et le site high-tech mobile utilisent un vocabulaire similaire.

Dans leurs avis, les utilisateurs ont une approche plus subjective. Ils utilisent des termes empruntant à l’affectif. Ils décrivent leur ressenti, leurs expériences d’utilisation. Les avis sur le site spécialisé et sur le site généraliste utilisent un vocabulaire similaire.

Quelques limites

Notre analyse a été contrainte par deux éléments principales :

  • Lemmatisation automatique de WordMapper : cette lemmatisation pourrait être optimisée avec une revue manuelle des mots signifiants pour un rapprochement des mots de même famille non rapprochés ou des synonymes. Toutefois, le temps consacré à cette étude textmining ne nous le permettait pas.
  • Compréhension sémantique par WordMapper : l’outil ne repère pas les nuances sémantiques, que ce soit les simples : négation ou non d’un verbe ou plus complexe : sentiment des utilisateurs, second degré. L’étude du contexte des mots signifiants nous a permis d’en identifier mais cela a été ciblé sur les mots étudiés dans les graphiques de niveau 2 et 3 du textmining.

J’espère que cela vous aura éclairé sur le textmining et surtout, sur son intérêt.

Bonne semaine et bonnes fêtes !

Après 8 ans en tant que chef de projet métier systèmes d'information , je me suis spécialisé en marketing des technologies de l'information et de la communication. Optimiser et faciliter sont mes deux moteurs.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *