dimanche 1 juin 2014

Cartographie de followers



Pourquoi vouloir faire une cartographie ? Le réseau Twitter à cela de particulier que les usagers donnent peu d'information sur eux. Il est donc très difficile de se faire une idée de qui constitue l'audience d'un compte, cela est d'autant plus vrai que le compte possède beaucoup de followers, car on ne peut pas aller tous les voir.


J'ai donc imaginé un outil permettant de faire une cartographie de followers. Pour cela je me base sur les abonnements des gens pour pouvoir créer un indice de similarité. Typiquement, deux personnes ayant (plus ou moins) les mêmes abonnements, se ressemblent. J'analyse ensuite ces données de similarité avec une technique de datamining pour produire une carte.


L'application est naturellement de mieux connaître ses abonnés pour adapter sa communication.... Comme un exemple vaut mieux qu'un long discours, je vais vous montrer ce que donne cette analyse sur le compte «@groupeESIEA » , le compte de l'école pour laquelle je travaille. Il est à noter que ce type d'analyse peut être fait pour n'importe quel compte , même si vous n'en êtes pas propriétaire car la nature même de l'outil Twitter étant le broadcast, la plupart des comptes sont ouverts... 


Cliquez sur l'image pour l'agrandir.

J'ai récupéré l'ensemble des followers du comptes @groupeESIEA, cela fait environ 400 comptes Twitter. J'ai alors regardé quels étaient les autres comptes suivit par ces 400 personnes, cela fait environ 86.000 abonnements différents! Parmi tous ces abonnements, certain ne concernent qu'un très faible nombre de gens et ne sont donc pas un critère pour créer une mesure de similarité. Je réduis donc ce nombre à environ 2000 sujets d'intérêts partagés par les followers du groupe ESIEA. Je représente alors chaque follower par un vecteur de dimension 2000, chaque coordonné correspond à un des 2000 sujets. Pour un follower donné, chaque coordonné est mise à 1 si le follower suit le sujet correspondant, et 0 sinon. Cependant visualiser directement un espace vectoriel de dimension 2000 est impossible. Mais ces vecteurs sont « creux », c'est à dire qu'il sont remplit de beaucoup de 0 et qu'il y a très peu de 1. Cela veux dire qu'en fait on doit pouvoir représenter ces données dans une dimension bien inférieure à 2000, sans perdre trop d'information. La technique de réseaux de neurones de Kohonen (+LINK) appelée aussi « cartes auto-organisatrices » est très adapté à ce genre de problématiques. Je demande donc à cet algorithme de réduire la dimension du problème de 2000,... à simplement deux, je peux alors disposer tous les 400 followers dans un plan, plus précisément dans un tableau à deux dimensions.

Voilà comment se lit une carte de type « Kohonen » :
  • Les followers regroupés dans une même case sont donc jugés comme assez « semblables »
  • Les groupes de followers dans des cases adjacentes sont « voisins », c'est a dire qu'ils n'ont pas forcément beaucoup de choses directement en commun, mais qu'il y a un continuum dans les thématiques qu'ils suivent.
Fort de ces deux informations, et de ma connaissance du compte @groupeESIEA je peux donc identifier les différentes régions de la carte :
  • Le plus gros paquet de followers est naturellement constitué d'étudiants (et d'anciens étudiants) de l'ESIEA. Ce paquet n'est pas uniforme, on identifie des branches. Je suppose que ces branches constituent des sous-groupes dans les étudiants. Par affinités personnelles (ces étudiants se suivent sur twitter entrent eux), mais aussi par centres d'intérêts.
    J'ai par exemple identifié un sous-groupe comme étant des fans de sécurité informatique et de hacking. Voir le groupe entouré en gris sur la carte.
  • On identifie ensuite un tas de petits paquets qui gravitent autour du paquet d'étudiants. J'y ai identifié : des journalistes, des association étudiantes, et des cabinets de recrutements... Assez naturellement ces comptes ne partagent pas grand chose en commun ils sont donc plus éparpillé sur la carte que ne le sont les étudiants.
Ce qui est intéressant grâce à cette cartographie, c'est que j'ai pu voir que près de la moitié des followers du @groupeESIEA sont en fait des institutionnels, c'est à dire , des association, des cabinets de recrutement. Je ne l'aurait pas imaginé avant de disposer de cette carte. Cette étude a été réalisé en utilisant Twitter4J  implémentant l'API twitter  ainsi que du code "maison" pour la paramétrisation et l'algorithme de Kohonen... Si vous êtes un follower du compte @groupeESIEA. n'hésitez pas à vous cherchez dans la carte, et me commenter votre position. D'autres cartes sont en cours de préparation, je vous les présenterai ici et je les annoncerai sur Twitter.
Vous pouvez aussi , m'envoyer vos commentaires sur Twitter.

Annexe(s) :