
Introduction : il y a une augmentation de la demande sur les profils "data scientist", l'essor des projets "big data" n'explique pas tout... Voici les autres raisons.
Il y a peu de profils:
- Comme le montre ce le schéma illustrant cet article (pris à cette adresse), c'est des ingénieurs ou docteurs en informatique maîtrisant beaucoup de domaines ( math, + statistiques , + BDD + calcul scientifique). Alliant à la fois des savoirs théoriques et du savoir-faire pratique. Un certain nombre de ces profils, les plus académiques sont mal appréciés par les entreprises car ils ont du mal à se faire comprendre du reste de l'équipe technique et manquent parfois de culture d'entreprise ainsi que de culture business...
- Ce n'est pas un domaine uniforme, il y a des sous spécialités, en fonction du type de données analysées. (analyse d'image/signal/sons, analyse ou production de langage naturel, banque/finance, etc...). Il y a beaucoup de profils différents et difficilement interchangeables.
Les décideurs ont souvent une idée trop simpliste des besoins en data scientist. Typiquement, ils en ont une image pyramidale où plein de données convergent vers un unique super algorithme qui produit un résultat utilisable dans un contexte business. Donc avec cette vision simpliste, ils imaginent qu'un seul data scientist, au sommet de la pyramide, peut suffire. La réalité est substantiellement différente. Dans un projet impliquant de l'analyse de données ou de l'apprentissage (machine learning) ces compétences sont nécessaire à plusieurs endroits :
- Là où c'est évident : dans le cœur du big data, pour la construction des modèles de prédiction, c'est à dire au somment de la pyramide qu'on évoquait précédemment. C'est la situation la plus simple, quand toutes les données utilisées par le système sont structurées. Par structuré on entend des données numériques, avec un sens facilement intégrable dans une analyse. Typiquement, une valeur en euro, un pourcentage, une catégorie, etc... Cependant les situations les plus simples sont rarement les plus fréquentes.
- Là ou c'est moins évident
: bien souvent les données que l'on veux exploiter dans un modèle de
prédiction sont des données dites "non-structurées". Par exemple des
messages de réseaux sociaux, ou une image, un son, une mesure d'un
capteur, etc... Ce type de données ne peuvent pas être utilisée
directement dans un modèle de prédiction. Il faut donc souvent un ou
plusieurs sous-projets de machine learning (au niveau de la base de la
pyramide) pour pouvoir transformer ces données non-structurées en
données structurées. On peut alors les utiliser dans un modèle de
prédiction (au sommet de la pyramide). Par exemple pour utiliser des
tweets dans une analyse il faut d'abord faire de la sémantique pour
s'assurer le message parle bien du sujet qui nous intéresse. C'est déjà,
en soit, un problème de machine learning complexe. Ensuite il faut
mesurer si le message est positif neutre ou négatif, et ça c'est encore
un autre un projet de machine learning...
Le besoin en data scientist existe au sommet de la pyramide, mais aussi à la base, et souvent à plusieurs endroits d'un projet !
La cerise sur le gâteaux, c'est des profils compliqués à embaucher car en général il n'y a pas la compétence en interne, et donc personne n'est vraiment capable d'évaluer la qualité d'un profil "data scientist".
Conclusion le virage "data" est difficile à prendre pour les entreprise. Pour celles qui réussissent le retour sur investissement est largement présent, au détriment de celles qui ne l'ont pas tenté ou qui l'on raté...