lundi 21 août 2017

Minimum Detectable Effect


La fin du "sample size calculator"


Dans la pratique du test A/B, il est recommandé de prévoir la taille de l'échantillon de visiteurs que l'on va tester. Ce conseil provient de la pratique industrielle, pour laquelle la taille de l'échantillon est importante, car elle définira le coût de l'expérience. L'objectif est de maintenir ce coût le plus bas possible.
C'est à cela que les "sample size calculator" servent. Ils demandent le taux de réussite actuel (taux de conversion) ainsi que la taille de l'effet minimum que l'on cherche à mesurer. Le résultat du calcul est la taille de l'échantillon nécessaire pour que l'on puisse conclure d'une telle expérience.

Cela se transpose mal dans le monde du web car la situation est différente :
  • Mesurer les conversions ne coûte rien (contrairement à l'industrie)
  • Le nombre de visiteurs est une donnée du problème (pas la réponse)
  • L'effet de la variation est difficilement prévisible.
    (en pratique c'est même précisément la question qu'on se pose!)
Cela rend très difficile l'usage des calculatrices de taille d'échantillon.

Pour autant, être capable de savoir ce que l'on peut vraiment mesurer est très important.

Pour le web il faut une formule qui marche dans l'autre sens.

On spécifie :
  • Le taux de conversion actuel 
  • Le trafic de la page à tester
 Et la formule donne la taille minimale de l'effet induit par la variation qu'on sera capable de détecter :le MDE (Minimal Detectable Effect).

J'ai développé une telle calculatrice, vous pouvez l'utiliser via le formulaire ci-dessous, dites moi ce que vous en pensez.

MDE calculator

Nombre total de visiteurs :
Taux de conversion initial : %

Minimal Detectable Effect :

mardi 31 janvier 2017

Régulation des algorithmes (suite)

Hier soir j'étais à une réunion de présentation à CAP Digital,sur le sujet de la "régulation des algorithmes"... (vous pouvez lire l'article précédent sur ce sujet ici.)

Je suis plutôt content car les gens qui on présenté le problème semblent bien avoir compris quelques subtilités du problème comme :
  • Surveiller à la fois les algorithmes mais aussi les données utilisées pour les paramétrer. Dans le domaine du "machine learning", on parle de données d'entraînement. Ces données , plus que l'algorithme lui-même, décide du comportement prédictif. 
  • Certains algorithmes sont, par constitution, non-analysable, non-explicable. On parle de boite noire, mais pas par volonté de cacher les chose, mais fonctionnement de base.
  • L'INRIA, partenaire scientifique, ne se positionne que comme centre de ressources de solution scientifique/technique de mesure.
Bref, ils ont comprit qu'il s'agit d'un problème fondamentalement complexe pour lequel il n'existe pas de solution technique aujourd'hui. C'est rassurant.

Ce qui l'est moins :
  • Aucune start-up du domaine ne fait partie des rapporteurs.
  • Personne n'a soulevé le risque de créer une régulation qui serait dangereuse pour les entreprises françaises travaillant dans le "machine learning". En effet, imposer une régulation implique avoir un levier d'action envers les contrevenants, or aujourd'hui les GAFA (Google, facebook, Amazon, etc...) sont totalement intouchables (elles ne payent même pas les impôts sur le bénéfice fait sur le sol français). Une régulation franco-française ne ferait donc que les avantager encore plus par rapport aux start-up française.
    L'effet de la régulation serait alors inverse à l'objectif, car ces algorithmes seraient alors totalement pilotés par des entreprises étrangères non soumis à la réglementation, et donc totalement hors de contrôle.
    Sans parler de la destruction d'emploi et la perte de revenu fiscal.
Bref, tous les acteurs ont bien identifiés qu'on est incapable aujourd'hui de faire quelque action censée que ce soit dans ce domaine. Mais je crois que c'était a peu près la même situation pour HADOPI : personne ne croyait vraiment pouvoir endiguer la copie illégale par manque de solution technique. Pourtant HADOPI a bien été crée, et a gaspiller beaucoup d'argent pour rien.
J'espère juste que ce cela ne se reproduira pas.

Je ne vois donc pas de risque imminent, mais c'est tout de même un sujet à "surveiller".


lundi 30 janvier 2017

Régulation des algorithmes ?

Vous en avez peut être entendu parler : l'état français réfléchit à créer une instance de "régulation des algorithmes". En clair il s'agit de placer des limites éthiques d'utilisation du "machine learning".
Je vais ce soir à une réunion de présentation à CAP Digital, j'espère y avoir quelques éléments de réponse à ces questions qui me sont venues à l'esprit :
  • Ce contrôle n'est-il pas un frein au développement du "machine learning" et de l'Intelligence Artificielles en France ?
  • Comment, en pratique, contrôler un algorithme?
    • Bien souvent, ces algorithmes sont considérés comme des secrets industriels.
    • En "machine learning" les algorithmes sont souvent "neutres", c'est les données qui les pilotent vraiment. Or ces données sont souvent confidentielles, et en plus elles peuvent changer très rapidement. Les algorithmes devraient alors être surveillé en permanence!?
    • Alors qu'on manque déjà de gens pour créer ces algorithmes, où trouver des gens pour les contrôler? Il semblerait que des gens de l'INRIA composerait une commission. Problème : l'INRIA vend aussi de tels algorithmes, peuvent-il être juge et partie ? et en plus avoir le droit de consulter tous les algorithmes de leur potentiels concurrents ?
    • Beaucoup de techniques de "machine learning" produisent des algorithmes dont même leur créateurs sont incapable de définir précisément les modes de fonctionnement. Cette incapacité est souvent due à des raisons théorique (ou l'absence de théorie suffisamment avancée) et non à l'incompétence de leur créateurs.
Si d'autres questions vous semblent intéressantes suggérez-les moi via Twitter (ou en commentaire de cet article).

Je ferai prochainement, ici, un bilan de ce que j'aurai entendu à cette réunion.