Anatomie des usines à données des GAFAM

Quentin Duchemin

Objectifs

  • Découvrir la captologie, champ de recherche à la base du fonctionnement des plateformes

  • Comprendre comment les plateformes utilisent la captologie pour récolter des données

  • Comprendre les infrastructures techniques permettant aux plateformes de récolter des données en dehors de leurs services

  • Comprendre la différence entre données et information

  • Découvrir les mécanismes et l'efficacité des prédictions d'information à partir de données

Introduction

La quantité et la qualité des données personnelles détenues par les grandes plateformes sont directement proportionnelles à leurs profits. Cette accumulation se fait selon trois grandes étapes, où l'on file une métaphore végétale.

  1. Modifier les comportement des utilisateur·ices pour extraire des données (culture)

  2. Capter le maximum de données ainsi extraites (récolte)

  3. Combiner algorithmiquement ces données pour prédire de l'information (transformation)

L'information ainsi monnayée est ré-injectée dans cette boucle, que l'on peut d'emblée nommer surveillance.

Captologie : l'art de changer les comportements

Un champ de recherche relativement ignoré

DéfinitionCaptologie

Computers As Persuasive TechnOLOGY

Étude de l'informatique et des technologies numériques comme outils de persuasion et de changement des comportements (Fogg, 1998).

Fogg est loin d'être un méchant de film.

[La design comportemental (ndlr : une discipline soeur de la captologie) pourrait être utilisée] par les hôpitaux pour soigner les diabétiques, les organismes financiers pour aider les gens à épargner, et les ONG pour lutter contre le dérèglement climatique (Fogg, 2019).

RemarqueRessemblances

Porosité avec la théorie du nudges (ou paternalisme libéral), lit. « coup de pouce ».

Exemples :

  • Mettre l'imprimante en recto-verso par défaut

  • La SNCF qui met des messages « motivants » sur les escaliers pour fluidifier le traffic

  • Mettre des fausses mouches au fond des urinoirs pour inciter les utilisateurs à bien viser

  • Supposer le consentement par défaut du don d'organe

Exemple

Travaux du Standard Persuasive Lab

Chaque case est associée avec un manuel donnant les grandes étapes pour promouvoir le comportement souhaité.

ComplémentFogg croit dans un équilibre de la Force

Si je n'étais pas optimiste quant à la nature humaine, je serais inquiet pour l'avenir. Mais je suis optimiste. Je crois que nous, les humains, sommes fondamentalement bons. Maintenant que la technologie de persuasion est mise entre les mains de millions de personnes (par exemple, ma mère peut créer un groupe sur Facebook et influencer des centaines, des milliers, voire des millions de personnes), les outils permettant de créer ces systèmes ne sont plus réservés aux personnes hautement qualifiées ou aux grandes entreprises. De plus en plus de gens ordinaires peuvent créer des sites web, des applications, des contacts, et c'est une bonne chose, je crois, parce que les humains sont fondamentalement bons, parce qu'ils veulent faire de bonnes choses dans le monde.

En donnant à des millions de personnes les moyens de créer des expériences persuasives grâce à la technologie, nous aurons des milliers, voire des millions, de forces qui œuvreront pour un monde meilleur. Et je pense que cela compense l'aspect négatif : le pouvoir que les personnes malveillantes et les organisations corrompues gagneront grâce à la technologie de persuasion.

De la recherche à l'industrie

Nir Eyal est un ancien élève de Fogg à Standford. Cet ouvrage promet d'apprendre à créer des produits de type « habit-forming », c'est-à-dire qui construisent des habitudes. C'est un best-seller lu par tous les entrepreneurs de la tech.

AttentionHabitude ou addiction ?

Habit-forming products often start as a nice-to-haves (vitamins) but once the habit is formed, they become must-haves (painkillers).

DéfinitionHabitude

Behaviours done with little or no conscious thoughts (Eyal, 2014).

MéthodeCréer une habitude

  1. Signal externe : qu'est-ce-qui amène l'utilisateur·ice à utiliser le produit ?

  2. Action : quelle est l'action la plus simple à réaliser dans l'espoir d'une récompense ?

  3. Récompense variable : comment équilibrer satisfaction et frustration imprévisibles ?

  4. Engagement : comment donner envie à l'utilisateur·ice de s'engager au-delà de la récompense ? (c'est la phase où il est le plus réceptif)

La répétition est importante : plus les utilisateur·ices passent par ces étapes, plus iels ont des chances de s'engager spontanément (self-trigger).

RemarqueBoîte de Skinner

Les recherches sur le caractère addictif ne sont pas nouvelles : les expériences animales sur le conditionnement opérant montrent qu'une récompense variable en réponse à un comportement appris augmente la fréquence du comportement (Skinner, 1930).

ExempleApplication aux plateformes

  1. Signal externe : notifications, mails, icône visible, rappel d'une todo-list...

  2. Action : ouvrir une application, acheter en un clic, partager un contenu, swipe...

  3. Récompense variable : (non-)réactions, (non-)match, trouver le contenu recherché, (non-) badges ou achievements...

  4. Engagement : produire du contenu, ajuster les préférences, gérer ses abonnements, apprendre de nouvelles fonctionnalités, obtenir des rapports de performances... et chargement du prochain trigger.

Renforcer l'addiction

ExempleCréer l'inertie

  • Scroll infini

  • Recommandations

  • Lecture automatique

ExempleCréer de l'urgence

  • Peur de la perte d'assets virtuels (e.g. 🔥)

  • Suggestions FOMO (Fear of Missing Out)

ExempleExploiter les affects

Les contenus polarisants (positifs ou négatifs) renforcent l'engagement actif (réaction, partage, commentaire, etc) (Berget et Milkman, 2009).

Conclusion

On peut penser les processus amenant la multiplication des données disponibles en deux étapes :

  • Germination : tout ce qui donnera des informations sur les motivations intrinsèques (voire les failles psychologiques) de l'utilisateur·ice, ce qui fonctionne pour l'hameçonner : les triggers s'affinent et gagnent en efficacité.

  • Croissance : tout ce qui va permettre d'en apprendre plus sur les caractéristiques (morales, politiques, religieuses...) de l'utilisateur : ce sont les stratégies permettant d'augmenter les interactions à l'intérieur du produit.

Pisteurs : capter et centraliser les données

À l'intérieur des plateformes

FondamentalDonnée disponible et donnée captée

Les mécanismes captologiques augmentent les interactions donc la quantité de données disponibles sur les utilisateur·ices.

La captologie est essentiellement un outil de génération de données pour les GAFAM.

Les grandes plateformes, dont l'économie repose sur les données personnelles, doivent fournir un effort supplémentaire pour récolter ces données « dans la nature ».

AttentionSignaux faibles

Les données en question peuvent être extrêmement précises : temps passé devant une publication sans cliquer, vitesse de défilement, vitesse de frappe au clavier...

À l'extérieur des plateformes

DéfinitionCookie

Inventé en 1994, le cookie est un fichier texte brut constitué de paires clé-valeur échangé par le protocole de communication HTTP. Créé par un serveur HTTP, le cookie est envoyé au client HTTP pour être enregistré un temps spécifié durant lequel il est renvoyé tel quel au serveur à chaque requête. La durée d'enregistrement peut s'étendre de quelques minutes à quelques années. (Wikipédia).

DéfinitionCookie tiers

Il s'agit d'un cookie concernant un domaine tiers (dont une ressource est chargée par la page principale). L'intérêt du cookie tiers réside dans la possibilité de tracer la navigation d'un·e internaute.

Third party HTTP cookies

DéfinitionAnalyse d'audience

Les principaux GAFAM développent des outils d'analyse d'audience à destinations des administrateurs de sites web (marchands ou non) et d'applications mobiles (via les SDK).

La promesse est de donner une idée très précise du type de public, des actions effectuées, etc.

ExempleGoogle Analytics

Exemple fictif de tableau d'analyse possible sur Google Analytics

MéthodeIntégrer un suivi d'audience sur son site web

Il suffit usuellement de rajouter un morceau de code JavaScript. En 2025, le site Suicide Écoute, premier résultat de recherche d'aide sur Google, intègre par exemple le code suivant.

function gtag() { dataLayer.push(arguments); }
gtag("set", "linker", { "domains": ["www.suicide-ecoute.fr"] });
gtag("js", new Date());
gtag("set", "developer_id.dZTNiMT", true);
gtag("config", "G-06DS76NYVV");
// Plus loin dans le code...
<a href="tel:0145394000" onclick="ga('send','event','Phone','Click To Call','Phone')";

Centralisation des données

FondamentalPistage inter-outils

Les pisteurs sur chaque site web ou application mobile ne sont pas indépendants. Les utilisateur·ices sont suivi·es :

  • Par l'identifiant unique enregistré dans le cookie (web) ;

  • Par l'identifiant publicitaire unique géré par l'OS mobile (iOS ou Android).

AttentionOligopole analytique

Pourcentage de trackers et parts de marché sur le top 10 millions des site web

RemarqueSmartphones : un rêve éveillé

Les smartphones centralisent d'emblée des données sensibles difficiles à obtenir par ailleurs : réseau relationnel, conversations, localisation, habitudes de consommation, données cardiaques, humeur, sommeil, cycle menstruel, opinions politiques, orientation sexuelle, situation économique, situation romantique, handicaps…

Répartition des traceurs dans les 12.000 applications les plus utilisées (2021)

Noter qu'Apple a un monopole total en matière de publicité sur iOS, sans amélioration de la privacy par rapport à Android (contrairement à son image publique).

AttentionSmartphones et données de santé

For most of the 20 000 medical and health and fitness apps analysed, we found that most can collect and potentially share data with third parties (Ikram et al., 2021).

Des données brutes à la prédiction

Données et information

DéfinitionInformation

Ici, on entend une information comme une prédiction réalisée à partir d'un grand nombre de points de données bruts.

RemarqueÉmergence

On peut considérer une information comme une propriété émergente, c'est-à-dire une entité qui est plus que la somme de ses parties. C'est l'utilisation de modèles statistiques entraînés sur d'immenses quantités de données (machine learning) qui permet de faire émerger quelque chose de nouveau.

Prédictions de traits psychologiques

ExempleRemplacer les évaluations psychologique ?

En 2019, un papier compile des études sur la prédictions des caractéristiques suivantes : émotions, bien-être, QI, qualité d'écriture, aisance verbale, valeurs morales, orientation sexuelle, orientation politique, appréciations des marques, traits OCEAN (Nettle, 2009), curiosité, autisme, dépression, dyslexie, psychopathie et stress.

Les technologies actuelles peuvent déjà déduire des informations probabilistes sur nos états mentaux et nos traits psychologiques et nous classer d'une manière qui dépasse les formes traditionnelles d'évaluation psychologique. […] À mesure que les types et la quantité d'interactions entre nous et nos appareils en ligne augmentent et que de nouveaux types de capteurs pour mesurer les signaux comportementaux sont développés, on s'attend à ce qu'en combinant ces sources d'information, un algorithme de Machine Learning (ML) puisse former une image très précise de nous. (Burr et Cristianini, 2019).

ExempleDes signaux faibles à l'information

Synthèse de trois études portant sur la prédiction de traits de personnalités à partir de données partagées avec des applications.

Toutes les prédictions ne se valent pas

AttentionExactitude

La presse a tendance à surévaluer l'exactitude des prédictions algorithmiques. En 2012, le New York Times publiait un article influent, encore cité aujourd'hui. Il entendait notamment montrer comment un supermarché avait prédit la grossesse d'une jeune fille avant qu'elle ne le sache elle-même (Duhigg, 2012).

Pour autant, il omettait les notions d'exactitude, faux-positifs, faux-négatifs, précision, mémoire des données d'entraînement (Fraser, 2020).

Remarque

La capacité de prédiction des algorithmes à base de machine learning est sujet à une hype massive, tant dans la littérature que dans l'opinion publique.

Pour autant, nombre de ces algorithmes performent extrêmement mal dans certaines situations.

FondamentalLes prédictions sociales sont profondément dysfonctionnelles

Dans une étude co-écrites par 112 chercheur·ses, plus de 400 équipes spécialisées en machine learning ont tenté de prédire le devenir social de familles fragiles à partir de données collectées par les chercheur·ses pendant 15 ans (Salganik et al., 2020).

À partir de 13.000 variables (à 9 ans), l'idée était de prédire 6 variables (à 15 ans).

Coefficient de détermination pour les 6 variables : les modèles de machine learning les plus sophistiqués sont souvent « battus » par une régression linéaire basique.

Les modèles en jeu sont issus de dizaines d'années de recherche et vendus par des entreprises avec des promesses particulièrement hautes.

RemarqueLes prédictions comportementales manquent d'évaluations

Certains alertent sur la possible sur-confiance donnée dans les prédictions comportementales des publicitaires.

Tim Hwang est écrivain, avocat et chercheur sur l'impact politique des technologies. Il a été responsable des politiques publiques de l'intelligence artificielle chez Google.

Et si la publicité personnalisée promue par les géants du web n'était qu'un mirage ? Tim Hwang déconstruit le mythe promis aux annonceurs d'un accès sur mesure à chaque utilisateur ou utilisatrice de l'internet. Il dévoile, ce faisant, les pratiques spéculatives et les manipulations des grandes places de marché publicitaires, intimement liées aux monopoles du web.

AttentionPolitiques publiques et prédictions algorithmiques

En général, les tribunaux utilisent ces systèmes pour évaluer la probabilité de récidive ou de fuite des personnes en attente de jugement ou des délinquants dans le cadre des procédures de libération sous caution et de libération conditionnelle. Par exemple, l'algorithme bien connu de la Fondation Arnold, qui est en cours de déploiement dans 21 juridictions aux États-Unis (Dewan, 2015), utilise 1,5 million d'affaires pénales pour prédire le comportement des défendeurs dans la phase précédant le procès. De même, la Floride utilise des algorithmes d'apprentissage automatique pour fixer le montant des cautions (Eckhouse, 2017). Ces systèmes sont également utilisés pour déterminer les besoins criminogènes des délinquants, qui pourraient être modifiés par un traitement, et pour surveiller les interventions dans les procédures de condamnation (Kehl et Kessler, 2017).

(Završnik, 2019)

L'étude des biais algorithmiques sort du cadre de ce cours. Les lectaires intéressé·es pourront se référer à Schuilenburg et Peeters, 2021.

Conclusion

La surveillance n'est ni l'observation seule ni le contrôle : elle consiste à comprendre et influencer les choix [...] Les pratiques de surveillance obéissent aux impératifs de rentabilité : elles transforment l'information en capital et non en pouvoir. Contrôler, c'est réguler. Surveiller, c'est observer et produire de l'information [...] L'économie de la surveillance est une conception du monde où les individus et leurs choix peuvent être compris comme des procédures marchandes que l'on peut influencer, analyser, mesure à travers le recueil d'informations, c'est-à-dire l'accumulation de données et de sens. À ce titre, production et consommation sont les interactions sociales qui génèrent de l'information et, donc, de la surveillance (Masutti, 2020).

Consommation et production sont à comprendre au sens large : c'est le cadre marchand dans lequel toutes les actions des personnes sont catégorisées. En d'autres termes, l'économie de la surveillance rationalise tout selon des règles économiques.

Synthèse

Questions

  • Montrer en quoi un réseau social de votre choix (Instagram, Tiktok, Facebook...) applique la méthode décrite par Nir Eyal.

  • Comment et pourquoi les GAFAM parviennent-ils à obtenir des données de personnes qui n'utilisent pas leurs produits ?

  • Quels sont les types de prédictions les plus exactes produites par les algorithmes de machine learning actuels ? Proposer une vision critique de la pertinence de l'exactitude dans le cadre de l'économie de la donnée.

Concepts

  • Captologie

  • Récompense variable

  • Cookie

  • Prédiction

  • Surveillance

BJ Fogg, 1998

BJ Fogg. 1998. Persuasive computers: perspectives and research directions. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '98). ACM Press/Addison-Wesley Publishing Co., USA, 225–232. https://doi.org/10.1145/274644.274677

Fogg, 2019

ROOSEN, Mélanie. 2019. La captologie ? Mais non, la tech ne veut pas nous manipuler... promis juré. L'ADN. https://www.ladn.eu/entreprises-innovantes/transparence/captologie-manipulation-masse-influence-bons-comportements/

Eyal, 2014

EYAL, Nir. 2014. Hooked: How to Build Habit-Forming Products. Portfolio.

Skinner, 1930

Skinner, B. F. 1930. On the conditions of elicitation of certain eatingreflexes. Proceedings of the National Academy of Sciences, 16, 433-438.

Berget et Milkman, 2009

BERGER, Jonah A. et MILKMAN, Katherine L. 2009. What Makes Online Content Viral? The Wharton School, University of Pennsylvania Research Paper Series. Elsevier.

Ikram et al., 2021

Gioacchino Tangari, Muhammad Ikram, Kiran Ijaz, Mohamed Ali Kaafar, Shlomo Berkovsky. 2021. Mobile health and privacy: cross sectional study. BMJ. URL : https://www.bmj.com/content/373/bmj.n1248.abstract

Nettle, 2009

Nettle, D. (2009). Personality: What makes you the way you are. Oxford University Press.

Burr et Cristianini, 2019

Burr, C., Cristianini, N. Can Machines Read our Minds?. Minds & Machines 29, 461–494 (2019). https://doi.org/10.1007/s11023-019-09497-4

Duhigg, 2012

Charles Duhigg2012. How Companies Learn Your Secrets. URL : https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html

Fraser, 2020

Colin Fraser. 2020. Target didn’t figure out a teenager was pregnant before her father did, and that one article that said they did was silly and bad. Medium. URL : https://medium.com/@colin.fraser/target-didnt-figure-out-a-teen-girl-was-pregnant-before-her-father-did-a6be13b973a5

Salganik et al., 2020

M.J. Salganik, I. Lundberg, A.T. Kindel, C.E. Ahearn, K. Al-Ghoneim, A. Almaatouq, D.M. Altschul, J.E. Brand, N.B. Carnegie, R.J. Compton, D. Datta, T. Davidson, A. Filippova, C. Gilroy, B.J. Goode, E. Jahani, R. Kashyap, A. Kirchner, S. McKay, [...]& S. McLanahan. Measuring the predictability of life outcomes with a scientific mass collaboration, Proc. Natl. Acad. Sci. U.S.A. 117 (15) 8398-8403, https://doi.org/10.1073/pnas.1915006117. 2020.

Završnik, 2019

Završnik, A. 2019. Algorithmic justice: Algorithms and big data in criminal justice settings. European Journal of Criminology, 18(5), 623-642. https://doi.org/10.1177/1477370819876762

Schuilenburg et Peeters, 2021

Marc Schuilenburg et Rik Peeters. 2021. The Algorithmic Society. Technology, Power, and Knowledge. Routledge.

Masutti, 2020

Christophe Masutti. 2020. Affaires privées. Aux sources du capitalisme de surveillance. C&F Éditions.

Liste des raccourcis clavier

Liste des fonctions de navigation et leurs raccourcis clavier correspondant :

  • Bloc Suivant : flèche droite, flèche bas, barre espace, page suivante, touche N
  • Bloc Précédent : flèche gauche, flèche haut, retour arrière, page précédente, touche P
  • Diapositive Suivante : touche T
  • Diapositive Précédente : touche S
  • Retour accueil : touche Début
  • Menu : touche M
  • Revenir à l'accueil : touche H
  • Fermer zoom : touche Échap.