Anatomie des usines à données des Big Tech

Objectifs

Découvrir la captologie, champ de recherche devenu une référence de design pour les plateformes
Montrer que la conception des outlis des Big Tech embarque de façon intentionnelle des objectifs comportementaux
Comprendre les techniques permettant aux plateformes de récolter des données en dehors de leurs services
Comprendre la différence entre données et information
Nuancer la qualité des prédictions en fonction du type d’information recherchée

Les données comme matière première à maximiser

Méthode : Quels leviers décuplent la quantité de données disponible ?

Augmenter le temps passé sur un outil;
Augmenter sa fréquence d’utilisation ;
Augmenter le nombre d’interactions au sein de l’outil ;
Agrandir le périmètre des données accessibles à l’extérieur de l’outil.

Captologie : l'art de changer les comportements avec la technologie

Définition : [C]omputers [A]s [P]ersuasive [T]echn[OLOGY]

Étude de l'informatique et des technologies numériques comme outils de persuasion et de changement des comportements
Fogg, 1998

Fondamental : « The Behavior Model »

D’après Fogg, un comportement se déclenche par le produit de trois éléments :

Motivation (plaisir/douleur, espoir/peur, acceptation sociale/rejet) ;
Simplicité (effort physique/mental, déviation des normes, nouvelle routine, temps, argent...) ;
Déclencheur (vise soit à palier le plus faible de 1 ou 2, soit à être un rappel au moment le plus efficace).

Remarque : Fogg s’adresse à un public très large

[Le design comportemental pourrait être utilisé] par les hôpitaux pour soigner les diabétiques, les organismes financiers pour aider les gens à épargner, et les ONG pour lutter contre le dérèglement climatique [...]
Fogg, 2019

Chaque case est associée avec un guide de synthèse des recherches, qui présente les grandes étapes pour promouvoir le comportement souhaité.

Remarque : Fogg est relativement ignoré jusqu’à la fin des années 2010

Aujourd’hui encore, je ne sais pas qui a pris la peine de lire mon travail académique, et mon livre n’a jamais été un succès commercial.
Fogg, 2019

Attention : Fogg sort régulièrement de son champ de compétences

The Fogg Behavior Model is universal. It applies to human behavior for people of all ages and in all cultures.
behaviormodel.org

Complément : Des similarités dans le champ économique

Porosité avec la théorie du nudges (parfois traduit « paternalisme libertarien »), lit. « coup de pouce ».

La Direction interministérielle de transformation publique (DITP) résume dans son guide méthodologique :

L’homo economicus n’a plus aucune crédibilité scientifique (« biais cognitifs», « système 1/système 2 », « heuristiques »...) ;
Les humains sont influencés par des facteurs sociaux et environnementaux qui influencent leurs comportements ;
Les interventions qui ignorent ces données (« pédagogie », « réglementation », « incitations/sanctions »...) échouent ;
Le nudge vise à « [réagencer] l’environnement décisionnel dans le but de faciliter le passage de l’intention à l’action [...] sans pour autant réduire le nombre d’options ni contraindre formellement son choix ».

Chammat et. al, 2019

Exemples :

Mettre l'imprimante en recto-verso ;
Les cercles au sol des quais de gare pour inciter à garder une distance aux trains ;
Des fausses mouches au fond des urinoirs 🫩 ;
Les « 36 nudges » pour télédéclarer ses impôts (?) (source)

Quand un entrepreneur croise la recherche

Fondamental : « Comment créer un produit ou un service qui ancre des habitudes », un best-seller sorti en 2014

Définition : Habitude

Behaviours done with little or no conscious thoughts.
Eyal, 2014

Méthode : « The Hooked Model »

Signal externe : qu'est-ce-qui amène l'utilisateur·ice à utiliser le produit ?
Action : quelle est l'action la plus simple à réaliser dans l'espoir d'une récompense ?
Récompense variable : comment équilibrer satisfaction et frustration imprévisibles ?
Engagement/investissement : comment donner envie à l'utilisateur·ice de s'engager au-delà de la récompense ?

La répétition est importante : plus les utilisateur·ices passent par ces étapes, plus iels ont des chances de s'engager spontanément (self-trigger).

Remarque : Le rôle crucial de la déception

Dès le début 20e, des expériences animales sur le conditionnement opérant montrent qu'une récompense variable en réponse à un comportement appris augmente la fréquence du comportement, jusqu’à devenir frénétique et sans rapport avec le besoin initial (Skinner, 1930).

L’optimisation des récompenses variables intermittentes dans l’addiction aux machines à sous est bien documenté (voir Reinforcement sur Wikipedia ou l’article « No Armed Bandit » directement consacré aux machines à sous).

Remarque : Habitude ou addiction ?

Il faut arrêter d’utiliser le mot addiction ; la plupart des gens ne sont pas addicts mais se sentent juste coupables de surutilisation. Quand vous vous racontez « ce truc me rend accro » ou « ça hacke mon cerveau »... vous voulez vous débarrasser de votre responsabilité. Et ça a un nom :l’impuissance acquise .

C’est la thèse centrale de « Indistractible » [le second livre de Eyal en 2019] : arrêtez de rejeter vos propres échecs sur la technologie.
Eyal, cité par Mahdawi, 2019 (je traduis)

Eyal fait notamment référence à la « crise des opioïdes », aux États-Unis.

La technique n’est pas neutre : une posture assumée

Fondamental : Quelles sont les intentions des concepteurs ?

Western Culture is built around ideals of individual choice and freedom. Millions of us fiercely defend our right to make “free” choices, while we ignore how those choices are manipulated upstream.
Harris, 2016

Exemple : Contrôler le menu, c’est contrôler les choix

Exemple : Lourdement jouer sur la tendance/pression à la réciprocité sociale

Exemple : Fils infinis, autoplay : éliminer toutes les raisons de faire une pause

Exemple : Déclencher des émotions

FOMO ou FOMSI : Fear Of Missing Out, Fear Of Missing Something Important (il suffit d’une petite probabilité perçue comme crédible)
Gamification et scores 🔥 : devient une motivation intrinsèque (self-trigger).
Polarisation des contenus (adhésion ou rejet) : l'engagement actif (réaction, partage, commentaire, etc) (Berget et Milkman, 2009).

Exemple : Libre, éclairé, spécifique, préalable, révocable

Une fois la fonctionnalité activée, le coup de désactivation est bien plus grand.

Exemple : Microsoft et Scout, l’« agent personnel toujours au travail »

Position temporelleDurée

Introducing Microsoft Scout (02 juin 2026)

The internal Microsoft document [...] notes “three phases” to its launch plan. The first phase is “Make people addicted.”
“Continue shipping the standalone ClawPilot experience. Pilot the UX, grow the user base, and build the skill and tool ecosystem that makes people depend on it daily [...]” the document says.
Koebler et Maiberg, 2026

Récolter, centraliser, corréler, identifier

Fondamental : Donnée disponible et donnée captée

La captologie, le design comportemental et autres disciplines proches sont utilisées comme outils de génération de données pour les Big Tech.

Elles doivent fournir un effort supplémentaire pour récolter ces données.

Méthode : En interne, une attention portée aux données les plus larges et détaillées

Sur leurs propres plateformes, Les Big Tech ont peu de limitations techniques et peuvent cibler les signaux dits « faibles » (ils peuvent notamment injecter du code arbitraire sur l’appareil, dont dépendent ensuite les autorisations).

Exemple : Meta et données « techniques »

L’appareil et le logiciel que vous utilisez, ainsi que d’autres caractéristiques de l’appareil.
Ce que vous faites sur votre appareil, par exemple si notre application est au premier plan ou si votre souris bouge.
Les identifiants d’appareils, d’annonceurs mobiles, de jeux, d’applications ou de comptes que vous utilisez.
Le GPS, les signaux Bluetooth, les points d’accès Wi-Fi, balises et antennes-relais de téléphonie mobile à proximité.
Si vous nous autorisez à accéder à la pellicule de votre appareil, nous recueillons des métadonnées.
Les informations sur le réseau auquel vous connectez votre appareil et sur votre connexion, dont les informations sur les autres appareils situés à proximité ou sur votre réseau.
Le numéro de téléphone mobile.
Certaines informations liées à la localisation, même si les services de localisation sont désactivés dans les paramètres de votre appareil. Cela inclut des éléments tels que votre localisation GPS.

Politique de confidentialité Meta, 16 décembre 205, consulté le 02 juin 2026.

Enrichir les données en moissonnant ailleurs : qui sont les vrais data brokers ?

Définition : Cookie

Inventé en 1994, le cookie est un fichier texte brut constitué de paires clé-valeur échangé par le protocole de communication HTTP. Créé par un serveur HTTP, le cookie est envoyé au client HTTP pour être enregistré un temps spécifié durant lequel il est renvoyé tel quel au serveur à chaque requête. La durée d'enregistrement peut s'étendre de quelques minutes à quelques années. (Wikipédia).

Définition : Cookie tiers

Exemple : Google Analytics

Exemple fictif de tableau d'analyse possible sur Google Analytics

Méthode : Intégrer un suivi d'audience sur son site web

Il suffit usuellement de rajouter un morceau de code JavaScript. En 2025, le site Suicide Écoute, premier résultat de recherche d'aide sur Google, intègre par exemple le code suivant.

function gtag() { dataLayer.push(arguments); }
gtag("set", "linker", { "domains": ["www.suicide-ecoute.fr"] });
gtag("js", new Date());
gtag("set", "developer_id.dZTNiMT", true);
gtag("config", "G-06DS76NYVV");
// Plus loin dans le code...
<a href="tel:0145394000" onclick="ga('send','event','Phone','Click To Call','Phone')";

L’enjeu de la corrélation des profils : un identifiant pour les gouverner tous

Fondamental : Pistage inter-outils

Les pisteurs sur chaque site web ou application mobile ne sont pas indépendants. Les utilisateur·ices sont suivi·es :

Par l'identifiant unique enregistré dans le cookie (sur les ordinateurs) ;
Par l'identifiant publicitaire unique géré par l'OS mobile (sur les smartphones, via iOS ou Android).

Attention : Oligopole analytique

Pourcentage de trackers et parts de marché sur le top 10 millions des site web

Remarque : Smartphones : un rêve éveillé

Répartition des traceurs dans les 12.000 applications les plus utilisées (2021)

Que fait le RGPD ?

Les publicitaires s’inquiètent des nouveaux droits et pratiques

Extraits d’un guide sur les « signaux résilients », financé par Meta

Images issues de Deloitte Digital, 2022.

Méthode : Des contre-mesures sophistiquées : Meta et des « signaux résilients »

Import automatique des données d’événements « hors-ligne » ;
« [Envoi] des données depuis votre serveur, pour mieux gérer les limitations du navigateur et les bloqueurs de publicités » (source) ;
[Envoi direct] des informations clientèle hachées avec [leurs] événements de pixel [afin de pouvoir] ensuite exploiter les informations hachées afin d’identifier plus précisément les personnes qui ont effectué une action après avoir vu votre publicité » (source) .

Complément : Pixel Meta et standardisation : un effet sur la conception des sites web ?

Vous pouvez utiliser le pixel Meta pour suivre les actions des internautes sur votre site Web, une démarche également appelée le suivi des conversions (developers.facebook.com).

Liste des événements automatiquement pris en charge par le pixel Meta (2026)

Des données brutes aux prédictions actionnables

Données et information

Définition : Information

Ici, on entend une information comme une prédiction réalisée à partir d'un grand nombre de points de données bruts qui, pris individuellement, sont peu signifiants.

Remarque : Émergence

On peut considérer une information comme une propriété émergente, c'est-à-dire une entité qui est plus que la somme de ses parties (comportements animaux en grand groupe, le concept mouillé, etc).

Ici, c'est presque toujours l'utilisation de modèles statistiques entraînés sur de grandes quantités de données (machine learning) qui promet de faire émerger quelque chose de nouveau.

Complément : IAg : un nouveau débouché pour les données

Nous utiliserons des informations publiques [incluant publications, photos, vidéos, stories, reels, commentaires, activité dans les groupes, etc], ainsi que vos interactions avec les fonctionnalités d’IA de Meta. Selon le contenu, cela peut inclure des informations concernant des sujets sensibles à propos d’autrui ou de vous-même. Nous utilisons ce contenu pour développer et améliorer l’IA par Meta afin que nos modèles puissent apprendre à traiter des sujets sensibles sans censure ni discrimination.
Même si vous n’utilisez pas nos produits ou ne possédez pas de compte, nous pouvons tout de même traiter des informations vous concernant pour développer et améliorer l’IA par Meta. Il peut s’agir d’informations à propos des internautes âgés de moins de 18 ans.
Meta, 2025

Fondamental : IAg et publicité : même logique

Les modèles mathématiques qui les sous-tendent sont similaires : il s’agit à la fin de produire une prédiction précise. Si les Big Tech n’ont jamais assumé la maximisation de la récolte de données à des fins marchandes, le discours semble beaucoup plus détendu autour de l’IAg, y compris dans des documents officiels.

Si nous investissons autant dans ce domaine, c’est parce que nous avons la conviction que l’IA générative bénéficie [au] monde entier.
Pour entraîner des modèles efficaces qui rendront ces avancées possibles, il est nécessaire de disposer d’une quantité importante d’informations. C’est pourquoi nous puisons dans des ressources accessibles au public et sous licence.
Nous conservons les données d’entraînement aussi longtemps que nécessaire, au cas par cas, pour nous assurer qu’un modèle d’IA fonctionne correctement et efficacement, en toute sécurité. Nous pouvons également les conserver pour protéger nos intérêts ou ceux d’autres personnes.
Meta, 2025

La meta des prédictions : être proactif, pas réactif

Exemple : Remplacer les évaluations psychologique ?

En 2019, un papier compile des études sur la prédictions des caractéristiques suivantes (reprises telles que mentionnées dans l’étude) : émotions, bien-être, QI, qualité d'écriture, aisance verbale, valeurs morales, orientation sexuelle, orientation politique, appréciations des marques, traits OCEAN (Nettle, 2009), curiosité, TSA, dépression, dyslexie, psychopathie et stress.

Les technologies actuelles peuvent déjà déduire des informations probabilistes sur nos états mentaux et nos traits psychologiques et nous classer d'une manière qui dépasse les formes traditionnelles d'évaluation psychologique. […] À mesure que les types et la quantité d'interactions entre nous et nos appareils en ligne augmentent et que de nouveaux types de capteurs pour mesurer les signaux comportementaux sont développés, on s'attend à ce qu'en combinant ces sources d'information, un algorithme de Machine Learning (ML) puisse former une image très précise de nous.
Burr et Cristianini, 2019.

Exemple : Des signaux faibles à l'information

Synthèse de trois études portant sur la prédiction de traits de personnalités à partir de données partagées avec des applications.

Exemple : Du double virtuel au phénotype numérique

Moment-by-moment quantification of the individual-level human phenotype in situ using data from personal digital devices.
Onnela et Rauch, 2016

[data is] captured through smartphone interactions, movement patterns, vocal prosody and other daily signals [...] Grounded in dynamical systems theory, these methodological approaches offer temporally dense, multimodal data streams to map the cyclical feedback loops linking physiology, behaviour and cognition, transcending the static snapshots of traditional diagnostics.
Wang et. al, 2025, je souligne

Small-data machine learning (ML) unlocks the potential for proactive, personalised medicine [...] For instance, subtle indicators such as erratic typing patterns or GPS-derived social withdrawal, imperceptible to patients or clinicians, might predict a bipolar episode a day in advance. This synthesis of granular behavioural data and adaptive machine learning has the potential to drive clinical practice from reactive symptom assessment to pre-emptive detection—translating imperceptible digital biomarkers into actionable insights for real-time diagnosis, dynamic risk stratification and personalised prognosis tracking.
Ibid.

Synthèse

Fondamental : Cybernétique et société

Plusieurs postulats et pratiques reviennent régulièrement comme des évidences :

Récolter autant de données qu’il est possible de le faire ;
Une mauvaise prédiction est liée à des limitations techniques (et donc dépassable) ;
Une prédiction exacte est une prédiction utile ; dit autrement, si on peut prédire, on doit prédire ;
Les outils basés sur les données sont les plus performants pour nous informer sur le monde (à toutes les échelles).

Un exercice intéressant est de se demander :

D’où viennent ces croyances ?
Sont-elles justifiables ?
Que produisent par elles-mêmes ces croyances ?

Questions

Montrer en quoi un réseau social de votre choix (Instagram, Tiktok, Facebook...) applique la méthode décrite par Nir Eyal.
Comment et pourquoi les Big Tech parviennent-elles à obtenir des données de personnes qui n'utilisent pas leurs produits ?
Quels sont les types de prédictions les plus exactes produites par les algorithmes de machine learning actuels ? Proposer une vision critique de la pertinence de l'exactitude dans le cadre de l'économie de la donnée.

Concepts

Captologie
Cookie (et ciblage)
Prédiction comportementale