Vous formez l'IA de Google gratuitement depuis 15 ans, et vous ne le saviez même pas
Titre original : Vous formez à l'IA de Google depuis 15 ans. Tu n'en savais rien.
Auteur original : Sharbel, cofondatrice d'Unfungible
Traducteur original : Lila, BlockBeats
Note de l'éditeur : Les CAPTCHA, les chiffres ou images sur lesquels vous devez cliquer chaque fois que vous vous connectez à un site web, sont familiers à chaque internaute. Mais lorsque vous cliquez sur « Je ne suis pas un robot » à chaque fois, vous pouvez penser que vous ne faites que vérifier votre identité, alors qu'en fait vous participez à la production de données la plus importante et la plus secrète au monde. Le reCAPTCHA de Luis von Ahn a regroupé le comportement humain dispersé dans une pierre angulaire des données soutenant Google et sa filiale, la société autonome Waymo.
Sous la façade du « gratuit » et du « sécurisé », Internet a discrètement remodelé une nouvelle forme de relation de travail : vous passez du temps à prouver que vous êtes humain, mais vous contribuez en fait à la formation à l'IA, et une fois que l'IA apprend, cette main-d'œuvre est complètement remplacée. Cet article a reçu plus de 9,5 millions de vues sur Twitter en moins de 20 heures. Voici le contenu original :
Environ 500 000 heures de travail humain sont librement exploitées par Google chaque jour. Et les gens qui contribuent à cela veulent juste se connecter aux services bancaires en ligne.
reCAPTCHA est l'opération de données invisibles la plus réussie de l'histoire d'Internet. À son apogée, 200 millions de personnes effectuaient le processus de vérification chaque jour. Mais presque personne ne réalisait ce que chaque clic signifiait en coulisses.
La société de voitures autonomes de Google, Waymo, est désormais valorisée 45 milliards de dollars. Et la plupart de ses données de formation de base sont fournies librement par vous lorsque vous accédez à divers sites web.
Voici l'histoire complète :
Origine : Une idée astucieuse
En 2000, les robots spammeurs faisaient des ravages sur Internet. Les forums étaient inondés, les boîtes de réception débordaient et les sites web avaient besoin d'un moyen de distinguer les humains des machines.
Luis von Ahn, professeur à l'Université Carnegie Mellon, a résolu ce problème. Il a inventé le CAPTCHA : un texte déformé que seuls les humains savaient lire, et non les bots.
Mais von Ahn a vu plus que ça. Des millions de personnes avaient consacré leur énergie à ces défis. Et si cette énergie pouvait faire deux choses à la fois ?
En 2007, il lance reCAPTCHA. Son éclat: ne plus afficher de texte aléatoire brouillon, mais deux mots. Un mot était connu du système, l'autre un vrai mot de carnet scanné que les ordinateurs ne pouvaient pas encore reconnaître. Et votre réponse a aidé à la numérisation de ces livres.
Ces livres proviennent des archives du New York Times et de Google Books, pour un total de 130 millions.
Vous pensiez simplement vous connecter à un site web régulier, mais vous effectuiez en fait l'OCR (Reconnaissance Optique de Caractères) pour la plus grande bibliothèque numérique du monde.
En 2009, Google a officiellement acquis reCAPTCHA.

Plus tard, Google a changé la donne
L'ère du "texte tordu" s'est terminée vers 2012.
Google a fait face à un nouveau défi : Les voitures Street View avaient photographié toutes les routes du monde entier, mais les photos n'étaient que des données brutes. Pour que l'IA opère sa magie, elle devait comprendre ce qu'elle voyait: panneaux de signalisation, passages pour piétons, feux de circulation, devantures.
Google a donc remanié reCAPTCHA v2. Au lieu de texte déformé, il y avait des grilles de photos. "Cliquez sur toutes les places avec des feux de circulation." "Sélectionnez chaque passage." "Identifiez les devantures."
Ces images provenaient directement de Google Street View. Vos clics ont servi de tags.
Chaque sélection éclairait le modèle de vision par ordinateur de Google : ces pixels forment un feu de circulation, cette forme est un croisement. Vous ne faisiez pas de test, vous construisiez un jeu de données.

Une échelle inimaginable
À son apogée, 200 millions de reCAPTCHA ont été résolus chaque jour. Chaque défi prenait 10 secondes, ce qui signifie 2 milliards de secondes de travail humain par jour. Ça fait 500 000 heures par jour.
Le coût de l'étiquetage payant des données est d'environ 10 à 50 $ l'heure. Calculé au taux le plus bas : la valeur quotidienne de la main-d’œuvre extraite librement a atteint jusqu’à 5 millions de dollars.
De plus, reCAPTCHA n'existe pas seulement dans une application particulière. Il est présent sur chaque banque, chaque portail gouvernemental, chaque site web de commerce électronique. Vous n'avez pas le choix : Vous voulez vous connecter à votre compte ? Tout d'abord, aidez à annoter l'ensemble de données. Google ne vous a jamais demandé votre avis, ni versé un centime de salaire, ni même vous en a parlé.

À quoi tout cela a-t-il conduit ?
Ces données alimentent directement deux produits :
-Google Maps : L'outil de navigation le plus utilisé dans le monde entier. Sa capacité à reconnaître les panneaux de signalisation, les commerces et la géographie des villes est partiellement créditée aux milliards d'annotations humaines faites lors de la connexion aux sites web.
Waymo : Le projet autonome de Google. Pour une navigation sûre, les véhicules autonomes doivent identifier presque parfaitement des milliers de motifs visuels.
Les données de formation à la vérité sur le terrain pour ce travail d'identification sont précisément ce que des millions de personnes ont annoté sans le savoir via reCAPTCHA. Waymo a réalisé plus de 4 millions de voyages payants en 2024, pour une valeur estimée à 45 milliards de dollars. Sa première pierre, posée par ces "internautes impayés" qui voulaient juste consulter leur adresse email.
Pourquoi personne ne peut reproduire ce modèle ?
L'annotation des données est extrêmement coûteuse. Des entreprises comme Scale AI, Appen et Labelbox existent pour résoudre ce problème ; elles embauchent des centaines de milliers de travailleurs, parfois payés moins de 1 $ l'heure.
Google a adopté une approche différente du problème : il a transformé l'annotation en exigence. Aucun paiement requis, aucun consentement nécessaire, mais comme un « ticket » pour entrer dans tous les coins d'Internet. Résultat : des milliards d'images étiquetées, une couverture mondiale, tous temps, toutes les villes du monde. Aucune entreprise d'annotation ne peut y parvenir. Internet lui-même est une usine, et chaque internaute est un employé sans papiers.

Vous participez toujours
reCAPTCHA v3, lancé en 2018, n'affiche même plus de défis. Il observe comment vous déplacez la souris, la vitesse de défilement, le temps de séjour. Votre empreinte comportementale l'informe si vous êtes humain. Ces données comportementales alimentent également les systèmes d'IA de Google.
Vous n'avez jamais choisi activement de participer, jamais eu de case à cocher. Pourtant, en ce moment, sur la plupart des sites web que vous visitez, vous le faites toujours.
Ironie troublante
Luis von Ahn avait à l'origine une brillante intention : transformer l'énergie que les humains gaspillaient déjà en production utile. Cependant, ce que Google a fait avec cette vision est une toute autre histoire. Ils ont pris un mécanisme de sécurité que les utilisateurs devaient utiliser, l'ont déployé sur le web et ont récolté les résultats pour créer un produit d'entreprise d'une valeur de plusieurs centaines de milliards de dollars. Les utilisateurs n'ont rien reçu en retour, pas même la sensibilisation.
Le plus ironique est que vous avez passé des années à prouver que vous êtes humain en effectuant des tâches de reconnaissance visuelle que l'IA ne pouvait pas faire à l'époque. Mais une fois que l'IA a appris à faire ces tâches, les annotations visuelles humaines n'étaient plus nécessaires.
Tu as prouvé que tu étais humain, pour finir par te rendre remplaçable.
Vous pourriez aussi aimer

Rapport du matin | Coinbase Ventures réalise son premier investissement dans ENA ; SpaceX prévoit de fixer le prix de son introduction en bourse à 135 $ par action

Texte intégral et analyse du discours du PDG de SanDisk lors de la 42e conférence annuelle sur les décisions stratégiques de Bernstein

Prévision du prix du Bitcoin pour 2030 : Ark Invest anticipe 710 000 $

Prix du SOL aujourd'hui : cours en direct de Solana, graphiques et données de marché

Qu'est-ce qu'un ETF Bitcoin : Spot vs Futures expliqués

Pourquoi le Bitcoin chute de 15 % alors que le Nasdaq atteint des records ?
Qu'est-ce que la TradFi et pourquoi tout le monde en parle en 2026 ?

Rapport du matin | Strategy a vendu 32 BTC et plus de 800 000 actions MSTR la semaine dernière ; Binance a officiellement annoncé son portail de trading d'actions américaines ; Polymarket a conclu un partenariat exclusif avec OneFootball

Bootcamp de trading WEEXPERIENCE en Pologne : comment WEEX et FireCrew rendent le trading crypto accessible à tous

Le sacre de Paris : comment le PSG a brisé le rêve d'Arsenal lors d'une finale de Ligue des champions historique

TaiJi finalise un financement stratégique de 3,5 millions de dollars, avec la participation de Castrum Capital, Becker Ventures et Coinvestor Ventures

Bitcoin stagne près de 73 000 $ ? Comment les traders trouvent des opportunités dans un marché latéral en juin

Comment staker Solana : un guide étape par étape pour 2026

Le prix garanti est désormais disponible sur WEEX : exécutez vos ordres avec une plus grande précision

Dernières recherches de la BRI : L'avenir des stablecoins et le paysage monétaire mondial

Entretien avec l'expert macro Raoul Pal : La course à l'IA mène à une « singularité économique », ne lâchez pas vos jetons trop facilement au cours des quatre prochaines années

Pourquoi Peter Thiel, l'homme derrière Palantir, prépare-t-il une sortie en Argentine ?

