thumb

GPT-4 a réussi le test de Turing. Une première mondiale

Dans son article de 1950, Alan Turing avançait que les systèmes d’IA seraient un jour si performants au jeu de l’imitation humaine qu’un interrogateur humain n’aurait pas plus de 70 % de chances de faire la différence entre la machine et l’humain en 5 minutes d’interaction. Ainsi, le taux de réussite (pour qu’une machine « passe le test de Turing ») a été établi à 30 %. Près de 70 ans plus tard, GPT-4 d’OpenAI a largement dépassé cette référence, selon une expérience récente du département des sciences cognitives de l’Université de Californie à San Diego. D’après les chercheurs de l’UCSD, la plupart des candidats ne pouvaient pas distinguer GPT-4 d’un interlocuteur humain, ce qui suggère que le célèbre test de Turing a été réussi pour la toute première fois de l’histoire.

Le test de Turing, initialement appelé « jeu d’imitation » par Alan Turing en 1950, permet de déterminer si la capacité d’une machine à converser est équivalente et indiscernable de celle d’un humain. Pour qu’une machine réussisse le test, elle doit être en mesure d’engager une conversation avec une personne tout en lui donnant l’illusion qu’elle est humaine.

Lire Aussi : Faut-il craindre l’intelligence artificielle ?

Dans une nouvelle étude, des chercheurs de l’UCSD ont effectué un test de Turing randomisé, contrôlé et préenregistré. Au cours de cette expérience, ils ont évalué trois systèmes : le chatbot ELIZA (le tout premier chatbot, créé dans les années 1960 pour simuler un psychothérapeute), GPT-3.5 et GPT-4.

L’équipe a rassemblé 500 participants et les a divisés en 4 groupes : l’un des groupes devait discuter avec un humain, tandis que les trois autres devaient interagir avec l’un des trois modèles d’IA. Les conversations ont duré cinq minutes. Les participants devaient ensuite faire part de leur avis global et annoncer si leur interlocuteur était selon eux humain ou non. Les taux de réussite (c’est-à-dire le taux de conversations identifiées comme « humaines ») pour chaque groupe étaient les suivants : ELIZA, qui est un système préprogrammé dépourvu de grand modèle de langage (LLM), a été jugé humain dans seulement 22 % des cas ; GPT-3.5 a obtenu un score de 50 %, tandis que GPT-4 a été considéré comme humain dans 54 % des cas ; le participant humain quant à lui a obtenu un score de seulement 67 % !

En tenant compte des résultats de GPT-3.5 et de GPT-4, l’équipe de recherche de l’UCSD considère que les deux modèles ont réussi le test de Turing. D’après eux, c’est surtout le taux de 54 % obtenu par GPT-4 qui est intéressant, car il se situe au-delà d’un taux pouvant être attribué au hasard pur (la fameuse référence du jeu pile ou face, dans lequel face et pile ont exactement 50 % de chance chacun d’apparaître). De plus, en se basant sur le score d’ELIZA, ils ont déduit que pour un simple chatbot, le test est suffisamment sensible pour distinguer les modèles d’IA plus ou moins avancés.

« Les machines peuvent confabuler, en rassemblant des justifications plausibles a posteriori, comme le font les humains », a déclaré Nell Watson, chercheuse en IA à l’Institute of Electrical and Electronics Engineers (IEEE). « Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d’IA expriment des émotions semblables à celles de l’homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies », poursuit Watson.

Cependant, les résultats de l’étude suggèrent également que la maîtrise du langage naturel suffit pour réussir le test de Turing, et que l’approche est donc trop simpliste. Les chercheurs ont d’ailleurs affirmé que les facteurs stylistiques et socio-émotionnels jouent un rôle plus important ici que les notions traditionnelles d’intelligence. Quoi qu’il en soit, il s’agit d’une avancée significative pour l’intelligence artificielle.

« Les modèles linguistiques sont infiniment flexibles, capables de synthétiser des réponses à un large éventail de sujets, de s’exprimer dans des langues ou des sociolectes particuliers et de se présenter avec une personnalité et des valeurs axées sur le caractère. C’est un énorme pas en avant », conclut Watson.

Mots Clés: Test de Turing, intelligence artificielle, GPT-4, OpenAI, imitation humaine, taux de réussite, expérience de l'Université de Californie à San Diego, chatbot ELIZA, GPT-3.5, biais cognitifs, personnalité et valeurs

 


| | CHARGE DE LA REGLEMENTATION COMPTABLE (H/F) | | LOGITERR 2025 | | Conférence annuelle 2025 de l'ACR | | Conférence annuelle 2025 de l'ACR | | FORUM INTERNATIONAL DES LICENCES & MASTERS 2025 | | MÉDINIT EXPO - CASABLANCA 2025 | | Appel à Candidatures - 11e Édition du Concours Ma Thèse en 180 Secondes (MT180) | | AEROSPACE MEETINGS CASABLANCA 2025 | | HABITAT EXPO CASABLANCA 2025 | | Numéro Spécial de Accounting in Europe : « Accounting for Diversity and Equity : (How) Should We Regulate It? » | | Colloque à l'occasion du 60e anniversaire de La Revue des Sciences de Gestion | | Appel à candidatures : bourse master double diplomation 2025 | | Offre de Contrat Doctoral - Projet ANR ECOS | | Coopération Linguistique et Éducative | | Professeurs Assistants en Médecine | | Bilingual Trade Development Assistant | | Chargé(e) de mission évaluation et accompagnement | | Seuil Présélection Concours Médecine 2025/2026 | | Innovation : YouCode entend décentraliser l’accès à l’intelligence artificielle | | Classement QS 2026 : l’Université Mohammed V de Rabat confirme sa suprématie nationale | | Votre passeport pour l'ingénierie : Tout savoir sur l'accès aux ENSA en 2025-2026 ! | | Ouverture des candidatures pour le concours général des sciences et techniques 2025 | | Concours d’accès en 1ère année de licence | | Appel à Candidature : Bourses Postdoctorales de l'ETH Zurich