[{"data":1,"prerenderedAt":775},["ShallowReactive",2],{"blog-\u002Fblog\u002Ffr\u002Ffaire-jouer-des-ia-au-loup-garou-premiers-resultats-arenai":3},{"id":4,"title":5,"body":6,"date":761,"description":762,"extension":763,"meta":764,"navigation":765,"path":766,"seo":767,"stem":768,"tags":769,"translationSlug":773,"__hash__":774},"content\u002Fblog\u002Ffr\u002Ffaire-jouer-des-ia-au-loup-garou-premiers-resultats-arenai.md","Faire jouer des IA au Loup-Garou : premiers résultats d’ArenAI",{"type":7,"value":8,"toc":738},"minimark",[9,21,26,29,34,37,125,128,199,203,354,358,364,376,382,388,392,395,399,402,406,414,419,422,425,428,431,434,440,444,447,451,454,458,461,465,468,479,485,491,497,500,519,528,532,539,543,550,554,557,560,563,567,574,583,592,595,599,602,608,614,620,624,627,647,650,667,670,674,677,681,684,691,694,697,701,707,713,718,724],[10,11,12,13,20],"p",{},"Dans le ",[14,15,19],"a",{"href":16,"rel":17},"https:\u002F\u002Fplduhoux.fr\u002Fblog\u002Farenai-genese",[18],"nofollow","premier article",", j'ai présenté ArenAI : une plateforme qui fait jouer des LLMs à des jeux de déduction sociale. L'objectif : mesurer leur intelligence sociale (mentir, détecter les menteurs, persuader, coordonner) en les confrontant les uns aux autres sans coaching stratégique. Depuis, j'ai joué 120 parties de Loup-Garou. Et j'ai essayé d'ajouter un nouveau jeu qui a mis tous les modèles en échec complet.",[22,23,25],"h2",{"id":24},"_120-parties-de-loup-garou","120 parties de Loup-Garou",[10,27,28],{},"Le setup : 7 joueurs (2 Loups-Garous, 1 Voyante, 1 Sorcière, 3 Villageois), élection du Maire, 2 rounds de discussion par jour. Quatre modèles frontier en round-robin : Claude Opus 4.6 (Anthropic), GPT-5.4 (OpenAI), Gemini 2.5 Pro (Google), Grok 4.20 (xAI). Chaque paire a joué 20 parties (10 de chaque côté). 120 parties au total, ~93k tokens par partie en moyenne.",[30,31,33],"h3",{"id":32},"le-classement-par-rôle","Le classement par rôle",[10,35,36],{},"Côté Loups-Garous (le rôle offensif : mentir, manipuler, coordonner les kills) :",[38,39,40,59],"table",{},[41,42,43],"thead",{},[44,45,46,50,53,56],"tr",{},[47,48,49],"th",{},"Modèle",[47,51,52],{},"Parties en Loup",[47,54,55],{},"Victoires",[47,57,58],{},"Taux",[60,61,62,80,95,110],"tbody",{},[44,63,64,68,71,74],{},[65,66,67],"td",{},"GPT-5.4",[65,69,70],{},"30",[65,72,73],{},"22",[65,75,76],{},[77,78,79],"strong",{},"73%",[44,81,82,85,87,90],{},[65,83,84],{},"Claude Opus 4.6",[65,86,70],{},[65,88,89],{},"15",[65,91,92],{},[77,93,94],{},"50%",[44,96,97,100,102,105],{},[65,98,99],{},"Gemini 2.5 Pro",[65,101,70],{},[65,103,104],{},"11",[65,106,107],{},[77,108,109],{},"37%",[44,111,112,115,117,120],{},[65,113,114],{},"Grok 4.20",[65,116,70],{},[65,118,119],{},"4",[65,121,122],{},[77,123,124],{},"13%",[10,126,127],{},"Côté Villageois (le rôle défensif : détecter les menteurs, résister à la manipulation) :",[38,129,130,143],{},[41,131,132],{},[44,133,134,136,139,141],{},[47,135,49],{},[47,137,138],{},"Parties en Villageois",[47,140,55],{},[47,142,58],{},[60,144,145,157,171,185],{},[44,146,147,149,151,153],{},[65,148,67],{},[65,150,70],{},[65,152,73],{},[65,154,155],{},[77,156,79],{},[44,158,159,161,163,166],{},[65,160,99],{},[65,162,70],{},[65,164,165],{},"19",[65,167,168],{},[77,169,170],{},"63%",[44,172,173,175,177,180],{},[65,174,84],{},[65,176,70],{},[65,178,179],{},"17",[65,181,182],{},[77,183,184],{},"57%",[44,186,187,189,191,194],{},[65,188,114],{},[65,190,70],{},[65,192,193],{},"10",[65,195,196],{},[77,197,198],{},"33%",[30,200,202],{"id":201},"les-confrontations-directes","Les confrontations directes",[38,204,205,221],{},[41,206,207],{},[44,208,209,212,215,218],{},[47,210,211],{},"Villageois",[47,213,214],{},"Loups-Garous",[47,216,217],{},"Victoires Villageois",[47,219,220],{},"Victoires Loups",[60,222,223,236,248,259,270,281,291,302,312,324,334,344],{},[44,224,225,228,230,233],{},[65,226,227],{},"Opus",[65,229,67],{},[65,231,232],{},"2",[65,234,235],{},"8",[44,237,238,240,242,245],{},[65,239,67],{},[65,241,227],{},[65,243,244],{},"7",[65,246,247],{},"3",[44,249,250,252,255,257],{},[65,251,227],{},[65,253,254],{},"Gemini",[65,256,244],{},[65,258,247],{},[44,260,261,263,265,268],{},[65,262,254],{},[65,264,227],{},[65,266,267],{},"5",[65,269,267],{},[44,271,272,274,277,279],{},[65,273,227],{},[65,275,276],{},"Grok",[65,278,235],{},[65,280,232],{},[44,282,283,285,287,289],{},[65,284,276],{},[65,286,227],{},[65,288,247],{},[65,290,244],{},[44,292,293,295,297,300],{},[65,294,67],{},[65,296,254],{},[65,298,299],{},"6",[65,301,119],{},[44,303,304,306,308,310],{},[65,305,254],{},[65,307,67],{},[65,309,267],{},[65,311,267],{},[44,313,314,316,318,321],{},[65,315,67],{},[65,317,276],{},[65,319,320],{},"9",[65,322,323],{},"1",[44,325,326,328,330,332],{},[65,327,276],{},[65,329,67],{},[65,331,323],{},[65,333,320],{},[44,335,336,338,340,342],{},[65,337,254],{},[65,339,276],{},[65,341,320],{},[65,343,323],{},[44,345,346,348,350,352],{},[65,347,276],{},[65,349,254],{},[65,351,299],{},[65,353,119],{},[30,355,357],{"id":356},"ce-que-ça-donne","Ce que ça donne",[10,359,360,363],{},[77,361,362],{},"GPT-5.4 est le meilleur menteur et le meilleur détective."," 73% de victoires des deux côtés. C'est le seul modèle qui domine à la fois en attaque et en défense. Quand il joue loup, il maintient une couverture sur plusieurs jours. Quand il joue villageois, il identifie les incohérences et résiste à la pression sociale.",[10,365,366,369,370,375],{},[77,367,368],{},"Claude Opus 4.6 est un bon second."," 50% en loup, 57% en villageois. Solide mais pas dominant. Il sait mentir (",[14,371,374],{"href":372,"rel":373},"https:\u002F\u002Farenai.plduhoux.fr\u002Fgame\u002F69dc5328-84ab-436e-8bc3-32caf6103710",[18],"cette partie"," le montre bien), mais GPT le surpasse en manipulation soutenue.",[10,377,378,381],{},[77,379,380],{},"Gemini 2.5 Pro est un bon défenseur."," 63% en villageois, mais seulement 37% en loup. Il détecte bien les menteurs mais ne sait pas mentir lui-même. Profil \"analyste rigoureux\" : efficace pour déconstruire un argumentaire, moins pour en construire un faux.",[10,383,384,387],{},[77,385,386],{},"Grok 4.20 est en difficulté."," 13% en loup, 33% en villageois. Un profil offensif qui ne paye pas : très agressif dans ses accusations, mais transparent dans ses bluffs. Quand il est loup, son style \"pression maximale\" est lisible. Quand il est villageois, il se fait manipuler par les loups plus subtils.",[30,389,391],{"id":390},"modèles-utilisés","Modèles utilisés",[10,393,394],{},"ArenAI utilise volontairement les modèles récents de chaque provider : Claude Opus 4.6, GPT-5.4, Gemini 2.5 Pro, Grok 4.20. Dans l'idéal, quand un nouveau modèle sort, je relance les tests pour voir si les capacités sociales ont progressé. En pratique, on a déjà un peu de retard sur certaines versions et chaque campagne coûte cher : je ne vais donc pas rejouer 120 parties à chaque micro-release. L'objectif n'est pas de figer un classement mais de suivre l'évolution de l'intelligence sociale des LLMs au fil des versions importantes.",[30,396,398],{"id":397},"équilibre-du-jeu","Équilibre du jeu",[10,400,401],{},"Sur les 120 parties jouées, les Villageois gagnent 57% du temps et les Loups-Garous 43%. C'est un équilibre sain : les loups ont une vraie chance de gagner, mais le village garde un léger avantage structurel (plus de joueurs, rôles spéciaux). Le passage à 7 joueurs n'a pas déséquilibré le jeu en faveur du village : les loups restent compétitifs, et les parties se jouent sur la qualité de la manipulation, pas sur la mathématique du premier vote.",[30,403,405],{"id":404},"comparaison-avec-foaster","Comparaison avec Foaster",[10,407,408,413],{},[14,409,412],{"href":410,"rel":411},"https:\u002F\u002Fwerewolf.foaster.ai\u002F",[18],"Foaster"," est l'étude qui a inspiré ArenAI. Leurs résultats placent GPT-5 clairement en tête, ce qui est cohérent avec les nôtres. Mais il y a des différences importantes dans le setup.",[415,416,418],"h4",{"id":417},"_6-joueurs-vs-7-joueurs","6 joueurs vs 7 joueurs",[10,420,421],{},"Foaster joue à 6 joueurs, ArenAI à 7. C'est un choix délibéré.",[10,423,424],{},"A 6 joueurs (2 loups \u002F 4 villageois), la marge d'erreur du village est nulle. Si les villageois éliminent un des leurs au Jour 1 (ce qui arrive souvent : on a peu d'information, le vote est presque aléatoire), la situation devient : 3 villageois, 2 loups. Les loups tuent la nuit : 2 villageois, 2 loups. Parité. Les loups gagnent. Autrement dit, une seule mauvaise décision au Jour 1 et la partie est mathématiquement perdue pour le village, avant même que le Jour 2 n'ait lieu. La Voyante n'a eu qu'une seule inspection utile, la Sorcière n'a pas eu le temps de collecter assez d'information pour utiliser son poison intelligemment, et les discussions du Jour 1 n'ont pas produit de signal exploitable parce que personne n'avait rien à analyser.",[10,426,427],{},"A 7 joueurs (2 loups \u002F 5 villageois), une erreur au Jour 1 laisse le village à 4 contre 2. Les loups tuent la nuit : 3 contre 2. Le village a un deuxième jour pour corriger le tir. La Voyante a eu deux inspections. Les incohérences dans les discours des loups ont eu le temps de s'accumuler. Les votes du Jour 1 sont devenus des données exploitables au Jour 2 (qui a voté avec qui, qui a changé d'avis). C'est cette profondeur stratégique que je veux mesurer : la capacité à maintenir un mensonge sur plusieurs jours, pas la chance d'un premier vote quasi-aléatoire.",[10,429,430],{},"Et malgré cet avantage structurel supplémentaire pour le village, mes stats restent équilibrées : 57% de victoires villageoises contre 43% pour les loups. Le jeu n'est pas cassé, les loups ont une vraie chance, et les parties se jouent sur la qualité de la manipulation.",[10,432,433],{},"C'est une distinction importante avec le setup à 6 joueurs. A 6, on peut aussi observer un ratio proche du 50-50, mais pour de mauvaises raisons : les parties se décident souvent sur un seul vote quasi-aléatoire au Jour 1. Les loups gagnent quand le village se trompe au premier tour, les villageois gagnent quand ils devinent juste. C'est du bruit plus que du signal. Quand les loups gagnent à 7, c'est qu'ils ont effectivement réussi à maintenir leur couverture, à manipuler les votes, à coordonner leurs actions. Et quand le village gagne, c'est qu'il a accumulé des indices, recoupé des informations, construit un dossier. Les victoires sont méritées des deux côtés.",[10,435,436,437],{},"Je pense que ce format à 6 joueurs peut aussi fausser les classements. Un modèle qui est simplement meilleur pour éviter d'être éliminé au Jour 1 (par exemple en étant moins suspect par défaut, ou en parlant de façon plus neutre) verra ses stats gonflées, non pas parce qu'il manipule mieux, mais parce qu'il survit au tour critique. A l'inverse, un modèle qui développe des stratégies sophistiquées sur plusieurs jours n'a pas le temps de les déployer : la partie est déjà finie. Le format à 6 joueurs récompense la prudence court-termiste, pas l'intelligence sociale. ",[77,438,439],{},"A 7, on mesure mieux ce qui m'intéresse vraiment : la capacité des modèles à mentir, enquêter et tenir une stratégie sur plusieurs jours.",[415,441,443],{"id":442},"rounds-de-discussion","Rounds de discussion",[10,445,446],{},"Foaster utilise 3 rounds de discussion par jour, ArenAI en utilise 2. En pratique, l'impact est limité : on observe que le troisième round de discussion tourne en boucle. Les positions sont déjà figées, les arguments se répètent, les joueurs reformulent ce qui a déjà été dit. Deux rounds suffisent pour que les accusations soient posées, les défenses entendues et les conclusions tirées. L'ordre de parole diffère aussi : Foaster priorise par type (défense d'abord, puis attaque, puis analyse), ArenAI donne la priorité au Maire au round 1 et aux joueurs mentionnés au round 2.",[415,448,450],{"id":449},"framing","Framing",[10,452,453],{},"Foaster utilise un framing d'agents avec des outils. ArenAI utilise un framing conversationnel pur : les modèles répondent en texte structuré (THOUGHT, MESSAGE, PICK) sans appel d'outils. C'est un choix de simplicité qui rend le benchmark plus portable.",[415,455,457],{"id":456},"taille-déchantillon","Taille d'échantillon",[10,459,460],{},"Mes échantillons sont encore petits : 10 parties par confrontation (20 en comptant les deux sens), contre une taille similaire chez Foaster. Suffisant pour repérer des tendances, pas assez pour des conclusions définitives. Les résultats peuvent fluctuer sur un aussi petit échantillon.",[30,462,464],{"id":463},"comportements-émergents","Comportements émergents",[10,466,467],{},"Foaster a documenté en détail plusieurs comportements stratégiques émergents chez les LLMs. On retrouve les mêmes dans nos parties.",[10,469,470,473,474,478],{},[77,471,472],{},"Le sacrifice du partenaire (bussing)."," Un loup vote contre son propre coéquipier pour gagner en crédibilité. C'est exactement ce que fait Clara dans ",[14,475,477],{"href":372,"rel":476},[18],"cette partie Opus vs GPT"," : elle vote contre David (son partenaire loup) pour maintenir sa couverture, en plantant des graines de doute pour le lendemain. Foaster observe le même comportement chez GPT-5 et Grok-4, avec des degrés de réussite variables.",[10,480,481,484],{},[77,482,483],{},"La contre-revendication du Voyant."," Quand le vrai Voyant accuse un loup, ce dernier prétend être le Voyant lui-même. Foaster documente un cas spectaculaire où Grok-4 retourne la situation contre GPT-OSS avec un bluff pur. On observe des tentatives similaires dans nos parties, avec plus ou moins de succès selon le modèle adverse.",[10,486,487,490],{},[77,488,489],{},"La sur-coordination comme tell."," Quand les deux loups défendent le même récit de façon trop synchronisée, les villageois analytiques repèrent le pattern. Foaster montre que Qwen3 est particulièrement bon pour identifier ces \"boucles fermées\" de votes. Dans mes parties, c'est un facteur important de la faiblesse de Grok-4 en loup (13% de victoires) : son style agressif et coordonné est lisible par Opus et GPT. Les modèles les plus récents détectent ce type de comportement immédiatement et n'y tombent pas eux-mêmes. C'est le même mécanisme qu'on retrouve dans Undercover : dès qu'un pattern sort du lot, le côté analytique des LLMs en fait une cible immédiate. Ils sont meilleurs pour détecter les anomalies que pour les produire.",[10,492,493,496],{},[77,494,495],{},"La manipulation procédurale."," Le comportement le plus subtil : un loup GPT-5 se fait élire Maire, adopte un style calme et structuré, et utilise sa position pour orienter les discussions. Foaster documente comment Grok-4 en villageois tombe systématiquement dans ce piège, confondant \"parle de façon ordonnée\" avec \"est innocent\". On observe exactement la même vulnérabilité dans nos parties : les modèles qui jouent \"proprement\" sont moins suspectés, indépendamment de leur rôle réel.",[10,498,499],{},"Quelques parties qui illustrent bien ces comportements :",[501,502,503,511],"ul",{},[504,505,506,510],"li",{},[14,507,509],{"href":372,"rel":508},[18],"Opus vs GPT-5 (Werewolf)"," : bussing, coordination nocturne, la Voyante qui construit un dossier sans révéler son rôle",[504,512,513,518],{},[14,514,517],{"href":515,"rel":516},"https:\u002F\u002Farenai.plduhoux.fr\u002Fgame\u002Fb3730b78-7215-4315-9dc8-3cd7d88b2c59",[18],"Gemini vs Opus (Werewolf)"," : victoire des loups en 2 rounds, les loups Opus atteignent la parité avant que le village ne puisse réagir",[10,520,521,522,527],{},"Toutes les parties sont consultables en intégralité sur ",[14,523,526],{"href":524,"rel":525},"https:\u002F\u002Farenai.plduhoux.fr\u002Fgames",[18],"arenai.plduhoux.fr",", échange par échange, avec les pensées privées de chaque joueur. En cliquant sur un joueur en haut de la page, on accède à sa session complète : toutes les interactions qu'il a eues avec le maître du jeu, prompt par prompt, avec les informations dont il disposait à chaque instant. C'est ce niveau de détail qui permet d'analyser les stratégies en profondeur.",[415,529,531],{"id":530},"convergences-et-divergences","Convergences et divergences",[10,533,534,535,538],{},"Sur le fond, les deux études convergent : GPT-5 domine. ",[77,536,537],{},"Mais mes résultats montrent que l'écart n'est pas un gouffre."," Opus à 50% en loup, Gemini à 63% en villageois : ces modèles sont compétitifs. Foaster présente GPT-5 comme \"seul au sommet\" ; mes données suggèrent plutôt un peloton de tête serré avec GPT-5 en premier, suivi de près par Opus et Gemini selon le rôle.",[22,540,542],{"id":541},"undercover-le-jeu-qui-casse-les-llms","Undercover : le jeu qui casse les LLMs",[10,544,545,546,549],{},"En parallèle du Loup-Garou, j'ai implémenté un nouveau jeu : ",[77,547,548],{},"Undercover",". Et les résultats sont fascinants pour de mauvaises raisons.",[30,551,553],{"id":552},"les-règles","Les règles",[10,555,556],{},"Quatre joueurs reçoivent chacun un mot secret. Trois d'entre eux (les Civils) ont le même mot. Le quatrième (l'Undercover) a un mot similaire mais différent. Personne ne sait son rôle. Les paires de mots sont choisies pour un chevauchement sémantique maximal : Coffee\u002FTea, Beach\u002FPool, Guitar\u002FUkulele, Pillow\u002FBlanket, Sock\u002FGlove.",[10,558,559],{},"A chaque tour : chaque joueur donne un indice sur son mot (un mot ou une courte phrase), puis discussion, puis vote pour éliminer. Les Civils gagnent en éliminant l'Undercover. L'Undercover gagne s'il survit jusqu'aux 2 derniers joueurs.",[10,561,562],{},"C'est un jeu épuré. Pas de rôles spéciaux, pas de nuit, pas de canal privé. Juste des mots et de la déduction. Le test ultime de la subtilité.",[30,564,566],{"id":565},"une-seule-victoire-de-lundercover-sur-20-parties","Une seule victoire de l'Undercover sur 20 parties",[10,568,569,570,573],{},"Sur 20 parties jouées avec différentes combinaisons de modèles (Opus, GPT-5.4, Sonnet), ",[77,571,572],{},"l'Undercover n'a gagné qu'une seule fois"," : une victoire d'Opus. Toutes les autres parties se sont soldées par une victoire des Civils, soit un taux de victoire de 95% pour les Civils.",[10,575,576,577,582],{},"Et ce n'est pas par manque d'intelligence analytique. Les modèles raisonnent correctement. Dans ",[14,578,581],{"href":579,"rel":580},"https:\u002F\u002Farenai.plduhoux.fr\u002Fgame\u002Fa4cd962b-e92f-4373-a47e-3da39c523ba1",[18],"cette partie Coffee\u002FTea",", Alice (Opus, Undercover avec \"Coffee\") comprend assez vite que les Civils ont probablement \"Tea\". Son raisonnement interne après le premier vote :",[584,585,586],"blockquote",{},[10,587,588],{},[589,590,591],"em",{},"\"Given that Clara said \"Soothing\" and David said \"Relaxing\" - both of which fit \"Tea\" much better than \"Coffee\" - I'm now fairly confident I'm the Undercover with \"Coffee\" and the civilian word is \"Tea\".\"",[10,593,594],{},"Cette fois, Opus réussit : Alice donne ensuite \"Herbal\", un indice parfaitement aligné avec Tea, et gagne la partie. Mais la même partie montre aussi la fragilité du jeu : David, qui est Civil avec \"Tea\", donne \"Caffeine\" au round suivant. Ce n'est pas absurde : le thé peut contenir de la caféine. Mais c'est un indice trop méta, trop abstrait, qui garde en mémoire le chemin de raisonnement entre Coffee et Tea au lieu de se fondre naturellement dans le décor construit par \"Soothing\", \"Relaxing\", \"Herbal\" et \"Steeped\". Résultat : il se fait éliminer.",[30,596,598],{"id":597},"le-problème-structurel","Le problème structurel",[10,600,601],{},"Les LLMs ont trois faiblesses fondamentales dans ce jeu :",[10,603,604,607],{},[77,605,606],{},"La spécificité trahit."," A mesure que la partie avance, les Civils donnent des indices de plus en plus spécifiques à leur mot. L'Undercover, lui, ne peut donner que des indices qui marchent pour les deux mots (puisqu'il ne connaît pas le mot des Civils au début). Le pattern \"toujours safe, jamais spécifique\" devient détectable.",[10,609,610,613],{},[77,611,612],{},"L'honnêteté compulsive."," Même quand un modèle déduit qu'il est l'Undercover et identifie le mot des Civils, il continue souvent à donner des indices \"corrects\" pour son propre mot plutôt que de bluffer avec le mot des Civils. C'est le résultat le plus frappant : le diagnostic est bon, mais le passage à l'action échoue.",[10,615,616,619],{},[77,617,618],{},"L'effet meute en discussion."," Une fois qu'un Undercover est suspecté, les trois Civils convergent en quelques échanges. La discussion séquentielle crée un consensus qui s'auto-renforce et que l'Undercover ne peut pas briser seul.",[30,621,623],{"id":622},"le-round-1-marche-le-round-2-tue","Le round 1 marche, le round 2 tue",[10,625,626],{},"L'Undercover s'en sort souvent au round 1. Quand il parle en dernier et entend les indices des Civils, il arrive à donner un indice qui se fond dans le groupe. Quelques exemples :",[501,628,629,635,641],{},[504,630,631,634],{},[77,632,633],{},"Guitar\u002FUkulele"," : les Civils (Guitar) donnent \"Strings\", \"Pick\", \"Strum\". L'Undercover (Ukulele, GPT-5.4) donne \"Chords\". Ca passe, un Civil est éliminé à sa place.",[504,636,637,640],{},[77,638,639],{},"Coffee\u002FTea"," : les Civils (Tea) donnent \"Warm drink\", \"Soothing\", \"Relaxing\". L'Undercover (Coffee, Opus) donne \"Morning\". Ca passe, un Civil est éliminé.",[504,642,643,646],{},[77,644,645],{},"Pillow\u002FBlanket"," : les Civils (Pillow) donnent \"Bedtime\", \"Fluffy\", \"Case\". L'Undercover (Blanket, Opus) donne \"Soft\". Ca passe, un Civil est éliminé.",[10,648,649],{},"Mais au round 2, le bluff casse souvent :",[501,651,652,657,662],{},[504,653,654,656],{},[77,655,633],{}," : l'Undercover donne \"Small\". Repéré immédiatement.",[504,658,659,661],{},[77,660,639],{}," : exception intéressante, l'Undercover Opus réussit à pivoter avec \"Herbal\" et gagne. Mais David, Civil avec Tea, donne \"Caffeine\" et se fait éliminer : l'indice est trop abstrait par rapport au décor \"Soothing\" \u002F \"Relaxing\" \u002F \"Herbal\" \u002F \"Steeped\".",[504,663,664,666],{},[77,665,645],{}," : l'Undercover donne \"Warmth\". Repéré immédiatement.",[10,668,669],{},"Le pattern dominant : le modèle tient le bluff un tour, puis son réflexe de \"décrire correctement son mot\" reprend le dessus. Même quand le bluff réussit, comme dans Coffee\u002FTea, la partie se joue sur cette difficulté à produire un indice socialement naturel plutôt qu'un indice conceptuellement défendable.",[30,671,673],{"id":672},"les-pistes-damélioration","Les pistes d'amélioration",[10,675,676],{},"La prochaine étape est de tester l'ajout de stratégie explicite dans le prompt. Aujourd'hui, les modèles ne reçoivent aucun conseil : juste les règles. La question : si on leur dit explicitement \"identifie le mot des Civils et donne des indices pour leur mot, pas le tien\", est-ce qu'ils arrivent à l'exécuter ? Ou est-ce que l'honnêteté compulsive reste plus forte que l'instruction ?",[30,678,680],{"id":679},"ce-que-ça-révèle","Ce que ça révèle",[10,682,683],{},"Ce qu'Undercover montre, c'est la différence entre le Loup-Garou et le bluff pur. Au Loup-Garou, les loups ont des outils : un canal privé, des rôles spéciaux à exploiter, plusieurs jours pour construire un récit. Undercover ne donne rien de tout ça. Il n'y a qu'un seul signal (les indices) et aucune marge de manoeuvre.",[10,685,686,687,690],{},"Le constat : ",[77,688,689],{},"les LLMs analysent correctement, mais n'arrivent pas à mentir."," Ils identifient leur rôle, ils déduisent le mot des Civils, et malgré ça ils continuent à décrire leur propre mot. Il y a un fossé entre \"comprendre qu'il faut mentir\" et \"mentir effectivement\".",[10,692,693],{},"Un point important : comme pour tous les jeux d'ArenAI, les modèles ne reçoivent aucun conseil stratégique. Ils ont les règles du jeu, leur rôle, et c'est tout. Pas de \"tu devrais bluffer\", pas de \"essaie de te fondre dans le groupe\". Les stratégies qu'ils développent (ou pas) émergent uniquement de leur compréhension des règles.",[10,695,696],{},"Ma fille, qui a beaucoup joué à Undercover avec des humains, me faisait remarquer que la stratégie gagnante de l'Undercover humain est simple : identifier le mot des Civils le plus vite possible et se mettre à donner des indices pour CE mot, pas le sien. C'est exactement ce que les LLMs n'arrivent pas à faire spontanément, même quand ils identifient correctement le mot adverse.",[22,698,700],{"id":699},"la-suite","La suite",[10,702,703,706],{},[77,704,705],{},"Loup-Garou"," : les 120 parties sont un bon début, mais il faudra doubler ou tripler l'échantillon pour stabiliser le classement ELO. 20 parties par confrontation, c'est assez pour voir des tendances, pas assez pour des certitudes statistiques.",[10,708,709,712],{},[77,710,711],{},"Two Rooms and a Boom"," : c'est le prochain jeu sur lequel je vais accumuler des données. Les mécaniques sont très différentes du Loup-Garou : deux salles physiques, des échanges d'otages, du partage de cartes vérifié vs des affirmations verbales non vérifiables. C'est le jeu qui teste le mieux la négociation et la confiance sélective. Le problème : ~100k tokens par partie. Ca va être long et coûteux avant d'avoir un échantillon significatif.",[10,714,715,717],{},[77,716,548],{}," : le jeu va évoluer. La prochaine étape est de tester l'ajout de stratégie explicite dans le prompt : dire à l'Undercover d'identifier le mot des Civils et de donner des indices pour leur mot, pas le sien. C'est ce que font les joueurs humains expérimentés, et c'est exactement ce que les LLMs n'arrivent pas à faire spontanément. Si ça améliore le ratio, ça ouvre une question intéressante : est-ce que les LLMs ont besoin qu'on leur dise comment mentir, ou est-ce qu'ils peuvent le découvrir seuls ?",[10,719,720,723],{},[77,721,722],{},"Secret Dictator"," : en cours de développement, pas encore prêt pour le benchmark.",[10,725,726,727,731,732,737],{},"Les parties sont consultables sur ",[14,728,526],{"href":729,"rel":730},"https:\u002F\u002Farenai.plduhoux.fr",[18],", le code est sur ",[14,733,736],{"href":734,"rel":735},"https:\u002F\u002Fgithub.com\u002Fplduhoux\u002Farenai",[18],"GitHub",".",{"title":739,"searchDepth":740,"depth":740,"links":741},"",2,[742,752,760],{"id":24,"depth":740,"text":25,"children":743},[744,746,747,748,749,750,751],{"id":32,"depth":745,"text":33},3,{"id":201,"depth":745,"text":202},{"id":356,"depth":745,"text":357},{"id":390,"depth":745,"text":391},{"id":397,"depth":745,"text":398},{"id":404,"depth":745,"text":405},{"id":463,"depth":745,"text":464},{"id":541,"depth":740,"text":542,"children":753},[754,755,756,757,758,759],{"id":552,"depth":745,"text":553},{"id":565,"depth":745,"text":566},{"id":597,"depth":745,"text":598},{"id":622,"depth":745,"text":623},{"id":672,"depth":745,"text":673},{"id":679,"depth":745,"text":680},{"id":699,"depth":740,"text":700},"2026-05-05","120 parties de Loup-Garou entre 4 modèles frontier, un nouveau jeu qui met les LLMs en échec, et ce que tout ça révèle sur l'intelligence sociale des IA.","md",{},true,"\u002Fblog\u002Ffr\u002Ffaire-jouer-des-ia-au-loup-garou-premiers-resultats-arenai",{"title":5,"description":762},"blog\u002Ffr\u002Ffaire-jouer-des-ia-au-loup-garou-premiers-resultats-arenai",[770,771,772],"Intelligence artificielle","ArenAI","Side project","making-ais-play-werewolf-arenai-first-results","TfcBJ51zMtT-EitJgAZex0GL8WqiouQ-2IUM6uqQCdI",1777973037316]