đ IA Pulse
on December 5, 2025
ai-PULSE 2025 : lâEurope de lâIA passe Ă la vitesse supĂ©rieure
Le 4 dĂ©cembre 2025, ai-PULSE lâĂ©vĂ©nement IA organisĂ© par Scaleway revient pour une nouvelle Ă©dition placĂ©e sous le signe de lâambition europĂ©enne. Avec des speakers de premier plan, une programmation dense et une vision affirmĂ©e (« Smarter, Faster, Everywhere »), ai-PULSE sâest imposĂ© comme lâun des rendez-vous majeurs de lâintelligence artificielle sur le continent.
Cette annĂ©e, lâagenda montre clairement une direction : lâEurope veut ĂȘtre un acteur, pas un spectateur, dans la rĂ©volution de lâIA.
đ Un dĂ©but de journĂ©e sous le signe des gĂ©ants : les Opening Keynotes
De 09h30 Ă 11h30, le Master Stage ouvre fort avec une succession de leaders tech :
- Xavier Niel (iliad Group)
- JérÎme Monceaux (Enchanted Tools)
- Pim de Witte (General Intuition)
- Yann LeCun (Meta)
- Rémi Cadene (UMA)
- Neil Zeghidour (Kyutai)
- Aude Durand (iliad Group)
- Damien Lucas (Scaleway)
Un mĂ©lange rare : recherche, industrie, cloud, robotique, modĂšles ouverts⊠tout ce qui façonne lâavenir de lâIA europĂ©enne rĂ©uni sur une mĂȘme scĂšne.
Voici un texte prĂȘt Ă coller dans ton article, comme section âKeynote dâouverture par Xavier Niel (avec Yann LeCun & Pim de Witte)â en français, structurĂ©, et fidĂšle au contenu que tu as collĂ©.
La keynote de Xavier : de lâIA sur Ă©cran Ă lâIA dans le monde rĂ©el
Xavier ouvre la confĂ©rence en posant le dĂ©cor : selon lui, le plus grand changement de ces derniĂšres annĂ©es, câest que lâIA nâest plus confinĂ©e aux Ă©crans ni aux endpoints dans le cloud. Elle entre dans notre environnement :
- via des interfaces naturelles,
- la voix,
- des systÚmes embarqués,
- et des robots qui interagissent avec le monde.
LâIA est dĂ©sormais « partout ». Mais pour lâembrasser, explique-t-il, il faut dâabord la comprendre. Câest prĂ©cisĂ©ment ce quâai-PULSE veut permettre : donner des clĂ©s pour comprendre cette nouvelle gĂ©nĂ©ration dâIA, au-delĂ du simple effet de mode.
Avant de rentrer dans le vif du sujet, Xavier remercie les partenaires de lâĂ©vĂ©nement il cite notamment IMD, Ampere et les autres acteurs qui ont contribuĂ© aux dĂ©mos et Ă lâinfrastructure. Sans eux, rappelle-t-il, une confĂ©rence de cette ampleur serait impossible.
Des mots au monde : la transition vers les world models
Xavier enchaĂźne ensuite sur le âhot topicâ du moment : comment lâIA est en train de passer dâun paradigme oĂč elle prĂ©dit simplement le prochain mot⊠à un paradigme oĂč elle comprend et simule le monde.
Il introduit la notion de world models : des modĂšles capables de reprĂ©senter des environnements, des dynamiques, des actions et leurs consĂ©quences. LâidĂ©e nâest plus seulement de complĂ©ter une phrase, mais de simuler ce qui se passe si un agent agit dans un environnement donnĂ©.
Pour explorer cette idĂ©e, Xavier invite sur scĂšne celui quâil prĂ©sente comme lâun des âpĂšresâ de lâIA moderne :
- Yann LeCun, laurĂ©at du prix Turing, professeur Ă New York University, auteur de centaines dâarticles qui ont façonnĂ© le machine learning, et jusquâĂ trĂšs rĂ©cemment Chief AI Scientist chez Meta. Il glisse au passage quâil espĂšre que Yann pourra dire quelques mots sur son nouveau projet.
World models vs LLMs : pourquoi le langage ne suffit pas
Xavier lance la discussion en rappelant un point clĂ© quâil a longuement abordĂ© avec Yann et Pim : pour beaucoup de chercheurs, il est dĂ©sormais clair que âscalerâ uniquement les modĂšles de langage ne suffira pas Ă atteindre une intelligence gĂ©nĂ©rale.
Yann explique que lâidĂ©e de world models est ancienne dans sa rĂ©flexion : il la dĂ©fend depuis prĂšs de vingt ans. Selon lui, comprendre le monde physique est bien plus difficile que comprendre le langage. Les animaux, qui ne parlent pas, sont dĂ©jĂ bien meilleurs que nos robots actuels pour naviguer dans le monde rĂ©el.
Il rappelle le paradoxe dĂ©jĂ formulĂ© par les roboticiens : on sait entraĂźner des IA Ă passer le barreau, Ă©crire de la poĂ©sie ou coder, mais on ne sait toujours pas construire un robot qui ait la comprĂ©hension intuitive du monde dâun enfant de 6 ans.
Pour lui, cela veut dire quâil nous manque quelque chose de fondamental : des systĂšmes capables de se construire des modĂšles internes du monde, dâanticiper ce qui va se passer, et de raisonner sur les consĂ©quences de leurs actions.
Câest ce qui lâa conduit Ă dĂ©velopper des architectures non gĂ©nĂ©ratives comme JEPA (Joint Embedding Predictive Architecture), et plus largement Ă dĂ©fendre un nouveau blueprint pour lâIA orthogonal aux LLMs classiques.
Lâapport de General Intuition : de la vidĂ©o Ă lâinteraction
Xavier introduit ensuite Pim de Witte, cofondateur et CEO de General Intuition. Il rappelle son parcours :
- ingénieur,
- ancien de chez Intel,
- cofondateur de Metal, une plateforme qui a constituĂ© un dataset massif dâinteractions de jeux vidĂ©o dataset pour lequel OpenAI aurait proposĂ© 100 M$, offre quâils ont refusĂ©e pour lancer leur propre labo.
Avec Pim, la discussion bascule sur un point essentiel : la différence entre modÚles vidéo et world models interactifs.
La vidĂ©o est une excellente source de donnĂ©es, explique Pim, mais regarder le monde ne suffit pas : un world model doit intĂ©grer lâaction et lâinteraction. Il ne sâagit plus seulement de prĂ©dire la prochaine image âplausibleâ, mais de prĂ©dire la distribution des futurs possibles en fonction des actions de lâagent.
LĂ oĂč un modĂšle autoregressif ârouleâ sur lui-mĂȘme (comme une boule de neige qui grossit en descendant la pente sans savoir ce qui lâattend), un vrai world model doit ĂȘtre capable de âvoir le rocher en basâ et dâadapter sa trajectoire exactement comme le ferait un personnage conscient de son environnement.
Pourquoi les générateurs de pixels ne suffisent pas
Xavier ramĂšne la discussion sur un point trĂšs concret pour les ingĂ©nieurs : pourquoi prĂ©dire des pixels nâest pas la bonne voie.
Yann explique que, dans une vidĂ©o rĂ©elle, lâimmense majoritĂ© des dĂ©tails est fondamentalement imprĂ©visible. Si lâon filme la salle et quâon demande Ă un modĂšle : âcomplĂšte la suite de la vidĂ©oâ, il peut deviner quâil y aura des gens assis, une scĂšne, des lumiĂšres⊠Mais il est impossible de prĂ©dire le visage exact de chaque personne, la position exacte de chaque main, etc.
RĂ©sultat : un modĂšle qui essaie de prĂ©dire chaque pixel tombe soit dans le flou, soit dans le bruit, mais nâapprend rien dâutile pour lâaction.
Les architectures non génératives, au contraire, apprennent des représentations abstraites des scÚnes et se révÚlent bien plus efficaces en auto-supervision pour ce type de données continues, bruitées, riches.
Données, compute et nouvelle vague de laboratoires
Xavier revient ensuite sur les aspects trĂšs concrets que tout le monde a en tĂȘte : les donnĂ©es et la puissance de calcul nĂ©cessaires.
Quelques points clĂ©s ressortent de lâĂ©change :
-
Il est plus facile dâobtenir beaucoup de donnĂ©es vidĂ©o que beaucoup de texte de qualitĂ©. LĂ oĂč le texte âwebâ plafonne vite, des annĂ©es de vidĂ©o peuvent ĂȘtre collectĂ©es ou simulĂ©es.
-
Les world models ne nĂ©cessitent pas forcĂ©ment des budgets dĂ©lirants : entraĂźner certains de ces modĂšles demande âquelques milliers de GPUâ, loin des mĂ©ga-clusters requis pour les plus gros LLMs.
-
Les datasets dâactions sont prĂ©cieux : hors des jeux vidĂ©o ou de contextes trĂšs instrumentĂ©s, il est difficile dâobtenir des Ă©tiquettes dâaction au niveau âground truthâ. Câest un enjeu clĂ© pour les prochains labs et startups.
Câest aussi lĂ que Xavier fait ressortir le contexte europĂ©en :
- lâEurope dispose dâun vivier Ă©norme de talents,
- il y a de la place pour des laboratoires indépendants, plus ouverts,
- et pour une approche de lâIA qui ne soit pas uniquement âscale LLMs Ă lâinfiniâ.
Yann évoque son nouveau projet de labo indépendant (AMI Advanced Machine Intelligence), porté notamment en Europe, avec Meta comme partenaire mais pas comme actionnaire majoritaire, justement pour ouvrir le spectre des applications et favoriser une recherche moins enfermée dans le paradigme LLM.
Parfait, on enchaĂźne avec la partie âYann LeCunâ. Voici un texte en français, propre et structurĂ©, que tu peux intĂ©grer tel quel dans ton article (par exemple juste aprĂšs la partie sur Xavier).
Yann LeCun : lâIA a besoin dâouverture, pas de murs
Lors de la discussion, Yann LeCun insiste sur un point souvent sous-estimĂ© dans le dĂ©bat sur lâIA : la maniĂšre dont un modĂšle est gouvernĂ© compte autant que sa performance.
Il prend lâexemple des modĂšles chinois : mĂȘme si leur niveau technique peut ĂȘtre excellent, une partie de la communautĂ© reste mĂ©fiante, car ces systĂšmes sont contraints de respecter les principes et la ligne politique du gouvernement chinois. Autrement dit, ce ne sont pas seulement des modĂšles techniques, ce sont aussi des modĂšles idĂ©ologiques. Pour Yann, cette dimension limite naturellement leur adoption internationale.
Pourquoi lâIA a autant progressĂ© : la force de lâopen source
Yann rappelle ensuite un fait historique : si lâIA a progressĂ© aussi vite ces dix, vingt, cinquante derniĂšres annĂ©es, câest grĂące Ă lâouverture :
- logiciels open source,
- publications en libre accĂšs,
- datasets et idées partagés au sein de la communauté.
Il cite le rĂŽle de FAIR (le labo de Meta), qui a fortement poussĂ© ce modĂšle de recherche ouverte et a incitĂ© dâautres laboratoires comme DeepMind Ă devenir plus transparents et plus ouverts, sous la pression de la compĂ©tition scientifique.
Pour lui, câest simple :
- la recherche ouverte est le meilleur moyen de progresser vite,
- et câest aussi le meilleur moyen dâattirer les meilleurs chercheurs.
Si vous dites Ă un scientifique âtu ne peux rien publier de ce que tu faisâ, vous nâattirez pas les meilleurs profils.
JEPA : un concept récent, déjà repris partout
Yann prend ensuite un exemple trĂšs concret : JEPA (Joint Embedding Predictive Architecture). Il explique que si lâon tape aujourdâhui ce terme dans un moteur de recherche, on obtient dĂ©jĂ des centaines de rĂ©sultats, alors que le concept nâa Ă©tĂ© formalisĂ© que quelques annĂ©es plus tĂŽt.
En quelques annĂ©es, des Ă©quipes du monde entier se sont emparĂ©es de lâidĂ©e, lâont testĂ©e, adaptĂ©e, Ă©tendue Ă de nouveaux domaines. Câest exactement ce quâil veut illustrer : lâinnovation en IA ne peut pas ĂȘtre rĂ©servĂ©e Ă quelques laboratoires fermĂ©s, elle a besoin de milliers de cerveaux qui expĂ©rimentent en parallĂšle.
Ce quâil faut ouvrir⊠et ce quâon peut garder fermĂ©
Yann ne dĂ©fend pas une naĂŻvetĂ© totale : il ne dit pas que tout doit ĂȘtre gratuit et public.
Il propose plutĂŽt une frontiĂšre claire :
-
Ce qui doit ĂȘtre ouvert :
- les idées,
- les architectures,
- les briques fondamentales,
- les prototypes de recherche.
Câest ce qui alimente le progrĂšs scientifique global.
-
Ce qui peut rester propriétaire :
- lâindustrialisation,
- la mise en produit,
- les couches spécifiques de valorisation commerciale.
Autrement dit : open source en amont, business en aval. Câest ce compromis qui permet Ă la fois dâavancer vite, de garder une communautĂ© scientifique vivante, et de construire des entreprises viables.
Kyutai à General Intuition : une alliance européenne pour les world models
La discussion rebondit ensuite sur le thĂšme des collaborations, avec lâannonce dâun partenariat entre Kyutai et General Intuition.
LâidĂ©e est la suivante :
- General Intuition doit rester trÚs focalisé sur ses clients et usages concrets,
- mais la construction des âfondations scientifiquesâ des world models mĂ©rite dâĂȘtre menĂ©e dans un cadre de recherche ouverte.
Kyutai apporte ce cadre : un laboratoire de recherche europĂ©en, indĂ©pendant, qui peut publier, partager, et faire vivre une communautĂ© scientifique autour de ces briques fondamentales. Lâambition : dĂ©velopper ensemble des blocs de base (architectures, mĂ©thodes de training, reprĂ©sentations) qui pourront ĂȘtre rendus publics, tout en laissant Ă General Intuition la capacitĂ© de les transformer en produits et plateformes.
Un futur plus global et plus collaboratif
En conclusion, Yann rĂ©sume bien lâenjeu : lâavenir de lâIA ne sera ni purement amĂ©ricain, ni purement chinois, ni monopolisĂ© par quelques gĂ©ants fermĂ©s.
Il sera :
- global,
- multi-acteurs,
- construit sur une alternance de recherche ouverte et de transferts technologiques.
Et pour que cette vision fonctionne, il faut exactement ce quâincarne ai-PULSE : des laboratoires indĂ©pendants, des partenariats entre chercheurs et industriels, et une culture de lâopen source suffisamment forte pour que les meilleures idĂ©es puissent naĂźtre partout dans le monde, pas seulement dans deux ou trois buildings sur la planĂšte.
Message aux ingénieurs dans la salle
Pour conclure, Xavier résume le message adressé aux développeurs et ingénieurs :
-
Il est temps dâapprendre Ă comprendre le monde des pixels aussi bien que celui du code et du texte.
-
Les opportunités sont énormes du cÎté :
- des pipelines vidéo à grande échelle,
- de lâinfrastructure de donnĂ©es pour lâinteraction,
- des capteurs (robots, lunettes connectées, etc.),
- des systÚmes capables de planifier en imaginant les conséquences de leurs actions.
LâIA ne se limite plus Ă prĂ©dire le prochain token. Elle commence Ă percevoir, simuler et agir dans le monde.
Câest cette transition des LLMs aux world models que Xavier met en lumiĂšre dans sa prĂ©sentation, en sâappuyant sur les travaux de Yann LeCun et Pim de Witte : une nouvelle feuille de route pour lâIA, oĂč lâEurope peut jouer un rĂŽle central.
Voici un texte prĂȘt Ă coller dans ton article, pour couvrir JĂ©rĂŽme Monceaux (Enchanted Tools) et le CEO de Scaleway. Je garde le mĂȘme ton que les sections prĂ©cĂ©dentes : clair, tech, mais lisible.
JérÎme Monceaux (Enchanted Tools) : des robots pensés pour les humains, pas pour les labos
AprĂšs une dĂ©monstration de robot sur scĂšne, la transition est toute trouvĂ©e : on accueille JĂ©rĂŽme Monceaux, CEO dâEnchanted Tools connu pour avoir fondĂ© Aldebaran Robotics et participĂ© Ă la crĂ©ation de robots sociaux iconiques aujourdâhui au musĂ©e.
Son nouveau projet, Enchanted Tools, mĂ©lange robotique, IA et design de personnages 3D pour crĂ©er des robots qui ressemblent moins Ă des machines industrielles et davantage Ă des âprĂ©sencesâ dans notre quotidien.
Des robots qui doivent âdanserâ avec leurs utilisateurs
JĂ©rĂŽme explique quâil travaille sur les robots depuis les annĂ©es 90 et quâil a beaucoup appris de leurs dĂ©ploiements dans la vraie vie : la maniĂšre dont les gens rĂ©agissent, ce quâils attendent, ce qui les rassure⊠ou au contraire les bloque.
Quelques principes forts ressortent :
- Un robot doit ĂȘtre sĂ»r et lisible dans ses mouvements.
- Lâenvironnement doit ĂȘtre designĂ© avec le robot : ils conçoivent aussi des accessoires, du mobilier et des Ă©lĂ©ments au sol pour faciliter lâusage.
- Lâutilisateur est au centre : on ne peut pas âposerâ un robot dans un hĂŽpital ou un magasin et espĂ©rer que les gens comprennent spontanĂ©ment comment lâutiliser.
JĂ©rĂŽme parle dâune vĂ©ritable âdanseâ entre le robot et lâutilisateur : gestes, regards, distance, timing⊠tout doit ĂȘtre pensĂ© pour que lâinteraction soit fluide et naturelle surtout quand les utilisateurs sont des enfants, des patients, des aides-soignants, des infirmiĂšres, qui nâont pas du tout envie de devenir experts en robotique.
CĂŽtĂ© techno, Enchanted Tools sâappuie notamment sur :
- des briques dâIA pour lâanalyse de scĂšne (vision, comprĂ©hension de lâenvironnement),
- des modÚles de comportement et de proximité pour gérer la sécurité,
- des composants de machine learning embarqué pour adapter le comportement du robot au contexte.
Environ 50 robots sont déjà déployés sur le terrain.
Anticiper, pas seulement réagir
Un point central de la vision de JérÎme : un bon robot ne doit pas seulement réagir, il doit anticiper.
Exemples concrets :
- Quand un robot tend un objet Ă quelquâun, Ă quel moment doit-il le lĂącher ?
- Comment interpréter un sourire, un recul, un regard hésitant ?
- Comment adapter son comportement selon quâil a en face de lui un enfant, un adulte, un soignant pressĂ© ?
Ces micro-dĂ©tails sociaux, Ă©vidents pour un humain, sont trĂšs difficiles Ă modĂ©liser. Pourtant, si on veut des robots qui vivent dans nos espaces (hĂŽpitaux, commerces, maisons de retraite), câest lĂ que tout se joue.
Des robots pour les hÎpitaux : impact réel, pas gadget
JĂ©rĂŽme insiste sur un point : ses robots ne sont pas pensĂ©s pour des vidĂ©os virales, mais pour amĂ©liorer des situations trĂšs concrĂštes, notamment Ă lâhĂŽpital.
Pourquoi ce choix ?
- Parce que lâhĂŽpital est un environnement oĂč lâimpact humain est Ă©norme.
- Parce que câest un contexte semi-standardisĂ© : on connaĂźt la nature du sol, la largeur des couloirs, la hauteur des portes, les rĂšgles de circulation, les contraintes de sĂ©curitĂ©.
Ce cadre permet de dĂ©ployer des robots de maniĂšre fiable, en sâassurant quâils ne deviennent jamais un facteur de risque.
Il raconte notamment un projet dans un service de radiothérapie pour enfants :
- Les enfants doivent entrer seuls dans un bunker de radiothérapie.
- Les parents et les médecins ne peuvent pas rester dans la piÚce pendant la séance.
- Beaucoup dâenfants vivent ce moment comme anxiogĂšne, au point quâil faut souvent les sĂ©dater pour que la sĂ©ance soit possible.
LâĂ©quipe mĂ©dicale sâest rendu compte que ce qui manquait, câĂ©tait une prĂ©sence dans la piĂšce.
Ils ont donc dĂ©cidĂ© dâintroduire le robot dâEnchanted Tools dans le bunker, aprĂšs validation des contraintes liĂ©es aux radiations. RĂ©sultat :
- une séance qui durait 60 minutes dans la douleur se transforme en moment de jeu et de complicité avec le robot ;
- les enfants ne sont souvent plus sédatés ;
- la productivité de la machine augmente ;
- et le bien-ĂȘtre des enfants, des parents et des soignants sâamĂ©liore.
Humanoïdes : utilité, joie et expérience de vie
Pour JĂ©rĂŽme, un robot humanoĂŻde nâest pas lĂ pour remplacer les humains ni pour faire âjusteâ de la logistique.
Son objectif :
CrĂ©er des expĂ©riences de vie dans les lieux oĂč nous passons du temps : magasins, hĂŽpitaux, EHPAD, services pĂ©diatriquesâŠ
Les humanoĂŻdes peuvent apporter :
- de lâutilitĂ© (aider, guider, assister),
- de la joie (présence rassurante, ludique),
- de lâharmonie (fluidifier les interactions plutĂŽt que les compliquer).
Ce nâest pas un robot de chaĂźne industrielle. Câest un robot pensĂ© pour cohabiter avec nous, dans nos lieux de vie.
Damien Lucas (Scaleway) : bĂątir lâusine europĂ©enne de lâIA
AprĂšs la robotique et les interactions physiques, place Ă lâinfrastructure. Le CEO de Scaleway, Damien Lucas, prend la parole pour parler de ce dont tous les builders IA ont besoin : des plateformes et une infrastructure robuste.
âBring AI to the dataâ : lâinfrastructure suit la vision
Damien commence par rappeler un mantra posĂ© lors dâune Ă©dition prĂ©cĂ©dente :
Il faut amener lâIA aux donnĂ©es, pas lâinverse.
En 2025, cette phrase sâest traduite en vraie feuille de route :
-
Scaleway a Ă©tendu sa prĂ©sence au-delĂ de la France : Pays-Bas, Pologne, et dĂ©sormais Italie, SuĂšde, bientĂŽt lâAllemagne, avec lâensemble du portefeuille de produits disponible dans ces rĂ©gions.
-
CÎté données, Scaleway a enrichi son catalogue avec :
- Kafka, OpenSearch, Data Warehouse,
- outils dâorchestration et de gestion de donnĂ©es⊠pour permettre aux entreprises dâhĂ©berger et dâexploiter leurs donnĂ©es au plus prĂšs de leurs workloads IA.
CPU, GPU, QPU : lâarsenal matĂ©riel europĂ©en
Sur la partie compute, Damien déroule une stratégie en trois axes :
-
CPU pour lâIA
- Nouvelle offre basée sur des CPU Ampere,
- expérimentation autour de CPU Fujitsu, pour des workloads IA plus sobres et mieux adaptés à certaines charges.
-
Quantum computing
-
Il rappelle quâil y a deux ans, Scaleway a Ă©tĂ© parmi les premiers Ă proposer du quantum-as-a-service en mode Ă©mulation, pour permettre aux chercheurs dâexplorer des algorithmes quantiques avant lâarrivĂ©e du vrai hardware.
-
LâannĂ©e suivante, arrivĂ©e de vĂ©ritables QPU via un premier partenaire.
-
Cette année, annonce de nouveaux partenariats avec des acteurs quantiques européens utilisant des technologies différentes :
- systĂšmes Ă atomes neutres,
- systĂšmes supraconducteurs.
-
Intégration avec les frameworks open source du moment afin que les devs puissent tester ces backends sans friction.
LâidĂ©e : devenir la plateforme de rĂ©fĂ©rence pour le quantique en Europe, en lâintĂ©grant directement dans les workflows IA et dâoptimisation.
-
-
GPU, encore et toujours
- Mise à disposition des toutes derniÚres générations de GPU NVIDIA sous forme de GPU Pods.
- IntĂ©gration native de mesures de consommation Ă©nergĂ©tique dans ces pods, pour que les utilisateurs puissent quantifier lâimpact Ă©nergĂ©tique rĂ©el de leurs workloads dâIA.
Models-as-a-Service : utiliser lâIA sans gĂ©rer lâinfra
Damien sait que tout le monde ne veut pas gĂ©rer des clusters de GPU Ă la main. Scaleway pousse donc une approche âModels as a Serviceâ :
- une offre entreprise dĂ©diĂ©e, avec des exigences Ă©levĂ©es en matiĂšre de sĂ©curitĂ© et dâisolation ;
- une offre plus ouverte pour les dĂ©veloppeurs, permettant dâappeler des modĂšles facilement pour du texte, de lâaudio, etc.
Dans ce cadre, Scaleway :
- héberge des modÚles open weights de pointe,
- a nouĂ© un partenariat avec Hugging Face pour exposer plus largement lâĂ©cosystĂšme open source,
- travaille avec des acteurs europĂ©ens comme Mistral : lâun de leurs modĂšles a Ă©tĂ© entraĂźnĂ© sur lâinfrastructure Scaleway, et est dĂ©sormais proposĂ© en service managĂ©.
Vers des âAI factoriesâ europĂ©ennes
Damien conclut sur une ambition claire :
Pour que lâEurope rĂ©ussisse, il faut rĂȘver plus grand. Pas seulement hĂ©berger quelques modĂšles, mais construire de vĂ©ritables usines de lâIA, des AI factories et Giga factories.
Pour cela, Scaleway a :
- montĂ© un consortium dâingĂ©nieurs et dâexperts issus de plusieurs entreprises et domaines critiques (hardware, Ă©nergie, rĂ©seaux, data, lĂ©gal, souverainetĂ©),
- planifié des infrastructures capables de gérer des centaines de milliers de GPU à terme.
LâidĂ©e nâest plus seulement dâĂȘtre un fournisseur de cloud parmi dâautres, mais de devenir une piĂšce maĂźtresse de la capacitĂ© de calcul IA europĂ©enne, du CPU au GPU, du quantique aux modĂšles managĂ©s.
Voici un texte en français que tu peux intégrer tel quel dans ton article pour la partie voice AI / démo robot (Mochi).
Voice AI en temps rĂ©el : la dĂ©monstration de Neil et de son âpetit robotâ
AprĂšs avoir parlĂ© de modĂšles de monde et de robots humanoĂŻdes, la confĂ©rence bascule vers un autre Ă©lĂ©ment clĂ© de lâIA moderne : la voix. Sur scĂšne, on accueille Neil, chercheur qui a passĂ© plusieurs annĂ©es Ă repousser les limites des modĂšles audio, et qui vient tout juste de lancer sa nouvelle sociĂ©tĂ© de voice AI, nĂ©e dans le prolongement des travaux de Kyutai.
De la recherche ouverte Ă un produit industriel
Neil commence par rappeler le contexte : chez Kyutai, le travail consistait Ă faire de la recherche ouverte, Ă inventer de nouveaux systĂšmes de conversation speech-to-speech, et Ă open-sourcer les prototypes.
LâidĂ©e initiale Ă©tait simple :
on publie les briques fondamentales, la communautĂ© sâen empare et construit des produits autour.
Dans les faits, il sâest passĂ© autre chose :
-
le marchĂ© a montrĂ© Ă©normĂ©ment dâintĂ©rĂȘt,
-
mais les prototypes restaient⊠des prototypes :
- latence encore trop élevée,
- robustesse insuffisante,
- qualitĂ© pas encore au niveau dâun produit grand public.
La nouvelle société de Neil est donc née de ce constat : séparer clairement :
- la recherche fondamentale, qui reste ouverte et publiée ;
- et le travail dâingĂ©nierie produit, qui consiste Ă pousser les limites de la latence, de la qualitĂ© et de la robustesse pour rendre la voice AI rĂ©ellement utilisable Ă grande Ă©chelle.
Sa mission :
transformer la recherche de Kyutai en modĂšles audio âindustry gradeâ, intĂ©grables dans des produits concrets.
Une Ă©quipe âfull-stack audioâ pour la voix de demain
Neil dĂ©crit ensuite lâADN de la sociĂ©tĂ© :
-
une Ă©quipe composĂ©e dâanciens de Kyutai, de Google et dâautres grands acteurs,
-
des experts âfull stack audioâ :
- transcription,
- synthĂšse,
- traduction,
- amélioration et transformation du signal.
Contrairement Ă beaucoup dâacteurs de la voice tech qui sont spĂ©cialisĂ©s soit en STT (speech-to-text), soit en TTS (text-to-speech), son Ă©quipe conçoit des modĂšles audio fondationnels qui couvrent la chaĂźne de bout en bout.
Leur thĂšse :
-
la voix nâexploite aujourdâhui âmĂȘme pas 1 %â de son potentiel comme interface hommeâmachine ;
-
la voice AI va servir aussi bien Ă parler aux machines quâĂ mĂ©diatiser des interactions entre humains :
- traduction,
- changement de voix,
- personnalisation,
- accessibilité, etc.
La sociĂ©tĂ© ne vise pas Ă lancer une seule app grand public, mais Ă fournir des briques utilisĂ©es par dâautres : des entreprises qui veulent crĂ©er des agents vocaux, des expĂ©riences audio, des NPC parlants, du support client vocal, des contenus mĂ©dias personnalisĂ©s, etc.
Un premier produit : transcription + synthÚse en temps réel
à peine quelques mois aprÚs la création de la société, Neil annonce leur premier produit :
- transcription en temps réel,
- synthÚse vocale en temps réel,
- exposées via une API.
ConcrĂštement, cela permet :
- de transformer nâimporte quel agent textuel (un LLM dĂ©jĂ connectĂ© Ă vos donnĂ©es) en agent vocal,
- de changer la voix, lâaccent, le style, sans toucher au cĆur logique,
- dâouvrir un champ dâapplications trĂšs large :
Parmi leurs premiers clients, il cite :
- des studios de jeux vidĂ©o (NPC parlants, commentateurs dâe-sport),
- des services de customer support,
- des groupes médias (contenus audio personnalisés),
- des cas dâaccessibilitĂ© (restauration ou augmentation de la voix pour des patients),
- et mĂȘme de la publicitĂ© digitale.
LâidĂ©e :
âOn devient simplement le âwrapper vocalâ dâun systĂšme IA qui existe dĂ©jĂ .â
La dĂ©mo âMochiâ : un petit robot, plusieurs voix, plusieurs langues
Pour montrer concrĂštement ce quâils ont construit, Neil amĂšne sur scĂšne un petit robot dĂ©veloppĂ© par leurs amis de 3DFace.
Sur le plan technique :
- le robot est connecté à leur API speech-to-text / text-to-speech,
- reliée à un modÚle de langage open source local,
- le tout fonctionne en quasi temps réel.
La dĂ©monstration parle dâelle-mĂȘme :
- Le robot se prĂ©sente avec une voix claire, naturelle, capable de moduler le ton, lâĂ©motion et le style.
- Neil lui demande de prendre la voix dâun âgym broâ, coach de musculation : le robot rĂ©pond avec une voix plus Ă©nergique, motivante, prĂȘte Ă âbreaker des PR Ă la salleâ.
- Puis il lui demande de lâaider Ă apprendre Ă danser : le robot devient coach de danse, donne des consignes simples, encourage, compte le rythme.
- Enfin, il lui demande de passer en accent quĂ©bĂ©cois, en français, puis de reformuler en anglais : le robot change de langue, dâaccent et de registre, tout en gardant la mĂȘme fluiditĂ©.
Ă la fin, Neil lui pose une question plus conceptuelle :
Comment la voice AI multilingue et multi-accents peut améliorer la communication entre humains et machines⊠et entre humains tout court ?
Le robot répond que la voice AI permet :
- de casser les barriĂšres linguistiques,
- de faire discuter des personnes qui ne partagent pas la mĂȘme langue comme si elles Ă©taient dans la mĂȘme piĂšce,
- de rendre lâIA moins robotique, plus personnelle.
De lâopen research au product-market fit
Neil insiste sur un point intĂ©ressant pour tout lâĂ©cosystĂšme :
- ce quâils annoncent sur scĂšne nâest pas seulement une levĂ©e de fonds ou une crĂ©ation dâentreprise ;
- câest dĂ©jĂ un produit en production,
- qui traite des centaines de milliers dâappels pour leurs clients.
Comment ont-ils avancé aussi vite ?
- en réutilisant le momentum scientifique créé chez Kyutai,
- en entraĂźnant leurs propres modĂšles from scratch,
- en construisant une nouvelle infrastructure adaptĂ©e Ă lâaudio,
- et en alignant trÚs tÎt la techno avec un besoin marché clair.
Pour Neil, câest un modĂšle Ă suivre :
la recherche fondamentale reste ouverte et partagĂ©e, elle fait Ă©merger des idĂ©es et des briques technologiques, puis des startups se crĂ©ent pour pousser ces briques jusquâau produit.
Leur ambition est assumée :
devenir un leader mondial de la voice AI.
Et aprÚs ? Les défis qui restent pour la voice AI
Malgré la qualité de la démo, Neil rappelle que beaucoup reste à faire.
Quelques défis majeurs :
-
ComprĂ©hension Ă©motionnelle Aujourdâhui, on a encore des IA qui rĂ©pondent âSuper !â quand on leur dit âMon chien est mortâ. Comprendre le contexte Ă©motionnel dâune phrase est indispensable, notamment pour :
- la thérapie assistée,
- le support sensible,
- les interactions longues et personnelles.
-
Robustesse en environnement bruyant La plupart des démos se font dans des environnements calmes. Mais dans la vraie vie, une voice AI devra fonctionner :
- dans une usine,
- dans un entrepĂŽt,
- dans un magasin plein de monde,
- avec du vent, des bruits de fond, plusieurs personnes qui parlent. Il faut alors savoir qui dit quoi, Ă quel moment, Ă quelle distance : un problĂšme toujours largement ouvert.
-
IntĂ©gration avec la robotique Mettre de la voice AI dans des robots qui bougent, interagissent, comprennent Ă qui ils sâadressent et dans quelle langue, reste un frontier challenge.
Conclusion : la voix comme couche naturelle de lâIA
Neil termine sur une note optimiste : la voice AI nâest pas un gadget, câest une couche naturelle de lâIA moderne.
- Elle rend les machines plus accessibles.
- Elle permet de connecter des humains qui ne parlent pas la mĂȘme langue.
- Elle ouvre des usages nouveaux dans le jeu vidĂ©o, les mĂ©dias, la santĂ©, la relation client, la robotiqueâŠ
Son message aux builders présents dans la salle :
âAllez sur notre site, testez lâAPI, parlez-nous de vos cas dâusage et si vous ĂȘtes talentueux, rejoignez lâĂ©quipe.â
⥠Master Stage : lĂ oĂč se dessine le futur de lâIA
Les talks de lâaprĂšs-midi suivent les trois axes de la confĂ©rence : Smarter Faster Everywhere (plus Optimization & Scalability).
đ§ 12:05 12:20 | Inference Everywhere
Steeve Morin, ZML Lâaccent est mis sur les performances, lâoptimisation et lâexĂ©cution dâIA âpartoutâ. Les enjeux autour de lâinfĂ©rence distribuĂ©e sont au cĆur de la bataille pour le coĂ»t et la rapiditĂ©.
Voici un texte en français prĂȘt Ă intĂ©grer dans ton article pour la session âInference-powered training / ZMLâ.
Inference-powered training : quand les ingénieurs IA reprennent la main sur la prod
La session âInference-powered trainingâ pose un constat simple mais souvent Ă©ludĂ© : lâentraĂźnement et lâinfĂ©rence sont deux mondes radicalement diffĂ©rents, et aujourdâhui câest trop souvent lâentraĂźnement (et donc Python) qui dicte les choix techniques jusque dans la production⊠au prix de nuits blanches pour les Ă©quipes infra.
EntraĂźnement vs infĂ©rence : mĂȘme modĂšles, rĂ©alitĂ©s opposĂ©es
Le speaker commence par rappeler la différence :
-
EntraĂźnement (training)
- Terrain naturel de la recherche : on fait âune seule foisâ un gros job.
- On privilĂ©gie lâitĂ©ration rapide : plus vite on teste une idĂ©e, mieux câest.
- On ne va pas chipoter sur lâoverhead : lâimportant, câest le rĂ©sultat scientifique.
- Python est parfait pour ça : flexible, expressif, une super DX.
-
Inférence
-
Câest la production, lĂ oĂč tout casse Ă 4h du matin.
-
On fait des milliards de requĂȘtes.
-
On veut :
- une latence prévisible,
- une variabilité faible (P99 plat),
- un code compilé, typé, maßtrisé.
-
Dans ce monde-lĂ , âless is betterâ : chaque allocation, chaque branche compte.
-
ProblĂšme : dans la plupart des stacks actuelles, câest le monde training qui gagne. Tout est conçu autour de Python, de frameworks pensĂ©s pour expĂ©rimenter, pas pour faire tourner un service 24/7.
RĂ©sultat : les âAI laborersâ, les ingĂ©nieurs back-end / MLOps qui doivent opĂ©rer ces systĂšmes, se retrouvent Ă bricoler autour de stacks pas faites pour eux : ils se lĂšvent la nuit, recollent les morceaux, gĂšrent la dette.
ZML : un framework pensĂ© dâabord pour lâinfĂ©rence
Pour sortir de ce piĂšge, lâĂ©quipe a créé ZML, un framework orientĂ© inference-first.
Leur objectif : rendre lâinfĂ©rence :
- agnostique du hardware (GPU NVIDIA, AMD, TPU, Trainium, etc.),
- compilée de bout en bout,
- prédictible en termes de latence,
- intégrable facilement dans des environnements type Kubernetes.
Sous le capot, ZML repose sur :
- Zig (Z) : un langage compilé, moderne, trÚs proche du métal, mais beaucoup plus agréable que le C.
- MLIR / XLA : pour la partie compilation et graphes de calcul.
- Bazel : pour lâĂ©cosystĂšme build et la reproductibilitĂ©.
Avec le mĂȘme code source, sans changer une ligne, ils peuvent cibler :
- des GPU NVIDIA,
- des GPU AMD (ROCm),
- des TPU,
- du Trainium AWS, etc.
Et ce sans compromis de performance : ce nâest pas âça tourne⊠mais plus lentementâ. Lâambition est de coller au plus prĂšs des perfs natives, en compilant le modĂšle âjusquâau mĂ©talâ.
Autres caractéristiques clefs :
- Tout est explicite : pas de compilation âmagiqueâ en lazy JIT quâon dĂ©couvre en prod.
- Cross-compilation intégrée : développer sur un Mac, cibler Linux, builder une image optimisée sans y passer deux heures de Docker build.
- Packaging et runtime inclus : CUDA / ROCm, libs nĂ©cessaires et sandbox sont embarquĂ©s dans une image minimale prĂȘte Ă ĂȘtre dĂ©ployĂ©e.
En résumé :
tu construis une image spĂ©cialisĂ©e, tu la dĂ©ploies, et âça tourneâ. Pas de dance infinie autour des dĂ©pendances GPU dans les containers.
LLMD : un serveur LLM optimisĂ©, prĂȘt Ă lâemploi
Sur cette base, lâĂ©quipe a dĂ©veloppĂ© un premier produit : LLMD, un serveur LLM construit entiĂšrement au-dessus de ZML.
Caractéristiques annoncées :
- Distribué en image Docker (gratuite, mais pas open source).
- Cold start 10x plus rapide quâun serveur Llama.cpp classique : on parle de secondes, pas de minutes.
- Image ~4x plus petite quâune image Llama.cpp Ă©quivalente : ~2,4 Go, incluant CUDA + ROCm.
- Time-to-first token environ 3x meilleur,
- Throughput (tokens/sec) amélioré de 5 à 30 % selon la plateforme.
Le tout sans tuning extrĂȘme pour lâinstant : ils prĂ©sentent ça comme un âpoint de dĂ©partâ plus que comme une fin.
Attention B : casser la complexité quadratique⊠depuis un CPU distant
Autre brique clĂ© : Attention B, une solution pour attaquer de front la complexitĂ© quadratique de lâattention.
Contexte :
-
Lâattention est le cĆur des architectures modernes (transformers, LLMs).
-
Sa complexité quadratique est la raison pour laquelle :
- on parle de contextes limités,
- on a besoin de mémoire HBM énorme sur GPU,
- on invente des stratégies de RAG pour contourner le problÚme.
Avec Attention B, ils prennent une autre route :
- Au lieu de brute-forcer lâattention sur le GPU,
- ils modĂ©lisent lâattention comme un graphe et la calculent sur CPU,
- parfois mĂȘme sur un CPU distant, joint via un rĂ©seau 10 Gbps.
Le pipeline ressemble à ça :
- Extraction des donnĂ©es dâattention depuis le GPU.
- Envoi sur le réseau vers un CPU distant.
- Calcul de lâattention sur le CPU, avec un algorithme graphique plus parcimonieux.
- Renvoi sur le GPU pour continuer le reste du calcul.
Et malgrĂ© ce dĂ©tour rĂ©seau, câest plus rapide que le calcul local sur GPU, pour deux raisons :
- le CPU nâest pas âmagiquement plus rapideâ,
- mais lâalgorithme fait beaucoup moins de travail (graphe vs brute force).
Conséquences :
- Le KV cache peut ĂȘtre stockĂ© en mĂ©moire systĂšme cĂŽtĂ© CPU : â jusquâĂ 2x plus de capacitĂ© pour les contextes sans toucher au GPU.
- Le GPU est dĂ©lestĂ© de 30 Ă 70 % de son temps passĂ© en attention : â il peut se concentrer sur ce pour quoi il est vraiment bon (matmul, dense ops).
- On nâa plus besoin dâun rĂ©seau HPC ultra-exotique : â 10 Gbps suffit (25 Gbps Ă©tant encore mieux), â pas besoin dâInfiniBand monstrueux ni de fabrics 800 Gbps.
Vers un écosystÚme inference-first
La prĂ©sentation se termine sur une idĂ©e forte : lâĂ©quipe ne veut pas juste lancer un framework de plus, mais un Ă©cosystĂšme inference-first :
- ZML open source pour structurer la stack,
- des produits comme LLMD & Attention B pour prouver que ça tient en prod,
- et une approche globale oĂč lâinfĂ©rence nâest plus un âafterthoughtâ, mais un cas dâusage primordial autour duquel on conçoit les outils.
Lâobjectif final :
faire de lâIA un primitif fiable Ă intĂ©grer dans des systĂšmes rĂ©els, pas seulement un âquelque chose-AIâ bricolĂ© autour de notebooks Python.
đ§ 12:25 12:55 | Agents that actually do the work
BLACKBOX AI, SOCLE AI, AMD, Scaleway Le sujet central de 2025 : les agents autonomes. LâidĂ©e : ne plus simplement gĂ©nĂ©rer du texte ou des images, mais exĂ©cuter des tĂąches de bout en bout.
Voici un texte en français prĂȘt Ă intĂ©grer dans ton article pour la session âAgents that actually do the work â how autonomy changes the way we buildâ (12h25).
Agents qui font vraiment le travail : oĂč ils brillent, oĂč ils cassent, et ce quâil reste Ă inventer
Le panel réunit trois profils complémentaires :
- des builders dâagents pour les organisations oĂč la fiabilitĂ© est critique (industrie, mĂ©dical, conformitĂ©),
- des builders dâagents pour le code, capables dâopĂ©rer sur des bases trĂšs complexes,
- et un constructeur de puces qui conçoit le hardware sur lequel ces agents tournent, du datacenter jusquâau rover sur Mars.
Lâobjectif : comprendre oĂč les agents apportent de la valeur, oĂč ils Ă©chouent, et comment ils transforment la maniĂšre de construire des systĂšmes.
OĂč les agents sont dĂ©jĂ utiles aujourdâhui
Les intervenants listent plusieurs terrains oĂč les agents ne sont plus de la science-fiction :
-
Code & développement logiciel
- agents qui lisent les logs de production en temps réel,
- identifient une erreur,
- patchent le code,
- ouvrent une pull request, lancent les tests,
- et, si lâĂ©quipe lâautorise, merge et dĂ©clenchent un nouveau dĂ©ploiement, avec rollback possible. On parle de âfull self-codingâ, dĂ©jĂ disponible publiquement.
-
Industrie & sécurité
- agents dĂ©ployĂ©s sur des sites Ă risque (plateformes pĂ©troliĂšres, chantiers, etc.) qui analysent capteurs, alertes, camĂ©ras et signalent des situations dangereuses avant quâelles ne dĂ©gĂ©nĂšrent.
-
Médical & monitoring
- systĂšmes qui suivent lâĂ©tat de patients via des capteurs multiples et dĂ©clenchent des actions ou des alertes selon des seuils prĂ©dĂ©finis.
-
Ăducation personnalisĂ©e
- agents capables dâadapter le contenu, le rythme et la difficultĂ© Ă lâattention rĂ©elle de lâĂ©lĂšve, pas Ă un profil thĂ©orique.
-
Transcription & conformité légale
- exemple dâun cabinet dâavocats qui utilise un pipeline dâIA pour transcrire des auditions internes, mais avec un contrĂŽle humain final obligatoire pour garantir une exactitude Ă 100 %, impossible Ă garantir avec lâIA seule.
Agents autonomes, mais pas sans humains : lâimportance du âhuman-in-the-loopâ
Tout le panel est dâaccord sur un point clĂ© : Ă court et moyen terme, les humains restent dans la boucle.
-
Dans la sĂ©curitĂ©, lâĂ©ducation, le mĂ©dical ou le code, les agents proposent, mais ce sont les humains qui valident les dĂ©cisions structurantes.
-
Dans les workflows de code avancĂ©s, lâagent peut :
- corriger un bug,
- push une branche,
- ouvrir une PR,
- exĂ©cuter les tests, mais câest lâingĂ©nieur qui dĂ©cide (ou non) dâautoriser le merge automatique en production.
Ă long terme, certains imaginent des agents dĂ©passant le niveau humain sur certains domaines, avec moins de validation manuelle. Mais aujourdâhui, confiance et UX imposent encore une supervision humaine.
Les gros problÚmes non résolus : monde physique, souveraineté, sécurité, UX
Les intervenants pointent plusieurs verrous majeurs :
-
Le monde physique est beaucoup plus dur que le texte
-
un agent dans un hĂŽpital, un drone ou un robot doit :
- percevoir (vision, son, capteurs),
- raisonner en temps réel,
- planifier une action,
- exécuter,
- apprendre de ses erreurs.
-
câest dâun ordre de complexitĂ© bien plus Ă©levĂ© que de traiter des tokens dans un LLM.
-
-
Souveraineté & conformité (surtout en Europe)
- beaucoup dâĂ©quipes pensent encore que souverainetĂ© = moins de performance.
- le panel insiste : câest un faux dilemme.
- le vrai sujet, câest de construire des stacks performantes, mais souveraines et conformes (notamment pour la santĂ©).
-
Sécurité & modÚles fermés
- les entreprises sont tentĂ©es dâutiliser des modĂšles fermĂ©s trĂšs performants, au prix de la sĂ©curitĂ© et de la maĂźtrise des donnĂ©es.
- en parallĂšle, les modĂšles open source deviennent suffisamment bons pour justifier des architectures end-to-end chiffrĂ©es, oĂč lâentreprise sait ce qui tourne, oĂč, et comment.
- un des intervenants mentionne la mise en place dâun agent entiĂšrement chiffrĂ© de bout en bout : lâutilisateur sait quâil utilise un modĂšle open source, et non un modĂšle fermĂ© opaque.
-
UX & âpromptingâ comme facteur limitant
- la valeur extraite dâun agent dĂ©pend Ă©normĂ©ment de la capacitĂ© de lâutilisateur Ă bien le piloter.
- si lâagent dĂ©passe le niveau technique de lâutilisateur, ce dernier peut ĂȘtre incapable dâĂ©valuer si la rĂ©ponse est bonne⊠alors mĂȘme que lâagent a fait un travail excellent.
- conclusion : les agents doivent ĂȘtre pensĂ©s UX-first, pas juste âAPI-firstâ.
Hybrid AI : agents dans le cloud, sur Terre⊠et sur Mars
La partie hardware rappelle que lâIA ne vit pas seulement dans un datacenter :
-
AMD fournit des puces pour :
- des voitures (Subaru iSight, ultra faible latence),
- des avions, des satellites,
- le rover sur Mars,
- des systĂšmes de dĂ©tection ultra-rapide (comme au CERN) oĂč lâon doit analyser des Ă©vĂ©nements en nanosecondes.
Ces puces issues du rachat de Xilinx combinent :
- CPU embarqué,
- accélérateurs IA,
- logique programmable (FPGA).
Cela permet un modĂšle hybride :
- Edge / Endpoint : perception + décision critique en local, ultra faible latence, consommation minime.
- Cloud : raisonnement lourd, entraßnement et ré-entraßnement, agrégation de données.
Ă terme, avec la progression des performances / watt, un smartphone ou un device edge pourra exĂ©cuter des capacitĂ©s aujourdâhui rĂ©servĂ©es aux GPU de datacenter.
Lâagent, ce nâest pas juste un LLM avec des outils
Le panel insiste : un agent, ce nâest pas simplement un LLM + quelques tools.
Il faut aussi :
-
un protocole (MCP, architectures multi-agents, etc.),
-
une enveloppe dâexĂ©cution (container, VM, sandbox) qui dĂ©finit ce Ă quoi il a le droit dâaccĂ©der :
- commandes terminal,
- fichiers,
- secrets,
- clients (navigateur, mobile, etc.),
-
une sĂ©curitĂ© zero-trust : mĂȘme Ă lâintĂ©rieur du firewall, personne nâest considĂ©rĂ© comme âde confianceâ par dĂ©faut.
Pour le code, par exemple :
- les agents tournent dans des environnements isolés qui simulent au mieux la prod,
- on leur donne accÚs à des clients réalistes (browser, app mobile) pour tester des scénarios complets,
- lâenvironnement est presque aussi important que le modĂšle lui-mĂȘme.
Mesurer, benchmarker, garder le contrĂŽle
Question clĂ© : comment savoir si un agent fonctionne bien, alors que tout est plus âflouâ que dans le ML classique ?
- Oui, il existe des benchmarks publics (SWE-Bench, SWE-Lancer en code, etc.) utiles comme repĂšres.
- Mais ils ne reflÚtent pas la complexité des systÚmes réels.
Les intervenants défendent une approche user-centric :
-
dĂ©finir des mĂ©triques liĂ©es au contexte dâusage rĂ©el,
-
suivre :
- les tĂąches effectivement accomplies,
- les merges acceptés par les humains,
- les corrections validées,
-
construire des benchmarks internes, continus, plutĂŽt que sâen remettre uniquement aux scores publics.
CoĂ»ts & futur : oĂč part lâargent, et comment en sortir
Sur la question des coûts :
- aujourdâhui, le gouffre, ce sont les racks GPU, le rĂ©seau, la mĂ©moire HBM â surtout avec les modĂšles de raisonnement qui gĂ©nĂšrent Ă©normĂ©ment de tokens internes.
- à chaque génération, le hardware devient plus performant⊠mais les modÚles deviennent plus lourds.
Ă long terme, une partie de la solution est claire :
-
dĂ©placer une grande part des workloads vers lâedge,
-
profiter du fait que les devices grand public rattrapent (et dĂ©passent) dâanciennes gĂ©nĂ©rations de supercalculateurs,
-
concevoir les agents comme des containers légers, déplaçables, capables de vivre :
- dans le cloud,
- sur un endpoint,
- ou sur une machine locale.
Garder les agents dans les clous : échecs courants et garde-fous
Enfin, comment Ă©viter quâun agent ne parte en vrille :
-
Limiter ses permissions : décider explicitement à quoi il a accÚs (fichiers, secrets, commandes, API).
-
Mettre des garde-fous de supervision :
- notifications (Slack, SMS, appels vocaux automatiques) quand lâagent est bloquĂ©,
- demandes explicites de validation humaine pour certaines actions critiques.
-
Donner de la visibilitĂ© aux utilisateurs : dashboards, logs, explications pas Ă pas â pour que lâutilisateur puisse comprendre, rejouer, corriger.
Le panel se termine sur cette idĂ©e : les agents existent dĂ©jĂ dans les systĂšmes, sur lâedge, dans les usines, dans le code. Mais leur succĂšs dĂ©pendra moins de la magie des LLM que de la qualitĂ© des protocoles, de lâUX, de lâinfra et des garde-fous que nous mettrons autour.
⥠13:00 13:15 | Inside Photoroomâs Open-Source T2I Model
Le behind-the-scenes dâun modĂšle texte-vers-image europĂ©en puissant et ouvert.
Voici un texte en français prĂȘt Ă coller dans ton article pour la partie Photoroom / PRx.
Photoroom : entraĂźner son propre modĂšle T2I⊠et lâouvrir au monde
Sur scĂšne, Yoann Almazan et David Berthouin, research scientists chez Photoroom, viennent raconter quelque chose quâon ne voit presque jamais : lâenvers du dĂ©cor des modĂšles de gĂ©nĂ©ration dâimages.
On connaßt tous la magie perçue de Stable Diffusion, Flux, Midjourney, DALL·E et consorts. Mais rarement le coût réel :
- aprĂšs 200 heures GPU, le modĂšle ne sait mĂȘme pas reconnaĂźtre une forme,
- aprĂšs 1 000 heures, on obtient Ă peine quelque chose qui ressemble Ă une bouteille,
- aprÚs 10 000 heures, ça commence à ressembler à une vraie bouteille de vin,
- aprÚs 50 000 heures, on retrouve matiÚres, reflets, détails.
Autrement dit : câest beau Ă la fin, mais câest lent, douloureux, cher et fascinant Ă dĂ©cortiquer.
PRx : un modÚle léger, open source, documenté de bout en bout
Photoroom a décidé de faire un truc rare :
entraĂźner son propre modĂšle texteâimage from scratch, le publier en open source, et documenter tout le process, y compris ce qui nâa pas marchĂ©.
Ce modĂšle sâappelle PRx :
-
Taille : ~1,2 milliard de paramĂštres (Ă comparer Ă Flux ~20B â on est clairement sur un modĂšle âlightweightâ).
-
Licence : Apache 2.0, usage commercial permis.
-
Ressources :
- code,
- expériences,
- ablations,
- résultats intermédiaires, tout est public, y compris les essais ratés.
Lâobjectif :
-
offrir un âplayground sĂ©rieuxâ aux chercheurs, Ă©tudiants, Ă©quipes R&D qui veulent :
- comprendre comment se construit un modĂšle de diffusion,
- tester de nouvelles idées sans 10 000 GPU-jours,
-
et disposer dâun modĂšle assez lĂ©ger pour itĂ©rer vite, y compris sur des GPU de âsimple mortelâ.
En interne, ce travail a eu plusieurs impacts :
- ComprĂ©hension profonde de la gĂ©nĂ©ration â meilleure maĂźtrise des modĂšles dâĂ©dition dâimages et des features cĂŽtĂ© app.
- Pipeline rĂ©utilisable â toutes les techniques validĂ©es sur PRx ont Ă©tĂ© rĂ©injectĂ©es dans les modĂšles de production.
- CommunautĂ© â un Discord trĂšs actif, qui nâexisterait pas sans lâouverture complĂšte du projet.
- Brand & hiring â le projet rend visible un niveau de travail qui, sinon, serait restĂ© enfoui dans des notebooks internes.
Rappel express : comment fonctionnent les modĂšles de diffusion
Yoann prend 1 minute pour remettre tout le monde au mĂȘme niveau.
-
En génération
- on part dâun pur bruit,
- Ă©tape par Ă©tape, le modĂšle apprend Ă retirer le bruit dans la âbonne directionâ (par ex. âune bouteille de vin sur une table en boisâ),
- en ~20â50 pas, on obtient une image cohĂ©rente.
-
En entraĂźnement, câest lâinverse :
-
on part dâune vraie image,
-
on y ajoute progressivement du bruit,
-
on montre au modĂšle :
- lâimage bruitĂ©e,
- le texte associé,
- la cible âpropreâ,
-
et on lui demande de prĂ©dire lâimage (ou le bruit) Ă chaque niveau de dĂ©gradation.
-
IntĂ©rĂȘt : on nâa pas besoin dâannotations complexes ; juste des paires (image, texte). ProblĂšme : il en faut des centaines de millions, voire des milliards.
AccĂ©lĂ©rer avec un modĂšle lĂ©ger : architecture + recette dâentraĂźnement
Avec PRx, lâĂ©quipe sâest fixĂ© deux contraintes :
- Un modÚle assez léger pour tourner sur des GPU accessibles.
- Un entraßnement le plus rapide possible, sans sacrifier la qualité.
Deux leviers classiques en ML :
- Architecture : analyser les modĂšles SOTA (Stable Diffusion, SDXL, etc.) â identifier les briques vraiment cruciales â les recombiner dans une architecture plus compacte.
Résultat :
-
PRx est ~60 % plus léger que certaines architectures récentes,
-
~40 % plus rapide à entraßner / inférer,
-
sans chute notable de qualité.
-
Recette dâentraĂźnement : intĂ©grer les meilleures techniques rĂ©centes pour converger plus vite. David en dĂ©taille une, simple Ă comprendre mais trĂšs efficace : la re-captionisation riche.
RĂ©-annoter tout le dataset pour apprendre plus avec les mĂȘmes images
Point de dĂ©part : les datasets web (LAION & co.) sont extrĂȘmement hĂ©tĂ©rogĂšnes.
-
Ăa contient :
- des photos sublimes,
- des images de catalogue,
- des crops bizarres,
- des images moches avec bordures blanches,
- etc.
Traditionnellement, beaucoup dâĂ©quipes :
- EntraĂźnent sur tout le dataset,
- Puis fine-tunent sur un sous-ensemble âpropreâ filtrĂ© par heuristiques.
ProblĂšmes :
- Difficile dâautomatiser un filtrage parfait.
- Le fine-tune sur un sous-ensemble peut faire âoublierâ certains concepts appris au dĂ©part.
Photoroom explore une autre voie : au lieu de changer les images, on enrichit radicalement les légendes.
Du âchat sur une chaiseâ Ă des descriptions ultra dĂ©taillĂ©es
Exemple simple :
- Si on montre au modĂšle seulement des images lĂ©gendĂ©es âun chat sur une chaiseâ, il finit par apprendre grossiĂšrement âquâest-ce quâun chat ?â.
Mais si on légende :
- âun chat orange sur une chaiseâ,
- âun chat blanc sur une chaiseâ,
alors le modĂšle peut :
-
désentrelacer les concepts :
- âchatâ â âorangeâ â âblancâ,
- âorangeâ devient un concept rĂ©utilisable ailleurs (orange car, orange sofa, etc.).
Photoroom pousse cette idĂ©e Ă lâextrĂȘme :
- ils passent tout leur dataset par des visionâlanguage models SOTA,
- ils demandent des descriptions trĂšs riches,
- chaque image se voit dotée de dizaines de concepts explicites : style, matiÚre, couleur, lumiÚre, contexte, etc.
Un prompt initial du type :
âtabby sleeping cat on a wheelchairâ
devient quelque chose comme :
âa minimalist white wheelchair in a bright studio, with a tabby sleeping cat curled on the seat, soft shadows, high-key lighting, etc.â
Paradoxe intéressant :
on rend les lĂ©gendes plus complexes, pour rendre lâapprentissage plus efficace, avec exactement les mĂȘmes images.
Le modĂšle apprend plus de concepts, mieux sĂ©parĂ©s, pour un coĂ»t dâĂ©chantillon inchangĂ©.
Pourquoi câest important pour lâĂ©cosystĂšme
Ce que montre Photoroom avec PRx, câest quâon peut :
-
faire de la vraie recherche appliquĂ©e en T2I sans ĂȘtre une Big Tech,
-
outiller la communauté avec :
- un modÚle léger,
- une licence permissive,
- des logs dâexpĂ©riences et dâĂ©checs,
-
et prouver quâune approche qualitĂ© de dataset + ingĂ©nierie dâarchitecture + transparence peut rivaliser sĂ©rieusement.
Pour la communauté IA comme pour les builders produits, PRx est autant :
- un modĂšle utilisable,
- quâun cas dâĂ©tude vivant de ce que ça veut dire, concrĂštement, de former un modĂšle de gĂ©nĂ©ration dâimages en 2025.
đ 13:20 13:50 | From lab to product (Voice models)
Kyutai + Indigo.ai expliquent comment transformer des modĂšles vocaux en produits industriels.
Voici un texte prĂȘt Ă intĂ©grer dans ton article pour la partie âFrom lab to product with European voice modelsâ (Kyutai + Indigo AI).
Des modÚles de voix européens : de la recherche au produit
Sur scĂšne, deux mondes se rencontrent :
- Neil Zeghidour, chercheur en speech chez Kyutai (Moshi, modĂšles TTS, STT, traduction, etc.),
- Enrico Bertino, co-fondateur dâIndigo AI, leader italien des assistants conversationnels en entreprise (avec, au passage, un BERT italien qui porte littĂ©ralement son nom : Bertino).
Ensemble, ils posent un constat simple : lâaudio est lâinterface la plus naturelle⊠et la plus compliquĂ©e Ă maĂźtriser.
Pourquoi la voix est beaucoup plus dure que le texte
Neil rappelle un ordre de grandeur qui calme tout le monde :
- 1 heure de parole enregistrĂ©e â 700 Mo dâaudio brut,
- la transcription texte de cette heure â 50 000 fois moins dâinformation.
Le texte est :
- compact,
- structuré,
- optimisĂ© par des millĂ©naires dâĂ©volution culturelle pour transmettre de lâinformation.
La voix, elle, est :
- massivement redondante,
- extrĂȘmement variable (accent, timbre, micro, bruit, Ă©motion, contexte),
- porteuse de signaux non verbaux : rythme, hĂ©sitations, sourire, colĂšre, fatigueâŠ
MĂȘme phrase, mille façons de la prononcer mais un systĂšme doit toujours comprendre la mĂȘme intention (âQuelle est la racine carrĂ©e de 9 ?â), que ce soit dans la montagne avec un vieux micro pourri ou sur scĂšne Ă Paris avec un casque broadcast.
Enrico complĂšte avec le point de vue produit :
-
au dĂ©but, ils pensaient : âla voix, câest juste un canal en plus pour nos chatbotsâ ;
-
en pratique : câest un autre monde :
- si tu rates un mot Ă lâoral, tu peux perdre le sens entier,
- tu ne peux pas ârelireâ comme sur du texte,
- il faut gérer le latency budget, les interruptions, le tour de parole, la prise de confiance.
Ăvaluer la qualitĂ© : mĂ©triques objectives vs ressenti humain
La voix transporte de lâĂ©motion, et câest prĂ©cisĂ©ment ce qui rend son Ă©valuation toxique :
-
cĂŽtĂ© âmachineâ, on peut mesurer :
- taux dâerreur de mots (WER),
- taux de mots mal prononcés,
- latence moyenne, etc.
-
mais cĂŽtĂ© humain, tout peut ĂȘtre biaisĂ© par :
- lâhumeur du testeur,
- la voix choisie,
- un seul mot critique mal transcrit (date, montant, nom propre) qui ruine lâexpĂ©rience.
Enrico raconte un cas client :
- version 1 : le client teste un voicebot, trouve la qualitĂ© âpas au niveau, pas prĂȘt pour la prodâ,
- ils ne changent quasiment rien cÎté agent, seulement quelques paramÚtres de voix / rendu,
- version 2 : âparfait, on le met en prod demainâ.
MĂȘme pipeline, mĂȘme intelligence derriĂšre seule la perception a changĂ©.
DâoĂč la nĂ©cessitĂ© de combiner :
- tests objectifs (métriques, benchmarks),
- Ă©valuations subjectives façon âclinical trialâ : double-aveugle, anciens vs nouveaux modĂšles mĂ©langĂ©s, large panel dâĂ©coute, sans dire aux testeurs âcâest la nouvelle versionâ.
Deux grandes architectures : cascade vs speech-to-speech
Aujourdâhui, deux architectures dominent.
1. Architecture en cascade (ASR â LLM â TTS)
Pipeline âclassiqueâ :
- ASR : conversion de la voix en texte (streaming).
- LLM / agent : comprĂ©hension, raisonnement, appels dâAPI, RAG, outils mĂ©tiers.
- TTS : réponse vocalisée dans la voix cible.
Avantages :
-
parfait pour plugger de la voix sur un existant textuel :
- bots mĂ©tiers, workflows dâAPI, systĂšmes bancaires / assurance, etc.
-
facile dâajouter :
- function calling,
- RAG,
- formats complexes (tableaux, chiffres, résumé structuré).
Limites :
-
obligĂ© de dĂ©couper en tours de parole (turns) : â dĂšs quâon sort dâun dialogue propre, ça casse (interruptions, chevauchements, back-channels, etc.),
-
la latence peut vite dériver :
- attendre la fin perçue dâune phrase,
- capturer les petits âeuhâ, âoui, en faitâ,
- envoyer au LLM,
- attendre la rĂ©ponse, â on fini parfois Ă plusieurs secondes de dĂ©lai.
Enrico note que la cascade reste trÚs adaptée aux cas :
-
inbound service client :
- questions complexes,
- appels dâAPI bancaires / assurance,
- lâutilisateur sâattend Ă ce que ça prenne quelques secondes,
- on peut âmasquerâ la latence avec des trucs UX (âJe vĂ©rifie vos informationsâŠâ).
2. Architecture speech-to-speech native
Ici, le modĂšle :
- prend directement lâaudio en entrĂ©e,
- gĂ©nĂšre directement de lâaudio en sortie,
- gÚre le dialogue sans découper en tours stricts.
Forces :
- latence 200 ms possible, au niveau humain,
- gestion naturelle des interruptions, des overlaps, des âhmmâ, des âouiâ pendant que lâagent parle,
- expĂ©rience beaucoup plus fluide â ce quâon a vu sur scĂšne avec le robot Richie Mini.
Faiblesses actuelles :
-
difficile Ă brancher directement sur un existant LLM / API :
- il faut inventer des stratégies hybrides,
- ou rĂ©entraĂźner des modĂšles plus complexes qui âparlent et pensentâ Ă la fois,
-
pour une grosse boĂźte qui a dĂ©jĂ investi des fortunes dans un LLM texte, â ârajouter la voixâ devient un nouveau chantier complet : tests, perf, sĂ©curitĂ©, conformitĂ©âŠ
Enrico souligne que le speech-to-speech brille surtout dans les cas outbound :
- câest le bot qui appelle le client,
- conversations rapides, multi-tours, beaucoup dâinterruptions possibles,
- lâagent pose des questions, lâhumain rĂ©pond vite,
- la cascade devient fragile, lĂ oĂč le speech-to-speech reste fluide.
Agents hybrides : un âpetit modĂšle vocalâ pilotĂ© par un âgrand cerveauâ
Chez Kyutai, Neil décrit une approche intéressante :
un petit modĂšle speech-to-speech, qui gĂšre la conversation en temps rĂ©el, et qui appelle ponctuellement un grand modĂšle (LLM / agent) lorsquâil a besoin de rĂ©flĂ©chir.
En pratique :
-
le petit modĂšle :
- comprend ce que dit lâutilisateur,
- improvise, relance, rassure,
- gĂšre les silences, les âattendezâ, les reformulations,
-
quand il atteint une question âdureâ (chiffres, logique, back-office, etc.), â il demande de lâaide au gros modĂšle (le fameux âjokerâ),
-
pendant que le LLM rĂ©flĂ©chit, le modĂšle vocal peut continuer Ă parler : âJe regarde vos derniĂšres opĂ©rationsâŠâ, âJe vĂ©rifie ça pour vous.â
-
dÚs que la réponse arrive, il la reformule en audio.
Deux bénéfices majeurs :
-
UX fluide par design (les âtrucs UXâ sont intĂ©grĂ©s dans lâarchitecture).
-
Robustesse à la connectivité :
- le petit modĂšle peut tourner en local sur le device,
- si la connexion tombe, la conversation continue,
- seules les tĂąches âcomplexesâ nĂ©cessitent un retour rĂ©seau.
Enrico, cĂŽtĂ© Indigo, appelle ça un âdummy agentâ :
-
un agent vocal qui sait :
- écouter,
- reformuler,
- rassurer,
- gagner du temps,
-
pendant que le gros cerveau (LLM + APIs + RAG) fait le boulot en arriĂšre-plan.
Accents, diversitĂ© et Ă©quitĂ© dâaccĂšs
Autre sujet : la fairness.
- Si tu parles âanglais CNNâ, tout marche.
- Si tu parles avec un fort accent, un dialecte ou un mélange de langues (cas suisse ou italien), beaucoup moins.
Pour que les systÚmes soient réellement inclusifs, il faut :
-
des donnĂ©es dâentraĂźnement issues de speakers trĂšs variĂ©s,
-
des annotateurs qui comprennent vraiment les accents / dialectes ciblés :
- mĂȘme un Français natif peut peiner Ă transcrire correctement un QuĂ©bĂ©cois,
-
des modĂšles multilingues / multi-accents robustes.
Enrico explique que :
- lâASR est aujourdâhui la partie la plus dĂ©licate,
- en Suisse par exemple, ils doivent gĂ©rer 4 langues dans le mĂȘme flux,
- la plupart des systĂšmes demandent de fixer la langue au dĂ©but de la conversation, â les bascules en cours de route sont mal gĂ©rĂ©es.
Pour le TTS, ils jouent au contraire avec les accents :
- en Italie, ils prĂ©fĂ©rent des accents lĂ©gers (Rome, SicileâŠ) plutĂŽt quâun italien totalement neutre,
- ça rend le bot plus chaleureux, moins âvoix robot de central tĂ©lĂ©phoniqueâ.
Le vrai travail : contrÎle, compliance et téléphonie
Enrico distingue deux gros chantiers pour amener tout ça en production entreprise :
1. ContrÎle & conformité
DerriĂšre la âsimpleâ brique ASR â LLM â TTS, il faut :
- guardrails (ce que lâagent peut dire ou pas),
- obfuscation / masking des données sensibles,
- gestion de la vie privĂ©e (RGPD, stockage, droit dâaccĂšs, etc.),
- monitoring et auditabilité des conversations,
- latence maßtrisée malgré ces couches de contrÎle.
Câest un monde Ă part, qui demande :
- dâautres compĂ©tences,
- dâautres outils,
- une culture proche de la sécu / gouvernance.
2. La couche télécom, héritée des années 90
Pour passer du chatbot web au voicebot téléphonique, Indigo a dû :
- plonger dans le monde SIP, PBX, PSTN, call centers,
- gĂ©rer lâhandover fluide vers un humain,
- construire en interne une équipe dédiée téléphonie.
La pile tĂ©lĂ©com nâa pas Ă©tĂ© pensĂ©e pour lâĂšre des LLM, et lâintĂ©gration est loin dâĂȘtre triviale.
Et maintenant ? Deux âbig unlocksâ pour lâEurope
Pour conclure, les deux intervenants reviennent sur ce qui, selon eux, va débloquer la suite :
-
Un écosystÚme européen durable
-
On nâa ni Google, ni Meta, ni les mĂȘmes VCs que la Silicon Valley.
-
Pourtant, en IA, lâEurope est bien partie (Kyutai, Mistral, pangea de labs, etc.).
-
Pour garder lâavance, il faut des modĂšles Ă©conomiques soutenables :
- pas seulement des démos spectaculaires,
- mais des entreprises qui tiennent dans la durée.
-
-
La latence cÎté humain, plus cÎté IA
- Aujourdâhui, la friction vient souvent de lâagent : latence perçue, coupures, Ă©trangetĂ©s.
- Avec des speech-to-speech Ă 200 ms, lâobjectif est que le âbouchonâ vienne du temps de rĂ©flexion humain, pas de la machine.
âLe vrai tournant, ce sera quand la latence ressentie viendra de lâutilisateur, et non plus du systĂšme dâIA.â
đĄ 13:55 14:10 | Translation & transformer limits
Un talk de Translated sur les frontiĂšres actuelles des modĂšles autoregressifs.
Voici un texte prĂȘt Ă mettre dans ton article pour la partie âTranslation to Translationâ.
Vers le traducteur universel : quand la traduction devient un laboratoire dâAGI
Pour Translated, la traduction nâest pas juste un service linguistique : câest un terrain dâentraĂźnement idĂ©al pour lâintelligence artificielle gĂ©nĂ©rale.
Lâintervenant pose le cadre dĂšs le dĂ©but :
- Toutes les espÚces ont développé le contrÎle moteur.
- Mais aucune, Ă part lâhumain, nâa dĂ©veloppĂ© un langage complexe.
- Câest par le langage que lâon coopĂšre, quâon se projette dans le futur, quâon aligne nos intentions.
« Certains pensent que le problĂšme le plus important, câest dâaller sur Mars. Moi, je pense que le plus important, câest quâon se comprenne dĂ©jĂ sur Terre. »
Câest ce problĂšme-lĂ que Translated attaque : comprendre toutes les langues, dans les deux sens, sans perte de sens.
Mesurer le progrĂšs : non pas en FLOPS, mais en secondes par mot
PlutĂŽt que de raisonner en âtaille de modĂšleâ ou âtokens vusâ, Translated utilise un indicateur super concret :
Combien de temps met un traducteur pro pour corriger la traduction de la machine, mot par mot ?
Ils mesurent :
- le temps de post-édition par mot,
- année aprÚs année, sur des traducteurs professionnels.
Résultat historique :
- de 2010 Ă 2023 : courbe quasi linĂ©aire vers la âsingularitĂ© humaineâ,
- cette singularitĂ© est fixĂ©e Ă 1 seconde par mot : â le moment oĂč lâhumain ne modifie plus rien, il ne fait que valider.
Jusquâil y a peu, la projection disait : on atteindra ça vers 2027.
Mais en mettant Ă jour la courbe avec 2024â2025, surprise :
- la courbe ralentit,
- la droite âtout droit vers la singularitĂ©â se casse,
- on se retrouve plutĂŽt Ă lâhorizon 2030â2032.
MĂȘme ressenti cĂŽtĂ© utilisateurs :
- GPT-5 nâest pas un choc comme GPT-4,
- 5.1, Gemini 3 : ce sont des améliorations incrémentales, pas des ruptures.
La question devient : jusquâoĂč peut-on aller avec lâapproche actuelle, autoregressive, word-first ?
La traduction : un âgymâ brutal pour les modĂšles
Pourquoi la traduction est un excellent test pour lâAGI ?
Parce que, contrairement à un chatbot générique :
-
on nâa pas le droit dâhalluciner :
- inventer une phrase ou un fait en trad est immédiatement visible,
- la moindre hallucination fait rire⊠ou fait perdre un contrat.
-
Il faut une cohérence fine :
- garder le sens,
- respecter les contraintes (longueur, ton, terminologie),
- ne pas âlisserâ ou simplifier le contenu.
La traduction force le modÚle à développer un véritable modÚle du monde, pas seulement un modÚle de texte.
Quand les coĂ»ts dâentraĂźnement explosent
Historiquement, Translated entraĂźnait ses modĂšles de bout en bout :
- ModĂšle de langue (LM).
- ModÚle de traduction spécialisé (MT).
Timeline :
- modĂšles statistiques â
- modĂšles neuronaux (vers 2010) â
- Transformers â
- gros LLM ouverts + fine-tuning.
Le problĂšme, ce sont les coĂ»ts dâentraĂźnement :
- autrefois : 100 heures GPU pour un modĂšle,
- puis : 1 000 heures (gros, mais gérable),
- aujourdâhui : 5 millions dâheures GPU rien que pour du fine-tuning,
- et ~20 millions dâheures pour un full pre-train⊠pour un modĂšle qui vivra 1 an.
Conclusion :
entraĂźner un modĂšle propriĂ©taire complet nâa plus de sens Ă©conomique Ă chaque gĂ©nĂ©ration.
Translated sâest alors appuyĂ© sur des LLM open-source comme base⊠et câest lĂ quâils ont identifiĂ© trois gros angles morts.
Trois limites structurelles des LLM actuels
1. Tokenisation cassée : la confusion commence à la premiÚre étape
Aujourdâhui, la tokenisation (BPE, etc.) est un prĂ©-process sĂ©parĂ© du modĂšle :
- on dĂ©coupe le texte en sous-unitĂ©s (âcasâ, âingâ, â##ionâ, etc.),
- puis seulement ensuite, on encode et on envoie dans le réseau.
ProblĂšme :
-
un mĂȘme segment (ex : âcasâ) peut correspondre Ă :
- âcasaâ en italien,
- case, casual, cascade, etc.
-
lâembedding initial devient ambigu dĂšs lâentrĂ©e,
-
le transformer essaie de rĂ©parer cette ambiguĂŻtĂ©, mais seulement jusquâĂ un certain point.
Idée de Translated pour le modÚle Boops :
-
apprendre la tokenisation avec le modĂšle, via backprop,
-
traiter en entrĂ©e non pas des âtokens BPEâ, mais des bytes bruts,
-
et laisser le rĂ©seau dĂ©couvrir lui-mĂȘme :
- comment segmenter le texte,
- et, à terme, comment intégrer aussi images, vidéo, signaux multimodaux.
Autrement dit :
âOn ne veut plus de prĂ©-processing opaque. On veut un cerveau qui apprend lui-mĂȘme Ă lire ses sens.â
2. Raisonnement en parallĂšle, dans lâespace latent
Aujourdâhui, le raisonnement des LLM, câest :
- autoregressif,
- token aprĂšs token,
- avec parfois des chaßnes de pensée réinjectées dans le prompt.
Mais tout se fait dans le flux de texte, ce qui impose des limitations étranges.
Exemple simple (en italien) :
âTre parole importanti : non sei solo.â
Traduction naĂŻve en anglais :
âThree important words : you are not alone.â
ProblĂšme :
-
âyou / are / not / aloneâ = 4 mots,
-
donc la traduction correcte serait plutĂŽt :
âFour important words: you are not alone.â
Aucun modÚle actuel ne gÚre ça proprement, car il doit :
- compter les mots,
- dĂ©coder en mĂȘme temps,
- dans un flux oĂč tout est mĂ©langĂ©.
Le cerveau humain, lui, fait différemment :
- plusieurs zones traitent en parallĂšle (vision, langage, logiqueâŠ),
- la âfunctional connectivityâ permet de raisonner avant de parler,
- puis seulement ensuite on produit une sortie.
Objectif de Boops :
-
déplacer le raisonnement dans un espace latent interne,
-
laisser le modĂšle :
- manipuler des représentations abstraites,
- vérifier des contraintes (compter, aligner, contrÎler),
- avant de générer le texte final.
3. Apprendre pendant lâinfĂ©rence : de lâexpĂ©rience, pas seulement des donnĂ©es passĂ©es
DerniĂšre limite :
On ne dĂ©passera jamais lâintelligence humaine cumulĂ©e si lâon se contente de recycler des donnĂ©es humaines passĂ©es.
Les humains apprennent :
-
un peu par supervision (livres, cours, corrigés),
-
beaucoup par expérience directe :
- essayer, rater, recommencer,
- sans quâun âoracleâ explicite donne une rĂ©compense numĂ©rique,
- en se donnant soi-mĂȘme des objectifs, des valeurs, une forme dâagence.
Translated a déjà exploré ce principe en 2017 :
-
en traduction, ils ont laissé le systÚme apprendre en continu à partir :
- des corrections de traducteurs,
- du temps de post-édition,
- du comportement réel en production.
-
ce retour dâexpĂ©rience a significativement amĂ©liorĂ© le modĂšle,
-
au point de contribuer Ă faire de Translated une entreprise proche des 100 M$ de revenus.
Lâambition maintenant :
-
généraliser cette approche au-delà de la traduction,
-
crĂ©er des modĂšles qui apprennent pendant quâils infĂšrent :
- ils décomposent les tùches,
- estiment eux-mĂȘmes la qualitĂ© / valeur de ce quâils font,
- se ré-entraßnent localement, sur la base de leur propre expérience.
Boops : un modÚle européen, ouvert, orienté recherche longue
Pour pousser ces idées, Translated a obtenu :
- 30 M⏠de financement de recherche européen,
- ~100 M⏠dâĂ©quivalent compute en crĂ©dits GPU.
Feuille de route annoncée :
-
2026 : premiĂšre version de Boops
-
open-weights, open-source,
-
~10B de paramĂštres,
-
entraßnée pour explorer :
- la tokenisation apprise,
- le raisonnement latent,
- lâapprentissage en ligne.
-
-
2027 : version ~27B.
-
2028 : version finale intĂ©grant lâensemble des briques.
Le tout hĂ©bergĂ© en prioritĂ© sur les infrastructures europĂ©ennes (Scaleway & co.), puis ouvert au reste de lâĂ©cosystĂšme.
Un traducteur qui explique ses choix
En parallĂšle de la recherche âheavyâ, Translated propose dĂ©jĂ un outil grand public :
-
laratranslate.com
- traduction de haute qualité,
- et surtout : â la possibilitĂ© de demander au systĂšme pourquoi il a choisi tel mot plutĂŽt quâun autre.
Ce nâest plus juste âvoilĂ la traductionâ :
- le modĂšle expose ses critĂšres terminologiques,
- justifie ses choix de style ou de vocabulaire.
Pour la suite, Translated coordonne un consortium dâenviron 70 chercheurs (Oxford, EPFL, ETH, etc.) autour de ces questions.
âSi lâun de ces sujets de recherche te parle, viens nous voir.â
đ 14:15 14:45 | Benchmarking the frontier
Une nouvelle façon dâĂ©valuer lâ« AI stack » moderne : hardware, modĂšle, pipeline, inference.
Voici un rĂ©sumĂ© structurĂ© et prĂȘt Ă intĂ©grer dans ton article pour la conf âAI Benchmarkingâ (Micah Hill-Smith â Artificial Analysis).
đ Benchmarking de lâIA : mesurer vraiment ce que valent les modĂšles
Micah Hill-Smith, co-fondateur et CEO dâArtificial Analysis, prĂ©sente comment son Ă©quipe mesure et compare les modĂšles dâIA, les infrastructures et les puces. Leur promesse : donner aux builders des donnĂ©es indĂ©pendantes pour choisir les bons modĂšles, au bon prix, pour les bonnes applis.
đ„ Qui est Artificial Analysis ?
-
Site : artificialanalysis.ai
-
RĂŽle : tiers de confiance pour :
- mesurer lâintelligence des modĂšles (LLM, image, audio, vidĂ©o),
- évaluer latence, coût, efficacité, tokens utilisés,
- comparer labs, clouds, chips.
-
Clients : labs de haut niveau + entreprises qui construisent des produits IA.
-
Outils : un Intelligence Index (score synthétique) et des datasets/évals custom pour les besoins spécifiques.
đ OĂč en sont les LLM aujourdâhui ?
Ils affichent une courbe dâĂ©volution de leur Intelligence Index depuis GPT-3.5 :
-
PĂ©riode âOpenAI dominĂ© toutâ aprĂšs GPT-4.
-
Puis arrivĂ©e des reasoning models fin 2024 â gros saut de performance sur les benchmarks de raisonnement.
-
En 2025, les trois âfrontier labsâ sont au coude Ă coude : OpenAI, Anthropic, Google (et XAI en embuscade).
-
Sur les use cases concrets (notamment le code) :
il y a un an, les agents de code faisaient peu de choses utiles. aujourdâhui, ils fonctionnent vraiment.
MĂȘme si GPT-5 nâa pas âsentiâ comme une rĂ©volution pour tout le monde, si on zoome Ă lâĂ©chelle 2,5 ans, le saut est gigantesque.
đ§± La stack IA vue par Artificial Analysis
Micah dĂ©coupe lâĂ©cosystĂšme en 4 couches :
-
Applications â ChatGPT, copilots, produits B2B, apps finales.
-
ModĂšles de fondation â GPT-5, Mistral Large, Qwen, etc.
-
Cloud dâinfĂ©rence / APIs â Endpoints que les devs appellent (OpenAI, Anthropic, Groq, etc.).
-
MatĂ©riel / AccĂ©lĂ©rateurs â GPUs (NVIDIA), TPUs (Google), autres chips spĂ©cialisĂ©s.
Google est lâacteur le plus intĂ©grĂ© verticalement (du chip aux apps). Les autres adoptent des stratĂ©gies plus partielles.
đž IA : en mĂȘme temps beaucoup moins chĂšre⊠et beaucoup plus chĂšre
Micah pose un paradoxe :
âLâIA est devenue 100Ă moins chĂšre⊠mais vos requĂȘtes coĂ»tent souvent 10Ă plus quâavant.â
1. Pourquoi câest moins cher pour un niveau donnĂ© dâintelligence ?
Pour un âniveau GPT-4â par exemple :
- ModĂšles plus petits + sparsitĂ© â moins de paramĂštres activĂ©s Ă chaque requĂȘte.
- Optimisations logicielles dâinfĂ©rence.
- Nouveaux hardwares plus efficaces (nouvelles générations de GPU/TPU).
- RĂ©sultat : le coĂ»t pour produire un token de qualitĂ© GPT-4 a chutĂ© dâenviron Ă100.
2. Pourquoi vos requĂȘtes coĂ»tent plus cher au final ?
Parce quâon fait faire beaucoup plus de choses au modĂšle :
-
ModÚles plus gros au sommet (certains dépasseraient GPT-4 en taille).
-
Reasoning models â ils âpensentâ avec des milliers de tokens avant de rĂ©pondre.
-
Agents IA :
- chain-of-thought sur plusieurs appels,
- recherche web, RAG, outils,
- agents de code qui modifient des fichiers, exécutent du code, relancent des tests, etc.
Donc : đ§ Intelligence par dollar augmente. đ¶ CoĂ»t par requĂȘte utile explose si tu laisses lâagent travailler longtemps.
đ§ Reasoning models & efficacitĂ© en tokens
Avant, la distinction était simple :
- modĂšles ânormauxâ vs
- reasoning models (avec trace de réflexion explicite, beaucoup plus de tokens internes).
Maintenant, câest plus flou :
- Certains modĂšles sans âmode reasoningâ parlent beaucoup et font quand mĂȘme beaucoup de raisonnement implicite.
- Certains reasoning models récents sont beaucoup plus efficaces en tokens.
Artificial Analysis parle désormais plutÎt de :
token efficiency = nombre de tokens utilisĂ©s pour atteindre un certain niveau dâintelligence.
En pratique, pour un builder, il faut regarder :
- pas seulement âraisoning on/offâ,
- mais combien de tokens le modĂšle consomme pour ton type dâusage (latence + facture).
đŠ Open weights vs modĂšles propriĂ©taires
Ils comparent la meilleure perf open-weights et la meilleure perf propriétaire :
- Le gap entre les deux reste rĂ©elâŠ
- ⊠mais le fait marquant est que les modÚles open-weights suivent le rythme de prÚs.
Top open-weights actuels (selon eux) :
- Beaucoup viennent de Chine (DeepSeek V3.2, Minimax M2, Qwen 3, etc.).
- OpenAI a aussi sorti GPT-OSS (open-weights).
- CÎté Europe : Mistral Small / Medium occupent une trÚs bonne place, surtout en multimodal petit modÚle.
Point important sur Mistral Large 3 :
- Le modĂšle Ă©valuĂ© est un instruct, pas encore un reasoning RLHF complet â il est plus token-efficient mais nâĂ©crase pas Medium 1.2 sur leurs indices de reasoning.
- Une future version reasoning pourrait logiquement le placer au-dessus.
đ§Ș Nouveaux types de benchmarks : connaissance & hallucinations
Ils ont construit des évals spécifiques pour mesurer :
-
Connaissances factuelles â questions fermĂ©es oĂč il y a une bonne rĂ©ponse clairement dĂ©finie.
-
Comportement face Ă lâincertitude â quand le modĂšle ne sait pas, est-ce quâil :
- dit âje ne sais pas / je ne suis pas sĂ»râ, ou
- invente une réponse fausse avec confiance ?
Ils mesurent donc :
- Accuracy (pourcentage de bonnes réponses).
- Taux de âhallucinationsâ : proportion de cas oĂč le modĂšle rĂ©pond faux alors quâil aurait dĂ» reconnaĂźtre quâil ne savait pas.
Observation notable : les modĂšles dâAnthropic (Claude) sont trĂšs puissants, mais parfois mal calibrĂ©s sur âje ne sais pasâ vs âje tente ma chanceâ.
đ§Ź LââOpenness Indexâ : Ă quel point un modĂšle est vraiment ouvert ?
Ils prĂ©sentent aussi un Openness Index, un score pour mesurer Ă quel point un modĂšle est rĂ©ellement âopenâ :
-
Pas seulement : est-ce que les poids sont disponibles ?
-
Mais aussi :
-
quelles sont les conditions de licence ?
-
a-t-on accĂšs Ă :
- la recette dâentraĂźnement,
- la composition du dataset (au moins en grandes lignes),
- les scripts / configs ?
-
-
Un score parfait signifierait :
âOn peut recrĂ©er le modĂšle depuis zĂ©ro en suivant la doc publique.â
Mistral obtient un des meilleurs scores actuels parmi les LLM propriĂ©taires/open-weights âsĂ©rieuxâ.
đŒïž Au-delĂ du texte : image & vidĂ©o
Micah termine sur un point important : le monde ne se résume pas aux LLM texte.
Artificial Analysis benchmarke aussi :
- GĂ©nĂ©ration dâimages (diffusion, LLM visuels),
- GĂ©nĂ©ration vidĂ©o (surtout imageâvidĂ©o),
- ModĂšles audio / speech.
Ils utilisent notamment des âpreference arenasâ : des interfaces oĂč des humains comparent deux sorties et choisissent celle quâils prĂ©fĂšrent â ce qui permet dâĂ©valuer des dimensions comme :
- qualité visuelle,
- cohérence,
- utilité perçue.
âïž 14:50 15:05 | The first AI flying a fighter jet
Helsing montre que lâEurope avance aussi sur les usages sensibles.
Voici un texte clair, structurĂ© et prĂȘt Ă ĂȘtre intĂ©grĂ© dans ton article, qui rĂ©sume parfaitement la confĂ©rence Flight â LâIA qui pilote un avion de chasse.
đ Flight : Quand une IA devient copilote de combat
Lâhistoire de la premiĂšre IA Ă piloter un avion de chasse opĂ©rationnel
La scĂšne sâouvre sur une vidĂ©o impressionnante : un avion de chasse en vol, manĆuvrĂ© non pas par un pilote humain, mais par une IA embarquĂ©e. Le chercheur de Helsing raconte comment ils ont construit Centaur, le premier copilote dâIA capable de mener un combat aĂ©rien moderne.
Et pour comprendre pourquoi câest une rĂ©volution, il faut dâabord dĂ©construire un mytheâŠ
đ©ïž Le combat aĂ©rien moderne nâa plus rien Ă voir avec Top Gun
Lâimaginaire collectif pense encore aux dogfights :
- deux avions qui se tournent autour,
- les pilotes qui sâobservent Ă vue,
- lâaffrontement physique et instinctif.
La réalité 2025 ? Rien de tout ça.
Le combat nâest plus visuel. Il est :
- Ă 10 000 m dâaltitude,
- Ă des centaines de kilomĂštres de distance,
- entiÚrement piloté par des radars, capteurs, écrans,
- 100 % dans l'information et la prise de décision.
Câest un jeu dâĂ©checs 3D Ă grande vitesse, en pleine tempĂȘte. Celui qui gagne est celui qui traite lâinformation le plus vite.
Et câest prĂ©cisĂ©ment lĂ que lâIA excelle.
â ïž Pourquoi lâarmĂ©e a besoin dâIA maintenant
Trois facteurs rendent lâIA indispensable dans les systĂšmes de dĂ©fense :
1. La vitesse
Les menaces modernes évoluent à la seconde. Un humain ne peut plus suivre.
2. La surcharge cognitive
Un pilote doit :
- gérer radars, missiles, alliés, météo, trajectoires,
- analyser des téraoctets d'information,
- prendre des décisions vitales en quelques instants.
Câest trop pour un cerveau humain.
3. La maturitĂ© de lâIA
On sort du buzzword : les agents sont maintenant â fiables, â rĂ©actifs, â capables dâexĂ©cuter des stratĂ©gies complexes.
MĂȘme le ministĂšre de la DĂ©fense du Royaume-Uni lâa dĂ©clarĂ© :
« Nos adversaires doivent savoir que nous innovons à un rythme de temps de guerre. »
đŻ Centaur : le copilote IA pour les engagements BVR
(Beyond Visual Range)
Câest le cĆur du problĂšme : les combats BVR, ceux oĂč on ne voit jamais lâennemi.
Lâenvironnement BVR, c'est :
- information partielle,
- incertitude totale,
- anticipation, bluff, estimation,
- décisions sous stress et sous 9G.
Câest littĂ©ralement un mĂ©lange de :
đ§ Ăchecs â planification long terme đČ Poker â incertitude, bluff, probabilitĂ©s
Et lâIA parfaite pour ça ? â Un agent de Reinforcement Learning.
đ€ Le rĂŽle de Centaur dans le cockpit
Centaur reçoit en entrée :
- objectif de mission,
- commandes humaines,
- donnĂ©es capteurs (radar, instruments de volâŠ),
- informations provenant dâautres avions.
Et en sortie, il produit :
-
Commandes de guidage (orientation, trajectoire, gestion des distances)
-
Recommandations tactiques (quand tirer, quand manĆuvrer, quand Ă©viter)
-
Communication dâintention â vers le pilote humain â vers les alliĂ©s
Câest un vĂ©ritable copilote dotĂ© dâune vision tactique parfaite.
đ§Ș LâingrĂ©dient secret : un simulateur IA-first
Les simulateurs traditionnels sont :
- trĂšs fidĂšles graphiquement,
- conçus pour entraßner des pilotes humains.
Mais pour du RL, il faut :
- des milliards dâexpĂ©riences,
- de la vitesse (x100, x1000),
- de la variabilité.
Helsing a donc construit un simulateur propriétaire, capable de :
- sâexĂ©cuter des milliers de fois en parallĂšle,
- tourner bien plus vite que le temps réel,
- modifier alĂ©atoirement les conditions de vol, la mĂ©tĂ©o, les capteursâŠ
LâIA peut ainsi vivre des dĂ©cennies dâexpĂ©rience en quelques jours.
đ§Ź Lâapprentissage : de zĂ©ro Ă expert
Lâagent RL :
- ne connaĂźt rien,
- joue contre lui-mĂȘme,
- teste, échoue, corrige, recommence,
- explore toutes les tactiques possibles.
Résultat :
Sans jamais voir une stratégie humaine, il invente ses propres tactiques.
Tactiques émergentes observées :
- feintes de missile,
- gestion dâaltitude pour Ă©viter les radars,
- conservation de munitions,
- manĆuvres anticipĂ©es selon les probabilitĂ©s ennemies.
Le tout avec une performance superhumaine.
đ« Du simulateur au vrai jet : mission Gripen
Mettre une IA au commande dâun avion rĂ©el exige trois choses :
1. Robustesse aux incertitudes
On ne connaĂźt jamais exactement :
- lâaĂ©rodynamique rĂ©elle,
- le traitement radar exact,
- les latences du matériel.
Donc lâIA est entraĂźnĂ©e dans un environnement â plein de bruit, â de paramĂštres alĂ©atoires, â de variations extrĂȘmes.
2. Une architecture avion adaptée
Le Saab Gripen offre :
- séparation stricte entre commandes critiques et tactiques,
- guidage de bas niveau ultra-fiable,
- compute embarqué suffisant.
Le pilote humain reste au cĆur du systĂšme. LâIA ne touche pas aux commandes vitales directes. Elle gĂšre la stratĂ©gie.
3. Des boucles de contrĂŽle ultra-stables
Pour que lâIA puisse se concentrer sur les dĂ©cisions haut niveau.
âïž La premiĂšre dĂ©monstration en vol rĂ©el
LâĂ©tĂ© dernier, en SuĂšde, Helsing et Saab ont rĂ©alisĂ© un test dĂ©cisif :
- un avion Gripen équipé de Centaur,
- un autre avion piloté par un humain en face,
- environnement réel, menaces réelles, données réelles.
Pendant le vol, lâIA :
- dĂ©tecte lâadversaire,
- met à jour sa stratégie,
- manĆuvre en anticipant les mouvements ennemis,
- optimise sa position BVR en continu.
Une IA, dans un avion réel, en train de mener un combat aérien moderne.
Câest une premiĂšre.
đ§ Pourquoi câest plus quâun autopilote
Helsing le répÚte :
Ce nâest pas un meilleur autopilote. Câest un grand maĂźtre des Ă©checs intĂ©grĂ© dans un cockpit.
Lâobjectif nâest pas de remplacer le pilote. Câest de lui donner un avantage dĂ©cisif dans les situations les plus critiques.
Une IA capable dâinnover Ă un rythme de temps de guerre.
đ„ Conclusion
Centaur représente :
- la premiÚre IA réellement opérationnelle dans un avion de chasse,
- une démonstration du potentiel du RL pour des décisions en temps réel,
- une avancée stratégique majeure pour les démocraties occidentales.
Et Helsing recrute. Beaucoup.
đ± 15:10 15:40 | Transparency & AI Carbon Footprint
Scaleway + Salesforce explorent le sujet crucial de la sobriété et de la transparence énergétique.
âïž 15:45 16:00 | Building AI that scales (Ampere)
Le futur du compute : CPU ARM, efficacité énergétique, IA pervasives.
đ€ 16:05 16:25 | From Foundation Models to Real-World Actions
Scaleway + Enchanted Tools : comment passer du modĂšle Ă lâaction physique (robotique).
⥠16:30 16:50 | Building at the speed of agents
VAST Data, Semianalysis et H Company discutent pipelines, data infra, entraĂźnement.
đ 16:55 17:10 | From single agents to agent fleets
Dust explore comment piloter des flottes dâagents, pas juste un agent isolĂ©.
đ 17:35 17:55 | AI & Privacy
Proton donne une vision forte dâune IA privĂ©e et chiffrĂ©e essentielle pour lâEurope.
đĄ Central Room : hardware, pharma, multimodalitĂ©, crĂ©ativitĂ© et MCP
14:20 14:50 | Beyond Air Cooling
Lâavenir du hardware IA : refroidissement, haute densitĂ©, nouvelles architectures.
15:15 15:45 | AI for Pharma R&D
Biolevate + Sanofi : comment lâIA accĂ©lĂšre la dĂ©couverte molĂ©culaire.
Voici un rĂ©sumĂ© clair et rĂ©utilisable de la session âPharmaceutique & santĂ© publiqueâ (12â15h15).
đŻ ThĂšme de la table ronde
Comment lâIA transforme Ă la fois :
- la surveillance épidémiologique,
- la découverte de nouveaux traitements,
- et la mise sur le marché de médicaments / vaccins,
dans un secteur ultra-régulé (pharma, santé publique).
Intervenants :
- JoĂ«l Belafont â co-fondateur de BioElevate (ex-bĂątisseur de produits tech depuis 15+ ans).
- Antoine de Dorcich â co-fondateur, responsable IA chez BioElevate.
- CĂ©dric Meillet â Sanofi Vaccins, spĂ©cialiste Ă©pidĂ©miologie & santĂ© publique (ex-OMS).
- Modération : Sophia (BioStream).
đ§Ș Les grandes faiblesses actuelles de la santĂ© publique (CĂ©dric â Sanofi)
-
Données trop lentes
- Les systÚmes de surveillance épidémiologique classiques sont rigides, basés sur des pipelines propres mais lents.
- Parfois, les journaux tĂ©lĂ©visĂ©s annoncent lâĂ©pidĂ©mie avant les dashboards officiels.
-
Une seule source de vérité par indicateur
-
Traditionnellement : un indicateur â une source (ex : labos, hĂŽpitaux).
-
Or aujourdâhui, on pourrait croiser :
- logiciels de cabinets de médecine générale (GP software),
- réseaux sociaux,
- eaux usées,
- labos privés, etc.
-
Exemple : en Allemagne, accĂ©der au logiciel des gĂ©nĂ©ralistes permet de suivre 400 000 patients/semaine avec 48 h de retard seulement â quasiment du temps rĂ©el.
-
-
SĂ©lection des souches vaccinales encore âĂ lâancienneâ
-
Pour la grippe : on reformule 2Ă/an.
-
Mais la façon de choisir les antigĂšnes Ă mettre dans le vaccin nâa quasi pas changĂ© depuis 50 ans.
-
Peu ou pas dâexploitation :
- des données historiques massives,
- ni dâIA pour prĂ©dire les souches futures.
-
đ€ OĂč lâIA apporte le plus de valeur ? (JoĂ«l & Antoine â BioElevate)
1. Une techno âconvergenteâ
Pour JoĂ«l, lâIA utile en santĂ©, ce nâest pas juste âdes LLMâ :
- modĂšles classiques de machine learning,
- LLM et transformers,
- analyse de texte, dâimages, de signaux capteurs,
- modĂšles de recherche / RAG,
- agents spécialisés qui combinent plusieurs outils,
- plus lâĂ©volution des sensors et du hardware (inference embarquĂ©e, etc.).
Tout converge pour attaquer un problÚme complexe par plusieurs canaux en parallÚle : quelles maladies émergent ? quelles souches virales ? quels traitements possibles ?
2. LâĂ©tat rĂ©el des LLM aujourdâhui
Antoine résume bien la situation :
âOn peut attaquer nâimporte quel problĂšme complexe avec des LLM si on le dĂ©coupe en sous-tĂąches que le modĂšle sait rĂ©soudre.â
Deux limites majeures :
-
Mémoire & contexte
-
Un LLM ne peut pas ingérer brut :
- une base de données gigantesque,
- des années de littérature scientifique,
- des millions de documents réglementaires.
-
Il faut sĂ©lectionner et structurer lâinformation en amont.
-
-
ChaĂźnes de raisonnement longues
- Si on laisse le modĂšle âpenserâ trop longtemps, il dĂ©rive, perd le fil, hallucine ou sort de sa mission.
BioElevate construit donc lâinfrastructure autour du modĂšle pour compenser ces limites.
𧱠Innovations clés de BioElevate pour la pharma
1. Compréhension profonde des documents
-
Travail trÚs poussé sur :
- la sĂ©mantique des documents (oĂč se trouve la connaissance, comment elle est structurĂ©e),
- pas seulement âtexte brutâ mais structure, sections, taxonomie.
2. Un ânouveau vector storeâ orientĂ© navigation, pas seulement recherche
-
Critique de lâapproche standard chunking + simple vecteurs :
-
le découpage en chunks fait perdre :
- la structure,
- le contexte global,
- les liens entre sections.
-
on force lâIA Ă ne faire que de la recherche sĂ©mantique ponctuelle, ce qui est limitĂ©.
-
-
BioElevate propose un âknowledge storeâ :
-
orienté navigation de connaissance :
- parcourir les sections,
- suivre une taxonomie,
- explorer un corpus âcomme un expert humainâ.
-
Lâagent peut se dĂ©placer dans le document, pas seulement recevoir 3 chunks choisis.
-
3. Orchestration agentique & workflows complexes
-
Les questions mĂ©tier sont souvent : âĂ©pidĂ©mie en vue ? quelles variantes ? quelles recommandations ?â â ce ne sont pas des questions Ă un seul shot.
-
BioElevate orchestre :
- un workflow complexe â en sous-workflows,
- plusieurs agents spécialisés collaborent,
- chacun appelle ses outils, construit une partie de la carte mentale,
- le tout reste traçable et reproductible â important pour le rĂ©glementaire.
đ«đ· Projet IOLOS : un vrai cas concret de santĂ© publique
Cédric annonce officiellement :
-
Sanofi, BioElevate, Orange, Impact Healthcare ont Ă©tĂ© sĂ©lectionnĂ©s par le cluster IDBO (santĂ© â France 2030) pour le projet IOLOS :
-
objectif : révolutionner la surveillance des maladies respiratoires en France (grippe, COVID, etc.).
-
approche : multi-sources de donnĂ©es (GP, labos, eaux usĂ©es, rĂ©seaux, etc.) â un dashboard IA qui:
-
surveille en temps réel,
-
prévoit les vagues épidémiques/pandémiques,
-
alimente des applications mobiles pour le citoyen :
âAvant de sortir en hiver, tu peux voir ton risque dâattraper la grippe ou le COVID.â
-
-
-
Timeline :
- début prévu avant mi-2026, durée 4 ans,
- pilote régional vers 2 ans,
- solution industrielle complĂšte vers 4 ans.
𧏠IA & découverte de traitements (BioElevate)
Joël décrit une autre application, cÎté R&D thérapeutique :
-
Ils ont utilisé leurs pipelines pour découvrir de nouveaux traitements sur :
- des maladies rares ou orphelines,
- des domaines comme oncologie, dermatologie, etc.
-
En particulier :
- un candidat traitement en leucémie a passé des premiers tests précliniques.
-
StratĂ©gie : se concentrer sur des maladies non rentables pour les big pharmas (trop rares), et utiliser les agents IA pour explorer lâespace thĂ©rapeutique beaucoup plus vite.
âïž Innovations âpragmatiquesâ : prompts & agents
1. Optimisation automatique de prompts
-
BioElevate a publié un papier sur la prompt optimisation :
- sans changer le modĂšle,
- ils peuvent augmenter lâaccuracy jusquâĂ +60 % sur certaines tĂąches,
- parfois mieux quâun fine-tuning LoRA, sans risque de fuite de donnĂ©es sensibles dans un modĂšle LoRA.
-
Cette techno sera intĂ©grĂ©e au cĆur de leur plateforme lâan prochain.
2. Scaling des agents : promesses et problĂšmes
Joël est trÚs clair :
âPour 10 innovations que tu poses, tu crĂ©es 10 problĂšmes.â
-
Vision : faire passer une tĂąche de 1 an de clics pour des humains â Ă 100 000 agents qui collaborent pendant 1 heure.
-
Mais Ă chaque palier Ă10 :
- on découvre un nouveau bottleneck (infra, orchestration, transactions, monitoring, conformité),
- on lâoptimise,
- puis le palier suivant rĂ©vĂšle un nouveau goulot dâĂ©tranglement.
đ RĂ©glementation, traçabilitĂ© & confiance
Cédric (Sanofi) insiste :
-
Réalité pharma : régulation lourde (agences, EMA, FDA, etc.).
-
Ce qui est indispensable :
- TraçabilitĂ© : pouvoir rejouer le raisonnement, suivre les sources, expliquer le âpourquoiâ.
- ReproductibilitĂ© : obtenir le mĂȘme rĂ©sultat, avec les mĂȘmes entrĂ©es.
- Transparence : pas de âboĂźte noire magiqueâ sans explication.
Sanofi a mis en place une politique âResponsible AIâ (co-RAISE) : un cadre interne oĂč les solutions dâIA doivent respecter ces exigences.
BioElevate, de son cÎté, conçoit ses workflows agentiques avec :
- historique complet des étapes de raisonnement,
- sources citées,
- capacitĂ© Ă refaire le mĂȘme chemin â critique pour ĂȘtre acceptable auprĂšs des rĂ©gulateurs.
đ Le âgrosâ problĂšme Ă 5 milliards de dollars
Question âbaguette magiqueâ de Sophia Ă CĂ©dric :
âSi tu pouvais demander une seule chose Ă BioElevate ?â
Réponse :
-
Améliorer massivement la sélection des souches de grippe / COVID pour les vaccins.
- Exploiter 50 ans de données non utilisées,
- utiliser lâIA pour prĂ©dire quelles souches domineront,
- augmenter nettement lâefficacitĂ© des vaccins.
-
Il annonce aussi :
- un workshop prĂ©vu avec lâOMS Ă GenĂšve avant mi-2026, pour travailler sur lâusage de lâIA dans ce processus de sĂ©lection.
𧏠Maladies rares & médecine de précision
Sur la question des maladies trĂšs rares, souvent âpas intĂ©ressantesâ Ă©conomiquement :
-
JoĂ«l rappelle que lâIA ne âveutâ rien, ce sont les humains qui portent le projet.
-
Mais si on industrialise les méthodes de recherche & de design de traitements grùce aux agents :
on peut, à terme, envisager de développer des traitements pour quasiment tout, y compris des cas ultra-personnalisés (génome spécifique, configuration unique).
Câest la vision : mĂ©decine de prĂ©cision Ă grande Ă©chelle, rendue possible par la scalabilitĂ© des agents IA.
đ§ Message final de JoĂ«l : qui peut construire ça ?
Sophia lui demande un conseil pour ceux qui veulent se lancer dans lâIA appliquĂ©e Ă des secteurs critiques (santĂ©, dĂ©fense, etc.) sans ĂȘtre mĂ©decin/PhD :
-
On ne contribue pas parce quâon est âun gĂ©nie de lâIAâ, mais parce quâon a :
- une expérience unique,
- un angle de frustration fort sur un problÚme précis.
-
Les grands labs (ex : Anthropic) recrutent des profils hors IA pure :
- lâenjeu clĂ©, câest formuler correctement le problĂšme et les contraintes.
-
Si quelque chose te frustre dans le monde réel, tu peux :
- tâapproprier les outils IA,
- construire la solution autour de cette frustration.
âIl y a lâintelligence artificielle, mais il y a surtout lâintelligence humaine qui va la mettre au service de quelque chose.â
15:50 16:05 | Zero-shot product taxonomy (Veepee)
Un vrai cas dâusage e-commerce europĂ©en.
Voici un rĂ©cap clair du talk âMultimodal product classification chez VP (Veepee)â.
đŹ Contexte : VP (Veepee) et le problĂšme mĂ©tier
- VP = unicorn française, fondée en 2001
- 5 000 employĂ©s, 30 M de membres actifs, activitĂ© dans toute lâEurope
- 5 millions de produits par an, issus de ~7 000 marques, dans toutes les verticales (sport, jardin, électroménager, etc.)
Pour chaque produit, il faut :
- fiche technique,
- images,
- et surtout une classification produit correcte (taxonomie interne).
Pourquoi la classification est critique ?
Parce quâelle impacte toute la chaĂźne :
-
Pricing : mauvaise catĂ©gorie â mauvais prix â perte de marge / perte de compĂ©titivitĂ©.
-
Finance / FiscalitĂ© : reporting, taxes, budgets â tout repose sur la bonne taxonomie.
-
Logistique :
- ex : un produit classĂ© âT-shirtâ alors que câest un âlave-vaisselleâ â catastrophe en entrepĂŽt.
-
QualitĂ© actuelle des donnĂ©es : ~11 % dâerreurs dans le catalogue â difficile de sâen servir pour entraĂźner un modĂšle classique.
Ils ont essayĂ© de faire un âvraiâ modĂšle ML pendant 6 ans â Ă©chec.
Pourquoi câest dur avec du ML classique ?
-
Taxonomie non MECE (non âMutually Exclusive, Collectively Exhaustiveâ)
- ex : âT-shirtâ VS âTopâ â un T-shirt est un top, mais la taxonomie les sĂ©pare quand mĂȘme.
-
Taxonomie qui évolue constamment (nouvelles tendances, nouveaux produits).
-
Imbalance massif entre catégories :
- certaines catĂ©gories ont des millions dâitems historiques,
- dâautres : 3 produits (ex : âImprimantes 3DââŠ).
-
Cold start : une nouvelle catĂ©gorie nâa pas assez de donnĂ©es pour lâapprentissage.
-
Et les donnĂ©es historiques sont bruitĂ©es (11 % dâerreursâŠ).
Conclusion : il faut un systÚme zero / few-shot, pas un gros classifieur supervisé.
đ§ Ătape 1 â Zero-shot avec CLIP (baseline multimodale)
Ils utilisent un modĂšle CLIP (image + texte) en âzero-shot classificationâ.
Principe
-
Pour chaque catĂ©gorie (â 1 500 catĂ©gories) :
-
transformer la catégorie en phrase :
âThis product is a T-shirtâ, âThis product is a dishwasherâ, etc.
-
embeddings texte â vecteurs de dimension d.
-
-
Pour chaque produit :
- encoder lâimage du produit â embedding image.
- calculer la similaritĂ© (cosinus, euclidienne, etc.) entre lâimage et les 1 500 vecteurs de catĂ©gories.
- prendre le Top-1 comme prédiction.
-
Variante avancée :
- ne pas embedder seulement le nom de la catégorie,
- mais aussi les métadonnées / connaissances expertes liées à la catégorie (description métier, rÚgles, etc.).
Avantages
- Zero training : pas de fine-tuning, pas de data cleaning massif.
- TrÚs rapide et peu coûteux (embedding + similarités).
- GĂšre naturellement lâajout de nouvelles catĂ©gories (on les embedde, point).
Limites
- Top-1 accuracy â 58 % (vs ~89 % pour un humain).
- En Top-15, on monte à ~89 % (on finit par inclure la bonne catégorie quelque part dans la liste).
- â ça ne suffit pas pour de lâautomatique : câest plutĂŽt une assistance humaine ou un prĂ©-filtrage.
đ§ Ătape 2 â Ajout du KNN historique (similaritĂ© avec les anciens produits)
Idée : comparer le produit non seulement aux catégories, mais aussi aux anciens produits bien labellisés.
Pipeline
-
Ils identifient 1,5 M de produits historiques bien étiquetés (labels sûrs).
-
Pour un nouveau produit :
- encoder lâimage,
- faire un KNN (k plus proches voisins) dans cette base de 1,5 M embeddings,
- récupérer les k produits similaires (ex : top 100).
-
Récupérer les catégories de ces voisins :
- pour ces 100 produits, collecter leurs catégories,
- en extraire un Top-30 de catégories les plus fréquentes / pertinentes.
-
Combiner :
- Top-30 du CLIP âcatĂ©goriesâ
- Top-30 du KNN âproduits similairesâ â fusion (par ex. via un LRF / vote pondĂ©rĂ©).
Résultat :
- Sur le Top-15 final, la probabilité que la bonne catégorie soit présente dépasse la performance humaine.
Pourquoi câest bien ?
-
On introduit un biais historique volontaire :
- le modĂšle âimiteâ ce que les Ă©quipes font depuis des annĂ©es,
- et colle au âbusiness logicâ rĂ©el de VP.
-
Le coût reste trÚs faible (embeddings + KNN sur un index vectoriel).
đ§ Ătape 3 â Ajout dâun LLM multimodal pour trancher le Top-1
Là , on rentre dans le vrai génératif multimodal.
On part du constat :
- en Top-15, le bon label est lĂ ~96 % du temps (aprĂšs CLIP + KNN).
- il manque juste un âcerveauâ pour choisir le bon parmi ces 15 candidats.
Entrées pour le LLM multimodal
Pour chaque produit :
-
Les 15 catĂ©gories candidates (issues de lâĂ©tape prĂ©cĂ©dente).
-
Lâimage du produit.
-
La fiche technique / texte (titre, description, attributsâŠ).
-
Le label book :
-
un document texte en langage humain :
- expliquant ce que couvre chaque catégorie,
- les rĂšgles mĂ©tier (âon met X ici, sauf si Yâ, etc.),
- exactement ce quâon donnerait comme consigne Ă un humain.
-
Ce que fait le LLM
-
Câest un LLM multimodal (image + texte).
-
Il reçoit tout le contexte (produit + 15 catégories + rÚgles métiers).
-
Il doit :
- expliquer son raisonnement,
- sélectionner une seule catégorie finale parmi les 15.
Sortie :
-
un JSON structuré contenant :
- la catégorie choisie,
- éventuellement le raisonnement.
Résultat
- Top-1 accuracy â 94 %, donc supĂ©rieure Ă lâhumain (~89 %).
Et le tout :
-
sans fine-tuning lourd sur un LLM,
-
en sâappuyant sur :
- embeddings dâimage,
- embeddings de textes,
- LLM multimodal off-the-shelf (open weights possible),
-
- la connaissance métier encapsulée dans le label book.
đ§Ÿ PropriĂ©tĂ©s intĂ©ressantes de cette approche
-
Zero / few-shot de bout en bout
- on ne dĂ©pend pas dâĂ©normes datasets propres par catĂ©gorie.
- solution robuste au cold-start : il suffit de créer une nouvelle catégorie, un label book, et on peut la proposer dans le Top-15.
-
Adaptable Ă dâautres modalitĂ©s :
-
actuellement : image + texte,
-
mais on peut imaginer ajouter :
- métadonnées,
- signaux numériques,
- etc.
-
-
Coût maßtrisé & scalable :
- embeddings = trÚs bon marché,
- LLM utilisé seulement sur le top 15, pas sur tout le catalogue brut,
- donc exploitable sur 5 M de produits / an.
-
ROI élevé :
- rĂ©duction des erreurs de classification â impact immĂ©diat sur pricing, logistique, finance, expĂ©rience client.
𧩠En résumé (pattern réutilisable)
Le schéma général que tu peux réappliquer ailleurs :
-
Multimodal embedding (CLIP / similaire) pour faire du zero-shot.
-
Rappel dâhistorique via KNN sur des donnĂ©es propres, pour injecter les biais & rĂšgles mĂ©tier implicites.
-
LLM multimodal pour :
- lire produit + candidats + rÚgles métiers,
- produire une décision structurée (JSON) + raisonnement.
â Sans gros training supervisĂ©, tu obtiens :
- une précision > humain,
- un systÚme souple, scalable, peu coûteux,
- capable dâabsorber de nouvelles catĂ©gories trĂšs vite.
16:10 16:40 | Video AI pipelines
AIVE, XXII, Molia : du edge inference â aux pipelines gĂ©nĂ©ratifs vidĂ©o.
Voici un rĂ©sumĂ© structurĂ© du talk âVideo AI â de la vidĂ©o aux donnĂ©esâ (14hâ16h10).
đ„ Les intervenants & leurs produits
-
ModĂ©rateur : Paul Moshkovich â cofondateur de Modia (lab IA externalisĂ© pour entreprises).
-
Olivier / AVE â Artificial Agents for Video Experiments
-
Plateforme dâautomatisation de production vidĂ©o pour :
- marques, agences, médias, réseaux sociaux.
-
Ă partir dâun spot TV, dâun film ou dâune Ă©mission :
- résume, reformate, localise, adapte par audience / réseau, le tout avec validation humaine.
-
Tech maison : MGT â Multimodal Generative Technology.
-
-
Dan / TwentyTwo (22)
-
Société de 10 ans, spécialisée dans :
- analyse vidéo en temps réel (vidéosurveillance, retail, etc.).
-
Ne stocke jamais les images :
- transforme directement le flux en donnĂ©es structurĂ©es (objets, comportements, temps passĂ©, trajectoiresâŠ).
-
Alimentent ensuite dâautres modĂšles / dashboards / systĂšmes opĂ©rationnels.
-
đŹ Vision commune : traiter la vidĂ©o comme donnĂ©e, pas comme pixels
Les deux boĂźtes partagent la mĂȘme philosophie :
La vidéo = une source de données multimodales (image, audio, temporalité, contexte), pas seulement une suite de pixels.
Chez AVE
-
Ils décomposent la créativité :
- CĂŽtĂ© visible : la vidĂ©o que lâon voit.
- CÎté machine : un ensemble de données structurées décrivant la vidéo.
-
Ils ont développé des dizaines de modÚles IA propriétaires (plus des modÚles open source) qui détectent :
- personnes, Ă©motions, cadrage, objets, logo, discours, mouvement, narration, brandingâŠ
-
Tout est transformĂ© en âvideo-to-dataâ, puis :
- utilisé pour résumer, reformater, adapter un contenu à différents usages (TV, TikTok, Facebook, etc.).
-
Ensuite, un moteur gĂ©nĂ©tique gĂ©nĂšre automatiquement des milliers de variantes vidĂ©o (ex : 50 000 montages possibles dâun spot Nespresso) et :
- un âcreative scoreâ choisit la meilleure version selon le canal (TikTok â Facebook).
Chez TwentyTwo (22)
-
Ils définissent des rÚgles :
- ex : âun objet de type humain entre dans telle zoneâ, âcombien de temps reste-t-il dans cette zoneâ, âcomportement X dĂ©tectĂ© ou nonâ.
-
Le systĂšme extrait :
- type dâobjet (humain, vĂ©hicule, etc.),
- trajectoires,
- temps passé,
- comportements,
- re-identification non biomĂ©trique (mĂȘmes individus entre camĂ©ras)âŠ
-
Tout est stocké comme données structurées (type, position, temps, évÚnement), directement exploitables :
- dans des dashboards,
- dans des systÚmes opérationnels (alertes temps réel, automatisation).
đ§ MultimodalitĂ© : image + son + texte + temps
Les deux insistent : la multimodalité est indispensable.
Pourquoi ?
-
Comme pour un humain, on a besoin de plusieurs signaux pour comprendre le contexte :
- image seule,
- son / voix,
- texte (sous-titres, scripts),
- temporalité (ce qui vient avant / aprÚs une scÚne),
- position dans lâimage (centre vs coin), mouvements, etc.
-
Le croisement de ces signaux permet :
- meilleure compréhension des émotions, du rÎle des plans, des scÚnes clés,
- meilleure détection de comportements cÎté 22 (retail, sécurité, analytics).
Exemples concrets
-
AVE :
-
Certaines pubs / films sont sans dialogue â il faut sâappuyer sur :
- expressions faciales,
- mouvement,
- type de plan (gros plan, plan large),
- rythme,
- cliffhanger, moments clĂ©sâŠ
-
Leur MGT combine plusieurs modĂšles :
- ex : âgros plan + visage + Ă©motion forteâ â scĂšne clĂ© / moment Ă©motionnel.
-
-
22 :
-
Utilise multimodal + VLM (vision-language model) pour :
- permettre Ă lâutilisateur de poser des questions en langage naturel sur la vidĂ©o (ex : âest-ce que la personne porte un casque ?â),
- et recevoir des rĂ©ponses basĂ©es sur leurs donnĂ©es vidĂ©o â texte.
-
đ Data scarcity & donnĂ©es synthĂ©tiques
ProblĂšmes de base
-
Il est difficile dâobtenir assez de donnĂ©es rĂ©elles pour tout couvrir :
- contraintes GDPR / privacy,
- scénarios rares (évÚnements peu fréquents),
- multiples configurations de caméras / lumiÚres / angles, etc.
-
On ne peut pas âfilmer tout et nâimporte quoiâ pour entraĂźner un modĂšle.
Approche de TwentyTwo (22)
-
Historiquement :
- génération de données 3D synthétiques (environnements de retail, caméras, lumiÚres, occlusions).
- Ă lâĂ©poque (2018), le rendu 3D nâĂ©tait pas assez rĂ©aliste.
-
Aujourdâhui :
-
ils utilisent un mix :
- données réelles (issues de partenariats clients ou environnements loués),
- données synthétiques générées avec les récents modÚles de GenAI vidéo.
-
LâentraĂźnement peut utiliser rĂ©el + synthĂ©tique, mais la validation des modĂšles se fait uniquement sur donnĂ©es rĂ©elles.
-
Approche dâAVE
-
Philosophie différente :
- ils ne âfine-tunentâ pas leurs modĂšles sur les vidĂ©os clients.
- MGT est basé sur une approche meta-learning / combinaison de modÚles.
-
Conséquences :
- pas de ré-entraßnement au fur et à mesure des uploads clients,
- pas de fuite de donnĂ©es vers lâextĂ©rieur (pas dâAPI externes),
- conformité forte pour les clients B2B (marques, agences, médias).
-
Leur promesse :
- tu uploades une vidĂ©o â pas de phase de setup / training, tu produis de la valeur tout de suite.
đĄïž Guardrails, hallucinations & qualitĂ© des prĂ©dictions
AVE
-
Dans la pub / lâentertainment, la tolĂ©rance Ă lâerreur est quasi nulle :
- pas de personnages avec trois bras,
- pas de glitch visibles,
- pas de montages incohérents.
-
Leur techno est décrite comme déterministe :
- le pipeline (détection + rÚgles + génération + sélection) est conçu pour éviter les hallucinations,
- ils ne âlaissent pas un LLM inventer du contenu visuelâ librement.
-
Ils insistent sur :
-
pixel perfect,
-
contrÎle créatif,
-
feedback humain :
- lâutilisateur peut Ă©diter ce que lâIA propose,
- corriger / affiner (boucle de correction).
-
TwentyTwo (22)
-
Eux reconnaissent : oui, il y a des hallucinations.
- surtout cĂŽtĂ© modĂšles gĂ©nĂ©riques (VLM) ou reconnaissance dâobjets dans des cas limites.
-
Mais :
- ils ne voient jamais la vidéo cÎté serveur (on-premise chez le client),
- donc ils ne peuvent pas âcorrigerâ manuellement cas par cas.
-
Stratégies :
-
ajustement des seuils selon le contexte (distance camĂ©ra, lumiĂšre, angleâŠ),
-
fine-tuning ciblĂ© sur certains cas dâusage,
-
transparence avec le client :
- ils communiquent sur les taux de performance,
- donnent des recommandations (position caméra, pixel density, etc.).
-
-
Taux dâerreur :
- dĂ©pend du cas dâusage, mais tant que la masse de donnĂ©es globale est cohĂ©rente, les erreurs ponctuelles sont acceptables pour des use cases analytics.
𧩠Points clés à retenir
-
MĂȘme philosophie, use cases opposĂ©s :
- AVE : post-production / adaptation créative (pub, entertainment).
- 22 : analyse temps réel / environnement physique (retail, flux, comportement).
-
La vidĂ©o est traitĂ©e comme un flux multimodal de donnĂ©es structurables, pas juste comme une âimage animĂ©eâ.
-
Multimodalité = clé pour :
- comprendre contexte, émotions, intentions,
- offrir des interfaces en langage naturel (poser une question au systÚme sur ce qui se passe dans la vidéo),
- améliorer robustesse et précision.
-
Data scarcity â showstopper, si :
- on combine données synthétiques, réelles, et meta-learning / composition de modÚles,
- on conçoit des systĂšmes qui ne dĂ©pendent pas dâĂ©normes datasets clients pour fonctionner.
-
Guardrails & hallucinations dépendent du métier :
- publicitĂ© / vidĂ©o marketing â exigence de perfection visuelle â pipeline plus dĂ©terministe.
- analytics / retail â lĂ©gĂšre marge dâerreur acceptable si le signal global est fiable.
17:10 17:25 | A deep dive into MCP & ChatGPT apps
Un talk clé : MCP, la nouvelle révolution des apps autonomes. ParticuliÚrement intéressant pour les développeurs européens.
17:50 18:05 | AI at Spotify
Comment Spotify repense ses stratĂ©gies grĂące Ă lâIA âeverywhereâ.
â Founders CafĂ© : business cases, edge AI, RL, industrie, durabilitĂ©
Une track plus intimiste mais ultra-technique :
- 12:05 12:35 | AIVE : Next-gen video transcreation
- 12:40 13:10 | OCR-powered menu inventory
- 13:15 13:30 | Real-time AI: 100x faster inference (Kog)
- 13:35 13:50 | Measuring ROI of AI adoption
- 13:55 14:10 | Reinforcement Learning & PCB routing
- 14:15 14:30 | Automotive Foundation Models
- 14:35 15:05 | Sustainable AI scaling (Fujitsu)
- 15:10 15:40 | Desktop â Supercomputer: AI workflows
- 16:10 16:40 | Build the audio agent
- 17:05 17:35 | Computer-using agents (leadgen)
- 17:40 18:10 | Tabular Foundation Models (Neuralk-AI)
Un mĂ©lange rare dâinfrastructure, produits, cas dâusage rĂ©els, rĂ©gulations, optimisation Ă©nergĂ©tique et agents IA.
đ Ce que rĂ©vĂšle lâagenda 2025
1. LâĂšre des agents autonomes est amorcĂ©e
Les talks sur les agents, lâautonomie, lâorchestration, la productivitĂ© et MCP sont partout.
2. LâEurope veut imposer une IA responsable et efficiente
Sobriété énergétique, transparence, souveraineté et régulation sont omniprésentes.
3. Lâindustrie rattrape voire dĂ©passe la recherche appliquĂ©e
Pharma, automobile, e-commerce, robotique : on nâest plus dans la dĂ©mo, mais dans le dĂ©ploiement massif.
4. Le hardware redevient un sujet stratégique
Air cooling, edge, ARM, densitĂ©, supercompute : lâEurope veut des alternatives au duopole GPU US/Asie.
5. La multimodalitĂ© sâimpose dans tous les usages
Texte â image, voix â produit, vidĂ©o â actions, tableau â insights.
đ€ Conclusion : ai-PULSE confirme le virage europĂ©en de lâIA
Avec un programme dense, international et orientĂ© action, ai-PULSE 2025 marque une Ă©tape clĂ©. LâEurope ne se contente plus dâanalyser lâIA : elle construit, elle optimise, elle dĂ©ploie.
Pour ceux qui veulent comprendre oĂč va lâIA en 2026 agents autonomes, edge, multimodalitĂ©, efficacitĂ© Ă©nergĂ©tique, MCP câest clairement le rendez-vous incontournable.