Blog
  • Login

  • Login
  • Register
  • Blog

  • Articles
  • fr
  • de

🚀 IA Pulse

on December 5, 2025

ai-PULSE 2025 : l’Europe de l’IA passe Ă  la vitesse supĂ©rieure

Le 4 dĂ©cembre 2025, ai-PULSE l’évĂ©nement IA organisĂ© par Scaleway revient pour une nouvelle Ă©dition placĂ©e sous le signe de l’ambition europĂ©enne. Avec des speakers de premier plan, une programmation dense et une vision affirmĂ©e (« Smarter, Faster, Everywhere »), ai-PULSE s’est imposĂ© comme l’un des rendez-vous majeurs de l’intelligence artificielle sur le continent.

Cette annĂ©e, l’agenda montre clairement une direction : l’Europe veut ĂȘtre un acteur, pas un spectateur, dans la rĂ©volution de l’IA.

🌍 Un dĂ©but de journĂ©e sous le signe des gĂ©ants : les Opening Keynotes

De 09h30 Ă  11h30, le Master Stage ouvre fort avec une succession de leaders tech :

  • Xavier Niel (iliad Group)
  • JĂ©rĂŽme Monceaux (Enchanted Tools)
  • Pim de Witte (General Intuition)
  • Yann LeCun (Meta)
  • RĂ©mi Cadene (UMA)
  • Neil Zeghidour (Kyutai)
  • Aude Durand (iliad Group)
  • Damien Lucas (Scaleway)

Un mĂ©lange rare : recherche, industrie, cloud, robotique, modĂšles ouverts
 tout ce qui façonne l’avenir de l’IA europĂ©enne rĂ©uni sur une mĂȘme scĂšne.

Voici un texte prĂȘt Ă  coller dans ton article, comme section “Keynote d’ouverture par Xavier Niel (avec Yann LeCun & Pim de Witte)” en français, structurĂ©, et fidĂšle au contenu que tu as collĂ©.

La keynote de Xavier : de l’IA sur Ă©cran Ă  l’IA dans le monde rĂ©el

Xavier ouvre la confĂ©rence en posant le dĂ©cor : selon lui, le plus grand changement de ces derniĂšres annĂ©es, c’est que l’IA n’est plus confinĂ©e aux Ă©crans ni aux endpoints dans le cloud. Elle entre dans notre environnement :

  • via des interfaces naturelles,
  • la voix,
  • des systĂšmes embarquĂ©s,
  • et des robots qui interagissent avec le monde.

L’IA est dĂ©sormais « partout ». Mais pour l’embrasser, explique-t-il, il faut d’abord la comprendre. C’est prĂ©cisĂ©ment ce qu’ai-PULSE veut permettre : donner des clĂ©s pour comprendre cette nouvelle gĂ©nĂ©ration d’IA, au-delĂ  du simple effet de mode.

Avant de rentrer dans le vif du sujet, Xavier remercie les partenaires de l’évĂ©nement il cite notamment IMD, Ampere et les autres acteurs qui ont contribuĂ© aux dĂ©mos et Ă  l’infrastructure. Sans eux, rappelle-t-il, une confĂ©rence de cette ampleur serait impossible.

Des mots au monde : la transition vers les world models

Xavier enchaĂźne ensuite sur le “hot topic” du moment : comment l’IA est en train de passer d’un paradigme oĂč elle prĂ©dit simplement le prochain mot
 Ă  un paradigme oĂč elle comprend et simule le monde.

Il introduit la notion de world models : des modĂšles capables de reprĂ©senter des environnements, des dynamiques, des actions et leurs consĂ©quences. L’idĂ©e n’est plus seulement de complĂ©ter une phrase, mais de simuler ce qui se passe si un agent agit dans un environnement donnĂ©.

Pour explorer cette idĂ©e, Xavier invite sur scĂšne celui qu’il prĂ©sente comme l’un des “pĂšres” de l’IA moderne :

  • Yann LeCun, laurĂ©at du prix Turing, professeur Ă  New York University, auteur de centaines d’articles qui ont façonnĂ© le machine learning, et jusqu’à trĂšs rĂ©cemment Chief AI Scientist chez Meta. Il glisse au passage qu’il espĂšre que Yann pourra dire quelques mots sur son nouveau projet.

World models vs LLMs : pourquoi le langage ne suffit pas

Xavier lance la discussion en rappelant un point clĂ© qu’il a longuement abordĂ© avec Yann et Pim : pour beaucoup de chercheurs, il est dĂ©sormais clair que “scaler” uniquement les modĂšles de langage ne suffira pas Ă  atteindre une intelligence gĂ©nĂ©rale.

Yann explique que l’idĂ©e de world models est ancienne dans sa rĂ©flexion : il la dĂ©fend depuis prĂšs de vingt ans. Selon lui, comprendre le monde physique est bien plus difficile que comprendre le langage. Les animaux, qui ne parlent pas, sont dĂ©jĂ  bien meilleurs que nos robots actuels pour naviguer dans le monde rĂ©el.

Il rappelle le paradoxe dĂ©jĂ  formulĂ© par les roboticiens : on sait entraĂźner des IA Ă  passer le barreau, Ă©crire de la poĂ©sie ou coder, mais on ne sait toujours pas construire un robot qui ait la comprĂ©hension intuitive du monde d’un enfant de 6 ans.

Pour lui, cela veut dire qu’il nous manque quelque chose de fondamental : des systĂšmes capables de se construire des modĂšles internes du monde, d’anticiper ce qui va se passer, et de raisonner sur les consĂ©quences de leurs actions.

C’est ce qui l’a conduit Ă  dĂ©velopper des architectures non gĂ©nĂ©ratives comme JEPA (Joint Embedding Predictive Architecture), et plus largement Ă  dĂ©fendre un nouveau blueprint pour l’IA orthogonal aux LLMs classiques.

L’apport de General Intuition : de la vidĂ©o Ă  l’interaction

Xavier introduit ensuite Pim de Witte, cofondateur et CEO de General Intuition. Il rappelle son parcours :

  • ingĂ©nieur,
  • ancien de chez Intel,
  • cofondateur de Metal, une plateforme qui a constituĂ© un dataset massif d’interactions de jeux vidĂ©o dataset pour lequel OpenAI aurait proposĂ© 100 M$, offre qu’ils ont refusĂ©e pour lancer leur propre labo.

Avec Pim, la discussion bascule sur un point essentiel : la différence entre modÚles vidéo et world models interactifs.

La vidĂ©o est une excellente source de donnĂ©es, explique Pim, mais regarder le monde ne suffit pas : un world model doit intĂ©grer l’action et l’interaction. Il ne s’agit plus seulement de prĂ©dire la prochaine image “plausible”, mais de prĂ©dire la distribution des futurs possibles en fonction des actions de l’agent.

LĂ  oĂč un modĂšle autoregressif “roule” sur lui-mĂȘme (comme une boule de neige qui grossit en descendant la pente sans savoir ce qui l’attend), un vrai world model doit ĂȘtre capable de “voir le rocher en bas” et d’adapter sa trajectoire exactement comme le ferait un personnage conscient de son environnement.

Pourquoi les générateurs de pixels ne suffisent pas

Xavier ramĂšne la discussion sur un point trĂšs concret pour les ingĂ©nieurs : pourquoi prĂ©dire des pixels n’est pas la bonne voie.

Yann explique que, dans une vidĂ©o rĂ©elle, l’immense majoritĂ© des dĂ©tails est fondamentalement imprĂ©visible. Si l’on filme la salle et qu’on demande Ă  un modĂšle : “complĂšte la suite de la vidĂ©o”, il peut deviner qu’il y aura des gens assis, une scĂšne, des lumiĂšres
 Mais il est impossible de prĂ©dire le visage exact de chaque personne, la position exacte de chaque main, etc.

RĂ©sultat : un modĂšle qui essaie de prĂ©dire chaque pixel tombe soit dans le flou, soit dans le bruit, mais n’apprend rien d’utile pour l’action.

Les architectures non génératives, au contraire, apprennent des représentations abstraites des scÚnes et se révÚlent bien plus efficaces en auto-supervision pour ce type de données continues, bruitées, riches.

Données, compute et nouvelle vague de laboratoires

Xavier revient ensuite sur les aspects trĂšs concrets que tout le monde a en tĂȘte : les donnĂ©es et la puissance de calcul nĂ©cessaires.

Quelques points clĂ©s ressortent de l’échange :

  • Il est plus facile d’obtenir beaucoup de donnĂ©es vidĂ©o que beaucoup de texte de qualitĂ©. LĂ  oĂč le texte “web” plafonne vite, des annĂ©es de vidĂ©o peuvent ĂȘtre collectĂ©es ou simulĂ©es.

  • Les world models ne nĂ©cessitent pas forcĂ©ment des budgets dĂ©lirants : entraĂźner certains de ces modĂšles demande “quelques milliers de GPU”, loin des mĂ©ga-clusters requis pour les plus gros LLMs.

  • Les datasets d’actions sont prĂ©cieux : hors des jeux vidĂ©o ou de contextes trĂšs instrumentĂ©s, il est difficile d’obtenir des Ă©tiquettes d’action au niveau “ground truth”. C’est un enjeu clĂ© pour les prochains labs et startups.

C’est aussi lĂ  que Xavier fait ressortir le contexte europĂ©en :

  • l’Europe dispose d’un vivier Ă©norme de talents,
  • il y a de la place pour des laboratoires indĂ©pendants, plus ouverts,
  • et pour une approche de l’IA qui ne soit pas uniquement “scale LLMs Ă  l’infini”.

Yann évoque son nouveau projet de labo indépendant (AMI Advanced Machine Intelligence), porté notamment en Europe, avec Meta comme partenaire mais pas comme actionnaire majoritaire, justement pour ouvrir le spectre des applications et favoriser une recherche moins enfermée dans le paradigme LLM.

Parfait, on enchaĂźne avec la partie “Yann LeCun”. Voici un texte en français, propre et structurĂ©, que tu peux intĂ©grer tel quel dans ton article (par exemple juste aprĂšs la partie sur Xavier).

Yann LeCun : l’IA a besoin d’ouverture, pas de murs

Lors de la discussion, Yann LeCun insiste sur un point souvent sous-estimĂ© dans le dĂ©bat sur l’IA : la maniĂšre dont un modĂšle est gouvernĂ© compte autant que sa performance.

Il prend l’exemple des modĂšles chinois : mĂȘme si leur niveau technique peut ĂȘtre excellent, une partie de la communautĂ© reste mĂ©fiante, car ces systĂšmes sont contraints de respecter les principes et la ligne politique du gouvernement chinois. Autrement dit, ce ne sont pas seulement des modĂšles techniques, ce sont aussi des modĂšles idĂ©ologiques. Pour Yann, cette dimension limite naturellement leur adoption internationale.

Pourquoi l’IA a autant progressĂ© : la force de l’open source

Yann rappelle ensuite un fait historique : si l’IA a progressĂ© aussi vite ces dix, vingt, cinquante derniĂšres annĂ©es, c’est grĂące Ă  l’ouverture :

  • logiciels open source,
  • publications en libre accĂšs,
  • datasets et idĂ©es partagĂ©s au sein de la communautĂ©.

Il cite le rĂŽle de FAIR (le labo de Meta), qui a fortement poussĂ© ce modĂšle de recherche ouverte et a incitĂ© d’autres laboratoires comme DeepMind Ă  devenir plus transparents et plus ouverts, sous la pression de la compĂ©tition scientifique.

Pour lui, c’est simple :

  • la recherche ouverte est le meilleur moyen de progresser vite,
  • et c’est aussi le meilleur moyen d’attirer les meilleurs chercheurs.

Si vous dites à un scientifique “tu ne peux rien publier de ce que tu fais”, vous n’attirez pas les meilleurs profils.

JEPA : un concept récent, déjà repris partout

Yann prend ensuite un exemple trĂšs concret : JEPA (Joint Embedding Predictive Architecture). Il explique que si l’on tape aujourd’hui ce terme dans un moteur de recherche, on obtient dĂ©jĂ  des centaines de rĂ©sultats, alors que le concept n’a Ă©tĂ© formalisĂ© que quelques annĂ©es plus tĂŽt.

En quelques annĂ©es, des Ă©quipes du monde entier se sont emparĂ©es de l’idĂ©e, l’ont testĂ©e, adaptĂ©e, Ă©tendue Ă  de nouveaux domaines. C’est exactement ce qu’il veut illustrer : l’innovation en IA ne peut pas ĂȘtre rĂ©servĂ©e Ă  quelques laboratoires fermĂ©s, elle a besoin de milliers de cerveaux qui expĂ©rimentent en parallĂšle.

Ce qu’il faut ouvrir
 et ce qu’on peut garder fermĂ©

Yann ne dĂ©fend pas une naĂŻvetĂ© totale : il ne dit pas que tout doit ĂȘtre gratuit et public.

Il propose plutĂŽt une frontiĂšre claire :

  • Ce qui doit ĂȘtre ouvert :

    • les idĂ©es,
    • les architectures,
    • les briques fondamentales,
    • les prototypes de recherche.

    C’est ce qui alimente le progrùs scientifique global.

  • Ce qui peut rester propriĂ©taire :

    • l’industrialisation,
    • la mise en produit,
    • les couches spĂ©cifiques de valorisation commerciale.

Autrement dit : open source en amont, business en aval. C’est ce compromis qui permet Ă  la fois d’avancer vite, de garder une communautĂ© scientifique vivante, et de construire des entreprises viables.

Kyutai × General Intuition : une alliance europĂ©enne pour les world models

La discussion rebondit ensuite sur le thùme des collaborations, avec l’annonce d’un partenariat entre Kyutai et General Intuition.

L’idĂ©e est la suivante :

  • General Intuition doit rester trĂšs focalisĂ© sur ses clients et usages concrets,
  • mais la construction des “fondations scientifiques” des world models mĂ©rite d’ĂȘtre menĂ©e dans un cadre de recherche ouverte.

Kyutai apporte ce cadre : un laboratoire de recherche europĂ©en, indĂ©pendant, qui peut publier, partager, et faire vivre une communautĂ© scientifique autour de ces briques fondamentales. L’ambition : dĂ©velopper ensemble des blocs de base (architectures, mĂ©thodes de training, reprĂ©sentations) qui pourront ĂȘtre rendus publics, tout en laissant Ă  General Intuition la capacitĂ© de les transformer en produits et plateformes.

Un futur plus global et plus collaboratif

En conclusion, Yann rĂ©sume bien l’enjeu : l’avenir de l’IA ne sera ni purement amĂ©ricain, ni purement chinois, ni monopolisĂ© par quelques gĂ©ants fermĂ©s.

Il sera :

  • global,
  • multi-acteurs,
  • construit sur une alternance de recherche ouverte et de transferts technologiques.

Et pour que cette vision fonctionne, il faut exactement ce qu’incarne ai-PULSE : des laboratoires indĂ©pendants, des partenariats entre chercheurs et industriels, et une culture de l’open source suffisamment forte pour que les meilleures idĂ©es puissent naĂźtre partout dans le monde, pas seulement dans deux ou trois buildings sur la planĂšte.

Message aux ingénieurs dans la salle

Pour conclure, Xavier résume le message adressé aux développeurs et ingénieurs :

  • Il est temps d’apprendre Ă  comprendre le monde des pixels aussi bien que celui du code et du texte.

  • Les opportunitĂ©s sont Ă©normes du cĂŽtĂ© :

    • des pipelines vidĂ©o Ă  grande Ă©chelle,
    • de l’infrastructure de donnĂ©es pour l’interaction,
    • des capteurs (robots, lunettes connectĂ©es, etc.),
    • des systĂšmes capables de planifier en imaginant les consĂ©quences de leurs actions.

L’IA ne se limite plus Ă  prĂ©dire le prochain token. Elle commence Ă  percevoir, simuler et agir dans le monde.

C’est cette transition des LLMs aux world models que Xavier met en lumiĂšre dans sa prĂ©sentation, en s’appuyant sur les travaux de Yann LeCun et Pim de Witte : une nouvelle feuille de route pour l’IA, oĂč l’Europe peut jouer un rĂŽle central.

Voici un texte prĂȘt Ă  coller dans ton article, pour couvrir JĂ©rĂŽme Monceaux (Enchanted Tools) et le CEO de Scaleway. Je garde le mĂȘme ton que les sections prĂ©cĂ©dentes : clair, tech, mais lisible.

JérÎme Monceaux (Enchanted Tools) : des robots pensés pour les humains, pas pour les labos

AprĂšs une dĂ©monstration de robot sur scĂšne, la transition est toute trouvĂ©e : on accueille JĂ©rĂŽme Monceaux, CEO d’Enchanted Tools connu pour avoir fondĂ© Aldebaran Robotics et participĂ© Ă  la crĂ©ation de robots sociaux iconiques aujourd’hui au musĂ©e.

Son nouveau projet, Enchanted Tools, mĂ©lange robotique, IA et design de personnages 3D pour crĂ©er des robots qui ressemblent moins Ă  des machines industrielles et davantage Ă  des “prĂ©sences” dans notre quotidien.

Des robots qui doivent “danser” avec leurs utilisateurs

JĂ©rĂŽme explique qu’il travaille sur les robots depuis les annĂ©es 90 et qu’il a beaucoup appris de leurs dĂ©ploiements dans la vraie vie : la maniĂšre dont les gens rĂ©agissent, ce qu’ils attendent, ce qui les rassure
 ou au contraire les bloque.

Quelques principes forts ressortent :

  • Un robot doit ĂȘtre sĂ»r et lisible dans ses mouvements.
  • L’environnement doit ĂȘtre designĂ© avec le robot : ils conçoivent aussi des accessoires, du mobilier et des Ă©lĂ©ments au sol pour faciliter l’usage.
  • L’utilisateur est au centre : on ne peut pas “poser” un robot dans un hĂŽpital ou un magasin et espĂ©rer que les gens comprennent spontanĂ©ment comment l’utiliser.

JĂ©rĂŽme parle d’une vĂ©ritable “danse” entre le robot et l’utilisateur : gestes, regards, distance, timing
 tout doit ĂȘtre pensĂ© pour que l’interaction soit fluide et naturelle surtout quand les utilisateurs sont des enfants, des patients, des aides-soignants, des infirmiĂšres, qui n’ont pas du tout envie de devenir experts en robotique.

CĂŽtĂ© techno, Enchanted Tools s’appuie notamment sur :

  • des briques d’IA pour l’analyse de scĂšne (vision, comprĂ©hension de l’environnement),
  • des modĂšles de comportement et de proximitĂ© pour gĂ©rer la sĂ©curitĂ©,
  • des composants de machine learning embarquĂ© pour adapter le comportement du robot au contexte.

Environ 50 robots sont déjà déployés sur le terrain.

Anticiper, pas seulement réagir

Un point central de la vision de JérÎme : un bon robot ne doit pas seulement réagir, il doit anticiper.

Exemples concrets :

  • Quand un robot tend un objet Ă  quelqu’un, Ă  quel moment doit-il le lĂącher ?
  • Comment interprĂ©ter un sourire, un recul, un regard hĂ©sitant ?
  • Comment adapter son comportement selon qu’il a en face de lui un enfant, un adulte, un soignant pressĂ© ?

Ces micro-dĂ©tails sociaux, Ă©vidents pour un humain, sont trĂšs difficiles Ă  modĂ©liser. Pourtant, si on veut des robots qui vivent dans nos espaces (hĂŽpitaux, commerces, maisons de retraite), c’est lĂ  que tout se joue.

Des robots pour les hÎpitaux : impact réel, pas gadget

JĂ©rĂŽme insiste sur un point : ses robots ne sont pas pensĂ©s pour des vidĂ©os virales, mais pour amĂ©liorer des situations trĂšs concrĂštes, notamment Ă  l’hĂŽpital.

Pourquoi ce choix ?

  • Parce que l’hĂŽpital est un environnement oĂč l’impact humain est Ă©norme.
  • Parce que c’est un contexte semi-standardisĂ© : on connaĂźt la nature du sol, la largeur des couloirs, la hauteur des portes, les rĂšgles de circulation, les contraintes de sĂ©curitĂ©.

Ce cadre permet de dĂ©ployer des robots de maniĂšre fiable, en s’assurant qu’ils ne deviennent jamais un facteur de risque.

Il raconte notamment un projet dans un service de radiothérapie pour enfants :

  • Les enfants doivent entrer seuls dans un bunker de radiothĂ©rapie.
  • Les parents et les mĂ©decins ne peuvent pas rester dans la piĂšce pendant la sĂ©ance.
  • Beaucoup d’enfants vivent ce moment comme anxiogĂšne, au point qu’il faut souvent les sĂ©dater pour que la sĂ©ance soit possible.

L’équipe mĂ©dicale s’est rendu compte que ce qui manquait, c’était une prĂ©sence dans la piĂšce.

Ils ont donc dĂ©cidĂ© d’introduire le robot d’Enchanted Tools dans le bunker, aprĂšs validation des contraintes liĂ©es aux radiations. RĂ©sultat :

  • une sĂ©ance qui durait 60 minutes dans la douleur se transforme en moment de jeu et de complicitĂ© avec le robot ;
  • les enfants ne sont souvent plus sĂ©datĂ©s ;
  • la productivitĂ© de la machine augmente ;
  • et le bien-ĂȘtre des enfants, des parents et des soignants s’amĂ©liore.

Humanoïdes : utilité, joie et expérience de vie

Pour JĂ©rĂŽme, un robot humanoĂŻde n’est pas lĂ  pour remplacer les humains ni pour faire “juste” de la logistique.

Son objectif :

CrĂ©er des expĂ©riences de vie dans les lieux oĂč nous passons du temps : magasins, hĂŽpitaux, EHPAD, services pĂ©diatriques


Les humanoĂŻdes peuvent apporter :

  • de l’utilitĂ© (aider, guider, assister),
  • de la joie (prĂ©sence rassurante, ludique),
  • de l’harmonie (fluidifier les interactions plutĂŽt que les compliquer).

Ce n’est pas un robot de chaĂźne industrielle. C’est un robot pensĂ© pour cohabiter avec nous, dans nos lieux de vie.

Damien Lucas (Scaleway) : bĂątir l’usine europĂ©enne de l’IA

Aprùs la robotique et les interactions physiques, place à l’infrastructure. Le CEO de Scaleway, Damien Lucas, prend la parole pour parler de ce dont tous les builders IA ont besoin : des plateformes et une infrastructure robuste.

“Bring AI to the data” : l’infrastructure suit la vision

Damien commence par rappeler un mantra posĂ© lors d’une Ă©dition prĂ©cĂ©dente :

Il faut amener l’IA aux donnĂ©es, pas l’inverse.

En 2025, cette phrase s’est traduite en vraie feuille de route :

  • Scaleway a Ă©tendu sa prĂ©sence au-delĂ  de la France : Pays-Bas, Pologne, et dĂ©sormais Italie, SuĂšde, bientĂŽt l’Allemagne, avec l’ensemble du portefeuille de produits disponible dans ces rĂ©gions.

  • CĂŽtĂ© donnĂ©es, Scaleway a enrichi son catalogue avec :

    • Kafka, OpenSearch, Data Warehouse,
    • outils d’orchestration et de gestion de donnĂ©es
 pour permettre aux entreprises d’hĂ©berger et d’exploiter leurs donnĂ©es au plus prĂšs de leurs workloads IA.

CPU, GPU, QPU : l’arsenal matĂ©riel europĂ©en

Sur la partie compute, Damien déroule une stratégie en trois axes :

  1. CPU pour l’IA

    • Nouvelle offre basĂ©e sur des CPU Ampere,
    • expĂ©rimentation autour de CPU Fujitsu, pour des workloads IA plus sobres et mieux adaptĂ©s Ă  certaines charges.
  2. Quantum computing

    • Il rappelle qu’il y a deux ans, Scaleway a Ă©tĂ© parmi les premiers Ă  proposer du quantum-as-a-service en mode Ă©mulation, pour permettre aux chercheurs d’explorer des algorithmes quantiques avant l’arrivĂ©e du vrai hardware.

    • L’annĂ©e suivante, arrivĂ©e de vĂ©ritables QPU via un premier partenaire.

    • Cette annĂ©e, annonce de nouveaux partenariats avec des acteurs quantiques europĂ©ens utilisant des technologies diffĂ©rentes :

      • systĂšmes Ă  atomes neutres,
      • systĂšmes supraconducteurs.
    • IntĂ©gration avec les frameworks open source du moment afin que les devs puissent tester ces backends sans friction.

    L’idĂ©e : devenir la plateforme de rĂ©fĂ©rence pour le quantique en Europe, en l’intĂ©grant directement dans les workflows IA et d’optimisation.

  3. GPU, encore et toujours

    • Mise Ă  disposition des toutes derniĂšres gĂ©nĂ©rations de GPU NVIDIA sous forme de GPU Pods.
    • IntĂ©gration native de mesures de consommation Ă©nergĂ©tique dans ces pods, pour que les utilisateurs puissent quantifier l’impact Ă©nergĂ©tique rĂ©el de leurs workloads d’IA.

Models-as-a-Service : utiliser l’IA sans gĂ©rer l’infra

Damien sait que tout le monde ne veut pas gĂ©rer des clusters de GPU Ă  la main. Scaleway pousse donc une approche “Models as a Service” :

  • une offre entreprise dĂ©diĂ©e, avec des exigences Ă©levĂ©es en matiĂšre de sĂ©curitĂ© et d’isolation ;
  • une offre plus ouverte pour les dĂ©veloppeurs, permettant d’appeler des modĂšles facilement pour du texte, de l’audio, etc.

Dans ce cadre, Scaleway :

  • hĂ©berge des modĂšles open weights de pointe,
  • a nouĂ© un partenariat avec Hugging Face pour exposer plus largement l’écosystĂšme open source,
  • travaille avec des acteurs europĂ©ens comme Mistral : l’un de leurs modĂšles a Ă©tĂ© entraĂźnĂ© sur l’infrastructure Scaleway, et est dĂ©sormais proposĂ© en service managĂ©.

Vers des “AI factories” europĂ©ennes

Damien conclut sur une ambition claire :

Pour que l’Europe rĂ©ussisse, il faut rĂȘver plus grand. Pas seulement hĂ©berger quelques modĂšles, mais construire de vĂ©ritables usines de l’IA, des AI factories et Giga factories.

Pour cela, Scaleway a :

  • montĂ© un consortium d’ingĂ©nieurs et d’experts issus de plusieurs entreprises et domaines critiques (hardware, Ă©nergie, rĂ©seaux, data, lĂ©gal, souverainetĂ©),
  • planifiĂ© des infrastructures capables de gĂ©rer des centaines de milliers de GPU Ă  terme.

L’idĂ©e n’est plus seulement d’ĂȘtre un fournisseur de cloud parmi d’autres, mais de devenir une piĂšce maĂźtresse de la capacitĂ© de calcul IA europĂ©enne, du CPU au GPU, du quantique aux modĂšles managĂ©s.

Voici un texte en français que tu peux intégrer tel quel dans ton article pour la partie voice AI / démo robot (Mochi).

Voice AI en temps rĂ©el : la dĂ©monstration de Neil et de son “petit robot”

AprĂšs avoir parlĂ© de modĂšles de monde et de robots humanoĂŻdes, la confĂ©rence bascule vers un autre Ă©lĂ©ment clĂ© de l’IA moderne : la voix. Sur scĂšne, on accueille Neil, chercheur qui a passĂ© plusieurs annĂ©es Ă  repousser les limites des modĂšles audio, et qui vient tout juste de lancer sa nouvelle sociĂ©tĂ© de voice AI, nĂ©e dans le prolongement des travaux de Kyutai.

De la recherche ouverte Ă  un produit industriel

Neil commence par rappeler le contexte : chez Kyutai, le travail consistait Ă  faire de la recherche ouverte, Ă  inventer de nouveaux systĂšmes de conversation speech-to-speech, et Ă  open-sourcer les prototypes.

L’idĂ©e initiale Ă©tait simple :

on publie les briques fondamentales, la communautĂ© s’en empare et construit des produits autour.

Dans les faits, il s’est passĂ© autre chose :

  • le marchĂ© a montrĂ© Ă©normĂ©ment d’intĂ©rĂȘt,

  • mais les prototypes restaient
 des prototypes :

    • latence encore trop Ă©levĂ©e,
    • robustesse insuffisante,
    • qualitĂ© pas encore au niveau d’un produit grand public.

La nouvelle société de Neil est donc née de ce constat : séparer clairement :

  • la recherche fondamentale, qui reste ouverte et publiĂ©e ;
  • et le travail d’ingĂ©nierie produit, qui consiste Ă  pousser les limites de la latence, de la qualitĂ© et de la robustesse pour rendre la voice AI rĂ©ellement utilisable Ă  grande Ă©chelle.

Sa mission :

transformer la recherche de Kyutai en modĂšles audio “industry grade”, intĂ©grables dans des produits concrets.

Une Ă©quipe “full-stack audio” pour la voix de demain

Neil dĂ©crit ensuite l’ADN de la sociĂ©tĂ© :

  • une Ă©quipe composĂ©e d’anciens de Kyutai, de Google et d’autres grands acteurs,

  • des experts “full stack audio” :

    • transcription,
    • synthĂšse,
    • traduction,
    • amĂ©lioration et transformation du signal.

Contrairement Ă  beaucoup d’acteurs de la voice tech qui sont spĂ©cialisĂ©s soit en STT (speech-to-text), soit en TTS (text-to-speech), son Ă©quipe conçoit des modĂšles audio fondationnels qui couvrent la chaĂźne de bout en bout.

Leur thĂšse :

  • la voix n’exploite aujourd’hui “mĂȘme pas 1 %” de son potentiel comme interface homme–machine ;

  • la voice AI va servir aussi bien Ă  parler aux machines qu’à mĂ©diatiser des interactions entre humains :

    • traduction,
    • changement de voix,
    • personnalisation,
    • accessibilitĂ©, etc.

La sociĂ©tĂ© ne vise pas Ă  lancer une seule app grand public, mais Ă  fournir des briques utilisĂ©es par d’autres : des entreprises qui veulent crĂ©er des agents vocaux, des expĂ©riences audio, des NPC parlants, du support client vocal, des contenus mĂ©dias personnalisĂ©s, etc.

Un premier produit : transcription + synthÚse en temps réel

À peine quelques mois aprĂšs la crĂ©ation de la sociĂ©tĂ©, Neil annonce leur premier produit :

  • transcription en temps rĂ©el,
  • synthĂšse vocale en temps rĂ©el,
  • exposĂ©es via une API.

ConcrĂštement, cela permet :

  • de transformer n’importe quel agent textuel (un LLM dĂ©jĂ  connectĂ© Ă  vos donnĂ©es) en agent vocal,
  • de changer la voix, l’accent, le style, sans toucher au cƓur logique,
  • d’ouvrir un champ d’applications trĂšs large :

Parmi leurs premiers clients, il cite :

  • des studios de jeux vidĂ©o (NPC parlants, commentateurs d’e-sport),
  • des services de customer support,
  • des groupes mĂ©dias (contenus audio personnalisĂ©s),
  • des cas d’accessibilitĂ© (restauration ou augmentation de la voix pour des patients),
  • et mĂȘme de la publicitĂ© digitale.

L’idĂ©e :

“On devient simplement le “wrapper vocal” d’un systĂšme IA qui existe dĂ©jĂ .”

La dĂ©mo “Mochi” : un petit robot, plusieurs voix, plusieurs langues

Pour montrer concrĂštement ce qu’ils ont construit, Neil amĂšne sur scĂšne un petit robot dĂ©veloppĂ© par leurs amis de 3DFace.

Sur le plan technique :

  • le robot est connectĂ© Ă  leur API speech-to-text / text-to-speech,
  • reliĂ©e Ă  un modĂšle de langage open source local,
  • le tout fonctionne en quasi temps rĂ©el.

La dĂ©monstration parle d’elle-mĂȘme :

  1. Le robot se prĂ©sente avec une voix claire, naturelle, capable de moduler le ton, l’émotion et le style.
  2. Neil lui demande de prendre la voix d’un “gym bro”, coach de musculation : le robot rĂ©pond avec une voix plus Ă©nergique, motivante, prĂȘte Ă  “breaker des PR Ă  la salle”.
  3. Puis il lui demande de l’aider à apprendre à danser : le robot devient coach de danse, donne des consignes simples, encourage, compte le rythme.
  4. Enfin, il lui demande de passer en accent quĂ©bĂ©cois, en français, puis de reformuler en anglais : le robot change de langue, d’accent et de registre, tout en gardant la mĂȘme fluiditĂ©.

À la fin, Neil lui pose une question plus conceptuelle :

Comment la voice AI multilingue et multi-accents peut améliorer la communication entre humains et machines
 et entre humains tout court ?

Le robot répond que la voice AI permet :

  • de casser les barriĂšres linguistiques,
  • de faire discuter des personnes qui ne partagent pas la mĂȘme langue comme si elles Ă©taient dans la mĂȘme piĂšce,
  • de rendre l’IA moins robotique, plus personnelle.

De l’open research au product-market fit

Neil insiste sur un point intĂ©ressant pour tout l’écosystĂšme :

  • ce qu’ils annoncent sur scĂšne n’est pas seulement une levĂ©e de fonds ou une crĂ©ation d’entreprise ;
  • c’est dĂ©jĂ  un produit en production,
  • qui traite des centaines de milliers d’appels pour leurs clients.

Comment ont-ils avancé aussi vite ?

  • en rĂ©utilisant le momentum scientifique créé chez Kyutai,
  • en entraĂźnant leurs propres modĂšles from scratch,
  • en construisant une nouvelle infrastructure adaptĂ©e Ă  l’audio,
  • et en alignant trĂšs tĂŽt la techno avec un besoin marchĂ© clair.

Pour Neil, c’est un modùle à suivre :

la recherche fondamentale reste ouverte et partagĂ©e, elle fait Ă©merger des idĂ©es et des briques technologiques, puis des startups se crĂ©ent pour pousser ces briques jusqu’au produit.

Leur ambition est assumée :

devenir un leader mondial de la voice AI.

Et aprÚs ? Les défis qui restent pour la voice AI

Malgré la qualité de la démo, Neil rappelle que beaucoup reste à faire.

Quelques défis majeurs :

  • ComprĂ©hension Ă©motionnelle Aujourd’hui, on a encore des IA qui rĂ©pondent “Super !” quand on leur dit “Mon chien est mort”. Comprendre le contexte Ă©motionnel d’une phrase est indispensable, notamment pour :

    • la thĂ©rapie assistĂ©e,
    • le support sensible,
    • les interactions longues et personnelles.
  • Robustesse en environnement bruyant La plupart des dĂ©mos se font dans des environnements calmes. Mais dans la vraie vie, une voice AI devra fonctionner :

    • dans une usine,
    • dans un entrepĂŽt,
    • dans un magasin plein de monde,
    • avec du vent, des bruits de fond, plusieurs personnes qui parlent. Il faut alors savoir qui dit quoi, Ă  quel moment, Ă  quelle distance : un problĂšme toujours largement ouvert.
  • IntĂ©gration avec la robotique Mettre de la voice AI dans des robots qui bougent, interagissent, comprennent Ă  qui ils s’adressent et dans quelle langue, reste un frontier challenge.

    Conclusion : la voix comme couche naturelle de l’IA

Neil termine sur une note optimiste : la voice AI n’est pas un gadget, c’est une couche naturelle de l’IA moderne.

  • Elle rend les machines plus accessibles.
  • Elle permet de connecter des humains qui ne parlent pas la mĂȘme langue.
  • Elle ouvre des usages nouveaux dans le jeu vidĂ©o, les mĂ©dias, la santĂ©, la relation client, la robotique


Son message aux builders présents dans la salle :

“Allez sur notre site, testez l’API, parlez-nous de vos cas d’usage et si vous ĂȘtes talentueux, rejoignez l’équipe.”

⚡ Master Stage : lĂ  oĂč se dessine le futur de l’IA

Les talks de l’aprĂšs-midi suivent les trois axes de la confĂ©rence : Smarter Faster Everywhere (plus Optimization & Scalability).

🔧 12:05 12:20 | Inference Everywhere

Steeve Morin, ZML L’accent est mis sur les performances, l’optimisation et l’exĂ©cution d’IA “partout”. Les enjeux autour de l’infĂ©rence distribuĂ©e sont au cƓur de la bataille pour le coĂ»t et la rapiditĂ©.

Voici un texte en français prĂȘt Ă  intĂ©grer dans ton article pour la session “Inference-powered training / ZML”.

Inference-powered training : quand les ingénieurs IA reprennent la main sur la prod

La session “Inference-powered training” pose un constat simple mais souvent Ă©ludĂ© : l’entraĂźnement et l’infĂ©rence sont deux mondes radicalement diffĂ©rents, et aujourd’hui c’est trop souvent l’entraĂźnement (et donc Python) qui dicte les choix techniques jusque dans la production
 au prix de nuits blanches pour les Ă©quipes infra.

EntraĂźnement vs infĂ©rence : mĂȘme modĂšles, rĂ©alitĂ©s opposĂ©es

Le speaker commence par rappeler la différence :

  • EntraĂźnement (training)

    • Terrain naturel de la recherche : on fait “une seule fois” un gros job.
    • On privilĂ©gie l’itĂ©ration rapide : plus vite on teste une idĂ©e, mieux c’est.
    • On ne va pas chipoter sur l’overhead : l’important, c’est le rĂ©sultat scientifique.
    • Python est parfait pour ça : flexible, expressif, une super DX.
  • InfĂ©rence

    • C’est la production, lĂ  oĂč tout casse Ă  4h du matin.

    • On fait des milliards de requĂȘtes.

    • On veut :

      • une latence prĂ©visible,
      • une variabilitĂ© faible (P99 plat),
      • un code compilĂ©, typĂ©, maĂźtrisĂ©.
    • Dans ce monde-lĂ , “less is better” : chaque allocation, chaque branche compte.

ProblĂšme : dans la plupart des stacks actuelles, c’est le monde training qui gagne. Tout est conçu autour de Python, de frameworks pensĂ©s pour expĂ©rimenter, pas pour faire tourner un service 24/7.

RĂ©sultat : les “AI laborers”, les ingĂ©nieurs back-end / MLOps qui doivent opĂ©rer ces systĂšmes, se retrouvent Ă  bricoler autour de stacks pas faites pour eux : ils se lĂšvent la nuit, recollent les morceaux, gĂšrent la dette.

ZML : un framework pensĂ© d’abord pour l’infĂ©rence

Pour sortir de ce piĂšge, l’équipe a créé ZML, un framework orientĂ© inference-first.

Leur objectif : rendre l’infĂ©rence :

  • agnostique du hardware (GPU NVIDIA, AMD, TPU, Trainium, etc.),
  • compilĂ©e de bout en bout,
  • prĂ©dictible en termes de latence,
  • intĂ©grable facilement dans des environnements type Kubernetes.

Sous le capot, ZML repose sur :

  • Zig (Z) : un langage compilĂ©, moderne, trĂšs proche du mĂ©tal, mais beaucoup plus agrĂ©able que le C.
  • MLIR / XLA : pour la partie compilation et graphes de calcul.
  • Bazel : pour l’écosystĂšme build et la reproductibilitĂ©.

Avec le mĂȘme code source, sans changer une ligne, ils peuvent cibler :

  • des GPU NVIDIA,
  • des GPU AMD (ROCm),
  • des TPU,
  • du Trainium AWS, etc.

Et ce sans compromis de performance : ce n’est pas “ça tourne
 mais plus lentement”. L’ambition est de coller au plus prĂšs des perfs natives, en compilant le modĂšle “jusqu’au mĂ©tal”.

Autres caractéristiques clefs :

  • Tout est explicite : pas de compilation “magique” en lazy JIT qu’on dĂ©couvre en prod.
  • Cross-compilation intĂ©grĂ©e : dĂ©velopper sur un Mac, cibler Linux, builder une image optimisĂ©e sans y passer deux heures de Docker build.
  • Packaging et runtime inclus : CUDA / ROCm, libs nĂ©cessaires et sandbox sont embarquĂ©s dans une image minimale prĂȘte Ă  ĂȘtre dĂ©ployĂ©e.

En résumé :

tu construis une image spĂ©cialisĂ©e, tu la dĂ©ploies, et “ça tourne”. Pas de dance infinie autour des dĂ©pendances GPU dans les containers.

LLMD : un serveur LLM optimisĂ©, prĂȘt Ă  l’emploi

Sur cette base, l’équipe a dĂ©veloppĂ© un premier produit : LLMD, un serveur LLM construit entiĂšrement au-dessus de ZML.

Caractéristiques annoncées :

  • DistribuĂ© en image Docker (gratuite, mais pas open source).
  • Cold start 10x plus rapide qu’un serveur Llama.cpp classique : on parle de secondes, pas de minutes.
  • Image ~4x plus petite qu’une image Llama.cpp Ă©quivalente : ~2,4 Go, incluant CUDA + ROCm.
  • Time-to-first token environ 3x meilleur,
  • Throughput (tokens/sec) amĂ©liorĂ© de 5 Ă  30 % selon la plateforme.

Le tout sans tuning extrĂȘme pour l’instant : ils prĂ©sentent ça comme un “point de dĂ©part” plus que comme une fin.

Attention B : casser la complexité quadratique
 depuis un CPU distant

Autre brique clĂ© : Attention B, une solution pour attaquer de front la complexitĂ© quadratique de l’attention.

Contexte :

  • L’attention est le cƓur des architectures modernes (transformers, LLMs).

  • Sa complexitĂ© quadratique est la raison pour laquelle :

    • on parle de contextes limitĂ©s,
    • on a besoin de mĂ©moire HBM Ă©norme sur GPU,
    • on invente des stratĂ©gies de RAG pour contourner le problĂšme.

Avec Attention B, ils prennent une autre route :

  • Au lieu de brute-forcer l’attention sur le GPU,
  • ils modĂ©lisent l’attention comme un graphe et la calculent sur CPU,
  • parfois mĂȘme sur un CPU distant, joint via un rĂ©seau 10 Gbps.

Le pipeline ressemble à ça :

  1. Extraction des donnĂ©es d’attention depuis le GPU.
  2. Envoi sur le réseau vers un CPU distant.
  3. Calcul de l’attention sur le CPU, avec un algorithme graphique plus parcimonieux.
  4. Renvoi sur le GPU pour continuer le reste du calcul.

Et malgrĂ© ce dĂ©tour rĂ©seau, c’est plus rapide que le calcul local sur GPU, pour deux raisons :

  • le CPU n’est pas “magiquement plus rapide”,
  • mais l’algorithme fait beaucoup moins de travail (graphe vs brute force).

Conséquences :

  • Le KV cache peut ĂȘtre stockĂ© en mĂ©moire systĂšme cĂŽtĂ© CPU : → jusqu’à 2x plus de capacitĂ© pour les contextes sans toucher au GPU.
  • Le GPU est dĂ©lestĂ© de 30 Ă  70 % de son temps passĂ© en attention : → il peut se concentrer sur ce pour quoi il est vraiment bon (matmul, dense ops).
  • On n’a plus besoin d’un rĂ©seau HPC ultra-exotique : → 10 Gbps suffit (25 Gbps Ă©tant encore mieux), → pas besoin d’InfiniBand monstrueux ni de fabrics 800 Gbps.

Vers un écosystÚme inference-first

La prĂ©sentation se termine sur une idĂ©e forte : l’équipe ne veut pas juste lancer un framework de plus, mais un Ă©cosystĂšme inference-first :

  • ZML open source pour structurer la stack,
  • des produits comme LLMD & Attention B pour prouver que ça tient en prod,
  • et une approche globale oĂč l’infĂ©rence n’est plus un “afterthought”, mais un cas d’usage primordial autour duquel on conçoit les outils.

L’objectif final :

faire de l’IA un primitif fiable Ă  intĂ©grer dans des systĂšmes rĂ©els, pas seulement un “quelque chose-AI” bricolĂ© autour de notebooks Python.

🧠 12:25 12:55 | Agents that actually do the work

BLACKBOX AI, SOCLE AI, AMD, Scaleway Le sujet central de 2025 : les agents autonomes. L’idĂ©e : ne plus simplement gĂ©nĂ©rer du texte ou des images, mais exĂ©cuter des tĂąches de bout en bout.

Voici un texte en français prĂȘt Ă  intĂ©grer dans ton article pour la session “Agents that actually do the work – how autonomy changes the way we build” (12h25).

Agents qui font vraiment le travail : oĂč ils brillent, oĂč ils cassent, et ce qu’il reste Ă  inventer

Le panel réunit trois profils complémentaires :

  • des builders d’agents pour les organisations oĂč la fiabilitĂ© est critique (industrie, mĂ©dical, conformitĂ©),
  • des builders d’agents pour le code, capables d’opĂ©rer sur des bases trĂšs complexes,
  • et un constructeur de puces qui conçoit le hardware sur lequel ces agents tournent, du datacenter jusqu’au rover sur Mars.

L’objectif : comprendre oĂč les agents apportent de la valeur, oĂč ils Ă©chouent, et comment ils transforment la maniĂšre de construire des systĂšmes.

OĂč les agents sont dĂ©jĂ  utiles aujourd’hui

Les intervenants listent plusieurs terrains oĂč les agents ne sont plus de la science-fiction :

  • Code & dĂ©veloppement logiciel

    • agents qui lisent les logs de production en temps rĂ©el,
    • identifient une erreur,
    • patchent le code,
    • ouvrent une pull request, lancent les tests,
    • et, si l’équipe l’autorise, merge et dĂ©clenchent un nouveau dĂ©ploiement, avec rollback possible. On parle de “full self-coding”, dĂ©jĂ  disponible publiquement.
  • Industrie & sĂ©curitĂ©

    • agents dĂ©ployĂ©s sur des sites Ă  risque (plateformes pĂ©troliĂšres, chantiers, etc.) qui analysent capteurs, alertes, camĂ©ras et signalent des situations dangereuses avant qu’elles ne dĂ©gĂ©nĂšrent.
  • MĂ©dical & monitoring

    • systĂšmes qui suivent l’état de patients via des capteurs multiples et dĂ©clenchent des actions ou des alertes selon des seuils prĂ©dĂ©finis.
  • Éducation personnalisĂ©e

    • agents capables d’adapter le contenu, le rythme et la difficultĂ© Ă  l’attention rĂ©elle de l’élĂšve, pas Ă  un profil thĂ©orique.
  • Transcription & conformitĂ© lĂ©gale

    • exemple d’un cabinet d’avocats qui utilise un pipeline d’IA pour transcrire des auditions internes, mais avec un contrĂŽle humain final obligatoire pour garantir une exactitude Ă  100 %, impossible Ă  garantir avec l’IA seule.

Agents autonomes, mais pas sans humains : l’importance du “human-in-the-loop”

Tout le panel est d’accord sur un point clĂ© : Ă  court et moyen terme, les humains restent dans la boucle.

  • Dans la sĂ©curitĂ©, l’éducation, le mĂ©dical ou le code, les agents proposent, mais ce sont les humains qui valident les dĂ©cisions structurantes.

  • Dans les workflows de code avancĂ©s, l’agent peut :

    • corriger un bug,
    • push une branche,
    • ouvrir une PR,
    • exĂ©cuter les tests, mais c’est l’ingĂ©nieur qui dĂ©cide (ou non) d’autoriser le merge automatique en production.

À long terme, certains imaginent des agents dĂ©passant le niveau humain sur certains domaines, avec moins de validation manuelle. Mais aujourd’hui, confiance et UX imposent encore une supervision humaine.

Les gros problÚmes non résolus : monde physique, souveraineté, sécurité, UX

Les intervenants pointent plusieurs verrous majeurs :

  1. Le monde physique est beaucoup plus dur que le texte

    • un agent dans un hĂŽpital, un drone ou un robot doit :

      • percevoir (vision, son, capteurs),
      • raisonner en temps rĂ©el,
      • planifier une action,
      • exĂ©cuter,
      • apprendre de ses erreurs.
    • c’est d’un ordre de complexitĂ© bien plus Ă©levĂ© que de traiter des tokens dans un LLM.

  2. Souveraineté & conformité (surtout en Europe)

    • beaucoup d’équipes pensent encore que souverainetĂ© = moins de performance.
    • le panel insiste : c’est un faux dilemme.
    • le vrai sujet, c’est de construire des stacks performantes, mais souveraines et conformes (notamment pour la santĂ©).
  3. Sécurité & modÚles fermés

    • les entreprises sont tentĂ©es d’utiliser des modĂšles fermĂ©s trĂšs performants, au prix de la sĂ©curitĂ© et de la maĂźtrise des donnĂ©es.
    • en parallĂšle, les modĂšles open source deviennent suffisamment bons pour justifier des architectures end-to-end chiffrĂ©es, oĂč l’entreprise sait ce qui tourne, oĂč, et comment.
    • un des intervenants mentionne la mise en place d’un agent entiĂšrement chiffrĂ© de bout en bout : l’utilisateur sait qu’il utilise un modĂšle open source, et non un modĂšle fermĂ© opaque.
  4. UX & “prompting” comme facteur limitant

    • la valeur extraite d’un agent dĂ©pend Ă©normĂ©ment de la capacitĂ© de l’utilisateur Ă  bien le piloter.
    • si l’agent dĂ©passe le niveau technique de l’utilisateur, ce dernier peut ĂȘtre incapable d’évaluer si la rĂ©ponse est bonne
 alors mĂȘme que l’agent a fait un travail excellent.
    • conclusion : les agents doivent ĂȘtre pensĂ©s UX-first, pas juste “API-first”.

Hybrid AI : agents dans le cloud, sur Terre
 et sur Mars

La partie hardware rappelle que l’IA ne vit pas seulement dans un datacenter :

  • AMD fournit des puces pour :

    • des voitures (Subaru iSight, ultra faible latence),
    • des avions, des satellites,
    • le rover sur Mars,
    • des systĂšmes de dĂ©tection ultra-rapide (comme au CERN) oĂč l’on doit analyser des Ă©vĂ©nements en nanosecondes.

Ces puces issues du rachat de Xilinx combinent :

  • CPU embarquĂ©,
  • accĂ©lĂ©rateurs IA,
  • logique programmable (FPGA).

Cela permet un modĂšle hybride :

  • Edge / Endpoint : perception + dĂ©cision critique en local, ultra faible latence, consommation minime.
  • Cloud : raisonnement lourd, entraĂźnement et rĂ©-entraĂźnement, agrĂ©gation de donnĂ©es.

À terme, avec la progression des performances / watt, un smartphone ou un device edge pourra exĂ©cuter des capacitĂ©s aujourd’hui rĂ©servĂ©es aux GPU de datacenter.

L’agent, ce n’est pas juste un LLM avec des outils

Le panel insiste : un agent, ce n’est pas simplement un LLM + quelques tools.

Il faut aussi :

  • un protocole (MCP, architectures multi-agents, etc.),

  • une enveloppe d’exĂ©cution (container, VM, sandbox) qui dĂ©finit ce Ă  quoi il a le droit d’accĂ©der :

    • commandes terminal,
    • fichiers,
    • secrets,
    • clients (navigateur, mobile, etc.),
  • une sĂ©curitĂ© zero-trust : mĂȘme Ă  l’intĂ©rieur du firewall, personne n’est considĂ©rĂ© comme “de confiance” par dĂ©faut.

Pour le code, par exemple :

  • les agents tournent dans des environnements isolĂ©s qui simulent au mieux la prod,
  • on leur donne accĂšs Ă  des clients rĂ©alistes (browser, app mobile) pour tester des scĂ©narios complets,
  • l’environnement est presque aussi important que le modĂšle lui-mĂȘme.

Mesurer, benchmarker, garder le contrĂŽle

Question clĂ© : comment savoir si un agent fonctionne bien, alors que tout est plus “flou” que dans le ML classique ?

  • Oui, il existe des benchmarks publics (SWE-Bench, SWE-Lancer en code, etc.) utiles comme repĂšres.
  • Mais ils ne reflĂštent pas la complexitĂ© des systĂšmes rĂ©els.

Les intervenants défendent une approche user-centric :

  • dĂ©finir des mĂ©triques liĂ©es au contexte d’usage rĂ©el,

  • suivre :

    • les tĂąches effectivement accomplies,
    • les merges acceptĂ©s par les humains,
    • les corrections validĂ©es,
  • construire des benchmarks internes, continus, plutĂŽt que s’en remettre uniquement aux scores publics.

CoĂ»ts & futur : oĂč part l’argent, et comment en sortir

Sur la question des coûts :

  • aujourd’hui, le gouffre, ce sont les racks GPU, le rĂ©seau, la mĂ©moire HBM – surtout avec les modĂšles de raisonnement qui gĂ©nĂšrent Ă©normĂ©ment de tokens internes.
  • Ă  chaque gĂ©nĂ©ration, le hardware devient plus performant
 mais les modĂšles deviennent plus lourds.

À long terme, une partie de la solution est claire :

  • dĂ©placer une grande part des workloads vers l’edge,

  • profiter du fait que les devices grand public rattrapent (et dĂ©passent) d’anciennes gĂ©nĂ©rations de supercalculateurs,

  • concevoir les agents comme des containers lĂ©gers, dĂ©plaçables, capables de vivre :

    • dans le cloud,
    • sur un endpoint,
    • ou sur une machine locale.

Garder les agents dans les clous : échecs courants et garde-fous

Enfin, comment Ă©viter qu’un agent ne parte en vrille :

  • Limiter ses permissions : dĂ©cider explicitement Ă  quoi il a accĂšs (fichiers, secrets, commandes, API).

  • Mettre des garde-fous de supervision :

    • notifications (Slack, SMS, appels vocaux automatiques) quand l’agent est bloquĂ©,
    • demandes explicites de validation humaine pour certaines actions critiques.
  • Donner de la visibilitĂ© aux utilisateurs : dashboards, logs, explications pas Ă  pas – pour que l’utilisateur puisse comprendre, rejouer, corriger.

Le panel se termine sur cette idĂ©e : les agents existent dĂ©jĂ  dans les systĂšmes, sur l’edge, dans les usines, dans le code. Mais leur succĂšs dĂ©pendra moins de la magie des LLM que de la qualitĂ© des protocoles, de l’UX, de l’infra et des garde-fous que nous mettrons autour.

⚡ 13:00 13:15 | Inside Photoroom’s Open-Source T2I Model

Le behind-the-scenes d’un modĂšle texte-vers-image europĂ©en puissant et ouvert.

Voici un texte en français prĂȘt Ă  coller dans ton article pour la partie Photoroom / PRx.

Photoroom : entraüner son propre modùle T2I
 et l’ouvrir au monde

Sur scĂšne, Yoann Almazan et David Berthouin, research scientists chez Photoroom, viennent raconter quelque chose qu’on ne voit presque jamais : l’envers du dĂ©cor des modĂšles de gĂ©nĂ©ration d’images.

On connaßt tous la magie perçue de Stable Diffusion, Flux, Midjourney, DALL·E et consorts. Mais rarement le coût réel :

  • aprĂšs 200 heures GPU, le modĂšle ne sait mĂȘme pas reconnaĂźtre une forme,
  • aprĂšs 1 000 heures, on obtient Ă  peine quelque chose qui ressemble Ă  une bouteille,
  • aprĂšs 10 000 heures, ça commence Ă  ressembler Ă  une vraie bouteille de vin,
  • aprĂšs 50 000 heures, on retrouve matiĂšres, reflets, dĂ©tails.

Autrement dit : c’est beau Ă  la fin, mais c’est lent, douloureux, cher et fascinant Ă  dĂ©cortiquer.

PRx : un modÚle léger, open source, documenté de bout en bout

Photoroom a décidé de faire un truc rare :

entraĂźner son propre modĂšle texte→image from scratch, le publier en open source, et documenter tout le process, y compris ce qui n’a pas marchĂ©.

Ce modùle s’appelle PRx :

  • Taille : ~1,2 milliard de paramĂštres (Ă  comparer Ă  Flux ~20B – on est clairement sur un modĂšle “lightweight”).

  • Licence : Apache 2.0, usage commercial permis.

  • Ressources :

    • code,
    • expĂ©riences,
    • ablations,
    • rĂ©sultats intermĂ©diaires, tout est public, y compris les essais ratĂ©s.

L’objectif :

  • offrir un “playground sĂ©rieux” aux chercheurs, Ă©tudiants, Ă©quipes R&D qui veulent :

    • comprendre comment se construit un modĂšle de diffusion,
    • tester de nouvelles idĂ©es sans 10 000 GPU-jours,
  • et disposer d’un modĂšle assez lĂ©ger pour itĂ©rer vite, y compris sur des GPU de “simple mortel”.

En interne, ce travail a eu plusieurs impacts :

  • ComprĂ©hension profonde de la gĂ©nĂ©ration → meilleure maĂźtrise des modĂšles d’édition d’images et des features cĂŽtĂ© app.
  • Pipeline rĂ©utilisable → toutes les techniques validĂ©es sur PRx ont Ă©tĂ© rĂ©injectĂ©es dans les modĂšles de production.
  • CommunautĂ© → un Discord trĂšs actif, qui n’existerait pas sans l’ouverture complĂšte du projet.
  • Brand & hiring → le projet rend visible un niveau de travail qui, sinon, serait restĂ© enfoui dans des notebooks internes.

Rappel express : comment fonctionnent les modĂšles de diffusion

Yoann prend 1 minute pour remettre tout le monde au mĂȘme niveau.

  • En gĂ©nĂ©ration

    • on part d’un pur bruit,
    • Ă©tape par Ă©tape, le modĂšle apprend Ă  retirer le bruit dans la “bonne direction” (par ex. “une bouteille de vin sur une table en bois”),
    • en ~20–50 pas, on obtient une image cohĂ©rente.
  • En entraĂźnement, c’est l’inverse :

    • on part d’une vraie image,

    • on y ajoute progressivement du bruit,

    • on montre au modĂšle :

      • l’image bruitĂ©e,
      • le texte associĂ©,
      • la cible “propre”,
    • et on lui demande de prĂ©dire l’image (ou le bruit) Ă  chaque niveau de dĂ©gradation.

IntĂ©rĂȘt : on n’a pas besoin d’annotations complexes ; juste des paires (image, texte). ProblĂšme : il en faut des centaines de millions, voire des milliards.

AccĂ©lĂ©rer avec un modĂšle lĂ©ger : architecture + recette d’entraĂźnement

Avec PRx, l’équipe s’est fixĂ© deux contraintes :

  1. Un modÚle assez léger pour tourner sur des GPU accessibles.
  2. Un entraßnement le plus rapide possible, sans sacrifier la qualité.

Deux leviers classiques en ML :

  • Architecture : analyser les modĂšles SOTA (Stable Diffusion, SDXL, etc.) → identifier les briques vraiment cruciales → les recombiner dans une architecture plus compacte.

Résultat :

  • PRx est ~60 % plus lĂ©ger que certaines architectures rĂ©centes,

  • ~40 % plus rapide Ă  entraĂźner / infĂ©rer,

  • sans chute notable de qualitĂ©.

  • Recette d’entraĂźnement : intĂ©grer les meilleures techniques rĂ©centes pour converger plus vite. David en dĂ©taille une, simple Ă  comprendre mais trĂšs efficace : la re-captionisation riche.

RĂ©-annoter tout le dataset pour apprendre plus avec les mĂȘmes images

Point de dĂ©part : les datasets web (LAION & co.) sont extrĂȘmement hĂ©tĂ©rogĂšnes.

  • Ça contient :

    • des photos sublimes,
    • des images de catalogue,
    • des crops bizarres,
    • des images moches avec bordures blanches,
    • etc.

Traditionnellement, beaucoup d’équipes :

  1. EntraĂźnent sur tout le dataset,
  2. Puis fine-tunent sur un sous-ensemble “propre” filtrĂ© par heuristiques.

ProblĂšmes :

  • Difficile d’automatiser un filtrage parfait.
  • Le fine-tune sur un sous-ensemble peut faire “oublier” certains concepts appris au dĂ©part.

Photoroom explore une autre voie : au lieu de changer les images, on enrichit radicalement les légendes.

Du “chat sur une chaise” Ă  des descriptions ultra dĂ©taillĂ©es

Exemple simple :

  • Si on montre au modĂšle seulement des images lĂ©gendĂ©es “un chat sur une chaise”, il finit par apprendre grossiĂšrement “qu’est-ce qu’un chat ?”.

Mais si on légende :

  • “un chat orange sur une chaise”,
  • “un chat blanc sur une chaise”,

alors le modĂšle peut :

  • dĂ©sentrelacer les concepts :

    • “chat” ≠ “orange” ≠ “blanc”,
    • “orange” devient un concept rĂ©utilisable ailleurs (orange car, orange sofa, etc.).

Photoroom pousse cette idĂ©e Ă  l’extrĂȘme :

  • ils passent tout leur dataset par des vision–language models SOTA,
  • ils demandent des descriptions trĂšs riches,
  • chaque image se voit dotĂ©e de dizaines de concepts explicites : style, matiĂšre, couleur, lumiĂšre, contexte, etc.

Un prompt initial du type :

“tabby sleeping cat on a wheelchair”

devient quelque chose comme :

“a minimalist white wheelchair in a bright studio, with a tabby sleeping cat curled on the seat, soft shadows, high-key lighting, etc.”

Paradoxe intéressant :

on rend les lĂ©gendes plus complexes, pour rendre l’apprentissage plus efficace, avec exactement les mĂȘmes images.

Le modĂšle apprend plus de concepts, mieux sĂ©parĂ©s, pour un coĂ»t d’échantillon inchangĂ©.

Pourquoi c’est important pour l’écosystĂšme

Ce que montre Photoroom avec PRx, c’est qu’on peut :

  • faire de la vraie recherche appliquĂ©e en T2I sans ĂȘtre une Big Tech,

  • outiller la communautĂ© avec :

    • un modĂšle lĂ©ger,
    • une licence permissive,
    • des logs d’expĂ©riences et d’échecs,
  • et prouver qu’une approche qualitĂ© de dataset + ingĂ©nierie d’architecture + transparence peut rivaliser sĂ©rieusement.

Pour la communauté IA comme pour les builders produits, PRx est autant :

  • un modĂšle utilisable,
  • qu’un cas d’étude vivant de ce que ça veut dire, concrĂštement, de former un modĂšle de gĂ©nĂ©ration d’images en 2025.

🌐 13:20 13:50 | From lab to product (Voice models)

Kyutai + Indigo.ai expliquent comment transformer des modĂšles vocaux en produits industriels.

Voici un texte prĂȘt Ă  intĂ©grer dans ton article pour la partie “From lab to product with European voice models” (Kyutai + Indigo AI).

Des modÚles de voix européens : de la recherche au produit

Sur scĂšne, deux mondes se rencontrent :

  • Neil Zeghidour, chercheur en speech chez Kyutai (Moshi, modĂšles TTS, STT, traduction, etc.),
  • Enrico Bertino, co-fondateur d’Indigo AI, leader italien des assistants conversationnels en entreprise (avec, au passage, un BERT italien qui porte littĂ©ralement son nom : Bertino).

Ensemble, ils posent un constat simple : l’audio est l’interface la plus naturelle
 et la plus compliquĂ©e Ă  maĂźtriser.

Pourquoi la voix est beaucoup plus dure que le texte

Neil rappelle un ordre de grandeur qui calme tout le monde :

  • 1 heure de parole enregistrĂ©e ≈ 700 Mo d’audio brut,
  • la transcription texte de cette heure ≈ 50 000 fois moins d’information.

Le texte est :

  • compact,
  • structurĂ©,
  • optimisĂ© par des millĂ©naires d’évolution culturelle pour transmettre de l’information.

La voix, elle, est :

  • massivement redondante,
  • extrĂȘmement variable (accent, timbre, micro, bruit, Ă©motion, contexte),
  • porteuse de signaux non verbaux : rythme, hĂ©sitations, sourire, colĂšre, fatigue


MĂȘme phrase, mille façons de la prononcer mais un systĂšme doit toujours comprendre la mĂȘme intention (“Quelle est la racine carrĂ©e de 9 ?”), que ce soit dans la montagne avec un vieux micro pourri ou sur scĂšne Ă  Paris avec un casque broadcast.

Enrico complĂšte avec le point de vue produit :

  • au dĂ©but, ils pensaient : “la voix, c’est juste un canal en plus pour nos chatbots” ;

  • en pratique : c’est un autre monde :

    • si tu rates un mot Ă  l’oral, tu peux perdre le sens entier,
    • tu ne peux pas “relire” comme sur du texte,
    • il faut gĂ©rer le latency budget, les interruptions, le tour de parole, la prise de confiance.

Évaluer la qualitĂ© : mĂ©triques objectives vs ressenti humain

La voix transporte de l’émotion, et c’est prĂ©cisĂ©ment ce qui rend son Ă©valuation toxique :

  • cĂŽtĂ© “machine”, on peut mesurer :

    • taux d’erreur de mots (WER),
    • taux de mots mal prononcĂ©s,
    • latence moyenne, etc.
  • mais cĂŽtĂ© humain, tout peut ĂȘtre biaisĂ© par :

    • l’humeur du testeur,
    • la voix choisie,
    • un seul mot critique mal transcrit (date, montant, nom propre) qui ruine l’expĂ©rience.

Enrico raconte un cas client :

  • version 1 : le client teste un voicebot, trouve la qualitĂ© “pas au niveau, pas prĂȘt pour la prod”,
  • ils ne changent quasiment rien cĂŽtĂ© agent, seulement quelques paramĂštres de voix / rendu,
  • version 2 : “parfait, on le met en prod demain”.

MĂȘme pipeline, mĂȘme intelligence derriĂšre seule la perception a changĂ©.

D’oĂč la nĂ©cessitĂ© de combiner :

  • tests objectifs (mĂ©triques, benchmarks),
  • Ă©valuations subjectives façon “clinical trial” : double-aveugle, anciens vs nouveaux modĂšles mĂ©langĂ©s, large panel d’écoute, sans dire aux testeurs “c’est la nouvelle version”.

Deux grandes architectures : cascade vs speech-to-speech

Aujourd’hui, deux architectures dominent.

1. Architecture en cascade (ASR → LLM → TTS)

Pipeline “classique” :

  1. ASR : conversion de la voix en texte (streaming).
  2. LLM / agent : comprĂ©hension, raisonnement, appels d’API, RAG, outils mĂ©tiers.
  3. TTS : réponse vocalisée dans la voix cible.

Avantages :

  • parfait pour plugger de la voix sur un existant textuel :

    • bots mĂ©tiers, workflows d’API, systĂšmes bancaires / assurance, etc.
  • facile d’ajouter :

    • function calling,
    • RAG,
    • formats complexes (tableaux, chiffres, rĂ©sumĂ© structurĂ©).

Limites :

  • obligĂ© de dĂ©couper en tours de parole (turns) : → dĂšs qu’on sort d’un dialogue propre, ça casse (interruptions, chevauchements, back-channels, etc.),

  • la latence peut vite dĂ©river :

    • attendre la fin perçue d’une phrase,
    • capturer les petits “euh”, “oui, en fait”,
    • envoyer au LLM,
    • attendre la rĂ©ponse, → on fini parfois Ă  plusieurs secondes de dĂ©lai.

Enrico note que la cascade reste trÚs adaptée aux cas :

  • inbound service client :

    • questions complexes,
    • appels d’API bancaires / assurance,
    • l’utilisateur s’attend Ă  ce que ça prenne quelques secondes,
    • on peut “masquer” la latence avec des trucs UX (“Je vĂ©rifie vos informations
”).

2. Architecture speech-to-speech native

Ici, le modĂšle :

  • prend directement l’audio en entrĂ©e,
  • gĂ©nĂšre directement de l’audio en sortie,
  • gĂšre le dialogue sans dĂ©couper en tours stricts.

Forces :

  • latence 200 ms possible, au niveau humain,
  • gestion naturelle des interruptions, des overlaps, des “hmm”, des “oui” pendant que l’agent parle,
  • expĂ©rience beaucoup plus fluide → ce qu’on a vu sur scĂšne avec le robot Richie Mini.

Faiblesses actuelles :

  • difficile Ă  brancher directement sur un existant LLM / API :

    • il faut inventer des stratĂ©gies hybrides,
    • ou rĂ©entraĂźner des modĂšles plus complexes qui “parlent et pensent” Ă  la fois,
  • pour une grosse boĂźte qui a dĂ©jĂ  investi des fortunes dans un LLM texte, → “rajouter la voix” devient un nouveau chantier complet : tests, perf, sĂ©curitĂ©, conformité 

Enrico souligne que le speech-to-speech brille surtout dans les cas outbound :

  • c’est le bot qui appelle le client,
  • conversations rapides, multi-tours, beaucoup d’interruptions possibles,
  • l’agent pose des questions, l’humain rĂ©pond vite,
  • la cascade devient fragile, lĂ  oĂč le speech-to-speech reste fluide.

Agents hybrides : un “petit modĂšle vocal” pilotĂ© par un “grand cerveau”

Chez Kyutai, Neil décrit une approche intéressante :

un petit modĂšle speech-to-speech, qui gĂšre la conversation en temps rĂ©el, et qui appelle ponctuellement un grand modĂšle (LLM / agent) lorsqu’il a besoin de rĂ©flĂ©chir.

En pratique :

  • le petit modĂšle :

    • comprend ce que dit l’utilisateur,
    • improvise, relance, rassure,
    • gĂšre les silences, les “attendez”, les reformulations,
  • quand il atteint une question “dure” (chiffres, logique, back-office, etc.), → il demande de l’aide au gros modĂšle (le fameux “joker”),

  • pendant que le LLM rĂ©flĂ©chit, le modĂšle vocal peut continuer Ă  parler : “Je regarde vos derniĂšres opĂ©rations
”, “Je vĂ©rifie ça pour vous.”

  • dĂšs que la rĂ©ponse arrive, il la reformule en audio.

Deux bénéfices majeurs :

  1. UX fluide par design (les “trucs UX” sont intĂ©grĂ©s dans l’architecture).

  2. Robustesse à la connectivité :

    • le petit modĂšle peut tourner en local sur le device,
    • si la connexion tombe, la conversation continue,
    • seules les tĂąches “complexes” nĂ©cessitent un retour rĂ©seau.

Enrico, cĂŽtĂ© Indigo, appelle ça un “dummy agent” :

  • un agent vocal qui sait :

    • Ă©couter,
    • reformuler,
    • rassurer,
    • gagner du temps,
  • pendant que le gros cerveau (LLM + APIs + RAG) fait le boulot en arriĂšre-plan.

Accents, diversitĂ© et Ă©quitĂ© d’accĂšs

Autre sujet : la fairness.

  • Si tu parles “anglais CNN”, tout marche.
  • Si tu parles avec un fort accent, un dialecte ou un mĂ©lange de langues (cas suisse ou italien), beaucoup moins.

Pour que les systÚmes soient réellement inclusifs, il faut :

  • des donnĂ©es d’entraĂźnement issues de speakers trĂšs variĂ©s,

  • des annotateurs qui comprennent vraiment les accents / dialectes ciblĂ©s :

    • mĂȘme un Français natif peut peiner Ă  transcrire correctement un QuĂ©bĂ©cois,
  • des modĂšles multilingues / multi-accents robustes.

Enrico explique que :

  • l’ASR est aujourd’hui la partie la plus dĂ©licate,
  • en Suisse par exemple, ils doivent gĂ©rer 4 langues dans le mĂȘme flux,
  • la plupart des systĂšmes demandent de fixer la langue au dĂ©but de la conversation, → les bascules en cours de route sont mal gĂ©rĂ©es.

Pour le TTS, ils jouent au contraire avec les accents :

  • en Italie, ils prĂ©fĂ©rent des accents lĂ©gers (Rome, Sicile
) plutĂŽt qu’un italien totalement neutre,
  • ça rend le bot plus chaleureux, moins “voix robot de central tĂ©lĂ©phonique”.

Le vrai travail : contrÎle, compliance et téléphonie

Enrico distingue deux gros chantiers pour amener tout ça en production entreprise :

1. ContrÎle & conformité

Derriùre la “simple” brique ASR → LLM → TTS, il faut :

  • guardrails (ce que l’agent peut dire ou pas),
  • obfuscation / masking des donnĂ©es sensibles,
  • gestion de la vie privĂ©e (RGPD, stockage, droit d’accĂšs, etc.),
  • monitoring et auditabilitĂ© des conversations,
  • latence maĂźtrisĂ©e malgrĂ© ces couches de contrĂŽle.

C’est un monde à part, qui demande :

  • d’autres compĂ©tences,
  • d’autres outils,
  • une culture proche de la sĂ©cu / gouvernance.

2. La couche télécom, héritée des années 90

Pour passer du chatbot web au voicebot téléphonique, Indigo a dû :

  • plonger dans le monde SIP, PBX, PSTN, call centers,
  • gĂ©rer l’handover fluide vers un humain,
  • construire en interne une Ă©quipe dĂ©diĂ©e tĂ©lĂ©phonie.

La pile tĂ©lĂ©com n’a pas Ă©tĂ© pensĂ©e pour l’ùre des LLM, et l’intĂ©gration est loin d’ĂȘtre triviale.

Et maintenant ? Deux “big unlocks” pour l’Europe

Pour conclure, les deux intervenants reviennent sur ce qui, selon eux, va débloquer la suite :

  1. Un écosystÚme européen durable

    • On n’a ni Google, ni Meta, ni les mĂȘmes VCs que la Silicon Valley.

    • Pourtant, en IA, l’Europe est bien partie (Kyutai, Mistral, pangea de labs, etc.).

    • Pour garder l’avance, il faut des modĂšles Ă©conomiques soutenables :

      • pas seulement des dĂ©mos spectaculaires,
      • mais des entreprises qui tiennent dans la durĂ©e.
  2. La latence cÎté humain, plus cÎté IA

    • Aujourd’hui, la friction vient souvent de l’agent : latence perçue, coupures, Ă©trangetĂ©s.
    • Avec des speech-to-speech Ă  200 ms, l’objectif est que le “bouchon” vienne du temps de rĂ©flexion humain, pas de la machine.

“Le vrai tournant, ce sera quand la latence ressentie viendra de l’utilisateur, et non plus du systùme d’IA.”

📡 13:55 14:10 | Translation & transformer limits

Un talk de Translated sur les frontiĂšres actuelles des modĂšles autoregressifs.

Voici un texte prĂȘt Ă  mettre dans ton article pour la partie “Translation to Translation”.

Vers le traducteur universel : quand la traduction devient un laboratoire d’AGI

Pour Translated, la traduction n’est pas juste un service linguistique : c’est un terrain d’entraĂźnement idĂ©al pour l’intelligence artificielle gĂ©nĂ©rale.

L’intervenant pose le cadre dĂšs le dĂ©but :

  • Toutes les espĂšces ont dĂ©veloppĂ© le contrĂŽle moteur.
  • Mais aucune, Ă  part l’humain, n’a dĂ©veloppĂ© un langage complexe.
  • C’est par le langage que l’on coopĂšre, qu’on se projette dans le futur, qu’on aligne nos intentions.

« Certains pensent que le problĂšme le plus important, c’est d’aller sur Mars. Moi, je pense que le plus important, c’est qu’on se comprenne dĂ©jĂ  sur Terre. »

C’est ce problùme-là que Translated attaque : comprendre toutes les langues, dans les deux sens, sans perte de sens.

Mesurer le progrĂšs : non pas en FLOPS, mais en secondes par mot

Plutît que de raisonner en “taille de modùle” ou “tokens vus”, Translated utilise un indicateur super concret :

Combien de temps met un traducteur pro pour corriger la traduction de la machine, mot par mot ?

Ils mesurent :

  • le temps de post-Ă©dition par mot,
  • annĂ©e aprĂšs annĂ©e, sur des traducteurs professionnels.

Résultat historique :

  • de 2010 Ă  2023 : courbe quasi linĂ©aire vers la “singularitĂ© humaine”,
  • cette singularitĂ© est fixĂ©e Ă  1 seconde par mot : → le moment oĂč l’humain ne modifie plus rien, il ne fait que valider.

Jusqu’il y a peu, la projection disait : on atteindra ça vers 2027.

Mais en mettant à jour la courbe avec 2024–2025, surprise :

  • la courbe ralentit,
  • la droite “tout droit vers la singularitĂ©â€ se casse,
  • on se retrouve plutĂŽt Ă  l’horizon 2030–2032.

MĂȘme ressenti cĂŽtĂ© utilisateurs :

  • GPT-5 n’est pas un choc comme GPT-4,
  • 5.1, Gemini 3 : ce sont des amĂ©liorations incrĂ©mentales, pas des ruptures.

La question devient : jusqu’oĂč peut-on aller avec l’approche actuelle, autoregressive, word-first ?

La traduction : un “gym” brutal pour les modùles

Pourquoi la traduction est un excellent test pour l’AGI ?

Parce que, contrairement à un chatbot générique :

  • on n’a pas le droit d’halluciner :

    • inventer une phrase ou un fait en trad est immĂ©diatement visible,
    • la moindre hallucination fait rire
 ou fait perdre un contrat.
  • Il faut une cohĂ©rence fine :

    • garder le sens,
    • respecter les contraintes (longueur, ton, terminologie),
    • ne pas “lisser” ou simplifier le contenu.

La traduction force le modÚle à développer un véritable modÚle du monde, pas seulement un modÚle de texte.

Quand les coĂ»ts d’entraĂźnement explosent

Historiquement, Translated entraĂźnait ses modĂšles de bout en bout :

  1. ModĂšle de langue (LM).
  2. ModÚle de traduction spécialisé (MT).

Timeline :

  • modĂšles statistiques →
  • modĂšles neuronaux (vers 2010) →
  • Transformers →
  • gros LLM ouverts + fine-tuning.

Le problĂšme, ce sont les coĂ»ts d’entraĂźnement :

  • autrefois : 100 heures GPU pour un modĂšle,
  • puis : 1 000 heures (gros, mais gĂ©rable),
  • aujourd’hui : 5 millions d’heures GPU rien que pour du fine-tuning,
  • et ~20 millions d’heures pour un full pre-train
 pour un modĂšle qui vivra 1 an.

Conclusion :

entraĂźner un modĂšle propriĂ©taire complet n’a plus de sens Ă©conomique Ă  chaque gĂ©nĂ©ration.

Translated s’est alors appuyĂ© sur des LLM open-source comme base
 et c’est lĂ  qu’ils ont identifiĂ© trois gros angles morts.

Trois limites structurelles des LLM actuels

1. Tokenisation cassée : la confusion commence à la premiÚre étape

Aujourd’hui, la tokenisation (BPE, etc.) est un prĂ©-process sĂ©parĂ© du modĂšle :

  • on dĂ©coupe le texte en sous-unitĂ©s (“cas”, “ing”, “##ion”, etc.),
  • puis seulement ensuite, on encode et on envoie dans le rĂ©seau.

ProblĂšme :

  • un mĂȘme segment (ex : “cas”) peut correspondre Ă  :

    • “casa” en italien,
    • case, casual, cascade, etc.
  • l’embedding initial devient ambigu dĂšs l’entrĂ©e,

  • le transformer essaie de rĂ©parer cette ambiguĂŻtĂ©, mais seulement jusqu’à un certain point.

Idée de Translated pour le modÚle Boops :

  • apprendre la tokenisation avec le modĂšle, via backprop,

  • traiter en entrĂ©e non pas des “tokens BPE”, mais des bytes bruts,

  • et laisser le rĂ©seau dĂ©couvrir lui-mĂȘme :

    • comment segmenter le texte,
    • et, Ă  terme, comment intĂ©grer aussi images, vidĂ©o, signaux multimodaux.

Autrement dit :

“On ne veut plus de prĂ©-processing opaque. On veut un cerveau qui apprend lui-mĂȘme Ă  lire ses sens.”

2. Raisonnement en parallùle, dans l’espace latent

Aujourd’hui, le raisonnement des LLM, c’est :

  • autoregressif,
  • token aprĂšs token,
  • avec parfois des chaĂźnes de pensĂ©e rĂ©injectĂ©es dans le prompt.

Mais tout se fait dans le flux de texte, ce qui impose des limitations étranges.

Exemple simple (en italien) :

“Tre parole importanti : non sei solo.”

Traduction naĂŻve en anglais :

“Three important words : you are not alone.”

ProblĂšme :

  • “you / are / not / alone” = 4 mots,

  • donc la traduction correcte serait plutĂŽt :

    “Four important words: you are not alone.”

Aucun modÚle actuel ne gÚre ça proprement, car il doit :

  • compter les mots,
  • dĂ©coder en mĂȘme temps,
  • dans un flux oĂč tout est mĂ©langĂ©.

Le cerveau humain, lui, fait différemment :

  • plusieurs zones traitent en parallĂšle (vision, langage, logique
),
  • la “functional connectivity” permet de raisonner avant de parler,
  • puis seulement ensuite on produit une sortie.

Objectif de Boops :

  • dĂ©placer le raisonnement dans un espace latent interne,

  • laisser le modĂšle :

    • manipuler des reprĂ©sentations abstraites,
    • vĂ©rifier des contraintes (compter, aligner, contrĂŽler),
    • avant de gĂ©nĂ©rer le texte final.

3. Apprendre pendant l’infĂ©rence : de l’expĂ©rience, pas seulement des donnĂ©es passĂ©es

DerniĂšre limite :

On ne dĂ©passera jamais l’intelligence humaine cumulĂ©e si l’on se contente de recycler des donnĂ©es humaines passĂ©es.

Les humains apprennent :

  • un peu par supervision (livres, cours, corrigĂ©s),

  • beaucoup par expĂ©rience directe :

    • essayer, rater, recommencer,
    • sans qu’un “oracle” explicite donne une rĂ©compense numĂ©rique,
    • en se donnant soi-mĂȘme des objectifs, des valeurs, une forme d’agence.

Translated a déjà exploré ce principe en 2017 :

  • en traduction, ils ont laissĂ© le systĂšme apprendre en continu Ă  partir :

    • des corrections de traducteurs,
    • du temps de post-Ă©dition,
    • du comportement rĂ©el en production.
  • ce retour d’expĂ©rience a significativement amĂ©liorĂ© le modĂšle,

  • au point de contribuer Ă  faire de Translated une entreprise proche des 100 M$ de revenus.

L’ambition maintenant :

  • gĂ©nĂ©raliser cette approche au-delĂ  de la traduction,

  • crĂ©er des modĂšles qui apprennent pendant qu’ils infĂšrent :

    • ils dĂ©composent les tĂąches,
    • estiment eux-mĂȘmes la qualitĂ© / valeur de ce qu’ils font,
    • se rĂ©-entraĂźnent localement, sur la base de leur propre expĂ©rience.

Boops : un modÚle européen, ouvert, orienté recherche longue

Pour pousser ces idées, Translated a obtenu :

  • 30 M€ de financement de recherche europĂ©en,
  • ~100 M€ d’équivalent compute en crĂ©dits GPU.

Feuille de route annoncée :

  • 2026 : premiĂšre version de Boops

    • open-weights, open-source,

    • ~10B de paramĂštres,

    • entraĂźnĂ©e pour explorer :

      • la tokenisation apprise,
      • le raisonnement latent,
      • l’apprentissage en ligne.
  • 2027 : version ~27B.

  • 2028 : version finale intĂ©grant l’ensemble des briques.

Le tout hĂ©bergĂ© en prioritĂ© sur les infrastructures europĂ©ennes (Scaleway & co.), puis ouvert au reste de l’écosystĂšme.

Un traducteur qui explique ses choix

En parallĂšle de la recherche “heavy”, Translated propose dĂ©jĂ  un outil grand public :

  • laratranslate.com

    • traduction de haute qualitĂ©,
    • et surtout : → la possibilitĂ© de demander au systĂšme pourquoi il a choisi tel mot plutĂŽt qu’un autre.

Ce n’est plus juste “voilà la traduction” :

  • le modĂšle expose ses critĂšres terminologiques,
  • justifie ses choix de style ou de vocabulaire.

Pour la suite, Translated coordonne un consortium d’environ 70 chercheurs (Oxford, EPFL, ETH, etc.) autour de ces questions.

“Si l’un de ces sujets de recherche te parle, viens nous voir.”

📊 14:15 14:45 | Benchmarking the frontier

Une nouvelle façon d’évaluer l’« AI stack » moderne : hardware, modĂšle, pipeline, inference.

Voici un rĂ©sumĂ© structurĂ© et prĂȘt Ă  intĂ©grer dans ton article pour la conf “AI Benchmarking” (Micah Hill-Smith – Artificial Analysis).

📊 Benchmarking de l’IA : mesurer vraiment ce que valent les modùles

Micah Hill-Smith, co-fondateur et CEO d’Artificial Analysis, prĂ©sente comment son Ă©quipe mesure et compare les modĂšles d’IA, les infrastructures et les puces. Leur promesse : donner aux builders des donnĂ©es indĂ©pendantes pour choisir les bons modĂšles, au bon prix, pour les bonnes applis.

đŸ‘„ Qui est Artificial Analysis ?

  • Site : artificialanalysis.ai

  • RĂŽle : tiers de confiance pour :

    • mesurer l’intelligence des modĂšles (LLM, image, audio, vidĂ©o),
    • Ă©valuer latence, coĂ»t, efficacitĂ©, tokens utilisĂ©s,
    • comparer labs, clouds, chips.
  • Clients : labs de haut niveau + entreprises qui construisent des produits IA.

  • Outils : un Intelligence Index (score synthĂ©tique) et des datasets/Ă©vals custom pour les besoins spĂ©cifiques.

📈 OĂč en sont les LLM aujourd’hui ?

Ils affichent une courbe d’évolution de leur Intelligence Index depuis GPT-3.5 :

  • PĂ©riode “OpenAI dominĂ© tout” aprĂšs GPT-4.

  • Puis arrivĂ©e des reasoning models fin 2024 → gros saut de performance sur les benchmarks de raisonnement.

  • En 2025, les trois “frontier labs” sont au coude Ă  coude : OpenAI, Anthropic, Google (et XAI en embuscade).

  • Sur les use cases concrets (notamment le code) :

    il y a un an, les agents de code faisaient peu de choses utiles. aujourd’hui, ils fonctionnent vraiment.

MĂȘme si GPT-5 n’a pas “senti” comme une rĂ©volution pour tout le monde, si on zoome Ă  l’échelle 2,5 ans, le saut est gigantesque.

đŸ§± La stack IA vue par Artificial Analysis

Micah dĂ©coupe l’écosystĂšme en 4 couches :

  1. Applications – ChatGPT, copilots, produits B2B, apps finales.

  2. Modùles de fondation – GPT-5, Mistral Large, Qwen, etc.

  3. Cloud d’infĂ©rence / APIs – Endpoints que les devs appellent (OpenAI, Anthropic, Groq, etc.).

  4. MatĂ©riel / AccĂ©lĂ©rateurs – GPUs (NVIDIA), TPUs (Google), autres chips spĂ©cialisĂ©s.

Google est l’acteur le plus intĂ©grĂ© verticalement (du chip aux apps). Les autres adoptent des stratĂ©gies plus partielles.

💾 IA : en mĂȘme temps beaucoup moins chĂšre
 et beaucoup plus chĂšre

Micah pose un paradoxe :

“L’IA est devenue 100× moins chĂšre
 mais vos requĂȘtes coĂ»tent souvent 10× plus qu’avant.”

1. Pourquoi c’est moins cher pour un niveau donnĂ© d’intelligence ?

Pour un “niveau GPT-4” par exemple :

  • ModĂšles plus petits + sparsitĂ© → moins de paramĂštres activĂ©s Ă  chaque requĂȘte.
  • Optimisations logicielles d’infĂ©rence.
  • Nouveaux hardwares plus efficaces (nouvelles gĂ©nĂ©rations de GPU/TPU).
  • RĂ©sultat : le coĂ»t pour produire un token de qualitĂ© GPT-4 a chutĂ© d’environ ×100.

2. Pourquoi vos requĂȘtes coĂ»tent plus cher au final ?

Parce qu’on fait faire beaucoup plus de choses au modùle :

  • ModĂšles plus gros au sommet (certains dĂ©passeraient GPT-4 en taille).

  • Reasoning models → ils “pensent” avec des milliers de tokens avant de rĂ©pondre.

  • Agents IA :

    • chain-of-thought sur plusieurs appels,
    • recherche web, RAG, outils,
    • agents de code qui modifient des fichiers, exĂ©cutent du code, relancent des tests, etc.

Donc : 🧠 Intelligence par dollar augmente. đŸ’¶ CoĂ»t par requĂȘte utile explose si tu laisses l’agent travailler longtemps.

🧠 Reasoning models & efficacitĂ© en tokens

Avant, la distinction était simple :

  • modĂšles “normaux” vs
  • reasoning models (avec trace de rĂ©flexion explicite, beaucoup plus de tokens internes).

Maintenant, c’est plus flou :

  • Certains modĂšles sans “mode reasoning” parlent beaucoup et font quand mĂȘme beaucoup de raisonnement implicite.
  • Certains reasoning models rĂ©cents sont beaucoup plus efficaces en tokens.

Artificial Analysis parle désormais plutÎt de :

token efficiency = nombre de tokens utilisĂ©s pour atteindre un certain niveau d’intelligence.

En pratique, pour un builder, il faut regarder :

  • pas seulement “raisoning on/off”,
  • mais combien de tokens le modĂšle consomme pour ton type d’usage (latence + facture).

🟩 Open weights vs modĂšles propriĂ©taires

Ils comparent la meilleure perf open-weights et la meilleure perf propriétaire :

  • Le gap entre les deux reste rĂ©el

  • 
 mais le fait marquant est que les modĂšles open-weights suivent le rythme de prĂšs.

Top open-weights actuels (selon eux) :

  • Beaucoup viennent de Chine (DeepSeek V3.2, Minimax M2, Qwen 3, etc.).
  • OpenAI a aussi sorti GPT-OSS (open-weights).
  • CĂŽtĂ© Europe : Mistral Small / Medium occupent une trĂšs bonne place, surtout en multimodal petit modĂšle.

Point important sur Mistral Large 3 :

  • Le modĂšle Ă©valuĂ© est un instruct, pas encore un reasoning RLHF complet → il est plus token-efficient mais n’écrase pas Medium 1.2 sur leurs indices de reasoning.
  • Une future version reasoning pourrait logiquement le placer au-dessus.

đŸ§Ș Nouveaux types de benchmarks : connaissance & hallucinations

Ils ont construit des évals spécifiques pour mesurer :

  1. Connaissances factuelles – questions fermĂ©es oĂč il y a une bonne rĂ©ponse clairement dĂ©finie.

  2. Comportement face à l’incertitude – quand le modùle ne sait pas, est-ce qu’il :

    • dit “je ne sais pas / je ne suis pas sĂ»r”, ou
    • invente une rĂ©ponse fausse avec confiance ?

Ils mesurent donc :

  • Accuracy (pourcentage de bonnes rĂ©ponses).
  • Taux de “hallucinations” : proportion de cas oĂč le modĂšle rĂ©pond faux alors qu’il aurait dĂ» reconnaĂźtre qu’il ne savait pas.

Observation notable : les modĂšles d’Anthropic (Claude) sont trĂšs puissants, mais parfois mal calibrĂ©s sur “je ne sais pas” vs “je tente ma chance”.

🧬 L’“Openness Index” : à quel point un modùle est vraiment ouvert ?

Ils prĂ©sentent aussi un Openness Index, un score pour mesurer Ă  quel point un modĂšle est rĂ©ellement “open” :

  • Pas seulement : est-ce que les poids sont disponibles ?

  • Mais aussi :

    • quelles sont les conditions de licence ?

    • a-t-on accĂšs Ă  :

      • la recette d’entraĂźnement,
      • la composition du dataset (au moins en grandes lignes),
      • les scripts / configs ?
  • Un score parfait signifierait :

    “On peut recrĂ©er le modĂšle depuis zĂ©ro en suivant la doc publique.”

Mistral obtient un des meilleurs scores actuels parmi les LLM propriĂ©taires/open-weights “sĂ©rieux”.

đŸ–Œïž Au-delĂ  du texte : image & vidĂ©o

Micah termine sur un point important : le monde ne se résume pas aux LLM texte.

Artificial Analysis benchmarke aussi :

  • GĂ©nĂ©ration d’images (diffusion, LLM visuels),
  • GĂ©nĂ©ration vidĂ©o (surtout image→vidĂ©o),
  • ModĂšles audio / speech.

Ils utilisent notamment des “preference arenas” : des interfaces oĂč des humains comparent deux sorties et choisissent celle qu’ils prĂ©fĂšrent → ce qui permet d’évaluer des dimensions comme :

  • qualitĂ© visuelle,
  • cohĂ©rence,
  • utilitĂ© perçue.

✈ 14:50 15:05 | The first AI flying a fighter jet

Helsing montre que l’Europe avance aussi sur les usages sensibles.

Voici un texte clair, structurĂ© et prĂȘt Ă  ĂȘtre intĂ©grĂ© dans ton article, qui rĂ©sume parfaitement la confĂ©rence Flight – L’IA qui pilote un avion de chasse.

🚀 Flight : Quand une IA devient copilote de combat

L’histoire de la premiĂšre IA Ă  piloter un avion de chasse opĂ©rationnel

La scĂšne s’ouvre sur une vidĂ©o impressionnante : un avion de chasse en vol, manƓuvrĂ© non pas par un pilote humain, mais par une IA embarquĂ©e. Le chercheur de Helsing raconte comment ils ont construit Centaur, le premier copilote d’IA capable de mener un combat aĂ©rien moderne.

Et pour comprendre pourquoi c’est une rĂ©volution, il faut d’abord dĂ©construire un mythe


đŸ›©ïž Le combat aĂ©rien moderne n’a plus rien Ă  voir avec Top Gun

L’imaginaire collectif pense encore aux dogfights :

  • deux avions qui se tournent autour,
  • les pilotes qui s’observent Ă  vue,
  • l’affrontement physique et instinctif.

La réalité 2025 ? Rien de tout ça.

Le combat n’est plus visuel. Il est :

  • Ă  10 000 m d’altitude,
  • Ă  des centaines de kilomĂštres de distance,
  • entiĂšrement pilotĂ© par des radars, capteurs, Ă©crans,
  • 100 % dans l'information et la prise de dĂ©cision.

C’est un jeu d’échecs 3D Ă  grande vitesse, en pleine tempĂȘte. Celui qui gagne est celui qui traite l’information le plus vite.

Et c’est prĂ©cisĂ©ment lĂ  que l’IA excelle.

⚠ Pourquoi l’armĂ©e a besoin d’IA maintenant

Trois facteurs rendent l’IA indispensable dans les systĂšmes de dĂ©fense :

1. La vitesse

Les menaces modernes évoluent à la seconde. Un humain ne peut plus suivre.

2. La surcharge cognitive

Un pilote doit :

  • gĂ©rer radars, missiles, alliĂ©s, mĂ©tĂ©o, trajectoires,
  • analyser des tĂ©raoctets d'information,
  • prendre des dĂ©cisions vitales en quelques instants.

C’est trop pour un cerveau humain.

3. La maturitĂ© de l’IA

On sort du buzzword : les agents sont maintenant → fiables, → rĂ©actifs, → capables d’exĂ©cuter des stratĂ©gies complexes.

MĂȘme le ministĂšre de la DĂ©fense du Royaume-Uni l’a dĂ©clarĂ© :

« Nos adversaires doivent savoir que nous innovons à un rythme de temps de guerre. »

🎯 Centaur : le copilote IA pour les engagements BVR

(Beyond Visual Range)

C’est le cƓur du problĂšme : les combats BVR, ceux oĂč on ne voit jamais l’ennemi.

L’environnement BVR, c'est :

  • information partielle,
  • incertitude totale,
  • anticipation, bluff, estimation,
  • dĂ©cisions sous stress et sous 9G.

C’est littĂ©ralement un mĂ©lange de :

🧠 Échecs → planification long terme đŸŽČ Poker → incertitude, bluff, probabilitĂ©s

Et l’IA parfaite pour ça ? → Un agent de Reinforcement Learning.

đŸ€– Le rĂŽle de Centaur dans le cockpit

Centaur reçoit en entrée :

  • objectif de mission,
  • commandes humaines,
  • donnĂ©es capteurs (radar, instruments de vol
),
  • informations provenant d’autres avions.

Et en sortie, il produit :

  1. Commandes de guidage (orientation, trajectoire, gestion des distances)

  2. Recommandations tactiques (quand tirer, quand manƓuvrer, quand Ă©viter)

  3. Communication d’intention → vers le pilote humain → vers les alliĂ©s

C’est un vĂ©ritable copilote dotĂ© d’une vision tactique parfaite.

đŸ§Ș L’ingrĂ©dient secret : un simulateur IA-first

Les simulateurs traditionnels sont :

  • trĂšs fidĂšles graphiquement,
  • conçus pour entraĂźner des pilotes humains.

Mais pour du RL, il faut :

  • des milliards d’expĂ©riences,
  • de la vitesse (x100, x1000),
  • de la variabilitĂ©.

Helsing a donc construit un simulateur propriétaire, capable de :

  • s’exĂ©cuter des milliers de fois en parallĂšle,
  • tourner bien plus vite que le temps rĂ©el,
  • modifier alĂ©atoirement les conditions de vol, la mĂ©tĂ©o, les capteurs


L’IA peut ainsi vivre des dĂ©cennies d’expĂ©rience en quelques jours.

🧬 L’apprentissage : de zĂ©ro Ă  expert

L’agent RL :

  • ne connaĂźt rien,
  • joue contre lui-mĂȘme,
  • teste, Ă©choue, corrige, recommence,
  • explore toutes les tactiques possibles.

Résultat :

Sans jamais voir une stratégie humaine, il invente ses propres tactiques.

Tactiques émergentes observées :

  • feintes de missile,
  • gestion d’altitude pour Ă©viter les radars,
  • conservation de munitions,
  • manƓuvres anticipĂ©es selon les probabilitĂ©s ennemies.

Le tout avec une performance superhumaine.

đŸ›« Du simulateur au vrai jet : mission Gripen

Mettre une IA au commande d’un avion rĂ©el exige trois choses :

1. Robustesse aux incertitudes

On ne connaĂźt jamais exactement :

  • l’aĂ©rodynamique rĂ©elle,
  • le traitement radar exact,
  • les latences du matĂ©riel.

Donc l’IA est entraĂźnĂ©e dans un environnement → plein de bruit, → de paramĂštres alĂ©atoires, → de variations extrĂȘmes.

2. Une architecture avion adaptée

Le Saab Gripen offre :

  • sĂ©paration stricte entre commandes critiques et tactiques,
  • guidage de bas niveau ultra-fiable,
  • compute embarquĂ© suffisant.

Le pilote humain reste au cƓur du systĂšme. L’IA ne touche pas aux commandes vitales directes. Elle gĂšre la stratĂ©gie.

3. Des boucles de contrĂŽle ultra-stables

Pour que l’IA puisse se concentrer sur les dĂ©cisions haut niveau.

✈ La premiĂšre dĂ©monstration en vol rĂ©el

L’étĂ© dernier, en SuĂšde, Helsing et Saab ont rĂ©alisĂ© un test dĂ©cisif :

  • un avion Gripen Ă©quipĂ© de Centaur,
  • un autre avion pilotĂ© par un humain en face,
  • environnement rĂ©el, menaces rĂ©elles, donnĂ©es rĂ©elles.

Pendant le vol, l’IA :

  • dĂ©tecte l’adversaire,
  • met Ă  jour sa stratĂ©gie,
  • manƓuvre en anticipant les mouvements ennemis,
  • optimise sa position BVR en continu.

Une IA, dans un avion réel, en train de mener un combat aérien moderne.

C’est une premiùre.

🧭 Pourquoi c’est plus qu’un autopilote

Helsing le répÚte :

Ce n’est pas un meilleur autopilote. C’est un grand maĂźtre des Ă©checs intĂ©grĂ© dans un cockpit.

L’objectif n’est pas de remplacer le pilote. C’est de lui donner un avantage dĂ©cisif dans les situations les plus critiques.

Une IA capable d’innover à un rythme de temps de guerre.

đŸ”„ Conclusion

Centaur représente :

  • la premiĂšre IA rĂ©ellement opĂ©rationnelle dans un avion de chasse,
  • une dĂ©monstration du potentiel du RL pour des dĂ©cisions en temps rĂ©el,
  • une avancĂ©e stratĂ©gique majeure pour les dĂ©mocraties occidentales.

Et Helsing recrute. Beaucoup.

đŸŒ± 15:10 15:40 | Transparency & AI Carbon Footprint

Scaleway + Salesforce explorent le sujet crucial de la sobriété et de la transparence énergétique.

⚙ 15:45 16:00 | Building AI that scales (Ampere)

Le futur du compute : CPU ARM, efficacité énergétique, IA pervasives.

đŸ€– 16:05 16:25 | From Foundation Models to Real-World Actions

Scaleway + Enchanted Tools : comment passer du modùle à l’action physique (robotique).

⚡ 16:30 16:50 | Building at the speed of agents

VAST Data, Semianalysis et H Company discutent pipelines, data infra, entraĂźnement.

🚀 16:55 17:10 | From single agents to agent fleets

Dust explore comment piloter des flottes d’agents, pas juste un agent isolĂ©.

🔐 17:35 17:55 | AI & Privacy

Proton donne une vision forte d’une IA privĂ©e et chiffrĂ©e essentielle pour l’Europe.

📡 Central Room : hardware, pharma, multimodalitĂ©, crĂ©ativitĂ© et MCP

14:20 14:50 | Beyond Air Cooling

L’avenir du hardware IA : refroidissement, haute densitĂ©, nouvelles architectures.

15:15 15:45 | AI for Pharma R&D

Biolevate + Sanofi : comment l’IA accĂ©lĂšre la dĂ©couverte molĂ©culaire.

Voici un rĂ©sumĂ© clair et rĂ©utilisable de la session “Pharmaceutique & santĂ© publique” (12–15h15).

🎯 Thùme de la table ronde

Comment l’IA transforme à la fois :

  • la surveillance Ă©pidĂ©miologique,
  • la dĂ©couverte de nouveaux traitements,
  • et la mise sur le marchĂ© de mĂ©dicaments / vaccins,

dans un secteur ultra-régulé (pharma, santé publique).

Intervenants :

  • JoĂ«l Belafont – co-fondateur de BioElevate (ex-bĂątisseur de produits tech depuis 15+ ans).
  • Antoine de Dorcich – co-fondateur, responsable IA chez BioElevate.
  • CĂ©dric Meillet – Sanofi Vaccins, spĂ©cialiste Ă©pidĂ©miologie & santĂ© publique (ex-OMS).
  • ModĂ©ration : Sophia (BioStream).

đŸ§Ș Les grandes faiblesses actuelles de la santĂ© publique (CĂ©dric – Sanofi)

  1. Données trop lentes

    • Les systĂšmes de surveillance Ă©pidĂ©miologique classiques sont rigides, basĂ©s sur des pipelines propres mais lents.
    • Parfois, les journaux tĂ©lĂ©visĂ©s annoncent l’épidĂ©mie avant les dashboards officiels.
  2. Une seule source de vérité par indicateur

    • Traditionnellement : un indicateur → une source (ex : labos, hĂŽpitaux).

    • Or aujourd’hui, on pourrait croiser :

      • logiciels de cabinets de mĂ©decine gĂ©nĂ©rale (GP software),
      • rĂ©seaux sociaux,
      • eaux usĂ©es,
      • labos privĂ©s, etc.
    • Exemple : en Allemagne, accĂ©der au logiciel des gĂ©nĂ©ralistes permet de suivre 400 000 patients/semaine avec 48 h de retard seulement → quasiment du temps rĂ©el.

  3. SĂ©lection des souches vaccinales encore “à l’ancienne”

    • Pour la grippe : on reformule 2×/an.

    • Mais la façon de choisir les antigĂšnes Ă  mettre dans le vaccin n’a quasi pas changĂ© depuis 50 ans.

    • Peu ou pas d’exploitation :

      • des donnĂ©es historiques massives,
      • ni d’IA pour prĂ©dire les souches futures.

đŸ€– OĂč l’IA apporte le plus de valeur ? (JoĂ«l & Antoine – BioElevate)

1. Une techno “convergente”

Pour JoĂ«l, l’IA utile en santĂ©, ce n’est pas juste “des LLM” :

  • modĂšles classiques de machine learning,
  • LLM et transformers,
  • analyse de texte, d’images, de signaux capteurs,
  • modĂšles de recherche / RAG,
  • agents spĂ©cialisĂ©s qui combinent plusieurs outils,
  • plus l’évolution des sensors et du hardware (inference embarquĂ©e, etc.).

Tout converge pour attaquer un problÚme complexe par plusieurs canaux en parallÚle : quelles maladies émergent ? quelles souches virales ? quels traitements possibles ?

2. L’état rĂ©el des LLM aujourd’hui

Antoine résume bien la situation :

“On peut attaquer n’importe quel problĂšme complexe avec des LLM si on le dĂ©coupe en sous-tĂąches que le modĂšle sait rĂ©soudre.”

Deux limites majeures :

  1. Mémoire & contexte

    • Un LLM ne peut pas ingĂ©rer brut :

      • une base de donnĂ©es gigantesque,
      • des annĂ©es de littĂ©rature scientifique,
      • des millions de documents rĂ©glementaires.
    • Il faut sĂ©lectionner et structurer l’information en amont.

  2. ChaĂźnes de raisonnement longues

    • Si on laisse le modĂšle “penser” trop longtemps, il dĂ©rive, perd le fil, hallucine ou sort de sa mission.

BioElevate construit donc l’infrastructure autour du modùle pour compenser ces limites.

đŸ§± Innovations clĂ©s de BioElevate pour la pharma

1. Compréhension profonde des documents

  • Travail trĂšs poussĂ© sur :

    • la sĂ©mantique des documents (oĂč se trouve la connaissance, comment elle est structurĂ©e),
    • pas seulement “texte brut” mais structure, sections, taxonomie.

2. Un “nouveau vector store” orientĂ© navigation, pas seulement recherche

  • Critique de l’approche standard chunking + simple vecteurs :

    • le dĂ©coupage en chunks fait perdre :

      • la structure,
      • le contexte global,
      • les liens entre sections.
    • on force l’IA Ă  ne faire que de la recherche sĂ©mantique ponctuelle, ce qui est limitĂ©.

  • BioElevate propose un “knowledge store” :

    • orientĂ© navigation de connaissance :

      • parcourir les sections,
      • suivre une taxonomie,
      • explorer un corpus “comme un expert humain”.
    • L’agent peut se dĂ©placer dans le document, pas seulement recevoir 3 chunks choisis.

3. Orchestration agentique & workflows complexes

  • Les questions mĂ©tier sont souvent : â€œĂ©pidĂ©mie en vue ? quelles variantes ? quelles recommandations ?” → ce ne sont pas des questions Ă  un seul shot.

  • BioElevate orchestre :

    • un workflow complexe → en sous-workflows,
    • plusieurs agents spĂ©cialisĂ©s collaborent,
    • chacun appelle ses outils, construit une partie de la carte mentale,
    • le tout reste traçable et reproductible → important pour le rĂ©glementaire.

đŸ‡«đŸ‡· Projet IOLOS : un vrai cas concret de santĂ© publique

Cédric annonce officiellement :

  • Sanofi, BioElevate, Orange, Impact Healthcare ont Ă©tĂ© sĂ©lectionnĂ©s par le cluster IDBO (santĂ© – France 2030) pour le projet IOLOS :

    • objectif : rĂ©volutionner la surveillance des maladies respiratoires en France (grippe, COVID, etc.).

    • approche : multi-sources de donnĂ©es (GP, labos, eaux usĂ©es, rĂ©seaux, etc.) → un dashboard IA qui:

      • surveille en temps rĂ©el,

      • prĂ©voit les vagues Ă©pidĂ©miques/pandĂ©miques,

      • alimente des applications mobiles pour le citoyen :

        “Avant de sortir en hiver, tu peux voir ton risque d’attraper la grippe ou le COVID.”

  • Timeline :

    • dĂ©but prĂ©vu avant mi-2026, durĂ©e 4 ans,
    • pilote rĂ©gional vers 2 ans,
    • solution industrielle complĂšte vers 4 ans.

🧬 IA & dĂ©couverte de traitements (BioElevate)

Joël décrit une autre application, cÎté R&D thérapeutique :

  • Ils ont utilisĂ© leurs pipelines pour dĂ©couvrir de nouveaux traitements sur :

    • des maladies rares ou orphelines,
    • des domaines comme oncologie, dermatologie, etc.
  • En particulier :

    • un candidat traitement en leucĂ©mie a passĂ© des premiers tests prĂ©cliniques.
  • StratĂ©gie : se concentrer sur des maladies non rentables pour les big pharmas (trop rares), et utiliser les agents IA pour explorer l’espace thĂ©rapeutique beaucoup plus vite.

⚙ Innovations “pragmatiques” : prompts & agents

1. Optimisation automatique de prompts

  • BioElevate a publiĂ© un papier sur la prompt optimisation :

    • sans changer le modĂšle,
    • ils peuvent augmenter l’accuracy jusqu’à +60 % sur certaines tĂąches,
    • parfois mieux qu’un fine-tuning LoRA, sans risque de fuite de donnĂ©es sensibles dans un modĂšle LoRA.
  • Cette techno sera intĂ©grĂ©e au cƓur de leur plateforme l’an prochain.

2. Scaling des agents : promesses et problĂšmes

Joël est trÚs clair :

“Pour 10 innovations que tu poses, tu crĂ©es 10 problĂšmes.”

  • Vision : faire passer une tĂąche de 1 an de clics pour des humains → Ă  100 000 agents qui collaborent pendant 1 heure.

  • Mais Ă  chaque palier ×10 :

    • on dĂ©couvre un nouveau bottleneck (infra, orchestration, transactions, monitoring, conformitĂ©),
    • on l’optimise,
    • puis le palier suivant rĂ©vĂšle un nouveau goulot d’étranglement.

📜 RĂ©glementation, traçabilitĂ© & confiance

Cédric (Sanofi) insiste :

  • RĂ©alitĂ© pharma : rĂ©gulation lourde (agences, EMA, FDA, etc.).

  • Ce qui est indispensable :

    • TraçabilitĂ© : pouvoir rejouer le raisonnement, suivre les sources, expliquer le “pourquoi”.
    • ReproductibilitĂ© : obtenir le mĂȘme rĂ©sultat, avec les mĂȘmes entrĂ©es.
    • Transparence : pas de “boĂźte noire magique” sans explication.

Sanofi a mis en place une politique “Responsible AI” (co-RAISE) : un cadre interne oĂč les solutions d’IA doivent respecter ces exigences.

BioElevate, de son cÎté, conçoit ses workflows agentiques avec :

  • historique complet des Ă©tapes de raisonnement,
  • sources citĂ©es,
  • capacitĂ© Ă  refaire le mĂȘme chemin → critique pour ĂȘtre acceptable auprĂšs des rĂ©gulateurs.

💉 Le “gros” problùme à 5 milliards de dollars

Question “baguette magique” de Sophia Ă  CĂ©dric :

“Si tu pouvais demander une seule chose à BioElevate ?”

Réponse :

  • AmĂ©liorer massivement la sĂ©lection des souches de grippe / COVID pour les vaccins.

    • Exploiter 50 ans de donnĂ©es non utilisĂ©es,
    • utiliser l’IA pour prĂ©dire quelles souches domineront,
    • augmenter nettement l’efficacitĂ© des vaccins.
  • Il annonce aussi :

    • un workshop prĂ©vu avec l’OMS Ă  GenĂšve avant mi-2026, pour travailler sur l’usage de l’IA dans ce processus de sĂ©lection.

🧬 Maladies rares & mĂ©decine de prĂ©cision

Sur la question des maladies trĂšs rares, souvent “pas intĂ©ressantes” Ă©conomiquement :

  • JoĂ«l rappelle que l’IA ne “veut” rien, ce sont les humains qui portent le projet.

  • Mais si on industrialise les mĂ©thodes de recherche & de design de traitements grĂące aux agents :

    on peut, à terme, envisager de développer des traitements pour quasiment tout, y compris des cas ultra-personnalisés (génome spécifique, configuration unique).

C’est la vision : mĂ©decine de prĂ©cision Ă  grande Ă©chelle, rendue possible par la scalabilitĂ© des agents IA.

🧠 Message final de JoĂ«l : qui peut construire ça ?

Sophia lui demande un conseil pour ceux qui veulent se lancer dans l’IA appliquĂ©e Ă  des secteurs critiques (santĂ©, dĂ©fense, etc.) sans ĂȘtre mĂ©decin/PhD :

  • On ne contribue pas parce qu’on est “un gĂ©nie de l’IA”, mais parce qu’on a :

    • une expĂ©rience unique,
    • un angle de frustration fort sur un problĂšme prĂ©cis.
  • Les grands labs (ex : Anthropic) recrutent des profils hors IA pure :

    • l’enjeu clĂ©, c’est formuler correctement le problĂšme et les contraintes.
  • Si quelque chose te frustre dans le monde rĂ©el, tu peux :

    • t’approprier les outils IA,
    • construire la solution autour de cette frustration.

“Il y a l’intelligence artificielle, mais il y a surtout l’intelligence humaine qui va la mettre au service de quelque chose.”

15:50 16:05 | Zero-shot product taxonomy (Veepee)

Un vrai cas d’usage e-commerce europĂ©en.

Voici un rĂ©cap clair du talk “Multimodal product classification chez VP (Veepee)”.

🏬 Contexte : VP (Veepee) et le problĂšme mĂ©tier

  • VP = unicorn française, fondĂ©e en 2001
  • 5 000 employĂ©s, 30 M de membres actifs, activitĂ© dans toute l’Europe
  • 5 millions de produits par an, issus de ~7 000 marques, dans toutes les verticales (sport, jardin, Ă©lectromĂ©nager, etc.)

Pour chaque produit, il faut :

  • fiche technique,
  • images,
  • et surtout une classification produit correcte (taxonomie interne).

Pourquoi la classification est critique ?

Parce qu’elle impacte toute la chaüne :

  • Pricing : mauvaise catĂ©gorie → mauvais prix → perte de marge / perte de compĂ©titivitĂ©.

  • Finance / FiscalitĂ© : reporting, taxes, budgets → tout repose sur la bonne taxonomie.

  • Logistique :

    • ex : un produit classĂ© “T-shirt” alors que c’est un “lave-vaisselle” → catastrophe en entrepĂŽt.
  • QualitĂ© actuelle des donnĂ©es : ~11 % d’erreurs dans le catalogue → difficile de s’en servir pour entraĂźner un modĂšle classique.

Ils ont essayĂ© de faire un “vrai” modĂšle ML pendant 6 ans → Ă©chec.

Pourquoi c’est dur avec du ML classique ?

  • Taxonomie non MECE (non “Mutually Exclusive, Collectively Exhaustive”)

    • ex : “T-shirt” VS “Top” → un T-shirt est un top, mais la taxonomie les sĂ©pare quand mĂȘme.
  • Taxonomie qui Ă©volue constamment (nouvelles tendances, nouveaux produits).

  • Imbalance massif entre catĂ©gories :

    • certaines catĂ©gories ont des millions d’items historiques,
    • d’autres : 3 produits (ex : “Imprimantes 3D”
).
  • Cold start : une nouvelle catĂ©gorie n’a pas assez de donnĂ©es pour l’apprentissage.

  • Et les donnĂ©es historiques sont bruitĂ©es (11 % d’erreurs
).

Conclusion : il faut un systÚme zero / few-shot, pas un gros classifieur supervisé.

🧠 Étape 1 – Zero-shot avec CLIP (baseline multimodale)

Ils utilisent un modùle CLIP (image + texte) en “zero-shot classification”.

Principe

  1. Pour chaque catĂ©gorie (≈ 1 500 catĂ©gories) :

    • transformer la catĂ©gorie en phrase :

      “This product is a T-shirt”, “This product is a dishwasher”, etc.

    • embeddings texte → vecteurs de dimension d.

  2. Pour chaque produit :

    • encoder l’image du produit → embedding image.
    • calculer la similaritĂ© (cosinus, euclidienne, etc.) entre l’image et les 1 500 vecteurs de catĂ©gories.
    • prendre le Top-1 comme prĂ©diction.
  3. Variante avancée :

    • ne pas embedder seulement le nom de la catĂ©gorie,
    • mais aussi les mĂ©tadonnĂ©es / connaissances expertes liĂ©es Ă  la catĂ©gorie (description mĂ©tier, rĂšgles, etc.).

Avantages

  • Zero training : pas de fine-tuning, pas de data cleaning massif.
  • TrĂšs rapide et peu coĂ»teux (embedding + similaritĂ©s).
  • GĂšre naturellement l’ajout de nouvelles catĂ©gories (on les embedde, point).

Limites

  • Top-1 accuracy ≈ 58 % (vs ~89 % pour un humain).
  • En Top-15, on monte Ă  ~89 % (on finit par inclure la bonne catĂ©gorie quelque part dans la liste).
  • → ça ne suffit pas pour de l’automatique : c’est plutĂŽt une assistance humaine ou un prĂ©-filtrage.

🧠 Étape 2 – Ajout du KNN historique (similaritĂ© avec les anciens produits)

Idée : comparer le produit non seulement aux catégories, mais aussi aux anciens produits bien labellisés.

Pipeline

  1. Ils identifient 1,5 M de produits historiques bien étiquetés (labels sûrs).

  2. Pour un nouveau produit :

    • encoder l’image,
    • faire un KNN (k plus proches voisins) dans cette base de 1,5 M embeddings,
    • rĂ©cupĂ©rer les k produits similaires (ex : top 100).
  3. Récupérer les catégories de ces voisins :

    • pour ces 100 produits, collecter leurs catĂ©gories,
    • en extraire un Top-30 de catĂ©gories les plus frĂ©quentes / pertinentes.
  4. Combiner :

    • Top-30 du CLIP “catĂ©gories”
    • Top-30 du KNN “produits similaires” → fusion (par ex. via un LRF / vote pondĂ©rĂ©).

Résultat :

  • Sur le Top-15 final, la probabilitĂ© que la bonne catĂ©gorie soit prĂ©sente dĂ©passe la performance humaine.

Pourquoi c’est bien ?

  • On introduit un biais historique volontaire :

    • le modĂšle “imite” ce que les Ă©quipes font depuis des annĂ©es,
    • et colle au “business logic” rĂ©el de VP.
  • Le coĂ»t reste trĂšs faible (embeddings + KNN sur un index vectoriel).

🧠 Étape 3 – Ajout d’un LLM multimodal pour trancher le Top-1

Là, on rentre dans le vrai génératif multimodal.

On part du constat :

  • en Top-15, le bon label est lĂ  ~96 % du temps (aprĂšs CLIP + KNN).
  • il manque juste un “cerveau” pour choisir le bon parmi ces 15 candidats.

Entrées pour le LLM multimodal

Pour chaque produit :

  1. Les 15 catĂ©gories candidates (issues de l’étape prĂ©cĂ©dente).

  2. L’image du produit.

  3. La fiche technique / texte (titre, description, attributs
).

  4. Le label book :

    • un document texte en langage humain :

      • expliquant ce que couvre chaque catĂ©gorie,
      • les rĂšgles mĂ©tier (“on met X ici, sauf si Y”, etc.),
      • exactement ce qu’on donnerait comme consigne Ă  un humain.

Ce que fait le LLM

  • C’est un LLM multimodal (image + texte).

  • Il reçoit tout le contexte (produit + 15 catĂ©gories + rĂšgles mĂ©tiers).

  • Il doit :

    • expliquer son raisonnement,
    • sĂ©lectionner une seule catĂ©gorie finale parmi les 15.

Sortie :

  • un JSON structurĂ© contenant :

    • la catĂ©gorie choisie,
    • Ă©ventuellement le raisonnement.

Résultat

  • Top-1 accuracy ≈ 94 %, donc supĂ©rieure Ă  l’humain (~89 %).

Et le tout :

  • sans fine-tuning lourd sur un LLM,

  • en s’appuyant sur :

    • embeddings d’image,
    • embeddings de textes,
    • LLM multimodal off-the-shelf (open weights possible),
      • la connaissance mĂ©tier encapsulĂ©e dans le label book.

đŸ§Ÿ PropriĂ©tĂ©s intĂ©ressantes de cette approche

  • Zero / few-shot de bout en bout

    • on ne dĂ©pend pas d’énormes datasets propres par catĂ©gorie.
    • solution robuste au cold-start : il suffit de crĂ©er une nouvelle catĂ©gorie, un label book, et on peut la proposer dans le Top-15.
  • Adaptable Ă  d’autres modalitĂ©s :

    • actuellement : image + texte,

    • mais on peut imaginer ajouter :

      • mĂ©tadonnĂ©es,
      • signaux numĂ©riques,
      • etc.
  • CoĂ»t maĂźtrisĂ© & scalable :

    • embeddings = trĂšs bon marchĂ©,
    • LLM utilisĂ© seulement sur le top 15, pas sur tout le catalogue brut,
    • donc exploitable sur 5 M de produits / an.
  • ROI Ă©levĂ© :

    • rĂ©duction des erreurs de classification → impact immĂ©diat sur pricing, logistique, finance, expĂ©rience client.

đŸ§© En rĂ©sumĂ© (pattern rĂ©utilisable)

Le schéma général que tu peux réappliquer ailleurs :

  1. Multimodal embedding (CLIP / similaire) pour faire du zero-shot.

  2. Rappel d’historique via KNN sur des donnĂ©es propres, pour injecter les biais & rĂšgles mĂ©tier implicites.

  3. LLM multimodal pour :

    • lire produit + candidats + rĂšgles mĂ©tiers,
    • produire une dĂ©cision structurĂ©e (JSON) + raisonnement.

→ Sans gros training supervisĂ©, tu obtiens :

  • une prĂ©cision > humain,
  • un systĂšme souple, scalable, peu coĂ»teux,
  • capable d’absorber de nouvelles catĂ©gories trĂšs vite.

16:10 16:40 | Video AI pipelines

AIVE, XXII, Molia : du edge inference → aux pipelines gĂ©nĂ©ratifs vidĂ©o.

Voici un rĂ©sumĂ© structurĂ© du talk “Video AI – de la vidĂ©o aux donnĂ©es” (14h–16h10).

đŸ‘„ Les intervenants & leurs produits

  • ModĂ©rateur : Paul Moshkovich – cofondateur de Modia (lab IA externalisĂ© pour entreprises).

  • Olivier / AVE – Artificial Agents for Video Experiments

    • Plateforme d’automatisation de production vidĂ©o pour :

      • marques, agences, mĂ©dias, rĂ©seaux sociaux.
    • À partir d’un spot TV, d’un film ou d’une Ă©mission :

      • rĂ©sume, reformate, localise, adapte par audience / rĂ©seau, le tout avec validation humaine.
    • Tech maison : MGT – Multimodal Generative Technology.

  • Dan / TwentyTwo (22)

    • SociĂ©tĂ© de 10 ans, spĂ©cialisĂ©e dans :

      • analyse vidĂ©o en temps rĂ©el (vidĂ©osurveillance, retail, etc.).
    • Ne stocke jamais les images :

      • transforme directement le flux en donnĂ©es structurĂ©es (objets, comportements, temps passĂ©, trajectoires
).
    • Alimentent ensuite d’autres modĂšles / dashboards / systĂšmes opĂ©rationnels.

🎬 Vision commune : traiter la vidĂ©o comme donnĂ©e, pas comme pixels

Les deux boĂźtes partagent la mĂȘme philosophie :

La vidéo = une source de données multimodales (image, audio, temporalité, contexte), pas seulement une suite de pixels.

Chez AVE

  • Ils dĂ©composent la crĂ©ativitĂ© :

    • CĂŽtĂ© visible : la vidĂ©o que l’on voit.
    • CĂŽtĂ© machine : un ensemble de donnĂ©es structurĂ©es dĂ©crivant la vidĂ©o.
  • Ils ont dĂ©veloppĂ© des dizaines de modĂšles IA propriĂ©taires (plus des modĂšles open source) qui dĂ©tectent :

    • personnes, Ă©motions, cadrage, objets, logo, discours, mouvement, narration, branding

  • Tout est transformĂ© en “video-to-data”, puis :

    • utilisĂ© pour rĂ©sumer, reformater, adapter un contenu Ă  diffĂ©rents usages (TV, TikTok, Facebook, etc.).
  • Ensuite, un moteur gĂ©nĂ©tique gĂ©nĂšre automatiquement des milliers de variantes vidĂ©o (ex : 50 000 montages possibles d’un spot Nespresso) et :

    • un “creative score” choisit la meilleure version selon le canal (TikTok ≠ Facebook).

Chez TwentyTwo (22)

  • Ils dĂ©finissent des rĂšgles :

    • ex : “un objet de type humain entre dans telle zone”, “combien de temps reste-t-il dans cette zone”, “comportement X dĂ©tectĂ© ou non”.
  • Le systĂšme extrait :

    • type d’objet (humain, vĂ©hicule, etc.),
    • trajectoires,
    • temps passĂ©,
    • comportements,
    • re-identification non biomĂ©trique (mĂȘmes individus entre camĂ©ras)

  • Tout est stockĂ© comme donnĂ©es structurĂ©es (type, position, temps, Ă©vĂšnement), directement exploitables :

    • dans des dashboards,
    • dans des systĂšmes opĂ©rationnels (alertes temps rĂ©el, automatisation).

🧠 MultimodalitĂ© : image + son + texte + temps

Les deux insistent : la multimodalité est indispensable.

Pourquoi ?

  • Comme pour un humain, on a besoin de plusieurs signaux pour comprendre le contexte :

    • image seule,
    • son / voix,
    • texte (sous-titres, scripts),
    • temporalitĂ© (ce qui vient avant / aprĂšs une scĂšne),
    • position dans l’image (centre vs coin), mouvements, etc.
  • Le croisement de ces signaux permet :

    • meilleure comprĂ©hension des Ă©motions, du rĂŽle des plans, des scĂšnes clĂ©s,
    • meilleure dĂ©tection de comportements cĂŽtĂ© 22 (retail, sĂ©curitĂ©, analytics).

Exemples concrets

  • AVE :

    • Certaines pubs / films sont sans dialogue → il faut s’appuyer sur :

      • expressions faciales,
      • mouvement,
      • type de plan (gros plan, plan large),
      • rythme,
      • cliffhanger, moments clĂ©s

    • Leur MGT combine plusieurs modĂšles :

      • ex : “gros plan + visage + Ă©motion forte” → scĂšne clĂ© / moment Ă©motionnel.
  • 22 :

    • Utilise multimodal + VLM (vision-language model) pour :

      • permettre Ă  l’utilisateur de poser des questions en langage naturel sur la vidĂ©o (ex : “est-ce que la personne porte un casque ?”),
      • et recevoir des rĂ©ponses basĂ©es sur leurs donnĂ©es vidĂ©o → texte.

📉 Data scarcity & donnĂ©es synthĂ©tiques

ProblĂšmes de base

  • Il est difficile d’obtenir assez de donnĂ©es rĂ©elles pour tout couvrir :

    • contraintes GDPR / privacy,
    • scĂ©narios rares (Ă©vĂšnements peu frĂ©quents),
    • multiples configurations de camĂ©ras / lumiĂšres / angles, etc.
  • On ne peut pas “filmer tout et n’importe quoi” pour entraĂźner un modĂšle.

Approche de TwentyTwo (22)

  • Historiquement :

    • gĂ©nĂ©ration de donnĂ©es 3D synthĂ©tiques (environnements de retail, camĂ©ras, lumiĂšres, occlusions).
    • À l’époque (2018), le rendu 3D n’était pas assez rĂ©aliste.
  • Aujourd’hui :

    • ils utilisent un mix :

      • donnĂ©es rĂ©elles (issues de partenariats clients ou environnements louĂ©s),
      • donnĂ©es synthĂ©tiques gĂ©nĂ©rĂ©es avec les rĂ©cents modĂšles de GenAI vidĂ©o.
    • L’entraĂźnement peut utiliser rĂ©el + synthĂ©tique, mais la validation des modĂšles se fait uniquement sur donnĂ©es rĂ©elles.

Approche d’AVE

  • Philosophie diffĂ©rente :

    • ils ne “fine-tunent” pas leurs modĂšles sur les vidĂ©os clients.
    • MGT est basĂ© sur une approche meta-learning / combinaison de modĂšles.
  • ConsĂ©quences :

    • pas de rĂ©-entraĂźnement au fur et Ă  mesure des uploads clients,
    • pas de fuite de donnĂ©es vers l’extĂ©rieur (pas d’API externes),
    • conformitĂ© forte pour les clients B2B (marques, agences, mĂ©dias).
  • Leur promesse :

    • tu uploades une vidĂ©o → pas de phase de setup / training, tu produis de la valeur tout de suite.

đŸ›Ąïž Guardrails, hallucinations & qualitĂ© des prĂ©dictions

AVE

  • Dans la pub / l’entertainment, la tolĂ©rance Ă  l’erreur est quasi nulle :

    • pas de personnages avec trois bras,
    • pas de glitch visibles,
    • pas de montages incohĂ©rents.
  • Leur techno est dĂ©crite comme dĂ©terministe :

    • le pipeline (dĂ©tection + rĂšgles + gĂ©nĂ©ration + sĂ©lection) est conçu pour Ă©viter les hallucinations,
    • ils ne “laissent pas un LLM inventer du contenu visuel” librement.
  • Ils insistent sur :

    • pixel perfect,

    • contrĂŽle crĂ©atif,

    • feedback humain :

      • l’utilisateur peut Ă©diter ce que l’IA propose,
      • corriger / affiner (boucle de correction).

TwentyTwo (22)

  • Eux reconnaissent : oui, il y a des hallucinations.

    • surtout cĂŽtĂ© modĂšles gĂ©nĂ©riques (VLM) ou reconnaissance d’objets dans des cas limites.
  • Mais :

    • ils ne voient jamais la vidĂ©o cĂŽtĂ© serveur (on-premise chez le client),
    • donc ils ne peuvent pas “corriger” manuellement cas par cas.
  • StratĂ©gies :

    • ajustement des seuils selon le contexte (distance camĂ©ra, lumiĂšre, angle
),

    • fine-tuning ciblĂ© sur certains cas d’usage,

    • transparence avec le client :

      • ils communiquent sur les taux de performance,
      • donnent des recommandations (position camĂ©ra, pixel density, etc.).
  • Taux d’erreur :

    • dĂ©pend du cas d’usage, mais tant que la masse de donnĂ©es globale est cohĂ©rente, les erreurs ponctuelles sont acceptables pour des use cases analytics.

đŸ§© Points clĂ©s Ă  retenir

  1. MĂȘme philosophie, use cases opposĂ©s :

    • AVE : post-production / adaptation crĂ©ative (pub, entertainment).
    • 22 : analyse temps rĂ©el / environnement physique (retail, flux, comportement).
  2. La vidĂ©o est traitĂ©e comme un flux multimodal de donnĂ©es structurables, pas juste comme une “image animĂ©e”.

  3. Multimodalité = clé pour :

    • comprendre contexte, Ă©motions, intentions,
    • offrir des interfaces en langage naturel (poser une question au systĂšme sur ce qui se passe dans la vidĂ©o),
    • amĂ©liorer robustesse et prĂ©cision.
  4. Data scarcity ≠ showstopper, si :

    • on combine donnĂ©es synthĂ©tiques, rĂ©elles, et meta-learning / composition de modĂšles,
    • on conçoit des systĂšmes qui ne dĂ©pendent pas d’énormes datasets clients pour fonctionner.
  5. Guardrails & hallucinations dépendent du métier :

    • publicitĂ© / vidĂ©o marketing → exigence de perfection visuelle → pipeline plus dĂ©terministe.
    • analytics / retail → lĂ©gĂšre marge d’erreur acceptable si le signal global est fiable.

17:10 17:25 | A deep dive into MCP & ChatGPT apps

Un talk clé : MCP, la nouvelle révolution des apps autonomes. ParticuliÚrement intéressant pour les développeurs européens.

17:50 18:05 | AI at Spotify

Comment Spotify repense ses stratĂ©gies grĂące Ă  l’IA “everywhere”.

☕ Founders CafĂ© : business cases, edge AI, RL, industrie, durabilitĂ©

Une track plus intimiste mais ultra-technique :

  • 12:05 12:35 | AIVE : Next-gen video transcreation
  • 12:40 13:10 | OCR-powered menu inventory
  • 13:15 13:30 | Real-time AI: 100x faster inference (Kog)
  • 13:35 13:50 | Measuring ROI of AI adoption
  • 13:55 14:10 | Reinforcement Learning & PCB routing
  • 14:15 14:30 | Automotive Foundation Models
  • 14:35 15:05 | Sustainable AI scaling (Fujitsu)
  • 15:10 15:40 | Desktop → Supercomputer: AI workflows
  • 16:10 16:40 | Build the audio agent
  • 17:05 17:35 | Computer-using agents (leadgen)
  • 17:40 18:10 | Tabular Foundation Models (Neuralk-AI)

Un mĂ©lange rare d’infrastructure, produits, cas d’usage rĂ©els, rĂ©gulations, optimisation Ă©nergĂ©tique et agents IA.

📌 Ce que rĂ©vĂšle l’agenda 2025

1. L’ùre des agents autonomes est amorcĂ©e

Les talks sur les agents, l’autonomie, l’orchestration, la productivitĂ© et MCP sont partout.

2. L’Europe veut imposer une IA responsable et efficiente

Sobriété énergétique, transparence, souveraineté et régulation sont omniprésentes.

3. L’industrie rattrape voire dĂ©passe la recherche appliquĂ©e

Pharma, automobile, e-commerce, robotique : on n’est plus dans la dĂ©mo, mais dans le dĂ©ploiement massif.

4. Le hardware redevient un sujet stratégique

Air cooling, edge, ARM, densitĂ©, supercompute : l’Europe veut des alternatives au duopole GPU US/Asie.

5. La multimodalitĂ© s’impose dans tous les usages

Texte → image, voix → produit, vidĂ©o → actions, tableau → insights.

đŸŽ€ Conclusion : ai-PULSE confirme le virage europĂ©en de l’IA

Avec un programme dense, international et orientĂ© action, ai-PULSE 2025 marque une Ă©tape clĂ©. L’Europe ne se contente plus d’analyser l’IA : elle construit, elle optimise, elle dĂ©ploie.

Pour ceux qui veulent comprendre oĂč va l’IA en 2026 agents autonomes, edge, multimodalitĂ©, efficacitĂ© Ă©nergĂ©tique, MCP c’est clairement le rendez-vous incontournable.

  • Sitemap - Hello - Blog - Apps - Photos - Contact - - - - - Legal mentions - Darkwood 2025, all rights reserved