Blog
  • Login

  • Anmeldung
  • Registrieren
  • Blog

  • Artikel
  • en
  • fr

🚀 IA Pulse

der 5. Dezember 2025

ai-PULSE 2025: l'Europe de l'IA passe à la vitesse supérieure

Am 4. Dezember 2025 organisierte ai-PULSE die von Scaleway organisierte Veranstaltung für eine neue Ausgabe, die unter dem Zeichen der europäischen Ambition platziert wurde. Mit den Sprechern des ersten Plans, einer dichten Programmierung und einer bestätigten Vision („Smarter, Faster, Everywhere“) ist ai-PULSE aufgrund eines Treffens mit höheren Geheimdiensten auf dem Kontinent beeindruckend.

In diesem Jahr hatte die Agenda eine klare Richtung: Europa war ein Schauspieler, kein Zuschauer, während der Revolution der IA. # 🌍 Ein Debüt unter den Géants: die Opening Keynotes

Von 09:30 bis 11:30 Uhr beginnt die Master Stage mit einer Reihe technischer Leiter:

Eine seltene Mischung: Suche, Industrie, Cloud, Roboter, offene Modelle … Alle, die den Weg aus der Europäischen Union in eine gemeinsame Szene geschafft haben.

Ich habe einen Text in Vorbereitung auf diesen Artikel geschrieben, einschließlich des Abschnitts „Keynote of ouverture by

Die Keynote von Xavier: von der IA auf der Leinwand in der ganzen Welt

Xavier führte die Konferenz durch und präsentierte das Dekor: Selon lui, die große Veränderung dieser letzten Jahre, da die IA nicht mehr auf den Bildschirmen und den Endpunkten in der Cloud eingeschlossen war. Sie betreten unsere Umgebung:

  • über natürliche Schnittstellen, * Sprache, * blockierte Systeme, * und Roboter, die mit der Welt interagieren.

L'IA est désormais „partout“. Aber um mich zu verärgern, erkläre ich es, er hat den Verstand verloren. Dies ist genau das, was PULSE Ihnen erlaubt: Klicken Sie auf die Schaltfläche, um diese neue Generation von IA zu verstehen, ohne die einfache Wirkung des Modus zu beachten.

Vor der Miete im Rahmen Ihres Anliegens erinnerte sich Xavier an die Veranstaltungspartner unter Berufung auf IMD, Ampere und die anderen Schauspieler, die zu Demos und zur Infrastruktur beitrugen. Ohne allzu viel Abseilen wäre eine Konferenz dieses Verstärkers unmöglich.

Des mots au monde: Der Übergang zu den Weltmodellen

Xavier gesellte sich zu dem „heißen Thema“ des Augenblicks: Der Kommentar zu „IA“ ist gerade dabei, ein Paradigma zu übertreffen, von dem er einfach erwartet hat, dass er sich um ein Thema kümmert … zu einem Paradigma, das wir verstehen und die Welt simulieren.

Ich stelle den Begriff der Weltmodelle vor: Modelle, die Umgebungen darstellen können, Dynamiken, Aktionen und ihre Konsequenzen. Die Idee besteht nicht darin, nur einen Satz zu vervollständigen, sondern nur zu simulieren, was passiert, wenn ein Agent in einer fremden Umgebung agitiert.

Um diese Idee zu erkunden, lud Xavier zu einer Szene ein, in der er sich wie ein „Oberster“ der modernen Welt präsentierte:

  • Yann LeCun, Preisträger des Turing-Preises, Professor an der New York University, Autor von zehn Artikeln, die sich mit maschinellem Lernen befassten, und gerade erst als Chef-KI-Wissenschaftler bei Meta ausgezeichnet. Ein Blick in die Passage, in der ich den Eindruck hatte, dass Yann sich gerade über sein neues Projekt freuen konnte.

Weltmodelle vs. LLMs: Die Sprache reicht nicht aus

Xavier führt die Diskussion zu einem Punkt an, an dem er mit Yann und Pim eine lange Pause einlegen muss: Aus Liebe zu meinen Freunden ist er desillusioniert, weil das „Skalieren“ einzigartiger Sprachmodelle nicht ausreichend ist, um sich an einen allgemeinen Geheimdienst zu wenden.

Yann erklärte, dass die Weltmodellidee antik sei, als sie dachte: Sie verteidigt sich, bevor sie ans Licht kommt. Selon lui, das Verstehen des Weltkörpers ist schwieriger als das Verstehen der Sprache. Die Tiere, von denen ich noch nie gesprochen habe, sind die besten, die unsere Roboter tatsächlich durch die Welt navigieren.

Das paradoxe Déjà-Formel von Robotern: Wenn Sie IA an der Leiste vorbeiführen, die Poesie oder den Programmierer schreiben, wird es Ihnen nicht gelingen, einen Roboter zu konstruieren, der dem intuitiven Verständnis der Welt eines 6-jährigen Kindes bedarf.

Für Sie, es war schon schlimm, dass wir uns entschieden haben: Die Systeme, die in der Lage sind, die internen Modelle der Welt zu konstruieren, erwarten, dass sie passieren, und sie müssen sich über die Konsequenzen ihrer Handlungen im Klaren sein.

Dies ist eine Verbindung zum Entwickler nicht generativer Architekturen wie JEPA (Joint Embedding Predictive Architecture) und erweitert die Verteidigung eines neuen Entwurfs für die orthogonale IA mit LLM-Klassikern.

L'apport de General Intuition: vom Video zur Interaktion

Xavier stellt im Anschluss Pim de Witte, Mitgründer und CEO von General Intuition, vor. Das Abseilen auf dem Weg:

  • Ingenieur, * ehemaliger Intel-Chef, * Mitbegründer von Metal, eine Plattform, die einen Datensatz mit vielen interaktiven Spielvideodaten für OpenAI bildete, der 100 Millionen US-Dollar kostete und denen sie angeboten wurden, um ihre eigene Arbeit zu starten.

Mit Pim, die Diskussion basiert auf einem wesentlichen Punkt: dem Unterschied zwischen Videomodellen und interaktiven Weltmodellen.

Das Video ist eine hervorragende Quelle für Données, erklärte Pim, aber er betrachtete die Welt nicht als ausreichend: ein Weltmodell, das Action und Interaktion integriert. Ich muss nur darauf achten, dass das geplante Bild „plausibel“ wird, aber die Zukunftsaussichten aufgrund der Maßnahmen des Agenten vorherrschen.

Es handelt sich um ein selbstregulierendes „Rollen“-Modell auf dem Mond (wie eine Kugel aus dem Nichts, die in die Nachkommenschaft der Pente eingeht, ohne das Wissen, das ich benötige), ein echtes Weltmodell, das in der Lage ist, „den Rochen auf der Basis zu sehen“ und eine exakte Flugbahn zu ermöglichen, da es eine Person ist, die sich ihrer Umwelt bewusst ist.

Damit die Pixelgeneratoren nicht ausreichen

Xavier Ramène diskutierte über einen konkreten Punkt für Ingenieure: „Damit ich keine Pixel hatte, war ich nicht gut weg.“

Yann erklärte, dass in einem Video gezeigt wurde, dass die große Mehrheit der Details grundsätzlich unvorstellbar ist. Wenn ich im Raum gefilmt werde und ein Modell benötigt werde: „Komplette Video-Suite“, kann es sein, dass die Aura des Unterleibs, eine Szene, das Licht … Aber es ist unmöglich, vorher das genaue Gesicht jeder Person, die genaue Position jedes Hauptmanns usw. zu bestimmen.

Ergebnis: Ein Modell, das versucht hat, jedes Pixel in die Luft zu jagen, es in die Luft zu jagen, aber nicht zu verstehen, was es für die Aktion nützlich macht.

Die Architekturen sind nicht generativ, im Gegenteil, sie basieren auf abstrakten Darstellungen der Szenen und sind für diese Art von Données weiterhin wirksam, bruitées, riches.

Données, compute et nouvelle vague de laboratoires

Xavier blickt auf die drei konkreten Aspekte zurück, die die ganze Welt zu bieten hat: die Données und die Kraft der notwendigen Berechnung.

Was sind die Punkte, die von der Änderung abhängen:

  • Es ist einfacher, ein schönes Video zu erhalten, das einen qualitativ hochwertigen Text hat. Der Text „Web“ erscheint, in den vergangenen Jahren kann es sein, dass er gesammelt oder simuliert wird.

  • Weltmodelle müssen nicht durch Budgetdefizite erzwungen werden: Es gibt bestimmte Modelle, die „viele GPU-Milliarden“ erfordern, und Mega-Cluster, die für die meisten LLMs erforderlich sind.

  • Die Aktionsdatensätze sind wertvoll: Nach dem Spielvideo oder den Kontexten mit mehr Instrumenten ist es schwierig, Aktionsetiketten auf dem Niveau „Ground Truth“ zu erhalten. Dies ist ein Schlüsselwort für Prochain-Labs und Start-ups.

Das ist es, was Xavier geschafft hat, den europäischen Kontext zu verstehen:

  • Europa verfügt über ein enormes Maß an Talenten, * es ist der Ort für unabhängige Labore und Studierende, * und für einen Ansatz der IA, der nicht in der Lage ist, „LLMs bis ins Unendliche zu skalieren“.

Yann erinnerte sich an sein neues unabhängiges Arbeitsprojekt (AMI Advanced Machine Intelligence), in Europa bekannt gegeben, mit Meta als Partner, aber nicht als Hauptaktionär, gerade um das Gespenst der Anwendungen zu verlassen und eine Suche nach mehr Möglichkeiten im Rahmen des LLM-Paradigmas zu fördern.

Parfait, am Tisch mit der Party „Yann LeCun“. Ich habe einen Text auf Französisch geschrieben, der eigens und strukturiert ist und den Sie in diesen Artikel einfügen können (z. B. kurz nach der Party mit Xavier).

Yann LeCun: I'IA a besoin d'ouverture, pas de murs

Als Diskussionsteilnehmer besteht Yann LeCun auf einem Punkt, der im Rahmen der Debatte über die IA so wichtig ist: Die Vorgehensweise besteht darin, dass ein Modell nicht im Einklang mit der Leistung steht.

Ich schaue mir das Beispiel chinesischer Modelle an: Auch wenn ihr technisches Niveau ausgezeichnet ist, ein Teil der Gemeinschaft, der am meisten Geld verdient, müssen diese Systeme die Prinzipien und die politische Linie der chinesischen Regierung respektieren. Darüber hinaus sind es nicht nur technische Modelle, sondern auch ideologische Modelle. Für Yann ist diese natürliche Dimension seiner internationalen Adoption begrenzt.

Um die IA zu einem weiteren Fortschritt zu bringen: die Kraft von Open Source

Yann Rappelle schloss sich einer vollendeten Geschichte an: Als ich fortschritt, wurden diese Dinge, die er fünf Jahre später erlebte, als Gnade für die Zukunft angesehen:

  • Open-Source-Logik, * Veröffentlichungen mit kostenlosem Zugriff, * Datensätze und Ideen, die der Gemeinschaft zur Verfügung stehen.

Ich beziehe mich auf die Rolle von FAIR (das Labor von Meta), die dieses Modell für die Suche nach außen entwickelt und andere Labore wie DeepMind angeregt hat, um transparenter und offener zu werden, unter dem Druck des wissenschaftlichen Wettbewerbs.

Pour lui, c'est simple :

  • Die Suche nach oben ist das Beste, was ich tun kann, * und das ist auch das Beste, was ich den besten Leuten anziehen kann.

Wenn Sie einer wissenschaftlichen Person sagen: „Sie können nicht veröffentlichen, was Sie tun“, müssen Sie sich nicht die besten Profile ansehen.

JEPA: ein aktuelles Konzept, jetzt wiederholt

Yann präsentierte ein konkretes Beispiel: JEPA (Joint Embedding Predictive Architecture). Ich erkläre, dass ich vor Kurzem in einem Suchmotor auf Band gewesen bin, um ein paar Cent Ergebnisse zu erhalten, und dass das Konzept noch nicht einmal formalisiert wurde, wie schon vor mehr als einem Jahr.

Im Laufe der Jahre waren die Equipes der Welt mit ihrer Idee beschäftigt, sie wurden getestet, adaptiert und auf neue Domänen umgestellt. Das ist genau das, was ich illustriert habe: Die Innovation in IA darf nicht an die Laboratorien von Fermés gebunden sein, oder an mehrere Millibars von Cerveaux, die parallel experimentieren.

Das ist es, was es geschafft hat … und das kann nicht lange auf sich warten lassen

Yann verteidigt keine völlige Naivität: Er sagt nicht, dass alles kostenlos und öffentlich ist.

Ich schlage vor, eine klare Grenze zu erreichen:

  • Ce qui doit être ouvert :

    • die Ideen, * die Architekturen, * die Bastelideen, * die gesuchten Prototypen.

    Das ist es, was den weltweiten wissenschaftlichen Fortschritt unterstützt.

  • Wer könnte Eigentümer sein:

    • die Industrialisierung, * die Inszenierung des Produkts, * die spezifischen Liegen für die kommerzielle Verwertung.

Außerdem: Open Source im Internet, Business im Internet. Dies sind Kompromisse, die im Hinblick auf den Fortschritt des Lebens, die Gewährleistung einer lebenswissenschaftlichen Gemeinschaft und die Konstruktion lebensfähiger Unternehmen möglich sind.

Kyutai × General Intuition: Eine europäische Allianz für die Weltmodelle

Die Diskussion wurde im Anschluss an das Thema der Zusammenarbeit mit der Ankündigung einer Partnerschaft zwischen Kyutai und General Intuition fortgesetzt.

L'idée est la suivante :

  • General Intuition konzentriert sich weiterhin besonders auf seine Kunden und konkreten Anwendungen.

Kyutai gehört diesem Kader an: ein Forschungslabor in Europa, unabhängig, möglicherweise veröffentlicht, geteilt, und ein faires Leben in einer wissenschaftlichen Gemeinschaft durch diese kreativen Ideen. Ziel ist es, ein Ensemble von Basisblöcken (Architekturen, Schulungsmethoden, Darstellungen) zu entwickeln, das sich der Öffentlichkeit widmet und die Leistungsfähigkeit von Transformatoren in Produkten und Plattenformen an General Intuition richtet.

Eine globale Zukunft und mehr Zusammenarbeit

Abschließend fasste Yann sein Leben zusammen: „Der Weg aus der Welt war nicht rein amerikanisch, nicht rein chinesisch, nicht monopolisiert von irgendwelchen Ferme.

Il sera :

  • global, * mit mehreren Schauspielern, * aufgebaut auf einer Abwechslung bei der Suche nach neuen Technologien und der Übertragung von Technologien.

Und weil diese Vision funktionierte, war es genau das, was PULSE in sich trug: unabhängige Labore, Partner zwischen Unternehmen und Unternehmen, und eine Open-Source-Kultur, die dafür sorgte, dass die besten Ideen in der ganzen Welt zum Vorschein kamen, aber nicht zu zweit Unsere drei Gebäude auf dem Planeten.

Nachricht an Ingenieure im Raum

Zum Schluss resümiert Xavier die an Entwickler und Ingenieure gerichtete Nachricht:

  • Sie müssen sich die Zeit nehmen, die Welt der Pixel zu verstehen, auch wenn Sie Code und Text benötigen. * Die Möglichkeiten an der Küste sind enorm:

    • Pipeline-Videos auf großer Ebene, * Donner-Infrastruktur für die Interaktion, * Erfasser (Roboter, angeschlossene Lünetten usw.), * Systeme zur Planung und Vorstellung der Konsequenzen ihrer Aktionen.

Es ist nicht möglich, den Prochain-Token vorher zu begrenzen. Sie beginnen mit der Wahrnehmung, simulieren und bewegen sich im Laufe der Welt.

Dies ist der Übergang von LLMs zu Weltmodellen, den Xavier in seiner Präsentation zum Leuchten gebracht hat, und unterstützt von den Arbeiten von Yann LeCun und Pim de Witte: Ein neuer Weg für die IA oder Europa könnte eine zentrale Rolle übernehmen.

Ich habe in diesem Artikel einen Text geschrieben, der von Jérôme Monceaux (Enchanted Tools) und dem CEO von Scaleway stammt. Ich achte auf die vorangegangenen Abschnitte: Hell, Technik, mehr lesenswert.

Jérôme Monceaux (Enchanted Tools): Der Roboter denkt über die Menschen nach, nicht über die Labore

Nach einer Vorführung des Roboters auf der Bühne wurde der Übergang vollständig gefunden: Jérôme Monceaux, CEO von Enchanted Tools, nahm an der Gründung von Aldebaran Robotics teil und beteiligte sich an der Schaffung symbolischer Roboter im Museum.

Sein neues Projekt, Enchanted Tools, eine Mischung aus Robotern, IA und 3D-Personendesign zur Schaffung von Robotern, die weniger an industrielle Maschinen erinnern und einen Vorteil aus der „Präsenz“ im Alltag haben.

Roboter, die mit ihren Benutzern „Tanzen“ machen

Jérôme erklärte mir, dass er sich seit den 90er Jahren mit den Robotern abmühe und dass er von ihren Einsätzen in ihrem Leben erfahren habe: Die Manöver seien nicht reagsent, die seien anwesend, die sie belästigt hätten … oder im Gegenteil, den Block.

Die Grundprinzipien der Festungen wurden geändert:

  • Ein Roboter ist in seinen Bewegungen sichtbar und lesbar. * Die Umgebung ist für den Roboter konzipiert: Sie besteht aus Zubehör, Mobilgeräten und Elementen, die die Nutzung erleichtern sollen. * Der Benutzer befindet sich im Zentrum: Es kann nicht passieren, dass ein Roboter in einem Krankenhaus oder in einem Magazin „posiert“ und darauf geachtet wird, dass die Benutzer den Benutzer spontan kommentieren.

Jérôme sprach über einen echten „Tanz“ zwischen dem Roboter und dem Benutzer: Gesten, Grüße, Entfernung, Timing … Alles in allem denke ich darüber nach, dass die Interaktion so fließend und natürlich ist, dass die Benutzer Kinder, Patienten, Pflegekräfte, Krankenpfleger sind, die nicht über alles verfügen Neid auf die Entwicklung von Roboterexperten.

Côté techno, Enchanted Tools sind jetzt bekannt unter:

  • IA-Brillen für die Analyse der Szene (Vision, Verständnis der Umgebung), * Verhaltens- und Näherungsmodelle zur Erhöhung der Sicherheit, * Komponenten für maschinelles Lernen, die für die Anpassung des Roboterverhaltens an den Kontext erforderlich sind.

Etwa 50 Roboter wurden erstmals auf dem Gelände eingesetzt.

Voraussicht, nicht wahr

Ein zentraler Punkt der Vision von Jérôme: Ein guter Roboter, der nicht unbedingt erwartet wurde.

Beispiele für Beton:

  • Wenn ein Roboter ein Objekt in die Hand nimmt, wann muss er loslegen? * Kommentieren Sie einen Kommentar, einen Kommentar, einen Kommentar? * Kommentieren Sie, dass sein Verhalten so groß ist, dass er einem Kind, einem Erwachsenen oder einem sanften Druck gegenübersteht?

Diese kleinen sozialen Details scheinen für einen Menschen sehr schwierig zu sein. Wenn Sie jedoch Roboter sehen, die in unseren Räumen leben (Häuser, Geschäfte, Ferienhäuser), dann ist das alles, was Sie tun.

Roboter für Krankenhäuser: Impact-Reel, kein Gadget

Jérôme besteht auf einem Punkt: Diese Roboter denken nicht an virale Videos, sondern um konkrete Situationen zu verbessern, im Krankenhaus gemeldet.

Pourquoi ce choix ?

  • Da das Krankenhaus eine enorme Umweltbelastung aufweist, ist die Wirkung auf den Menschen enorm. * Es handelt sich hierbei um einen halbstandardisierten Kontext: Sie kennen die Natur des Sonnenlichts, die Größe der Rinnen, die Höhe der Türen, die Verkehrsregeln und die Sicherheitsbeschränkungen.

Dieser Kader erlaubt den Einsatz von Robotern auf gefährliche Weise und stellt sicher, dass sie nicht zu einem Risikofaktor werden.

Wir berichten über ein Projekt im Rahmen eines Radiotherapiedienstes für Kinder:

  • Kinder betreten nur einen Bunker für Radiotherapie. * Die Eltern und die Ärzte dürfen nicht in der Nähe der Sitzung bleiben. * Wenn die Kinder in diesem Moment der Angst leben, müssen sie unbedingt ruhig bleiben, damit die Sitzung möglich ist.

Das medizinische Personal muss sich darum kümmern, dass dieser Mann in seinem Teil anwesend ist.

Ich habe mich noch nicht entschieden, den Enchanted Tools-Roboter im Bunker einzuführen, nach der Überprüfung der Strahlungsbeschränkungen. Ergebnis:

  • Eine Sitzung, die 60 Minuten dauert, während des Tages, verwandelt sich in einen Moment des Spiels und wird mit dem Roboter verwickelt; * Kinder brauchen keine Beruhigungsmittel und keine Beruhigungsmittel; * die Produktivität der Maschine erhöht; * und das Wohl der Kinder, der Eltern und der geliebten Menschen.

Humanoides: Nützlichkeit, Lebensfreude und Lebenserfahrung

Für Jérôme ist ein humanoider Roboter nicht in der Lage, Menschen zu ersetzen, um „gerecht“ aus der Logistik herauszukommen.

Son objectif :

Mehr Erfahrungswerte für das Leben an anderen Orten oder als Zeitarbeiter: > Zeitschriften, Krankenhäuser, EHPAD, pädiatrische Dienstleistungen…

Les humanoides peuvent apporter:

  • de l'utilité (Aider, Guider, Assistant), * de la Joie (présence rassurante, ludique), * de l'harmonie (Fluidifier les interactions plutôt que les compliquer).

Es handelt sich nicht um einen industriellen Kettenroboter. Ich glaube, es ist ein Roboter, der mit uns zusammenlebt und in unserem Leben lebt.

Damien Lucas (Scaleway): Er ist der europäische Benutzer der IA

Nach dem Start des Roboters und der physischen Interaktion erfolgt die Installation in der Infrastruktur. Der CEO von Scaleway, Damien Lucas, sagte auf Bewährung, dass er nicht alle IA-Bauherren dazu aufgefordert habe: Plattenformen und eine robuste Infrastruktur.

„KI für die Daten“: Die Infrastruktur passt zur Vision

Damien beginnt mit dem Abseilen eines Mantras, das vor einer vorherigen Ausgabe aufgestellt wurde:

Il faut amener l'IA aux données, pas l'inverse.

Im Jahr 2025 wird dieser Satz auf dem Weg nach Hause übersetzt:

  • Scaleway ist seit seiner Präsenz in Frankreich vertreten: Baskenland, Polen und désormais Italien, Südafrika, ganz Deutschland, einschließlich der Produktpalette, die in diesen Regionen verfügbar ist.

  • Côté données, Scaleway bereichert seinen Katalog mit:

    • Kafka, OpenSearch, Data Warehouse, * Tools zur Orchestrierung und Verwaltung von Daten … für die Ermöglichung von Zugriffen auf Unternehmen und die Ausnutzung ihrer Daten vor deren Workloads IA.

CPU, GPU, QPU: Das europäische Materialarsenal

Auf der Berechnungsseite entwickelte Damien eine Strategie auf drei Achsen:

  1. CPU für die KI

    • Neues Angebot auf Basis der CPU-Ampere, * Autorisiertes CPU-Experiment für IA-Workloads sowie Zusatzleistungen und Anpassungen an bestimmte Gebühren.
  2. Quantencomputing

    • Nachdem Sie zwei Jahre alt waren, war Scaleway der erste Anbieter von Quantum-as-a-Service im Emulationsmodus, um die Suche nach Quantenalgorithmen vor dem Eintreffen der Hardware zu ermöglichen. * Im nächsten Jahr kam die tatsächliche QPU über einen ersten Partner an. * In diesem Jahr wurden neue Partnerschaften mit zahlreichen europäischen Schauspielern angekündigt, die verschiedene Technologien nutzen:

      • Systeme mit neutralen Atomen, * Systeme mit Supraleitern. * Integration mit Open-Source-Frameworks, sobald die Entwickler diese reibungslosen Backends testen können.

    Idee: Erstellen Sie eine Referenzplattform für große Mengen in Europa, mit integrierter Direktion für IA-Workflows und Optimierung.

  3. GPU, encore et toujours

    • Lieferumfang aller GPU-NVISION-Generationen in Form von GPU-Pods. * Integrierte integrierte Energiemesswerte in diesen Bereichen, damit Benutzer die Auswirkungen auf die Energiebelastung ihrer IA-Arbeitslasten quantifizieren können.

Models-as-a-Service: Nutzung der IA ohne Infrastruktur

Damien meinte, dass die ganze Welt nicht in der Lage gewesen sei, GPU-Cluster auf die Hauptseite zu bringen. Scaleway bietet einen Ansatz „Models as a Service“:

  • ein angebotenes Unternehmen mit hohen Anforderungen an Sicherheits- und Isolationsmaterialien; * Ein zusätzliches Angebot für Entwickler, mit dem Sie problemlos Modelle für Text, Audio usw. aufrufen können.

Dans ce cadre, Scaleway :

  • Viele Open-Source-Modelle, * jetzt eine Partnerschaft mit Hugging Face, um das Open-Source-System zu veröffentlichen, * Arbeit mit europäischen Schauspielern wie Mistral: Eins ihrer Modelle ist in die Scaleway-Infrastruktur integriert und wird voraussichtlich in Betrieb genommen verwaltet.

Vers des „KI-Fabriken“ in Europa

Damien kam zu dem Schluss über Claires Ehrgeiz:

Um Europa zu retten, ist es großartig. > Pas seulement héberger quelqueles models, meis construire real usines of the IA, the AI Factories and Giga Factories.

Pour cela, Scaleway a :

  • Ein Konsortium aus Ingenieuren und Experten, Ausgabe von zusätzlichen Unternehmen und Domänenkritiken (Hardware, Energie, Ressourcen, Daten, Recht, Verwaltung), * Planung von Infrastrukturen, die in der Lage sind, mehrere GPU-Milliarden zu verwalten.

Die Idee besteht nicht nur darin, ein Cloud-Anbieter zu sein, sondern ein Teil der europäischen Berechnungskapazität, der CPU und der GPU sowie die Anzahl der verwalteten Modelle zu sein.

Hören Sie einen Text auf Französisch, den Sie in diesem Artikel für die Voice-AI-/Roboter-Demo (Mochi) verwenden können. ## Sprach-KI auf Zeit: die Demonstration von Neil und seinem „kleinen Roboter“

Nachdem wir uns mit den Modellen der Welt und menschlichen Robotern besprochen hatten, war die Konferenz kurz vor einem anderen Element der modernen Welt: die Stimme. Auf der Bühne, sagte Neil, suchte ich nach mehr als einem Jahr, in dem ich die Grenzen der Audio-Modelle zurückgekauft habe, und habe mich gerade von der neuen Voice-AI-Gesellschaft verabschiedet, die in der Verlängerung der Arbeit von Kyutai geboren wurde.

Die Suche nach einem industriellen Produkt

Neil begann mit dem Abseilen des Kontexts: Mit Kyutai bestand seine Arbeit darin, nach der eigenen Suche zu suchen, neue Sprach-zu-Sprache-Konversationssysteme zu erfinden und Prototypen als Open-Source-Lösung zu veröffentlichen.

Die anfängliche Idee ist einfach:

über die Veröffentlichung der Briques Fondamentales, > die Kommunauté s'en Empare > und Construit des Produits Autour.

In der Tat, es ist passé, außer gewählt:

  • Der Marsch erfolgte nach der letzten internationalen Norm, * Weitere Prototypen wurden restauriert… von Prototypen:

    • Latenz noch zu hoch, * Robustheit nicht ausreichend, * Qualität nicht auf dem Niveau eines großen Publikumsprodukts.

Die neue Gesellschaft von Neil ist seit dieser Gründung geboren:

  • La recherche fundamentale, qui reste ouverte et publiée ; * und die Ingenieursarbeit, die darin besteht, die Grenzen der Latenz, der Qualität und der Robustheit zu überschreiten, um eine bis zur höchsten Stufe nutzbare Sprach-KI zu ermöglichen.

Sa-Mission:

Suche nach Kyutai-Transformatoren in „Industriequalität“-Audio-Modellen, die in konkrete Produkte integriert werden können. ### Ein „Full-Stack-Audio“-Equipment für die Zukunft

Neil schrieb im ADN der Gesellschaft:

  • ein ehemaliges Team von Kyutai, Google und anderen großen Schauspielern, * Experten für „Full-Stack-Audio“:

    • Transkription, * Synthese, * Übersetzung, * Signalverbesserung und -transformation.

Im Gegensatz zu Schauspielern der Sprachtechnologie, die auf STT (Speech-to-Text) und TTS (Text-to-Speech) spezialisiert sind, sind sie mit Audio-Fondsmodellen ausgestattet, die die Kette von Kampf zu Kampf kennen.

Leur thèse :

  • Die Stimme wurde vor Kurzem nicht ausgenutzt, da „même pas 1 %“ möglicherweise über eine Schnittstelle zwischen Mensch und Maschine verfügt. * Die Sprach-KI kann auch mit Maschinen gesprochen werden, um Interaktionen zwischen Menschen zu vermitteln:

    • Traduction, * Changement de Voix, * Personalisierung, * Accessibilité usw.

Die Gesellschaft ist nicht in der Lage, eine einzige App für die breite Öffentlichkeit zu veröffentlichen, sondern verfügt über die von anderen genutzten Ressourcen: Unternehmen, die ihre Sprachkenntnisse steigern, Audioerfahrungen, NPC-Vorträge, Gesangsunterstützung für Kunden, persönliche Medieninhalte usw. ### Ein erstklassiges Produkt: Transkription + Synthesizer auf Zeit

Kurz vor der Gründung der Gesellschaft kündigte Neil sein erstes Produkt an:

  • Transkription in Echtzeit, * Synthesizer-Gesang in Echtzeit, * Exposés über eine API.

Concrètement, cela permet :

  • Verwandeln Sie den Agenten (ein mit Ihren Freunden verbundenes LLM) in den Agenten-Gesang, * ändern Sie die Stimme, den Akzent, den Stil, ohne die Sprache zu berühren, * haben Sie einen sehr großen Anwendungsbereich:

Parmi leurs Premiers-Kunden, zitieren:

  • Spielvideostudios (NPC-Reden, E-Sport-Kommentatoren), * Kundenbetreuungsdienste, * Mediengruppen (persönliche Audioinhalte), * Zugänglichkeitsfragen (Wiederherstellung oder Erweiterung der Patientenstimme), * und auch digitale Werbung.

Die Idee:

„Aufgrund der einfachen „Wrapper Vocal“-Funktion eines Systems, das bereits existierte.“ ### Die Demo „Mochi“: ein kleiner Roboter, mehr Stimmen, mehr Sprachen

Um die Arbeit so konkret zu gestalten, dass sie gerade konstruiert wurden, begab sich Neil auf die Szene eines kleinen Roboters, der von unseren 3DFace-Freunden entwickelt wurde.

Sur le plan technique :

  • Der Roboter ist mit Ihrer Speech-to-Text / Text-to-Speech-API verbunden, * basiert auf einem lokalen Open-Source-Sprachmodell, * er funktioniert quasi nur vorübergehend.

La demonstration parle d'elle-même:

  1. Der Roboter erscheint mit einer klaren, natürlichen Stimme, die in der Lage ist, Ton, Emotion und Stil zu modulieren. 2. Neil forderte die Stimme eines „Fitnessstudio-Bruders“, Muskeltrainer: Der Roboter reagierte mit einer energischen, motivierenden Stimme, vor dem „PR-Brecher im Raum“. 3. Sie müssen mir dabei helfen, den Tanz zu erlernen: Der Roboter trainiert den Tanz, bringt Sie einfach zum Tanzen, ermutigen Sie ihn, beherrschen Sie den Rhythmus. 4. Jetzt muss ich mit dem Akzent in Quebec, auf Französisch, weitermachen und dann auf Englisch umformulieren: Der Roboter ändert die Sprache, den Akzent und die Registrierung, alles auf dem neuesten Stand der Technik.

Am Ende stellte Neil eine konzeptionelle Frage:

Kommentieren Sie, dass die KI-Sprache mehrsprachig und mit mehreren Akzenten die Kommunikation zwischen Menschen und Maschinen verbessern könnte … und zwischen Menschen insgesamt ?

Der Roboter reagiert, was die Sprach-KI ermöglicht:

  • Überwinden Sie die sprachlichen Barrieren, * Stellen Sie sicher, dass Sie über Personen sprechen, die nicht an der gleichen Sprache beteiligt sind, während sie sich in ihrem gleichen Teil aufhalten, * Sie müssen mir nur wenige Roboter und mehr Personal zur Verfügung stellen. ### Open Research für Produkt-Markt-Fit

Neil besteht auf einem interessanten Punkt für das gesamte Ökosystem:

  • ce qu'ils annoncent on scene n'est pas seulement a levée de fonds or une création d'entreprise; * Es handelt sich um ein Produkt in Produktion, * das über hundert Apfelmillionen für ihre Kunden verfügt.

Kommentieren Sie, ob Ihre Reise bereits fortgeschritten ist?

  • Der von Kyutai geschaffene wissenschaftliche Impuls wurde genutzt, * Er umfasste seine eigenen Modelle von Grund auf, * Er konstruierte eine neue, an Audio angepasste Infrastruktur, * Und ganz auf Techno ausgerichtet, mit einem besonderen klaren Markenzeichen.

Für Neil, das ist ein neues Modell:

Die Grundrecherche ist noch offen und teilhabend, > Sie ist aus Ideen und technologischen Ideen hervorgegangen, > Sie hat Start-ups dazu gebracht, diese neuen Ideen zu entwickeln.

Leur ambition est assumée :

Einen weltweiten Anführer der Sprach-KI entwickeln. ### Und nachher? Was definitiv für die Sprach-KI übrig bleibt

Die Qualität der Demo ist schlecht, Neil Rappelle hat den Rest noch gut hinbekommen.

Quelques défis majeurs :

  • Emotionales Verständnis vor Kurzem, auf eine Zugabe von IA, die mit „Super!“ geantwortet hat. Als sie sagte: „Mon chien est mort“. Verstehen Sie den emotionalen Kontext einer Phrase, die unverzichtbar ist, notamment pour:

    • Die assistierte Therapie, * Die sinnvolle Unterstützung, * Die langen und persönlichen Interaktionen.
  • Robustheit in einer Umgebung, in der die Demos ruhiger sind. Mais dans la vraie vie, ein Voice-AI-Funktionär:

    • in einem Betrieb, * in einem Unternehmen, * in einem Magazin unter freiem Himmel, * mit dem Enthusiasmus, den Früchten der Liebe und den vielen Leuten, die ich mit Ihnen gesprochen habe. Ich weiß schon, was das bedeutet, in diesem Moment, in der Nähe: Ein Problem, das immer größer wird.
  • Integration mit Robotern und Sprach-KI in Robotern, die sich mit ihnen identifizieren, interagieren und in ihrer Sprache kommunizieren und eine Grenzherausforderung darstellen. ### Fazit: la voix comme couche naturalle de l'IA

Neil ist sich einer optimistischen Note bewusst: Die KI-Sprache ist kein Gerät, sondern ein natürliches modernes Sofa.

  • Sie verkauft Maschinen und Zubehör. * Sie können Menschen verbinden, die nicht über dieselbe Sprache sprechen können. * Neue Verwendungen in den Bereichen Video, Medien, Gesundheit, Client-Beziehung, Roboter …

Son message aux builders präsentiert im Saal:

„Alles auf unserer Website, testen Sie die API, besprechen Sie Ihren Verwendungszweck und wenn Sie talentiert sind, treten Sie der Mannschaft bei.“

⚡ Master Stage: Unser Ziel ist die Zukunft der IA

Die Vorträge von Après-Midi folgen den drei Achsen der Konferenz: Smarter Faster Everywhere (plus Optimierung und Skalierbarkeit).

🔧 12:05 12:20 | Schlussfolgerungen überall

Steeve Morin, ZML Der Akzent liegt auf den Leistungen, der Optimierung und der Ausführung von „Partout“. Der Autor der verteilten Inférence befindet sich im Zentrum der Schlacht, um den Angriff und die Schnelligkeit zu ermöglichen.

Ich habe einen vollständigen Text auf Französisch in einem Artikel für die Sitzung „Inferenzgestütztes Training / ZML“ gelesen. ## Inferenzgestütztes Training: Als die Ingenieure IA den Hauptteil auf das Produkt zurückführten

Die Sitzung „Inference-powered Training“ ist eine einfache, jedoch einfachere Methode: Die Einleitung und die Einleitung sind zwei völlig verschiedene Welten, und jetzt liegt sie direkt hinter der Einleitung (und nicht in Python), um die Auswahl der Techniken direkt in der Produktion vorzuschlagen … um den Preis der nächsten Tage équipes infra.

Einleitung vs. Folgerung: gleiche Modelle, gegnerische Realitäten

Der Sprecher beginnt mit dem Abseilen des Unterschieds:

  • Entraînement (Training)

    • Natürliches Gelände zur Recherche: „Ein einziges Mal für dich“ ist ein großer Job. * Über das Privileg der schnellen Iteration: Plus vite on teste une idée, mieux c'est. * Sie müssen nicht über den Kopf gehen: Wichtig, das ist das wissenschaftliche Ergebnis. * Python ist parfait für: flexibel, ausdrucksstark, ein Super-DX.
  • Inferenz

    • Dies ist die Produktion, alle 4 Stunden nachmittags. * Auf fait des milliards de requêtes. * Auf veut:

      • eine vorhersehbare Latenz, * eine mögliche Variabilität (P99 plat), * ein kompilierter, eingegebener, bearbeiteter Code. * In dieser Welt gilt: „Weniger ist besser“: jede Zuteilung, jede Zweigstelle.

Problem: In der aktuellen Stack-Version ist das Monde-Training, das ich gewonnen habe. Es handelt sich um ein Python-Autor, die Frameworks sind für Experimente gedacht und bieten keinen 24/7-Service.

Ergebnis: Die „KI-Arbeiter“, die Back-End-/MLOps-Ingenieure, die diese Systeme bedienen, wurden später von Stacks-Autoren in die Praxis umgesetzt: Sie waren in der Nacht, erinnerten sich an die Leichen, sagten sie. ## ZML: Ein Framework zum Nachdenken über die Inferenz

Aus diesem Grund ist das ZML-System ein Inferenz-First-Framework.

Ihr Ziel: Rückschlüsse ziehen:

  • Hardware-unabhängig (GPU NVIDIA, AMD, TPU, Trainium usw.), * im Kampf kompiliert, * in Latenzzeiten vorhersehbar, * einfach in Kubernetes-Umgebungen integrierbar.

Sous le capot, ZML ruhen auf:

  • Zig (Z): eine kompilierte Sprache, modern, sehr nah an Metall, aber besser als C. * MLIR / XLA: für die Kompilierung und Berechnungsgrafiken. * Bazel: für den Aufbau und die Reproduzierbarkeit des Ökosystems.

Mit der gleichen Codequelle, ohne eine Zeile zu ändern, können Sie Folgendes tun:

  • von GPU NVIDIA, * von GPU AMD (ROCm), * von TPU, * von Trainium AWS usw.

Und das ohne Kompromisse bei der Leistung: Es ist nicht „ça tourne… mais plus lentement“. Der Ehrgeiz liegt vor den Perforations-Eingeborenen, zusammen mit dem Modell „nur aus Metall“.

Weitere Schlüsselmerkmale:

  • Alles klar: Keine „magische“ Kompilierung in Lazy JIT, die ich bei einem Produkt entdeckt habe. * Integrierte Cross-Compilation: Entwickler auf einem Mac, Linux-Verschlüsselung, Builder eines optimierten Images ohne Docker-Build. * Verpackung und Laufzeit inklusive: CUDA / ROCm, erforderliche Bibliotheken und Sandbox werden in einem minimalen Bild bereitgestellt, bevor sie bereitgestellt werden.

Zusammengefasst:

Du konstruierst ein spezielles Bild, deine Einsätze und „ha tourne“. > Unendlich viele GPU-Abhängigkeiten in den Containern tanzen. ## LLMD: Ein für den Einsatz optimierter LLM-Server

Auf dieser Basis hat das Team ein erstklassiges Produkt entwickelt: LLMD, ein LLM-Server, der zusammen mit ZML aufgebaut ist.

Bekanntgegebene Merkmale:

  • Im Docker-Image verteilt (kostenlos, aber nicht Open Source). * 10x Kaltstart und schnellerer Start durch einen klassischen Llama.cpp-Server: Sekundenschnelle, keine Minuten. * Bild ~4x plus kleines Bild Llama.cpp entspricht: ~2,4 Go, einschließlich CUDA + ROCm. * Zeit bis zum ersten Token um das Dreifache besser, * Durchsatz (Tokens/Sek.) um 5 bis 30 % gegenüber der Plattform erhöht.

Das Ganze ohne extremes Tuning für den Moment: Es ist wie ein „Ausgangspunkt“ und kommt ins Ziel. ## Achtung B: Kassieren Sie die quadratische Komplexität… abseits einer CPU

Weitere nützliche Informationen: Achtung B, eine Lösung, um die quadratische Komplexität der Aufmerksamkeit zu bekämpfen.

Kontext:

  • Die Aufmerksamkeit liegt auf dem Herzen moderner Architekturen (Transformatoren, LLMs). * Die quadratische Komplexität hat ihre Ursache in der Quelle:

    • aufgrund begrenzter Kontexte, * wegen der auf der GPU großen Speicherkapazität von HBM, * wegen der Erfindung von RAG-Strategien zur Lösung des Problems.

Achtung B, sie haben eine andere Route:

  • Anstelle der Brute-Force-Methode wird die Aufmerksamkeit auf die GPU gerichtet.

Die Pipeline ähnelt so:

  1. Extraktion der Données d'attention depuis le GPU. 2. Senden Sie den Prozessor an eine entfernte CPU. 3. Berechnen Sie die CPU-Aufmerksamkeit mit einem Grafik- und Leistungsalgorithmus. 4. Versenden Sie die GPU, um mit dem Rest der Berechnung fortzufahren.

Und dieser Umweg ist so schnell, dass die lokale Berechnung auf der GPU aus zwei Gründen erfolgt:

  • Die CPU ist nicht „magischer und schneller“, * Der Algorithmus hat jedoch nur wenig Mühe (Grafik vs. Brute-Force).

Folgen:

  • Der KV-Cache kann auf dem CPU-Speichersystem gespeichert sein: → nur 2x mehr Kapazität für Kontexte ohne Berührung der GPU. * Die GPU ist zwischen 30 und 70 % ihrer Zeit verloren gegangen. * Es ist kein ultraexotisches HPC-Netzwerk erforderlich: → 10 Gbit/s genügen (25 Gbit/s zusätzlich noch), → kein InfiniBand benötigt mehr als 800 Gbit/s. ## Verse un écosystem inference-first

Die Präsentation muss auf einer starken Idee enden: Die Mannschaft muss nicht unbedingt einen besseren Rahmen als vielmehr ein inferenzorientiertes Ökosystem schaffen:

  • ZML Open Source für die Strukturierung des Stacks, * Produkte wie LLMD & Attention B, um zu beweisen, dass sie ein Produkt sind, * und ein globaler Ansatz für die Schlussfolgerung ist nicht mehr als ein „nachträglicher Einfall“, aber ein ursprünglicher Autor, der die Werkzeuge verwendet.

L'objectif final :

Ich habe ein erstes, in das System integriertes System entwickelt, > habe nur einen „Welche AI“-Autor von Python-Notebooks erstellt.

🧠 12:25 12:55 | Agenten, die tatsächlich die Arbeit erledigen

BLACKBOX AI, SOCLE AI, AMD, Scaleway Das zentrale Thema von 2025: autonome Agenten. Idee: Generieren Sie nicht nur Texte oder Bilder, sondern führen Sie auch die Kosten für den Kampf aus.

Ich habe einen Text auf Französisch geschrieben, der vollständig im Artikel für die Sitzung „Agenten, die tatsächlich die Arbeit erledigen – wie Autonomie die Art und Weise verändert, wie wir bauen“ (12:25 Uhr) gelesen wurde. ## Agenten, die ihre Arbeit verrichten müssen: oder sie sehen aus, oder sie stimmen zu, und wer bleibt dem Erfinder überlassen

Das Panel vereint drei ergänzende Profile:

  • Entwickler von Agenten für kritische Organisationen oder Unternehmen (Industrie, Medizin, Konformität), * Entwickler von Agenten für Code, Fähigkeiten zum Betrieb auf komplexen Basen, * und ein Konstrukteur von Computern, die die Hardware auf der Grundlage dieser Agenten verstehen, die in Rechenzentren gerade auf dem Mars unterwegs sind.

Das Ziel besteht darin, die wertvollen Agenten zu verstehen, sie zu hören und sie zu kommentieren, die die Art und Weise der Systemkonstruktion verändern. ### Unsere Agenten sind vor Kurzem nicht auf dem Laufenden

Die Interventionen, die auf dem Gelände oder den Agenten zu hören sind, sind nicht mehr als Science-Fiction:

  • Code und Entwicklungslogik

    • Agenten, die die Protokolle der Produktion vorübergehend registriert haben, * einen Fehler identifiziert haben, * den Code gepatcht haben, * eine Pull-Anfrage gestellt haben, die Tests durchgeführt haben, * und, wenn das Team autorisiert, zusammengeführt und eine neue Bereitstellung deaktiviert wurde, mit möglichem Rollback. Zum Beispiel „vollständige Selbstkodierung“, déjà verfügbare Veröffentlichung.
  • Industrie & Sicherheit

    • Agenten, die an gefährlichen Standorten (Brennplatten, Chantiers usw.) eingesetzt werden, um Erfasser, Alarme, Kameras und Signalgeber für gefährliche Situationen zu sein, bevor sie entarten.
  • Medizinische Betreuung und Überwachung

    • Systeme, die den Patientenstatus über die Erfassung mehrerer Patienten und die Reduzierung von Maßnahmen oder Warnungen vor deren Abschluss überwachen.
  • Éducation personnalisée

    • Agenten, die in der Lage sind, den Inhalt, den Rhythmus und den Schwierigkeitsgrad an die Aufmerksamkeit des Spielers anzupassen, ohne ein theoretisches Profil zu erstellen.
  • Transkription und Rechtskonformität

    • Beispiel eines Anwaltskabinetts, das eine IA-Pipeline für die Abschrift interner Auditions verwendet, jedoch mit einer abschließenden menschlichen Kontrolle, um eine 100-prozentige Genauigkeit zu gewährleisten, die mit der IA selbst nicht garantiert werden kann. ### Agents autonomes, mais pas sans humains: Die Bedeutung des „Human-in-the-Loop“

Das gesamte Panel ist auf einen bestimmten Punkt abgestimmt: Bei Gericht und kurz vor Gericht bleiben die Menschen in der Wohnung.

  • Im Rahmen der Sicherheit, des Bildungswesens, der Medizin oder des Kodex, der vorgeschlagenen Agenten, aber nur dann, wenn die Menschen ihre strukturellen Entscheidungen validieren. * In den fortgeschrittenen Code-Workflows kann der Agent sein:

    • einen Fehler beheben, * einen Zweig verschieben, * eine PR veröffentlichen, * Tests durchführen, aber der Ingenieur hat sich entschieden (oder nicht), die automatische Zusammenführung in die Produktion zu genehmigen.

Auf lange Sicht stellen sich manche Agenten vor, das menschliche Niveau auf bestimmten Gebieten zu überschreiten, mit weniger manueller Validierung. Aber jetzt ist Vertrauen und UX eine zusätzliche menschliche Aufsicht. ### Die großen nicht gelösten Probleme: Welt, Körperbau, Sicherheit, Sicherheit, UX

Les intervenants pointent plusieurs verrous majeurs:

  1. Der Körper der Welt ist schöner und länger als der Text

    • ein Agent in einem Krankenhaus, eine Drohne oder ein Roboter:

      • percevoir (vision, son, capteurs), * raisonner en temps réel, * planifier une action, * exécuter, * apprendre de ses rereurs. * Es handelt sich um eine komplexe Anordnung, die darüber hinausgeht, dass Token in einem LLM übertragen werden müssen.
  2. Souveraineté & conformité (überall in Europa)

    • Beaucoup d'equipes pensent encore que souveraineté = moins de performance. * Das Gremium besteht darauf: Es handelt sich um ein falsches Dilemma. * Das Thema ist, dass es sich um die Konstruktion leistungsfähiger Stacks handelt, aber um souveräner und konformer (notamment pour la santé).
  3. Sicherheit und Fermé-Modelle

    • Die Unternehmen sind bestrebt, hochleistungsfähige Modelle zu nutzen, die den Preis der Sicherheit und des Kunden erhalten. * Parallel dazu sind die Open-Source-Modelle ausreichend, um End-to-End-Architekturen zu rechtfertigen. * Einer der Intervenanten erwähnt die Installation eines Agenten, der sich während des Kampfes um die Verwendung gekümmert hat: Der Benutzer soll ein Open-Source-Modell verwenden und kein undurchsichtiges Modell verwenden.
  4. UX und „Eingabeaufforderung“ als limitierende Faktoren

    • Der zusätzliche Wert eines Agenten hängt von der Leistungsfähigkeit ab, die er beim Piloten nutzen kann. * Wenn der Agent das technische Niveau des Benutzers nicht erreicht hat, kann es sein, dass er nicht mehr bewertet werden kann, wenn die Antwort gut ist … auch wenn der Agent eine ausgezeichnete Arbeit geleistet hat. * Fazit: Die Agenten denken an UX-first, nicht nur „API-first“. ### Hybride KI: Agenten in der Wolke, auf der Erde … und auf dem Mars

Der Hardware-Teilnehmer, den die IA nicht in einem Rechenzentrum installiert hat:

  • AMD-Vierbeine für:

    • Automobile (Subaru iSight, ultraschnelle Latenz), * Flugzeuge, Satelliten, * Rover auf dem Mars, * ultraschnelle Erkennungssysteme (wie CERN) oder ein Gerät zur Analyse von Ereignissen in Nanosekunden.

Dies sind die wichtigsten Probleme des Xilinx-Kombinats:

  • CPU-Ausrüstung, * IA-Beschleuniger, * Programmierbare Logik (FPGA).

Dies ermöglicht ein Hybridmodell:

  • Rand/Endpunkt: lokale Wahrnehmung + kritische Entscheidung, ultraschnelle Latenz, minimale Vollendung. * Wolke: raisonnement lourd, entraînement et ré-entraînement, agrégation de données.

Sobald die Leistung pro Watt steigt, können ein Smartphone oder ein Edge-Gerät die für die GPU des Rechenzentrums reservierten Kapazitäten ausschöpfen. ### Der Agent ist nicht gerade ein LLM mit Werkzeugen

Das Panel besteht darauf, dass es sich um einen Agenten handelt, der nicht einfach ein LLM und andere Tools ist.

Il faut aussi :

  • ein Protokoll (MCP, Multi-Agent-Architekturen usw.), * eine Ausführungsumgebung (Container, VM, Sandbox), die das Zugriffsrecht definiert:

    • Terminalbefehle, * Dateien, * Geheimnisse, * Clients (Navigator, Mobilgerät usw.), * Zero-Trust-Sicherheit: gleichbedeutend mit dem Firewall-Inneren, Personen gelten standardmäßig als „Vertrauen“.

Pour le code, par exemple :

  • Die Agenten treten in isolierten Umgebungen auf, die mit dem Produkt identisch sind. * Sie haben keinen Zugriff auf die tatsächlichen Kunden (Browser, mobile App), um vollständige Szenarien zu testen. * Die Umgebung ist äußerst wichtig für das Modell. ### Messgerät, Benchmarker, Überwachung der Kontrolle

Frage: Kommentieren Sie, wenn Sie wissen, dass ein Agent gut funktioniert, und was ist das Beste, was Sie in der ML-Klasse tun?

  • Ja, es gibt öffentliche Benchmarks (SWE-Bench, SWE-Lancer im Code usw.), die als Repères dienen. * Sie spiegeln jedoch nicht die Komplexität der Rollensysteme wider.

Die Interventionen verteidigen einen benutzerorientierten Ansatz:

  • Definieren Sie die Messwerte im Kontext der tatsächlichen Verwendung, * weiter:

    • Die Wirksamkeit der Software ist gewährleistet, * Die von Menschen akzeptierten Zusammenführungen, * Die gültigen Korrekturen, * Die Erstellung interner, fortlaufender und neuer Benchmarks, die nur für die Öffentlichkeit zugänglich sind. ### Coûts & Future: Teil des Silbers, Kommentar und Sortierung

Sur la question des coûts :

  • Derzeit sind die GPU-Racks, der Speicher und der HBM-Speicher vorhanden – zusammen mit den Betriebsmodellen, die eine große Anzahl interner Token generieren. * Je nach Generation ist die Hardware leistungsstärker, aber die Modelle sind leistungsstärker.

Auf lange Sicht ist eine Lösungspartei klar:

  • Ersetzen Sie einen großen Teil der Arbeitslasten von der Kante, * Profitieren Sie davon, dass die großen öffentlichen Geräte älterer Generationen von Superrechnern rattrapent (und verloren) werden, * Erfassen Sie Agenten wie große, austauschbare und lebensfähige Container:

    • in der Cloud, * auf einem Endpunkt, * oder auf einem Computergebietsschema. ### Garder les agent dans les clous: échecs courants et garde-fous

Dann kommentieren Sie bitte, dass ein Agent nicht auf der Straße sitzt:

  • Beschränken Sie Ihre Berechtigungen: Entscheiden Sie explizit über den Zugriff (Dateien, Geheimnisse, Befehle, API). * Überwachungsmethode:

    • Benachrichtigungen (Slack, SMS, automatische Anrufe) Wenn der Agent blockiert ist, * erfordert eine explizite menschliche Validierung für bestimmte Aktionen und Kritiken. * Sichtbarkeit für Benutzer: Dashboards, Protokolle, Erläuterungen – damit der Benutzer ihn erfassen, löschen und korrigieren kann.

Das Panel erscheint auf dieser Idee: Die Agenten existieren seit jeher in den Systemen, auf der Kante, in den Anwendungen, im Code. Ihr Erfolg hängt jedoch weniger von der Magie des LLM ab, als von der Qualität der Protokolle, des UX, der Infrastruktur und der Sicherheit, die wir als Autor hatten.

⚡ 13:00 13:15 | Einblick in das Open-Source-T2I-Modell von Photoroom

Der Blick hinter die Kulissen eines leistungsstarken und verständlichen europäischen Text-Vers-Image-Modells.

Ich habe einen Text auf Französisch in einem Artikel für die Photoroom / PRx-Partei veröffentlicht.

Photoroom: Unser eigenes T2I-Modell ... und das Leben auf der ganzen Welt

Auf der Bühne, Yoann Almazan und David Berthouin, Forscher bei Photoroom, haben sich die Autoren entschieden, dass sie sich nicht für die Dekoration von Modellen für die Bildgenerierung entschieden haben.

Wir kennen alle magischen Fähigkeiten von Stable Diffusion, Flux, Midjourney, DALL·E und Co. Weitere Seltenheitswerte:

  • nach 200 Stunden GPU, das Modell muss nicht einmal in einer Form aufgeklärt werden, * nach 1 000 Stunden, wenn man es auf den Kopf bekommt, wenn man es wählt, das einer Flasche ähnelt, * nach 50.000 Stunden, auf retrouve matières, reflets, détails.

Autrement dit: c'est beau à la fin, mais c'est lent, douloureux, cher et fascinant à décortiquer.

PRx: ein modernes Modell, Open Source, über Kampf und Kampf dokumentiert

Photoroom hat sich für einen seltenen Truc entschieden:

Es enthält ein eigenes Text-Bild-Modell von Grund auf, > veröffentlicht als Open Source, > dokumentiert den gesamten Prozess und beinhaltet, was nicht passiert ist.

Ce modèle s'appelle PRx :

  • Größe: ~1,2 Milliarden Parameter (im Vergleich zu Flux ~20B – liegt auf einem „Lightweight“-Modell). * Lizenz: Apache 2.0, kommerzielle Nutzung gestattet. * Ressourcen:

    • Code, * Erfahrungen, * Ablationen, * Zwischenergebnisse, alles ist öffentlich und umfasst die bewerteten Aufsätze.

L'objectif :

  • bietet eine „Playground-Serie“ für Schüler, Studenten und F&E-Ausrüstung an, die sie sehen:

    • Verstehen Sie, dass es sich um ein Diffusionsmodell handelt, * testen Sie neue Ideen ohne 10.000 GPU-Tage, * und verwenden Sie ein Modell, um es einfach zu installieren, und bestehen aus einer „einfachen GPU“.

Intern, diese Arbeit und die zusätzlichen Auswirkungen der EU:

  • Generationsübergreifendes Verständnis → Bestes Maîtrise-Modell für die Bildausgabe und Funktionen der App. * Pipeline wiederverwendbar → Alle auf PRx gültigen Techniken wurden in die Produktionsmodelle zurückgeführt. * Kommunikation → ein sehr aktiver Discord, der nicht existiert, ohne dass die Projektdurchführung abgeschlossen ist. * Marke & Einstellung → Das Projekt ist auf einem Arbeitsniveau sichtbar, das in den internen Notizbüchern nicht mehr funktioniert.

Rappel Express: Kommentieren Sie die Diffusionsmodelle

Warten Sie 1 Minute, um die ganze Welt auf demselben Niveau zu erreichen.

  • En génération

    • teilweise aus reiner Frucht, * Stufe für Stufe, das Modell hängt davon ab, die Frucht in die „gute Richtung“ zu bringen (z. B. „eine Weinflasche auf einem Holztisch“), * in ca. 20–50 Jahren, um ein zusammenhängendes Bild zu erhalten.
  • Entraînement, das ist die Umkehrung:

    • auf Teil eines Bildes, * auf y ajoute progression du bruit, * auf montre au model:

      • Das Bild wird gelöscht, * Der zugehörige Text wird angezeigt, * Das Wort „eigentlich“ * und Sie müssen das Bild (oder das Bild) auf den jeweiligen Grad der Verschlechterung bringen.

Interesse: Es liegen keine Anmerkungskomplexe vor. juste despaires (Bild, Text). Problem: Es sind Millionen Cent, es sind Milliarden.

Beschleunigen Sie mit einem Modell: Architektur + Einstiegsrechnung

Mit PRx ist die Mannschaft fest mit zwei Inhalten ausgestattet:

  1. Ein Modell muss für den Zugriff auf GPU-Zugriffe ausgelegt sein. 2. Ein schnellerer Einstieg ist ohne Einbußen bei der Qualität möglich.

Zwei klassische Leviten in ML:

  • Architektur: Analysieren Sie die SOTA-Modelle (Stable Diffusion, SDXL usw.) → Identifizieren Sie die entscheidenden Bausteine → Rekombinieren Sie sie in einer kompakten Architektur.

Ergebnis:

  • PRx liegt bei ca. 60 % plus mehr als einige aktuelle Architekturen,

  • ~40 % plus schnelle Ein-/Ausleitung,

  • ohne bemerkenswerte Qualität.

  • Empfangsbestätigung: Integrieren Sie die besten aktuellen Techniken für die Konvergenz und den Erfolg. David im Detail, einfach zu verstehen, aber sehr wirksam: Die Neubeschriftung ist reichhaltig.

Kommentieren Sie den gesamten Datensatz, um plus mit Bildern zu lernen

Ausgangspunkt: Web-Datensätze (LAION & Co.) sind äußerst heikel.

  • Ça contient :

    • des erhabenen Fotos, * des Katalogs der Bilder, * des bizarren Bildes, * des Bildes moches avec bordures blanches, * usw.

Traditionell, beaucoup d'equipes:

  1. Geben Sie den gesamten Datensatz ein, 2. Nehmen Sie eine Feinabstimmung an einem anderen „eigenen“ heuristischen Filter vor.

Probleme:

  • Es besteht die Schwierigkeit, eine Parfait-Filterung zu automatisieren. * Die Feinabstimmung auf einem Untersatz kann bestimmte Konzepte vor der Abreise „weiterleiten“.

Fotoraum Erkunden Sie ein anderes Reiseziel: Statt Bilder zu ändern und Legenden radikal zu bereichern.

Du „chattest auf einer Chaise“ mit äußerst detaillierten Beschreibungen

Einfaches Beispiel:

  • Wenn Sie das Modell mit der Aufschrift „Ein Chat auf einer Chaise“ vergleichen, lautet die Antwort „Was ist ein Chat?“ von Ihnen.

Mais si on légende :

  • „un chat orange sur une chaise“, * „un chat blanc sur une chaise“,

alors le modèle peut :

  • Entferne die Konzepte:

    • „chat“ ≠ „orange“ ≠ „blanc“, * „orange“ weicht von einem Konzept wiederverwendbarer Gegenstände ab (orangefarbenes Auto, orangefarbenes Sofa usw.).

Diese extreme Idee für den Fotoraum:

  • Sie passen zu allen Datensätzen von SOTA-Vision-Sprachmodellen, * Sie verlangen sehr umfangreiche Beschreibungen, * Das Bild enthält explizite Konzepte: Stil, Material, Farbe, Beleuchtung, Kontext usw.

Un prompt initial du type :

„getigerte schlafende Katze im Rollstuhl“

devient quelque chose comme :

„Ein minimalistischer weißer Rollstuhl in einem hellen Studio, mit einer getigerten, schlafenden Katze, die sich auf dem Sitz zusammengerollt hat, weichen Schatten, heller Beleuchtung usw.“

Interessantes Paradoxon:

auf Rend les légendes plus complexes, > pour rendre l'aprentissage plus efficace, > avec precision les memes images.

Das Modell enthält mehrere Konzepte, mehrere getrennte Teile, für eine veränderte Wirkungsweise.

Dies ist wichtig für das Ökosystem

Wenn Sie Photoroom mit PRx sehen möchten, können Sie Folgendes tun:

  • Die Suche nach Applikationen in T2I ohne Big Tech erfolgt, * Die Community wird mit folgenden Informationen versorgt:

    • ein gültiges Modell, * eine zulässige Lizenz, * Erfahrungs- und Erfahrungsprotokolle, * und der Nachweis, dass ein Datensatzqualitäts-, Architektur- und Transparenzansatz mit der Serie konkurrieren kann.

Für die IA-Gemeinde wie für Bauprodukte ist PRx wichtig:

  • ein verwendbares Modell, * für ein lebendiges Modell, das im Jahr 2025 in konkreter Form ein Modell zur Bildgenerierung darstellt.

🌐 13:20 13:50 | Vom Labor zum Produkt (Stimmmodelle)

Kyutai + Indigo.ai erklärt explizite Kommentare zur Umwandlung von Modellen in Industrieprodukte.

Ich habe einen integrierten Text im Artikel zum Thema „Vom Labor zum Produkt mit europäischen Sprachmodellen“ (Kyutai + Indigo AI) gesprochen.

Modelle europäischer Sprachausgabe: Produktsuche

Auf der Szene, zwei Monate se rencontrent:

  • Neil Zeghidour, Sprachschüler bei Kyutai (Moshi, TTS-, STT-, Übersetzungsmodelle usw.), * Enrico Bertino, Mitbegründer von Indigo AI, italienischer Leiter der Gesprächsassistenten im Unternehmen (mit, im Vorbeigehen, ein italienischer BERT, dessen Name unter dem Namen Bertino lautet).

Das Ganze stellt eine einfache Konfiguration dar: Das Audio ist eine natürlichere Schnittstelle … und für den Meister kompliziert.

Pourquoi la voix est beaucoup plus dure que le texte

Neil rappelte einen Ordre de Grandeur, der die ganze Welt beruhigte:

  • 1 Stunde der Bewährungsstrafe im Register ≈ 700 Monate Audio-Brut, * Der Transkriptionstext dieser Stunde ≈ 50 000 Minuten Zeit für Informationen.

Le texte est :

  • kompakt, * strukturiert, * optimiert durch die tausendjährige kulturelle Entwicklung zur Informationsvermittlung.

La voix, elle, est :

  • massiv redondante, * extrem variabel (Akzent, Klangfarbe, Mikro, Klang, Emotion, Kontext), * nicht-verbauxte Signalworte: Rhythmus, Zögern, Sourire, Colère, Müdigkeit…

Dieser Satz lautet: „Millionen Gesichter des Sprechers, aber ein System, das noch heute existiert, umfasst die gleiche Absicht („Quelle ist die Rennstrecke von 9 Jahren?“), die sich mit einem winzigen Mikrometer am Berg oder auf einer Szene in Paris mit einer Maskensendung befindet.

Enrico hat das Point-de-vue-Produkt komplettiert:

  • Beim Debüt denken sie: „Die Stimme, das ist nur ein Kanal und mehr für unsere Chatbots“; * in der Praxis: Das ist eine andere Welt:

    • Wenn Sie ein mündliches Gespräch führen, können Sie den gesamten Sinn verlieren, * Sie können sich nicht auf den Text verlassen, * Es besteht die Gefahr, dass das Latenzbudget, die Unterbrechungen, die Bewährungsfrist und der Vertrauenspreis eingeschränkt werden.

Qualitätsbewertung: Ziele im Vergleich zu menschlichen Missständen

Die Stimme transportiert die Emotionen, und das ist genau das, was ihre giftige Bewertung ausmacht:

  • côté „machine“, auf Deutsch:

    • taux d'erreur de mots (WER), * taux de mots mal prononcés, * latence moyenne usw. * mais côté humain, tout peut être biaisé par:

    • Der Humor des Testers, * Die ausgewählte Stimme, * Ein einziger Kritikpunkt, der nur transkribiert wurde (Datum, Datum, Name), der das Erlebnis ruinierte.

Enrico erzählt von einem Fall-Kunden:

  • Version 1: Der Kunde hat einen Voicebot getestet, die Qualität ist „auf höchstem Niveau, nicht für das Produkt geeignet“, * Sie haben sich nicht geändert, nur weil Sprach-/Renditeparameter erforderlich sind, * Version 2: „Parfait, auf dem Weg zum Produkt“.

Même Pipeline, Même Intelligence hat die Wahrnehmung verändert.

Warum ein Combiner erforderlich ist:

  • Objektive Tests (Metriken, Benchmarks), * Subjektive Bewertungen nach „klinischer Studie“: Doppeltest, alte vs. neue gemischte Modelle, großes Panel, ohne zusätzliche Tests „Das ist die neue Version“.

Deux Grandes Architectures: Kaskade vs. Speech-to-Speech

Aujourd'hui, dominierende Deux-Architekturen.

1. Architektur in Kaskade (ASR → LLM → TTS)

Pipeline „classique“ :

  1. ASR: Sprach- und Textkonvertierung (Streaming). 2. LLM / Agent: Verständnis, Existenzgründung, API-Ansprüche, RAG, Werkzeugmaschinen. 3. TTS: Gesungene Antwort in die gesprochene Sprache.

Vorteile:

  • Parfait pour Plugger de la Voix auf einem vorhandenen Text:

    • Bots-Metiers, API-Workflows, Bank-/Sicherheitssysteme usw.

    • Funktionsaufrufe, * RAG, * komplexe Formatierungen (Tableaux, Chiffres, strukturierter Lebenslauf).

Grenzen:

  • Obligé de Découper en Tours de Parole (Turns) : → dès qu'on sort d'on eigen Dialog, ça casse (Unterbrechungen, chevauchements, back-channels, etc.), * la latence peut vite dériver :

    • beobachte das Ende einer Phrase, * fange die kleinen Dinge ein „euh“, „oui, en fait“, * envoyer au LLM, * besuche die Antwort, → am Ende der letzten paar Sekunden.

Enrico bemerkte, dass die Kaskade noch sehr an den Fall angepasst sei:

  • eingehender Service-Client:

    • Komplexe Fragen, * API-Anfragen / Versicherungen, * Der Benutzer muss darauf achten, dass er in Sekundenschnelle darauf wartet, * die Latenz mit UX-Angriffen zu „maskieren“ („Ich verifiziere deine Informationen…“).

2. Architektur Sprach-zu-Sprache nativ

Ici, le modèle :

  • Leiten Sie den Ton am Eingang ab, * Richten Sie den Ton am Anfang ein, * Geben Sie den Dialog ohne Entschlüsselung auf Tour.

Kräfte:

  • Latenz 200 ms möglich, auf menschlichem Niveau, * natürliche Unterbrechungen, Überlappungen, * „hmm“*, * „oder“ je nachdem, ob der Agent spricht, * viel flüssigeres Erleben → das, was man auf der Bühne mit dem Roboter Richie Mini sieht.

Faiblesses actuelles :

  • Schwierigkeiten bei der Verzweigung direkt über ein vorhandenes LLM / API:

    • Er ist der Erfinder hybrider Strategien, * oder hat Modelle und Komplexe entwickelt, die ihm „vertrauen und denken“, * für ein großes Kind, das in einem LLM-Text Vermögen investiert hat, → * „die Stimme weg“* von einem neuen vollständigen Gesang: Tests, Leistung, Sicherheit, konform…

Enrico Souligne, der die Speech-to-Speech-Brille in seinem Outbound-Gehäuse verwendet:

  • Das ist der Bot, den ich an den Kunden appelliere, * Schnelle Gespräche, mehrere Gesprächsrunden, viele mögliche Unterbrechungen, * Der Agent stellt Fragen, Der Mensch antwortet, * Die Kaskade ist zerbrechlich, Die Rede-zu-Sprache bleibt flüssig.

Hybride Agenten: ein „kleines Gesangsmodell“, gesteuert von einem „großen Hals“

Chez Kyutai, Neil hat einen interessanten Ansatz beschrieben:

ein kleines Speech-to-Speech-Modell, > das die Konversation in Echtzeit durchführen kann, > und der sich an ein großes Modell (LLM / Agent) wendet, um sich zu reflektieren.

En pratique :

  • le petit modèle :

    • Verstehen Sie, was der Benutzer sagt, * improvisieren, relance, rassure, * geben Sie Stille, * „besuchen“*, die Umformulierungen, * wenn Sie auf eine „dauernde“ Frage achten (Chiffres, Logik, Back-Office usw.), → die Forderung nach Hilfe bei großen Modellen (der berühmte „Joker“), * gegenüber dem LLM Denken Sie daran, das Gesangsmodell könnte mit dem folgenden Satz fortfahren: „Ich begrüße Ihre letzten Operationen…“, „Ich verifiziere es für Sie.“ * Wenn die Antwort eintrifft, wird die Audio-Umformung durchgeführt.

Deux bénéfices majeurs :

  1. UX-Flüssigkeit durch Design (die „UX-Strukturen“ sind in die Architektur integriert). 2. Robustheit durch Konnektivität:

    • Das kleine Modell kann lokal auf das Gerät übertragen werden, * Wenn die Verbindung hergestellt ist, geht das Gespräch weiter, * Bitte beachten Sie, dass die „Komplexe“ eine Rückkehr zum Ziel erfordern.

Enrico, Côté Indigo, beruft sich auf einen „Dummy-Agenten“:

  • un agent vocal qui sait :

    • ecouter, * reformuler, * rassurer, * gagner the temps, * que the gros cerveau (LLM + APIs + RAG) boulot en arrière-plan.

Akzente, Vielfalt und Zugangsberechtigung

Autre sujet : la fairness.

  • Wenn Sie „Englisch CNN“ lesen, alles klar. * Wenn Sie mit einem starken Akzent, einem Dialekt oder einer Sprachmischung (aus der Schweiz oder aus Italien) sprechen, ist das nur wenig.

Damit die Systeme darin enthalten sind, heißt es:

  • aus vielen verschiedenen Quellen für Sprecherfragen, * aus Annotatoren, die die gesprochenen Akzente/Dialekte verstehen:

    • Ich bin selbst ein französischsprachiger Autor und kann in Quebec nicht richtig geschrieben werden. * Robuste Modelle mit mehreren Sprachen / mehreren Akzenten.

Enrico erklärt, dass:

  • Der ASR ist bereits eine zartere Partie, * in der Schweiz zum Beispiel, er hat 4 Sprachen im gleichen Fluss, * Der Hauptteil des Systems muss die Sprache zu Beginn des Gesprächs fixieren, → Die Baskel auf dem Weg werden nicht mehr geklärt.

Für das TTS sind sie im Gegenteil mit den Akzenten unterwegs:

  • In Italien bevorzugen sie die Akzente von Großstädten (Rom, Sizilien …), da sie in Italien völlig neu sind.

Le vrai travail: Kontrolle, Compliance und Telefonie

Enrico zeichnet sich durch zwei großartige Lieder aus, die ihm ein Produktionsunternehmen bescheren:

1. Kontrolle und Konformität

Der Grund für die „einfache“ Methode ASR → LLM → TTS ist:

  • Leitplanken (damit der Agent nicht in Berührung kommen kann), * Verschleierung/Maskierung sensibler Personen, * Überwachung des Privatlebens (RGPD, Lagerung, Zugangsrechte usw.), * Überwachung und Prüfbarkeit von Gesprächen, * Latence maîtrisée, die diese Kontrollliegen beeinträchtigt.

Das ist eine Welt, die du brauchst:

  • andere Kompetenzen, * andere Werkzeuge, * eine Sicherheits-/Governancekultur.

2. La Couche Télécom, Erbe des 90. Jahres

Um den Chatbot-Web- und Voicebot-Telefondienst zu nutzen, Indigo an:

  • Erweitern Sie die Welt um SIP, PBX, PSTN, Call Center, * Übergeben Sie sich fließend an einen Menschen, * Errichten Sie ein internes Telefongerät.

Der Telekommunikationsanbieter dachte nicht daran, den LLM-Bereich zu nutzen, und die Integration war trivial.

Et maintenant ? Zwei „große Freischaltungen“ für Europa

Um zu dem Schluss zu kommen, dass die beiden, die auf dieser Seite intervenieren, wieder auftauchen, werden sie die Suite entsperren:

  1. Ein langlebiges europäisches Ökosystem

    • Auf nicht Google, nicht Meta, nicht den gleichen VCs wie im Silicon Valley. * Derzeit gibt es in Europa zwei Parteien (Kyutai, Mistral, Pangea de Labs usw.). * Um den Überblick zu behalten, sind die wichtigsten wirtschaftlichen Modelle :

      • Keine spektakulären Vorführungen, * Mehr Unternehmen, die im Laufe der Zeit anwesend waren.
  2. La latence côté humain, plus côté IA

    • Aujourd'hui, die Reibung muss durch den Agenten verursacht werden: Latence perçue, coupures, étrangetés. * Mit einer Rede-zu-Speech-Zeit von 200 ms ist das Ziel so, dass die „Bouchon“-Funktion während der menschlichen Reflexionsphase über die Maschine hinausgeht.

„Der Verkehr dauert an, bis die Latenz abnimmt, und das System muss nicht mehr genutzt werden.“

📡 13:55 14:10 | Übersetzungs- und Transformatorgrenzen

Eine Rede von Translated sur les frontières aktuelle autoregressive Modelle.

Ich habe einen Text in einem Artikel für den Abschnitt „Übersetzung zur Übersetzung“ gelesen.

Vers le traducteur universal: quand la traduction from a laboratoire d'AGI

Für Translated ist die Übersetzung nicht gerade ein sprachlicher Dienst: Sie ist ein idealer Ort für die allgemeine künstliche Intelligenz.

Die intervenierende Haltung des Kaders seit dem Debüt:

  • Alle Spezialgeräte wurden zur Entwicklung der Motorsteuerung entwickelt. * Mehr noch, ein Teil des Menschen hat keine komplexe Sprache entwickelt. * Das ist die Sprache, in der ich arbeite, ich werde in der Zukunft projektieren und unsere Absichten ausrichten.

„Bestimmte Dinge, die davon ausgehen, dass das Problem wichtiger ist, sind auf dem Mars.“ > Ich denke, das ist noch wichtiger, das ist es, was ich auf Erden verstehe. »

Das ist das Problem, das der übersetzte Angriff lautet: Erfasst alle Sprachen, in den beiden Sinnesorganen, ohne Verständnis.

Messen Sie den Fortschritt: Nicht mehr als ein FLOPS, sondern in Sekundenschnelle

Es bedeutet, dass es sich um ein „großes Modell“ oder „Tokens vus“ handelt. In der Übersetzung wird ein sehr konkreter Hinweis verwendet:

Zeitliche Kombination mit einem Profi-Übersetzer > um die Übersetzung der Maschine zu korrigieren, mehr oder weniger?

Ils mesurent :

  • Die Zeit nach der Veröffentlichung vor Ort, * Im nächsten Jahr, von professionellen Übersetzern.

Historisches Ergebnis:

  • Von 2010 bis 2023: Muss quasi linear sein gegenüber der „Singularität des Menschen“.

Nur Sie können die Projektion nicht sehen: bis zum Jahr 2027.

Weitere Überraschungen im Laufe des Tages zwischen 2024 und 2025:

  • la courbe ralentit, * la droite „tout droit vers la singularité“ se casse, * on se retrouve plutôt à l'horizon 2030–2032.

Meme ressenti côté utilisateurs:

  • GPT-5 ist nicht mehr so gut wie GPT-4, * 5.1, Gemini 3: Dies sind inkrementelle Verbesserungen, keine Brüche.

Die Frage weicht ab: Kann sie auch mit der aktuellen, autoregressiven, wortorientierten Vorgehensweise verwendet werden?

Die Übersetzung: ein brutales „Fitnessstudio“ für die Modelle

Ist die Übersetzung ein ausgezeichneter Test für AGI?

Das ist das Gegenteil eines generischen Chatbots:

  • on n'a pas le droit d'halluciner :

    • Erfinden Sie einen Satz oder machen Sie einen Handel, der sofort sichtbar ist. * Il faut une cohérence fine :

    • Achten Sie auf den Sinn, * Respektieren Sie die Grenzen (Länge, Ton, Terminologie), * Verzichten Sie auf „Lisser“ oder Vereinfachung des Inhalts.

Die Übersetzung hat dazu geführt, dass das Modell ein wahres Modell der Welt entwickelt hat, jedoch nur ein Textmodell.

Quand les coûts d'entraînement explosent

Historisch, übersetzt aus den einzelnen Kampfmodellen:

  1. Sprachmodell (LM). 2. Modèle de traduction spécialisé (MT).

Zeitleiste:

  • Statistikmodelle → * Neuronenmodelle (Version 2010) → * Transformers → * Große LLM-Erweiterungen + Feinabstimmung.

Das Problem besteht darin, dass es folgende Gründe gibt:

  • Durchschnittlich: 100 Stunden GPU für ein Modell, * Jetzt: 1.000 Stunden (gross, maximal möglich), * Dauer: 5 Millionen Stunden GPU für die Feinabstimmung, * und ca. 20 Millionen Stunden für ein vollständiges Vortraining… für ein Modell, das 1 Jahr alt ist.

Abschluss :

Ein vollständiges Eigentümermodell ohne mehr wirtschaftliches Bewusstsein für jede Generation.

Übersetzt wurde es auf die LLM-Open-Source-Datenbank als Basis angewendet … und es wurden drei große Winkel des Todes identifiziert.

Drei begrenzte Strukturen der LLM-Aktien

1. Tokenisierungskasse: Die Verwirrung beginnt bereits im ersten Schritt

Heute ist die Tokenisierung (BPE usw.) ein separates Vorprozessmodell:

  • beim Auslesen des Textes in einer Einheit („cas“, “ing“, “##ion“ usw.),

Problem:

  • Ein Même-Segment (z. B. „cas“) kann entsprechen:

    • „casa“ auf Italienisch, * case, casual, cascade usw.

Übersetzte Idee für das Boops-Modell:

  • Erlernen Sie die Tokenisierung mit dem Modell über Backprop, * Geben Sie sie als Einstieg ohne „Tokens BPE“ ein, mehr als ein paar Bytes, * Und lassen Sie das herausgefundene Schema wie folgt erkennen:

    • Kommentar segmentiert den Text, * und fügt darüber hinaus Kommentare hinzu, die auch Bilder, Videos und multimodale Signale enthalten.

Autrement dit :

„Es ist nicht notwendig, dass die Vorverarbeitung undurchsichtig ist. Es ist wichtig, dass Sie es nicht ohne weiteres lesen.“

2. Parallele Raisonnement im latenten Raum

Heute, das Dasein des LLM, das ist:

  • autoregressiv, * token nach token, * mit einigen Gedankenketten, die in der Eingabeaufforderung neu injiziert werden.

Alles in allem gelingt es ihm jedoch, den Text zu ändern, was ihm Grenzen setzt.

Beispiel einfach (en italien) :

„Tre parole importanti: non sei solo.“

Übersetzung naiv auf Englisch:

„Drei wichtige Worte: Du bist nicht allein.“

Problem:

  • „du / bist / nicht / allein“ = 4 Wörter, * donc la traduction korrekte serait plutôt :

    „Vier wichtige Worte: Du bist nicht allein.“

Das aktuelle Modell kann nicht gekauft werden, aber es funktioniert:

  • Compter les mots, * decoder en meme temps, * in a flow of all es mélangé.

Le cerveau humain, lui, fait différemment:

  • Zusätzliche Zonen mit parallelen Eigenschaften (Vision, Sprache, Logik…),

Objectif de Boops :

  • Die Daseinsberechtigung in einen latenten Raum verlagern, * Das Modell löschen:

    • Manipulation abstrakter Darstellungen, * Überprüfung von Einschränkungen (Computer, Ausrichtung, Steuerung), * vor der Generierung des endgültigen Textes.

3. Erfahren Sie mehr über die Erfahrung, die Sie bereits in der Vergangenheit erfahren haben

Dernière limite :

Ich habe die Intelligenz der Menschen nicht verlassen, wenn ich den Inhalt vergangener Menschen wiederverwendet habe.

Les humains apprennent :

  • ein Mitglied der Aufsicht (Lehrbücher, Kurse, Korrekturen), * ein Mitglied der direkten Erfahrung:

    • Essayer, Bewerter, Wiedereinsteiger, * ohne explizites „Orakel“ mit einer numerischen Vergütung, * in gleicher Weise wie Ziele, Werte, eine Agenturform.

Übersetzt im Déjà-Exploré dieses Prinzen im Jahr 2017:

  • In der Übersetzung wurde die Systemlehre von nun an fortgesetzt:

    • für Korrekturen von Übersetzern, * für die Zeit nach der Ausgabe, * für den Produktionsablauf. * Diese Rückerstattung der Erfahrung hat das Modell erheblich verbessert, * Der Punkt, an dem ein Unternehmen einen Umsatz von 100 Mio. $ erzielen kann, ist gewährleistet.

L'ambition maintenant :

  • Verallgemeinern Sie diesen Ansatz aus der Übersetzung, * Erstellen Sie Modelle, die Sie kennen, wenn Sie davon ausgehen:

    • Sie zerlegen die Geräte, * schätzen die Qualität/den Wert dieser Schriftart, * sind auf der Grundlage ihrer eigenen Erfahrung relevant.

Boops: ein europäisches, offenes, lang ausgerichtetes Modell

Um diese Ideen zu verwirklichen, Übersetzt und erhalten:

  • 30 Mio. € Forschungsfinanzierung in Europa, * ca. 100 Mio. € entsprechendes Rechen- und GPU-Kreditvolumen.

Feuille de route annoncée :

  • 2026: Uraufführung von Boops

    • Open-Weights, Open-Source, * ~10B Parameter, * zum Explorer hinzugefügt:

      • la tokenisation apprise, * le raisonnement latent, * l'apprentissage en ligne. * 2027: Version ~27B. * 2028: Endgültige Version, integriertes Brique-Ensemble.

Alles hat Vorrang vor den Infrastrukturen Europas (Scaleway & Co.), dann wird der Rest des Ökosystems verlassen.

Ein Übersetzer, der seine Wahl erklärt

Parallel zur Suche nach „heavy“, übersetzt:

  • laratranslate.com

    • Übersetzung von höchster Qualität, * und darüber hinaus: → Die Möglichkeit, ein System zu fordern, damit die Person die Möglichkeit hat, etwas anderes zu tun.

Das ist nicht mehr als nur „voilà la traduction“:

  • Das Modell legt seine Terminologiekriterien offen, * Begründet seine Wahl des Stils oder des Wortschatzes.

Für die Suite, übersetzt von einem Konsortium aus 70 Ländern (Oxford, EPFL, ETH usw.), verfasst von diesen Fragen.

„Sehen Sie sich diese Themen an, die Sie zum Gespräch suchen, sehen Sie uns.“

📊 14:15 14:45 | Benchmarking the frontier

Eine neue Möglichkeit zur Bewertung des modernen „KI-Stacks“: Hardware, Modell, Pipeline, Inferenz.

Ich habe einen strukturierten und vollständigen Lebenslauf in einem Artikel zum Thema „KI-Benchmarking“ (Micah Hill-Smith – Künstliche Analyse) verfasst.

📊 Benchmarking der IA: Messen Sie die Werte, die die Modelle wert sind

Micah Hill-Smith, Mitgründer und CEO von Artificial Analysis, präsentiert einen Kommentar, indem er die IA-Modelle, die Infrastruktur und die Computer misst und vergleicht. Unser Versprechen: Donner aux builders of données inépendantes pour choisir bons models, au bon prix, pour lesbons applis.

👥 Was ist eine künstliche Analyse?

  • Website: Artificialanalysis.ai * Rolle: Vertrauensebene für:

    • Modulintelligenzmessung (LLM, Bild, Audio, Video), * Latenz, Länge, Wirksamkeit, verwendete Token bewerten, * Labore, Wolken, Chips vergleichen. * Kunden: Labore für hohe Qualität + Unternehmen, die Produkte herstellen, IA. * Tools: ein Intelligence Index (synthetischer Score) und benutzerdefinierte Datensätze/Bewertungen für spezielle Anforderungen.

📈 Sind Sie gerade im LLM-Bereich?

Es handelt sich um einen Evolutionsschritt für Ihren Intelligence Index ab GPT-3.5:

  • Zeitraum „OpenAI dominiert alles“ nach GPT-4. * Die Argumentationsmodelle sind im Jahr 2024 eingetroffen → Die Leistung der Benchmarks ist stark beeinträchtigt. * Im Jahr 2025 umfassen die drei „Frontier Labs“ folgende: OpenAI, Anthropic, Google (und XAI im Einsatz). * Über die konkreten Anwendungsfälle (siehe Code):

    Wenn Sie eins sind, können die Code-Agenten Ihre Dienstprogramme auswählen. > Aujourd'hui, ils funktionale vraiment.

Auch wenn GPT-5 nicht mehr „fühlt“ wie eine Revolution für die ganze Welt, wenn es 2,5 Jahre alt ist, ist es gigantisch.

🧱 La Stack IA vue par Artificial Analysis

Micah entschlüsselt das Ökosystem auf 4 Sofas:

  1. Anwendungen – ChatGPT, Copiloten, B2B-Produkte, Apps-Finale.

  2. Basismodelle – GPT-5, Mistral Large, Qwen usw.

  3. Cloud-Inferenz / APIs – Endpunkte, die von den Entwicklern aufgerufen werden (OpenAI, Anthropic, Groq usw.).

  4. Material/Beschleuniger – GPUs (NVIDIA), TPUs (Google), andere spezielle Chips.

Google ist ein integrierter vertikaler Akteur (durch Chips mit Apps). Die anderen übernehmen mehr oder weniger bestimmte Strategien.

💸 IA: en même temps beaucoup moins chère… et beaucoup plus chère

Micah pose un paradoxe :

„L'IA est devenue 100× moins chère… mais vos requêtes coûtent souvent 10× plus que avant.“

1. Was ist mir wichtig, wenn ich über ein Intelligenzniveau verfüge?

Für ein „Niveau GPT-4“ per Beispiel:

  • Modelle plus Petits + Sparsité → Mehrere Parameter werden bei jeder Anfrage aktiviert. * Logische Optimierungen. * Neue Hardware und Effizienz (neue GPU/TPU-Generationen). * Ergebnis: Es konnte ein GPT-4-Qualitätstoken in einer Umgebung von ×100 hergestellt werden.

2. Möchten Sie Ihre Anfrage abschließen?

Parce qu’on fertig, beaucoup plus die Wahl des Modells:

  • Plus-Modelle am Boden (bestimmte GPT-4-Modelle in der Taille). * Argumentationsmodelle → Sie werden mit mehreren Millionen Token vor der Antwort „gesponsert“. * Agenten IA:

    • Gedankenkette über zusätzliche Apps, * Recherche im Internet, RAG, Tools, * Code-Agenten, die Dateien ändern, Code ausführen, Tests durchführen usw.

Donc: 🧠 Intelligence par Dollar augmente. 💶 Coût par requête utile explodieren, wenn Sie den Agenten lange Zeit arbeiten lassen.

🧠 Argumentationsmodelle und Wirksamkeit in Token

Der Unterschied ist zunächst einfach:

  • „Normal“-Modelle vs. * Argumentationsmodelle (mit expliziter Reflexionsspur, Schatten und internen Token).

Maintenant, c'est plus flou :

  • Bestimmte Modelle ohne „Modus-Argumentation“ stammen aus einer impliziten Begründung und Schriftart. * Bestimmte aktuelle Argumentationsmodelle sind nicht nur wirksam, sondern auch wertvoll.

Künstliche Analyse ist eine désormais plutôt de :

Token-Effizienz = Anzahl der verwendeten Token, um ein bestimmtes Intelligenzniveau zu erreichen.

In der Praxis, für einen Baumeister, meinte er:

  • nicht nur „Aktion ein/aus“, * sondern auch eine Kombination von Token-Modellen für den jeweiligen Nutzungstyp (Latenz + Funktion).

🟦 Offene Gewichte vs. Eigentümermodelle

Sie vergleichen die beste Leistung von Open-Weights mit der besten Leistung von Eigengewichten:

  • Die Lücke zwischen den beiden restlichen Rollen… * … aber der fertige Marquant ist, dass die Open-Weights-Modelle dem Rhythmus folgen.

Aktuelle Top-Offengewichte (selon eux):

  • Beaucoup viennent de Chine (DeepSeek V3.2, Minimax M2, Qwen 3 usw.). * OpenAI und auch GPT-OSS (offene Gewichte). * Côté Europe: Mistral Small/Medium, besetzt mit einem sehr guten Platz, komplett in einem multimodalen Kleinmodell.

Wichtiger Punkt für Mistral Large 3:

  • Das Bewertungsmodell ist eine Anleitung, zusätzlich zu einem vollständigen RLHF-Argumentation → Es ist mehr als tokeneffizient, aber nicht in Medium 1.2 auf ihren Reasoning-Indizes enthalten. * Eine zukünftige Versionsbegründung muss logischerweise aufgegeben werden.

🧪 Neue Benchmark-Typen: Erkenntnis und Halluzinationen

Sie sind für die Messung spezifischer Werte ausgelegt:

  1. Faktenwissen – Fragen, die Ihnen eine eindeutig definierte gute Antwort geben.

  2. Verhalten Sie sich gegenüber der Ungewissheit – wenn das Modell nicht funktioniert, ist es so:

    • Sagen Sie „je ne sais pas / je ne suis pas sûr“, oder * erfinden Sie eine fausse Antwort mit Vertrauen?

Ils mesurent donc :

  • Genauigkeit (Pourcentage de bons réponses). * Zwei „Halluzinationen“: Die Wahrscheinlichkeit, dass das Modell falsch reagiert, wenn der Aufklärer ihn nicht retten kann.

Bemerkenswerte Beobachtung: Die Modelle von Anthropic (Claude) sind sehr mächtig, aber parfümiert nicht richtig auf „Ich habe nichts zu sagen“ oder „Ich habe keine Chance“.

🧬 Der „Openness Index“: Wo ist ein Modell tatsächlich offen?

Es handelt sich um einen Offenheitsindex, eine Bewertung für den Punkt, an dem ein Modell tatsächlich „offen“ ist:

  • Pas seulement : Est-ce que les poids sont disponibles ? * Weitere Informationen:

    • Woher kommen die Lizenzbedingungen? * at-on Zugriff auf:

      • die Eingabeaufforderung, * die Zusammenstellung des Datensatzes (nur wenige Minuten), * die Skripte/Konfigurationen? * Ein parfait signifierait :

    „Es kann sein, dass das Modell nach Null in der Veröffentlichung wiedererlangt wird.“

Mistral erhält eine der besten Partituren aktuell in den LLM-Besitzern/Open-Weights „Sérieux“.

🖼️ Au-delà du texte: Bild & Video

Micah beendete einen wichtigen Punkt: Der Lebenslauf muss nicht in LLM-Texte geschrieben werden.

Weitere Benchmarks für Artificial Analysis:

  • Bildgenerierung (Diffusion, LLM-Bilder), * Videogenerierung (gesamtes Bild→Video), * Audio-/Sprachmodelle.

Sie verwenden die Bezeichnung „Präferenzarenen“: Schnittstellen zu Menschen im Vergleich zu zwei Einsätzen und die Wahl zwischen ihnen, die sie bevorzugen → Diese können folgende Dimensionen bewerten:

  • visuelle Qualität, * Kohärenz, * Perçue-Nutzung.

✈️ 14:50 15:05 | Die erste KI, die einen Kampfjet fliegt

Helsing montre que l'Europe im Voraus über die sinnvollen Verwendungsmöglichkeiten.

Ich habe einen klaren, strukturierten und bereits in diesem Artikel enthaltenen Text gelesen, der kurz vor der Konferenz Flight – L'IA steht, die ein Jagdflugzeug steuert.

🚀 Flug: Wenn ein IA-abweichender Copilot im Kampf ist

Die Geschichte der IA-Premiere als Pilot eines laufenden Jagdflugzeugs

Die Szene, die auf einem beeindruckenden Video zu sehen ist: Ein Jagdflugzeug in voller Lautstärke, manövriert nicht von einem menschlichen Piloten, sondern von einem IA-Engpass. Der Sucher von Helsing erzählt, dass er Centaur konstruiert hat, der erste IA-Kopilot, der in der Lage ist, einen modernen Luftkampf zu führen.

Und um zu begreifen, dass es eine Revolution ist, ist es mir gelungen, einen Mythos zu entschlüsseln …

🛩️ Der moderne Luftkampf ist nicht mehr zu sehen mit Top Gun

L'imaginaire Collectif pense aux aux dogfights:

  • Zwei Flugzeuge, die vom Autor gespielt werden, * Die Piloten, die ihr Auge beobachten, * Der Körper und der Instinkt sind beleidigt.

Die Realität 2025 ? Rien de tout ça.

Der Kampf ist nicht mehr visuell. Das ist:

  • auf einer Höhe von 10.000 m, * auf einer Entfernung von mehreren Hundert Kilometern, * vollständig von Radargeräten, Radargeräten und Sensoren gesteuert, * 100 % in der Information und auf dem Entscheidungspreis.

Es ist ein 3D-Spiel mit großer Aussicht und im Freien. > Celui qui gagne ist celui qui traite l'information le plus vite.

Und das ist genau das, was ich sagen werde.

⚠️ Pourquoi l'armee a besoin d'IA maintenant

Drei Faktoren, die in den Verteidigungssystemen unentbehrlich sind:

1. La vitesse

Die modernen Bedrohungen entwickeln sich in Sekundenschnelle. Ein Mensch kann nicht mehr helfen.

2. La surcharge cognitive

Un pilote doit :

  • Radar, Raketen, Verbündete, Meteore, Flugbahnen, * Informations-Terraktometer-Analysator, * Sofortige Entscheidungsfindung.

C'est trop pour un cerveau humain.

3. La maturité de l'IA

Nach Art des Schlagworts: Die Agenten sind nicht wartungsfähig → Aufgaben, → Reaktionen, → Fähigkeiten zur Ausführung komplexer Strategien.

Der Minister für Verteidigung der Königlichen Universität erklärte:

« Unsere Gegner wissen, wie wir einen Kampfrhythmus erfinden. »

🎯 Centaur: IA-Copilot für BVR-Einsätze

(Außerhalb der Sichtweite)

Dies ist der Kern des Problems: Die BVR-Kämpfe, bis zu dem Punkt, an dem ich nicht mehr weiß, was passiert ist.

L'environnement BVR, c'est :

  • Einzelinformationen, * Gesamtunsicherheit, * Vorfreude, Bluff, Schätzung, * Entscheidungen unter Stress und unter 9G.

Das ist eine Mischung aus:

🧠 Échecs → langfristige Planung 🎲 Poker → Unsicherheit, Bluff, Wahrscheinlichkeiten

Et l'IA parfaite pour ça ? → Ein Agent für Reinforcement Learning.

🤖 Die Rolle des Zentauren im Cockpit

Centaur reçoit en entrée :

  • Missionsziel, * menschliche Befehle, * Données Capteurs (Radar, Instruments de vol…), * Herkunftsinformationen anderer Flugzeuge.

Et en sortie, il produit :

  1. Commandes de Guidage (Orientierung, Flugbahn, Distanzbestimmung)

  2. Taktikempfehlungen (quand Tirer, quand manœuvrer, quand éviter)

  3. Absichtserklärung → Vers le pilote humain → Vers les alliés

Es ist ein wahrer Copilot, der von einer visionären Taktik überzeugt ist.

🧪 Das Geheimnis der Zutaten: ein IA-First-Simulator

Die traditionellen Simulatoren lauten:

  • Sehr glaubwürdige Grafik, * Konkret für die Einleitung menschlicher Piloten.

Mais pour du RL, il faut :

  • Milliarden von Erfahrungen, * der Verbrauch (x100, x1000), * die Variabilität.

Helfen Sie dabei, einen eigenen Simulator zu konstruieren, der in der Lage ist:

  • Stellvertretender Stellvertreter der Flugbegleiter im Parallelbetrieb, * Sie wissen nicht, wie lange die Zeit vergeht, * Ändern Sie die Lautstärkebedingungen, das Wetter, die Empfänger …

Ich kann mehrere Jahrzehnte Erfahrung in den nächsten Tagen genießen.

🧬 L'apprentissage : de null à expert

L'agent RL :

  • weiß nicht, * joue contre lui-meme, * teste, échoue, corrige, recommence, * erkunden Sie alle möglichen Taktiken.

Ergebnis:

Ohne eine menschliche Strategie zu kennen, > Ich erfinde meine eigenen Taktiken.

Zu beobachtende Taktiken:

  • Raketenangriffe, * Höhenbestimmung zur Vermeidung von Radargeräten, * Munitionserhaltung, * Voraussichtliche Manöver auf die Wahrscheinlichkeit von Feinden.

Alles mit einer übermenschlichen Leistung.

🛫 Du Simulierst einen Jet: Mission Gripen

Eine IA wird von einem dreifach ausgewählten Flugzeug beauftragt:

1. Robustheit gegenüber Unsicherheiten

Ich weiß nicht, wie genau das ist:

  • Die Luftdynamik, * Das exakte Radarverhalten, * Die Latenzzeiten des Materials.

Das Gerät befindet sich in einer Umgebung, in der es viel Obst, andere Parameter und extreme Variationen gibt.

2. Eine angepasste Flugzeugarchitektur

Le Saab Gripen Angebot:

  • Strikte Trennung zwischen Kritik- und Taktikbefehlen, * Ultrafiable-Grundlagenführung, * Ausreichende Sperrfristen berechnen.

Der Pilot des Menschen bleibt im Herzen des Systems. Ich berühre keine lebenswichtigen Befehle. Elle gère la stratégie.

3. Des boucles de control ultra-stables

Damit ich mich auf Entscheidungen auf hohem Niveau konzentrieren kann.

✈️ Die erste Vorführung en vol réel

Der letzte Tag, in Südafrika, Helsing und Saab haben eine Testentscheidung getroffen:

  • ein von Centaur ausgerüstetes Gripen-Flugzeug, * ein anderes von einem Menschen im Angesicht gesteuertes Flugzeug, * reale Umgebung, reale Bedrohungen, reale Données.

Pendant le vol, l'IA :

  • Erkennen Sie den Gegner, * Treffen Sie Ihre Strategie im Laufe des Tages, * Manövrieren Sie im Vorfeld der Feindbewegungen, * Optimieren Sie die BVR-Position kontinuierlich.

Ein IA, in einem fliegenden Flugzeug, im Zuge eines modernen Luftkampfes.

C'est une première.

🧭 Das ist mehr als ein Autopilot

Helsing le répète :

Es gibt keinen besseren Autopiloten. > Es handelt sich um einen in ein Cockpit integrierten Großmeister.

Das Ziel besteht darin, den Piloten nicht auszutauschen. Das ist für mich ein entscheidender Vorteil in den Situationen, in denen ich mehr Kritik übe.

Ein IA, der in der Lage ist, einen Kampfrhythmus zu entwickeln.

🔥 Fazit

Centaur représente :

  • Die IA-Premiere war in einem Jagdflugzeug in Betrieb, * Eine Demonstration des RL-Potenzials für vorübergehende Entscheidungen, * Eine fortgeschrittene höhere Strategie für die abendländischen Demokratien.

Et Helsing recrute. Beaucoup.

🌱 15:10 15:40 | Transparenz & KI CO2-Fußabdruck

Scaleway + Salesforce untersucht das entscheidende Thema für Nüchternheit und Energietransparenz.

⚙️ 15:45 16:00 | Entwicklung skalierbarer KI (Ampere)

Die Zukunft der Datenverarbeitung: ARM-CPU, energetische Effizienz, IA-Durchdringung.

🤖 16:05 16:25 | Von Grundlagenmodellen zu realen Maßnahmen

Scaleway + Enchanted Tools: Kommentar zum Action-Physique-Modell (Roboter).

⚡ 16:30 16:50 | Bauen in Agentengeschwindigkeit

VAST Data, Semianalysis und H Company diskutieren über Pipelines, Dateninfrastruktur und Datenerfassung.

🚀 16:55 17:10 | Von Einzelagenten zu Agentenflotten

Staub erkunden Kommentar Pilot der Flotten von Agenten, nicht gerade ein Agent isoliert.

🔐 17:35 17:55 | KI und Datenschutz

Proton hatte eine starke Sicht auf ein privates und essentielles IA für Europa. # 📡 Zentraler Raum: Hardware, Pharma, Multimodalität, Kreativität und MCP

14:20 14:50 | Jenseits der Luftkühlung

Der Weg zur Hardware IA: Refroidissement, Haute Densité, Nouvelles Architectures.

15:15 15:45 | KI für die pharmazeutische Forschung und Entwicklung

Biolevate + Sanofi: Kommentar zu IA beschleunigt die Entdeckung von Molekülen.

Hören Sie einen klaren und wiederverwendbaren Lebenslauf aus der Sitzung „Pharmazie und öffentliche Gesundheit“ (12–15.15 Uhr).

🎯 Thème de la table ronde

Comment l'IA transforme à la fois :

  • die epidemiologische Überwachung, * die Entdeckung neuer Merkmale, * und die Einführung auf dem Markt für Medikamente/Impfstoffe,

in einem äußerst reglementierten Bereich (Pharma, öffentliche Gesundheit).

Intervenierende:

  • Joël Belafont – Mitgründer von BioElevate (ehemaliger Bâtisseur de Produits Tech ab 15 Jahren). * Antoine de Dorcich – Mitgründer, verantwortlicher IA bei BioElevate. * Cédric Meillet – Sanofi Vaccins, Spezialist für Epidémiologie und öffentliche Gesundheit (ehemals OMS). * Moderation: Sophia (BioStream).

🧪 Les grandes faiblesses actuelles de la santé publique (Cédric – Sanofi)

  1. Données trop lentes

    • Die klassischen epidemiologischen Überwachungssysteme sind nicht starr und basieren auf den eigenen Pipelines. * Parfois, Die Fernsehjournale kündigen die Epidemie vor den offiziellen Dashboards an.
  2. Eine einzige Quelle der Glaubwürdigkeit durch Angabe

    • Traditionell: ein Indikator → eine Quelle (z. B. Labore, Krankenhäuser). * Oder aujourd'hui, auf pourrait croiser:

      • Allgemeinmedizinische Kabinettslogiken (GP-Software), * Sozialversicherungsträger, * Gebrauchtarbeiter, * Privatlabore usw Spule.
  3. Sélection des souches vaccinales encore „à l'ancienne“

    • Pour la grippe: auf reformule 2×/an. * Aber die Möglichkeit, die Antigene nach der Impfung zu wählen, hat sich nach 50 Jahren kaum geändert. * Peu ou pas d'exploitation :

      • aus massiven historischen Quellen, * nicht aus IA-Gründen, um Zukunftsaussichten zu verhindern.

🤖 Où l'IA apporte le plus de valeur ? (Joël & Antoine – BioElevate)

1. Ein „konvergenter“ Techno

Für Joël, er ist nützlich für die Gesundheit, er ist nicht gerade „des LLM“:

  • Klassenmodelle für maschinelles Lernen, * LLM und Transformatoren, * Text-, Bild- und Bildanalyse, * Recherche-/RAG-Modelle, * Spezialagenten, die zusätzliche Werkzeuge kombinieren, * sowie die Entwicklung von Sensoren und Hardware (geschlossene Inferenz usw.).

Alles in allem, um ein komplexes Problem von Hunden parallel anzugehen: Welche Krankheiten treten auf? quelles souches virales ? Welche Eigenschaften sind möglich?

2. L'état réel des LLM aujourd'hui

Antoine Lebenslauf aus der Situation:

„Es kann sein, dass das komplexe Problem mit dem LLM nicht angegriffen wird, wenn das Modell nicht funktioniert.“

Deux limites majeures :

  1. Mémoire & contexte

    • Ein LLM kann nicht brutto sein:

      • eine Basis gigantischer Données, * Jahre wissenschaftlicher Literatur, * Millionen reglementierter Dokumente. * Die Informationen werden automatisch ausgewählt und strukturiert.
  2. Chaînes de raisonnement longues

    • Wenn das „Penser“-Modell nach längerer Zeit funktioniert, kann es ableiten, den Stoff verlieren, halluzinieren oder eine Art Mission sein.

BioElevate baut die Infrastruktur selbst auf, um diese Grenzen auszugleichen.

🧱 Innovationen von BioElevate für die Pharmaindustrie

1. Umfangreiches Verständnis der Dokumente

  • Travail très poussé sur :

    • Die Semantik von Dokumenten (Où se trouve the connaissance, comment elle est structureée), * Nicht nur „brutto text“ sondern Struktur, Abschnitte, Taxonomie.

2. Eine Orientierungsnavigation im „Nouveau Vector Store“, keine Suche

  • Kritik zum Standard-Chunking-Ansatz + einfache Vektoren:

    • Ausschneiden und fertige Stücke:

      • die Struktur, * der globale Kontext, * die Rechte zwischen den Abschnitten. * Erzwingen Sie, dass die IA nicht rechtzeitig nach der semantischen Suche sucht, dies ist begrenzt.
  • BioElevate schlägt einen „Wissensspeicher“ vor:

    • Navigationsorientierung:

      • Durchsuchen Sie die Abschnitte, * Finden Sie eine Taxonomie, * Erkunden Sie ein Korpus „wie ein erfahrener Mensch“. * Der Agent kann in das Dokument verschoben werden, bevor er 3 ausgewählte Stücke erhält.

3. Agentenorchestrierung & komplexe Workflows

  • Die Metier-Fragen werden angezeigt: „Epidémie en vue? Welche Varianten? Welche Empfehlungen?“ → Das ist kein Problem mit einer Frage. * BioElevate Orchester:

    • ein komplexer Workflow → in Sous-Workflows, * zusätzliche Agenten, die speziell für die Zusammenarbeit zuständig sind, * Sie können sich an Ihre Werkzeuge wenden, die einen Teil der mentalen Arbeit bilden, * alles ist noch überschaubar und reproduzierbar → wichtig für die Regulierung.

🇫🇷 Projekt IOLOS: ein konkretes öffentliches Gesundheitsprojekt

Cédric gibt offizielle Ankündigung bekannt:

  • Sanofi, BioElevate, Orange, Impact Healthcare wurden vom Cluster IDBO (Gesundheit – Frankreich 2030) für das Projekt IOLOS ausgewählt:

    • Ziel: revolutionäre Überwachung von Atemwegserkrankungen in Frankreich (Grippe, COVID usw.). * Ansatz: Multi-Quellen von Données (Hausärzte, Labore, Eaux-Usées, Réseaux, etc.) → ein Dashboard IA, das:

      • vorübergehende Überwachung, * vor unbestimmten Epidemien/Pandien, * Bereitstellung mobiler Anwendungen für die Bevölkerung:

        „Bevor Sie in den Schlaf gehen, können Sie sich das Risiko vorstellen, die Krankheit oder das COVID-Virus anzugreifen.“

  • Zeitleiste:

    • Debüt vor Mai 2026, 4 Jahre lang, * regionaler Pilot vor 2 Jahren, * vollständige industrielle Lösung vor 4 Jahren.

🧬 IA & Entdeckung von Merkmalen (BioElevate)

Joël hat eine weitere Anwendung für R&D-Therapie beschrieben:

  • Sie nutzen ihre Pipelines, um neue Merkmale zu entdecken:

    • seltene Krankheiten oder Orpheline, * Bereiche wie Onkologie, Dermatologie usw. * Insbesondere:

    • Ein Kandidat verfügt über eine abgeschlossene Ausbildung bei den ersten Prüfungen in der Klinik. * Strategie: Konzentrieren Sie sich auf nicht vermietbare Krankheiten für große Pharmaunternehmen (Trop-Raritäten) und nutzen Sie IA-Agenten, um den therapeutischen Raum zu erkunden und zu gewinnen.

⚙️ Innovationen „pragmatiques“: Eingabeaufforderungen und Agenten

1. Automatische Optimierung der Eingabeaufforderungen

  • BioElevate hat ein Papier zur sofortigen Optimierung veröffentlicht:

    • ohne das Modell zu ändern, * kann die Genauigkeit um bis zu +60 % auf bestimmte Dinge erhöht werden, * liegt an der Feinabstimmung von LoRA, ohne dass das Risiko besteht, dass sensible Daten in einem LoRA-Modell verloren gehen.
  • Diese Techno-Serie ist mit dem Kern ihrer Platte in die Kette integriert.

2. Skalierung der Agenten: Versprechen und Probleme

Joël est très clair :

„Durch 10 Innovationen, die Sie stellen, entstehen 10 Probleme.“

  • Vision: Eine Woche lang nur wenige Klicks für Menschen → bis zu 100.000 Agenten, die 1 Stunde lang zusammenarbeiten. * Mehr als je ein Palier ×10:

    • Auf der Suche nach einem neuen Engpass (Infrastruktur, Orchestrierung, Transaktionen, Überwachung, Konformität),

📜 Regulierung, Traçabilité und Vertrauen

Cédric (Sanofi) insiste :

  • Pharmaindustrie: Regulierungsbehörden (Agenturen, EMA, FDA usw.). * Das ist unverzichtbar:

    • Traçabilité: Sie können sich das Werk ansehen, die Quellen verfolgen und den „Pourquoi“ erläutern. * Reproduzierbarkeit: Erhalten Sie das gleiche Ergebnis, mit den gleichen Eingaben. * Transparenz: kein „boîte noire magique“ ohne Erklärung.

Sanofi hat eine Politik „Responsible AI“ (co-RAISE) eingeführt: ein interner Kader für IA-Lösungen, der diese Anforderungen berücksichtigt.

BioElevate hat seine eigenen Arbeitsabläufe mit folgenden Mitteln verbunden:

  • Vollständige Geschichte der Entstehungsgeschichte, * Quellenstädte, * Fähigkeit, mich selbst zu reflektieren → Kritik, die vor den Aufsichtsbehörden akzeptabel ist.

💉 Das „große“ Problem liegt bei 5 Milliarden Dollar

Frage „magisches Baguette“ von Sophia an Cédric:

„Wenn Sie sich für BioElevate entschieden haben?“

Antwort:

  • Verbesserte Auswahl von Grippe-/COVID-Impfungen.

    • Verwende 50 Jahre lang nicht genutzte Tage, * Verwende die IA, um vorab solche zu dominieren, * Verbessere die Wirksamkeit der Impfungen. * Die Ankündigung lautet auch:

    • Ein Workshop vor dem OMS in Genf vor Mitte 2026, um die Verwendung der IA in diesem Auswahlprozess zu untersuchen.

🧬 Seltene Krankheiten und Präzisionsmedizin

Auf die Frage nach sehr seltenen Krankheiten, souvent „pas interessantes“ wirtschaftlich:

  • Joël rappelle que l'IA ne „veut“ rien, ce sont les humans that signing the project. * Weitere Informationen zur Industrialisierung der Recherche- und Designmethoden für Agenten:

    Auf jeden Fall ist es die Absicht, Eigenschaften zu entwickeln, die quasi für alle da sind, > und besteht aus ultrapersönlichen Objekten (spezielles Genom, einzigartige Konfiguration).

Dies ist die Vision: Präzisionsmedizin auf höchstem Niveau, möglich durch die Skalierbarkeit der IA-Agenten.

🧠 Letzte Nachricht von Joël: Was kann ich konstruieren?

Sophia Lui forderte einen Rat, der sich für kritische Bereiche (Gesundheit, Verteidigung usw.) ohne Ärztin/PhD einsetzt:

  • Kein Beitrag mehr, denn es ist „ein Geist der Welt“, aber was ist mit:

    • Eine einzigartige Erfahrung, * Ein Frustrationswinkel für ein konkretes Problem. * Die großen Labore (ex: Anthropic) rekrutieren Profile außerhalb von IA pure:

    • Ich glaube, das ist die Lösung des Problems und der Einschränkungen. * Wenn Sie sich entschieden haben, in der Welt zu frustrieren, dann können Sie Folgendes tun:

    • t'approprier les tools IA, * konstruiere die Lösung autour de cette frustration.

„Sie sind künstlicher Geheimdienst, aber Sie haben den größten Teil des menschlichen Geheimdienstes in Anspruch genommen, den Sie gewählt haben.“

15:50 16:05 | Zero-Shot-Produkttaxonomie (Veepee)

Ein wahres Risiko für die Nutzung von E-Commerce in Europa.

Ich habe eine klare Zusammenfassung des Vortrags „Multimodale Produktklassifizierung bei VP (Veepee)“ gesprochen.

🏬 Kontext: VP (Veepee) und das Problemmetier

  • VP = unicorn française, gegründet im Jahr 2001 * 5.000 Mitarbeiter, 30 Mio. aktive Mitglieder, Aktivitäten in ganz Europa * 5 Millionen Produkte pro Jahr, Ausgabe von ca. 7.000 Marken, in allen Branchen (Sport, Garten, Elektrotechnik usw.)

Für jedes Produkt, das ist es:

  • Datenblatttechnik, * Bilder, * und darüber hinaus ein korrektes Klassifizierungsprodukt (interne Taxonomie).

Warum ist die Klassifizierung Kritik?

Parce qu'elle impacte toute la chaîne:

  • Preise: Mauvaise-Kategorie → Mauvais-Preis → Perte de Marge / Perte de Compétitivité. * Finanzen / Steuerwesen: Berichterstattung, Steuern, Budgets → alles auf der guten Taxonomie. * Logistik:

    • z. B.: ein Produkt der Klasse „T-Shirt“, weil es ein „Waschtisch“ ist → Katastrophe im Unternehmen. * Aktuelle Qualität der Daten: ~11 % der Fehler im Katalog → Die Schwierigkeit besteht darin, für den Einstieg in ein klassisches Modell zu dienen.

Ich habe gerade versucht, ein ML-Modell vor 6 Jahren herzustellen → fertig.

Was ist das mit der ML-Klasse?

  • Taxonomie non MECE (non “Mutually Exclusive, Collectively Exhaustive”)

    • Bsp.: „T-Shirt“ VS „Top“ → Ein T-Shirt ist ein Top, aber die Taxonomie ist von mir getrennt. * Taxonomie qui évolue constamment (neue Tendenzen, neue Produkte). * Unwuchtmassiv in den Kategorien:

    • bestimmte Kategorien umfassen Millionen historischer Gegenstände, * andere: 3 Produkte (z. B. „3D-Drucke“…). * Kaltstart: Eine neue Kategorie, die nicht für den Lehrling geeignet ist. * Et les données historiques sont bruitées (11 % Fehler…).

Fazit: Ich habe ein Null-/Wenig-Schuss-System, kein großer überwachter Klassifizierer.

🧠 Schritt 1 – Zero-Shot mit CLIP (multimodale Basislinie)

Sie verwenden ein CLIP-Modell (Bild + Text) für die „Zero-Shot-Klassifizierung“.

Principe

  1. Für jede Kategorie (≈ 1 500 Kategorien):

    • transformiert die Kategorie in den folgenden Satz:

      “This product is a T-shirt”, “This product is a dishesharp”, etc. * embeddings texte → vecteurs de dimension d.

  2. Pour chaque produit :

    • Encoder für das Bild des Produkts → Bild einbetten. * Berechnen Sie die Ähnlichkeit (Cosinus, Euklidien usw.) zwischen Bildern und 1.500 Kategorienvektoren. * Lesen Sie die Top-1 als Prognose.
  3. Variante avancée :

    • nicht nur den Namen der Kategorie einbetten, * sondern auch die zur Kategorie gehörenden Metadaten / Wissensexperten (Beschreibung von Metier, Regeln usw.).

Vorteile

  • Null Training: Keine Feinabstimmung, keine massive Datenbereinigung. * Très rapide et peu coûteux (Einbettung + Ähnlichkeiten). * Weitere Informationen finden Sie in den neuen Kategorien (auf der Einbettung, Punkt).

Grenzen

  • Top-1-Genauigkeit ≈ 58 % (gegenüber ~89 % bei einem Menschen). * In den Top 15, mit einem Anteil von ~89 % (am Ende der Kategorie einschließlich der besten Kategorie, die in der Liste aufgeführt ist). * → Es genügt nicht, dass die Automatik funktioniert: Sie benötigen eine menschliche Hilfe oder eine Vorfilterung.

🧠 Schritt 2 – Über die Geschichte von KNN (Ähnlichkeit mit alten Produkten)

Idee: Vergleichen Sie das Produkt nicht nur in anderen Kategorien, sondern auch mit alten Produkten mit guten Etiketten.

Pipeline

  1. Kennzeichnend für 1,5 M historische Produkte mit Etikett (auf der Rückseite angebrachte Etiketten). 2. Gießen Sie ein neues Produkt:

    • Bild kodieren, * ein KNN (mehr als 1,5 Mio. Einträge) auf dieser Basis von 1,5 Mio. Einträgen erstellen, * k ähnliche Produkte abrufen (z. B. Top 100). 3. Suchen Sie nach den folgenden Kategorien:

    • für diese 100 Produkte, Sammler ihrer Kategorien, * zusätzlich zu den Top-30-Kategorien, die am häufigsten / relevant sind. 4. Kombinierer:

    • Top-30 der CLIP-„Kategorien“

    • Top-30 der KNN-„ähnliche Produkte“ → Fusion (z. B. über ein LRF / Abstimmungsergebnis).

Ergebnis:

  • Im Top-15-Finale besteht die Wahrscheinlichkeit, dass die beste Kategorie die menschliche Leistung beeinträchtigt.

Pourquoi c'est bien ?

  • Zur Einführung eines freiwilligen Biais der Geschichte:

    • Das Modell „imitiert“ das, was die Teams seit Jahren tun, * und die „Geschäftslogik“ von VP. * Es ist noch nicht möglich (Einbettungen + KNN auf einem Vektorindex).

🧠 Schritt 3 – Ein multimodaler LLM-Studiengang für die Top-1-Studie

Das bedeutet, dass es sich um multimodal generierte Daten handelt.

On part du constat :

  • In den Top 15 liegt das Bon-Label bei ca. 96 % der Zeit (nach CLIP + KNN). * Es war nur ein „Cerveau“, um die 15 Kandidaten aus Bon Parma auszuwählen.

Eintritte in das multimodale LLM

Pour chaque produit :

  1. Die 15 Kandidatenkategorien (Ausgaben des vorherigen Abschnitts). 2. Das Bild des Produkts. 3. La fiche-Technik / Text (Titel, Beschreibung, Attribute…). 4. Das Etikettenbuch:

    • ein Dokumenttext in menschlicher Sprache:

      • Erklären Sie, dass Sie jede Kategorie kennen, * Die Regeln („on met X ici, sauf si Y“, etc.),

Ce que fait le LLM

  • Dies ist ein multimodales LLM (Bild + Text). * Der gesamte Kontext wird angezeigt (Produkt + 15 Kategorien + Regelwerke). * Ich mache:

    • Erklären Sie das Werk, * Wählen Sie eine einzige Kategorie aus, die am 15. September endet.

Einsatz:

  • ein JSON-strukturierter Inhalt:

    • die gewählte Kategorie, * eventuell der Zweck.

Ergebnis

  • Top-1-Genauigkeit ≈ 94 %, höher als der Mensch (~89 %).

Et le tout :

  • ohne Feinabstimmung auf einem LLM, * und s'appuyant sur:

    • Bildeinbettungen, * Texteinbettungen, * multimodales LLM von der Stange (offene Gewichte möglich), * * das im Etikettenbuch eingekapselte Fachwissen.

🧾 Interessante Eigenschaften dieses Ansatzes

  • Zero / few-shot de bout en bout

    • Abhängig von der Norm der Datensätze in der jeweiligen Kategorie. * Robuste Lösung für Kaltstarts: Sie reicht aus, um eine neue Kategorie, ein Etikettenbuch usw. zu erstellen, und kann in den Top-15 vorgeschlagen werden.
  • Anpassbar an andere Modalitäten:

    • aktuell: Bild + Text, * mehr, vielleicht können Sie es sich vorstellen:

      • métadonnées, * signaux numériques, * usw.
  • Maßgeschneidert und skalierbar:

    • Einbettungen = sehr gute Marken, * LLM wird nur in den Top 15 verwendet, nicht im gesamten Katalog, * Nicht nutzbar auf 5 Millionen Produkten / Jahr.
  • ROI élevé :

    • Reduzierung von Klassifizierungsfehlern → unmittelbare Auswirkung auf Preisgestaltung, Logistik, Finanzen, Kundenerfahrung.

🧩 Im Lebenslauf (Muster wiederverwendbar)

Das allgemeine Schema, mit dem Sie Ihre Nägel neu anbringen können:

  1. Multimodale Einbettung (CLIP / ähnlich) für Zero-Shot. 2. Abseilen der Geschichte über KNN auf eigene Faust, um die impliziten Regeln und Regeln einzuführen. 3. LLM multimodaler Guss:

    • Weitere Produkte + Kandidaten + Regelwerke, * Eine strukturierte Entscheidung (JSON) + Erstellung erstellen.

→ Ohne große Schulungsaufsicht erhalten Sie:

  • eine Präzision > menschlich, * ein einfaches, skalierbares, möglicherweise anpassungsfähiges System, * in der Lage, neue Kategorien zu absorbieren.

16:10 16:40 | Video-KI-Pipelines

AIVE, XXII, Molia: Kanteninferenz → Video mit generierten Pipelines.

Hören Sie einen strukturierten Lebenslauf des Vortrags „Video AI – de la vidéo aux données“ (14h–16h10).

👥 Les intervenants & leurs produits

  • Moderator: Paul Moshkovich – Mitgründer von Modia (Labor IA externalisiert für Unternehmen).

  • Olivier / AVE – Künstliche Agenten für Videoexperimente

    • Plattform zur Automatisierung der Videoproduktion für:

      • Marken, Agenturen, Medien, soziale Medien. * Aus einem Spot-TV, einem Film oder einer Sendung:

      • Lebenslauf, Neuformatierung, Lokalisierung, Anpassung an das Publikum / Ressort, alles mit menschlicher Validierung. * Technologiehaus: MGT – Multimodale generative Technologie.

  • Dan / Zweiundzwanzig (22)

    • 10-jährige Gesellschaft, spezialisiert auf:

      • Analysieren Sie Videos auf Zeit (Videoüberwachung, Einzelhandel usw.). * Keine weiteren Bilder verfügbar:

      • Transformieren Sie den Fluss in verteilten Strukturen (Objekte, Räume, Übergangszeiten, Flugbahnen…). * Unterstützt alle anderen Modelle/Dashboards/Betriebssysteme.

🎬 Vision community: Verrät das Video ohne Pixel

Les deux boîtes partagent la meme philosophie:

Das Video = eine Quelle multimodaler Daten (Bild, Audio, Zeit, Kontext), enthält jedoch nur eine Reihe von Pixeln.

Chez AVE

  • Sie zerlegen die Kreativität:

    • Sichtbares Bild: Das Video, das ich gerade sehe. * Côté-Maschine: ein Ensemble von Données-Strukturen, die das Video beschreiben. * Sie haben die von IA-Eigentümern erstellten Modelle (sowie Open-Source-Modelle) entwickelt und festgestellt:

    • Personen, Emotionen, Kader, Objekte, Logo, Kurse, Bewegung, Erzählung, Branding… * Es wurde in „Video-to-Data“ umgewandelt, hier:

    • Wird zum Lebenslauf, Formatieren und Anpassen von Inhalten für verschiedene Zwecke (TV, TikTok, Facebook usw.) verwendet. * Zusätzlich gibt es einen automatisch generierten Generator für mehrere Videovarianten (z. B. 50.000 mögliche Installationen auf einer Nespresso-Maschine) und:

    • Eine „kreative Partitur“ wählte die beste Version auf dem Kanal (TikTok ≠ Facebook).

Chez TwentyTwo (22)

  • Definition der Regeln:

    • Beispiel: „Ein Objekt vom Typ humain entre dans telle zone“, „Combien de temps reste-t-il dans this zone“, „comportement X detecté ou non“. * Extra-System:

    • Objekttyp (Mensch, Fahrzeug usw.), * Flugbahnen, * vorübergehende Zeit, * Standorte, * nicht-biometrische Neuidentifizierung (einzelne Personen zwischen Kameras)…

    • in Dashboards, * in Betriebssystemen (Warnungen, Automatisierung).

🧠 Multimodalität: Bild + Sohn + Text + Temps

Les deux insistent: Die Multimodalität ist unverzichtbar.

Warum?

  • Wie für einen Menschen, bitte ich Sie um zusätzliche Zeichen, um den Kontext zu verstehen:

    • image seule, * son / voix, * texte (sous-titres, scripts), * temporalité (ce qui vient avant / après une scène), * position dans l'image (centre vscoin), mouvements, etc. * Le croisement de ces signaux permet:

    • Bestes Gefühlsverständnis, Rolle in Plänen, Schlüsselszenen, * Beste Unternehmenserkennung an der Küste 22 (Einzelhandel, Sicherheit, Analytik).

Beispiele für Beton

  • AVE :

    • Bestimmte Pubs/Filme sind ohne Dialog → Sie können es auf folgender Seite lesen:

      • Gesichtsausdrücke, * Bewegung, * Plantyp (großer Plan, großer Plan), * Rhythmus, * Cliffhanger, Momente klar … * Leur MGT kombiniert weitere Modelle:

      • Beispiel: „gros plan + visage + émotion forte“ → scène clé / moment émotionnel. * 22 :

    • Nutzen Sie Multimodal + VLM (Vision-Language-Modell) für:

      • Erlauben Sie dem Benutzer, Fragen in natürlicher Sprache auf dem Video zu stellen (z. B. „Welche Person hat einen Helm?“)

📉 Datenknappheit und synthetische Daten

Problèmes de base

  • Es ist schwierig, die richtigen Données-Reelles für alles zu finden:

    • Beschränkt DSGVO / Datenschutz, * Seltene Szenarien (häufige Ereignisse), * Mehrere Kamera-/Leuchten-/Winkelkonfigurationen usw.

Ansatz von TwentyTwo (22)

  • Historiquement :

    • Generierung von 3D-Synthetikdaten (Einzelhandelsumgebungen, Kameras, Leuchten, Verdeckungen). * In der Ära (2018) wurde 3D nicht realistisch wiedergegeben. * Aujourd'hui:

    • ils utilisent un mix :

      • Echte Daten (Probleme von Kunden oder Umgebungen), * Generierte synthetische Daten mit den neuesten GenAI-Videomodellen. * Das Gerät kann Spulen + Synthetik verwenden, aber die Validierung der Modelle ist auf keinen Fall realisierbar.

Approche d'AVE

  • Philosophie différente :

    • Es gibt keine „Feinabstimmung“ für ihre Modelle auf den Video-Clients. * MGT basiert auf einem Meta-Learning-Ansatz / einer Kombination von Modellen. * Konsequenzen:

    • keine Registrierung für und zur Messung von Uploads an Kunden, * kein Zugriff auf externe Daten (nicht externe APIs), * strenge Konformität mit B2B-Kunden (Marken, Agenturen, Medien). * Ihr Versprechen:

    • Du lädst ein Video hoch → nach der Einrichtungs-/Schulungsphase, deine Produkte sind komplett wertvoll.

🛡️ Leitplanken, Halluzinationen und Vorhersagequalität

AVE

  • Im Pub / der Unterhaltung ist die Fehlertoleranz quasi null:

    • Keine Charaktere mit drei BHs, * keine sichtbaren Glitches, * keine inkohärenten Montagen. * Leur techno wird als deterministisch beschrieben:

    • Die Pipeline (Erkennung + Regeln + Generierung + Auswahl) dient dazu, Halluzinationen zu vermeiden. * Sie enthält keine „LLM-Erfinderin visueller Inhalte“. * Ich beharre darauf:

    • Pixel perfekt, * kreative Kontrolle, * menschliches Feedback:

      • Der Benutzer kann bearbeiten, was die IA vorschlägt, * Korrigieren / Affinieren (Korrekturboucle).

Zweiundzwanzig (22)

  • Eux reconnaissent : oui, il ya des hallucinations.

    • Überall generische Modelle (VLM) oder Aufklärung von Objekten in begrenztem Umfang. * Mehr:

    • Es ist nicht möglich, dass der Videoserver (vor Ort beim Kunden) läuft. * Strategien:

    • Einstellung der Bilder je nach Kontext (Entfernung der Kamera, Beleuchtung, Winkel…),

      • Sie teilen sich die Leistungsmerkmale mit, * ohne Empfehlungen (Position der Kamera, Pixeldichte usw.). * Taux d'erreur:
    • Abhängig vom jeweiligen Verwendungszweck, da die Masse der weltweiten Daten kohärent ist, sind die gelegentlichen Fehler für die Analyse von Anwendungsfällen akzeptabel.

🧩 Punkte bleiben erhalten

  1. Gleiche Philosophie, entgegengesetzte Anwendungsfälle:

    • AVE: Postproduktion / kreative Adaption (Kneipe, Unterhaltung). * 22: Analysieren Sie die Zeitspanne / den Umgebungskörper (Einzelhandel, Fluss, Lager).
  2. Das Video verfügt über einen multimodalen Fluss strukturierbarer Daten, nicht nur über ein „animiertes Bild“.

  3. Multimodalité = clé pour :

    • Kontext, Gefühle, Absichten verstehen, * Schnittstellen in natürlicher Sprache bereitstellen (eine Frage an das System stellen, die im Video vorbeikommt), * Robustheit und Präzision verbessern.
  4. Datenknappheit ≠ Showstopper, si :

    • zum Kombinieren synthetischer Daten, Rätsel und Meta-Learning / Komposition von Modellen, * zum Verständnis von Systemen, die nicht von normierten Datensätzen abhängig sind, die Kunden benötigen, um zu arbeiten.
  5. Leitplanken und Halluzinationen abhängig vom Metier:

    • Werbung / Videomarketing → Erfordernis der visuellen Perfektion → Pipeline plus Bestimmung. * Analytik/Einzelhandel → Es besteht eine akzeptable Fehlermarge, wenn das Signal weltweit zulässig ist.

17:10 17:25 | Ein genauer Blick auf die MCP- und ChatGPT-Apps

Ein Schlüsselwort: MCP, die neue Revolution autonomer Apps. Besonders interessant für europäische Entwickler.

17:50 18:05 | KI bei Spotify

Kommentieren Sie Spotify mit seinen guten Strategien für „Everywhere“. # ☕ Gründercafé: Business Cases, Edge AI, RL, Industrie, Haltbarkeit

Ein Track plus Intimität mit der Ultra-Technik:

  • 12:05 12:35 | AIVE: Videotranskreation der nächsten Generation * 12:40 13:10 | OCR-gestützte Menüinventur * 13:15 13:30 | Echtzeit-KI: 100x schnellere Inferenz (Kog) * 13:35 13:50 | Messung des ROI der KI-Einführung * 13:55 14:10 | Reinforcement Learning & PCB-Routing * 14:15 14:30 | Grundlagenmodelle für die Automobilindustrie * 14:35 15:05 | Nachhaltige KI-Skalierung (Fujitsu) * 15:10 15:40 | Desktop → Supercomputer: KI-Workflows * 16:10 16:40 | Entwicklung des Audio-Agenten * 17:05 17:35 | Computergestützte Agenten (Leadgenerierung) * 17:40 18:10 | Tabellarische Grundlagenmodelle (Neuralk-AI)

Eine seltene Mischung aus Infrastruktur, Produkten, Anwendungsfällen, Regelungen, Energieoptimierung und IA-Agenten. # 📌 Hier erfahren Sie alles über die Agenda 2025

1. L'ère des agenten autonomes est amorcée

Die Gespräche über die Agenten, die Autonomie, die Orchestrierung, die Produktivität und MCP sind nicht abgeschlossen.

2. Europa verhängt eine verantwortliche und effiziente IA

Energiebewusstsein, Transparenz, Sicherheit und Regulierung sind allumfassend.

3. L'industrie rattrape voire dépasse la recherche appliquée

Pharma, Automobil, E-Commerce, Roboter: nicht mehr auf der Demo, aber nicht auf dem Einsatzgebiet.

4. Die Hardware wird durch eine neue Strategie ersetzt

Luftkühlung, Edge, ARM, Dichte, Supercompute: Europa bietet Alternativen zum GPU-Duo USA/Asie an.

5. Die Multimodalität wird in allen Bereichen eingesetzt

Texte → Bild, Stimme → Produkt, Video → Aktionen, Tableau → Erkenntnisse. # 🎤 Fazit: ai-PULSE bestätigt die europäische Wirksamkeit der IA

Mit einem dichten, internationalen und aktionsorientierten Programm hat ai-PULSE 2025 einen klaren Meilenstein erreicht. Europa muss Inhalte enthalten und die IA analysieren: Es wird konstruiert, optimiert und eingesetzt.

Für diejenigen, die die IA im Jahr 2026 so sehr verstanden haben, dass sie autonome, multimodale, energieeffiziente Agenten sind, ist MCP klar, dass sie unkontrollierbar sind.

  • Sitemap - Hello - Blog - Apps - Photos - Kontakt - - - - - Impressum - Darkwood 2025, alle Rechte vorbehalten