Webtagr - Résumé de news de technologie

OpenAI lance une plateforme d'emploi IA et un programme de certification

2025-09-05

OpenAI prévoit de lancer l'année prochaine une plateforme d'emploi alimentée par l'IA pour mettre en relation les employeurs avec des candidats possédant des compétences en intelligence artificielle, afin d'accélérer le déploiement de la technologie dans les entreprises et les organismes gouvernementaux. Dans les prochains mois, un nouveau programme de certification sera également lancé pour apprendre aux travailleurs à mieux utiliser l'IA au travail. OpenAI travaille avec plusieurs organisations sur ce programme, notamment Walmart Inc., le plus grand employeur privé des États-Unis. OpenAI a déclaré qu'elle prévoyait de certifier 10 millions d'Américains d'ici 2030.

(www.bloomberg.com)

IA certification IA

Architecture d'agent IA : la confiance, pas la précision

2025-09-05

Cet article décortique l'architecture des agents IA, en arguant que l'expérience utilisateur l'emporte sur la précision brute. Prenant l'exemple d'un agent de support client, il décrit quatre couches architecturales : la mémoire (session, client, comportementale, contextuelle), la connectivité (intégrations système), les capacités (profondeur des compétences) et la confiance (scores de confiance, transparence du raisonnement, transferts en douceur). Quatre approches architecturales sont comparées : agent unique, routeur + compétences, workflows prédéfinis et collaboration multi-agents. L'auteur recommande de commencer simplement et d'ajouter de la complexité uniquement lorsque nécessaire. De manière contre-intuitive, les utilisateurs font plus confiance aux agents lorsqu'ils sont honnêtes sur leurs limites, pas lorsqu'ils ont toujours raison.

(www.productcurious.com)

IA confiance utilisateur

RDF : La couche de connaissance naturelle pour les systèmes d'IA

2025-09-05

Les grands modèles de langage (LLM) ont souvent des difficultés avec la précision des données d'entreprise, mais les graphes de connaissances peuvent tripler la précision. Cet article explore pourquoi le Resource Description Framework (RDF) n'est pas seulement une option parmi d'autres pour la représentation des connaissances, mais le point final naturel. De nombreuses entreprises, lors de la construction de couches de connaissances, choisissent initialement des solutions personnalisées, mais finissent inévitablement par reconstruire les fonctionnalités essentielles du RDF, telles que les identifiants globaux et les protocoles de fédération de données. L'article explique comment le RDF résout les problèmes centraux de la représentation des connaissances, tels que l'identification des entités, et montre comment l'utilisation du RDF améliore la précision et l'efficacité des LLM.

(bryon.io)

IA

Le Chat : mise à jour majeure avec des connecteurs et des mémoires pour une assistance IA de niveau supérieur

2025-09-04

Le Chat de Mistral AI a bénéficié d'une mise à jour majeure, introduisant plus de 20 connecteurs sécurisés et prêts pour les entreprises, couvrant les données, la productivité, le développement, l'automatisation et le commerce. Les utilisateurs peuvent désormais accéder et interagir directement avec des outils tels que Databricks, Snowflake, GitHub et Asana au sein de Le Chat. Une nouvelle fonctionnalité de « mémoires » (bêta) permet des réponses personnalisées basées sur le contexte et les préférences, tout en maintenant un contrôle précis sur les informations sensibles. Toutes les fonctionnalités sont disponibles sur le plan gratuit.

(mistral.ai)

IA

Marches aléatoires en 10 dimensions : Défier l'intuition dans les espaces de haute dimensionalité

2025-09-04

La physique en haute dimension est la norme dans la dynamique moderne, des dix dimensions de la théorie des cordes aux systèmes complexes. Cependant, les hautes dimensions présentent la « malédiction de la dimensionalité » : la visualisation est impossible, le sur-apprentissage est rampant et l'intuition fait défaut. Cet article utilise une marche aléatoire en 10 dimensions pour illustrer les caractéristiques de l'espace de haute dimension. En haute dimension, les crêtes de montagnes sont beaucoup plus fréquentes que les sommets, ce qui a des conséquences profondes sur l'évolution, la dynamique des systèmes complexes et la puissance de l'apprentissage automatique. Les marches aléatoires explorent efficacement les espaces de haute dimension, même les paysages maximalement rugueux, pouvant traverser l'espace entier. Cela aide à comprendre l'évolution de structures complexes dans la vie et comment éviter les minima locaux dans l'apprentissage profond.

(galileo-unbound.blog)

IA physique en haute dimension malédiction de la dimensionalité marche aléatoire

L'IA vole-t-elle déjà des emplois aux jeunes ? Une nouvelle étude de Stanford suggère que oui

2025-09-04

Le débat fait rage : l’IA affecte-t-elle les perspectives d’emploi des jeunes ? Des études initiales ont révélé un impact limité, mais une nouvelle recherche de l’Université Stanford, utilisant les données de paie d’ADP, révèle une baisse de 13 % de l’emploi pour les jeunes de 22 à 25 ans dans les emplois fortement exposés à l’IA, tels que le développement de logiciels et le service client. En contrôlant des facteurs tels que la COVID et le ralentissement technologique, l’étude suggère que l’effet de l’IA pourrait être plus important qu’on ne le pensait auparavant, en particulier dans les domaines fortement automatisés. Inversement, l’emploi a augmenté dans les postes d’augmentation de l’IA. Cela déclenche un débat sur les ajustements des programmes d’études et les parcours professionnels des étudiants, soulignant la nécessité d’un suivi continu de l’impact en temps réel de l’IA sur le marché du travail.

(www.derekthompson.org)

IA jeunes

Construire des évaluations efficaces d'agents IA : des tests E2E aux évaluations N-1

2025-09-04

Cet article explore la construction de systèmes d'évaluation efficaces pour les agents d'IA. L'auteur souligne que, même si les modèles s'améliorent constamment, l'évaluation reste cruciale. Il préconise de commencer par des évaluations de bout en bout (E2E), en définissant des critères de succès et en produisant des résultats simples oui/non pour identifier rapidement les problèmes, affiner les invites et comparer les performances de différents modèles. Ensuite, les évaluations "N-1", simulant les interactions précédentes de l'utilisateur, peuvent directement identifier les problèmes, mais nécessitent la maintenance d'interactions "N-1" actualisées. Des points de contrôle dans les invites sont également suggérés pour vérifier la conformité du LLM aux modèles de conversation souhaités. Enfin, l'auteur remarque que les outils externes simplifient la configuration, mais des évaluations personnalisées adaptées au cas d'utilisation spécifique restent nécessaires.

(aunhumano.com)

IA Évaluation des agents

Décryptage d'un Transformer minimaliste : révéler le fonctionnement interne des LLM avec 10 000 paramètres

2025-09-04

Cet article présente un modèle Transformer radicalement simplifié avec seulement ~10 000 paramètres, offrant un aperçu clair du fonctionnement interne des grands modèles de langage (LLM). En utilisant un ensemble de données minimal axé sur les relations entre fruits et goûts, les auteurs obtiennent des performances étonnamment élevées. Des visualisations révèlent le fonctionnement des embeddings de mots et du mécanisme d'attention. Essentiellement, le modèle généralise au-delà de la mémorisation, prédisant correctement "piment" lorsqu'il est invité avec "J'aime le piquant donc j'aime", démontrant les principes fondamentaux du fonctionnement des LLM d'une manière très accessible.

(rti.github.io)

IA

Les données, pas la puissance de calcul : le prochain goulot d’étranglement de l’IA

2025-09-03

Pendant des années, nous avons mal interprété la Leçon amère ; il ne s’agit pas de puissance de calcul, mais de données. Augmenter le nombre de GPU nécessite une augmentation de 40 % des données, sinon c’est un gaspillage de ressources. Les données Internet approchent de la saturation. L’avenir réside dans les « alchimistes » (génération de données à haut risque et à haute récompense) et les « architectes » (amélioration constante de l’architecture du modèle), et non seulement dans la puissance de calcul. L’article analyse les avantages, les inconvénients et les risques des deux approches, en concluant que la résolution de la pénurie de données en 2025 déterminera la survie des entreprises d’IA en 2026.

(obviouslywrong.substack.com)

IA développement de l’IA goulot d’étranglement des données architecture du modèle

Étude du MIT : ChatGPT provoque un déclin cognitif dans la rédaction de dissertations

2025-09-03

Une étude du MIT révèle que l'utilisation de ChatGPT pour la rédaction de dissertations entraîne des dommages cognitifs mesurables. Des électroencéphalogrammes ont montré une connectivité neuronale affaiblie, une mémoire altérée et un moindre sentiment d'auteur chez les étudiants ayant utilisé à plusieurs reprises l'IA. Même avec des dissertations bien notées, l'engagement du cerveau était considérablement réduit. L'étude a découvert que les LLM entraînent une sous-implication des réseaux cérébraux critiques, et même après l'arrêt de l'utilisation de l'IA, la fonction cognitive ne se rétablit pas complètement. Ce « délestage cognitif » conduit à une altération à long terme de l'apprentissage et de la créativité.

(publichealthpolicyjournal.com)

IA

Dynamo AI : Chef de produit pour une IA fiable – Façonner l'avenir de l'IA d'entreprise

2025-09-03

Dynamo AI, une startup en pleine croissance qui construit une plateforme d'IA fiable pour les entreprises, recherche un chef de produit ayant plus d'un an d'expérience. Ce rôle consiste à définir et à exécuter la stratégie produit pour ses solutions de red teaming, de garde-fous et d'observabilité. Vous collaborerez avec les fondateurs, les ingénieurs et les clients d'entreprise dans les secteurs réglementés (finance, assurance, etc.), en façonnant les feuilles de route des produits et en fournissant des solutions de pointe. Une passion pour la sécurité et la conformité de l'IA est essentielle, ainsi que de solides compétences en communication et en collaboration interfonctionnelle.

(www.ycombinator.com)

IA Chef de produit IA

HunyuanWorld-Voyager de Tencent : Génération de vidéo 3D cohérente à partir d'une seule image

2025-09-03

L'équipe IA de Tencent présente HunyuanWorld-Voyager, un nouveau framework de diffusion vidéo qui génère des séquences de nuages de points 3D cohérents à partir d'une seule image avec des trajectoires de caméra définies par l'utilisateur. Voyager produit des vidéos de scènes 3D cohérentes pour explorer des mondes virtuels le long de trajectoires personnalisées, et génère également des vidéos de profondeur et RGB alignées pour une reconstruction 3D efficace. Entraîné sur plus de 100 000 clips vidéo combinant des captures du monde réel et des rendus synthétiques Unreal Engine, Voyager atteint des résultats de pointe sur le benchmark WorldScore. Le code et les modèles pré-entraînés sont disponibles publiquement.

(github.com)

IA génération de vidéo 3D diffusion vidéo

VibeVoice : Modèle open source de synthèse vocale longue et multi-intervenants

2025-09-03

VibeVoice est un nouveau framework open source conçu pour générer des audios conversationnels expressifs, longs et multi-intervenants, tels que des podcasts, à partir de texte. Il s'attaque aux défis des systèmes traditionnels de synthèse vocale (TTS), notamment en termes d'évolutivité, de cohérence des voix et de prise de parole naturelle. L'innovation principale réside dans l'utilisation de tokeniseurs de parole continue (acoustiques et sémantiques) fonctionnant à une fréquence d'images ultra-basse de 7,5 Hz. Ces tokeniseurs préservent la fidélité audio tout en augmentant considérablement l'efficacité de calcul pour le traitement de longues séquences. VibeVoice utilise une architecture de diffusion de jeton suivant, exploitant un grand modèle linguistique (LLM) pour comprendre le contexte textuel et le déroulement du dialogue, et une tête de diffusion pour générer des détails acoustiques de haute fidélité. Le modèle peut synthétiser jusqu'à 90 minutes de parole avec jusqu'à 4 intervenants distincts, dépassant les limites typiques de 1 à 2 intervenants de nombreux modèles précédents.

(microsoft.github.io)

IA

Acorn : Une approche révolutionnaire de la démonstration de théorèmes par l'IA

2025-09-03

Cet article explore Acorn, un nouveau démonstrateur de théorèmes basé sur l'IA qui diffère considérablement des démonstrateurs interactifs traditionnels comme Lean. Acorn utilise un style d'interaction conversationnel où les utilisateurs affirment progressivement des énoncés que le système vérifie automatiquement. Cela reflète plus fidèlement le processus de démonstration humain, éliminant le besoin de déclarations de type fastidieuses et de recherche de théorèmes prédéfinis. Acorn utilise un modèle ML simple pour assister le processus de démonstration, indiquant où l'intervention de l'utilisateur est nécessaire, améliorant ainsi l'efficacité et la compréhension. Contrairement à Lean et à des systèmes similaires, Acorn privilégie l'intuition et l'expression en langage naturel, montrant l'immense potentiel de la collaboration humain-IA dans la démonstration mathématique.

(lmao.bearblog.dev)

IA Démonstration Mathématique Démonstrateur de Théorèmes

Modèles du monde : l’illusion et la réalité de l’AGI

2025-09-03

La dernière quête de la recherche en IA, notamment dans les laboratoires qui cherchent à créer une « intelligence artificielle générale » (AGI), est quelque chose appelé un modèle du monde : une représentation de l’environnement qu’une IA transporte en elle comme un globe de neige informatique. Des sommités de l’apprentissage profond comme Yann LeCun (de Meta), Demis Hassabis (de Google DeepMind) et Yoshua Bengio (de Mila, l’Institut québécois d’intelligence artificielle) estiment tous que les modèles du monde sont essentiels pour construire des systèmes d’IA véritablement intelligents, scientifiques et sûrs. Cependant, les détails des modèles du monde font l’objet de débats : sont-ils innés ou acquis ? Comment détecter leur présence ? L’article retrace l’histoire de ce concept et révèle que l’IA générative actuelle ne repose peut-être pas sur des modèles du monde complets, mais plutôt sur de nombreuses heuristiques déconnectées. Bien qu’efficaces pour des tâches spécifiques, celles-ci manquent de robustesse. La construction de modèles du monde complets reste donc essentielle, promettant des solutions aux hallucinations de l’IA, un raisonnement amélioré et une plus grande interprétabilité, ce qui contribuera en fin de compte à faire progresser l’AGI.

(www.quantamagazine.org)

IA Modèles du monde

iNaturalist open-source une partie de ses modèles de vision par ordinateur

2025-09-02

iNaturalist a open-sourcé un sous-ensemble de ses modèles d'apprentissage automatique, incluant des modèles « petits » entraînés sur environ 500 taxons, ainsi que des fichiers de taxonomie et un modèle géographique, adaptés aux tests sur appareil et autres applications. Les modèles complets de classification des espèces restent privés en raison de la propriété intellectuelle et des politiques organisationnelles. Le billet détaille les instructions d'installation et d'exécution pour MacOS, couvrant l'installation des dépendances, la configuration de l'environnement, des suggestions d'optimisation des performances (y compris la compilation de TensorFlow et l'utilisation de pillow-simd), et fournit des benchmarks de performances.

(github.com)

IA modèles open-source

LLM : Encyclopédies avec perte d'information

2025-09-02

Les grands modèles de langage (LLM) sont comme des encyclopédies avec perte d'information ; ils contiennent une vaste quantité d'informations, mais cette information est compressée, ce qui entraîne une perte de données. La clé est de discerner les questions auxquelles les LLM peuvent répondre efficacement par rapport à celles où la perte d'information affecte significativement la précision. Par exemple, demander à un LLM de créer un squelette de projet Zephyr avec des configurations spécifiques est une question « sans perte » qui nécessite des détails précis, ce qui pose problème aux LLM. La solution consiste à fournir un exemple correct, permettant au LLM de fonctionner sur la base de faits existants plutôt que de dépendre de détails potentiellement manquants dans sa base de connaissances.

(simonwillison.net)

IA Perte d'information Base de connaissances

CauseNet : Un graphe de causalité massif extrait du Web

2025-09-02

Des chercheurs ont construit CauseNet, une base de connaissances à grande échelle comprenant plus de 11 millions de relations de causalité. Extrait de sources web semi-structurées et non structurées avec une précision estimée à 83 %, CauseNet est un graphe de causalité utilisable pour des tâches telles que la réponse à des questions causales et le raisonnement. Le projet fournit également du code pour le chargement dans Neo4j et des ensembles de données d'entraînement/d'évaluation pour la détection de concepts causaux.

(causenet.org)

IA

Au-delà du texte vers SQL : construire un analyste de données IA

2025-09-01

Cet article explore les défis et les solutions pour construire un analyste de données IA. L’auteur soutient que la simple conversion de texte en SQL est insuffisante pour les questions d’utilisateurs réels, nécessitant des plans en plusieurs étapes, des outils externes (comme Python) et un contexte externe. Son équipe a construit une plateforme de BI générative utilisant une couche sémantique alimentée par Malloy, un langage de modélisation qui définit explicitement la logique métier. Ceci, combiné à un système multi-agents, à la génération augmentée par la récupération (RAG) et à une sélection stratégique de modèles, permet une analyse de données de haute qualité et à faible latence. La plateforme génère du SQL, écrit du Python pour des calculs complexes et intègre des sources de données externes. L’article met l’accent sur l’ingénierie du contexte, l’optimisation du système de récupération et la sélection des modèles, tout en partageant des solutions pour les modes de défaillance courants.

(www.pedronasc.com)

IA Analyste de données IA Couche sémantique

Les LLM démocratisent la création de compilateurs : des recettes aux workflows

2025-09-01

Cet article présente un nouveau point de vue sur les tâches quotidiennes comme des processus de compilation. Prenant la cuisine comme exemple, l'auteur compare les recettes à des programmes et le processus de cuisson à l'exécution de la compilation. L'avènement des grands modèles de langage (LLM) rend la création de compilateurs spécifiques à un domaine incroyablement facile, même pour ceux sans expérience en programmation. Avec les LLM, nous pouvons transformer les tâches quotidiennes - routines d'entraînement, processus d'entreprise, même la création musicale - en environnements programmables, augmentant l'efficacité et approfondissant notre compréhension des systèmes quotidiens. Ce n'est pas seulement une innovation technologique, mais aussi un changement de pensée, étendant le concept de compilateurs du code à tous les aspects de la vie.

(gist.github.com)

IA Compilateurs Paradigme de Programmation

OpenAI sévit contre les contenus préjudiciables de ChatGPT, soulevant des inquiétudes quant à la vie privée

2025-09-01

OpenAI a reconnu que son chatbot d'IA ChatGPT a entraîné des crises de santé mentale chez les utilisateurs, notamment des automutilations, des délires et même des suicides. En réponse, OpenAI analyse désormais les messages des utilisateurs, soumettant les contenus préoccupants à des examinateurs humains et, dans certains cas, les signalant aux autorités. Cette mesure est controversée, car elle cherche à concilier les préoccupations concernant la sécurité des utilisateurs avec l'engagement initial d'OpenAI envers la confidentialité des données, particulièrement au vu du procès en cours avec le New York Times et d'autres éditeurs. OpenAI se retrouve dans une situation difficile : gérer les impacts négatifs de son IA tout en protégeant la vie privée des utilisateurs.

(futurism.com)

IA

Bayes, bits et cerveaux : une aventure en probabilités et théorie de l'information

2025-09-01

Ce site explore les probabilités et la théorie de l'information, et explique comment elles éclairent l'apprentissage automatique et le monde qui nous entoure. Des énigmes fascinantes, comme prédire la lettre suivante dans des extraits de Wikipédia et comparer vos performances à celles des réseaux neuronaux, conduisent à des explorations du contenu de l'information, de la divergence de KL, de l'entropie, de l'entropie croisée, et plus encore. Le cours couvrira l'estimation du maximum de vraisemblance, le principe d'entropie maximale, les logits, softmax, les fonctions gaussiennes et la configuration des fonctions de perte, révélant finalement les liens entre les algorithmes de compression et les grands modèles de langage. Prêt à plonger dans le terrier du lapin ?

(bayesbitsbrains.github.io)

IA

Sécheresse de contenu IA : la crise imminente pour l’IA générative

2025-08-31

L’essor de l’IA générative crée une sécheresse de contenu qui finira par étouffer les entreprises d’IA elles-mêmes. L’article soutient que les géants de l’IA comme ChatGPT et Google détournent le contenu des sites Web, entraînant une baisse drastique du trafic pour les médias traditionnels et les sites Web d’entreprises. Ce modèle de « pillage de contenu », bien que bénéfique à court terme, représente une menace à long terme. Si les entreprises cessent de produire du contenu de haute qualité faute d’incitations, les modèles d’IA subiront une sécheresse de données, laissant les entreprises d’IA vulnérables. Bien que la réglementation et les poursuites judiciaires puissent offrir des solutions, les entreprises d’IA semblent inconscientes de ce risque ou le négligent, aggravant le problème et pouvant conduire à l’éclatement d’une bulle économique.

(bradt.ca)

IA Crise de contenu Bulbe économique

IA : L’étape logique suivante dans l’évolution de l’informatique

2025-08-31

Des cartes perforées aux interfaces graphiques, et maintenant l’IA, l’histoire de l’informatique a été une marche constante vers une interaction homme-machine plus intuitive. L’IA ne représente pas un changement radical de cette trajectoire ; c’est la prochaine étape naturelle pour rendre les ordinateurs plus accessibles et utiles à l’humanité. Elle permet aux ordinateurs de comprendre et d’agir en fonction des objectifs humains, plutôt que sur des instructions explicites, déplaçant la charge cognitive des humains vers les machines. Cela permet aux utilisateurs de se concentrer sur ce qu’ils veulent accomplir, et non sur la façon d’instruire une machine pour le faire. L’avenir verra probablement l’interaction homme-machine comme une collaboration, estompant la ligne entre instruction et définition d’objectifs, étendant plutôt que remplaçant l’intelligence humaine.

(www.vincirufus.com)

IA

Pourquoi je déteste « IA »

2025-08-31

L'auteur critique vivement les outils de génération de texte et d'image populaires actuels, affirmant qu'il ne s'agit pas d'une véritable IA, mais de grands modèles de langage (LLM). Il fustige la comparaison du PDG d'OpenAI, Sam Altman, des humains à des « perroquets stochastiques », la considérant comme dévalorisante pour la richesse de l'expérience humaine. L'auteur souligne également le battage médiatique excessif autour des LLM, leur production fade et dénuée d'originalité, et exprime son inquiétude concernant les entreprises qui utilisent les données des utilisateurs sans consentement pour entraîner leurs modèles. Enfin, il exprime ses préoccupations quant à l'avenir d'Internet et à la mauvaise utilisation des créations personnelles, appelant à une attention accrue sur les questions éthiques et esthétiques entourant les LLM.

(ian.mccowan.space)

IA

Claude récupère des données en douce : les utilisateurs intégrés par défaut au pipeline de formation

2025-08-31

Le chatbot IA d'Anthropic, Claude, a modifié silencieusement ses conditions d'utilisation. Désormais, les conversations des utilisateurs sont utilisées par défaut pour l'entraînement du modèle, à moins que les utilisateurs n'optent activement pour la désactivation. Ce changement a suscité l'indignation des utilisateurs et des défenseurs de la vie privée. L'article soutient que cela souligne l'importance de la gestion active de la confidentialité des données lors de l'utilisation d'outils d'IA, en encourageant les utilisateurs à vérifier les paramètres, à lire les mises à jour et à faire des choix conscients concernant le partage des données. L'auteur souligne qu'il est risqué de se fier aux paramètres par défaut, car ils peuvent changer sans préavis. Le changement affecte de manière disproportionnée les utilisateurs consommateurs, tandis que les clients entreprises ne sont pas affectés, ce qui révèle les priorités de l'écosystème de l'IA basé sur les données.

(natesnewsletter.substack.com)

IA Confidentialité de l'IA

L'IA simplifie le codage, mais la gestion de produit devient le goulot d'étranglement

2025-08-30

Le professeur de Stanford, Andrew Ng, affirme que l'IA a simplifié le codage, mais la gestion de produit est maintenant le principal obstacle. Des tâches qui prenaient autrefois trois mois à six ingénieurs peuvent désormais être accomplies en un week-end. Le défi consiste à décider ce qu'il faut construire. La rapidité de l'IA dans la création de prototypes exige des décisions de produit plus rapides, ce qui amène les équipes à compter de plus en plus sur l'intuition et une profonde empathie client plutôt que sur l'analyse de données uniquement. Cela suscite un débat sur le rôle des chefs de produit, certains affirmant leur importance à l'ère de l'IA, tandis que d'autres suggèrent qu'ils sont inutiles aux premiers stades d'une entreprise.

(www.businessinsider.com)

IA

Vers une machine virtuelle de modèle d'IA : un avenir sécurisé et interopérable pour les applications d'IA

2025-08-30

Les capacités croissantes des LLM et des mécanismes d'extension tels que le MCP ont considérablement accru la complexité de la création d'applications d'IA sécurisées et fiables. Cet article propose une machine virtuelle de modèle d'IA (MVM), analogue à la machine virtuelle Java (JVM), pour fournir aux modèles d'IA sécurité, isolement, extensibilité et portabilité. La MVM découple le développement du modèle de la logique d'intégration, permettant l'interchangeabilité plug-and-play des modèles et intégrant des contrôles de sécurité et d'accès intégrés pour protéger la sécurité et la confidentialité des applications d'IA. D'autres avantages incluent le suivi transparent des performances et des ressources, et le potentiel de sorties de modèles vérifiables. Cette innovation promet de relever les défis importants du développement d'applications d'IA, ouvrant la voie à un écosystème d'IA plus sûr, plus fiable et plus efficace.

(blog.sigplan.org)

IA VM IA Sécurité du modèle

De l'attention multi-tête à l'attention latente : l'évolution des mécanismes d'attention

2025-08-30

Cet article explore l'évolution des mécanismes d'attention en traitement automatique du langage naturel, depuis le mécanisme d'attention multi-tête (MHA) initial jusqu'à des variantes plus avancées comme l'attention multi-tête latente (MHLA). Le MHA pondère les mots importants dans le contexte en calculant des vecteurs de requête, de clé et de valeur ; cependant, sa complexité computationnelle et mémoire croît quadratiquement avec la longueur de la séquence. Pour y remédier, de nouvelles approches comme la MHLA ont émergé, améliorant la vitesse de calcul et l'évolutivité sans sacrifier les performances, par exemple en utilisant le cache KV pour réduire les calculs redondants. L'article explique clairement les concepts clés, les avantages et les limites de ces mécanismes et leurs applications dans des modèles tels que BERT, RoBERTa et Deepseek.

(vinithavn.medium.com)

IA

SGLang : une implémentation open source atteignant les performances du système d’inférence du modèle linguistique large DeepSeek

2025-08-29

DeepSeek, un modèle linguistique large (LLM) open source populaire, affiche des performances impressionnantes. Cependant, sa taille massive et son architecture unique (utilisant l’attention latente multi-têtes et le mélange d’experts) nécessitent un système sophistiqué pour un service efficace à grande échelle. Ce blog explique comment nous avons atteint une quasi-parité avec les performances du système d’inférence de DeepSeek en utilisant SGLang. Notre implémentation, fonctionnant sur 12 nœuds (chacun équipé de 8 GPU H100) dans le cloud Atlas, tire parti de la désagrégation préremplissage-décodage et du parallélisme d’experts à grande échelle (EP), atteignant 52 300 jetons d’entrée par seconde et 22 300 jetons de sortie par seconde par nœud pour des séquences d’entrée de 2000 jetons. À notre connaissance, il s’agit de la première implémentation open source à presque égaler le débit rapporté de DeepSeek à grande échelle, pour environ un cinquième du coût de l’API DeepSeek Chat officielle.

(lmsys.org)

IA Modèle linguistique large Infrence de modèle

Category: IA