Construire des LLMs à partir de zéro : vecteurs, matrices et espaces de haute dimension

Cet article, le second d'une série en trois parties, démystifie le fonctionnement des grands modèles de langage (LLM) pour les lecteurs ayant une inclination technique et des connaissances limitées en IA. S'appuyant sur la partie 19 d'une série basée sur le livre de Sebastian Raschka « Construire un grand modèle de langage (à partir de zéro) », il explique l'utilisation des vecteurs, des matrices et des espaces de haute dimension (espace de vocabulaire et espace d'intégration) dans les LLM. L'auteur soutient que la compréhension de l'inférence LLM ne nécessite que des mathématiques de niveau lycée, tandis que l'entraînement nécessite des mathématiques plus avancées. L'article détaille comment les vecteurs représentent la signification dans les espaces de haute dimension et comment la multiplication matricielle projette entre ces espaces, en la reliant aux couches linéaires des réseaux neuronaux.
Lire plus