Atome lm : un petit modèle d'IA fonctionne sur microcontrôleurs

Atome lm, un modèle de langage ternaire de 944 000 paramètres, se compile en un moteur d'inférence de 2,6 Ko et fonctionne sur des microcontrôleurs de 2 à 30 $.

Atome lm, hébergé sur atomelm.com, est un modèle de langage ternaire de 944 000 paramètres qui se compile en un moteur d'inférence de 2,6 Ko et un blob de modèle de 271 Ko. Il fonctionne sur des microcontrôleurs coûtant entre 2 et 30 dollars — la même classe de puce déjà intégrée dans les thermostats, les appareils auditifs, les clés de voiture, les capteurs industriels, les moniteurs agricoles et les jouets pour enfants — sans allocation de tas, sans appels réseau et sans nécessité de système d'exploitation.

L'industrie mondiale de l'IA a passé les trois dernières années à augmenter l'échelle des modèles — des milliards de paramètres, des téraoctets de données d'entraînement, des centres de données consommant des réseaux électriques entiers. Atome lm va dans la direction opposée. Son architecture utilise des poids ternaires ({-1, 0, +1}) pour obtenir un avantage disque de 20× par rapport aux modèles à virgule flottante standard d'échelle équivalente, et un mécanisme de routage à trois voies — convolution locale, SSM diagonale et attention top-k sparse — géré par un routeur softmax par jeton.

De manière cruciale, Atome lm atteint une parité exacte au niveau du bit dans trois environnements : Python sur un ordinateur portable, C99 sur un serveur et un Cortex-M3 émulé sous QEMU. Le delta numérique maximum est de 3,7×10⁻⁷ — pas 'proche', mais prouvé identique au calcul en virgule flottante simple précision. Cela rend le modèle vérifiable pour les produits certifiés ou critiques pour la sécurité. Les 146 tests réussissent à partir d'une extraction de dépôt à froid.

Le modèle est le firmware. Il fonctionne sans Internet, donne la même réponse sur chaque appareil et est livré dans le cadre du firmware — pas comme un service cloud.

Partager: