La puce IA passe en ligne via le service cloud

Le processeur TSP (Tensor Streaming Processor) de Groq est désormais disponible pour accélérer les charges de travail d'IA des clients dans le cloud. Le fournisseur de services cloud Nimbix propose désormais l'accélération de l'apprentissage automatique sur le matériel Groq en tant que service à la demande pour les « clients sélectionnés » uniquement.

Bien que plusieurs startups construisent du silicium IA pour le centre de données, Groq rejoint désormais Graphcore en tant que les deux seuls à proposer des accélérateurs commercialement disponibles pour les clients à utiliser dans le cadre d'un service cloud. Graphcore a annoncé précédemment que ses accélérateurs sont disponibles dans le cadre de Microsoft Azure.

"L'architecture de traitement simplifiée de Groq est unique, offrant des performances déterministes sans précédent pour les charges de travail intensives en calcul, et constitue un ajout intéressant à notre plate-forme d'IA et d'apprentissage en profondeur basée sur le cloud", a déclaré Steve Hebert, PDG de Nimbix.

Groq n'est que le deuxième accélérateur d'IA à rendre son matériel disponible dans le cloud (Image :Groq)

La puce TSP de Groq, lancée l'automne dernier, est capable d'un énorme 1 000 TOPS (1 péta opérations par seconde). Les résultats récents publiés par la société montrent que la puce peut atteindre 21 700 inférences par seconde pour l'inférence ResNet-50 v2, ce qui, selon Groq, fait plus que doubler les performances des systèmes GPU actuels. Ces résultats suggèrent que l'architecture de Groq est l'un des processeurs de réseau neuronal les plus rapides, sinon le plus rapide, disponible dans le commerce.

« Ces résultats ResNet-50 confirment que l'architecture et l'approche uniques de Groq en matière d'accélération de l'apprentissage automatique offrent des performances d'inférence nettement plus rapides que nos concurrents », a déclaré Jonathan Ross, co-fondateur et PDG de Groq. "Ces points de preuve du monde réel, basés sur des références standard de l'industrie et non sur des simulations ou une émulation matérielle, confirment les gains de performances mesurables pour les applications d'apprentissage automatique et d'intelligence artificielle rendus possibles par les technologies de Groq."

Groq affirme que son architecture peut atteindre le parallélisme massif requis pour l'accélération de l'apprentissage en profondeur sans la surcharge de synchronisation des architectures CPU et GPU traditionnelles. Les fonctionnalités de contrôle ont été supprimées du silicium et confiées au compilateur à la place, dans le cadre de l'approche logicielle de Groq. Cela conduit à une opération déterministe complètement prévisible orchestrée par le compilateur, permettant de bien comprendre les performances au moment de la compilation.

Une autre caractéristique clé à noter est que l'avantage de performances de Groq ne repose pas sur le traitement par lots - une technique courante dans le centre de données où plusieurs échantillons de données sont traités à la fois, pour améliorer le débit. Selon Groq, son architecture peut atteindre des performances maximales même avec un lot =1, une exigence courante pour les applications d'inférence qui peuvent travailler sur un flux de données arrivant en temps réel. Alors que la puce TSP de Groq offre un avantage de latence modéré de 2,5x par rapport aux GPU pour des lots de grande taille, à batch =1, l'avantage est plus proche de 17x, a déclaré la société.

La carte Linux combine une sécurité matérielle avec une suite de sécurité complète L'outil de mesure facilite l'optimisation de la puissance des systèmes embarqués

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets