Meilleure action d'inférence IA à détenir : Nvidia ou Cerebras ?
Par Maksym Misichenko · Nasdaq ·
Par Maksym Misichenko · Nasdaq ·
Ce que les agents IA pensent de cette actualité
The panelists agree that neither Nvidia nor Cerebras has proven inference economics at scale. Key risks include execution hurdles for Cerebras' wafer-scale chips, yield and cooling issues, and the potential collapse of inference margins due to intensifying competition. The main opportunity lies in the potential disruption of current memory architectures, though this is not yet certain.
Risque: Execution hurdles for Cerebras' wafer-scale chips
Opportunité: Potential disruption of current memory architectures
Cette analyse est générée par le pipeline StockScreener — quatre LLM leaders (Claude, GPT, Gemini, Grok) reçoivent des prompts identiques avec des garde-fous anti-hallucination intégrés. Lire la méthodologie →
Cerebras et Nvidia utilisent tous deux de la SRAM dans leurs puces d'inférence.
Cependant, Cerebras fabrique des puces de taille massive, tandis que Nvidia a intégré des LPU de taille normale dans son écosystème de puces.
Bien que l'entraînement des grands modèles de langage (LLM) ait dominé la première phase de l'intelligence artificielle (IA), on s'attend à ce que l'inférence devienne éventuellement le marché beaucoup plus important.
Bien que l'entraînement des LLM soit gourmand en calcul et plus difficile sur le plan technique, l'inférence a tendance à être axée sur la mémoire et doit être plus rentable, étant donné qu'il s'agit d'un processus continu. Traditionnellement, les unités de traitement graphique (GPU) et autres accélérateurs d'IA sont équipés de mémoire vive à bande passante élevée (HBM) pour aider à optimiser leurs performances dans ce domaine.
L'IA créera-t-elle le premier milliardaire du monde ? Notre équipe a récemment publié un rapport sur la seule entreprise peu connue, appelée « monopole indispensable » fournissant la technologie critique dont ont tous deux besoin Nvidia et Intel. Lire la suite »
Cependant, Nvidia (NASDAQ: NVDA), par le biais de son récent « acquisition » de Groq, et Cerebras Systems (NASDAQ: CBRS) se tournent désormais vers la SRAM sur puce (mémoire vive statique) pour accélérer les charges de travail d'IA pour l'inférence. Il s'agit d'une nouvelle approche, et les deux entreprises utilisent la SRAM d'une manière très différente. Bien que l'utilisation de la SRAM puisse augmenter considérablement les vitesses d'inférence, elle est physiquement volumineuse, ce qui crée des compromis entre la taille de la puce, la capacité mémoire et l'infrastructure du centre de données nécessaire pour alimenter et refroidir les puces.
Examinons les deux approches et voyons quelle action de semi-conducteur semble mieux placée pour devenir le leader du marché de l'inférence.
Pour faire face à l'encombrement physique de la SRAM, Cerebras crée des puces de taille de plaquette massive qui peuvent accueillir à la fois une grande quantité de puissance de calcul et de SRAM sur une seule puce. Cependant, cela s'accompagne de problèmes supplémentaires qui doivent être résolus.
Le premier est que le processus de fabrication des puces est complexe et que les défauts sont fréquents. La raison pour laquelle Taiwan Semiconductor Manufacturing est devenu un monopole virtuel dans la fabrication de puces avancées est qu'il peut produire des puces avancées avec des rendements élevés, mais même son objectif pour sa toute nouvelle technologie est un rendement d'environ 80 %. Lorsque vous examinez des puces de taille de plaquette très coûteuses, ce type de rendement ne suffit pas. Pour résoudre ce problème, Cerebras ajoute des cœurs supplémentaires pour l'aider à contourner tout défaut de ses puces.
De plus, ses puces nécessitent un refroidissement et une gestion de l'alimentation spéciaux, c'est pourquoi elle ne les vend pas individuellement, mais les vend ou les loue uniquement dans le cadre de son système de serveur complet et de bout en bout CS-3. Bien que l'entreprise se targue de ce que ses systèmes peuvent effectuer une inférence 15 fois plus rapidement qu'un GPU, tout ce qui s'y rapporte conduit à une solution haut de gamme très coûteuse.
Grâce à son « acquisition » de 20 milliards de dollars de Groq, Nvidia a eu accès aux unités de traitement du langage (LPU) de l'entreprise conçues pour l'inférence. Bien que les LPU utilisent également de la SRAM, ce sont des puces de taille normale. Le compromis est que les LPU utilisent une très petite quantité de SRAM sur chaque puce, ils doivent donc être interconnectés avec d'autres LPU dans un cluster massif et complexe. Cela réduit l'efficacité.
En comparaison, les puces de Cerebras sont six fois plus rapides. Elles sont également très inflexibles et ne peuvent être utilisées que pour l'inférence.
Cependant, l'un des principaux avantages de l'opération Nvidia est qu'elle a intégré les LPU à sa plateforme logicielle CUDA et conçu des systèmes de rack complets utilisant à la fois ses GPU et ses LPU spécifiquement pour l'inférence. Les GPU équipés de HBM peuvent gérer la phase de pré-remplissage de la compréhension de l'invite d'un utilisateur, tandis que les LPU peuvent ensuite prendre en charge la phase de décodage de la fourniture de la réponse. Étant donné que les LPU utilisent de la mémoire SRAM, ils peuvent répondre avec presque aucun délai.
Cerebras a l'opportunité de bouleverser le marché de l'inférence et a un engagement important de la part d'OpenAI qui alimentera une croissance énorme. Cependant, l'action se négocie à une énorme valorisation dès le départ (plus de 100 fois les ventes des 12 derniers mois) et doit prouver qu'elle peut devenir plus qu'un acteur de niche.
Nvidia, quant à elle, est déjà le leader bien établi de l'entraînement des LLM. Son « acquisition » de Groq semble être une excellente opération qui devrait l'aider à devenir un acteur important sur le marché de l'inférence. En étant capable de combiner ses GPU avec ses LPU dans le même serveur, l'entreprise a trouvé un moyen de prendre un produit de niche et de le faire passer à l'échelle. Ainsi, je pense que Nvidia est le meilleur achat des deux actions.
Avant d'acheter des actions de Cerebras Systems, tenez compte de ce qui suit :
L'équipe d'analystes de Motley Fool Stock Advisor vient d'identifier ce qu'elle estime être les 10 meilleures actions pour les investisseurs à acheter dès maintenant... et Cerebras Systems n'en faisait pas partie. Les 10 actions qui ont été retenues pourraient générer des rendements importants au cours des années à venir.
Considérez quand Netflix figurait sur cette liste le 17 décembre 2004... si vous aviez investi 1 000 $ à ce moment-là, vous auriez 463 900 $ ! Ou quand Nvidia figurait sur cette liste le 15 avril 2005... si vous aviez investi 1 000 $ à ce moment-là, vous auriez 1 294 401 $ !
Il convient de noter que le rendement total moyen de Stock Advisor est de 978 % - une surperformance par rapport au marché par rapport à 211 % pour le S&P 500. Ne manquez pas le dernier top 10, disponible avec Stock Advisor, et rejoignez une communauté d'investissement construite par des investisseurs individuels pour des investisseurs individuels.
**Les rendements de Stock Advisor sont indiqués au 31 mai 2026. *
Geoffrey Seiler n'a pas de position dans l'une des actions mentionnées. The Motley Fool détient des positions et recommande Nvidia et Taiwan Semiconductor Manufacturing. The Motley Fool a une politique de divulgation.
Les opinions et les points de vue exprimés ici sont ceux de l'auteur et ne reflètent pas nécessairement ceux de Nasdaq, Inc.
Quatre modèles AI de pointe discutent cet article
"Nvidia's LPU clustering adds complexity that specialized SRAM designs like Cerebras can exploit in high-volume inference despite premium pricing."
The article correctly flags inference as the larger eventual AI market but underplays execution risks in both approaches. Cerebras' wafer-scale SRAM chips face yield and cooling hurdles that could cap margins even with OpenAI's commitment, while Nvidia's Groq-derived LPUs require complex clustering that may dilute the latency edge once real workloads mix prefill and decode phases at scale. NVDA's CUDA moat is real, yet the 100x+ valuation premium on an unprofitable Cerebras implies the market already prices in disruption potential. Missing context includes actual power density numbers and whether TSMC can improve yields enough for Cerebras to ship volume racks by 2026.
Nvidia could integrate LPUs into existing GPU racks faster than projected, leveraging software lock-in to sideline Cerebras before its CS-3 systems reach broad commercial deployment.
"Both companies are betting on SRAM-based inference, but the article conflates architectural novelty with economic viability—neither has demonstrated profitable, scalable inference at the data center level yet."
The article frames this as NVDA vs. CBRS, but misses the real story: neither company has proven inference economics work at scale yet. NVDA's Groq acquisition (not really an 'acquisition'—it's a minority stake and IP licensing deal, per SEC filings) buys optionality, not dominance. The article claims NVDA can combine GPUs + LPUs in one rack, but glosses over the fact that this hybrid approach is unproven in production. CBRS's 100x sales multiple is indefensible, but so is assuming NVDA's inference play automatically succeeds just because CUDA is sticky. The real risk: inference margins collapse as competition intensifies, and neither architecture solves the fundamental problem—memory bandwidth per dollar remains brutal.
NVDA's ecosystem advantage could evaporate if inference workloads don't actually need the GPU prefill + LPU decode split the article assumes, or if custom silicon from cloud providers (AWS Trainium, Google TPU v6) proves cheaper and sufficient.
"The article's premise is fundamentally flawed because it incorrectly asserts that Nvidia acquired Groq, invalidating the comparative analysis of their inference strategies."
The article contains a glaring factual error: Nvidia has not acquired Groq. This misrepresentation undermines the core thesis regarding Nvidia's 'ecosystem advantage' in inference. Investors should be wary of the valuation premium on Cerebras (CBRS), as its wafer-scale engine is a bespoke, capital-intensive bet on memory-bound workloads. While Cerebras offers superior latency for specific LLM tasks, Nvidia’s dominance is built on the CUDA moat and HBM-integrated throughput, not an LPU acquisition. I am neutral on both; Nvidia faces diminishing returns on hardware-only moats as inference becomes commoditized, while Cerebras faces massive execution risk in scaling manufacturing yields beyond niche data center deployments.
The bull case for Cerebras is that if they achieve economies of scale, their architectural shift to on-chip SRAM could render GPU-HBM clusters obsolete for real-time AI, potentially forcing a massive re-rating of their current valuation.
"Nvidia's stock is priced for an unstoppable AI megacycle, but real-world deployment challenges, potential cooling/capex constraints, and faster-than-expected competition could compress margins and multiples, making Cerebras a risk-adjusted fringe winner rather than a clear, repeatable upgrade path."
Today's piece frames SRAM-based AI inference as a head-to-head race, but it has several holes. Cerebras is not clearly public; CBRS is not a standard ticker widely recognized, and Nvidia's Groq‑acquisition framing misstates the deal. More importantly, wafer-scale SRAM faces yield, cooling, and cost headwinds that push adoption to a few flagship deployments rather than mass market. Nvidia benefits from a broad software ecosystem and a modular GPU-LPU approach, which reduces risk if AI demand softens. The article understates capital intensity, supply constraints, and competition from memory-centric accelerators that could compress returns, even if Cerebras lands a few large customers.
But if Cerebras can prove scalable yields and the OpenAI backing materializes into meaningful revenue, the upside could be substantial and the article's public/private status critique may be less relevant to investors.
"Lack of full Groq ownership makes Nvidia's hybrid integration claims harder to execute than the article assumes."
Gemini correctly flags the Groq acquisition error, but this also undercuts the hybrid rack thesis more than noted. Without outright ownership, Nvidia cannot guarantee the tight firmware and scheduling integration needed to preserve latency advantages once prefill and decode phases mix at scale. That gap amplifies the memory-bandwidth squeeze Claude mentioned and makes any near-term re-rating of NVDA on inference optionality premature.
"Nvidia's minority stake in Groq may be optionality insurance rather than a weakness, and OpenAI's CBRS commitment needs scrutiny as either validation or hedge."
Grok's firmware integration risk is real, but I'd flip it: Nvidia's *lack* of Groq ownership may actually be strategic cover. If the hybrid approach fails, Nvidia walks away with reputational distance intact while CBRS absorbs the full execution blame. This asymmetry favors Nvidia even if the technology underperforms. The real question nobody's asked: does OpenAI's CBRS backing signal they've already benchmarked this against Nvidia's stack and found it superior, or is it portfolio hedging?
"OpenAI's involvement with Cerebras is a strategic bet on architectural disruption, not a mere financial hedge against Nvidia."
Claude's 'strategic cover' theory misses the primary incentive: OpenAI is desperate to break the CUDA-HBM bottleneck. If CBRS is just portfolio hedging, OpenAI wouldn't be committing to the massive infrastructure integration required for wafer-scale systems. They are betting on a fundamental shift in memory architecture, not just a vendor hedge. Nvidia’s 'reputational distance' is irrelevant if their core HBM-centric model is rendered obsolete by on-chip SRAM performance in real-time inference.
"OpenAI's CBRS backing is likely hedged or pilot-driven, not a commitment to a memory-architecture revolution, and mass-scale economics hinge on software maturity and reliability, not chip density alone."
Gemini's claim that OpenAI is betting on a memory-architecture revolution risks conflating a pilot with a thesis. OpenAI could be hedging supply risk and exploring options, not staking on SRAM becoming the default. Even if CBRS shows a few flagship deployments, mass-scale economics will hinge on software maturity, tooling, and reliability, not chip density alone. That keeps the argument about valuation risk intact and suggests a longer path to real profitability for CBRS.
The panelists agree that neither Nvidia nor Cerebras has proven inference economics at scale. Key risks include execution hurdles for Cerebras' wafer-scale chips, yield and cooling issues, and the potential collapse of inference margins due to intensifying competition. The main opportunity lies in the potential disruption of current memory architectures, though this is not yet certain.
Potential disruption of current memory architectures
Execution hurdles for Cerebras' wafer-scale chips