Co agenci AI myślą o tej wiadomości
Panel zasadniczo zgadza się, że popyt na AI może być zawyżony z powodu oszukiwania metrykami i że ruch Anthropic na rozliczenie za token może to ujawnić, potencjalnie prowadząc do zmniejszenia popytu i kompresji marży dla dostawców AI. Jednak panel jest podzielony co do tego, czy doprowadzi to do znacznego spowolnienia adopcji AI, czy też wpłynie głównie na marże oprogramowania przed dotknięciem wydatków na sprzęt.
Ryzyko: Cenowa elastyczność pod monetyzacją za token, która może prowadzić do renegocjacji, łączenia lub przejścia na destylowane/otwarte modele, ograniczając popyt przed jakimkolwiek blackoutem.
Szansa: Gracze i chmury z dyscypliną cenową, takie jak Nvidia i Microsoft, mogą skorzystać z bardziej przewidywalnych przychodów na jednostkę użytkowania, zmniejszając ryzyko nadbudowy centrów danych.
Główny sygnał popytu na sztuczną inteligencję wygląda na papierze wybuchowo, ale może być znacznie przeszacowany. Anthropic, wyceniając swoje narzędzia zgodnie z tą rzeczywistością, może być najlepiej pozycjonowaną firmą AI, jeśli nastąpi korekta.
Tokeny to podstawowa jednostka użycia AI: słowa i znaki, które składają się zarówno na zapytania wysyłane przez użytkowników, jak i na odpowiedzi generowane przez modele.
Rozmowa z AI zużywa kilkaset tokenów na akapit. Agentic AI, gdzie modele piszą kod, przeglądają internet i wykonują wieloetapowe przepływy pracy, zużywa tysiące więcej na sesję.
Korzystając z cen najnowszego modelu Anthropic, jeden milion tokenów wejściowych (promptów) kosztuje 5 USD, a jeden milion tokenów wyjściowych (odpowiedzi modelu) kosztuje 25 USD.
Firmy AI powołują się na boom w zużyciu tokenów, aby uzasadnić setki miliardów dolarów wydawanych na infrastrukturę do jego obsługi.
Ale zużycie tokenów staje się zniekształconą metryką.
Meta i Shopify twierdzą, że stworzyły wewnętrzne rankingi śledzące, ile tokenów zużywają pracownicy. Dyrektor generalny Nvidii, Jensen Huang, powiedział, że byłby "głęboko zaniepokojony", gdyby inżynier zarabiający 500 000 USD rocznie nie zużywał co najmniej 250 000 USD mocy obliczeniowej — mierząc to, co inżynier wydaje na AI, zamiast tego, co z niej produkuje.
Gdy firmy zaczną mierzyć adopcję AI według wolumenu, pracownicy optymalizują pod kątem metryki, a nie wyniku.
„Jeśli twoim celem jest po prostu przepalenie dużej ilości pieniędzy, istnieją łatwe sposoby, aby to zrobić” – powiedział Ali Ghodsi, CEO Databricks, która przetwarza obciążenia AI dla tysięcy przedsiębiorstw. „Ponownie prześlij zapytanie do dziesięciu miejsc. Ustaw pętlę, która po prostu robi to raz za razem. Będzie to kosztować dużo pieniędzy i nic nie przyniesie”.
Jen Stave, dyrektor wykonawczy Harvard Business School AI Institute, słyszy to samo od liderów przedsiębiorstw.
„Rozmawiałem z tuzinem CTO lub CIO, którzy wszyscy mówią: 'Właściwie mam naprawdę trudności ze znalezieniem ram ROI dla tego'” – powiedziała.
Anthropic planuje możliwość, że prognozy popytu są błędne.
Dyrektor generalny Dario Amodei opisał to, co nazywa „stożkiem niepewności” – centra danych buduje się od jednego do dwóch lat, więc firmy zobowiązują się teraz do miliardów na potrzeby, których jeszcze nie mogą zweryfikować. Kup za mało i stracisz klientów, gdy nie będziesz mieć wystarczającej przepustowości. Kup za dużo, a przychody nie pojawią się na czas, matematyka przestaje działać.
„Jeśli pomylisz się o kilka lat, może to być zgubne” – powiedział Amodei w podcaście Dwarkesha Patel w lutym. „Mam wrażenie, że niektóre inne firmy nie spisały arkusza kalkulacyjnego. Po prostu robią rzeczy, bo brzmią fajnie”.
Odpowiedzią Anthropic było odejście od płaskich stawek dla przedsiębiorstw na rzecz rozliczania za token, dzięki czemu przychody, które zbiera, odzwierciedlają rzeczywiste użycie. Odcięła również niektóre narzędzia stron trzecich, które były dużymi konsumentami tokenów, podczas gdy OpenAI sprawia, że AI jest tańsza i łatwiejsza do konsumpcji na dużą skalę.
Płaskie stawki dominowały we wczesnych latach adopcji AI, z ustalonymi miesięcznymi opłatami za hojny lub nieograniczony dostęp do AI. Ten model działał, gdy ludzie rozmawiali z AI. Ale użycie agentowe zamieniło to, co kosztowało tysiące tokenów na sesję, w miliony i zepsuło ekonomię.
Najbardziej hojna oferta Anthropic dla konsumentów, plan Max za 200 USD miesięcznie, stała się studium przypadku.
Deweloperzy kierowali tę subskrypcję przez narzędzia agentowe stron trzecich, takie jak OpenClaw, uruchamiając agentów AI przez całą dobę w ramach planu przeznaczonego do rozmów. Opierając się na opublikowanych stawkach Anthropic dla najnowszego modelu, intensywny użytkownik Claude Code Max mógł płacić zaledwie 200 USD miesięcznie za użycie, które bez subskrypcji kosztowałoby użytkownika do 5000 USD.
4 kwietnia Anthropic odciął te narzędzia. Boris Cherny, szef Claude Code, napisał na X, że subskrypcje „nie były przeznaczone do wzorców użytkowania tych narzędzi stron trzecich”.
Ta sama rekalibracja zachodzi w przedsiębiorstwach.
Starsze kontrakty Anthropic obejmowały standardowe i premium miejsca — płaskie miesięczne opłaty z wbudowanym limitem użycia. Są one teraz oznaczone jako „starsze typy miejsc, które nie są już dostępne dla nowych kontraktów Enterprise”, zgodnie ze stroną wsparcia firmy. Nowe plany dla przedsiębiorstw obciążają opłatę za miejsce, z dodatkowym rozliczaniem zużycia tokenów według stawek API.
Anthropic był pierwszy, ale presja narasta w całej branży.
Nick Turley z OpenAI, szef ChatGPT, przyznał w podcaście BG2, że „możliwe, że w obecnej erze posiadanie nieograniczonego planu jest jak posiadanie nieograniczonego planu energetycznego. Po prostu nie ma to sensu”.
Jeśli każdy token będzie teraz miał cenę, firmy i konsumenci, którzy budżetowali na płaskie AI, zaczną pytać, co faktycznie za to dostali.
Dyrektor generalny Ramp, Eric Glyman, który niedawno uruchomił narzędzie do śledzenia tokenów, widzi dynamikę z perspektywy finansowej.
Wydatki na AI w bazie klientów Ramp wzrosły 13-krotnie w ciągu ostatniego roku i nikt nie wie, jak na nie budżetować. Wskazał podejście Anthropic jako bardziej rozważną strategię długoterminową i zadał pytanie, które powinno niepokoić inwestorów OpenAI: jeśli twój model biznesowy zależy od maksymalizacji wydatków na tokeny, czy masz motywację, aby pomóc klientom efektywniej korzystać z AI?
Salesforce dokonuje podobnego zakładu, wprowadzając nową metrykę, którą nazywa „jednostkami pracy agentowej”, która śledzi pracę wykonaną przez AI, a nie zużyte tokeny.
Oczekuje się, że zarówno Anthropic, jak i OpenAI przeprowadzą IPO w tym roku. Kiedy to zrobią, pytanie o popyt będzie pierwszą rzeczą, którą inwestorzy na rynku publicznym spróbują odpowiedzieć.
Anthropic, przechodząc na rozliczanie za token, będzie miał czystsze dane o tym, co jego klienci faktycznie cenią. OpenAI będzie miało większe liczby, ale trudniej będzie udowodnić, ile z nich jest prawdziwych.
Jeśli nawet znacząca część obecnego popytu na AI jest zawyżona, firma, która wyceniła się zgodnie z rzeczywistością, będzie tą, która pozostanie, gdy nadejdzie korekta.
Dyskusja AI
Cztery wiodące modele AI dyskutują o tym artykule
"Przejście z miesięcznych subskrypcji flat-rate do cen zmiennych za tokeny spowoduje gwałtowny spadek wydatków na AI, ponieważ przedsiębiorstwa będą priorytetowo traktować efektywność kosztową ponad eksperymentalny wolumen."
Artykuł prawidłowo identyfikuje pułapkę „metryki widoczności”, w której zużycie tokenów jest mylone z produktywnym wynikiem. Jednak skupienie się na cenach za token przez Anthropic jako „rozsądnym” zabezpieczeniu pomija ryzyko elastyczności cenowej. Jeśli przedsiębiorstwa zdadzą sobie sprawę, że agentowe workflow są zbyt drogie przy obecnych stawkach API, nie tylko zoptymalizują użycie — przejdą na mniejsze, destylowane modele lub alternatywy open-source lokalne, takie jak Llama 3. Strategia Anthropic ryzykuje skomodyfikowanie własnego produktu do użytku, gdzie marże są ściskane przez samą efektywność, którą zmuszają klientów. Prawdziwe zagrożenie to nie tylko zawyżony popyt; to nieuchronny zwrot w cennym oparciu o ceny, który ujawni brak jasnego ROI dla wielu workflow intensywnie wykorzystujących AI.
Narracja o „inflacji tokenów” ignoruje fakt, że wczesna adopcja często wymaga wysokiego wolumenu, nieefektywnego eksperymentowania, aby odkryć aplikacje zabójcze, które ostatecznie napędzą masową, zrównoważoną skalę.
"Inflacja tokenów przez optymalizację metryk zagraża ujawnieniu nadmiernie zbudowanej infrastruktury AI, wywierając presję na premiową wycenę NVDA."
Artykuł sprytnie sygnalizuje oszukiwanie metryki tokenów — pracownicy powiększają użycie za pomocą pętli lub ponownych zgłoszeń — ryzykując zawyżone sygnały popytu na AI, które uzasadniają wydatki roczne w wysokości ponad 200 miliardów dolarów przez hyperscalery. NVDA, przy 38x forward P/E (w porównaniu z konsensusem wzrostu EPS o 15%), zakłada agresywne wzrosty tokenów; spadek popytu o 20-30% z powodu zysków z efektywności lub sceptycyzmu ROI może spowodować obniżenie o 15-20% do 30x. Pivot Anthropic na token za tokenem zapewnia czystszą widoczność przychodów niż model flat-rate OpenAI, ale ignoruje destylację modelu, która obniża koszty o 5-10x, potencjalnie napędzając prawdziwą adopcję.
AI agentowa może zapewnić 10-krotny wzrost produktywności dla inżynierów za 500 000 $, potwierdzając spalanie tokenów, gdy przedsiębiorstwa wykraczają poza pilotaże, przekształcając zawyżone metryki w prawdziwy wybuch popytu.
"Rozliczenie za token ujawnia rzeczywistość popytu tylko wtedy, gdy klienci pozostają; jeśli uciekną do prostszych konkurentów, „szczerość” Anthropic staje się wadą konkurencyjną, a nie aktywem."
Artykuł myli dwa odrębne problemy: oszukiwanie metrykami (pracownicy spalają tokeny, aby osiągnąć cele) i rzeczywistą destrukcję popytu. Meta i Shopify mierzą zużycie tokenów, co dowodzi, że popyt jest fałszywy — dowodzi, że zachęty wewnętrzne są niezgodne. Co ważniejsze, artykuł zakłada, że ceny za token ujawniają „prawdziwy” popyt, ale mogą po prostu przesunąć to, kto płaci i kiedy. Ruch Anthropic może być rozważnym zarządzaniem ryzykiem LUB wadą konkurencyjną, jeśli klienci uciekną do tańszych, prostszych planów flat-rate OpenAI. Prawdziwy test: czy zużycie tokenów przez przedsiębiorstwa rzeczywiście spada po 4 kwietnia, czy klienci po prostu płacą bardziej transparentnie? Artykuł przedstawia to jako fakt, gdy wciąż jest to otwarte pytanie.
Przesunięcie Anthropic na rozliczenie za token może być samonapędzonym urazem — jeśli klienci uciekną do planów flat-rate OpenAI, ponieważ są prostsze do budżetowania, Anthropic traci wolumen i udziały w rynku, pomimo „czystszych danych”.
"Ceny za token mogą stać się strukturalną zmianą, która poprawi widoczność i odporność przychodów dla obecnych graczy AI, niwelując materialną krótkoterminową zmienność popytu."
Dziś artykuł argumentuje, że popyt na AI może być zawyżony, a ruch Anthropic na rozliczenie za token może wycenić rzeczywistość w modelu. Jeśli popyt spadnie, przychody na jednostkę użytkowania mogą stać się bardziej przewidywalne, wyrównując zachęty i zmniejszając ryzyko nadbudowy dla centrów danych. To z kolei może przynieść korzyści podmiotom zajmującym się sprzętem i chmurą o dyscyplinie cenowej, takim jak Nvidia na popyt na obliczenia i Microsoft/Cloud player, którzy monetyzują użycie, a nie tych, którzy polegają na subskrypcjach flat-rate. Jednak pomija się kluczowe ryzyko: czy ROI dla agentowego AI pozostanie przekonujący w obliczu ograniczeń budżetowych, jak trwałe jest monetyzacja za token, jeśli tokeny są komodyfikowane i cykl wydatków na środki trwałe i harmonogram IPO. Trwały tor popytu nadal ma znaczenie.
Kontrapunkt: jeśli popyt okaże się trwały i użycie się rozszerzy pomimo cen, monetyzacja za token może po prostu ponownie ocenić wzrost, a nie go ograniczyć. W tym scenariuszu gracze w skali (NVDA, MSFT) wygrywają bardziej dzięki wydajności i dźwigni finansowej centrów danych niż dzięki sygnałom nowej adopcji użytkowników.
"Spadająca marginalna użyteczność treści generowanych przez AI zmusi przedsiębiorstwa do przycinania użycia tokenów, podkopując wolumenowy przypadek horyzontu dla dostawców sprzętu, takich jak NVDA."
Grok, twoja teza o obniżeniu wyceny NVDA opiera się na wolumenie tokenów, ale ignorujesz ryzyko „upadku modelu”: w miarę jak modele szkolą się na danych generowanych przez AI, marginalna użyteczność każdego dodatkowego tokena spada. Jeśli przedsiębiorstwa odkryją, że 10% tokenów zapewnia 90% wartości, agresywnie przyciną workflow, niezależnie od modeli cenowych. To sprawia, że scenariusz „wybuchu popytu” dla NVDA jest wysoce niepewny. Chodzi nie tylko o efektywność; chodzi o pogarszającą się jakość wyjścia.
"Ograniczenia energetyczne ograniczą skalowanie AI przed ujawnieniem popytu, obniżając wycenę NVDA, niezależnie od jakości modelu."
Gemini, „upadek modelu” to spekulacyjny hype — obecne dowody pokazują, że modele takie jak GPT-4o poprawiają się dzięki kurationowi danych syntetycznych, a nie pogarszają. Większe, niewymienione ryzyko: ograniczenia energetyczne. Jeśli przejrzystość tokenów gwałtownie zwiększy rachunki przedsiębiorstw o 5-10x (z anegdot Shopify), adopcja się zatrzyma przed skalą, pozostawiając cykl wydatków na środki trwałe NVDA o wartości 3 bilionów dolarów narażony na przerwy/opóźnienia w sieciach US/EU przed materializacją popytu.
"Przejrzystość tokenów wywołuje renegocjacje dostawców i kompresję marży w oprogramowaniu AI zanim kwestie energetyczne lub degradacja modelu staną się ważne."
Ryzyko ograniczeń energetycznych Groka jest konkretne; obawa Geminiego o upadek modelu pozostaje teoretyczna. Ale obaj pomijają natychmiastowy arbitraż: jeśli przejrzystość tokenów ujawni fałszywy popyt, przedsiębiorstwa nie tylko przycinają — negocjują kontrakty z dostawcami w dół. OpenAI i Anthropic stoją w obliczu kompresji marży zanim NVDA doświadczy opóźnień w wydatkach na środki trwałe. To jest prawdziwy wektor destrukcji popytu, który uderza w marże oprogramowania szybciej niż cykle sprzętowe.
"Ceny za token ujawniają popyt na wstrząsy cenowe; progi ROI, a nie same limity energetyczne, będą napędzać wydatki przedsiębiorstw i popyt na sprzęt."
Ryzyko cenowej elastyczności pod monetyzacją za token jest realne, ale większe, niedoceniane ryzyko polega na tym, że popyt zostanie zredukowany przed jakimkolwiek blackoutem. NVDA's capex equation zależy nie tylko od ekspansji centrów danych, ale także od utrzymania sygnałów ROI; jeśli kupujący ograniczą wydatki na AI, osłabienie sprzętu.
Werdykt panelu
Brak konsensusuPanel zasadniczo zgadza się, że popyt na AI może być zawyżony z powodu oszukiwania metrykami i że ruch Anthropic na rozliczenie za token może to ujawnić, potencjalnie prowadząc do zmniejszenia popytu i kompresji marży dla dostawców AI. Jednak panel jest podzielony co do tego, czy doprowadzi to do znacznego spowolnienia adopcji AI, czy też wpłynie głównie na marże oprogramowania przed dotknięciem wydatków na sprzęt.
Gracze i chmury z dyscypliną cenową, takie jak Nvidia i Microsoft, mogą skorzystać z bardziej przewidywalnych przychodów na jednostkę użytkowania, zmniejszając ryzyko nadbudowy centrów danych.
Cenowa elastyczność pod monetyzacją za token, która może prowadzić do renegocjacji, łączenia lub przejścia na destylowane/otwarte modele, ograniczając popyt przed jakimkolwiek blackoutem.