2026년 3월 3일
엔비디아가 드디어 반응했다: AI 전쟁이 학습에서 추론으로 이동했다
🇰🇷 한국어 번역
엔비디아가 드디어 반응했다: AI 전쟁이 학습에서 추론으로 이동했다
THE DAILY H.E.A.T.
월스트리트의 구식 작전계획에 불을 지르다. 주 5일, 당신의 받은편지함으로 바로 전달됩니다.
구독하기 | 홈 | 게시물
엔비디아가 드디어 반응했다: AI 전쟁이 학습에서 추론으로 이동했다
2026년 3월 3일
저는 44년 동안 트레이더이자 투자자였습니다. 저는 오래전 월스트리트를 떠났습니다. 그들의 쓸모없는 조언이 당신이 아닌 그들 자신의 이익을 위해 설계되었다는 것을 깨달았기 때문입니다.
오늘날 제 회사는 약 40억 달러 규모의 ETF를 관리하고 있으며, 저는 누구에게도 보고하지 않습니다. 저는 진실을 말합니다. 투자자를 속이려는 것은 그들에게도, 저에게도 도움이 되지 않기 때문입니다.
Daily H.E.A.T.에서 저는 재난에 대비하고(Hedge), 우위를 찾고(Edge), 비대칭적 기회를 활용하며(Asymmetric), 월스트리트가 알아채기 전에 주요 테마(Themes)를 타는 방법을 보여드립니다.
목차
H.E.A.T.
- 엔비디아의 '추론으로의 피벗'은 가장 크지만 조용한 신호
- 추론이 경제(와 주식시장)를 변화시키는 이유
- 승자: "토큰 톨게이트"와 "추론 배관"
- 유력한 승자 (주식)
- 패자: "추론 마진 압축"과 "AI 자본지출 후유증"
- 유력한 패자 (면밀히 살펴봐야 할 주식)
결론
뉴스 vs. 노이즈: 오늘 시장을 움직이는 요인
주목하는 종목
놓치셨다면
H.E.A.T.
엔비디아의 '추론 피벗'은 AI 분야에서 가장 크지만 조용한 신호입니다
지난 3년 동안 AI 투자는 마치 '문샷'처럼 포장되어 왔습니다: 더 큰 모델을 학습시키고, 더 많은 GPU를 사고, 반복하라. 그리고 엔비디아는 골드러시의 '곡괭이와 삽' 왕이 되었습니다.
하지만 시장이 묻는 질문이 바뀌고 있습니다. 더 이상 '누가 가장 똑똑한 모델을 학습시킬 수 있나?'가 아닙니다. 이제는 '누가 전기료를 폭발시키지 않으면서 저렴하고, 즉각적이며, 엄청난 규모로 모델을 실행할 수 있나?'입니다. 그것이 바로 추론(inference)입니다. 모델이 실제로 사용자에게 응답하고, 코드를 생성하고, 보고서를 작성하고, 에이전트를 실행하는 순간입니다. 그리고 추론은 AI가 과학 프로젝트가 아닌 비즈니스가 되는 지점입니다.
이것이 엔비디아의 이번 움직임이 중요한 이유입니다: 보도에 따르면 엔비디아는 추론에 특화된 새로운 시스템을 준비 중이며, 여기에는 Groq의 추론 아키텍처까지 도입하고 OpenAI를 주요 고객으로 확보했다고 합니다. 즉, GPU 황제조차도 다음 병목 현상이 단순한 학습 FLOPS가 아니라, 추론 효율성, 지연 시간, 그리고 전력 소비라는 것을 인정하고 있다는 뜻입니다.
시장 선두주자가 스택을 재설계하기 시작했다는 것은, 보통 기존 스택이 공격받고 있음을 의미합니다. 엔비디아는 이미 다른 방식으로도 이러한 방향을 예고했습니다: 그레이스(Grace)/베라(Vera) 등 CPU를 더욱 강력하게 밀어붙이고 있으며, 특정 'AI 에이전트' 워크로드(즉, GPU가 너무 비싸서 과잉인 경우)를 위해 독립형 CPU 배포를 추진하고 있습니다. 그리고 엔비디아는 Groq의 추론 기술을 라이선싱하고 Groq의 창립자/CEO(및 다른 임원들)를 영입하는 계약을 체결한 것으로 알려졌는데, 이는 엔비디아가 추론 경쟁을 얼마나 진지하게 받아들이고 있는지를 강조합니다.
추론이 경제(와 주식시장)를 변화시키는 이유
학습은 거대하고 일시적인 자본 지출 이벤트입니다. 기계를 사고, 모델을 학습시키고, 무대에서 자랑합니다.
추론은 24/7 계속 나가는 공과금 청구서와 같습니다. 여러분의 AI가 제공하는 모든 답변의 비용입니다.
만약 AI 에이전트가 실제로 기업 전반으로 확산된다면, 추론은 '새로운 인터넷 트래픽'이 됩니다. 한 번의 큰 구축이 아니라, 영구적인 처리량 문제(지연 시간, 메모리 대역폭, 네트워킹, 스토리지, 전력)가 발생합니다. 승자는 단순히 가장 큰 칩을 가진 회사가 아니라, 와트당, 달러당 가장 유용한 토큰을 안정적으로, 대규모로 제공할 수 있는 회사입니다.
그리고 여기에 불편한 반전이 있습니다: AI 컴퓨팅의 최대 구매자(하이퍼스케일러)는 또한 월스트리트가 자산 경량화, 현금 창출 기계로 사랑했던 회사들입니다. 이제 그들은 자본 집약적인 인프라 운영자가 되고 있습니다. 이는 2023년에는 아무도 답할 수 없었던 질문에 대한 관심을 불러일으킵니다: "투자자본수익률(ROI)은 어디에서 나타나는가?"
만약 ROI가 더디다면, CFO들이 할 수 있는 유일한 합리적인 행동은 비용을 압박하는 것입니다. 그리고 추론은 AI 스택에서 가장 '압박할 수 있는' 큰 비용 항목입니다. 이것이 바로 고객들이 하나의 칩이 모든 것을 지배하는 의존성에서 벗어나 다양화하려는 이유입니다. 예를 들어, OpenAI는 AWS의 트레이니엄(Trainium) 칩으로 구동되는 용량에 대한 주요 약속을 포함하여 컴퓨팅 옵션과 용량을 확장해 왔습니다. OpenAI는 또한 Cerebras와 같은 대체 컴퓨팅 제공업체와도 용량을 확보해 왔습니다.
그렇습니다. 엔비디아의 이번 추론 피벗은 낙관적으로(새로운 총시장규모(TAM)!) 읽힐 수도 있지만, 동시에 다음과 같은 신호이기도 합니다: 컴퓨팅 고객이 가격, 성능, 전력에 대해 진지해지고 있다는 것입니다.
승자: "토큰 톨게이트"와 "추론 배관"
투자자처럼 '추론 시대'를 바라보고 싶다면, 누가 가장 멋진 데모를 가지고 있는지는 잊으십시오. 추론이 확장될 때 누가 수익을 얻는지에 집중하십시오.
유력한 승자 (주식)
핵심 추론 반도체 / 맞춤형 컴퓨팅
- 엔비디아(NVDA): 여전히 중심축입니다. 만약 'GPU 지배력'에서 '풀스택 추론 팩토리'로 성공적으로 해자를 확장한다면 말이죠. Groq와의 협력은 '경계선을 방어하라'고 외치는 것과 같습니다.
- AVGO (브로드컴): 커스텀 반도체와 네트워킹 분야의 조용한 킹메이커입니다. 하이퍼스케일러들이 계속해서 특화된 추론 하드웨어를 구축한다면, 브로드컴은 항상 그 자리에 있을 가능성이 높습니다.
- AMD: 특정 공급업체에 국한되지 않는 확장의 수혜를 보는 '신뢰할 수 있는 2인자'입니다. 추론 지출이 가격에 더 민감해지면 시장 점유율 경쟁이 더 치열해질 수 있습니다.
추론이 집어삼키는 것들: 메모리, 네트워킹, 스토리지
- MU (마이크론): 추론은 단순한 연산이 아닙니다. 모델에 지속적으로 데이터를 공급하기 위한 메모리 대역폭과 용량입니다.
- ANET (아리스타) / AVGO: 모든 토큰은 네트워크를 통해 이동하는 데이터입니다. 추론 확장은 곧 네트워킹 스토리입니다.
- WDC / STX: 더 많은 추론이 더 많은 검색, 더 많은 로그, 더 많은 모델 버전, 더 많은 데이터를 의미한다면, 스토리지 수요는 줄어들지 않습니다.
전력 및 냉각: 승자를 결정하는 비호감이지만 중요한 제약 요소
- VRT (버티브), ETN (이튼): 전력 분배 및 데이터센터 인프라.
- PWR (퀀타 서비스): 전력망 구축 및 송전 작업은 '현실 세계'의 병목 현상입니다.
- GEV (GE 베르노바): 터빈, 전력망 장비, 전기화 관련주.
만약 추론이 미래라면, 시장은 단지 칩만 필요한 것이 아닙니다. 전자가 필요합니다.
패자: "추론 마진 압축"과 "AI 자본지출 후유증"
여기서 단순히 '이름에 AI만 들어가면 무조건 공매도'가 아닌, 공매도 관심 종목 리스트를 만들 수 있습니다.
유력한 패자 (면밀히 살펴봐야 할 주식)
- ROI가 불분명한 AI 자본지출 스토리: 클라우드/자본지출 중심의 기업들은 성장이 실제로 일어나더라도 마진이 압축된다면 타격을 입을 수 있습니다. 왜냐하면 성과가 나오기 전에 비용 청구서가 먼저 도착하기 때문입니다. (이때 시장은 파워포인트 자료 대신 부채와 잉여현금흐름(FCF)을 살펴보기 시작합니다.)
- 결과를 통제하지 못하는 좌석 기반 소프트웨어 모델: 만약 AI 노동력 대체 스토리가 일부라도 사실로 입증된다면, '좌석당' 가격 모델은 역풍을 맞게 됩니다. 직원 감소 → 좌석 감소 → 매출 성장 둔화로 이어집니다. 사용량/가치 기반 가격 책정으로 전환하지 못하는 기업들은 가치가 하향 조정될 수 있습니다.
- 약한 해자를 가진 인프라 중개자: 하이퍼스케일러와 최고 연구소들이 커스텀 실리콘과 직접 공급을 통해 비용을 낮추면, 어떤 'GPU 대여' 또는 '유사 추론 호스팅' 모델도 취약해집니다.
그리고 '교활한' 패자 카테고리: 전력, 지연 시간, 고객 협상력을 무시하면서 무한한 AI 성장을 포착할 수 있을 것처럼 가격이 책정된 모든 것. 추론은 고객에게 다시 통제권을 돌려줍니다.
결론
지금 이 순간을 이해하는 가장 쉬운 방법: 학습은 두뇌를 만드는 것입니다. 추론은 비즈니스를 운영하는 것입니다.
그리고 엔비디아의 추론 특화 시스템으로의 움직임은, 시장 선두주자가 다음 전쟁은 단순한 원시 연산 능력이 아니라 속도, 비용, 전력 효율성에 관한 것이라고 말해주는 것입니다.
AI 경쟁은 끝나지 않았습니다. 성숙해지고 있습니다. 그리고 기술 테마가 성숙해지면, 가장 큰 돈은 과대광고에서 단위 경제학(unit economics)으로 이동합니다.
뉴스 vs. 노이즈: 오늘 시장을 움직이는 요인
어제는 계획대로 흘러갔습니다. 주식이 빠지고, 유가가 급등하다가, 결국 시장은 상승 마감했습니다. 오늘은 좋지 않게 시작하고 있으며, 새로운 소식이 없는 한 이런 상태가 계속될 것으로 예상합니다. 어제 말씀드린 대로, 유가를 주시하십시오. 그것이 주식 향방을 가늠하는 가장 좋은 지표입니다.
시장에는 아직 많은 일들이 일어나고 있지만, 당분간은 전쟁의 공방전에 의해 모든 것이 가려질 것입니다. 항상 그렇듯, 헤지 수단을 마련해 두십시오.
최근 시장에서 가장 흥미로운 두 분야는 포토닉스와 메모리입니다. 포토닉스 주식은 어제 엔비디아가 LITE와 COHR에 40억 달러를 투자할 것이라는 소식에 급등했습니다. 이 두 종목은 모두 제가 '주목하는 주식'으로 여기서 소개된 바 있으며, UFOD에 포함되어 있습니다. 이 분야는 이미 많이 오른 상태이며, 오늘 아침 현재 이 주식들은 매도세를 보이고 있습니다.
메모리 관련주에 관해서는, 제가 위에서 언급한 내용이 영향을 미칠 수 있습니다. Groq는 DRAM과 HBM이 아닌 SRAM(정적 랜덤 액세스 메모리)에 의존합니다. 이는 이러한 주식들에 반응을 일으킬 수 있습니다. 이들 역시 오늘 아침 심하게 매도되고 있습니다.
ETF 뉴스
주목하는 종목
OUST는 자율주행 관련주를 플레이할 수 있는 비교적 깨끗한 '물리적 AI(Physical AI)' 방법 중 하나입니다. 이 회사는 로봇, 산업 자동화, 매핑, 그리고 점점 더 국방/UAS 워크플로우를 위한 눈 역할을 하는 디지털 LiDAR 센서를 판매합니다. 낙관적 전망은 'AI 과대광고'라기보다는 강제 지출에 가깝습니다. 일단 고객들이 창고, 경계 보안, 항만, 철도 차량기지, 또는 드론을 자동화하기로 결정하면, 신뢰할 수 있는 인식 하드웨어와 그 주변의 소프트웨어 계층을 구매해야 합니다. LiDAR는 필수 항목입니다.
최근 업데이트에서 Ouster는 약 4,100만 달러의 제품 매출과 약 6,200만 달러의 총 매출(로열티 포함), 그리고 약 8,100개의 센서 출하, 약 1억 7,700만 달러의 제품 수주를 강조했으며, 다음 분기 가이던스로 약 4,500만 ~ 4,800만 달러의 매출과 약 28~30%의 총이익률을 제시했습니다 (2026년 2월 초에 마감되었다고 밝힌 StereoLabs 통합으로 인해).
UFOD 스타일의 포트폴리오에 중요한 '왜 지금인가'에 대한 촉매제는 방산 신뢰성입니다: 로이터는 Ouster의 OS1이 미 국방부의 Blue UAS 프레임워크에 추가되었다고 보도했습니다. 이는 일회성 파일럿이 아닌 프로그램 수준의 수요를 열어줄 수 있는 규정 준수/승인 이정표입니다.
주요 위험은 여전히 고전적인 소형주 하드웨어 실행 리스크입니다: 경쟁과 가격 압박은 치열할 수 있으며, 수요가 있더라도 용량, 시장 출시, 소프트웨어 투자가 매출보다 빠르게 증가하면 마진/FCF가 뒤쳐질 수 있습니다.
이 주식은 현재 장전 거래에서 16% 이상 상승했으며 50일 이동평균선 위에서 개장할 것입니다. 강세론자들은 또한 200일 이동평균선 위로 다시 돌파하는 것을 보고 싶어할 것입니다.
놓치셨다면
유럽 디지털 주권과 유럽 방위에 대해 조쉬 브라운과 대화하기…
All rights reserved.
계속 읽기 | 더 보기
🇺🇸 English Original
Nvidia Just Blinked: The AI War Moved From Training to Inference
THE DAILY
---
H.E.A.T.
Torching Wall Street's Obsolete Playbook. Delivered straight to your inbox 5 days a week.
Subscribe
Home
Posts
Nvidia Just Blinked: The AI War Moved From Training to Inference
Nvidia Just Blinked: The AI War Moved From Training to Inference
Mar 3, 2026
I've been a trader and investor for 44 years. I left Wall Street long ago——once I understood that their obsolete advice is designed to profit them, not you.
Today, my firm manages around $4 billion in ETFs, and I don't answer to anybody. I tell the truth because trying to fool investors doesn't help them, or me.
In Daily
---
H.E.A.T. , I show you how to Hedge against disaster, find your Edge, exploit Asymmetric opportunities, and ride major Themes before Wall Street catches on.
Table of Contents
---
H.E.A.T.
Nvidia's "Inference Pivot" is the loudest quiet si …
Why inference changes the economics (and the stock …
Winners: "Token tollbooths" and "inference plumbin …
Likely winners (stocks)
Losers: "Inference margin compression" and "AI cap …
Likely losers (stocks to scrutinize hard)
---
The bottom line
News vs. Noise: What's Moving Markets Today
A Stock I'm Watching
---
In Case You Missed It
Talking with Josh Brown about European Digital Sov …
---
H.E.A.T.
Nvidia's "Inference Pivot" is the loudest quiet signal in AI
For the last three years, AI investing has been sold like a moonshot:
train bigger models, buy more GPUs, repeat.
And Nvidia became the "picks and shovels" king of the gold rush.
But the market is changing the question. It's no longer "Who can train the smartest model?" It's "Who can run it cheaply, instantly, and at insane scale… without blowing up the power bill?" That's
inference
—— the moment a model actually answers a user, generates code, drafts a report, or runs an agent. And
inference is where AI becomes a business instead of a science project.
That's why this Nvidia move matters: reports indicate Nvidia is preparing a new inference-focused system that even pulls in
Groq's inference architecture
—— and OpenAI is positioned as a major customer. Translation:
even the GPU emperor is acknowledging that the next bottleneck isn't just training FLOPS. It's inference efficiency, latency, and watts.
And when the market leader starts redesigning the stack, it usually means the old stack is getting attacked.
Nvidia already signaled this direction in other ways: it has been pushing CPUs harder (Grace/Vera), including
standalone CPU deployments
for certain "AI agent" workloads —— i.e., cases where GPUs are expensive overkill. And it has reportedly inked a deal that
licenses Groq's inference technology and brings Groq's founder/CEO (and other execs) into Nvidia
, underscoring how seriously Nvidia is taking the inference arms race.
Why inference changes the economics (and the stock market)
Training is a giant, lumpy capex event. You buy the machines, train the model, brag on stage.
Inference is a 24/7 utility bill.
It's the
cost of every answer
your AI gives.
If AI agents really spread through the enterprise, inference becomes the "new internet traffic." Not one big build ——
a permanent throughput problem
: latency, memory bandwidth, networking, storage, and power. The winner isn't just the company with the biggest chip —— it's the company that can deliver the
most useful tokens per watt per dollar
, reliably, at scale.
And here's the uncomfortable twist: the biggest buyers of AI compute (hyperscalers) are also the companies Wall Street loved for being asset-light, cash-flow machines. Now they're becoming capital-intensive infrastructure operators. That puts a spotlight on a question nobody could answer in 2023:
"Where does the ROI show up?"
If ROI is slow, CFOs do the only rational thing: they squeeze costs. And inference is the biggest "squeezable" line item in the AI stack. That's why customers are diversifying away from one-chip-to-rule-them-all dependency. OpenAI, for example, has been expanding compute options and capacity —— including major commitments for AWS capacity powered by
Trainium
chips. OpenAI has also pursued capacity with alternative compute providers like Cerebras.
So yes —— this Nvidia inference pivot can be read as bullish (new TAM!), but it's also a tell:
the compute customer is getting serious about price, performance, and power.
Winners: "Token tollbooths" and "inference plumbing"
If you want to frame the "inference era" like an investor, forget who has the coolest demo. Focus on who gets paid when inference scales.
Likely winners (stocks)
Core inference silicon / custom compute
NVDA
—— Still the center of gravity,
if
it successfully extends its moat from "GPU dominance" into "full-stack inference factory." The Groq tie-in screams:
protect the perimeter.
AVGO (Broadcom)
—— The quiet kingmaker in custom silicon and networking. If hyperscalers keep building specialized inference hardware, Broadcom tends to be in the room.
AMD
—— The "credible #2" that benefits from any broadening beyond one vendor. If inference spend becomes more price-sensitive, share becomes more contestable.
The stuff inference devours: memory, networking, storage
MU (Micron)
—— Inference isn't just compute; it's
memory bandwidth and capacity
to keep models fed.
ANET (Arista)
/
AVGO
—— Every token is data moving through networks. Inference scaling is a networking story.
WDC / STX
—— If more inference means more retrieval, more logs, more model versions, more data… storage demand doesn't go down.
Power & cooling: the unsexy constraint that decides who wins
VRT (Vertiv)
,
ETN (Eaton)
—— Power distribution and data-center infrastructure.
PWR (Quanta Services)
—— Grid buildout and transmission work is the "real world" bottleneck trade.
GEV (GE Vernova)
—— Turbines, grid gear, electrification exposure.
If inference is the future, the market doesn't just need chips —— it needs electrons.
Losers: "Inference margin compression" and "AI capex hangovers"
This is where you can build a short watchlist that isn't just "short anything with AI in the deck."
Likely losers (stocks to scrutinize hard)
AI capex stories where the ROI is fuzzy
Cloud/capex-heavy narratives
can get punished if growth is real but margins compress —— because the bill arrives before the payoff. (This is where the market starts sniffing around debt and free cash flow instead of PowerPoints.)
Seat-based software models that don't control the outcome
If the AI labor narrative proves even partially true, "per-seat" pricing models face a headwind: fewer employees —— fewer seats —— slower top-line growth. Names that can't pivot to usage/value pricing could get de-rated.
Infrastructure middlemen with weak moats
Any "rent-a-GPU" or "me-too inference host" model is vulnerable if hyperscalers and top labs push costs down using custom silicon and direct supply.
And the "sneaky" loser category:
anything priced like it will capture infinite AI growth while ignoring power, latency, and customer bargaining power.
Inference puts the customer back in charge.
---
The bottom line
The easiest way to understand this moment:
Training is building the brain. Inference is running the business.
And Nvidia's move into inference-specific systems is the market leader telling you the next war is about
speed, cost, and power efficiency
—— not just raw compute.
The AI race isn't ending. It's
maturing
.
And when a tech theme matures, the biggest money moves from hype… to unit economics.
News vs. Noise: What's Moving Markets Today
Yesterday played out as planned. Stocks dip, oil rips, and then the market ended green. Today is starting off ugly, and I would expect that it stays that way unless we get something new. As I said yesterday, keep an eye on oil prices, that's the best tell for where stocks should go.
There is still a lot going on in the market, but for now it will all be obscured by the back and forth in the war. As always, make sure you have hedges in place.
Two of the most interesting areas in the market lately have been photonics and memory. Photonics stocks ripped yesterday on news that NVDA will invest $4bn into LITE and COHR. These have both been featured here as a Stock I'm Watching, and are in UFOD. This area is extended, and these stocks are selling off so far this morning.
As far as memory names go, what I talk about above could have an impact. Groq relies on Static Random Access Memory (SRAM) not DRAM and HBM. That could cause a reaction in these stocks. These are also selling off hard this morning.
ETF News
A Stock I'm Watching
OUST is one of the cleaner
"physical AI"
ways to play autonomy: it sells digital LiDAR sensors that act as the
eyes
for robots, industrial automation, mapping, and increasingly defense/UAS workflows. The bull case isn't "AI hype" so much as
forced spend
: once customers decide to automate warehouses, perimeter security, ports, rail yards, or drones, they have to buy reliable perception hardware and the software layer around it——LiDAR is a gating item. In its latest update, Ouster highlighted
product revenue around $41M
and
total revenue around $62M (including royalties)
, with
~8.1k sensors shipped
and
~$177M in product bookings
, then guided the next quarter to
~$45–48M revenue
with
~28–30% gross margin
as it integrates StereoLabs (which it says closed in early February 2026). The "why now" catalyst that matters for a UFOD-style sleeve is defense credibility: Reuters reported Ouster's
OS1 being added to the DoD's Blue UAS Framework
, which is the kind of compliance/approval milestone that can unlock program-level demand vs. one-off pilots. The key risk is still classic small-cap hardware execution: competition and pricing pressure can be brutal, and even with demand,
margin/FCF can lag
if capacity, go-to-market, and software investment ramp faster than revenue.
The stock is currently up over 16% in the premarket and would open above the 50 day. Bulls would like to see it break back above the 200 day as well.
---
In Case You Missed It
Talking with Josh Brown about European Digital Sovereignty and European Defense….
All rights reserved.
Keep Reading
View more
caret-right