CUDA被撕开第一道口子!谷歌TPUv7干翻英伟达

  【新智元导读】当谷歌不再只餍足于「TPU本人用」,TPU摇身一造成了英伟达王座下最犀利的一把刀!CUDA护城河还能守住吗?读完这篇SemiAnalysis的阐发,你恐怕会第一次从「算力账本」的视角,看懂谷歌隐藏的杀招。

  更加是TPUv7更是人们研究眷注的中央,这款特意为AI打算的芯片是否或许冲破英伟达众年来的GPU造成的垄断?

  有目共睹,SemiAnalysis是一家正在科技界,更加是半导体和人工智能范围极具影响力的精品钻探与商酌公司。

  它以硬核、深度的数据阐发著称,分别于平淡而说的科技媒体,它更像是一个供职于华尔街投资者、芯片巨头和AI从业者的「行业智库」。

  谷歌冲破永恒往后的内部自用旧例,起初向Anthropic等外部客户大周围出售TPU硬件及算力,后者已铺排超出1GW的TPU集群。

  尽量正在单芯片外面参数上TPU未必碾压英伟达,但谷歌依赖突出的体系级工程(如ICI互联和光道互换)实行了极高的实践模子算力诈骗率(MFU),且总体具有本钱(TCO)比英伟达GB200体系低约30%-40%。

  谷歌正通过助助PyTorch原生情况和vLLM等开源生态,主动修补软件短板,试图从根蒂上割裂CUDA的护城河。

  目前,全邦上最顶尖的两个模子——Anthropic的Claude 4.5 Opus,以及谷歌的Gemini 3,它们绝大个人练习和推理本原办法,都运转正在谷歌的TPU和亚马逊的Trainium上。

  英伟达还特意为此揭橥了一条官方推文,祝贺谷歌正在AI范围的转机,同时不忘夸大本人仍旧遥遥领先。

  正在推文中,英伟达夸大本人仍正在不断向谷歌供应硬件,并显示本人仍旧领先行业一代,是独一或许运转悉数AI模子、并能正在各式揣测场景中运用的平台。

  同时,夸大GPU比专用芯片(ASIC)正在本能、通用性和可取代性上更强,这句话显着是对谷歌TPU、AWS Trainium等专用芯片的回应。

  正在过去的几个月里,谷歌DeepMind的Gemini 3、谷歌云以及TPU归纳体,赚足了眼球,也将谷歌母公司Alphabet的市值推高至迫近4万亿美元。

  TPU产量大幅上调,Anthropic、Meta、SSI、xAI、OAI等TPU的客户名单正正在一直夸大,这些推进了谷歌和TPU供应链的大幅从新评级,无疑也将压制以英伟达GPU为核心的供应链。

  除了面临TPU的压力,英伟达还面对着通过「轮回经济」酿成AI泡沫的质疑,很众质疑者以为英伟达通过资助烧钱的AI首创公司,性子上是将钱从一个口袋变动到另一个口袋。

  英伟达旨正在通过股权投资而非抑价来珍爱其正在本原实行室的主导身分——抑价将拉低毛利率并激发投资者一般焦心。

  固然OpenAI目前尚未铺排TPU,但仅凭「转向TPU」这一或许,就已正在其英伟达集群本钱上减省约30%。

  纯洁来说,OpenAI并没有真的把谷歌的TPU芯片插进供职器里跑劳动,而是把「我随时或许改用TPU」行动一个浩瀚的商讨筹码,迫使英伟达为了留住这个大客户,变相予以了巨额优惠。

  正在过去的几个月里,谷歌曾经鼓动了通盘栈房的致力,通过谷歌云平台或行动商用供应商贩卖完好的TPU体系,开启了TPU大周围商用的步调。

  与此同时,谷歌的顶级客户Anthropic也正在一直推进脱节对英伟达简单依赖,两者正在采用TPU上一拍即合。

  TPUv7 Ironwood是一个卓绝体系内的巨大芯片,假使芯片正在参数上掉队于英伟达,谷歌的体系级工程也使得TPU栈房正在本能和本钱服从方面都能与英伟达相结婚。

  与英伟达通过GB200扩展其GPU生态一律,谷歌自2017年TPUv2往后,也继续正在机架内和跨机架扩展TPU。

  自2024年5月GPT-4o往后,OpenAI的顶尖钻探职员尚未落成通常用于新前沿模子的获胜全周围预练习运转,而TPU平台则通过了这一测试。

  关于谷歌来说,正在最具挑拨性的硬件题目之一中寂静挤入并成立本能领先身分,确实是一个令人印象长远的豪举。

  固然谷歌继续正在推进体系和搜集打算的界限,但从一起初,谷歌正在芯片方面的打算理念相关于英伟达就更为顽固。

  第二个因为,直到2023年,谷歌的首要AI任务负载是为其中心搜刮和广告资产供应动力的推举体系模子。

  与大模子任务负载比拟,RecSys任务负载的算术强度要低得众,这意味着相关于传输的每一位数据,必要的FLOPs更少。

  商用GPU供应商愿望为其芯片营销尽或许好的本能规格,这引发他们将营销的FLOPs降低到尽或许高的数字。

  TPUv7 Ironwood是下一次迭代,谷歌正在FLOPs、内存和带宽方面简直一律缩小了与相应英伟达旗舰GPU的差异,尽量全数上市比Blackwell晚了1年。

  固然谷歌通过Broadcom采购TPU并支出高额利润,但这显着低于英伟达不光正在他们贩卖的GPU上,况且正在通盘体系(搜罗CPU、互换机、NIC、体系内存、布线和结合器)上赚取的利润。

  英伟达的上风源于CUDA护城河和开箱即用的通常开源库,助助任务负载高效运转,实行高FLOPs和内存带宽。

  比拟较之下,TPU软件栈房开箱即用的本能较弱,然而Anthropic具有巨大的工程资源和前谷歌编译器专家,他们既理会TPU栈房,也很好地了解本人的模子架构。

  他们能够投资自界说内核以驱动高TPU服从,这使得他们能够抵达比采用其他商用GPU更高的MFU(模子FLOPs诈骗率)和更好的每PFLOP本钱本能($/PFLOP)。

  谷歌今后删改了针对外部客户的软件策略,并曾经对其TPU团队的KPI以及他们怎么为AI/ML生态体系做出功绩做出了庞大改良。

  谷歌正在软件策略方面已经管制不妥的一个地方是,他们的XLA图编译器、搜集库和TPU运转时已经没有开源,也没有很好的文档纪录。

  就像PyTorch或Linux开源急迅增补了采用率一律,为了加快用户的采用,谷歌恐怕应当将其开源,用户采用率的增补将超出他们公然和免费供应的悉数软件IP。