安博体育
安博体育
- 昆明 VS 昭通今晚开战记得不要开车!6
- 老黄200亿“钞能力”回应谷歌:联手Gr
- 安博体育 - 官方体育投注平台 足球·
- 北京处置侵权链接最安博体育 - 官方体育
- 切实守护“舌尖上的安全” 农业农村部:进
联系我们
电话:363050.com
手机:363050.com
邮箱:363050.com
地址:安博体育永久网址【363050.com】
安博电竞
老黄200亿“钞能力”回应谷歌:联手Groq补上推理短板安博体育 - 官方体育投注平台 足球·篮球·电竞一站式服务
- 作者:小编
- 发布时间:2025-12-30 22:29:21
- 点击:
安博,安博体育,安博体育app,安博官方网站,安博电竞,安博真人,安博棋牌,足球投注平台,安博体育注册,体育彩金,电竞下注平台200亿美元说砸就砸,只为拉拢一家炙手可热的「铲子新工厂」——Groq。
这无疑也标志这家芯片巨头,面向AI新时代的一次重大布局。但在某种程度上,也的确反映出老黄对包括TPU在内等一众新芯片范式的担忧。
而他的这一连串技术剖析,纷纷指向了英伟达帝国防守最薄弱的那块领土——推理。
但也有网友指出,LPU所采用的SRAM,或许并不能胜任长下文decode。
Gavin认为,GPU在新时代水土不服的根本原因在于——推理过程的两个阶段,prefill和decode,对芯片能力有截然不同的要求。
这一步,简单来说就是让模型「读题」,把用户提供的关键信息在脑子里记好,用于后续调用。
读题过程中,模型会一次性吃下用户所给的上下文,所有输入token都可以同时计算。
这正是GPU最擅长的舞台,其为图形处理而生,可以一次性计算数千个像素,天生适合处理并行任务。
在这个准备阶段,模型不用急着响应用户问题。即便有延迟,模型也完全可以通过显示「思考中」来掩盖等待时间。
decode是串行任务,必须得一个一个token挨着算。更重要的是,用户还会亲眼看到token被一个个「打」出来的过程。这种情况下,延迟对用户体验来说是致命的。
然而,GPU的数据主要存放在HBM,而不是紧贴算力核心的片上存储。这意味着,每生成一个token,GPU都需要重新从内存中读取数据。
这时候,GPU的问题就暴露出来了——大部分算力都处于闲置,FLOPs根本用不满,常常在等内存把数据搬过来,实际计算量远小于prefill。
比起HBM,LPU使用直接集成在芯片硅片中的SRAM。这种片上存储的模式不需要读取数据,这让其速度比GPU快100倍。即使只处理单个用户,它也能跑出每秒300–500个token的速度,并能始终保持满负荷运转。
事实证明,在速度这一块,LPU几乎打遍天下无敌手——不仅是GPU,就连TPU,以及市面上绝大多数ASIC都难以望其项背。
相比GPU,LPU的内存容量小的多。单颗Groq的LPU芯片,片上SRAM只有230MB。
作为对比,即便是英伟达的H200 GPU,也配备了高达141GB的HBM3e显存。
以Llama-3 70B为例,用英伟达GPU的话,只需要两到四张卡,塞进一个小型服务器盒子里就能搞定。而同样的模型,需要数百颗LPU,占地面积也将远大于使用GPU的数据中心。
对于这个问题,一年前的市场还不无法给出答案。但从Groq如今的业绩情况来看已经非常明确:「速度」是个真实存在的巨大需求,并且仍在高速成长。
而对英伟达而言,这不仅是一个新的业务盘,更是一个颠覆者暗流涌动的高风险地带。倘若错失这个风口,英伟达在AI时代的机会可能会被新玩家颠覆,就像英伟达当年通过游戏业务颠覆其他竞争对手一样。
为了抵抗这些竞争者蚕食自己的护城河,英伟达选择注射名为Groq的疫苗。希望通过人才收购引入新血液,补齐这块低延迟场景的推理短板,帮助英伟达这艘巨舰摆脱创新者窘境。
通过自研芯片,谷歌成功摆脱了对英伟达天价GPU的依赖,这在很大程度上帮助谷歌削薄了训练和推理成本,这让谷歌在服务大量免费用户的情况下,依然能维持相当健康的财务账面。
谷歌通过Gemini 3 Pro的绝地翻盘,证明了GPU并非AI时代的唯一解。在技术周期高速迭代的背景下,作为AI「心脏」的芯片,也需要根据不同的发展阶段做出相应的调整。
随着基础模型的进展放缓,AI竞争的重点开始从训练层转向应用层。而在AI应用市场,「速度」对用户体验而言至关重要。
而这次人才收购Groq,虽然也是变相承认了公司在推理赛道的不足,但同样标志着英伟达帝国的又一次扩张。
称霸预训练的英伟达,这次要借Groq的东风,入局竞争对手喷涌而出的「推理大陆」。
正如Groq CEO所言,推理芯片是项高销量、低利润的苦活。这与即便炒到天价也有客户抢着要,毛利率高达70-80%的GPU截然不同。
