产业观察:Groq大火 谨防炒作

王记伟报道(文/陈炳新)受国外初创公司Groq推出人工智能芯片的影响,最近国内股市存储领域出现了一波变化,引起了人们对这一事件的广泛关注。

据悉,Groq是一家人工智能芯片公司,成立于2016年,总部位于美国加利福尼亚州圣克拉拉市山景城。今年1月,该公司推出了一款新的人工智能芯片LPU(语言处理单元)。最近,在一些公开评测和客户测试中,这款产品的延迟、吞吐量等指标都获得了好评。据说AI推理速度远超NVIDIA GPU。Groq官网提供了两个开源模型的演示:Mixtral8x7B-32k中的生成速度接近500 token/s,Llama 2 70B-4k中的生成速度接近300 token/s。

从技术角度来看,Groq没有走GPU路线,而是采用了LPU方案。在设计架构上,GPU主要用于图形渲染,拥有数百个并行处理单元。LPU的架构旨在为AI计算提供确定性性能,这是一种新的端到端处理单元系统。与GPU使用的SIMD(单指令多数据)模型不同,它采用了一种更精简的方法来消除对复杂调度硬件的需求。这种设计可以有效利用每个时钟周期,确保一致的延迟和吞吐量。因此,LPU更擅长LLM处理,可以为具有序列组件的计算密集型应用程序(如LLM)提供更快的推理速度。

简而言之,LPU的核心是克服限制LLM处理的两个瓶颈——计算密度和内存带宽。Groq的芯片采用14nm工艺,配备230MB SRAM以确保内存带宽。片上存储器带宽达到80 TB/s..算力层面,Gorq芯片的整数(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

Groq芯片的推出给业界带来了不小的影响。从计算能力的角度来看,具有更高性能和更低成本(单位令牌成本)的芯片有望在海量推理需求中提供新的选择。对于应用端而言,更低的成本和更高效的推理过程也有望加速搜索、创意设计和办公软件等AI生成应用的落地和普及。

然而,关于Groq芯片的质疑也随之而来。许多观点认为,尽管Groq芯片看起来很惊人,但计算成本TCO并不经济。同样,完成了对LLaMA 70b模型的推理,并用int8对其进行了量化。Groq三年的硬件采购成本为1144万美元,运营成本为76.2万美元或更高。H100的硬件采购成本为8张卡30万美元,运营成本为7.2万美元或略低。不过,也有大牌表示,Groq芯片确实在小批量方面表现出优势。因此,Groq芯片在小模型、本地或在线定制推理服务等场景中具有一定的应用前景,但不适用于云中的大规模集群推理,尤其是在大厂GPU或ASIC得到充分优化的场景中。

无论这次讨论的结论是什么,它都集中在技术层面。但有一个现象需要注意。也就是说,如前所述,一些人利用这一点来推测SRAM话题,从而导致了存储领域的变化。

静态随机存取存储器(SRAM)是与DRAM相同的易失性存储器。SRAM的优点是存取速度快,但成本高、容量小。这与DRAM形成鲜明对比。因为当前AI芯片的主要瓶颈之一是存储带宽的问题。前段时间大热的HBM高带宽内存实际上是DRAM的超级增强版,通过堆叠多个DRAM芯片来提供更高的存储带宽和容量。Groq芯片使用SRAM代替HBM以获得更高的AI推理速度,将其转移到SRAM中,从而炒了一波股市,但忽略了SRAM成本高、容量小的问题。技术型产品经理是干嘛的

作为一种非常成熟的技术产品,SRAM具有明显的优势和劣势。用Groq芯片很难打开所谓的“上升通道”。未来SRAM要取代HBM更是难上加难。阿卡索申请破产

经过近两年的“低谷”,全球存储市场正处于反弹状态。这个时候,存储板块酝酿一波上涨行情也不是没有可能。然而,不要盲目跟风投机,但它可能会节外生枝,对整个趋势产生不利影响。

佳能lbp2900驱动win11

未经允许不得转载:科技让生活更美好 » 产业观察:Groq大火 谨防炒作