人工智能(AI)的爆发带来了海量算力需求,而在后摩尔时代,芯片先进制程逼近物理极限,存算一体有望成为未来重要技术路线之一。
存算一体,即数据存储与计算融合在同一个芯片的同一片区之中。存算一体架构芯片的性能优势和成本优势体现在哪些方面?目前大规模商用面临哪些挑战?存算一体会成为国内芯片产业换道超车的一种可能吗?
第一财经近日就上述话题与亿铸科技创始人、董事长兼CEO熊大鹏进行了交流。在他看来,存算一体技术在未来计算领域具有变革性潜力,将打破摩尔定律,开启算力第二增长曲线。“特别是在AI时代,这种技术可能会成为推动算力增长的关键因素。”
打破冯诺依曼架构,消除三大难题
在传统冯诺依曼架构下,计算和存储功能分别由计算单元(CPU、GPU等XPU)和存储单元完成。数据从存储器中获取,处理完毕后再回到存储器,从处理单元外的存储器搬运和读取数据所需的时间往往是运算时间的数倍,导致计算效率或有效算力的下降。
“在大模型盛行的今天,为了完成计算需要搬运模型参数,而参数量很大,所花费的时间占比很高,甚至超过80%,部分情况下这个比例更高。因此数据带宽限制了实际的有效性能,芯片纸面性能可能是一个P,但实际性能可能远远低于这个数。这就是所谓的‘存储墙’。”熊大鹏对第一财经表示。
伴随着“存储墙问题”问题同时出现的,是大量能耗消耗在了传输过程中,导致芯片的能效比显著降低,即“能耗墙”问题。
此外,还有“编译墙”问题——即动态数据流调度复杂,编译器无法在静态、可预测情况下自动优化算子和可执行程序来实现数据流优化,需要依赖手动调优等来达到较高的有效算力,加大了实际部署和迁移的时间和人力成本。“这三点都极大限制了资源日益紧缺、功耗大幅增长的AI产业的发展。”熊大鹏表示。
存算一体技术则打破冯诺依曼架构,将存储功能与计算功能融合在同一个芯片上,直接利用存储单元进行数据处理——通过修改“读”电路的存内计算架构,可以在“读”电路中获取运算结果,并将结果直接“写”回存储器的目的地址,不再需要在计算单元和存储单元之间进行频繁的数据转移,消除了数据搬移带来的消耗,极大降低了功耗,大幅提升计算效率。
“存算一体技术有望成为后摩尔时代的重要技术路线之一。从有效算力的第一性原理来看,对于存算一体,数据搬运量大幅下降,有效算力呈现线性增长。可以说存算一体将打破摩尔定律,开启算力第二增长曲线。同时,相信存算一体技术在未来计算领域的变革性潜力,特别是在AI时代,这种技术可能会成为推动算力增长的关键因素。”熊大鹏称。
能效比与性价比更优的解决方案
与近期爆火的高带宽存储芯片HBM相比,存算一体架构芯片的系统能效比和性价比更优。
HBM是一种高性能的内存接口技术,主要用于提升GPU和高性能计算(HPC)系统的数据处理能力。这种技术通过垂直堆叠DRAM芯片,并使用高速互联将它们与处理器紧密连接,从而大幅增加带宽。
“HBM是解决‘存储墙’问题的有效技术路线,但需要付出成本和功耗的代价,因为提供大带宽需要更高功耗,价格也非常贵,远远超过传统DRAM的价格。”熊大鹏表示,“本质上来说,HBM是一个存储芯片,并不具备计算功能,需要搭配GPGPU等计算芯片才能够实现计算功能。”
从系统成本上看,存算一体芯片可能比传统GPGPU加HBM的组合更低。
一方面缘于存算一体架构的算力密度或PPA更高。“存算一体架构的等效数据带宽折算下来远远超过HBM,可能是几倍甚至十倍以上的差距,同时其算力密度更具优势,实际有效算力、性价比、能效比都会远高于GPGPU+HBM方案。”熊大鹏表示。
另一方面,存算一体技术对先进工艺的依赖相对较低,而GPGPU和HBM都严重依赖先进制程。“HBM依赖先进制程,有很大的供应链风险,而采用存算一体技术路线,即使不采用先进制程,比如12nm、22nm,做出来的性能相比4nm甚至3nm可能并不差,这也是换道超车的概念。”
性价比方面,尽管存算一体可能需要更多的芯片数量来达到相同性能,但其高性价比和高能效比是显著优势之一。
未来2-3年或在大模型领域大规模落地
全球范围内对存算一体技术的研究和应用正在加速推进。
目前,海外采用存算一体路线的大算力芯片企业包括AI芯片初创企业Groq,估值超过28亿美元,被视为英伟达的强劲对手;d-Matrix则获得微软、淡马锡、三星、Marvell、海力士、爱立信等多家企业投资。
此外,三星也已在Nature上发表了基于MRAM的存内计算研究,并展示其AI算法的高准确率。SK海力士则推出了基于GDDR接口的DRAM存内计算产品,可大幅提升计算速度并降低功耗。
“据我所知,大多数海外企业是基于SRAM来实现存算一体,但它的容量较低、成本较高。比如Groq的完整解决方案大概需要570多颗芯片,如果采用英伟达H100所需要的芯片数量仅在个位数。这主要是存储密度不够导致的。”熊大鹏表示,国内有不少新兴企业在存算一体技术上取得了突破,为中国芯片产业换道超车提供了可能性。
不过,存算一体芯片的算力大规模扩展时,还面临诸多挑战:一是精度不可信的问题;二是基于模拟计算,数模模数转换带来了能耗、die size和性能的瓶颈;三是AI大模型对容量有要求。
“全数字化路径能够很好地解决这些问题,这也是亿铸科技做AI大算力推理芯片的依据。”熊大鹏表示。
在一般模拟的存算一体系统中,数据以模拟信号的方式存储,以存储单元内不同的电压电平来表示,基于欧姆定律和基尔霍夫定律(Kirchhoffs Laws)执行MAC等运算。这种方案的最大问题在于精度及其精度的不可信,模拟电路噪声和各种变量是其中原因。不管是制造工艺还是工作环境,都会让忆阻器代表的数值有误差或漂移。数模混合方法尝试平衡效率和精度问题,但依旧不能保证高精度及其精度可信度。
熊大鹏介绍,亿铸科技的方案是基于忆阻器(ReRAM)的全数字化存算一体。因为是全数字化,数据以二进制的方式放进存储单元内,一个忆阻器只表示一位,也就只有高低电平、高低电阻、高低电流的区别,这种情况下就能做到可靠。
此外,存算一体的发展还面临着工程落地问题。“作为新技术路线,如何利用现有生态和融入现有生态,是一个很大的挑战。可编程性和现有生态的兼容性至关重要。”熊大鹏对第一财经表示。
综合来看,存算一体技术在全球范围内被视为解决高算力需求和高能耗成本矛盾的有效手段,同时也为中国芯片产业提供了一次重要的赶超机会。未来几年,随着技术的不断成熟和市场需求的增加,存算一体芯片有望在多个领域得到广泛应用,并推动整个产业的创新发展。目前,存算一体芯片在大模型领域的应用仍处于开发阶段,熊大鹏预计,在未来2-3年内会实现大规模落地。
(文章来源:第一财经)