万益资讯网

老美这次怕是要彻夜难眠了。就在他们以为靠几张纸、几台光刻机就能锁死东方大国的时候

老美这次怕是要彻夜难眠了。就在他们以为靠几张纸、几台光刻机就能锁死东方大国的时候,北大孙仲团队直接甩出一张王炸:算力是英伟达的千倍,能耗却只有百分之一。

当美国那边还在加紧限制先进光刻机和高端GPU出口,以为这样就能卡住中国在芯片领域的脖子时,北京大学的一支研究团队突然拿出实打实的成果,让整个半导体圈子都震动了。

这项工作不是在数字芯片的常规赛道上硬拼,而是走了一条模拟计算的老路子,却硬是把它升级成了能打硬仗的新家伙。2025年10月13日,相关论文登上了《自然·电子学》期刊,里面详细描述了他们基于阻变存储器的模拟矩阵计算芯片,怎么把传统模拟计算的精度短板给补上了。

这事儿听起来有点像老技术翻新,但实际操作里,团队面对的难题不少。模拟计算靠电压电流这些物理量直接干活,本来就天生适合并行处理矩阵运算,这种运算在AI训练、6G信号处理这些地方特别常见。

可过去几十年,大家都转向数字计算,因为模拟的精度容易飘,规模一大误差就堆积起来,没法用在要求严的场合。北大这个团队没跟着主流走,他们把阻变存储器当成核心器件,这种东西电阻能通过电压调节,既存数据又能算,直接在内存里完成运算,避开了数字芯片里数据在内存和处理器之间来回搬的“内存墙”问题。

成果出来后,性能数据摆在那:在求解32×32矩阵求逆时,算力已经超过高端GPU的单核水平;把规模拉到128×128,吞吐量达到顶级数字处理器的1000倍以上,能效也提升了100倍以上。意思就是,GPU可能得跑一天的活,这芯片一分钟就差不多搞定,而且耗电少得多。

论文里还提到了他们怎么通过位切片和块矩阵方法,把大问题拆开,用多个低精度单元拼出高精度结果,最终把相对误差压到10^{-7}量级,达到了24位定点精度,接近数字芯片的浮点水平。

美国从2023年开始限制荷兰ASML的EUV光刻机对华出口,2024年又进一步管制英伟达H100、A100这类高端算力芯片,目的很清楚,就是想把中国的高性能计算能力摁住。可现实是,这些限制主要针对最前沿的制程,而北大团队这项工作用的是40纳米左右的成熟工艺节点,阻变存储器阵列在商用代工厂就能做出来,不用依赖那些被卡的先进设备。这等于绕开了部分封锁,直接在能效和特定任务吞吐量上拉开差距。

后续,团队在2026年又在《自然·通讯》上发了关于非负矩阵分解模拟计算求解器的论文,在图像压缩、推荐系统这些实际场景里验证了效果。比如在MovieLens数据集和更大规模的网飞数据上,速度比主流数字硬件快,特别在能效上提升明显,最高能到228倍左右。

这类工作继续推进,显示出模拟路线在矩阵密集型任务里的潜力,尤其适合6G大规模MIMO信号检测、自动驾驶里的矩阵运算,以及AI大模型训练中一些计算密集的部分。

中国是全球最大的模拟芯片消费市场,每年进口规模过去几年都在3000多亿元级别,高端市场长期被德州仪器、ADI这些国外企业占大头,国产自给率一度只有10%左右。

孙仲团队的突破给国产模拟芯片的高端化提供了一条新路径,基于成熟工艺的量产潜力,有助于逐步把自给率提上来,减少对外依赖,也让供应链多一些选择。国际上,美国继续推进出口管制,把一些企业列入实体清单,而中国这边也启动了对特定产品的反倾销调查,产业自主的步子在加快。

整个过程里,重点不是跟数字芯片死磕谁更先进,而是看在实际应用场景里,什么架构能把算力和能耗的问题解决得更好。数字计算精度高、可编程性强,但在大规模矩阵运算时,功耗和延迟容易成为瓶颈。

模拟计算直接用物理规律干活,并行度高,天然适合这些任务。团队的工作就是把精度这个老难题通过器件优化、电路设计和算法结合,一步步攻下来,从早期模拟计算1%的误差级别,提升到现在的千万分之一量级。