分享

Nature正刊:光计算双雄同时发文!!!

 taotao_2016 2025-04-27

导读

近日,美国 Lightmatter 公司与 新加坡Lightelligence 公司研究团队,分别以“Universal photonic artificial intelligence acceleration(通用光子人工智能加速)”和“An integrated large-scale photonic accelerator with ultralow latency(超低延迟的大规模光子加速器集成系统)”为题,在《Nature》杂志上重磅发表两项开创性研究成果。

这标志着全球首批具备通用AI任务执行能力的光子处理器超低延迟、大规模集成的光子加速器系统正式问世,光子计算从实验室迈向实用化,正式踏入AI时代核心舞台。

电子芯片触顶,光子计算突围

近年来,随着深度学习、强化学习与大语言模型等AI技术的飞速发展,模型参数量从百万级激增至千亿甚至万亿级别,计算需求以指数级上升。然而,传统电子芯片正遭遇“摩尔定律”与“Dennard缩放”的双重失效,性能提升停滞,功耗与传输延迟成为关键瓶颈

在此背景下,光子计算作为一种天然具备超高带宽、极低延迟与极低能耗的新型计算架构,逐渐进入人们视野。长期以来,受限于精度控制、集成复杂度与架构设计等挑战,光子计算始终徘徊在“实验室演示”阶段。

本次两项Nature级突破,首次将光子AI推向实用化门槛,打破'只能做演示’的技术天花板,标志着光子计算迈入大规模AI任务的真实落地时代。

Lightmatter:通用光子AI加速器,性能直逼电子芯片

美国Lightmatter公司联合OpenAI发布的光子处理器系统,是一款真正意义上的通用型光子AI加速平台

一、全光架构,原生支持主流AI模型

该系统可原生运行ResNet18、BERT-Tiny、SegNet等主流神经网络模型,无需量化感知训练或精调,在MNIST任务上达成99.3%的准确率,已接近传统FP32电子芯片性能。

该处理器包含六枚芯片,采用垂直堆叠架构:其中四枚为128×128的光子张量核心(PTC),两枚为数字控制接口芯片(DCI),整体系统集成多达 25亿晶体管,并以每秒 65.5万亿次 ABFP16 运算能力 刷新光子AI芯片性能记录。

二、低能耗与高精度并存

系统运行功耗仅为 78W 电力 + 1.6W 光功率,却能实现可媲美FP16的高精度矩阵计算,这一能力得益于团队自主设计的 “自适应块浮点(ABFP)”数据格式,该格式在每128维向量内共享缩放因子,结合7位权重、10位激活与11位ADC输出,实现高效率与低误差的平衡。

通过增益控制、非线性补偿与热漂移稳定等机制,团队有效克服光子计算中固有的模拟误差与精度漂移问题。

三、从分类到强化学习,覆盖AI全栈任务

该芯片已成功执行多类AI任务,包括:

  • 图像分类(ResNet18在CIFAR-10上达86.4%准确率)

  • 文本分析(BERT-Tiny在IMDb上达83.2%,SQuAD F1为12%)

  • 图像分割(SegNet在Oxford-IIIT数据集上达63.7%)

  • 强化学习(可稳定执行Atari游戏如Beamrider与Pacman)

甚至在语言生成任务中运行NanoGPT,在TinyShakespeare数据集上生成连贯逼真的自然语言内容,展示了强大模型表达能力。

图片

图1. Lightmatter光计算系统示意图


Lightelligence:大规模集成PACE系统,迈向通用光子计算平台

Lightelligence公司联合斯坦福大学,推出的 PACE(Photonic Arithmetic Computing Engine) 系统,则从另一路径实现了光子计算硬件的大规模集成与工程实用化。

一、超1.6万个光子器件,系统级创新

PACE系统将 超过16,000个光子器件 集成于一张标准PCIe卡大小的封装板上,通过2.5D封装技术,将电子控制芯片(EIC)与光子芯片(PIC)异质集成,实现高密度、高带宽、高速互联的“光-电协同”架构。

系统核心是一块64×64的光子乘加阵列(oMAC),其单次MAC周期仅需3纳秒,相比传统GPU(如A10)动辄2300纳秒的延迟,优势明显。测试表明:

  • 吞吐率达 8.19 TOPS

  • 能效达 4.21 TOPS/W(含激光器时为2.38 TOPS/W)

  • 模拟计算精度达 ENOB 7.61位,点积误差低至0.06 LSB

二、首次实装光子Ising求解器,瞄准NP难题

该团队还首次将光子系统应用于求解 NP难题——Ising模型最优化问题。通过将问题映射为光子矩阵运算,并结合可控噪声与递归演化机制,系统能在极短时间内逼近最优解。

如在Max-Cut与图像搜索等任务中,仅用5000次迭代(2.7微秒)即达可用解,而NVIDIA A10需约798微秒,速度提升近300倍

图片
图2. Lightelligence光计算系统示意图

架构融合与材料革新,光子计算迈入规模化扩展阶段

两项研究均提到未来通过波分复用(WDM)混合键合微凸点封装等先进技术,有望实现512×512以上规模的光子计算单元,性能随之呈指数级跃升。

同时,使用 铌酸锂、钛酸钡、二维光子材料 等新型材料,或将突破硅基光子在非线性损耗与尺寸集成上的极限,为新一代光子平台奠定物理基础。



这两项《Nature》研究不仅是光子芯片工程能力的集中体现,更是一次对未来计算范式的深度预演。当电子计算逼近物理极限,光子芯片正以其“接近光速”的特性,打开一扇通往全新世界的大门:

  • 它不只是更快,而是重构计算结构

  • 它不只是低功耗,而是革新能效边界

  • 它不只是AI加速,而是重塑信息处理方式

光子AI芯片,正从科幻走向现实。

论文链接:

https:///10.1038/s41586-025-08854-x

https:///10.1038/s41586-025-08786-6

欢迎学术工作来稿,无偿宣传。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多