All-optical synthesis chip for large-scale intelligent semantic vision

(science.org)

39 points | by QueensGambit 3 hours ago

3 comments

ilaksh 38 minutes ago
https://pastebin.com/UnBNnEgr
Nevermark 2 hours ago
I think we have barely scratched the surface of post-trained inference/generative model inference efficiency.
A uniquely efficient hardware stack, for either training or inference, would be a great moat in an industry that seems to offer few moats.
I keep waiting to here of more adoption of Cerebras Systems' wafer-scale chips. They may be held back by not offering the full hardware stack, i.e. their own data centers optimized around wafer-scale compute units. (They do partner with AWS, as a third party provider, in competition with AWS own silicon.)
ilaksh 44 minutes ago
Can't find an arxiv or anything to download without paying.
I found this in some Chinese app/website (not sure if it's the same thing):
打开CSDN APP Copyright © 1999-2020, CSDN.NET, All Rights Reserved
打开APP
LightGen: All-optical synthesis chip for large-scale intelligent semantic vision generation 原创
2025-12-30 20:54:42 阅读量 539
收藏 20
10赞
Xy-unu
码龄6年
关注论文基本信息 (Basic Information) 标题 (Title) All-optical synthesis chip for large-scale intelligent semantic vision generation Adress https://www.science.org/doi/abs/10.1126/science.adv7434 Journal/Time Science 2025 Author 上海交通大学（电子信息与电气工程学院）和清华大学（自动化系/电子工程系） 1. 核心思想 (Core Idea) 全光计算芯片在生成式人工智能领域应用的探索。
解决的是生成式 AI 算力与能耗的矛盾，设计并制造了一款名为 LightGen 的全光计算芯片，用于大规模的智能语义视觉生成。
2. 研究背景与动机 (Background and Motivation) 传统的全光计算芯片主要局限于小规模、分类任务，光电级联或复用又会严重削弱光计算速度。
光计算的优势：速度快、功耗低。劣势：
规模太小：生成任务需要百万级神经元，以前的光芯片（如 MZI、微环）通常只有几十到几百个。维度固定：模拟光信号在传播中很难改变维度（Dimension Variation），而生成模型通常需要“压缩特征再解压”的过程（即 VAE 架构）训练依赖真值：以前的光芯片训练依赖输出和标准答案的一一对应，但生成式 AI 是要创造“不存在的数据”，没有标准答案。 3. 方法论 (Methodology) 输入（Input）：高分辨率的图像或语义信息（例如 512×512512 \times 512512×512 像素的图像），不需要像以前的光芯片那样切分成小块。输出（Output）：经过语义生成或操控后的图像甚至视频。具体任务包括语义生成（凭空画图）、风格迁移（如把照片变成梵高画风）、去噪（修复模糊图像）以及 3D 视觉生成（如 NeRF）。实现形式：物理上的光子芯片，集成了数百万个光神经元，通过光纤阵列连接。
3.1 核心创新继承规模增大（3D Packaging）：采用了 3D 封装技术，在仅 136.5 mm2136.5\ mm^2136.5 mm 2 的空间内集成了超过 200 万个光神经元。这比之前的光芯片规模提高了数个数量级，使其能够处理 512×512512 \times 512512×512 的高分辨率图像。全光维度变换（Optical Latent Space, OLS）：利用单模光纤的物理特性，全光地实现了维度压缩和转换。非监督训练算法（BOGT）：提出了基于贝叶斯的光生成模型训练算法（BOGT）。训练它学习数据的概率分布 Q(Z∣X)Q(Z|X)Q(Z∣X)，使其接近先验分布 P(Z)P(Z)P(Z) 。在这里插入图片描述图 1B，以前的 MZI 或微环芯片（Microring）结构简单，神经元少。图 1D，LightGen 是密集的衍射层堆叠，中间通过 OLS（光纤束）连接。图 1E (OLS 原理)，物理层面的维度压缩。
在这里插入图片描述把光信号的数据提取出来做可视化（t-SNE）。
3.1 核心流程：空间光调制器 (Spatial Light Modulator, SLM)，数字信号到模拟信号。数字端接收数字图片，物理端把一束平行的、均匀的激光打在 SLM 上。SLM 上每一个像素点的液晶单元会根据图像的像素数值，改变光线的振幅（亮度）或相位（延迟）。从而得到一束携带了图像信息的光场光编码器 (Encoder)：光线穿过集成的衍射超表面，提取高维图像特征。类似cv 的编码器，都是提取特征。光学潜空间 (OLS)：光信号通过单模光纤阵列，利用物理特性完成维度的“压缩”和“采样”，这是生成的关键。图 1E 和图 2。一般在电子计算机里，我们需要把高维图像变成一个低维的向量（Latent Vector），然后再把这个向量还原成图像。但在光路里，光原本是四散传播的，维度无限大。我们需要通过物理机制降维。光生成器 (Generator)：从潜空间中读取特征，再次通过衍射层，还原出高分辨率的语义图像。类似解码器，接收来自 OLS 的低维特征信号（也就是那些经过筛选的光斑），再次通过多层衍射超表面，将这些特征“还原”并“放大”成高分辨率的语义图像。它可以生成之前不存在的图像，或者根据在 OLS 中修改的数值，生成改变了风格或视角的图像。 3D 封装 (3D Packaging) 把这一整套系统（编码器、光纤阵列、生成器）堆叠封装，有超过 200 万个光神经元。 3.2. OLS 光学潜空间使用了一个*单模光纤阵列（Single-mode Fiber Array）*来连接编码器和生成器。过滤机制：自由空间的光场（Free-space light field）包含无数种模式（Modes）。但是，单模光纤只允许基模（Fundamental Mode, LP01LP_{01}LP 01
）通过，其他模式被过滤。从而达到了“高维”到“低维”的采样和转换。
光通过光纤阵列后，会在另一端输出。光斑即“特征”。用显微镜看光纤的输出端（如图 1H 和图 2B 所示）会看到一组高斯光斑阵列 (Gaussian speckle array) 。每一个光斑的振幅和相位，就代表了图像的一个*“潜在特征” (Latent Feature)* 。
耦合效率公式 (Coupling Efficiency): 光能否进入光纤，取决于输入光场 EinE_{in}E in
```
  和光纤基模 EfiberE_{fiber}E 
```
fiber
```
  的重叠程度。
```
重叠积分公式： η=∣∬Ein(x,y)Efiber∗(x,y)dxdy∣2\eta = |\iint E_{in}(x,y)E_{fiber}^(x,y)dxdy|^2 η=∣∬E in
(x,y)E fiber ∗
(x,y)dxdy∣ 2
这个公式证明了，只有符合特定空间分布的光（即特征明显的基模）才能通过，杂乱的高阶光被物理积分掉了。这就是物理层面的*“非线性激活”和“降维”*。最终选了 10×1010 \times 1010×10 (100维) 的光纤阵列。图S11展示了关于维度选择的消融实验。
引入波动 (Fluctuation) 光耦合进光纤时的复杂场分布极其敏感，为生成模型提供了必要的波动。为了生成一张新的图片，系统内部必须有一定的“随机性”或“概率分布”。在电子计算机里（如 VAE），是用数学公式（高斯采样）来模拟这种随机性。在 LightGen 里，光纤耦合的过程本身就提供了这种波动。流形学习 (Manifold Learning) 图 2D, 2E）证明在这个光潜空间里，具有相似语义的图片（比如白背景的狗、户外的狗）会自动聚在一起。说明光信号理解了语义而非像素堆砌。 3.3. 训练算法 (BOGT) 对生成式AI, 没有标准答案，物理也是不可导的。提出了一种基于贝叶斯的训练算法 Bayes-based algorithm for Optical Generative model Training (BOGT) 。学习概率分布，而非对应关系。计算特征分布 Q(Z∣X)Q(Z|X)Q(Z∣X)，并用 KL 散度 (Kullback-Leibler divergence) 来约束。强制要求光经过 OLS 出来的特征分布，必须接近我们要的一个标准分布
损失函数 LLL 由三部分组成： L=αlKLD+βlmse+γlopL = \alpha l_{KLD} + \beta l_{mse} + \gamma l_{op} L=αl KLD
+βl mse
+γl op
lKLDl_{KLD}l KLD
(KL散度): 这是核心。强迫 OLS 里的光强分布接近一个 “截断偏置高斯分布” (Truncated Biased Gaussian)。普通 AI 用的是标准正态分布，但在光学里，光强（Intensity）永远是正的，不可能是负数，所以我们修改了数学模型来适应物理现实。
lmsel_{mse}l mse
(均方误差): 保证生成的图和目标图在像素上是接近的。
lopl_{op}l op
(光学惩罚项): 这是一个工程技巧。它防止光在传播过程中变得太强（烧坏器件）或者太弱（被噪声淹没），保证每一层的光能量都在探测器的最佳工作范围内。
3.4. 训练策略建模：在电脑上建立了一个 LightGen 的精确物理模型（模拟光如何衍射、如何耦合进光纤）。
训练：用 BOGT 算法在这个数字模型上跑，不断调整虚拟衍射层的相位参数。
制造：一旦电脑上的模型学会了生成高质量图像，我们就把这组最优的参数“冻结”，通过光刻技术一次性刻蚀到真实的芯片上。
通过“数字训练，物理推理”的方式，规避光芯片难以实时更新参数的弱点。
4. 实验结果 (Experimental Results) 生成任务展示：图 3A (生成)，图 3C (去噪)，图 3E (风格迁移)。
图 3A 和 3B。高分辨率直出，LightGen 最直观的能力就是生成了 512×512512 \times 512512×512 像素的动物图像。以前的光计算受限于输入输出端口，通常只能处理很小的图，或者要把大图切成 7×77 \times 77×7 甚至更小的碎片（Patches）去分别处理，那样生成的图像会有明显的拼接缝隙。LightGen 用了 3D 封装，能直接生成整张大图，没有拼接缝。从放大细节中清晰地看到猫狗的毛发纹理、眼睛里的反光。这说明光信号在衍射过程中不仅保留了轮廓，还还原了高频细节。额外利用电子神经网络（CNN）去识别这些生成图，分类准确率和真实的动物数据集（AFHQ）几乎一样高，说明生成的特征计算机可信。
图 3C, 3D 给图像加上了严重的噪声，LightGen 利用单模光纤过滤杂波的特性，物理上去噪，还原出了清晰的连笔字。图像中的噪点（Noise）通常表现为高频杂波，对应到光场中往往包含大量的高阶模。因为这个特性，通过 OLS 就会只有核心的语义信息（基模）传了过去。生成器接收到的是干净的信号，自然就还原出了清晰图像。
图 3E, 3F, 3G：输入一张苹果的简笔画，可以让它变成“梵高风”或“金属风”。对比了“分块处理（Patched）”的方法，分块处理的方法导致笔画断裂，而 LightGen 处理的图像线条流畅，结构完整。设计了一个通用的编码器 (Encoder)，用来提取内容特征，设计了多个不同的生成器 (Generators)，每一个生成器对应一种画风。可以控制光路，让携带图像特征的光信号进入不同的物理区域（不同的衍射通道），从而经过不同的“风格化处理” 。有点像现在的 MoE (混合专家模型) 或者 Adapter 模式。Backbone 不动，根据任务需求（Prompt），把数据路由到不同的 Head 或 Adapter 去处理。在这里插入图片描述图 4E (语义操控) 用 KL 散度约束了分布，所以在潜空间里，稍微改变一点点数值，生成的图像也是渐变的。能够进行解耦，算法自己学习分布和对应的光斑。训练 LightGen 去理解 3D 物体(椅子)，可以像 NeRF（神经辐射场）一样，生成同一个椅子在不同角度的样子。4E 中改变椅子的部分特征，在输入端（通过 SLM）微调光信号，改变 OLS里的某几个光斑数值（对应图中的柱状图变化），意味着 LightGen 真的理解了“扶手”这个概念对应的光信号，实现了特征的解耦。
在这里插入图片描述最后与电子芯片（ NVIDIA A100）进行了对比，计算速度、能效比都比电子的快/省电 2 个数量级，体积极小，算力极大。
对于同类任务的变化（如 3D 旋转）：靠输入端的 SLM 动态调节 OLS 里的光斑（Latent Code）。
对于跨任务的变化（如换画风）：靠物理上的光路切换，复用 Encoder，切换不同的 Decoder 模块。
对于去噪：直接利用了单模光纤的物理截止特性。
5. 结论与讨论 (Conclusion & Discussion) LightGen 光学芯片。目前 AI 需要的算力时间都很大，光子计算有能力承担，之前的光芯片只能做简单的选择题，通过 LightGen 将芯片堆叠，有百万级别的神经元，能处理高分辨率大图。利用光纤的物理特性，能够压缩信息和提取特征。无需传统的监督计算而是学习概率分布去理解语义特征。
6. 主要贡献总结 (Summary of Key Contributions) 3D 封装与集成规模。使用了 3D 封装技术，在136.5 mm2mm^2mm 2 塞进了超过 200 万个神经元。光学潜空间 OLS，由于光的特性很难把一张大图的几百万个像素压缩成几个关键的“概念”，设计了一种基于单模光纤阵列的结构，过滤信号，提取特征。速度快，能量消耗少。 7. 补充材料在这里插入图片描述光路搭建 (The Setup): 光源：用的是 532 nm（绿色）的单模激光器。输入端：空间光调制器 (SLM)。用它来把数字图像（比如猫的照片）转换成光的振幅分布，打入芯片。接收端：输出的光信号直接被一个 sCMOS 相机接收。
芯片微纳制造 (Fabrication): LightGen 的核心——衍射超表面，是用 JGS1 石英玻璃 (SiO2SiO_2SiO 2
) 做的。它的热膨胀系数极低 (5.5×10−75.5 \times 10^{-7}5.5×10 −7 )，即使温度变化 100∘C100^{\circ}C100 ∘ C，芯片变形也只有 0.006%，保证了光路极其稳定。采用了 8 阶光刻工艺 (8-level lithography)。每一个光神经元（Pixel）的大小是 3μm×3μm3 \mu m \times 3 \mu m3μm×3μm。把光的相位变化（0 到 2π2\pi2π）切分成 8 个台阶高度，每个台阶高度差 150 nm。
工程领域最关心的问题：该芯片是只有在完美模拟中能跑，还是真的造出来也能跑？
量化效应：理论上的相位是连续变化的，但制造时只能切成 8 个台阶。图 S18 (Fig. S18) 展示了对比：虽然相位的微观结构变了（S18B 和 C），但最终生成的图像（图 S18D）几乎没有肉眼可见的区别。这证明设计对制造精度有很好的容忍度。对准误差：图 S19 (Fig. S19) 做了一个极端的测试。故意把衍射层移歪了 10%、30% 甚至 50% 个像素。虽然生成质量（PSNR）下降了，但通过重新训练 (Retrain) 后面的层，性能可以几乎完全恢复（从 13.80 dB 恢复到 16.05 dB）。关于算力 (TOPS) = 操作数 ÷ 时间的计算。
100倍速+100倍能效!中国LightGen全光AI芯片问世,性能碾压顶级NVIDIA芯片... 3D 结构突破集成极限:传统 2D 硅基芯片的晶体管集成密度已接近物理极限,而 LightGen 的 3D 堆叠结构可将超 200 万光子神经元分层堆叠,在相同空间内实现 100 倍算力密度提升,解决了 “高算力与小体积” 的矛盾; 光子神经元模拟人脑:人脑通过大量神经细胞同步交互实现信息处理,LightGen 的光子神经元正是模仿这一模继续访问深度解析:LightGen全光芯片的技术突破与开发者落地挑战 LightGen的输入输出模块采用全光设计:输入端集成光栅耦合器(耦合效率≥85%),将外部光信号耦合至片上 waveguide;输出端通过阵列波导光栅(AWG)实现多波长信号分波,再由光电探测器阵列(响应速度≥1GHz)完成光信号到电信号的最终转换(仅输出端转换,避免中间转换损耗)。硬件层面的限制需开发者关注:当前输入模块的光信号... 继续访问 Bang-Bang-All-Digital-PLL-for-Frequency-Synthesis. ### Bang-Bang All-Digital PLL for Frequency Synthesis #### 概述相位锁定环（Phase-Locked Loop，简称PLL）是任何需要时钟信号的电子系统中的关键组成部分，在广泛的领域如高速串行I/O的时钟和数据恢复电路、... 最新发布 100倍速+100倍能效！中国LightGen全光AI芯片问世，性能碾压顶级NVIDIA芯片，开启可持续AI新纪元上海交通大学与清华大学科研团队联合研发出全光 AI 芯片 LightGen，以光为信息载体，搭载超 200 万光子神经元，采用 3D 堆叠结构，在生成式 AI 任务中实现比 NVIDIA 顶级芯片快 100 倍、能效高 100 倍的突破。该芯片可一次性处理高清图像 / 视频等复杂任务，避免传统光芯片 “分片处理” 导致的质量问题，测试表现媲美甚至优于 Stable Diffusion 等顶级 AI 系统。目前 LightGen 仍处于原型阶段，下一步将推进规模化设计以适配更大模型，为可持续 AI 发展提供全继续访问
LightGen 使用教程 LightGen 使用教程 1. 项目介绍 LightGen 是一个基于 PyTorch 的图像生成预训练管道,它通过知识蒸馏和直接偏好优化实现了高效的文本到图像生成。该项目旨在提供一个高效的预训练流程,以加速文本到图像的生成过程,并提高生成图像的质量。 2. 项目快速启动继续访问 8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源 LightGen相较于现有的生成模型,尽管参数量更小、预训练数据规模更精简,却在geneval图像生成任务的基准评测中甚至超出了部分最先进SOTA模型。此外,LightGen在效率与性能之间实现了良好的平衡,成功地将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days,即可完成高质量图像生成模型的训练。继续访问 LightGen：高效图像生成技术的先锋 LightGen：高效图像生成技术的先锋项目核心功能/场景 LightGen：通过知识蒸馏和直接偏好优化实现高效图像生成项目介绍 LightGen 是一个基于 PyTorch 的开源项目，致力于利用知识蒸馏和直接偏好优化技术，实现高效且高质量的图像生成。该项目旨在为文本到图像生成任务提供一个高效的预训练管道，基于最新的流体（Fluid）和边际适应性推理（MAR）技术。项目技术分析 Light... 继续访问深度解析：LightGen全光芯片的技术突破与开发者落地挑战 12月《Science》期刊收录的上海交大陈一彤课题组LightGen全光计算芯片成果，不仅是学术领域的重大突破，更向AI开发者抛出了一个关键命题：后摩尔时代，基于光子架构的算力范式，如何重构大模型推理的技术链路？本文将从硬件架构、算法适配、工程化落地三个核心维度，拆解LightGen的技术创新点，同时剖析开发者在接入光计算生态时需关注的核心问题。继续访问