3 comments

  • ilaksh 38 minutes ago
  • Nevermark 2 hours ago
    I think we have barely scratched the surface of post-trained inference/generative model inference efficiency.

    A uniquely efficient hardware stack, for either training or inference, would be a great moat in an industry that seems to offer few moats.

    I keep waiting to here of more adoption of Cerebras Systems' wafer-scale chips. They may be held back by not offering the full hardware stack, i.e. their own data centers optimized around wafer-scale compute units. (They do partner with AWS, as a third party provider, in competition with AWS own silicon.)

  • ilaksh 44 minutes ago
    Can't find an arxiv or anything to download without paying.

    I found this in some Chinese app/website (not sure if it's the same thing):

    打开CSDN APP Copyright © 1999-2020, CSDN.NET, All Rights Reserved

    打开APP

    LightGen: All-optical synthesis chip for large-scale intelligent semantic vision generation 原创

    2025-12-30 20:54:42 阅读量 539

    收藏 20

    10赞

    Xy-unu

    码龄6年

    关注 论文基本信息 (Basic Information) 标题 (Title) All-optical synthesis chip for large-scale intelligent semantic vision generation Adress https://www.science.org/doi/abs/10.1126/science.adv7434 Journal/Time Science 2025 Author 上海交通大学(电子信息与电气工程学院)和 清华大学(自动化系/电子工程系) 1. 核心思想 (Core Idea) 全光计算芯片在生成式人工智能领域应用的探索。

    解决的是生成式 AI 算力与能耗的矛盾,设计并制造了一款名为 LightGen 的全光计算芯片,用于大规模的智能语义视觉生成 。

    2. 研究背景与动机 (Background and Motivation) 传统的全光计算芯片主要局限于小规模、分类任务,光电级联或复用又会严重削弱光计算速度。

    光计算的优势:速度快、功耗低。 劣势:

    规模太小: 生成任务需要百万级神经元,以前的光芯片(如 MZI、微环)通常只有几十到几百个 。 维度固定:模拟光信号在传播中很难改变维度(Dimension Variation),而生成模型通常需要“压缩特征再解压”的过程(即 VAE 架构) 训练依赖真值: 以前的光芯片训练依赖输出和标准答案的一一对应,但生成式 AI 是要创造“不存在的数据”,没有标准答案 。 3. 方法论 (Methodology) 输入(Input): 高分辨率的图像或语义信息(例如 512×512512 \times 512512×512 像素的图像),不需要像以前的光芯片那样切分成小块。 输出(Output): 经过语义生成或操控后的图像甚至视频。具体任务包括语义生成(凭空画图)、风格迁移(如把照片变成梵高画风)、去噪(修复模糊图像)以及 3D 视觉生成(如 NeRF)。 实现形式:物理上的光子芯片,集成了数百万个光神经元,通过光纤阵列连接 。

    3.1 核心创新 继承规模增大(3D Packaging):采用了 3D 封装技术,在仅 136.5 mm2136.5\ mm^2136.5 mm 2 的空间内集成了超过 200 万个光神经元。这比之前的光芯片规模提高了数个数量级,使其能够处理 512×512512 \times 512512×512 的高分辨率图像。 全光维度变换(Optical Latent Space, OLS):利用单模光纤的物理特性,全光地实现了维度压缩和转换 。 非监督训练算法(BOGT):提出了基于贝叶斯的光生成模型训练算法(BOGT)。训练它学习数据的概率分布 Q(Z∣X)Q(Z|X)Q(Z∣X),使其接近先验分布 P(Z)P(Z)P(Z) 。 在这里插入图片描述 图 1B,以前的 MZI 或微环芯片(Microring)结构简单,神经元少。图 1D,LightGen 是密集的衍射层堆叠,中间通过 OLS(光纤束)连接 。图 1E (OLS 原理),物理层面的维度压缩 。

    在这里插入图片描述 把光信号的数据提取出来做可视化(t-SNE)。

    3.1 核心流程: 空间光调制器 (Spatial Light Modulator, SLM),数字信号到模拟信号。数字端接收数字图片,物理端把一束平行的、均匀的激光打在 SLM 上。SLM 上每一个像素点的液晶单元会根据图像的像素数值,改变光线的振幅(亮度)或相位(延迟)。从而得到一束携带了图像信息的光场 光编码器 (Encoder): 光线穿过集成的衍射超表面,提取高维图像特征 。类似cv 的编码器,都是提取特征。 光学潜空间 (OLS):光信号通过单模光纤阵列,利用物理特性完成维度的“压缩”和“采样”,这是生成的关键。图 1E 和图 2。一般在电子计算机里,我们需要把高维图像变成一个低维的向量(Latent Vector),然后再把这个向量还原成图像。但在光路里,光原本是四散传播的,维度无限大。我们需要通过物理机制降维。 光生成器 (Generator):从潜空间中读取特征,再次通过衍射层,还原出高分辨率的语义图像 。类似解码器,接收来自 OLS 的低维特征信号(也就是那些经过筛选的光斑),再次通过多层衍射超表面,将这些特征“还原”并“放大”成高分辨率的语义图像 。它可以生成之前不存在的图像,或者根据在 OLS 中修改的数值,生成改变了风格或视角的图像。 3D 封装 (3D Packaging) 把这一整套系统(编码器、光纤阵列、生成器)堆叠封装,有超过 200 万个光神经元 。 3.2. OLS 光学潜空间 使用了一个*单模光纤阵列(Single-mode Fiber Array)*来连接编码器和生成器 。 过滤机制: 自由空间的光场(Free-space light field)包含无数种模式(Modes)。但是,单模光纤只允许基模(Fundamental Mode, LP01LP_{01}LP 01

    ) 通过,其他模式被过滤。从而达到了“高维”到“低维”的采样和转换。

    光通过光纤阵列后,会在另一端输出。光斑即“特征”。用显微镜看光纤的输出端(如图 1H 和图 2B 所示)会看到一组高斯光斑阵列 (Gaussian speckle array) 。每一个光斑的振幅和相位,就代表了图像的一个*“潜在特征” (Latent Feature)* 。

    耦合效率公式 (Coupling Efficiency): 光能否进入光纤,取决于输入光场 EinE_{in}E in

      和光纤基模 EfiberE_{fiber}E 
    fiber

      的重叠程度。
    重叠积分公式 : η=∣∬Ein(x,y)Efiber∗(x,y)dxdy∣2\eta = |\iint E_{in}(x,y)E_{fiber}^(x,y)dxdy|^2 η=∣∬E in

    (x,y)E fiber ∗

    (x,y)dxdy∣ 2

    这个公式证明了,只有符合特定空间分布的光(即特征明显的基模)才能通过,杂乱的高阶光被物理积分掉了。这就是物理层面的*“非线性激活”和“降维”*。 最终选了 10×1010 \times 1010×10 (100维) 的光纤阵列。图S11展示了关于维度选择的消融实验。

    引入波动 (Fluctuation) 光耦合进光纤时的复杂场分布极其敏感,为生成模型提供了必要的波动。为了生成一张新的图片,系统内部必须有一定的“随机性”或“概率分布”。在电子计算机里(如 VAE),是用数学公式(高斯采样)来模拟这种随机性。在 LightGen 里,光纤耦合的过程本身就提供了这种波动。 流形学习 (Manifold Learning) 图 2D, 2E)证明在这个光潜空间里,具有相似语义的图片(比如白背景的狗、户外的狗)会自动聚在一起 。说明光信号理解了语义而非像素堆砌。 3.3. 训练算法 (BOGT) 对生成式AI, 没有标准答案,物理也是不可导的。 提出了一种基于贝叶斯的训练算法 Bayes-based algorithm for Optical Generative model Training (BOGT) 。 学习概率分布,而非对应关系。 计算特征分布 Q(Z∣X)Q(Z|X)Q(Z∣X),并用 KL 散度 (Kullback-Leibler divergence) 来约束。强制要求光经过 OLS 出来的特征分布,必须接近我们要的一个标准分布

    损失函数 LLL 由三部分组成 : L=αlKLD+βlmse+γlopL = \alpha l_{KLD} + \beta l_{mse} + \gamma l_{op} L=αl KLD

    +βl mse

    +γl op

    lKLDl_{KLD}l KLD

      (KL散度): 这是核心。强迫 OLS 里的光强分布接近一个 “截断偏置高斯分布” (Truncated Biased Gaussian)。 普通 AI 用的是标准正态分布,但在光学里,光强(Intensity)永远是正的,不可能是负数,所以我们修改了数学模型来适应物理现实 。
    lmsel_{mse}l mse

      (均方误差): 保证生成的图和目标图在像素上是接近的。
    lopl_{op}l op

      (光学惩罚项): 这是一个工程技巧。它防止光在传播过程中变得太强(烧坏器件)或者太弱(被噪声淹没),保证每一层的光能量都在探测器的最佳工作范围内。
    
    3.4. 训练策略 建模: 在电脑上建立了一个 LightGen 的精确物理模型(模拟光如何衍射、如何耦合进光纤)。

    训练: 用 BOGT 算法在这个数字模型上跑,不断调整虚拟衍射层的相位参数。

    制造: 一旦电脑上的模型学会了生成高质量图像,我们就把这组最优的参数“冻结”,通过光刻技术一次性刻蚀到真实的芯片上。

    通过“数字训练,物理推理”的方式,规避光芯片难以实时更新参数的弱点。

    4. 实验结果 (Experimental Results) 生成任务展示:图 3A (生成),图 3C (去噪),图 3E (风格迁移)。

    图 3A 和 3B。高分辨率直出,LightGen 最直观的能力就是生成了 512×512512 \times 512512×512 像素 的动物图像。以前的光计算受限于输入输出端口,通常只能处理很小的图,或者要把大图切成 7×77 \times 77×7 甚至更小的碎片(Patches)去分别处理,那样生成的图像会有明显的拼接缝隙 。LightGen 用了 3D 封装,能直接生成整张大图,没有拼接缝。从放大细节中清晰地看到猫狗的毛发纹理、眼睛里的反光 。这说明光信号在衍射过程中不仅保留了轮廓,还还原了高频细节。额外利用电子神经网络(CNN)去识别这些生成图,分类准确率和真实的动物数据集(AFHQ)几乎一样高 ,说明生成的特征计算机可信。

    图 3C, 3D 给图像加上了严重的噪声,LightGen 利用单模光纤过滤杂波的特性,物理上去噪,还原出了清晰的连笔字 。图像中的噪点(Noise)通常表现为高频杂波,对应到光场中往往包含大量的高阶模。因为这个特性,通过 OLS 就会只有核心的语义信息(基模)传了过去。生成器接收到的是干净的信号,自然就还原出了清晰图像 。

    图 3E, 3F, 3G:输入一张苹果的简笔画,可以让它变成“梵高风”或“金属风”。对比了“分块处理(Patched)”的方法,分块处理的方法导致笔画断裂,而 LightGen 处理的图像线条流畅,结构完整 。设计了一个通用的编码器 (Encoder),用来提取内容特征,设计了多个不同的生成器 (Generators),每一个生成器对应一种画风。可以控制光路,让携带图像特征的光信号进入不同的物理区域(不同的衍射通道),从而经过不同的“风格化处理” 。有点像现在的 MoE (混合专家模型) 或者 Adapter 模式。Backbone 不动,根据任务需求(Prompt),把数据路由到不同的 Head 或 Adapter 去处理。 在这里插入图片描述 图 4E (语义操控) 用 KL 散度约束了分布,所以在潜空间里,稍微改变一点点数值,生成的图像也是渐变的。能够进行解耦,算法自己学习分布和对应的光斑。 训练 LightGen 去理解 3D 物体(椅子),可以像 NeRF(神经辐射场)一样,生成同一个椅子在不同角度的样子。4E 中改变椅子的部分特征,在输入端(通过 SLM)微调光信号,改变 OLS里的某几个光斑数值(对应图中的柱状图变化),意味着 LightGen 真的理解了“扶手”这个概念对应的光信号,实现了特征的解耦。

    在这里插入图片描述 最后与电子芯片( NVIDIA A100)进行了对比,计算速度、能效比都比电子的快/省电 2 个数量级,体积极小,算力极大。

    对于同类任务的变化(如 3D 旋转): 靠输入端的 SLM 动态调节 OLS 里的光斑(Latent Code)。

    对于跨任务的变化(如换画风): 靠物理上的光路切换,复用 Encoder,切换不同的 Decoder 模块。

    对于去噪: 直接利用了单模光纤的物理截止特性。

    5. 结论与讨论 (Conclusion & Discussion) LightGen 光学芯片。目前 AI 需要的算力时间都很大,光子计算有能力承担,之前的光芯片只能做简单的选择题,通过 LightGen 将芯片堆叠,有百万级别的神经元,能处理高分辨率大图。利用光纤的物理特性,能够压缩信息和提取特征。无需传统的监督计算而是学习概率分布去理解语义特征。

    6. 主要贡献总结 (Summary of Key Contributions) 3D 封装与集成规模。使用了 3D 封装技术,在136.5 mm2mm^2mm 2 塞进了超过 200 万个神经元 。 光学潜空间 OLS,由于光的特性很难把一张大图的几百万个像素压缩成几个关键的“概念”,设计了一种基于单模光纤阵列的结构,过滤信号,提取特征。 速度快,能量消耗少。 7. 补充材料 在这里插入图片描述光路搭建 (The Setup): 光源: 用的是 532 nm(绿色) 的单模激光器 。 输入端:空间光调制器 (SLM)。用它来把数字图像(比如猫的照片)转换成光的振幅分布,打入芯片 。 接收端: 输出的光信号直接被一个 sCMOS 相机 接收 。

    芯片微纳制造 (Fabrication): LightGen 的核心——衍射超表面,是用 JGS1 石英玻璃 (SiO2SiO_2SiO 2

    ) 做的。它的热膨胀系数极低 (5.5×10−75.5 \times 10^{-7}5.5×10 −7 ),即使温度变化 100∘C100^{\circ}C100 ∘ C,芯片变形也只有 0.006%,保证了光路极其稳定。采用了 8 阶光刻工艺 (8-level lithography)。每一个光神经元(Pixel)的大小是 3μm×3μm3 \mu m \times 3 \mu m3μm×3μm。把光的相位变化(0 到 2π2\pi2π)切分成 8 个台阶高度,每个台阶高度差 150 nm。

    工程领域最关心的问题:该芯片是只有在完美模拟中能跑,还是真的造出来也能跑?

    量化效应: 理论上的相位是连续变化的,但制造时只能切成 8 个台阶。图 S18 (Fig. S18) 展示了对比:虽然相位的微观结构变了(S18B 和 C),但最终生成的图像(图 S18D)几乎没有肉眼可见的区别 。这证明设计对制造精度有很好的容忍度。 对准误差:图 S19 (Fig. S19) 做了一个极端的测试。故意把衍射层移歪了 10%、30% 甚至 50% 个像素。虽然生成质量(PSNR)下降了,但通过重新训练 (Retrain) 后面的层,性能可以几乎完全恢复(从 13.80 dB 恢复到 16.05 dB)。 关于算力 (TOPS) = 操作数 ÷ 时间 的计算。

    100倍速+100倍能效!中国LightGen全光AI芯片问世,性能碾压顶级NVIDIA芯片... 3D 结构突破集成极限:传统 2D 硅基芯片的晶体管集成密度已接近物理极限,而 LightGen 的 3D 堆叠结构可将超 200 万光子神经元分层堆叠,在相同空间内实现 100 倍算力密度提升,解决了 “高算力与小体积” 的矛盾; 光子神经元模拟人脑:人脑通过大量神经细胞同步交互实现信息处理,LightGen 的光子神经元正是模仿这一模 继续访问 深度解析:LightGen全光芯片的技术突破与开发者落地挑战 LightGen的输入输出模块采用全光设计:输入端集成光栅耦合器(耦合效率≥85%),将外部光信号耦合至片上 waveguide;输出端通过阵列波导光栅(AWG)实现多波长信号分波,再由光电探测器阵列(响应速度≥1GHz)完成光信号到电信号的最终转换(仅输出端转换,避免中间转换损耗)。 硬件层面的限制需开发者关注:当前输入模块的光信号... 继续访问 Bang-Bang-All-Digital-PLL-for-Frequency-Synthesis. ### Bang-Bang All-Digital PLL for Frequency Synthesis #### 概述 相位锁定环(Phase-Locked Loop,简称PLL)是任何需要时钟信号的电子系统中的关键组成部分,在广泛的领域如高速串行I/O的时钟和数据恢复电路、... 最新发布 100倍速+100倍能效!中国LightGen全光AI芯片问世,性能碾压顶级NVIDIA芯片,开启可持续AI新纪元 上海交通大学与清华大学科研团队联合研发出全光 AI 芯片 LightGen,以光为信息载体,搭载超 200 万光子神经元,采用 3D 堆叠结构,在生成式 AI 任务中实现比 NVIDIA 顶级芯片快 100 倍、能效高 100 倍的突破。该芯片可一次性处理高清图像 / 视频等复杂任务,避免传统光芯片 “分片处理” 导致的质量问题,测试表现媲美甚至优于 Stable Diffusion 等顶级 AI 系统。目前 LightGen 仍处于原型阶段,下一步将推进规模化设计以适配更大模型,为可持续 AI 发展提供全 继续访问

    LightGen 使用教程 LightGen 使用教程 1. 项目介绍 LightGen 是一个基于 PyTorch 的图像生成预训练管道,它通过知识蒸馏和直接偏好优化实现了高效的文本到图像生成。该项目旨在提供一个高效的预训练流程,以加速文本到图像的生成过程,并提高生成图像的质量。 2. 项目快速启动 继续访问 8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源 LightGen相较于现有的生成模型,尽管参数量更小、预训练数据规模更精简,却在geneval图像生成任务的基准评测中甚至超出了部分最先进SOTA模型。 此外,LightGen在效率与性能之间实现了良好的平衡,成功地将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days,即可完成高质量图像生成模型的训练。 继续访问 LightGen:高效图像生成技术的先锋 LightGen:高效图像生成技术的先锋 项目核心功能/场景 LightGen:通过知识蒸馏和直接偏好优化实现高效图像生成 项目介绍 LightGen 是一个基于 PyTorch 的开源项目,致力于利用知识蒸馏和直接偏好优化技术,实现高效且高质量的图像生成。该项目旨在为文本到图像生成任务提供一个高效的预训练管道,基于最新的流体(Fluid)和边际适应性推理(MAR)技术。 项目技术分析 Light... 继续访问 深度解析:LightGen全光芯片的技术突破与开发者落地挑战 12月《Science》期刊收录的上海交大陈一彤课题组LightGen全光计算芯片成果,不仅是学术领域的重大突破,更向AI开发者抛出了一个关键命题:后摩尔时代,基于光子架构的算力范式,如何重构大模型推理的技术链路?本文将从硬件架构、算法适配、工程化落地三个核心维度,拆解LightGen的技术创新点,同时剖析开发者在接入光计算生态时需关注的核心问题。 继续访问