训练 GPT-4 的 NVIDIA H100 GPU —— 是在 TSMC 和 Samsung 工厂里制造的。那座工厂要历经 14 周、200 多道工序才能完成一片 wafer。难道每一道工序都靠人盯着?不是。在工厂内部,AI 同样在运转着。
一片 wafer 上要堆叠数百个 layer。每个 layer 都要检测厚度、CD(critical dimension)、电阻、缺陷。如果对每一片 wafer 在每一道工序上都进行测量 —— 光是测量就要再多花 14 周。产能会跌到一半以下。
所以现实做法是"抽样测量"。25 片里只测 1 片。运气不好的话 —— 没测的那 24 片里即便有缺陷,也要很久之后才会被发现。那时已经推进到下一道工序了。损失不断累积。
AI 就是在这里登场的。"反正传感器数据在每一片 wafer 上都会被采集到。能不能用这些数据来预测测量值呢?" 这就是虚拟量测(Virtual Metrology, VM)的出发点。而这一领域全球首个量产系统,诞生在韩国。
名字取自希腊神话中拥有 100 只眼睛的巨人'Argus Panoptes'。寓意"把每一片 wafer 都 100% 看在眼里"。由 SK海力士子公司 Gauss Labs 开发,核心算法是 Patch + Channel Independent Time-series Transformer(PatchTST 模式)。把每个传感器作为独立通道 patch 化后进行学习。
在 SK海力士利川·清州 fab 的部分 layer 上实现量产应用。2024 年 SPIE 上发表的后续成果 —— Cross-Tool Attention:同时学习同类型多台 chamber 之间的共通模式与各设备的特异性。在一台设备上训练出的模型可以 transfer 到另一台设备。
现场验证 · 量产应用EUV 光刻的核心步骤之一是 OPC(Optical Proximity Correction)。即对光衍射效应进行补偿后绘制掩模图案 —— 这是用 CPU 集群处理一片掩模需要 2 周的工作量。NVIDIA 在 2023 年 3 月 GTC 上发布的 cuLitho —— 500 台 NVIDIA DGX H100 系统替代了 4 万台 CPU 服务器的工作量,将单片掩模 OPC 从 2 周 → 约 8 小时缩短。约 40× 加速。
2023 年 GTC 发布时,TSMC、Samsung、ASML 作为导入合作伙伴被正式公开。2024-25 年 TSMC 开始将 cuLitho 整合进量产 OPC 流程,Samsung·ASML 也在朝同一方向推进。GPU 造出 AI 之后,如今连制造那块 AI 芯片本身的工序速度,都由 GPU 来决定。
2 周 → 8 小时(40× 加速)把一整座 fab 做成数字孪生的设想。在虚拟空间中仿真产线的设备·管路·机器人动线。当新的 wafer 进来时,要经过哪台设备、以什么顺序流转 —— 先在虚拟中预先仿真 → 选出最高效的路径 → 再反映到实际 fab 中。Samsung 正利用 NVIDIA Omniverse 公开推进着这类尝试。
异常情形的仿真也能做。一台 EUV 光刻机被移出维护时,整座 fab 的产能会如何变化 —— 1 秒内就能算出。在人类重新排期之前,AI 先一步给出次优方案。
数字孪生 + 实时优化用 active learning loop 来弥合光学检测(快但精度低)与 SEM(慢但精密)之间的差距。只把模型判定为不确定的缺陷送去 SEM 验证 → 模型再训练。精度达到 SEM 水平,速度达到光学水平。
当某个 lot 的良率下降时 —— 用 chamber·tool·recipe·lot 等多种类型的节点构建图,并为每种类型设置不同的 attention/embedding 进行学习。就能自动找出是在哪台 chamber × 哪个 lot 的组合上累积了缺陷。人类做事后分析往往要花几天的 RCA(root cause analysis),正朝着大幅缩短的方向被学界与产业界共同热烈研究。
在寻找一个缺陷时,不是用单张 RGB 图像,而是同时输入多个角度的衍射·偏振通道。CNN 一并处理 4-7 个通道。详细算法未公开 —— 但 Multi-Perspective DL 这一名称出现在 KLA 官方营销资料中。
从 EP01 一路追到这里的人应该已经察觉到了。所有算法都汇聚于此。EP01 backprop、EP02 CNN(检测)、EP03 Transformer(VM·RCA)、EP04 LLM(工厂副驾驶)、EP05 Diffusion(缺陷数据合成)、EP06 GPU/CUDA(cuLitho)。
还有一点 —— 这一切应用都不是学术 SOTA。从 2017 年的 Transformer 论文 → 到 2024 年 SK海力士的量产应用,用了 7 年。从学术 → 到产业量产,平均存在 3-5 年的差距。如今在学界引发热议的模型(Mamba、FlashAttention 3)—— 大概要到 2027-2030 年前后才会进入 fab。
下一篇(EP08,最终篇)将讲述让普通公司把这一切模型应用到自己数据上的方法 —— RAG(Retrieval-Augmented Generation)。一个始于 2020 年 Patrick Lewis 论文的想法,如何在 2026 年成为所有公司内部副驾驶标准的故事。