AI 进化史 · EP 07

制造 AI 的工厂
也早已靠 AI 运转

训练 GPT-4 的 NVIDIA H100 GPU —— 是在 TSMC 和 Samsung 工厂里制造的。那座工厂要历经 14 周、200 多道工序才能完成一片 wafer。难道每一道工序都靠人盯着？不是。在工厂内部，AI 同样在运转着。

6 分钟阅读 2026.05.05 Industry · 产业应用

01首先 —— 半导体 fab 真正的瓶颈

一片 wafer 上要堆叠数百个 layer。每个 layer 都要检测厚度、CD（critical dimension）、电阻、缺陷。如果对每一片 wafer 在每一道工序上都进行测量 —— 光是测量就要再多花 14 周。产能会跌到一半以下。

所以现实做法是"抽样测量"。25 片里只测 1 片。运气不好的话 —— 没测的那 24 片里即便有缺陷，也要很久之后才会被发现。那时已经推进到下一道工序了。损失不断累积。

⚠️ 抽样测量的两种损失

① 检出延迟 —— 从第一片出现 fail 的时刻到被发现的时刻之间，所有被处理的 wafer 都有风险。平均会有 12-25 片是在"早已流过去的状态"下才被抓出来。
② 未测量的盲区 —— 96% 的 wafer 永远不会被测量。虽然在统计上被假定为正常，但分布尾端的 outlier 仍可能就这样被出货。

AI 就是在这里登场的。"反正传感器数据在每一片 wafer 上都会被采集到。能不能用这些数据来预测测量值呢？" 这就是虚拟量测（Virtual Metrology, VM）的出发点。而这一领域全球首个量产系统，诞生在韩国。

02SK hynix Panoptes —— 始于韩国的全球首个量产 VM

🇰🇷

SK hynix × Gauss Labs · Panoptes

2018 启动 · 2020 正式部署 · DRAM/NAND fab 量产应用 · SPIE 2024

名字取自希腊神话中拥有 100 只眼睛的巨人'Argus Panoptes'。寓意"把每一片 wafer 都 100% 看在眼里"。由 SK海力士子公司 Gauss Labs 开发，核心算法是 Patch + Channel Independent Time-series Transformer（PatchTST 模式）。把每个传感器作为独立通道 patch 化后进行学习。

在 SK海力士利川·清州 fab 的部分 layer 上实现量产应用。2024 年 SPIE 上发表的后续成果 —— Cross-Tool Attention：同时学习同类型多台 chamber 之间的共通模式与各设备的特异性。在一台设备上训练出的模型可以 transfer 到另一台设备。

现场验证 · 量产应用

03NVIDIA cuLitho —— GPU 公司走进 fab 的原因

🇺🇸

NVIDIA cuLitho × TSMC · Samsung · ASML

2023.03 GTC 发布 · 2024 TSMC 正式导入 · 2025 Samsung 加入

EUV 光刻的核心步骤之一是 OPC（Optical Proximity Correction）。即对光衍射效应进行补偿后绘制掩模图案 —— 这是用 CPU 集群处理一片掩模需要 2 周的工作量。NVIDIA 在 2023 年 3 月 GTC 上发布的 cuLitho —— 500 台 NVIDIA DGX H100 系统替代了 4 万台 CPU 服务器的工作量，将单片掩模 OPC 从 2 周 → 约 8 小时缩短。约 40× 加速。

2023 年 GTC 发布时，TSMC、Samsung、ASML 作为导入合作伙伴被正式公开。2024-25 年 TSMC 开始将 cuLitho 整合进量产 OPC 流程，Samsung·ASML 也在朝同一方向推进。GPU 造出 AI 之后，如今连制造那块 AI 芯片本身的工序速度，都由 GPU 来决定。

2 周 → 8 小时（40× 加速）

📌 为什么 cuLitho 变成了必需品

半导体节点越往小走（2nm·1.4nm），OPC 的计算量就呈指数级增长。用现有的 CPU 集群，会出现单片掩模 OPC 超过 2 周的情况 —— 那样一来整个芯片设计排期都会被推迟。业界的共识是：如果没有 cuLitho 的 GPU 加速，下一代节点的量产排期本身都会动摇。

04Samsung Hyper-Auto Fab + Omniverse Twin

🇰🇷

Samsung Semiconductor × NVIDIA Omniverse

2023 NVIDIA-Samsung 合作发布 · 基于数字孪生的 fab 仿真

把一整座 fab 做成数字孪生的设想。在虚拟空间中仿真产线的设备·管路·机器人动线。当新的 wafer 进来时，要经过哪台设备、以什么顺序流转 —— 先在虚拟中预先仿真 → 选出最高效的路径 → 再反映到实际 fab 中。Samsung 正利用 NVIDIA Omniverse 公开推进着这类尝试。

异常情形的仿真也能做。一台 EUV 光刻机被移出维护时，整座 fab 的产能会如何变化 —— 1 秒内就能算出。在人类重新排期之前，AI 先一步给出次优方案。

数字孪生 + 实时优化

05而且其他公司也是 —— 所有人都跳了进来

🇺🇸

Applied Materials ExtractAI

2022~ · Optical ↔ SEM active learning

用 active learning loop 来弥合光学检测（快但精度低）与 SEM（慢但精密）之间的差距。只把模型判定为不确定的缺陷送去 SEM 验证 → 模型再训练。精度达到 SEM 水平，速度达到光学水平。

🇹🇼

TSMC · 基于 Heterogeneous Graph 的良率 RCA

多篇学术发表 · 基于 Graph Neural Network 的 yield analysis

当某个 lot 的良率下降时 —— 用 chamber·tool·recipe·lot 等多种类型的节点构建图，并为每种类型设置不同的 attention/embedding 进行学习。就能自动找出是在哪台 chamber × 哪个 lot 的组合上累积了缺陷。人类做事后分析往往要花几天的 RCA（root cause analysis），正朝着大幅缩短的方向被学界与产业界共同热烈研究。

🇺🇸

KLA Multi-Perspective DL Inspection

2023~ · 衍射·偏振·角度多通道输入

在寻找一个缺陷时，不是用单张 RGB 图像，而是同时输入多个角度的衍射·偏振通道。CNN 一并处理 4-7 个通道。详细算法未公开 —— 但 Multi-Perspective DL 这一名称出现在 KLA 官方营销资料中。

06那么归根结底意味着什么

从 EP01 一路追到这里的人应该已经察觉到了。所有算法都汇聚于此。EP01 backprop、EP02 CNN（检测）、EP03 Transformer（VM·RCA）、EP04 LLM（工厂副驾驶）、EP05 Diffusion（缺陷数据合成）、EP06 GPU/CUDA（cuLitho）。

还有一点 —— 这一切应用都不是学术 SOTA。从 2017 年的 Transformer 论文 → 到 2024 年 SK海力士的量产应用，用了 7 年。从学术 → 到产业量产，平均存在 3-5 年的差距。如今在学界引发热议的模型（Mamba、FlashAttention 3）—— 大概要到 2027-2030 年前后才会进入 fab。

🔑 一句话总结

为了运行 AI 而制造 GPU 的 fab，其自身正是靠 AI 在运转。当 EP01 的 Hinton 论文经由 EP02 的 AlexNet 走向 EP06 的 GPU 芯片时 —— 制造那块芯片的工序的每一道环节里，都嵌入了同样的算法。一个制造自己的工具，正以自己来运作的闭环。

下一篇（EP08，最终篇）将讲述让普通公司把这一切模型应用到自己数据上的方法 —— RAG（Retrieval-Augmented Generation）。一个始于 2020 年 Patrick Lewis 论文的想法，如何在 2026 年成为所有公司内部副驾驶标准的故事。

🧪