AI 进化史 · EP 07

制造 AI 的工厂
也早已靠 AI 运转

训练 GPT-4 的 NVIDIA H100 GPU —— 是在 TSMC 和 Samsung 工厂里制造的。那座工厂要历经 14 周、200 多道工序才能完成一片 wafer。难道每一道工序都靠人盯着?不是。在工厂内部,AI 同样在运转着

6 分钟阅读 2026.05.05 Industry · 产业应用

01首先 —— 半导体 fab 真正的瓶颈

一片 wafer 上要堆叠数百个 layer。每个 layer 都要检测厚度、CD(critical dimension)、电阻、缺陷。如果对每一片 wafer 在每一道工序上都进行测量 —— 光是测量就要再多花 14 周。产能会跌到一半以下。

所以现实做法是"抽样测量"。25 片里只测 1 片。运气不好的话 —— 没测的那 24 片里即便有缺陷,也要很久之后才会被发现。那时已经推进到下一道工序了。损失不断累积。

⚠️ 抽样测量的两种损失
① 检出延迟 —— 从第一片出现 fail 的时刻到被发现的时刻之间,所有被处理的 wafer 都有风险。平均会有 12-25 片是在"早已流过去的状态"下才被抓出来。
② 未测量的盲区 —— 96% 的 wafer 永远不会被测量。虽然在统计上被假定为正常,但分布尾端的 outlier 仍可能就这样被出货。

AI 就是在这里登场的。"反正传感器数据在每一片 wafer 上都会被采集到。能不能用这些数据来预测测量值呢?" 这就是虚拟量测(Virtual Metrology, VM)的出发点。而这一领域全球首个量产系统,诞生在韩国。

02SK hynix Panoptes —— 始于韩国的全球首个量产 VM

🇰🇷
SK hynix × Gauss Labs · Panoptes
2018 启动 · 2020 正式部署 · DRAM/NAND fab 量产应用 · SPIE 2024

名字取自希腊神话中拥有 100 只眼睛的巨人'Argus Panoptes'。寓意"把每一片 wafer 都 100% 看在眼里"。由 SK海力士子公司 Gauss Labs 开发,核心算法是 Patch + Channel Independent Time-series Transformer(PatchTST 模式)。把每个传感器作为独立通道 patch 化后进行学习。

在 SK海力士利川·清州 fab 的部分 layer 上实现量产应用。2024 年 SPIE 上发表的后续成果 —— Cross-Tool Attention:同时学习同类型多台 chamber 之间的共通模式与各设备的特异性。在一台设备上训练出的模型可以 transfer 到另一台设备。

现场验证 · 量产应用

03NVIDIA cuLitho —— GPU 公司走进 fab 的原因

🇺🇸
NVIDIA cuLitho × TSMC · Samsung · ASML
2023.03 GTC 发布 · 2024 TSMC 正式导入 · 2025 Samsung 加入

EUV 光刻的核心步骤之一是 OPC(Optical Proximity Correction)。即对光衍射效应进行补偿后绘制掩模图案 —— 这是用 CPU 集群处理一片掩模需要 2 周的工作量。NVIDIA 在 2023 年 3 月 GTC 上发布的 cuLitho —— 500 台 NVIDIA DGX H100 系统替代了 4 万台 CPU 服务器的工作量,将单片掩模 OPC 从 2 周 → 约 8 小时缩短。约 40× 加速。

2023 年 GTC 发布时,TSMC、Samsung、ASML 作为导入合作伙伴被正式公开。2024-25 年 TSMC 开始将 cuLitho 整合进量产 OPC 流程,Samsung·ASML 也在朝同一方向推进。GPU 造出 AI 之后,如今连制造那块 AI 芯片本身的工序速度,都由 GPU 来决定

2 周 → 8 小时(40× 加速)
📌 为什么 cuLitho 变成了必需品
半导体节点越往小走(2nm·1.4nm),OPC 的计算量就呈指数级增长。用现有的 CPU 集群,会出现单片掩模 OPC 超过 2 周的情况 —— 那样一来整个芯片设计排期都会被推迟。业界的共识是:如果没有 cuLitho 的 GPU 加速,下一代节点的量产排期本身都会动摇。

04Samsung Hyper-Auto Fab + Omniverse Twin

🇰🇷
Samsung Semiconductor × NVIDIA Omniverse
2023 NVIDIA-Samsung 合作发布 · 基于数字孪生的 fab 仿真

把一整座 fab 做成数字孪生的设想。在虚拟空间中仿真产线的设备·管路·机器人动线。当新的 wafer 进来时,要经过哪台设备、以什么顺序流转 —— 先在虚拟中预先仿真 → 选出最高效的路径 → 再反映到实际 fab 中。Samsung 正利用 NVIDIA Omniverse 公开推进着这类尝试。

异常情形的仿真也能做。一台 EUV 光刻机被移出维护时,整座 fab 的产能会如何变化 —— 1 秒内就能算出。在人类重新排期之前,AI 先一步给出次优方案。

数字孪生 + 实时优化

05而且其他公司也是 —— 所有人都跳了进来

🇺🇸
Applied Materials ExtractAI
2022~ · Optical ↔ SEM active learning

active learning loop 来弥合光学检测(快但精度低)与 SEM(慢但精密)之间的差距。只把模型判定为不确定的缺陷送去 SEM 验证 → 模型再训练。精度达到 SEM 水平,速度达到光学水平。

🇹🇼
TSMC · 基于 Heterogeneous Graph 的良率 RCA
多篇学术发表 · 基于 Graph Neural Network 的 yield analysis

当某个 lot 的良率下降时 —— 用 chamber·tool·recipe·lot 等多种类型的节点构建图,并为每种类型设置不同的 attention/embedding 进行学习。就能自动找出是在哪台 chamber × 哪个 lot 的组合上累积了缺陷。人类做事后分析往往要花几天的 RCA(root cause analysis),正朝着大幅缩短的方向被学界与产业界共同热烈研究。

🇺🇸
KLA Multi-Perspective DL Inspection
2023~ · 衍射·偏振·角度多通道输入

在寻找一个缺陷时,不是用单张 RGB 图像,而是同时输入多个角度的衍射·偏振通道。CNN 一并处理 4-7 个通道。详细算法未公开 —— 但 Multi-Perspective DL 这一名称出现在 KLA 官方营销资料中。

06那么归根结底意味着什么

从 EP01 一路追到这里的人应该已经察觉到了。所有算法都汇聚于此。EP01 backprop、EP02 CNN(检测)、EP03 Transformer(VM·RCA)、EP04 LLM(工厂副驾驶)、EP05 Diffusion(缺陷数据合成)、EP06 GPU/CUDA(cuLitho)。

还有一点 —— 这一切应用都不是学术 SOTA。从 2017 年的 Transformer 论文 → 到 2024 年 SK海力士的量产应用,用了 7 年。从学术 → 到产业量产,平均存在 3-5 年的差距。如今在学界引发热议的模型(Mamba、FlashAttention 3)—— 大概要到 2027-2030 年前后才会进入 fab。

🔑 一句话总结
为了运行 AI 而制造 GPU 的 fab,其自身正是靠 AI 在运转。当 EP01 的 Hinton 论文经由 EP02 的 AlexNet 走向 EP06 的 GPU 芯片时 —— 制造那块芯片的工序的每一道环节里,都嵌入了同样的算法。一个制造自己的工具,正以自己来运作的闭环。

下一篇(EP08,最终篇)将讲述让普通公司把这一切模型应用到自己数据上的方法 —— RAG(Retrieval-Augmented Generation)。一个始于 2020 年 Patrick Lewis 论文的想法,如何在 2026 年成为所有公司内部副驾驶标准的故事。

🧪
亲自试试 · AI Lab
虚拟量测 —— 用传感器值预测厚度 →
用滑块调节 4 个传感器(温度·压力·气体·RF)→ 实时预测厚度。处理 50 片 wafer,连预测精度散点图也一起画出来。
AI 进化史 · 系列导航