半导体逆向工程领域,TechInsights 统治了几十年。上周末,Dylan Patel 的 SemiAnalysis 正式发布了旗下 STEEL 实验室(Teardown Engineering & Evaluation Lab)的第一份公开拆解报告,对象直指全球最受关注的芯片之一,华为 Mate 80 Pro 搭载的麒麟 9030 Pro,采用中芯国际最先进的 N+3 制程。
时机耐人寻味。TechInsights 正在被私募股权出售,而 SemiAnalysis 的营收已经超过了这家老牌巨头。Dylan 选择在这个节点亮剑,用的是一份技术含量极高的拆解报告,配合俄勒冈州实验室的实拍芯片照片。
报告的标题就是一枚炸弹:SMIC N+3 的最小金属间距(M0 pitch)仅 32.5nm,比 Intel 最新 Panther Lake 处理器使用的 18A 制程的 36nm 还小。
中芯国际在没有 EUV 光刻机的情况下,金属间距做到了比 Intel 还细?
这条消息如果只看标题,足以让整个半导体圈炸锅,但 SemiAnalysis 自己在报告第二段就泼了冷水,这是一个"cherry picked metric",一个被刻意挑选的指标。
本文将为你解读这份拆解报告,
密度追平,代价高昂
SMIC 的 N+3 制程在晶体管密度上,确实追平了台积电的 N6。
STEEL 实验室通过 TEM(透射电子显微镜)截面分析,测量出 N+3 的 Bohr 密度为 113.4 MTr/mm²,略高于台积电 N6 的 107.7 MTr/mm²。单元高度从 N+2 的 252nm 缩减到 228nm,接触栅极间距(CGP)从 63nm 缩减到 57nm。这些数字放在一起,意味着 SMIC 在没有 EUV 的条件下,通过纯 DUV 光刻,把逻辑密度做到了台积电成熟 7nm 级别。
代价是什么?
SMIC 的 M0 层使用的是自对准四重图案化(SAQP),即把一张光罩的图案经过四次加工来实现更精细的线条。台积电 N6 在同一层只需要双重图案化(SADP)。四重意味着更多的光罩数量、更高的套刻精度要求、更复杂的工艺流程,以及更高的成本。
SemiAnalysis 在截面图中直接看到了 SAQP 的代价:N+3 的 M0 沟槽呈现明显的倒梯形轮廓(底部比顶部窄),沟槽底部有清晰的阻挡层富集带。这种形貌虽然有助于铜填充,但在 32.5nm 这个间距上,工艺控制的难度急剧上升。
用一个交易员能听懂的比喻:SMIC 在做同样面额的钞票,但每张的印刷成本是台积电的数倍,而且良率风险更大。密度一样,经济学完全不同。
麒麟 9030:在受限条件下,把每一寸硅片都榨干
华为海思的芯片设计能力是另一个维度的故事。
从芯片面积看,麒麟 9030 和上一代 9020 几乎一样大(约 140mm²),但内部塞进了更多的东西:CPU 从 1 个大核 +3 个中核升级到 1 大 +4 中,GPU 计算单元从 4 个增加到 6 个,NPU 也多了一个 Tiny 核心,各级缓存全线扩容。N+3 的密度提升让华为在同样的芯片尺寸里装下了更多逻辑单元。
性能上,STEEL 实验室引用了公开跑分数据,给出的定位很清晰:麒麟 9030 的 GPU 性能(Maleoon 935)大致追平了 2022 年的旗舰级别,3DMark WLE 跑分比上一代提升 70%,略超骁龙 8+ Gen 1,但与当前旗舰骁龙 8 Elite Gen 5 相比,差距在 2.4 到 2.6 倍。
CPU 的情况更能说明问题。大核 TaiShan Prime 的每时钟性能(IPC)大致处于 Arm Cortex-X2 水平,一个 2021 年的设计。苹果 2020 年发布的 M1 Firestorm 核心,IPC 仍然高出 35%。最新的 Apple M5 P 核心,IPC 高出 60%,绝对性能是 2.7 倍。
差距的根源不在设计,在制程。苹果和高通用的是台积电 N4、N3P,这些制程在电压-频率曲线上有本质优势:同样面积可以塞进更多晶体管,同样功耗可以跑更高频率。华为的核心设计水平对标的是行业一线的上一代,但被困在了两代以前的制造工艺里。
当制程走不动了,华为准备“折叠”
报告最具前瞻价值的部分,是华为在 2026 年 ISCAS 会议上公布的τ缩放定律和 LogicFolding 路线图。
传统的半导体缩放在二维平面上推进:把晶体管做小,把金属线做细。摩尔定律走了几十年,本质就是在干这件事。华为现在提出的τ缩放,把优化目标从空间域转移到了时间域,核心是缩短数据移动和处理的时间成本,包括晶体管开关延迟、信号传播延迟、计算和存储的延迟。
LogicFolding 是这套理论的工程实现。简单说,就是把同一个逻辑模块拆成上下两层,面对面堆叠,通过超精细间距的混合键合连接。这样做的直接好处是缩短了最长的信号路径。现代芯片里,很大一部分功耗和延迟花在了驱动长连线和中继缓冲器上。把逻辑垂直折叠后,关键路径变短,频率可以上去,功耗可以下来。
华为给出了一条激进的路线图:麒麟 9030 的大核频率是 2.75GHz,实验室里已经跑通 3.39GHz 的样片,目标是 2031 年达到 5GHz,同时通过 3D 堆叠将等效密度推到 295 MTr/mm²,对标台积电 14A 级别。
SemiAnalysis 对此保持警惕。他们指出,华为的密度计算方式和传统代工厂不同:3D 堆叠的密度是按封装面积算的,把多层有源逻辑叠在一起,自然会得到更高的数字。如果用同样的方法去算 AMD 的 MI450X(N2 顶层+N3P 底层),理论密度高达 460.2 MTr/mm²,远超华为 2031 年的目标。
但方向本身值得重视。华为走这条路,本质上是在制程受限的前提下,把"代工厂的活揽到了系统设计公司身上。AMD 的 V-Cache 在缓存上做 3D 堆叠,AMD MI350X 把 IO 和互联挪到底层芯片,华为要做的更彻底,直接把同一个逻辑块拆开,垂直分布,这在工程难度上是另一个量级的挑战。
出口管制重塑了竞赛的维度
SemiAnalysis 最后的结论直截了当:出口管制没有阻止中国的芯片进步,但改变了进步的路径和代价。
SMIC 的 N+3 证明,不用 EUV 也能做到 N6 级别的逻辑密度。但这条路的成本更高,工艺更复杂,良率更难控制。往下走,每一步的边际难度都在加大:更多的光罩、更严格的套刻精度、更昂贵的多重图案化。理论上 N+4 可以做到 137.8 MTr/mm²(对标台积电 N5),N+5 如果加入背面供电,甚至可以接近 Intel 18A 的 HP 库。但每一步都比上一步更难、更贵、容错空间更小。
与此同时,SMIC 的 N+2 和 N+3 制程正在向华虹转移,阿里平头哥、寒武纪等设计公司也可能成为受益者。芯片制造知识从单一代工厂向生态系统扩散,这让针对单一企业的制裁效力进一步稀释。
而在设计端,华为和北京大学已经在为 LogicFolding 开发国产 EDA 工具原型。这不等于替代了 Synopsys 和 Cadence 的完整工具链,但国产 EDA 正在朝着"架构-制程-封装协同优化"的方向演进。
一个有意思的细节:STEEL 在拆解中发现,麒麟 9030 Pro 的 DRAM 来自三星(K4L2E165YD, LPDDR5X-9600, 1a 工艺节点),而 16GB 的 Pro Max 版本同时出现了三星和长鑫存储(CXMT)的封装。长鑫的芯片封装日期标注为 2025 年第 45 周,制程密度与业界 1z 级别相当。这意味着中国存储芯片已经开始进入华为旗舰供应链,尽管制程仍落后于三星和 SK 海力士一到两代。
对投资者而言,真正值得跟踪的信号在于华为的 3D 堆叠路线能不能在成本可控的前提下,让中国产芯片在手机、AI 推理、网络设备等场景中达到够用的门槛。
一旦够用成立,这条供应链的战略价值就会被重新定价。
原文链接:https://www.odaily.news/zh-CN/post/5211358
