近日,英伟达(NVDA.US)CEO黄仁勋做客知名科技播客Lex Fridman Podcast,围绕AI缩放定律(Scaling Laws)、算力与电力瓶颈、AI工厂、公司未来展望以及AI对人类社会的影响等核心议题,进行了超两小时的深度对话。
Token已成全新商品,计算占全球GDP比重将翻百倍
黄仁勋的一个核心观点是,计算的本质已经发生了根本性的跃迁——从过去人类预先录制、计算机负责检索的“存储系统”,转变为具备上下文感知能力的“生成系统”。
更重要的是,计算机在现实经济中的角色变了。过去的计算机是检索系统,主要功能是文件存储。黄仁勋将其比喻为“仓库”,而仓库本身是不直接产生高额利润的。
而现在的AI计算机变成了“工厂”,并直接与企业的收入创造挂钩。他认为,AI代工厂正在制造一种名为“Token”的商品,且这种商品已经被细分和定价。
“我们不仅看到这家代工厂在生产人们想要消费的商品,而且这些代工厂制造的Token对许多不同受众都极其有价值,甚至开始像iPhone一样出现分层:你有免费的Token,有高级Token,还有处于中间层级的Token。”黄仁勋表示,“有人愿意为每一百万个Token支付1000美元,这个想法就在不远的将来,这不是会不会发生的问题,而是何时发生的问题。”
基于这种“Token工厂”模式,计算设备完成了从成本中心向利润中心的跨越。
黄仁勋笃定地推演了这一宏观趋势:“如果生产力大幅提升,全球GDP将加速增长。我完全确信,未来用于计算的GDP占比将是过去的100倍。”
迈向10万亿美元市值?黄仁勋:增长是必然的
基于“Token”的经济理论,黄仁勋回答了,英伟达能否迈向10万亿美元的新市值巅峰的讨论。
他表示:“这个数字(10万亿)只是一个数字。”但他明确指出:“英伟达的增长极大概率会发生,在我看来是必然的。”未来实现3万亿美元营收的体量并非不可能。
电力瓶颈解法:“用好闲置电”、打造“优雅降级”的数据中心
关于AI扩张的瓶颈,黄仁勋直言:“电力是个担忧,但不是唯一担忧。”他给出两条并行路径:一是把能效继续推高;二是想办法获得更多电力。
在能效上,他强调指标是“每瓦每秒token数”,并称通过“极致协同设计”提升能效:“我们的计算机价格在上升,但token生成效率上升得更快,所以token成本在下降……每年下降一个数量级。”
在“如何获得电力”上,他给出一个更具体的思路:电网按极端峰值设计,绝大多数时间有闲置。黄仁勋称:目前的电网是按照极端天气的最高峰值(加上安全余量)来设计的。“99%的时间里,我们的电网都没有达到最坏情况。”大多数时候可能只在峰值的60%左右运行。
为利用这部分闲置能源,他认为需要改变云厂商与电力公司之间严苛的供电合同,放弃对“六个九”(99.9999%)绝对可用性的盲目追求。
“我们需要构建能够‘优雅降级’(gracefully degrade)的数据中心。”黄仁勋解释,“当电网说‘我们需要把你的电力降到80%’时,数据中心可以把关键负载转移,或者降低计算速率。计算服务质量会轻微下降,但我们消耗的能源减少了。”
供应链与内存:汇聚200家供应商,提前三年布局HBM
面对市场对ASML光刻机、台积电CoWoS先进封装等环节可能制约AI产能的担忧,黄仁勋表示并不焦虑。他说:“我告诉他们我需要什么,他们告诉我打算怎么做,我相信他们。”
在系统工程上,英伟达正在深刻改变基础设施的制造模式。黄仁勋透露,仅一个Vera Rubin机架就包含130万到150万个组件,背后汇聚了200家供应商的技术。
为了匹配这种极高的互联密度(如NVLink-72),过去在数据中心现场拼装零组件的传统模式已彻底失效。英伟达将数据中心的“超算组装”前置到了供应链的“超算制造”环节。现在,机架必须在供应链中建好,每次以两三吨的重量整机发货。这意味着供应链在整机出厂前的测试阶段,自身就需要具备吉瓦(GW)级的庞大电力储备。
而在最容易卡脖子的内存(Memory)领域,黄仁勋透露,大约三年前,HBM(高带宽内存)的使用率极低,几乎只在极少数超算中露面。但他当时就成功说服了多家内存大厂的CEO,让他们相信HBM将是未来数据中心的主流,并促使产业链果断投资扩产。
此外,他还打破常规,推动供应商将原本专属于手机的低功耗内存(LPDDR)改造并引入超算领域。
“推理是思考”:从训练、测试时扩展到“代理式扩展”
对于AI缩放定律(Scaling Laws),黄仁勋把AI扩张拆成四条“扩展规律”:预训练、后训练、测试时扩展、代理式扩展。
他回顾“数据枯竭”担忧时称:“我们会继续扩大训练数据……很多会是合成数据。”并给出判断:“训练不再受数据限制,数据将受限于算力。”
对推理侧的算力强度,他说得更直接:“推理就是思考,我认为思考很难……怎么可能是算力轻的?”他认为测试时扩展包含“推理、规划、搜索”等,会推动推理算力需求上升。
最深护城河、太空算力痛点与评价马斯克
当被问及英伟达最大的护城河时,黄仁勋明确指向了CUDA庞大的装机量与信任生态。
“这不是3个人成就的CUDA,而是43000名员工共同推动的。”黄仁勋强调,这种护城河建立在数百万开发者对英伟达持续优化底层的信任之上,辅以横向整合进入全球各类云厂商、OEM和边缘设备的极广生态。
在算力基建的前沿探索上,针对将数据中心搬上太空以解决能源分配的设想,黄仁勋证实英伟达GPU已经进入太空,但当前主要用于卫星高分辨率图像的边缘端筛选。
对于构建大规模太空数据中心,黄仁勋直言其存在核心的物理痛点:“太空中没有传导,没有对流,只能靠辐射散热。虽然极地有24/7的太阳能,但我们需要巨大的散热器。”现阶段最务实的做法,仍是先榨干地球上的闲置电力。
此外,任何算力蓝图的落地都需要极致的工程执行力。针对马斯克旗下xAI仅用4个月便建成了拥有10万块GPU的Colossus超算中心,黄仁勋在市场化基建层面给出了极高评价。
他将马斯克的成功归结为第一性原理思维与极简主义。“他质疑一切:这有必要吗?必须这样做吗?需要花这么长时间吗?”
黄仁勋表示,“埃隆在众多不同领域都有极深的造诣,同时他也是一个非常优秀的系统思考者。”他继续评价道,“他能够质疑一切,直到把一切缩减到不能再减的最低必要限度……他亲自出现在行动的第一线。当你以如此强烈的紧迫感亲自行动时,会促使其他所有人也以紧迫感行动。”
未来只招会用AI的人?“全球程序员将从3000万暴增至10亿”
针对全球劳动者对AI技术的焦虑,黄仁勋给出了一个非常务实的标准。他直言,如果今天要在两名应届毕业生中做选择,他一定会雇佣那个“AI专家”,而非对AI一窍不通的人。
黄仁勋强调,这一准则不仅限于技术岗位,而是涵盖了会计师、律师、销售人员、供应链经理、药剂师,甚至是电工和木匠。在他看来,每个职业、每个层级都没有例外,善用AI的人将展现出更高的交付价值。
他进一步厘清了“被取代”的边界:如果一个人的工作本质上就是一系列“任务”(Task),即任务本身就是你贡献的全部价值,那么被AI颠覆几乎是必然的。但如果你的工作具有更深层的“目标”(Purpose),你就可以利用AI自动化处理那些常规琐事,从而从一名单纯的“执行者”跨越成为所属行业的“创新者”。
对于那些尚未起步的人,黄仁勋给出了最 disarming(令人宽慰)的建议:“如果你不知道如何使用AI,你大可以去问AI‘我该如何使用你’。它会从头开始引导你完成全过程。”他认为,现在起步的门槛已经降至零,唯一的障碍只在于你是否决定开始。因为在这个时代,等待的成本正在随着AI的进化而与日俱增。
对于程序员,黄仁勋抛出了一个震撼的观点:“英伟达软件工程师的数量将会增长,而不是减少……如果编程的定义是‘描述规范让计算机去构建’,那么能做到这一点的人数,刚刚从3000万变成了可能达到10亿。未来每个木匠都会是程序员,每个水管工都会因此疯狂。”
在谈及AGI(通用人工智能)的时间表时,如果将AGI定义为一个能够自主开发应用并实现盈利的系统,黄仁勋表示:“我认为就是现在。我认为我们已经实现了AGI。”他设想了一个由AI自主创建的Web服务或数字影响力应用,突然获得数十亿用户使用并赚取利润的场景,这在当下已经具备技术可行性。
访谈全文如下:
黄仁勋访谈文字稿:英伟达——4万亿美元的公司与AI革命 | 莱克斯·弗里德曼(Lex Fridman)播客 #494
目录
0:00 – 介绍
0:33 – 极限协同设计与机架级工程
3:18 – 黄仁勋如何管理英伟达
22:40 – AI缩放定律
37:40 – AI缩放定律的最大阻碍
39:23 – 供应链
41:18 – 内存
47:24 – 电力
52:43 – 埃隆·马斯克与Colossus
56:11 – 黄仁勋的工程与领导哲学
1:09:50 – 台积电与台湾
1:15:04 – 英伟达的护城河
1:20:41 – 太空中的AI数据中心
1:24:30 – 英伟达市值会达到10万亿美元吗?
1:34:39 – 压力下的领导力
1:48:25 – 电子游戏
1:55:16 – AGI时间表
1:57:29 – 编程的未来
2:11:01 – 意识
2:17:22 – 死亡
介绍
莱克斯·弗里德曼
(00:00:00) 接下来是与英伟达首席执行官黄仁勋的对话。英伟达是人类文明史上最重要、最具影响力的公司之一,它是推动AI革命的引擎。英伟达的巨大成功在很大程度上可以直接归功于黄仁勋纯粹的意志力,以及他作为领导者、工程师和创新者所做出的众多卓越押注和决策。这里是莱克斯·弗里德曼播客。亲爱的朋友们,现在有请黄仁勋。
极限协同设计与机架级工程
莱克斯·弗里德曼
(00:00:33) 您将英伟达推向了AI的新时代,将焦点从芯片级设计转移到了机架级设计。
莱克斯·弗里德曼
(00:00:42) 我想可以公平地说,长期以来,英伟达的制胜法宝在于构建尽可能完美的GPU。你们现在依然如此,但如今已经将此扩展到了对GPU、CPU、内存、网络、存储、供电、冷却、软件、机架本身、你们宣布的计算舱(Pod),甚至整个数据中心进行极限协同设计。让我们谈谈极限协同设计。协同设计一个拥有如此多复杂组件和设计变量的系统,最困难的部分是什么?
黄仁勋
(00:01:11) 谢谢你的提问。极限协同设计之所以必要,是因为现在的问题已经无法装入单台计算机并仅靠单个GPU来加速了。你试图解决的问题是,你希望计算速度的提升能超过你增加的计算机数量。假设你增加了1万台计算机,但你希望速度提升一百万倍。突然之间,你必须提取算法,将算法拆解、重构,对流水线进行分片,对数据进行分片,对模型进行分片。当你以这种方式分布式地处理问题时,不仅仅是扩大问题的规模,而是分散问题,那么所有环节都会成为瓶颈。
黄仁勋
(00:02:03) 这就是阿姆达尔定律(Amdahl's law)的问题:某项任务的加速幅度取决于它在总工作量中所占的比例。如果计算占问题的50%,即使我将计算速度无限提升(比如一百万倍),整个工作量的速度也只提升了两倍。现在突然之间,你不仅要分配计算任务、以某种方式对流水线进行分片,还必须解决网络问题,因为所有这些计算机都连接在一起。在我们这样的规模下进行分布式计算,CPU是个问题,GPU是个问题,网络是个问题,交换机也是个问题。在所有这些计算机上分配工作负载同样是个问题。
黄仁勋
(00:02:57) 这是一个极其复杂的计算机科学问题。我们必须发挥各种技术的威力。否则,我们只能线性地扩展,或者依靠摩尔定律的能力来扩展,而随着登纳德缩放定律(Dennard scaling)的放缓,摩尔定律已经在很大程度上停滞了。
黄仁勋如何管理英伟达
莱克斯·弗里德曼
(00:03:16) 这其中肯定有权衡。而且你们涉及了完全不同的学科。我确信你们在这些领域都有专家:高带宽内存、网络和NVLink、网卡、光学和铜缆连接、供电、冷却等等。这些都是世界级的专家。你是如何把他们聚在一个房间里弄清楚——
黄仁勋
(00:03:34) 这就是为什么我的管理团队这么庞大。
莱克斯·弗里德曼
(00:03:37) 专家和通才的合作过程是怎样的?当你清楚必须要把哪些东西塞进一个机架时,你们是如何把机架组装起来的?把它们全部设计在一起的过程是怎样的?
黄仁勋
(00:03:51) 首先我们要问:什么是极限协同设计?我们正在对从架构到芯片、到系统、到系统软件、再到算法和应用程序的整个软件栈进行优化。这是一个层面。我们刚才谈论的第二个层面,超越了CPU、GPU、网络芯片、向上扩展(scale-up)交换机和向外扩展(scale-out)交换机。当然,你还得把供电和冷却等因素包括进去,因为所有这些计算机都极其耗电。它们完成大量工作,能效非常高,但总体上仍然消耗大量电力。所以第一个问题是:它是什么?
黄仁勋
(00:04:34) 第二个问题是:为什么需要它?我们刚刚讨论了原因。你希望分配工作负载,使得收益超过单纯增加计算机数量的收益。第三个问题是:如何实现?你是怎么做到的?
黄仁勋
(00:04:51) 这可以说是这家公司的奇迹。当你设计一台计算机时,你必须有一个计算机操作系统。当你设计一家公司时,你应该首先思考你想让这家公司产出什么。我见过很多公司的组织架构图,它们看起来都一样。汉堡型组织架构图、扁平型组织架构图,以及汽车公司的组织架构图,看起来如出一辙。这对我来说毫无意义。一家公司的目标是成为产出成果的机器、机制和系统。这个产出就是我们想要创造的产品。公司架构的设计应该反映它所存在的环境。
黄仁勋
(00:05:36) 这几乎直接决定了你应该如何设置组织架构。直接向我汇报的管理团队有60人。我不会和他们进行一对一的会议,因为那是不可能的。如果你想完成工作,你的团队里就不可能有60个人还能一一对谈——
莱克斯·弗里德曼
(00:05:51) 但你依然有60个直接下属,并且跨越了——
黄仁勋
(00:05:53) 还要更多。
莱克斯·弗里德曼
(00:05:54) 更多。而且大多数明星员工至少都涉足工程领域。
黄仁勋
(00:05:59) 几乎所有人都是。有内存专家,有CPU专家,有光学专家。
莱克斯·弗里德曼
(00:06:06) 难以置信。
黄仁勋
(00:06:06) 还有GPU、架构、算法、设计等领域的专家。
莱克斯·弗里德曼
(00:06:11) 所以你时刻关注着整个技术栈,并且必须就整个技术栈的设计进行激烈的讨论?
黄仁勋
(00:06:18) 从来没有哪次对话是单人进行的。这就是为什么我不做一对一会议。我们提出一个问题,然后所有人一起攻克它。因为我们在做极限协同设计。毫不夸张地说,公司一直都在进行极限协同设计。
莱克斯·弗里德曼
(00:06:33) 即使你们在讨论一个特定的组件,比如冷却、网络,所有人也都在旁听?
黄仁勋
(00:06:40) 完全正确。
莱克斯·弗里德曼
(00:06:41) 并且他们可以提出意见:“这不适合配电。这不适合——”
黄仁勋
(00:06:45) 正是如此。
莱克斯·弗里德曼
(00:06:45) “……这不适合内存。这不适合那个。”
黄仁勋
(00:06:49) 完全正确。谁想不听就可以不听。原因在于,团队里的人知道什么时候该集中注意力。如果这件事他们本可以做出贡献却没有做,我会点名批评他们。所以我会说:“嘿,快来,加入讨论。”
莱克斯·弗里德曼
(00:07:07) 正如你所说,英伟达是一家适应环境的公司。你觉得在哪个时间点可以说环境发生了改变,公司开始悄悄地适应?从早期用于游戏的GPU,到深度学习革命的早期,再到现在我们开始将其视为一个AI工厂?英伟达是做什么的?它生产AI,让我们建立一个生产AI的工厂吧。
黄仁勋
(00:07:32) 我可以系统地推理这个过程。我们最初是一家加速器公司。但加速器的问题在于应用领域太窄了。它的优势是针对特定工作进行了极度的优化。任何专家都有这个优势。极度专业化的问题在于,你的市场范围更窄,但这也没关系。真正的问题在于,市场规模也决定了你的研发能力。而你的研发能力最终决定了你在计算领域可能产生的影响力。当我们最初作为一个非常具体的加速器起步时,我们一直知道那是我们的第一步。
黄仁勋
(00:08:23) 我们必须找到一种方法成为加速计算公司。问题是,当你成为一家计算公司时,目标变得太过通用,这削弱了你的专业性。我把这两个实际上存在根本冲突的词连在了一起。我们作为计算公司做得越好,作为专家的表现就越差。我们越是专家,进行整体计算的能力就越弱。我故意把这两个词连在一起,这意味着公司必须一步一步地找到那条极其狭窄的道路,既要扩大我们的计算范围,又不能放弃我们拥有的一最重要的专业能力。我们超越加速器迈出的第一步,是发明了可编程像素着色器。
黄仁勋
(00:09:13) 这是迈向可编程性的第一步。这是我们向计算世界进军的第一段旅程。我们做的第二件事是将单精度浮点数(FP32)引入我们的着色器。支持IEEE标准的FP32是朝着计算方向迈出的一大步。这也是为什么所有从事流处理器和其他类型数据流处理器研发的人发现了我们。他们说:“突然之间,我们也许可以使用这个计算密集度极高、且兼容IEEE标准的GPU了。”
黄仁勋
(00:09:55) 我可以把以前在CPU上编写的软件拿过来,看看能不能用GPU来运行。这促使我们在FP32之上添加了C语言特性,我们称之为Cg。Cg的发展路径最终将我们引向了CUDA。一步一步地,我们将CUDA引入了GeForce,这是一项极具挑战的战略决策,因为它耗费了公司大量的利润,当时我们根本负担不起。但我们还是这样做了,因为我们想成为一家计算公司。计算公司必须有计算架构。计算架构必须兼容我们构建的所有芯片。
莱克斯·弗里德曼
(00:10:42) 能详细讲讲那个决定吗?把CUDA放进GeForce,负担不起却依然决定这么做?你能解释一下这个决定吗?为什么敢于做出这样的选择?
黄仁勋
(00:10:53) 那是第一个几乎可以说是关乎生死存亡的战略决策。
莱克斯·弗里德曼
(00:11:06) 给不了解这段历史的人剧透一下,后来证明这是公司历史上做出的最辉煌、最睿智的决策之一。CUDA成为了这个AI基础设施世界中令人难以置信的计算基础。所以设定一下背景,这最终被证明是一个好决定。
黄仁勋
(00:11:27) 是的,后来证明这是一个好决定。事情是这样的。我们发明了这个叫CUDA的东西,它扩大了我们的加速器可以加速的应用程序范围。问题是,我们如何吸引开发者来使用CUDA?因为计算平台的核心是开发者。开发者不会仅仅因为一个平台能执行一些有趣的操作就跑过来。他们来到一个计算平台,是因为它的装机量大。因为开发者和所有人一样,想要开发能触及大量用户的软件。装机量实际上是架构中最重要的一部分。这个架构本身可能会招致大量的批评。
黄仁勋
(00:12:18) 例如,没有哪个架构受到的批评比x86更多,它被认为是一个不够优雅的架构,但它却是当今的定义性架构。这是一个例子。实际上,许多由世界上最聪明的计算机科学家设计的极其优雅的RISC架构都在很大程度上失败了。我举了这两个例子,一个是优雅的,另一个仅仅是勉强能用,然而x86存活了下来,原因在于——
莱克斯·弗里德曼
(00:12:58) 装机量就是一切。
黄仁勋
(00:12:59) 装机量定义了架构。其他一切都是次要的,明白吗?当时还有其他架构,CUDA出来了,OpenCL也在。有几个竞争的架构。但我们做出的正确决定是,我们说:“听着,归根结底这是关于装机量的问题,我们能把新计算架构推向世界的最好方法是什么?”那个时候,GeForce已经取得了成功。
黄仁勋
(00:13:29) 我们每年已经能卖出数百万个GeForce GPU。我们说:“我们应该把CUDA放到GeForce上,把它放进每一台PC里,不管客户用不用,并把它作为培养我们装机量的起点。”与此同时,我们去吸引开发者,去大学里写书、开课,把CUDA放到各个地方。渐渐地,人们发现了它。当时PC是主要的计算工具,还没有云,我们可以把一台超级计算机交到学校里每个研究员、每个科学家、每个工科学院、每个学生的手中。最终,奇迹一定会发生。
黄仁勋
(00:14:15) 问题在于,CUDA极大地增加了GPU这个消费级产品的成本,完全吞噬了公司所有的毛利润。那时候公司市值大概是80亿美元?或者是六七十亿美元?当我们推出CUDA后,我意识到它会增加很多成本,但这是我们坚信的东西。我们的市值一度跌到了大概15亿美元。我们在谷底徘徊了一段时间,然后慢慢爬了回来,但我们坚持在GeForce上搭载CUDA。我总是说英伟达是GeForce建立起来的殿堂,因为是GeForce把CUDA带给了所有人。
黄仁勋
(00:15:10) 研究人员、科学家,他们之所以在GeForce上发现CUDA,是因为他们中很多人也是游戏玩家。很多人反正也要自己组装PC。在大学实验室里,很多人使用PC组件自己搭建集群。我们就是这样起步的。
莱克斯·弗里德曼
(00:15:31) 然后这成为了深度学习革命的平台和基础。
黄仁勋
(00:15:35) 那也是一个非常伟大的观察结果。
莱克斯·弗里德曼
(00:15:38) 在那个生死存亡的时刻,你还记得那些会议是什么样的吗?作为一家公司决定拿一切去冒险,讨论的情形是怎样的?
黄仁勋
(00:15:48) 我必须向董事会表明我们想做什么,管理团队也知道我们的毛利率会被压垮。你可以想象这样一个世界:GeForce背负着CUDA的成本,但没有游戏玩家欣赏它,也没有玩家愿意为它买单。他们只愿意付特定的价格,根本不在乎你的成本是多少。我们将成本增加了50%,而我们原本是一家毛利率35%的公司。所以做出这个决定非常艰难。但你可以想象,总有一天它会进入工作站,进入超级计算机,在这些领域,也许我们能获取更高的利润。
黄仁勋
(00:16:36) 所以你可以用理性的推导让自己觉得能承受这个代价,但这仍然花了十年时间。
莱克斯·弗里德曼
(00:16:45) 那更多是与董事会沟通说服他们,但在心理层面,随着英伟达不断做出预测未来的大胆押注,并在一定程度上特别是现在定义了未来。我想向您请教一些智慧,关于您是如何有能力做出这些决策,带领公司实现跨越的?
黄仁勋
(00:17:14) 首先,我有极强的好奇心。在某个时刻,会有一个推理系统非常清晰地使我确信这个结果将会发生。这必然会发生。所以在我的脑海中我是坚信的,当我内心坚信时,你也知道那是怎样的。你在脑海中显化了一个未来,那个未来如此令人信服,它不可能不发生。在这中间会有很多磨难,但你必须坚持你的信念。
莱克斯·弗里德曼
(00:17:52) 所以你设想了未来,本质上从工程的角度,你将它变成了现实?
黄仁勋
(00:17:59) 是的。你要推理如何到达那里。你要推理它为什么必须存在。我们在这里一起推理。管理团队会去推理。我会花很多时间去推理。下一部分可能是一项管理技能。通常在领导层中,领导者会保持沉默,或者他们了解到一些事情,然后发表一些宣言:“这是全新的一年,到明年年底我们要有一个全新的计划。”这里进行大裁员,那里进行大架构调整,提出新的使命宣言,设计新标识之类的东西。
黄仁勋
(00:18:43) 我从不这样做。当我了解到某件事,并且它开始影响我的思考时,我会向我身边的每个人明确表示:“这件事很有趣。这将会带来改变。这将会影响那件事。”我会一步一步地去推理。很多时候我已经做出了决定,但我会抓住每一个可能的机会——外部信息、新的洞察、新的发现、工程上的新启示、新设立的里程碑——我会利用这些机会来塑造其他人的信念系统。我几乎每天都在这么做。我和董事会这么做,和管理团队这么做,和员工这么做。
黄仁勋
(00:19:33) 我试图塑造他们的信念系统,这样当某天我说“嘿,我们收购Mellanox吧”时,大家都会觉得这是理所当然的,我们绝对应该买。当我说“伙计们,让我们在深度学习上全力以赴”并且告诉他们原因时,其实我已经为公司内部的各个组织铺好了砖。每个组织、每个人可能都听到了一些内容,大多数人都听到了其中的片段。当我宣布的那天,每个人都已经接受了其中的许多部分。
黄仁勋
(00:20:19) 在很多方面,当我宣布这些事情时,我能想象员工们都在说:“黄仁勋,你怎么这么久才说?”事实上,我一直在塑造他们的信念系统。所以领导力,有时候看起来像是你在后面引导,但你一直在塑造他们,直到我宣布的那天,大家100%买账。但这正是你想要的结果。你想带所有人一起前进。否则,如果我们突然宣布关于深度学习的计划,所有人都会说:“你在说什么?”如果你宣布全力投入某件事,你的管理团队、董事会、员工、客户会觉得:“这是从哪儿冒出来的?”
黄仁勋
(00:21:02) “这太疯狂了。”如果你回顾过去的GTC大会,看看那些主题演讲,其实我同时也在塑造行业内合作伙伴的信念系统,我利用这一点来塑造我员工的信念系统。所以到了我宣布某件事的时候,比如我们刚刚宣布了Groq,其实过去两年半我一直在谈论相关的基石。你回顾过去会发现:“天哪,他们已经谈论这个谈了两年半了。”我一直在一步一步地打地基,所以当时机成熟宣布时,大家都在说:“你怎么花了这么长时间?”
莱克斯·弗里德曼
(00:21:44) 但这不仅仅是在公司内部。你正在塑造这个行业,以及更广泛的全球创新格局。把这些想法抛出来,你真的在使现实具象化。
黄仁勋
(00:21:53) 我们不造计算机。实际上我们不建云。我们原来是一家计算平台公司。所以没有人能直接从我们这里买到成品。这很奇妙。我们进行垂直整合以完成设计和优化,但在每个层级我们将整个平台完全开放,以便集成到其他公司的产品、服务、云、超级计算机和OEM计算机中。所以令人惊叹的是,如果没有先说服他们,我根本做不成我现在做的事。GTC大部分的作用就是展现未来,以至于当我们的产品准备好时,他们会说:“你怎么这么慢才拿出来?”
AI缩放定律
莱克斯·弗里德曼
(00:22:39) 是的。很长一段时间以来,你都是广义缩放定律(Scaling Laws)的信徒。你现在依然相信缩放定律吗?
黄仁勋
(00:22:49) 是的。现在我们有了更多的缩放定律。
莱克斯·弗里德曼
(00:22:51) 我认为你总结了四个阶段的缩放定律:预训练、后训练、测试时间(推理)和智能体(Agentic)缩放。当你思考未来,深远的未来和近期的未来时,你最担心、最让你彻夜难眠、为了继续扩展必须克服的阻碍是什么?
黄仁勋
(00:23:12) 我们可以回顾一下人们过去认为是阻碍的因素。在最初的预训练缩放定律阶段。人们理所当然地认为,我们拥有的高质量数据量将限制我们能达到的智能水平。这个缩放定律非常重要。模型越大,相应更多的数据就会带来更聪明的AI。这就是预训练。伊利亚·苏茨克维(Ilya Sutskever)当时说:“我们的数据用光了”或者类似的话。“预训练结束了”。整个行业都恐慌了,认为这就是AI的尽头。但这显然不是真的。
黄仁勋
(00:23:57) 我们将继续增加用于训练的数据量。其中很多数据可能是合成的(Synthetic),这也让人们感到困惑。人们没有意识到,或者忘记了,我们用来相互教导、相互告知的大部分数据其实也是“合成”的。它是合成的,因为它不是从自然界中直接长出来的。你创造了它。我消费它。我修改它,增强它,我重新生成它,其他人再消费它。我们现在已经达到了这样一个水平:AI能够获取基础事实(Ground Truth),对其进行增强……合成生成海量的数据。
黄仁勋
(00:24:47) 后训练这部分继续扩展,因此我们可以使用的人类生成的数据量将变得越来越小。我们用来训练模型的数据量将继续增长,直到我们不再受限于数据……训练现在受限于算力。原因就是大部分数据是合成的。然后下一个阶段是测试时间(推理),我还记得人们告诉我:“推理?哦,那很简单。预训练才难呢。那可是巨型系统。推理肯定很简单。所以推理芯片只会是一些小芯片——”
黄仁勋
(00:25:32) “它们不会像英伟达的芯片那样。那太复杂、太昂贵了。在未来,推理将是最大的市场,它会变得很简单,我们会把它商品化。每个人都能造自己的芯片。”这对我来说一直是不合逻辑的,因为推理就是思考,而我认为思考很难。思考比阅读难得多。
黄仁勋
(00:25:59) 预训练只是记忆和泛化,在关系中寻找模式。你只是在不停地读。而测试时间缩放(推理)涉及的是思考、推理、解决问题。将未探索的经历、新经验分解为可解决的片段,然后我们通过第一性原理推理,或通过以前的例子和先前的经验去解决它。或者仅仅是探索、搜索、尝试不同的方法。推理阶段的整个测试时间缩放过程,实际上是关于思考的。它是关于推理、规划和搜索的。
黄仁勋
(00:26:50) 这怎么可能是轻算力的呢?我们在这方面完全正确。测试时间的扩展是极度耗费算力的。接下来的问题是,现在我们在推理和测试时间缩放阶段,那这之后是什么?显然,我们现在创造了一个智能体“人”,这个智能体“人”拥有我们开发的大语言模型。但在测试期间,这个智能体系统会去进行研究,敲击数据库,去使用各种工具,而它做的最重要的一件事,就是衍生并生成一大堆子智能体(Sub-agents)。这意味着我们正在组建庞大的团队。通过雇佣更多的员工来扩展英伟达,比扩展我自己要容易得多。
黄仁勋
(00:27:44) 因此,下一个缩放定律就是智能体缩放定律(Agentic Scaling Law)。这就好比复制AI。我们可以随心所欲地快速衍生智能体。所以,我总结了四个维度的缩放定律。当当我们使用智能体系统时,它们会创造更多的数据,创造大量的经验。对于其中一些,我们会说:“哇,这真的很好。我们应该把这个记住。”
黄仁勋
(00:28:12) 然后这个数据集又会回到预训练阶段。我们记忆并泛化它。然后我们在后训练阶段对其进行微调和完善。接着我们利用测试时间和智能体系统进一步增强它,然后输出到行业中。这个循环会不断持续下去。归根结底,智能水平将通过一件事来扩展,那就是算力。
莱克斯·弗里德曼
(00:28:41) 但这里有一个棘手的问题,你必须预测未来,因为其中一些组件需要不同类型的硬件才能以最佳状态运行。所以你必须预测AI的创新将走向何方。比如,混合专家模型(MoE)——
黄仁勋
(00:28:57) 非常对。
莱克斯·弗里德曼
(00:28:58) 带有稀疏性的模型。
黄仁勋
(00:28:59) 完全正确。
莱克斯·弗里德曼
(00:29:00) 硬件不可能在一周内说换就换。你必须预测未来的形态。要做到这点非常可怕,也非常困难,对吧?
黄仁勋
(00:29:09) 比如,这些AI模型架构大约每六个月就会更新一次。而系统架构和硬件架构大约三年更新一次。所以你需要预测两三年后可能会发生什么。有几种方法可以做到这一点。首先,我们自己在内部进行研究,这也是为什么我们既有基础研究,也有应用研究的原因。
黄仁勋
(00:29:40) 我们创建自己的模型。因此我们在这里有第一手的生活经验。这是我谈到的协同设计的一部分。我们也是世界上唯一一家几乎与世界上所有AI公司合作的AI公司。我们在力所能及的范围内,试图去感知人们正在经历哪些挑战。
莱克斯·弗里德曼
(00:29:59) 所以你在倾听整个行业、各大AI实验室的低语。
黄仁勋
(00:30:02) 没错。你必须倾听并向所有人学习。最后一部分是拥有一个灵活的、能随风而动的架构。CUDA的好处之一是,一方面它是极其强大的加速器;另一方面,它非常灵活。这种在专业化(否则无法加速CPU)和通用性(以便适应不断变化的算法)之间的惊人平衡,非常非常重要。这也是为什么CUDA一方面极具韧性,另一方面我们还能不断对其进行增强。
黄仁勋
(00:30:44) 我们现在已经到了CUDA 13.2。我们进化架构的速度非常快,以至于我们能够跟上现代算法的步伐。例如……当混合专家模型(MoE)出现时,这就是我们推出NVLink 72而不是NVLink 8的原因。我们现在可以将一个拥有4万亿、10万亿参数的模型放入一个计算域中,就好像它在一个GPU上运行一样。人们可能没注意到我说过这句话,但如果你看看Grace Blackwell机架的架构,它完全专注于做一件事:处理大语言模型(LLM)。仅仅一年后,你看到了Vera Rubin机架。它有存储加速器,有被称为Vera的出色新CPU。它有Vera Rubin和NVLink 72来运行LLM。
黄仁勋
(00:31:46) 它还拥有一个名为Rock的全新附加机架。所以这整个机架系统与上一个完全不同,它包含了所有这些新组件。原因在于上一代系统是为了运行MoE大型语言模型推理设计的。而这一代是为了运行智能体,智能体会调用各种工具。
莱克斯·弗里德曼
(00:32:10) 显然,该系统的设计肯定在Open-Claude、Codex等出现之前就已经完成了。所以你本质上是在预判未来。这来源于什么?来自于行业内的低语,还是对技术最前沿的理解?
黄仁勋
(00:32:25) 不。
莱克斯·弗里德曼
(00:32:25) 不是?
黄仁勋
(00:32:26) 没那么复杂。你只需要去推理。不管发生什么,如果在某个时候我们要让大语言模型成为一个数字工作者……让我们用这个比喻。假设我们希望LLM成为数字工作者。它必须做什么?它必须访问基础事实(Ground truth)。那就是我们的文件系统。它必须能够做研究。它不可能无所不知。我不想等到这个AI变得对过去、现在和未来的一切都无所不知之后再让它发挥作用。因此,我不如让它去做研究。很明显;如果它想帮我,它就得使用我的工具。
黄仁勋
(00:33:13) 很多人会说:“AI会彻底摧毁软件。我们不再需要软件了。我们甚至不再需要工具了。”这太荒谬了。让我们用一个思想实验。你可以坐在那儿,品一杯威士忌,思考所有这些事情,一切都会变得显而易见。如果我们要在未来10年内创造出能想象到的最神奇的智能体,假设它是一个人形机器人。如果这个人形机器人被创造出来,它是更有可能走进我家,用我现有的工具来完成它的工作?
黄仁勋
(00:33:54) 还是说它的手在一个场景下变成一把10磅重的锤子,在另一个场景下变成手术刀,而为了烧水,它的手指能发射微波?或者是它更可能直接使用微波炉?第一次走向微波炉时,它可能不知道怎么用。但没关系。它连接在互联网上。它读取这台微波炉的手册,读完后立刻成为专家。然后它就可以使用了。我认为我刚才描述的,实际上几乎囊括了Open-Claude的所有属性。
黄仁勋
(00:34:35) 它将使用工具,访问文件,能够进行研究。它有一个IO子系统。当你以这种方式推理完毕后,你会说:“天哪,这对计算未来的影响是极其深远的。”原因是,我认为我们刚刚重新发明了计算机。然后你现在会问:“好,我们是什么时候推理出这个的?我们什么时候推理出Open-Claude的?”如果你去看我在GTC大会上使用过的Open-Claude示意图,你会发现那是两年前的事。就在两年前的GTC上,我就在谈论智能体系统,这与今天的Open-Claude完全吻合。当然,许多事情必须汇聚在一起才能发生。
黄仁勋
(00:35:26) 首先,我们需要Claude、GPT以及所有这些模型达到一定的能力水平。因此,他们的创新、突破和持续进步非常重要。然后,当然有人必须创建一个足够稳健、足够完整的开源项目,以便我们大家都能将其投入使用。我认为Open-Claude对智能体系统的影响,就如同ChatGPT对生成式系统的影响一样。我认为这是一件非常
版权所有 © 国际期货招商-国际期货招代理