扎克伯格给黄仁勋送上皮衣,预告Llama4颠覆AI形态:SIGGRAPH对话全纪录
机器之心报道
机器之心编辑部
大模型的下一个形态,不再是人和模型一轮一轮的即时问答了。
这可能会是AI技术形态的一个转折点。
当地时间 7 月 29 日,在美国丹佛举行的第 51 届 SIGGRAPH 计算机图形学会议上,英伟达创始人、CEO 黄仁勋与 Meta 创始人、CEO 马克・扎克伯格进行了一场全球瞩目的炉边谈话。
这两位当今全球科技领域的大佬,既是创始 CEO,又都是生成式 AI 技术的引领者,在长达一个小时的交谈时间里既赞美了开源,怒骂了苹果,又探讨了未来生成式 AI 应用的前景,最后还互相交换了皮衣。
这场对话主要围绕生成式 AI 技术,及其在各种领域上的应用展开。
黄仁勋与扎克伯格谈到:生成式 AI 可能将会改变社交媒体的推荐系统,很快系统将根据你的兴趣推荐内容。社交媒体可能演化为系统为你综合当下发生的事情,生成即时创造的内容。随着模型的通用性增强,我们也可能从此告别在软件之间跳转,Facebook 或 Instagram 都统一在同一个 AI 模型中。
当 Llama 3 升级为 Llama 4 以及更高版本时,交互体验将很快超越与聊天机器人一轮一轮的对话,你给模型一个意图,它就能处理处理需要长时间思考或执行的任务,这个任务可能需要花费几个月处理,AI 将在任务完成时向你汇报。
扎克伯格认为,目前基础模型的研究还在加速,即使基础模型停止,AI 行业仍有五年的产品创新时间。
提到 Meta 为何坚持开源,扎克伯格表示,这源于 PC 时代微软 Windows 系统的开放。在以手机为代表的智能移动设备崛起后,苹果的闭源生态让很多扎克伯格想要创造的功能都中道崩殂,为此扎克伯格甚至爆粗。
同时,扎克伯格和黄仁勋达成了共识:开源并非出于纯粹的利他主义,而是一种明智的经营策略。Meta 开源其开放计算系统后,成为了行业标准,供应链主动对齐 Meta 的设计,这种为行业打造整套生态的经验,实际为 Meta 节省了数十亿美元。
至于人们更倾向选择性能最强的通用大模型,还是规模较小的专业模型,在这个问题上,扎克伯格和黄仁勋产生了分歧。黄仁勋选择直接上最高档的,「英伟达不在乎节省那几分钱。我们的目标是最高质量的结果。」
扎克伯格心心念念的「元宇宙」,他也没放弃。Meta 的 AI 和 Llama 项目,以及在增强现实和虚拟现实方面的研发,实际是在构建 Horizon OS—— 一个为混合现实设计的开放操作系统。
他认为下一个计算平台,将分为智能眼镜和 VR/MR 头显。智能眼镜将成为下一个「手机」,成为下一代智能移动设备的开端。而 VR、MR 头显将成为工作站或游戏机,承担更高强度的计算任务。Meta 正在研发他们理想中的全息 AR 眼镜,这个眼镜将综合超级交互式 AI,并拥有时尚的外观,在日常起到一个造型上的作用。
谈话最后,黄仁勋自问自答了一个问题:「生活在整个计算堆栈都在重塑的时代。我们如何看待软件?」最让他感到兴奋的是 Jensen AI 出现的可能,根据本人复刻一个 AI 智能体,并能在对话中不断微调。这场对谈中,小扎也描述了相同的愿景。Meta 正在策划 Creator AI 和 AI Studio,这种产品将让每个人都可以根据自己的需求定制个性化的 AI Agent。
字幕由AI识别,仅供参考
以下是本次对话的全程文字记录:
黄仁勋:Mark,欢迎你第一次来 SIGGRAPH!你敢信吗?这位是计算领域的先驱、引领者之一,我都得请他来 SIGGRAPH,非常感谢你来捧场。
扎克伯格:其实我已经在会场里转了五个多小时了。
黄仁勋:这可是 SIGGRAPH,你知道这里 90% 的人都是 PhD。说到为什么 SIGGRAPH 如此重要,这是一场有关计算机图像、图像处理、人工智能和机器人技术的盛会。多年来,有很多公司都会在这里讨论、吸收新的研究,从迪士尼、皮克斯、Adobe、Epic Games,当然也包括英伟达。
今年我们在这届大会上有 20 篇论文入选,主要是人工智能和模拟方向的。AI 可以帮助我们更快模拟出更大规模的物理环境,例如可微物理,我们正在使用模拟方法来为合成数据创建模拟环境。我们为我们所做的感到自豪。
说到 Meta,你们在 AI 领域里做的事举世皆知。我觉得有趣的一件事是,看看媒体是如何报道 Meta 最近几年投身 AI 的情况的 —— 包括 FAIR 做的那些事情。我们都在使用来自 Meta 的 PyTorch。你们在计算机视觉、语言模型、实时翻译等等方面,做了很多具有开创性的工作。
我的第一个问题是,你如何看待今天生成式 AI 和 Meta 的进步?你如何应用它来增强你们的运营或引入你提供的新功能?
扎克伯格:Meta 大概在 8 年前开始进入 SIGGRAPH 大会,相比英伟达我们属于新手。
黄仁勋:你们是参与者,这是我的地盘。
扎克伯格:那肯定,欢迎你邀请我来你的地盘(笑)。我记得早在 2018 年,我们就展示了一些早期的手势追踪工作,用于我们的 VR 和混合现实头戴设备。我想我们已经讨论了很多我们在编解码器头像方面取得的进展,我们希望能够从消费者头戴设备中驱动照片级逼真的头像,我们离这个目标越来越近了。我们对此感到非常兴奋。
此外,我们还完成了许多显示系统工作,一些未来技术的原型和研究,以使混合现实头戴设备能够变得非常薄。我希望有相当先进的光学堆栈和显示系统,即集成系统。这些是我们通常在这里首先展示的东西。
今年能来到这里真是太高兴了,我们不仅要讨论元宇宙的东西,还要讨论所有人工智能的东西,就像你说的,我们创办了人工智能研究中心 FAIR,那时候是 Facebook,现在是 Meta,之后我们创办了 Reality Labs。我们在这个领域已经做了一段时间。
所有关于生成式 AI 的东西,这可以说是一场有趣的革命,我认为它最终会以一种有趣的方式使我们生产的所有不同产品变得不同。看看我们已经拥有的产品线。比如,信息流和推荐系统,还有 Instagram 和 Facebook。我们一直处于这样的旅程中,它从单纯的与朋友联系发展而来,Ranking 始终很重要,因为即使你只是关注朋友,如果有人做了一些非常重要的事情,比如你的堂兄生了孩子,你肯定希望这样的信息被放在最顶端。如果它被埋在你信息流的某个角落,你会对我们非常生气。
因此推荐排名很重要,但在过去几年中,排名已经发展到这样的地步:排名中的大部分内容只是不同的公开内容。因为现在来自好友的潜在候选帖子不只有几百或几千条,而是数百万条。这就变成了一个非常有趣的推荐问题。有了生成式人工智能,我觉得我们很快就会进入一个新阶段,到那时,你在 Instagram 上看到的内容,将不再只是那些你关注的人发布的东西。相反,系统会根据你的兴趣,推荐给你那些你可能感兴趣的内容,哪怕这些内容的发布者并不是你关注的人。
我认为,未来许多内容也将通过这些工具来创造。其中一些是创作者使用这些工具来创造全新的内容。还有一些,我认为最终将是为你即时创造的内容,或者通过现有的不同事物进行汇集与综合。这只是一个例子,说明我们正在做的事情的核心部分将会不断发展,而且它已经发展了 20 年。
黄仁勋:有一些人认为,全世界迄今为止最大的计算系统之一就是推荐系统。
扎克伯格:是的。这是一条完全不同的道路,它并不像人们讨论的东西那样有关注度。大家都在讨论 transformer 架构,讨论的都是类似的东西,只是在构建越来越通用的模型。
黄仁勋:将非结构化数据嵌入到特征中。
扎克伯格:是的,推动质量改进的一大因素是:过去你会为每种类型的内容使用不同的模型。最近的一个例子是,比如我们有一个模型用于对短视频进行排名和推荐,另一个模型用于对更长的视频进行排名和推荐,然后进行一些产品工作,基本上使系统可以显示任何内容。但是,你创建的可以涵盖所有内容的通用推荐模型越多,它就会变得越好。
我的意思是,这背后的一部分逻辑其实与经济学原理相似,即内容的流通性和可获取性。当你能够从更广阔的资源库中汲取内容时,就不会再遇到在不同内容源之间转换时出现的那些令人困惑的效率问题。随着模型变得越来越大、越来越通用,它会变得越来越好。我梦想有一天,你可以想象整个 Facebook 或 Instagram 都像一个 AI 模型,将所有不同的内容类型和系统统一在一起,这些内容类型和系统实际上在不同的时间范围内有不同的目标。因为其中一些只是向你展示,比如你今天想看哪些有趣的内容。但还有一些内容是在帮助你构建你的长期社交网络,对吧?比如你可能认识的人或者你可能想要关注的账户。
黄仁勋:这些多模态模型往往更擅长识别模式和弱信号等。所以人们总是会说,人工智能在 Meta 如此深入,这很有趣。你们一直在构建 GPU 基础设施,运行这些大型推荐系统。
扎克伯格:其实我们应用 GPU 的速度在业界来看有点慢。
黄仁勋:你是我请来的嘉宾,我只是想努力表现得友善一些。
扎克伯格:是的,太友善了(笑)。刚才在后台的时候,你还在说要承认错误什么的。
黄仁勋:你不必突然主动说出来。
扎克伯格:我认为我们已经尝试过了。很快就取得了突破。
黄仁勋:你们是不鸣则已,一鸣惊人。现在,生成式 AI 最酷的地方在于,当我使用 WhatsApp 时,我感觉自己正在与 WhatsApp 合作。我喜欢想象自己是专业打字员,它会在我打字时生成图像。如果我回去改写我的单词。它会生成其他图像。比如「中国老人在日落时分和三只狗一起享受一杯威士忌,分别是金毛猎犬、金毛贵宾犬和伯恩山犬。」AI 会生成一张非常漂亮的照片。
扎克伯格:过去一周我花了很多时间和我的女儿们在一起,把她们想象成美人鱼之类的。这很有趣。是的,这是生成式 AI 的一方面。很多新一代人工智能的东西,我认为它将是我们长期以来拥有的所有工作流程和产品的重大升级。另一方面,我们可以创造出很多全新的东西。
在 Meta,我们希望提供一个可以帮你完成不同任务的 AI 助手,在我们的世界中,它将非常具有创造性,就像你说的。但它也是通用的。随着时间的推移,它将能够回答任何问题。
我认为,当我们从 Llama 3 标准模型转向 Llama 4 及更高版本时,我认为它不会再像聊天机器人 —— 你给它一个提示,它就会回应,一轮一轮交互对话。我认为它会很快进化,只要你给它一个意图,它能够去执行多个时间框架的任务(可以处理需要长时间思考或执行的任务,而不仅仅是即时响应)。
如果我所想的一些事情最终能够实现,它将启动需要大量计算资源的任务,这些任务可能需要几周、几个月甚至更长时间来完成。然后它会在某个时刻回来向你报告结果,就像世界上发生了某件事情一样。我认为这将是非常强大的。
黄仁勋:当今的人工智能是回合制的。你说了什么,它就会给你回复。但显然,当我们思考时,当我们被赋予任务或问题时,我们会考虑多种选择,或者我们会想出一个选项树,一个决策树,在脑海中模拟可能做出的每个决定的不同结果。所以说我们在做规划。在未来,AI 也会做同样的事情。
当你谈到 Creator AI 的愿景时,我感到非常兴奋。坦率地说,我认为这是一个炸裂的想法。能不能向大家详细介绍一下 Creator AI 和 AI Studio。
扎克伯格:我认为不会只有一个人工智能模型。这正是业内其他一些公司正在做的事情,他们正在建立单个的中央智能体。
当然,你将获得一种 Meta AI 助手。但我们的愿景是让所有使用我们产品的人都能为自己创建智能体。无论是平台上的数百万创作者,还是数亿小企业,我们最终都希望能够收集所有内容,并快速建立一个业务智能体,让它能够与你的客户互动,进行销售和客户支持等。因此,我们现在开始推出的一款产品是 AI Studio,它是一套最终会让这个设想运转起来的工具。每个创作者都可以构建自己的 AI 版本,可以与之互动的智能体或助手。
它解决的是一个根本问题,就是每个人的时间都不够用。如果你是一个创作者,你想更多地与你的社区互动,但你的时间有限。同样,你的社区也想与你互动。所以未来最好的办法就是让人们只负责创造。它有点像一个智能体,但它是根据你的材料来训练的,以你希望的方式代表你。我认为这是一种非常有创意的努力,就像你创作并发布在社交媒体上的艺术作品或内容一样。需要明确的是,这不是与创作者本人直接互动,而是通过智能体来进行。但我认为这将是另一种有趣的方式,就像创作者在这些社交系统上发布内容一样,能够通过这些智能体来进行互动。
同样,我认为未来人们会创建自己的智能体,用于各种不同的用途。有些是他们想要完成的定制实用功能,他们希望对智能体进行微调和训练。有些是娱乐。人们创造的一些东西很有趣,有些很傻,或者对某些事情有种有趣的态度,我们可能无法、可能不会将其作为助手构建到 Meta AI 中,但看起来人们非常有兴趣看到它们并与之互动。
一个有趣的用例是人们使用这些智能体来提供支持。有一件事让我有点惊讶,那就是 Meta AI 的主要用例之一是,人们让它来扮演他们将要遇到的困难社交场合。比如我想问我的经理,我如何获得晋升或加薪?或者我和我的朋友吵架了,或者我和我的女朋友遇到了困难的情况,这场谈话该怎么进行?
这是一个完全无法预知的区域,你可以在其中进行角色扮演,看看谈话将如何进行,并获得反馈。但我认为,很多人不想只与同一种智能体互动,无论是 Meta AI 还是 ChatGPT,或者人们在使用的其他任何东西,他们想创造自己的东西。所以这就是 AI Studio 的大致目标。但我想,这只是我们更大愿景的一部分,我们认为不应该只存在一种人们与之互动的大型 AI。如果存在多样性,世界将会变得更美好、更有趣。
黄仁勋:我觉得这真的很酷。如果你是一位艺术家,并且拥有自己独特的风格,你可以利用你的风格和你所有的作品来微调一个 AI 模型。这样,这个模型就能根据你的风格来创作。你可以来使用这个 AI,向它发出指令。比如,你可以要求它根据我所拥有的艺术风格来创作一些东西。你甚至可以给我一幅画作或者草图作为灵感,我可以基于这些为你生成新的艺术作品。你可以来找我的 AI 机器人,或者直接使用我的 AI 来进行这样的创作。
在未来,可能每一个餐厅、每一个网站都会拥有这样的 AI,它们能够根据用户的需求和喜好提供个性化的服务和内容。
扎克伯格:是的,我认为在未来,就像每个企业都有一个电子邮件地址、一个网站、一个或几个社交媒体账户一样,在未来,每个企业都会有一个与客户互动的人工智能智能体。
在过去,有些事情是很难做到的。比如,如果你观察任何一家公司,你可能会发现客户支持部门与销售部门是分开的,而这并不是你作为 CEO 所希望的。只是「好吧,它们是不同的工种」。
当你是 CEO 时,你必须做所有的事情。当你将抽象概念融入组织时,一般来说,组织是分开的,因为它们针对不同的事情进行了优化。但我认为柏拉图式的理想是,应该面向客户去构建。你知道,当你试图购买某物时,你不想面前出现不同的购买方法,如果你在购买某物时遇到问题,你只希望有一个可以去回答问题的地方,并能够以不同的方式与企业互动。我认为这也适用于创作者。
黄仁勋:这种与客户的互动,尤其是处理他们的投诉,将使你的公司变得更好。事实上,与人工智能的这种互动将捕捉到公司的机构知识以及如何处理问题,所有这些都可以用于分析,进而改进人工智能,如此循环往复。
扎克伯格:因此,从商业角度来看,我认为这需要更多的整合,我们仍处于早期阶段。但 AI Studio 可以让人们创建自己的 UGC 智能体和其他东西,并开始启动这个由创作者创建智能体的飞轮效应。我对此感到非常兴奋。
黄仁勋:我可以使用 AI Studio,用我的图像集对模型进行微调吗?
扎克伯格:当然可以,我们会提供这种能力。
黄仁勋:好的。然后我可以把我写的所有东西都加载到 AI Studio 上,这样它就可以作为我的复制体了?
扎克伯格:当然。
黄仁勋:然后每次我回到它的时候,它都会再次加载内容。所以它会记得上次停在哪里。我们继续我们的谈话,就像什么都没发生过一样?
扎克伯格:是的,就像任何产品一样,随着时间的推移,它会变得更好。训练工具也会变得更好。这不仅仅关乎你想让它说什么。我认为一般来说,创作者和企业都有工作的优先级。所以在所有这些方面都会变得更好。
我认为柏拉图版本的 AI 不仅仅是文字,而是包括你能想象到的每一点,这与我们长期以来一直在做的 Avatar 工作有些交集。你希望能够与智能体进行视频聊天,我认为我们会随着时间的推移实现这一点。
我不认为这些东西离我们还有那么远,技术的飞轮旋转得非常快。所以,这很令人兴奋,有很多新东西需要建造。我认为,即使基础模型的进展现在停止了(我认为不会停止),我们也会有五年的产品创新时间,让行业从头弄清楚如何最有效地利用迄今为止建造的所有东西。但实际上,我认为基础模型和基础研究的进展正在加速,这是一个相当疯狂的时代。
我得说,是你让这些变成了可能。
黄仁勋:谢谢!你知道,我们是 CEO,我们是娇嫩的花朵,需要更多的鼓励。
扎克伯格:到这个时候,我们已经相当老练了。我想我们俩是这个行业里坚持得最久的两位创始人,对吧?
黄仁勋:是的。
扎克伯格:你看你的头发已经花白,我的只是在长长。
黄仁勋:是啊,我的头发变白了,你的头发变卷了。怎么回事?
扎克伯格:一直都这么卷,我只是经常打理。
黄仁勋:如果我当初知道成功之路这么漫长……
扎克伯格:那你可能当初根本就不会走这条路。
黄仁勋:不,我可能会像你一样,提前离开大学。
扎克伯格:不过我们之间的性格差异很大。
黄仁勋:你事业起步提前了 12 年,这进度快多了。(译注:黄仁勋 1984 年在俄勒冈州立大学本科毕业后,曾在 AMD 等公司工作;扎克伯格在哈佛大学读本科时创办了 Facebook,随即肄业)
扎克伯格:但你做到的事情很棒。
黄仁勋:好吧,过去的事就让它过去吧。所以,我喜欢你的愿景,即每个人都可以拥有一个人工智能,每个企业都可以拥有一个人工智能。在英伟达,我希望每个工程师和每个软件开发人员都拥有一个人工智能,而且有很多人工智能。
我喜欢你的愿景的一点是,你还相信每个人和每家公司都应该能够制造自己的人工智能。所以你实际上是开源的。当你开源 Llama 时,我认为这很棒。顺便说一句,我认为 Llama 2 可能是去年人工智能领域最大的事件。
扎克伯格:我觉得(最大的事)是 H100 啊。
黄仁勋:这是一个先有鸡还是先有蛋的问题。
之所以说 Llama2 是最大事件,是因为当它出现时,它激活了每家企业和每个行业。突然之间,每家医疗保健公司都在开发人工智能。每家大公司、小公司、初创公司都在开发人工智能。这使得每个研究人员都能够重新参与人工智能,因为他们有一个可以做某事的起点。
现在 Llama 3.1 已经发布,大家兴奋不已,你知道吗,我们一起努力部署 Llama 3.1。我们正在将其推向全球企业,这令人兴奋不已。我认为它将支持各种应用程序。
谈谈你的开源理念吧。你开源了 PyTorch、Llama 3.1 以及 Llama 系列,你已经建立了一个完整的开源生态系统,但你一开始是怎么想的?
扎克伯格:在开源方面,Meta 的起步算比较「落后」吧。Meta 开始构建分布式计算基础设施和数据中心时,已经有其他科技公司有所布局了,因此在当时,这不能算是 Meta 的竞争优势。于是不妨直接开源了,然后 Meta 从围绕它的生态系统中受益,其中最大的项目应该是开放计算,Meta 公开了服务器设计、网络设计,连最终的数据中心设计都公开了。这些设计成为行业标准后,所有的供应链基本上都按 Meta 的标准来,因此,实际上开源为 Meta 节省了数十亿美元。
黄仁勋:开放计算也使得 Nvidia HGX 系统能和每个数据中心适配。
扎克伯格:感谢英伟达带来的美妙体验。在开放计算尝到甜头之后,我们在基础工具类,例如 PyTorch,也采取了类似的开源策略。因此,当 Llama 项目启动时,Meta 在 AI 模型开发方面自然倾向于主动开源。
对于 Meta 的开源,还要从以下几个角度来看待。首先,Meta 的产品不得不面对这样一个事实:我们通过竞争对手的移动平台来分发自己的应用程序。在智能手机操作系统的竞争中,苹果以其封闭的生态系统占据了市场的主导地位,游戏规则都是苹果说了算。虽然从数量上看,Android 手机更多,但苹果基本控制了整个市场和所有利润,Android 其实是在追随苹果。然而,回顾 PC 时代,虽然微软显然不是一个完全开放的公司,但与苹果相比,Windows 系统可以在所有 OEM、所有不同的软件、硬件上运行,是一个更加开放的生态系统。Windows 是领先的生态系统。在 PC 时代,开放的生态系统才是主导。
因此,我希望在下一代计算中,开放的生态系统能获胜,再次回归,成为主导潮流。
不过,我相信开源和闭源两种模式各有其优势。我并不是非常狂热的开源主义者,也并非所有 Meta 的产品都开源。然而,对于整个行业共同构建的计算平台,开源无疑意义非凡。Meta 的 AI 和 Llama 项目,以及在增强现实和虚拟现实方面的研发,实际是在构建 Horizon OS—— 一个为混合现实设计的开放操作系统,就像 Android 或 Windows 一样,它能够支持各种硬件厂家,生产各种各样的设备。我们只是想将生态系统恢复到这种开放水平。
我坚信开源终将获胜。虽然这话有点自私,但是在经历太多次想要构建某某功能,却被平台的 fxcking 限制掣肘之后,我只想在未来的 10-15 年内,确保底层技术能够把握在自己手里。
黄仁勋:考虑一下我们的节目还要播出啊......
扎克伯格:不好意思,一谈到苹果闭源这个话题,我就怒了,后期帮我「哔」一下吧。
黄仁勋:无论如何,开源确实是一项伟大的事业。世界上最杰出的人才致力于打造最好的人工智能系统,并将其作为服务无私地提供给全世界。同时,如果你想要构建自己的人工智能,开源也赋予了你这样的能力。就像我不会自己做我身上这件皮衣,而是买别人做的成品。这种服务的价值不可估量。特别是你们的 Llama 3.1 版本,你们推出了 405b、70b、8b 不同规模的模型,可以用更大的模型来提升小模型。并且你们还设置了 Llama Guard 用作模型的护栏。因此,现在 Meta 构建模型的方式完全透明,确保了每个使用者都能够清晰地了解如何正确地使用模型,我非常欣赏这一点。
扯远了,我们之所以呼吁开源,是因为它必须存在,来摆脱某些封闭模型的限制。但开源软件的建设并非一人或一家公司之力所能及,它依赖于一个完整的生态系统,这本质上就需要开放和协作。如果它不开源,可能根本无法有效运作,不是吗?我们选择开源,并非出于纯粹的利他主义,而是开源将助力自己的产品拥有强大的生态系统而变得更加出色。看看大家对 Pytorch 生态系统的贡献,就足以证明这一点。比如 Nvidia,就有数百名专业人员全心投入,致力于让 Pytorch 不断进步,变得更强大、更可扩展、更高效。
扎克伯格:当你成为行业标准时,自然而然地,行业里的其他人将按你的标准工作,开源是一个非常好的商业策略,但我认为有些人实在是没想明白。不过,英伟达每次都能跟上最新发布的 AI 模型,提供专业的支持和优化。
黄仁勋:没错,我是一个特别乐于提供支持的人。虽然我已经老了,但反应还算敏捷,这是一个 CEO 的必备素养。我真心地觉得 Llama 系列至关重要。英伟达提出了一个名为「AI 工厂」的概念。很多公司有应用 AI 的需求,但是他们不懂如何把公司的业务和数据「喂」给 AI,于是英伟达提供工具与专业知识,依托 Llama 技术,帮助他们实现这一目标。这就是 NIM(Nvidia Inference Microservices)云原生微服务,NIM 可将模型作为优化的「容器」,这些容器可部署在本地、云端、数据中心或工作站上,开发人员可以在任何地方随时打开随心使用。英伟达打造了一个包括 OEM 以及埃森哲这样的全球系统集成商(GSI)在内的合作伙伴系统,他们可以运行 NIM 并创建基于 Llama 的工作流。这个激动人心的项目能成型,都得益于 Llama 的开源。
扎克伯格:是的,我认为帮助人们从大模型中提炼出他们所需的专有模型,将是真正有价值的新事物。但我不认为会有一个通用的 AI 智能体出现。
黄仁勋:我同意你的观点,我也不认为会有一个能解决所有问题的 AI 模型。比如英伟达有一个专用于芯片设计的 AI、还有能理解 USD 的软件编码 AI、还有会写 Verilog 的 AI...... 每个专用的 AI 都是在 Llama 基础上微调出来的。我相信未来每个公司都将拥有定制化的专用模型。
扎克伯格:未来还将面临一个大问题:人们是会选择更大、更复杂的通用模型?还是倾向于训练定制化的专有模型?我打赌是后者,大量不同的模型将迅速涌现。
黄仁勋:但是英伟达选择了大的通用模型。因为工程师的时间太宝贵了。目前我们正在对 4-5 百亿参数的模型进行性能优化。众所周知,这么大的模型无法适配任何单一的 GPU。这也正是 NV Link 高性能连接的重要性所在。英伟达的每个 GPU 都通过 NV Link Switch 相互连接。例如,在 HGF 架构中,就有两个这样的交换机,它们使得所有 GPU 能够协同工作,实现真正的高性能。之所以选择最大、性能最优的模型,还是因为工程师的时间极其宝贵,即便这会增加一些成本,但我们不在乎节省那几分钱。我们的目标是确保为工程师提供最高质量的结果。
扎克伯格:这个级别参数量的 Llama 模型的运行成本,大约是 GPT-4o 的一半。所以在这个层面上,你们的决定还挺好的。但我想说的是,人们需要蒸馏出能够在某些设备上运行的较小的模型,这是另一套模式。
黄仁勋:让我来算一笔账,英伟达雇一个专门负责设计芯片的 AI 时薪 10 美元,但是它可以共享,相当于给每个工程师配备一个助手。这个成本,并不算很高,而我们给工程师的工资那可是相当高,而 AI 可以做到每小时只花几美元就增加一个「超能力员工」。
扎克伯格:老黄,您没有必要非得说服我。
黄仁勋:如果你还没雇 AI,那还不赶紧去!我们换个话题聊,让我们谈谈下一个浪潮。我们内部经常用你们「分割一切」的模型。训练视频模型,从而增进我们对物理世界的理解,增进机器人与工业场景的应用,这也是英伟达正在积极推进的领域。能不能分享更多 Meta 在计算机视觉方面的想法,比如 Ray-Ban Meta 智能眼镜等等。
扎克伯格:说到这里,我有太多存货等着「上新」了。就在 SIGGRAPH 现场,我们即将发布 Segment Anything Model 2 (SAM 2) 。这回视频内容也能被分割了,视频里正在分割的好像是我在夏威夷的牧场里养的牛。
黄仁勋:顺便提一嘴,它们的名字叫「小扎的美味牛」(delicious Mark’s cows)。之前你来我家,咱俩煎过菲力牛排。下次再来的时候,你就带上你这张图里分割出来的牛。
扎克伯格:我是一个超棒的副主厨。
黄仁勋:这个评价是谁给你评的?
扎克伯格:我去你家做客,到午夜了。你说:「你吃饱了吧?」我回答:「不知道啊,我大概还能再吃点吧。」你震惊了,来了句:「真的吗?」
黄仁勋:小扎,你不会不知道吧?一般情况下,别人问你吃饱没,一般人都会捧着肚子说:「我吃饱了。」
扎克伯格:(我可不和你客气)我会说:「再给我做一整个芝士蛋糕!老黄!」
黄仁勋:让我给大家展示一下马克・扎克伯格的「强迫症」有多严重。所以我正在准备芝士蛋糕,我说:「小扎,切一下西红柿。」接着,我把刀递给了小扎。
扎克伯格:我是一个很强的刀具能力者。
黄仁勋:他切西红柿每一个都完美地精确到毫米。我原本以为所有的西红柿都会被切成片。但当我转过身时,他说他需要另一个盘子。原因是他切的所有西红柿,一旦他把一片西红柿和另一个西红柿分开,他就要把一片放在另一个盘子里,再也不让西红柿接触彼此了。
扎克伯格:如果你想让切好的西红柿互相接触,你就提需求呀!我是一个大厨好吧。
黄仁勋:这就是他造出来一个不会评价别人的 AI 的原因!
扎克伯格:(无语😓)
黄仁勋:SAM2 的效果还真酷,它能识别牛走动的轨迹。
扎克伯格:这将制作出很多有趣的效果,对于科学也将有所助益。科学家们可以使用它来研究珊瑚礁、自然栖息地以及景观的演变等等。
黄仁勋:我再举一个用例。例如你有一间仓库,里面有很多摄像头,AI 正在监视仓库里的一切。假如发生如货箱堆垛倒塌或地面洒水等意外情况,无论是什么事故,AI 都能迅速识别并做出反应,自动生成描述事件的文本,并立即派遣人员前往处理。一个能够理解视频内容的模型拥有广阔的应用空间。你们在 Ray-Ban Meta 智能眼镜之外还在做什么工作呢?
扎克伯格:还是智能眼镜。对于下一个计算平台,我们把它分为混合现实、头显和智能眼镜。如今所有佩戴眼镜的人最终都可能将眼镜升级为智能眼镜。世界上有超过十亿人,所以这个市场潜力巨大。对于 VR、MR 头显,有些人可能认识到了它在游戏界的应用,但有些人还不以为然。我的看法是,这些智能设备将并存。智能眼镜将成为下一个「手机」,成为下一代智能移动设备的开端。而 VR、MR 头显将成为工作站或游戏机,它们将承担更高强度的计算任务,毕竟眼镜容量有限,无法搭载和手机相同级别的算力。
黄仁勋:这些正好发生在生成式人工智能爆发之际。
扎克伯格:因此,从根本上来讲,我们从两个不同的方向来解决智能眼镜的问题。
一方面,我们一直在构建我们认为理想的全息 AR 眼镜所需的技术,包括开发定制芯片、定制显示技术栈等等。这是一副眼镜对吧?不是耳机,也不是 VR/MR 那样的头显。它们看起来像眼镜,但和你现在戴的眼镜还是有很大差距。我的意思是,你日常戴的眼镜非常薄。但即使是我们与雷朋联名打造的眼镜,你也无法将所有的技术融入其中,以实现全息 AR,尽管我们正在接近这一点。未来几年,我认为我们会越来越接近。这种眼镜仍然会相当昂贵,但我认为,它将开始成为一种产品。
我们的另一个方向是与世界上最好的眼镜制造商 Essilor Luxottica(依视路)合作,从好看的眼镜开始。他们旗下几乎拥有所有你接触过的大品牌眼镜,包括雷朋、奥克利等等。
黄仁勋:眼镜界的英伟达。
扎克伯格:我想,他们可能会喜欢这个比喻。此时此刻,谁不喜欢被这么称呼呢?我们正在和他们合作开发第二代产品。我们的目标是把产品外形做得很棒。在此基础上,我们将尽可能多的技术融入其中。虽然我们无法在技术上达到理想的效果,但最终,它一定会像一副漂亮的眼镜。
在这个眼镜上,我们配备了摄像头传感器,你可以拍摄照片和视频、在 Instagram 上直播。你可以在 WhatsApp 吉印通行视频通话,并将你看到的内容传输给对方。它还有麦克风和扬声器。扬声器真的很不错,它是开放式的,所以很多人都觉得它比耳塞更舒服。你可以听音乐,这是一种私享体验。人们喜欢这个设计,经常用它打电话。
但我们后来发现,传感器套装其实正是你与 AI 对话所需要的。这也算是个意外。如果你五年前问我,我们会不会在人工智能之前实现全息 AR,我会说,是的,很有可能,对吧?因为全息 AR 看上去只需要图形和显示技术的进步,包括一些虚拟、混合显示的技术,而我们当时正在这些方向上不断取得进展。
但突然,LLM 方向爆发了。结果就是,我们现在已经有了高质量的 AI,并且在全息 AR 出现之前,它一直在快速发展。这种反转是我始料未及的。不过幸运的是,我们已经做好了准备,因为我们正在开发所有这些不同的产品。
但我认为,你最终会看到一系列不同价位、不同技术水平的眼镜产品。基于我们从 Ray-Ban Meta 眼镜产品中看到的数据,我认为价格在 300 美元左右的 AI 眼镜将是一个畅销品,最终会有数千万或数亿人拥有这样的眼镜。
黄仁勋:(戴上这个眼镜),会有超级交互式 AI 跟你对话?你刚才展示了你们的视觉语言理解能力,你们还有实时翻译的能力,你可以用一种语言跟我说话,而我听到的是另一种语言?
扎克伯格:显示屏显然也会很棒,但这会增加眼镜的重量,也会让眼镜变得更贵。我觉得会有很多人想要全息显示屏,但也会有很多人想要非常薄的眼镜。
黄仁勋:对于一些工业和工作场景来说,我们确实需要这种眼镜。
扎克伯格:(除此之外)也要考虑消费端产品。我之前远程办公的时候经常想这个问题,大家在 Zoom 上花了那么多时间。未来,我们距离虚拟会议也没多少年了,到时候可能就是我的全息图在跟你对话。我认为在其中加入 AI 非常重要。
黄仁勋:接受这样一个设备成为日常生活的一部分需要点耐心。
扎克伯格:但我觉得我们会走到这一步的。我是说,眼镜的镜框有薄有厚,还有各种款式。我想我们还需要一段时间才能拥有像你的眼镜一样(薄)的全息眼镜。但我认为在一副时尚的厚框眼镜中使用全息技术并不遥远。
我也在尝试成为一名时尚网红达人,这样我就可以在眼镜上市之前带火它。
黄仁勋:我看到你在尝试。效果怎么样?
扎克伯格:还在早期(双方大笑)。我觉得,如果我们未来的主要业务是制造人们佩戴的时尚眼镜,那我就应该开始多关注这件事。
黄仁勋:没错,我同意。
扎克伯格:我们得让那个「每天都一成不变」的我退休了。我的意思是,眼镜和手表或手机不一样,大家不想看起来都一样。所以我认为,它将成为一个平台,一个开放的生态系统,因为人们的外形和风格需求将是非常多样的。
黄仁勋:没错。Mark,令人难以置信的是,我们正生活在一个整个计算堆栈都在重塑的时代。我们如何看待软件?你知道,Andrej Karpathy 提到过软件 1.0 和软件 2.0 的概念,我们现在基本上处于软件 3.0 时代。
现在,我们的计算方式已经从通用计算转变为生成式神经网络处理计算方式,我们所能开发的能力和应用是过去无法想象的。这种技术,即生成式人工智能,我不记得还有哪种技术能以如此快的速度影响消费者、企业和科学界。它能够跨越所有不同的科学领域,从气候到生物,再到物理科学。在我们遇到的每一个领域,生成式人工智能都处于根本性转变的核心。
除此之外,就像你所说的那样,人工智能将对社会产生深远的影响。其中一件事让我超级兴奋,之前有人问我,会不会出现 Jensen AI(黄仁勋 AI)?这正是你说的创造性 AI,我们可以构建自己的 AI。我把自己写的东西都上传进去,然后用我回答问题的方式对它进行微调。希望随着时间的推移以及使用的累积,它能成为一个真正伟大的助手,成为很多人的伙伴。你可以问它问题,它会生成新的想法反馈给你。就像你所说的,它将是一个不带有评判性的 Jensen 版本,你不必害怕被评头论足。你可以随时来与它互动。我觉得这些东西真的很不可思议。
而且,我们一直在写很多东西。只要给它三四个主题,告诉它这就是我想写的主题,用我的声音去写。这多不可思议啊。现在我们可以做的事情太多了。和你一起工作是一种很棒的体验。我知道建立一家公司并不容易,你要把你公司的产品从 PC 转向移动设备、VR、人工智能等所有这些平台。你们做的这些真的很不寻常,英伟达也多次经历这种转变,我很清楚这个过程有多难。这些年来,我们俩都遇到了不少挫折,但这就是开拓和创新所需要的。所以看着你一路走来,真的很棒。
扎克伯格:well,谢谢(感动)。
如果你继续做之前的事情,你就无法确定那是不是一个转折点。看着你们走过的历程,我也觉得非常有趣。而且你们经历了这样一个时期,当时每个人都在说,不,一切都会转移到这些设备上,而且计算能力将变得非常便宜。而你们却一直在坚持,认为大家会需要这些可以并行的大型系统来进行大规模计算。
黄仁勋:我们走了另一条路。现在我们不是在制造越来越小的设备,我们制造的是大型计算机。
扎克伯格:这不太时髦。
黄仁勋:这在当时很不时髦,但现在看起来很酷。我们开始制造显卡 ——GPU。现在,你们口中所说的 H100,小扎的数据中心有 60 万个。
扎克伯格:我们是你们的优质客户(笑)。
黄仁勋:你们构建的这些系统是巨型系统,难以协调,难以运行。你说过你进入 GPU 之旅的时间比大多数人都要晚,但你的运行规模却比任何人都要大。这令人难以置信。祝贺你所做的一切。你也是个时尚 icon。
扎克伯格:(我的这项事业)还在早期阶段。
黄仁勋:上次和 Mark 吃过晚餐之后,我们互换了夹克,那张照片在网上被疯传。我觉得他穿我的夹克没问题,但照片中那个人真的是我吗?
扎克伯格:应该是。
扎克伯格:其实这次我给你做了一件。
我带了一个盒子过来,(Mark 拿出新皮衣,黄仁勋脱掉夹克准备试穿),这是黑色的、皮的,而且是皮毛一体。其实,这不是我做的,我刚在网上订购的。
黄仁勋:等等,我试一下。
我穿上了。
扎克伯格:哇,给这家伙拿条项链。下次见你的时候,我给你带条金链子。
黄仁勋:公平起见,我也给你一件。(黄仁勋拿起刚刚脱掉的夹克)这是 Lori(黄仁勋的妻子)刚刚给我买的新夹克,为了参加 SIGGRAPH 专门买的。因为 SIGGRAPH 对于英伟达来说是个重要场合,RTX 就是在这里发布的。所以这是一件全新的夹克,我们可以互换。这件是你的了(黄仁勋把夹克拿给 Mark)。
扎克伯格:这件更值钱,因为这是(黄仁勋)穿过的。
黄仁勋:让我们看看,Mark 看起来很健壮。
扎克伯格:你也是。
黄仁勋:感谢各位,祝大家 SIGGRAPH 过得愉快。
021yin.com/live/H0WxJ7caZQU