CQ9电子有限公司属于中国正规、信誉平台,以客户为中心

咨询热线:

020-88888888

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展

发布时间:2024-03-20 09:53人气:

  与Nat Friedman和Daniel Gross推演人工智能的发展

  今天我想分享给大家的文章来自知名的“科技与商业战略” 博客 Stratechery, 作者是 Stratechery 的创办人 Ben Thompson,这是我最近读到过的最专业也最有洞察的一篇有关人工智能领域的文章。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图1)

  摄于上海街头的精酿啤酒酒馆,在今天这篇文章里,你也会读到 “人工智能的品味” 这个词。

  “ 我们真正想要的是具有冯·诺伊曼一样推理和思考能力的人工智能,虽然我们现在拥有的是会饶舌的 Jay-Z,还需要加把劲啊。”

  今天我想分享给大家的文章来自知名的“科技与商业战略” 博客 Stratechery,作者是Stratechery 的创办人 Ben Thompson,这是我最近读到过的最专业也最有洞察的一篇有关人工智能领域的文章。英文原文需要订阅付费,首先我建议想全面阅读的朋友去付费订阅 Ben Thompson 的博客,我把这篇3万1千多字的文章翻译成中文,是我的研究资料之一,同时我认为 AI 作为最受关注的前沿科技领域,高质量的观点值得更多人能看到,而今天媒体上的噪音和浮躁也过于多了。

  再说到这篇文章的采访对象,Nat Friedman 和 Daniel Gross 是一对投资二人组,他们很像是 “人工智能时代” 的 Marc Andreessen 和 Ben Horowitz,后者通过创办了 A16Z 在 2008 年之后成为了移动互联网时代硅谷的顶级投资人。他们两个人非常有能量,也对世界有自己独到的思考,之后我想专门写一篇这两位的文章介绍他们。从 2017 年开始,Nat 与 Daniel 开始了在人工智能领域的合伙投资,成立了一家名为 AI Grant 的组织,这既是一个 “ 分布式人工智能实验室 ”,也是一个新型的投资基金。这样 “科技与研究驱动的,具有风险投资能力的新型组织” 也会在 AI 时代越来越多。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图2)

  1. “超人般能力的推理实体” ( superhuman reasoning entity )是下一个大事件,如果有人能够创造一种像人类一样,在他们选择的任何领域中主动推理,以及主动思考问题的东西,他们就会成为行业领军者。这就像谷歌在过去创造出了 PageRank 算法一样,并且围绕这个技术打造了完整的产品,商业模式和价值观,最终一直领先于别人。

  2.对 Transformer / 大语言模型 / scaling law 的路径依赖是真实存在的,过去的计算机和互联网发展也有同样的路径依赖。但是现在也有一些不是基于 transformer 架构的创新,一些正在被研究的有趣和有前途的领域也在发生,虽然你很难看明白。

  3. 真正实现价值的方式和真正的差异化是通过一个产品,真正有价值的 “评估” 是用户的评价。

  原文链接在文末。希望这篇文章会对你有启发。也欢迎找到我交流文章里你觉得有价值的地方,微信ID: 2871981198

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图3)

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图4)

  我很高兴欢迎丹尼尔·格罗斯( Daniel Gross )和纳特·弗里德曼( Nat Friedman )再次参加 Stratechery 的采访,这是我们持续系列的第六次对线月和 2023年12月进行过对话 )。

  这个系列在我的博客 Stratechery 中有些独特,因为我的采访对象通常不是投资者;然而,这个系列始于 2022年10月,当时弗里德曼( Friedman )和格罗斯( Gross )正在启动一个资金资助计划( a grant program ),我们走到一起因为我们共享了一个观点,即围绕人工智能领域的活动或讨论还远远不够;一个月后,ChatGPT 问世了,世界发生了巨大变化,包括对于弗里德曼和格罗斯这两位领先的投资者来说也是如此。因此,我认为继续我们之间这个谈话系列会非常有价值,也会很受欢迎,但请记住,弗里德曼和格罗斯可能投资了我们讨论中提到的某些公司。

  需要指出的是,就 “人工智能世界” 的新闻而言,过去这个月尤为重要。我们在对话时尽力涵盖所有内容,从 Gemini 到 Sora 再到 Groq、Mistral 和 Nvidia,以及探讨我们对人工智能领域和可能接下来会发生的事情的常见哲学层面问题,特别是在当下科技公司将不同类型的模型与 transformers 架构相结合,以追求人工智能推理能力( in the pursuit of reasoning )的过程中。

  维苏威火山碳化古卷挑战 Sora 和注意力金字塔 Groq 和速度的飞跃 智能设备和机器人技术 Nvidia 和日本市场 Gemini 1.5和大上下文窗口 Gemini 推出后的灾难 Mistral、模型评估和 OpenAI

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图5)

  丹尼尔( 以下简称 DG ): 谢谢你邀请我们,本( 以下简称 Ben )。

  Ben: 我感觉好像很久没有邀请你们来了,考虑到人工智能领域发生了这么多事情,这就是现在你们衡量事物发生的方式,其实才过了大约两个半月。然后我赶紧邀请了你们再来对谈,考虑到上周人工智能领域的公司发布了一大堆公告,甚至在我们稍后会谈到的谷歌 “Gemini事件”( 指的是谷歌发布了他们最先进的人工智能模型双子座 Gemini, 但是因为其中生成的图像有很多“掺杂的政治正确”内容倾向,谷歌受到了激烈的批评 )之前就发生了。但在我们谈到人工智能之前,Nat,你还是先给我们介绍一下 “维苏威火山碳化古卷挑战”( Vesuvius Challenge )的最新情况。

  范阳注:维苏威火山碳化古卷挑战( Vesuvius Challenge )的官方网站是位于意大利( 古罗马时期的庞贝古城 )的维苏威火山( Mount Vesuvius )在 2000 年前爆发,其中的赫库兰尼姆图书馆许多由莎草纸做成的卷轴经书,也一起被火山喷发而埋没与碳化。在后来考古发现这些古经卷之后,科学家曾经试图打开和破译它们,结果因为没有合适的技术毁了一些古卷,有些则完全化为碎片。硅谷企业家弗里德曼在网上观看了肯塔基大学的计算机科学家西尔斯( Brent Seales )对赫库兰尼姆古卷的修复技术演讲后,产生了浓厚的兴趣,主动提出共同发起了这个挑战,面向全世界征集可以复原经卷里内容的技术解决方案,尤其是利用人工智能来解决这个问题。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图6)

  NF: 哦天那,好的。可怜的丹尼尔经常要忍受我重复这段独白,但我总是非常兴奋地谈论这个项目。

  NF: 谢谢你的提醒,Daniel。这个事件发生在公元 79 年( 79AD ),当时维苏威火山爆发,喷发出一股巨大的热气和热泥浆巨浪,火山碎屑流覆盖了整个那不勒斯湾,完全埋没了庞贝城和赫库兰尼姆( Herculaneum )城镇。事实证明,在赫库兰尼姆城镇外,由朱利叶斯·凯撒的岳父建造了一座非常豪华的别墅,极具宽敞和奢华,也被埋在 60 英尺厚的泥浆之下。

  当农民们在18世纪( 1700年代 )挖井时意外发现了这座被埋葬的别墅,当他们在地下挖掘穿过墙壁和房间时,他们主要掠夺了不同的雕像和文物,他们也发现了一组奇怪的灰色物体,一种碳化块(carbonized lumps ),原来是莎草卷轴( papyrus scrolls )。其独特之处在于,没有其他古代图书馆能够在那个时期幸存下来。如果把纸莎草纸放在那不勒斯湾的湿度之下,纸莎草纸往往会在 100 年左右的时间里完全腐烂变质。因此我们所拥有的古代著作都是在中世纪由一连串的僧侣按顺序抄写留世的。还没有完整的古代图书馆保存下来。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图7)

  基本上就是这样,但其中的奥秘和难度在于这些留下的碳化古卷无法被打开。它们非常脆弱,我经历过这种情况,如果你把莎草纸卷碳化并试图打开它,它们会在你手中碎成片,你无法阅读它们。试图打开它们的过程即会摧毁它们。因此,自从 18 世纪被发现以来,已经有近 300 年的努力尝试打开和阅读这些文物。

  一年多以前,或者说不到一年前,当我们启动 “维苏威挑战赛” 这个项目时,我真的不知道它是否能成功。但它看起来绝对值得一试,我们决定将它作为一个全球竞赛来发起,让更多聪明人参与其中。我只是觉得这简直太酷了,而且似乎几乎没有人知道这件事,知道有成千上万卷无法打开的古代卷轴,我们想,也许我们可以激励 1000 个在家里用笔记本电脑的人去破解它,而这基本上就是目前发生的事情。

  就在上个月,我们非常兴奋地宣布,70 万美元的大奖颁给了一个团队,他们刚刚完成了这项具有里程碑意义的工作,他们能够展示一个卷轴的大部分内容并阅读出来。我们有了 2000 个希腊文字符,这些字符以前从未被看到过,对世界来说是全新的。

  因此,这个项目成功了,它奏效了。现在,我想我们下一步要做的就是扩大规模( scale this up )。我们目前所能读取的内容只占一个卷轴的 5%,我们还剩下几百个卷轴,地下可能还有几千个卷轴,所以我们需要做的是扩大算法的规模 ( scale the algorithms up ),这样我们就能一个接一个地读完整个卷轴,然后希望能够读完所有的卷轴。

  NF: 我现在非常有信心。现在看,我们只读了一个卷轴的5%,还有很长的路要走。

  NF: 是的,确实。如果我们能读懂 5%,那么很可能我们能读懂整个卷轴,如果我们能读懂一个卷轴,我们可能也能读懂大多数其他卷轴。所以,是的,我从 “天哪,我不知道这能不能行” 变成了 “这肯定会成功,只是时间问题,以及我们能否做到多高效”。

  Ben: 我的意思是你必须小心。你从低期望,高希望,转变成了高期望。你可能正在让自己陷入失望的境地。

  Ben: 这听起来非常令人兴奋。你在几次采访中都提到过,而且另一个很酷的事情就是速度,基本上不到一年的时间,这是一个很好的迹象,说明我们在弄清楚问题是什么,并在扩大规模方面的能力也很强。

  NF: 是的,我的意思是,如果你能快速运行它,以我们现在所知道的,你可以在一个月内完成所有这些工作。所以,大部分工作都是要搞清楚该怎么做,搞清楚方法是什么,该从哪里入手,以及什么样的算法效果好。现在这些都是我们积累的知识,所有代码都在 GitHub 上,都很简单明了。数据是公开的,我们有一群非常优秀的人正在这方面努力。下一个重要的步骤是我们称之为“自动分割”( Auto Segmentation )。基本上,你有这个 3D扫描的卷轴,你需要追踪其中的螺旋卷曲的莎草纸表面,这个过程仍然相当耗费人工的。我们基本上都是用人工标注,他们进去手动点击莎草纸的 X光横截面。

  NF: 是的,就是这样。事实证明,机器学习算法能够捕捉到墨水中的微妙图案。当凯西-汉德默( Casey Handmer )用自己的眼睛手动检查数据时,他称之为持续直接观察 ( persistent direct observation ),当他自己能够真正注意到一些墨水字迹浮现出来时,就出现了重大突破。

  NF: 是的。结果发现,他可以看到裂开的泥浆图案,你可以看到这代表了大约 2% 的墨水部分,然后还有 98% 的墨水部分是很难看到的,机器学习算法会随着时间的推移而学习,因为你会在训练数据中添加更多的墨水区域。但现在,通过机器帮助可以揭示整个墨水区域,这是一个非常简单的模型,只需要良好的训练和正确的架构,它就能很好地工作。因此,我很有信心,今年我们就能拥有整本书了。也许明年我们就能找到几百本书,前提是我们能得到许可,扫描所有已经找到的卷轴的话。

  Ben:从已知数据 ( known data )入手,试图破译和提取数据信息,这很有趣。而 Sora ( OpenAI发布的视频生成模型)则完全相反,它从基本上随机的噪音开始,生成长达一分钟的视频。

  说到时间的预期( time expectations),当 DALL-E 2发布时,我写道:“看,这显然会最终跟视频有关。” 我认为视频是一个很重要的问题,我仍然相信VR,但我认为生成式 AI 对这种媒介的成功至关重要。我当时认为,这显然还需要几年的时间进步迭代。

  然而,时间只快进了19个月,期间我们实际上已经有了 Stable Diffusion 驱动的视频,现在我们一下就快进到这里,Sora 显然更加功能强大且高保真( high fidelity)。这反映了现在这年头事物普遍的发展速度有有多快,但当你看到这些视频时,Daniel,你的反应是什么?是否像 “是的,就是这个。” 你是否预料到了 Sora 这样模型的产生?这是中途的一部分,还是你也会感到惊讶?

  DG: 嗯,我们在播客开始时观察到,在人工智能领域中存在一种时间膨胀的动态( a time dilation dynamic ),你对事物本身发展速度的感觉会发生很大变化,有一种感觉是,这其实是一个相对平静的时期,然后就接连发生了三四件事情,实际上大部分都是在一天之内发生的。

  Ben: 我们要尝试在下面涵盖所有这些内容,看看在一个小时内我们能不能聊完。

  DG: 我想每个人突然意识到,“ wow,技术的加速趋势又回归了。” 对我来说,对于 Sora 这件事,我认为 Nat 也提到了类似的想法,我不知道谁先提出来的?可能是他吧。Sora 的出现实际上只是一种信念,最终,尺度法则是起作用的( It was really just a belief that scaling does work at the end of the day )。现在人们正在讨论 Sora 是否已经拥有了一个世界模型( a world model )以及这究竟意味着什么。对我来说,这是次要的 ( that’s secondary ),我认为人们往往对此种讨论过于哲学化。

  DG:是的。当我说 “无限” 的意思,视频 tokens 的数量比文本要多得多。当然,就其包含的逻辑信息量( the amount of logical information )而言,视频的密度要低一些,但视频总量要多得多。它并不完全理解玻璃是如何破碎的,但通过视频它绝对理解水波是如何荡漾的。

  Ben: 还有光是如何扩散的( How light diffuses ),这是相当不可思议的。但是等等,我想再强调一下这点。为什么会有更多的视频而不是文本 ( Why is there more video than text ) ?鉴于人类历史上文本的制作成本要便宜得多,这似乎有些违反直觉?当分析为什么电视市场的发展与音乐市场发展与文本市场不同的原因时,事实恰恰相反,文本便宜且易于分发(text is cheap and easy to distribute)。为什么会有更多的视频呢?

  范阳注:帕累托分布是一种统计学上的现象,也称为80/20规则。它描述了一种常见的分布不平衡现象,即在许多情况下,大部分的结果都来自于少部分的原因或资源。换句话说,帕累托分布指出,大部分产出来自于少数重要的输入或因素。打个比方,一家餐厅的菜单里也蕴含帕累托分布。想象一家餐厅有 100 道菜,但其中只有 20 道菜是大部分顾客会点的,它们带来了 80% 的销售额,你需要下功夫准备好的也是这 20 道菜。

  Ben: 是的,在生成式人工智能的早期阶段,我认为我认知错了的一个地方是,结果证明,高质量、标记良好的数据,实际上比仅仅从互联网上抓取数据要好得多。

  DG:transformer 架构的神奇之处在于即使数据质量很糟糕,它也能工作( it works even when the data’s bad ),所以我认为曾经有一个海市蜃楼一样的时代,人们认为数据质量不重要,反正它确实能工作。我们的一个朋友将以前的技术比作试图在手指尖上平衡一根竿子,而 transformer 只是想要工作。但我认为人们忘记了,如果数据是高质量的,它的效果只会更好。所以,真正的奇迹是,即使数据不好,它也勉强能工作,但如果数据好得多,它的效果要好得多。

  Ben:说到物理学方面很有趣。你已经引出了哲学层面的争论。我对此的看法是,尺度缩放( scaling )是一个重要的观点,尺度缩放是有效的( the scaling works ),我们在 transformer 架构( transformer architecture )上还远未达到瓶颈。但是,即使你无限地扩展,你会使用 Sora 类型的模型来模拟飞机机翼如何工作的吗( Sora-type models to model an aircraft wing )?我非常怀疑这一点。但是,实际上,对于你所说的这一点,在涉及到虚拟现实的例子中是一个无关紧要的问题。当你在虚拟现实中或在任何娱乐场景中时,实际上没有人关心空气在机翼上的物理情况是否完美贴合现实。如果你想逐帧分析今天电影中 CGI 的物理情况,你可能会发现各种各样的漏洞,但实际上这并不重要。对我来说,这才是重要的。这些模型的 “物理学” 已经足够好了,而足够好的 “物理学” 在很多情况下都足够用了。

  DG: 是的,我认为是这样。我想你已经指出了这是一种“低端市场的破坏性创新” ( a downmarket disruption ),你不会用这种模型来替代“把东西放进风洞做测试”。但你可能会用它来替代制作你想做的视频游戏的模型或草图,或者电影场景之类的东西,所以我认为这是一个了不起的工具。

  至于 Sora,就像 OpenAI 关于发布它的推文所示,它需要很长时间来渲染内容。因此,我现在会将其类比为 LucasArts ( 卢卡斯影视 )的早期阶段,单个帧的渲染需要几个小时,成本也非常昂贵。当然,我们现在已经到了在我们的电脑上和 Unreal Engine 游戏引擎上可以比他们当年拥有的更好产品的时候。

  Ben:所以,基本上现在回头再看《 玩具总动员 1 》,就会知道渲染就花了好几天,而且看起来效果很糟。

  DG: 它看起来很糟糕,而 Sora 的出发位置并不那么糟糕。它需要的是几分钟,而不是几天,但它的成本确实非常高,但随着时间的推移,这将会变得更好。

  Ben: 你刚才提到了这一点,我认为这是一个非常有趣的观察, 有关于文本。文本在逻辑上更密集,但视频更大量( Text is more logically dense, but videos are more )。我不记得你怎么说的 —信息密度( information dense ),或者说图片胜过千言万语,视频又胜过图片千万倍。我们感知视频的时候获得的信息量更大,尽管电影中十分钟的段落可以用一段文字来概括。

  在这里有一个非常有趣的分叉线,在有多少逻辑嵌入在一个特定的片段( how much logic is embedded in a particular segment )中,和有多少信息存在于人们的感知中( the perception of how much information is there ),我突然意识到视频中也存在这样一个方面 — 我们已经在图像模型中看到了这一点。尽管从人类的角度来看,图像可能更令人印象深刻,包含更多信息,但它可以比语言模型小得多。视频也是一样的道理。从我的角度来看,它也没有理由不是这样别墅模型,考虑到它的工作原理。这只会突显出娱乐 / 虚拟现实这个巨大的市场,即使这与 “我有一个理解意义并且可以扮演代理以及去执行( I have an assistant that understands meaning and can be agentic and act )” 有所不同。

  NF:是的,我觉得很有趣。我在 Twitter 上提到过这一点,但我觉得很有趣的是,据说有很多人工智能实验室都以创造 AGI 为目标,也就是一些 “超人般能力的推理实体” ( superhuman reasoning entity ),而且他们似乎一致决定,通往 AGI 的道路上包括创造娱乐性的图像和视频,因为他们基本上都在这么做,也许达到AGI 确实需要做到这一点,谁知道呢?

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图8)

  但是,在这个行业里,我们可以看到一个有趣的共识,那就是对于人类来说,视频绝对是注意力的层级顶端( video is at the top of the attention hierarchy ),它是最能抓住你的东西。我们确实看到了这一点,因为Gemini 1.5 在通过大量 tokens 的推理能力上取得了相当重大的突破,而且Gemini 1.5 是在 Sora 之前的几个小时发布的,但 Sora 确实更引人注目,吸引了人们的想象力,因为你只需要观看它,就这么简单。看看 Sora 的效果就很难忘掉。

  Ben: 是的,我认为这是我得到的另一个启示。我认为 Daniel 说得对,OpenAI有扩展自己技术路线的勇气,他们的信念得到了回报( OpenAI has the courage to scale and their faith is rewarded ),我认为也许Sora 的推出,在很多方面,给了最后一批对 “扩展规模” 持怀疑态度的人一记猛药。如果你曾经在观望,说尺度法则行不通( scale doesn’t do it ),面对 Sora,很难再提出异议。另一个事情就是提醒我们,对于人类来说,视频是注意力金字塔的顶端 ( video is at the top of the attention pyramid ),社交媒体多年来一直在教育我们这一点,但现在我觉得我们也在 AI 领域看到了这一点。

  Ben: 另一个发布,我想应该是在同一天,是 Groq 在线发布了使用他们的处理器的演示。这与处理器( processor )有关,而不是模型的创新。他们使用Mistral 和 Llama 作为可用模型,但速度确实非常引人注目。我觉得这很重要,不是因为它对 Groq 的意义 —— 那是一个不同的问题,实际上我很好奇你们在某些问题上的观点 —— 而是长期以来,对于人工智能存在着用户体验问题( there is a user experience issue when it comes to AI ),我们讨论的许多用例,因为人工智能它很像人类( it is human-like ),恐怖谷效应( 范阳注:指人们看到机器或者电脑制作的人类图像时可能产生的厌恶感 )的广度非常大,基本上在这种体验中的任何摩擦都比在使用手机时重要得多。

  使用手机时,当你从口袋里掏出来手机或者你正使用这个设备时,你永远不会忘记你正在使用的是手机或电脑。你永远不会像,“哇,我以为我在跟一个真人交谈,其实我是在用手机说话。” 不,这永远不会发生,因此你实际上有更多的容忍度来接受用户体验上的摩擦。然而,当涉及到使用人工智能时,它能够听起来像人类一样,运行速度很重要,速度非常重要( speed matters, it matters hugely ),我认为那个演示为什么很重要是因为,抛开 Groq 这家公司的商业前景不谈,它确实让人感觉到,是的,这是正确的方向。速度实际上带来了天文数字般的差别,这感觉就像是验证了我的观点。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图9)

  范阳注:Groq 是一家技术领先的“机器学习推理加速器” 公司。Groq 宣称其 LPU( 语言处理单元 )的推理性能是英伟达GPU(图形处理器)的10倍,而成本仅为其十分之一。

  DG:是的,我认为我们人类的思维响应时间相当快( we have pretty fast response times from our minds ),我认为大脑运转在相当高的赫兹频率上 ( the brain runs at a pretty high hertz ),根据你的心情不同,会有阿尔法、贝塔、伽玛等频率状态,但归根结底,我们对现实的感知非常迅速,我们之前并没有经历过有什么东西是那么即时、快速和流畅的经历(we hadn’t quite had an experience where something was that instant and that fast and that fluid ),但说实话,我认为这只是一个开始,一些人将不得不努力将这个概念完全实现,无论是在 Groq 的硬件上还是其他地方,并将其打磨成一款非常精致、优雅的产品,能够处理中断的问题,诸如此类的事情。

  但一旦有人做到了这一点,如果我不得不猜测,如果我们试图在下一期播客或再以后的播客里进行预测,新的大事件是什么( what is the big new thing )?我的一个看法是,我们将进入一个更加有主动代理能力的模型世界( a more agentic world of models ),在这个世界中,我们现在拥有的东西都还只是处于 “寒武纪生物大爆炸之前” 的时期。

  Ben: 嗯,这就是应该对 Groq 持乐观态度的原因。如果你实际计算一下他们系统的成本,其速度如此之快的部分原因是每个芯片都有极少量的 SRAM,SRAM 可以保持数据的位置,而且超级昂贵,但它是确定性的,他们知道数据的确切位置,但这意味着他们需要大系统才能有足够的内存( they need big systems to have enough memory )。这意味着他们需要一个巨大的市场来开发 ( they would need a large market to develop )。因此,他们正在推动按 token 计算成本的想法( cost per token idea ),但你必须要有一个天文数字的 tokens 在系统中流动,这样的定价才有意义。不过,我的感觉是速度实际上很重要,这是一个使用场景的解锁者( a use case unlocker )。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图10)

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图11)

  NF:速度也是用户界面的解锁者( a user interface unlocker too )。由于模型输出速度慢,你不得不采用流式传输 tokens( streaming tokenization),tokens 流基本上都是冲着你来的,而现在有了速度,速度一直都是一个特点,我认为实际上在很多方面,这只是提醒了用户界面设计的一个长期规则,那就是速度很重要,延迟也很重要( speed matters, latency matters )。这是一个有趣的事情,因为用户通常不会要求它,但他们肯定会感觉到他们更喜欢那些反应灵敏的东西,而不是那些迟钝的东西。

  Ben:我认为,就像我说的,这种速度差异对于这类模型的重要程度要大得多。

  Ben: 嗯,在这种情况的时候,你就可以与模型进行交流,并且感觉这是很正常的对话。一点也不奇怪。

  NF: 是的。嗯,而且实际上,我认为,在某种程度上,它给人的感觉更像超人一样的超级人工智能( feels more superhuman ),因为你可以在几秒钟内得到一篇论文,你可以在几分钟内得到一本书的创作,在某种程度上,超人般的人工智能的感觉更强烈( the superhuman feeling is stronger ),但我也认为,你可以让模型,例如,如果你愿意花钱,让模型探索几条路径会更合理,也许它会尝试十种方法,然后选择其中最有效的一种,因为它可以很快完成这一点。

  NF: 可能会有更多的探索时间。所以我们已经习惯了看到一些用户界面的 hack 技巧,比如 Bing 这样的产品,它会输出一些文本,然后将其删除,并说,“对不起,我说了一些不该说的话”,或者其他什么的废话。在速度慢的情况下,这几乎是很滑稽的,这让人强烈地感觉到,我们依然处于 AI 发展的早期阶段,但在 AI 高速运行时,这种瑕疵可能根本不会被察觉到,所以我认为速度的提升释放了一大堆以前不可能实现的新体验,这让人兴奋不已。

  Groq 非常有趣,因为他们这家公司已经存在很长时间了。创始人乔纳森·罗斯( Jonathan Ross )在谷歌发明了 TPU,然后着手改进在某种程度上做得更好。我觉得他们差点就要完蛋了,然后大语言模型 LLM 突然出现,他们就有了这种看起来运行良好的专业芯片架构。再次,你会发现,在表面之下,它相当确定性( it’s quite deterministic ),这与他们的方法很匹配。

  Ben: 你之前提到了扩展的问题,丹尼尔。我认为与此相关的一个问题是关于芯片设计的一般情况,即在什么时候比 GPU 更专业化是有意义的(at what point does it make sense to specialize even more than the GPU)?GPU 比 CPU 更专业化,但它仍然是通用的技术,而这在涉及到诸如延迟之类的问题时会带来真正的成本。这两者是否相辅相成,密不可分?如果实际上规模是几乎所有问题的最终答案,这是否意味着更专业化芯片架构的机会可能比我们预期的更早到来?

  DG: 我觉得是的。我们坐在这里,我觉得,处于 AI ASICs ( Application-specific integrated circuit,特定应用集成电路)的时代来临之前。也许Groq 有点早了,因为它已经存在的时间有点长了,但如果我要猜的话,ASIC 将是未来的重要组成部分。

  范阳注:ASIC 是一种定制化的集成电路,专门设计用于执行特定任务或者专业功能,而不像是通用处理器 CPU 或者图形处理器 GPU 那样具有广泛的应用范围。这就像是一个定制化的工具箱,里面有各种各样的工具,每个工具都是为了某个特定的问题设计出来的,对于ASIC ,这些问题就包括了加速计算速度,加密和图像处理等等,ASIC 的设计和生产成本往往也更高,更接近于手工艺。

  AI 公司在训练模型时经历了两个周期,他们相对较不关心利润空间,他们只想要最好的 GPU,他们不想冒任何风险。你花了 3 亿美元,你只是希望你的模型能够 “正常输出”( you just want your model to “tape out” properly ),然后如果你找到产品市场契合点 ( product market fit ,也就是有人为你的产品买单并且有机增长 ),你就会自然进入推理时代。现在,在推理时代( in the inference era ),你最终会盯着你的成本( COGS ),你每个月都在盯着你的成本( COGS ),你会想,“天哪,我们每小时、每 个 GPU 都付出了那么多。我们完全有理由安排五个工程师,重新设计这个完全与之前不同的外星平台。” 这实际上是一种 ASIC,如果我把他们的芯片称为 ASIC,人们可能会不高兴,但你明白我的意思。

  DG: 这是一种专用芯片,这样做完全是有道理的,因为你只需要盯着你的成本。这有点像如果你能降低你的互通费率 ( interchange rate ),作为一家金融科技公司,你愿意花多少钱来构建自己的基础设施达到这个目的 ?嗯,答案通常是很多钱,而 Nvidia 的利润空间就像是 tokens 的互通费率 ( the Nvidia margin is a kind of interchange rate for tokens ),我想人们完全愿意为自定义架构进行构建工作和承担繁重的任务,而同样的方式人们在 2017 年不愿意接受,因为当时很少有公司甚至有收入。

  范阳注:对于金融市场的公司,interchange rate ( 互通费率 )是指银行或支付网络收取的费用,用于处理信用卡或借记卡交易。做个类比,互通费率就像是你要去购物中心开店,你需要给运营商支付租金,金融公司需要支付互通费率才能在支付网络上进行交易。今天的英伟达相当于也在对流动的 tokens 收租。

  DG: 顺便说一下,唯一拥有这种技术的是广告公司,比如 Meta 和 Google,他们有自己的芯片。所以我认为最终发生的事情是,你现在能够以一种方式来商业化这些模型,你可以自己算一算,为什么为定制架构重写这些模型是有意义的,如果让我猜的话,就我所知,Nvidia 在模型训练领域的主导地位一如既往强大( Nvidia’s dominance in training, as far as I can tell, remains strong as ever )。随着时间的推移,我并不认为他们会失去市场份额,但这块蛋糕会越来越大,推理领域的蛋糕会越来越大,其中包括一些 ASIC,当然,在某种程度上,TPU 和 Meta 已经拥有了自己的内部定制推理芯片,我认为,随着时间的推移,这块蛋糕会越来越大,因为这样做具有经济价值。

  在考虑终端数量( terminal number )时,我认为有一件事情还没有完全计算在内,那就是我们考虑终端时通常是从 AI 的能量需求和所有这些方面来思考的。分母通常是一年内生产的 Nvidia 芯片数量,大约是两到三百万个,所以可能是两到三千万瓦的能量需求,但如果分母是通过 TSMC 生产的芯片数量,因为市场上还有所有这些 AI ASIC 公司,任何找到产品市场匹配的公司( anyone with the product market fit decides to make their own chips )都决定自己制造芯片,那就是每年 2000 万、3000 万、4000 万个芯片,如今大多数生产的显然是 iPhone 手机芯片,功耗非常低。但无论如何,我认为当将基础设施迁移到更专业化的领域时,动态会发生变化。

  有一件事可能会打破这种局面,我应该提一下,那就是我们现在所处的环境非常不稳定,因为如果架构发生变化( if the architecture changes ),也就是说,如果有人取得了架构上的突破,而普通的 transformer 又表现很糟糕,而你又确实想要其他的东西,那么所有人都会涌向新的领域,而你实际上想要的是更通用一点的东西,而不是定制专业化的东西( you’re actually going to want something that’s a little bit more general and not specific )。因此,Nvidia、AMD 甚至会成为推理芯片的选择,但如果不出现这种颠覆性情况,而且每过一天,我认为出现这种情况的几率就会降低,这并不是因为 transformer 架构是一个奇迹以及它就是最好的架构,而是围绕 transformer 的生态系统的数量在不断增长,我认为,这些公司用自己的芯片进行专业化到时是有意义的。

  Ben:关于用户界面加速( interface speed-ups )的一个有趣问题是,我们是否即将解锁真正的( AI时代的 )全新设备( are we on the verge of really unlocking actual new devices )?我想起在 CES 上展示的那个叫做 Rabbit R1 或类似的 AI 硬件产品,虽然我还没有拿到手,但我觉得那会是一个糟糕的产品,它会连接到云端(进行计算),那里产生的延迟会让体验很差,它使用 GPU 运行设备,效果不会太好,我已经意识到了这一点。

  但你可以期待这样一个世界,如果它连接到云端,连接到这个 Groq 界面会发生什么?有时会变得更快,更有趣一些,如果我们实际上可以在本地运行一个相对小型但数据输入量很大的模型呢?这一直是一个持续的疑问,但至少从公开的角度来看,到目前为止在这一点上还没有大量的开发工作。除了浏览器和聊天机器人之外,什么时候才能开始将其应用到其他设备上呢( when does this start crossing over into devices other than a browser and a chatbot )?

  已经有一些人,我上周见到了其中一个,他们正在使用来自 ElevenLabs ( 语音人工智能实验室 )等地方的真正高质量的语音模型,并在低延迟的情况下将这些东西拼接在一起并且运行良好。我见过一个名为 Retail.AI 的项目,它并没有百分百完全达到目标,但它是我听过的最接近这种目标的一个团队,当你使用它时确实会有所感觉( you do feel something when you use it )。这会是这样一种感觉,就好像另一端有一个真人( there is the sense that there is a personality on the other side ),随着人们训练真正理解韵律( train models that really understand prosody ),并能够适当调动语调的模型,以及实现真正的全双工( invoke tone appropriately and a really full duplex ),因此它们不会等待你对话中的停顿时刻,而是可以随时参与对话,我认为到时会产生一种魔法般的感觉,我们将会越来越接近这个情况,我预计今年会有人在这方面努力。

  所以我认为这就是科幻电影 Her 里的人工智能体验。每个人都知道这是可能的,并且即将实现,我有点惊讶于这么长时间才实现,但我认为我们肯定会实现的。我不知道它是否是一整个设备,但它是一种体验( I don’t know if it’s a device, but it’s an experience),我不知道它是否必须是基于本地的,我认为不需要( I don’t know if it has to be local, I don’t think it does)。Retail.AI,我认为,显示了它不必是本地的就能发挥作用。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图12)

  Ben:这也是问题的一部分。有关 LLM 讨论的部分含义是,它对虚拟物理很有帮助( it’s great for virtual physics ),这种虚拟物理足够好 ( good enough physics ),但它是否真的会跨越到现实世界,或者是否会出现越来越多的分叉,网络世界完全是虚拟的,谁知道什么是真的,什么是假的?但是,也有一个非常明确的界限,或者有一个方面,例如,我们来看看机器人领域,核心物理属性仍然是非常确定性的( the core physical attributes are still very deterministic ),并且它必须正常运转,但因为它使用LLM 进行交流(it speaks with an LLM),实际上可以帮助你从感知的角度跨越这种鸿沟吗(cross the divide from a perception perspective)?

  NF: 对于处理问题,似乎不可避免地会有某种本地和远程处理 ( local and remote processing ),例如,如果你有一个机器人,它必须有一些相当高赫兹的处理过程,帮助它四处走动,对事物做出反应,不至于摔倒。这必须是本地化的,也许有很大一部分可以是本地化的,但当它可能做出一些更重要的决定时,它必须参考大量的数据( as it maybe makes some bigger decisions that it has to consult a huge amount of data )。例如,它是您的个人助手机器人( your personal helper robot ),它了解您生活的一切,也许并非所有信息都存储在本地,或者它知道需要查找关于世界的信息,因此我认为总会有一种大脑存在于云端用于某些事情( there will always be some kind of big brain in the cloud that’s used for something ),而我认为这种分割是一个大问题( the split is the big question ),但已经在机器人模型中看到了这种分层模型,其中会有 50 赫兹或 100 赫兹的模型来处理机器人运动学,帮助机器人在世界中移动。

  NF: 实际上,对于运动学( kinematics )还有一些学习方法也是有效的。我们开始看到这些端到端的训练 ( end-to-end training )。实际上,我认为我和丹尼尔最近曾经与一家正在做这个的公司进行过交流。似乎有一股关于机器人基础模型 ( robotic foundation models ) 的热潮正在涌现,我们还没有迎来机器人技术的GPT-3时刻,你在桌子上放上几只手,它就能系鞋带、装饰蛋糕或拼装乐高积木,并能相对较好地完成所有这些事情,或者感觉像是机器人智能的雏形 ( the beginnings of robotic intelligence ),但这似乎将在未来12 或 18 个月内出现。我们将会看到这些演示。

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图13)

cq9电子平台网站:与Nat Friedman和Daniel Gross推演人工智能的发展(图14)

  Ben:你觉得数据将会成为真正的差异化因素吗?会出现为获取独家数据集( exclusive data sets )而进行争夺,还是说数据集也会变成一种商品,每个人都将意识到真正的差异化方式是通过某种产品( the way you actually differentiate is with the product ),而获得最佳数据集其实对每个人都有好处,这样就会有更多的集体行动?

  NF:我认为这是一个非常好的问题。如果是在几年前,我认为更有可能出现开放的通用数据集 ( common data sets )。目前有一些开放的机器人数据集,但它们规模较小,质量也较低,但现在我们已经进入了人工智能淘金热,无论是通过远程操作还是其他方式获得,收集大量数据的那些昂贵项目很可能会发生在有大量资金支持的公司内部,无论是大公司还是小公司。

  NF:墙要砌起来了,数据的闸门肯定要关了( The walls are going up, definitely the shutters are down on data),以前爬取互联网的数据可比现在容易。总的来说,“爬数据” 已经变得更加困难( scraping has gotten harder ),你可以在各个领域看到这一点。因此,我认为一些公司过去并不认为 “用户生成内容” ( UGC ) 的内容是一种资产,现在突然意识到了这一点。他们说:“等等,我们有这么多可以进行训练的大数据集。”

  NF: 是的,确切地说。我们不应该让人们随意获取数据并进行训练,要加强爬取难度,并将其视为可能随着时间推移具有一定价值的资产,因此在整体上确实发生了这种情况,而且收集机器人数据成本非常昂贵( the robotic data is so expensive to collect )。关于在模拟中可以完成多少工作还存在一些疑问,但无论如何,你都必须做大量工作来收集数据,我敢打赌,最终会有很多私人数据集相互竞争(my bet would be that there ends up being lots of competing private data sets)。

  Ben: 关于英伟达(Nvidia),因为你在“训练与推理”的问题中提到了它,我们就简单说一下。Nvidia 的盈利是爆炸性的,但我对人们的看法有点困惑 — Nvidia 供应受限( supply constrained ),这意味着实际上他们的盈利在某些方面受制于台积电的产能。我将其比喻为早年的苹果 iPhone。苹果公司每个季度的预测都非常准确,我们能预测这一点,每个季度都会超出预测的 5% ,原因就在于它受制于运营商的能力,而运营商则保证了当时产品的销售量等。在你真正拥有足够的供应量之前,你实际上并不知道最终的需求量到底是多少,而 Nvidia 似乎现在就是这种情况。但是,如果你跟 Jensen (黄仁勋)谈,他当然会认为这是个登月项目,几乎看不到上限,他们的产品将用于训练、推理,用于一切计算。我想问,第一,我们离满足需求还有多远,这是否会让 — 第二,讨论训练/ 推理的问题变得毫无意义,因为现在算力还远远不够?

  NF: 丹尼尔可能会对这个问题有一个更好的长期视角,但我会说,根据我们所看到的所有信号以及 Sora 和 Gemini 这些大模型再次进行新一轮规模扩张( another round of scale-pilling )的情况,就我所知,Nvidia 在 2025 年将会销售它能生产的一切。这只是因为有大量的订单正在进行中,世界各地的大公司和小公司都在说:“天那,我们需要加大投入(算力)。” 这是令人难以置信的,这就是 Jensen 今天的业务。他所处的情况是,世界上主要公司的首席执行官不得不在推特上发布他们购买英伟达产品的单位数量,以保持行业竞争力。

  Ben: 不仅如此,而且 Nvidia 也从英特尔实际上开始运营他们的芯片铸造业务中受益,这使得台积电这个天生保守的公司不敢涨价太多,因为他们最害怕的是失去订单量,所以这就是半导体行业的本质。所以在电话会议上他们会被问到:“ 你知道 Nvidia 的芯片定价是多少吗?你确定你应该再涨价吗?” 但他们不想走得太远,所以 Nvidia 在两方面都处于有利地位,他们是双方的 “咽喉”,如果他们最终成为了双供应商( dual suppliers ),那就会变得非常有意思。

  NF:丹尼尔和我一直在想这个问题。我们一直很困惑,为什么台积电的利润率暂时没有改善?为什么他们没有拿走更多的利润?我想你刚才已经说过了,他们经历了这么多轮的繁荣和萧条,他们已经超越了很多做出错误举动的人。

  Ben:台积电没有习惯成为世界领先的芯片铸造代工企业,这是问题的关键。他们的企业文化,第一,他们所有的领导层,这是张忠谋(Morris Chang)的一大信念,他曾经在美国工作过,他认为这是一个大问题,部分原因是台湾的企业文化心态是成本加成,就像 我的老板对我很差,我要去隔壁建立完全相同的业务,然后在价格上打败他。因此,这种心态与台积电曾经一直落后的事实相结合,他们纯粹靠价格竞争而脱颖而出,而现在他们已经处于行业领先地位,实际上他们的利润率提高了很多,价格也提高了很多。虽然还不足以影响他们在整个价值链中的地位,但现在他们会面临的问题是,当他们终于意识到 对啊,我们或许应该进一步提高价格 时,实际上,在三四年后,他们可能真的会面临激烈竞争,现在他们担心的是如何把每个人都留在自己的帐篷里。


020-88888888