用更大模型预测下一个词值得全力以赴 Hinton万字访谈

机器之心编辑部

「这份访谈的每一秒都是精华。」最近，图灵奖得主 Geoffrey Hinton 的一个访谈视频得到了网友的高度评价。

视频链接：https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s

在访谈中，Hinton 谈到了很多话题，包括当前大模型的技术路线、多模态学习的重要性、数字计算与共享知识、智能系统的意识与情感以及他的合作者和优秀学生……

Hinton 认为，大型语言模型通过寻找不同领域的共同结构来进行编码，这种能力使它们能够压缩信息并形成深层次的理解，发现现实世界中人类尚未发现的万事万物的联系，这是创造力的来源。他还提到，通过预测下一个符号，模型实际上必须执行一定程度的推理，而不是像很多人所说的大模型并不具备推理能力。随着模型规模的增加，这种推理能力也将变得越来越强。这是一个值得全力以赴的方向。

在回忆和 Ilya 的师生合作时，Hinton 提到，Ilya 拥有很好的直觉。他很早就预见到，增大模型的规模是有用的，尽管当时 Hinton 并不看好这个想法。事实证明，Ilya 的直觉是很准的。

整个访谈时间跨度比较大，为了方便梳理故事背景，我们可以先回顾一下 Hinton 的职业生涯：

以下是访谈内容：

，时长

起点：理解大脑的工作方式

我还记得我第一次从英国到卡内基梅隆大学的时候。在英国的研究机构，大家到了 6 点都会去酒吧喝一杯。但到了卡内基梅隆，几周后的一个周六晚上，那时我还没有任何朋友，也不知道该做什么，所以我决定去实验室编程。因为我有一台列表机（list machine），这个东西不能在家编程。所以我在周六晚上大约 9 点钟去了实验室，结果里面挤满了人，所有的学生都在那儿。他们之所以这样，是因为他们所做的事情代表未来。他们都相信，他们接下来做的事情将改变计算机科学的进程。这与英国的情况非常不同，非常令人耳目一新。

Hellermark：我们回到起点 —— 剑桥时期的你。当时，你试图理解大脑的工作方式，那时是什么情况？

那是段非常令人失望的时光。我当时主要研究生理学。在夏季学期，他们要教我们大脑是如何工作的。他们教的只是神经元如何传导动作电位，这非常有趣，但它并没有告诉你大脑是如何工作的。所以那非常令人失望。随后，我转向了哲学。那时的想法是，也许哲学会告诉我们思维是如何工作的。结果同样令人失望。我最终去了爱丁堡大学学习人工智能，那更有趣。至少你可以模拟东西，这样你就可以测试理论了。

Hellermark：你还记得是什么让你对 AI 产生了兴趣吗？是读了某篇论文吗？还是某个特定的人向你介绍了这些想法？

我想是 Donald Hebb（加拿大心理学家，认知心理生理学的开创者）写的一本书对我产生了很大影响。他对如何在神经网络中学习连接强度非常感兴趣。我还读了冯・诺依曼（计算机之父）的书，他对大脑如何计算以及它与普通计算机有何不同非常感兴趣。

Hellermark：在爱丁堡的那些日子里，你有没有一种信念，认为这些想法会成功？或者你当时的直觉是什么？

在我看来，大脑肯定有一种学习的方式。大脑的学习并非依靠将各种事物预设编程，然后运用逻辑推理规则 —— 这种做法从一开始就显得过于疯狂。因此，我们必须解开大脑是如何学会调整神经网络中的连接，使其能够处理复杂事物的谜团。对于冯・诺依曼和图灵来说也是如此。冯・诺依曼和图灵都非常擅长逻辑，但他们不相信这种逻辑方法。

Hellermark：你是如何将研究神经科学的想法与只是做那些看起来不错的人工智能算法区分开来的？你在早期获得了多少灵感？

我并没有在神经科学上做太多研究。我总是受到我对大脑工作原理的启发，那里有一堆神经元，它们执行相对简单的操作。它们是非线性的，但它们收集输入，加权这些输入，然后输出取决于那些加权输入。问题是，你如何改变这些权重，让整个系统做出一些好的事情。这看起来像是一个相当简单的问题。

Hellermark：你还记得那时的合作者吗？

我在卡内基梅隆的主要合作对象并不是卡内基梅隆的人。我与在巴尔的摩约翰・霍普金斯大学的 Terrence Sejnowski 有很多互动。大约每月一次，要么他开车去匹兹堡，要么我开车去巴尔的摩。两地距离 250 英里（约 402 公里）。我们会一起度过一个周末，一起在巴尔的摩的机器上工作。那是一次很棒的合作。我们都相信那就是大脑的工作方式。那是我所做过的最令人兴奋的研究，产出了很多技术上非常有趣的结果，但我认为那不是大脑的工作方式。

我还与 Peter Brown 有很好的合作，他是一位非常优秀的统计学家，在 IBM 工作，研究语音识别。他是作为一名成熟的学生来到卡内基梅隆的，为了拿到博士学位。其实他已经懂得很多了。他教了我很多关于语音的知识，教了我隐马尔可夫模型。我觉得我从他那里学到的比他从我这里学到的要多。这就是大家都想要的那种学生。当他教我隐马尔可夫模型时，我正在用隐藏层做反向传播。那时它还不叫隐藏层。我认为马尔可夫模型中使用的这个名字对于那些你不知道它们在干什么的变量来说是一个很好的名字。所以这就是神经网络中「隐藏层」名字的由来。

谈 Ilya：他有很好的直觉

Hellermark：带我们回忆一下 Ilya 出现在你办公室的时候。

那可能是一个周日，我在编程，然后有人敲门。不是随便的敲，而是有点急切的那种。然后我去开门，门口站着一个年轻的学生。他说他整个夏天都在炸薯条，但他更愿意在我的实验室工作。我说，你为什么不预约一下，我们再谈谈？然后 Ilya 说，「现在谈怎么样？」这就是 Ilya 的性格。

我们聊了一会儿，我给了他一篇论文，那是发表在 Nature 上的反向传播的论文。我们又安排了一周后的另一次会议。他回来说他没理解，我非常失望。我以为他看起来是个聪明人。我给他的论文只涉及链式法则，不难理解。结果他说，「不，我理解了那部分。我只是不明白你为什么不把梯度给一个合理的函数优化器」。这个问题让我们思考了好几年。Ilya 就是这样，他有很好的直觉，他的想法总是很好。

Hellermark：你认为是什么让 Ilya 有了那些直觉？

我不知道。他总是自己思考。他从小就对 AI 感兴趣，还擅长数学。

Hellermark：你们两个之间是怎么合作的？你扮演了什么角色，Ilya 扮演了什么角色？

跟他合作非常有趣。我记得有一次我们试图用一种复杂的方法制作数据图，我有一种混合模型，你可以用同样的一组相似性制作两张图。这样在一张图上，银行可能离绿地很近，在另一张图上，银行可能离河流很近。因为在一张图上，你不能让它同时离两者都很近，对吧？因为河流和绿地距离很远。

我们用 MATLAB 做这件事，这涉及到大量的代码重组，以进行正确的矩阵乘法。然后他厌烦了。所以有一天，他说，「我要去为 MATLAB 写一个接口。我要用这种不同的语言编程，我有一些东西可以将其转换为 MATLAB。」我说，「不，Ilya，那将花费你一个月的时间。我们必须继续这个项目。不要被那个事情分散注意力。」Ilya 说，「没关系，我今天早上就做好了。」

Hellermark：太不可思议了。在那些年里，最大的转变不仅仅是算法，还有规模（scale）。这些年来你是如何看待 scale 的？

Ilya 很早就有了那种直觉。所以 Ilya 总是说，你只要把它做得更大，效果就会更好。我总觉得这有点逃避现实，你也得有新想法。结果，他的直觉基本上是正确的。新的想法有帮助。Transformer 之类的东西帮了大忙，但真正的问题在于数据的规模和计算的规模。那时，我们根本不知道计算机会快上 10 亿倍。我们以为也许会快上 100 倍。我们试图通过提出一些聪明的想法来解决问题，但如果我们有更大的数据和计算规模，这些问题就会迎刃而解。

大约 2011 年，Ilya、我和另一个名叫 James Martins 的研究生，发表了一篇使用字符级预测的论文。我们利用维基百科，尝试预测下一个 HTML 字符。结果效果非常好。我们一直对它的效果感到惊讶。那是在 GPU 上使用了一个花哨的优化器，我们永远无法相信它能理解任何东西，但它看起来好像能理解，这看起来简直不可思议。

「预测下一个词」也需要推理

Hellermark：这些模型是如何预测下一个词的？为什么这是一种错误的思考它们的方式？

我并不认为这是错误的方式。事实上，我认为我制作了第一个使用嵌入和反向传播的神经网络语言模型。数据非常简单，只是三元组，它将每个符号转换为嵌入，然后让嵌入相互作用以预测下一个符号的嵌入，然后从那预测下一个符号，然后它通过整个过程进行反向传播来学习这些三元组。我展示了它可以泛化.

大约 10 年后，Yoshua Bengio 使用了一个非常类似的网络，并证明它可以处理真实文本。此后大约 10 年，语言学家们开始相信嵌入。这是一个缓慢的过程。

我之所以认为它不仅仅是预测下一个符号，是因为如果你问，预测下一个符号需要什么？具体来说，如果你问我一个问题，然后答案的第一个词就是下一个符号，你就必须理解这个问题。因此，我认为预测下一个符号与老式的自动补全功能很不一样。在老式的自动补全功能中，你需要存储三元组单词。然后，如果你看到一对单词，你会看到不同单词出现在第三位的频率，这样你就能预测下一个符号。这就是大多数人认为的自动补全功能。现在已经完全不是这样了。

为了预测下一个符号，你必须理解所说的话。所以我认为，通过让它预测下一个符号，你正在迫使它去理解。我认为这和我们的理解方式是一样的。很多人会告诉你这些东西不像我们，它们只是预测下一个符号，不像我们那样进行推理。但实际上，为了预测下一个符号，它必须进行一些推理。我们现在已经看到了，即使你不加入任何特殊的推理元素，仅仅是制造出大的模型，它们也已经可以进行一些推理了。我想，当你把它们做得更大时，它们就能进行更多的推理。

Hellermark：在你看来，我现在除了预测下一个符号之外还在做什么？

我认为那就是你的学习方式。你在预测下一个视频帧，你在预测下一个声音。但我认为这是一个相当合理的大脑学习理论。

Hellermark：是什么让这些模型可以学到如此广阔的领域？

这些大型语言模型所做的是寻找共同的结构。它们可以使用共同的结构来编码事物，这样更有效率。

举个例子，如果你问 GPT-4，为什么堆肥堆像原子弹？大多数人回答不出来。大多数人没有想过，他们会认为原子弹和堆肥堆是非常不同的东西。但 GPT-4 会告诉你，它们的能量规模非常不同，时间规模非常不同。但它们的共同点是，当堆肥堆变得更热时，它产生热量的速度更快；当原子弹产生更多的中子时，它产生中子的速度也更快。所以这就得到了连锁反应的概念。我相信它理解这两种连锁反应，它使用这种理解将所有这些信息压缩到它的权重中。如果它确实在这样做，那么它将会对我们还没有看到的所有事物进行同样的操作。这就是创造力的来源 —— 看到这些表面上截然不同的事物之间的类比关系。

所以我认为，当 GPT-4 变得更大时，它最终会变得非常有创造力。那种认为它只是在重复学习过的东西，只是把已经学过的内容粘贴在一起的想法，是完全错误的。它会比人类更有创造力。

Hellermark：你说它不仅仅会重复我们迄今为止所开发的人类知识，还可能取得更大的进步。我认为我们目前还没有充分看到这一点。我们已经开始看到一些例子，但在更大范围内，它还停留在当前的科学水平。你认为怎样才能让它超越这个水平？

我们在更有限的情况下看到过这种情况。比如在 AlphaGo 和李世石的那场著名比赛中，在第 37 步，AlphaGo 下了一步所有专家都认为肯定是错误的棋，但后来他们意识到这是一步绝妙的棋。这就是在有限领域内的创造性。我认为随着模型规模的扩大，我们会看到更多这样的情况。

Hellermark：AlphaGo 的不同之处在于它使用了强化学习，这使它能够超越当前状态。它从模仿学习开始，观察人类如何下棋，然后通过自我对弈，发展得远远超出了那个水平。你认为这是标准组件缺失的部分吗？

我认为这可能是缺失的部分。AlphaGo 和 AlphaZero 中的自我对弈是它们能够做出这些创造性举动的很大一部分原因。但我不认为这是完全必要的。

有一个很久以前的实验，你训练一个神经网络来识别手写数字。我非常喜欢这个例子。你给它的训练数据中有一半的标签是错误的。问题是它能学得多好？而且这些错误标签是固定的，每次看到特定样本时它都与相同的错误标签配对，所以它不能通过多次看到相同样本但标签有时正确有时错误来平均化这些错误。训练数据中有 50% 的错误标签，但如果你用反向传播训练神经网络，它的错误率可以降到 5% 以下。换句话说，即使从标注错误的数据中，它也能得到更好的结果。它能够识别出训练数据中的错误。这就像聪明的学生比他们的导师更聪明。导师告诉他们很多东西，但有一半的信息是错误的，学生能分辨出哪些是错的，只听正确的那一半，最后比导师更聪明。所以这些大规模神经网络实际上能够做到的比它们的训练数据更好，大多数人并没有意识到这一点。

Hellermark：那么你认为这些模型将如何将推理融入其中呢？我的意思是，一种方法是在模型之上添加启发式方法，现在很多研究都在这样做，你可以在模型中加入一些思考，将推理反馈给模型本身。另一种方式是扩大模型规模。你的直觉是怎么做？

我的直觉是，随着我们扩大这些模型的规模，它们会变得更擅长推理。如果你问人们是如何工作的，大致说来，我们有这些直觉，我们可以使用推理，我们使用推理来纠正我们的直觉。当然，在推理过程中我们也会用到直觉。但如果推理的结论与我们的直觉冲突，我们会意识到需要改变直觉。这很像在 AlphaGo 或 AlphaZero 中，你有一个评估函数，它只是看着棋盘说，这对我有多好？但当你进行蒙特卡洛模拟时，你就会得到一个更准确的想法，从而修正你的评估函数。所以你可以训练它，让它同意推理的结果。

我认为这些大型语言模型必须开始这样做。它们必须开始训练自己的原始直觉，通过推理来判断下一步应该做什么，并意识到这是不对的。这样，它们就能获得更多的训练数据，而不仅仅是模仿人们的行为。这正是 AlphaGo 能够构想出这个创造性的第 37 步的原因。它有更多的训练数据，因为它是通过推理来确定下一步应该怎么走的。

模型能从语言中学到很多，但从多模态中学习会更容易

Hellermark：你如何看待多模态？当我们引入图像、视频和声音时，你认为这将如何改变模型？

我认为这会有很大的改变。我认为这会让模型在理解空间事物方面做得更好。例如，仅从语言来理解一些空间事物相当困难，尽管令人惊讶的是，即使在成为多模态模型之前，GPT-4 也能做到这一点。但是当 GPT-4 成为多模态模型时，如果你同时让它做视觉和触觉，伸手去抓取东西，它会更了解物体。

所以尽管你可以从语言中学到很多东西，但如果是多模态，学习会更容易。实际上，你需要的语言就更少了。例如，有很多 YouTube 视频可以预测下一个画面。所以我认为多模态模型显然会占据主导地位。这可以获得更多数据，需要的语言会更少。所以这是一个哲学观点，你可以仅从语言中学到一个很好的模型，但从多模态系统中学到它要容易得多。

Hellermark：你认为这将如何影响模型的推理？

我认为这会让模型在空间推理方面做得更好。例如，关于如果拿起物体会发生什么的推理。如果真的尝试拿起物体，你会得到各种各样的训练数据。

关于「认知」的三种观点

Hellermark：你认为人类大脑进化到能够很好地使用语言，还是语言进化到能够很好地与人类大脑配合？

关于语言是否进化到与大脑配合，或者大脑是否进化到与语言配合的问题，我认为这是一个非常好的问题。我认为两者都发生了。

我曾经认为我们会在根本不需要语言的情况下进行很多认知活动，但现在我改变主意了。我举三种关于语言以及它与认知的关系的观点。

第一种，老式象征性观点，即认知由一些清理过的逻辑语言中的符号字符串组成，没有歧义，且应用推理规则。因此认知只是对像语言符号字符串这样的东西进行符号操作。这是一种极端观点。

另一种极端观点是：一旦进入大脑内部，一切都是向量。符号进来，你将这些符号转换为大型向量，所有的洞察都是用大型向量完成的。如果你想产生输出，你将再次产生符号。所以在 2014 年的机器翻译中有一个时刻，人们使用循环神经网络，单词会不断进来，它们会有一个隐藏状态，并在这个隐藏状态中不断累积信息。所以当到达句子的结尾时，就有一个大的隐藏向量，捕捉了句子的含义。然后它可以用来产生另一种语言中的单词，这被称为思维向量。这是关于语言的第二种观点。

还有第三种观点，也是我现在相信的，即大脑将这些符号转换为嵌入，并使用多层嵌入。所以你将得到非常丰富的嵌入。但嵌入仍然与符号相关联，从这个意义上讲，符号有其对应的大向量。这些向量相互作用产生下一个词的符号的向量。因此理解是指知道如何将符号转换为向量，以及向量的元素如何相互作用以预测下一个符号的向量。这就是大型语言模型以及我们的大脑中的理解方式。你保留符号，但将其解释为大向量。所有的工作以及所有的知识都在于使用哪些向量以及这些向量的元素如何相互作用，而不是在符号规则中。但这并不是说你完全摆脱了符号，而是说将符号转换为大向量，但保留符号的表面结构。这就是大型语言模型的运作方式。现在我认为这似乎也是人类思维一个更合理的模型。

「黄仁勋送了我一块 GPU」

Hellermark：您是最早想到使用 GPU 的人之一。我知道 Jensen（黄仁勋）因此而爱您。早在 2009 年，您就提到您告诉 Jensen，使用 GPU 对于训练神经网络来说可能是一个非常好的主意。

实际上，2006 年左右，我有一个名叫 Richard Szeliski 的研究生。他是一个非常优秀的计算机视觉专家。我在一次会议上和他讨论，他说应该考虑使用图形处理单元，因为它们非常擅长矩阵乘法，而您所做的事情基本上就是矩阵乘法。

所以我思考了一段时间。然后我们了解到 Tesla 系统配有四个 GPU。最初我们尝试使用游戏 GPU，发现它们使运行速度快了 30 倍。然后我们买了一个带有四个 GPU 的 Tesla 系统，我们在它上面做了语音处理，效果非常好。

然后在 2009 年，我在 NIPS 上做了一个演讲，我告诉 1000 名机器学习研究人员，你们都应该去买英伟达的 GPU。GPU 是未来。你们需要 GPU 来进行机器学习。然后我实际上给英伟达发了邮件，说我告诉了 1000 名机器学习研究人员去买你们的产品，你们能免费送我一个吗？他们没有说不。实际上，他们没有回复。但后来当我告诉 Jensen 这个故事时，他免费送给我一个。

数字系统有人类无法比拟的优势

Hellermark：那太好了。我认为有趣的是 GPU 的演变与这个领域的发展是同步的。你认为我们接下来在计算方面应该走向何方？

我在谷歌的最后几年，我一直在思考如何尝试进行模拟计算。即不是使用像一兆瓦这样庞大的电力，而是使用像大脑一样的 30 瓦电力，就可以在模拟硬件中运行大型语言模型。

这一点我从未实现过。但我开始真正欣赏数字计算。如果你要使用低功耗模拟计算，每个硬件都会有所不同，要利用硬件的特定属性。这就是发生在人类身上的事情。我们所有人的大脑都不同，所以我们不能把你大脑中的权重拿出来放进我的大脑。硬件是不同的。单个神经元的确切属性是不同的。

当我们去世后，我们的知识和经验大部分会随之消失，因为人类传递知识的方式通常涉及语言交流，这种方式相对效率较低。然而，数字系统则不同，它们可以通过共享权重（即学习过的数据和参数）来传递知识。一旦一个数字系统学习了某些知识，这些权重就可以被保存并在其他任何相同配置的系统中重用。这种方式不仅保证了知识的精确复制，还极大提高了学习和知识共享的效率。因此，数字系统在共享和扩散知识方面，具有远超人类的能力。

需要得到重视的快速权重

Hellermark：很多已经在实际应用中部署的人工智能系统的理念源于早期的神经科学理论，这些理念已经存在了很长时间。现在的问题是，还有哪些未被充分利用的神经科学理论可以应用到我们开发的系统中？这需要我们探索神经科学中的未被充分挖掘的理论，将它们转化为技术，以推动人工智能技术的进一步发展。

在人工智能与神经科学的对比中，一个我们仍需追赶的重要方面是变化的时间尺度。在几乎所有的神经网络中，都存在快速时间尺度的活动变化 —— 输入数据后，嵌入向量会发生变化。而另一种是慢速时间尺度，即权重的变化，这关系到长期学习。在大脑中也有这两个时间尺度。

例如，如果我突然说出一个意外的词，比如黄瓜，五分钟后你戴上耳机，在嘈杂的环境中，如果有很轻微的话语声，你会更容易识别出黄瓜这个词，因为我五分钟前说过它了。那么这个知识存储在哪里呢？在大脑中。这种认知显然是暂时性的突触改变所保存的，而不是特定的神经元来保存 —— 我们的大脑中并没有足够多的神经元来做这种事。这种暂时性的权重改变，我称之为快速权重，在我们目前的神经模型中并没有应用。

我们之所以没有在模型中使用快速权重，是因为如果权重的暂时性变化依赖于输入数据，那么我们就无法同时处理多种不同的情况。目前，我们通常会将多种不同的数据批量堆叠在一起，并行处理，因为这样可以进行矩阵乘法，效率更高。正是这种效率的需求阻碍了我们使用快速权重。然而，大脑明显利用快速权重来进行临时记忆存储，并且可以通过这种方式实现许多我们目前未能做到的功能。

我曾对像 GraphCore（一家英国半导体公司，开发人工智能和机器学习加速器，它引入了大规模并行智能处理单元，在处理器内保存完整的机器学习模型）这样的技术抱有很大希望，如果它们采取序列方式并只进行在线学习，那么它们就能使用快速权重。但这种方法尚未取得成功。我认为，当人们开始使用导电性（conductances）作为权重时，这种方法最终会取得成功。

乔姆斯基的部分理论是无稽之谈

Hellermark：了解这些模型的工作原理以及大脑的工作原理对你的思考方式有何影响？

我认为有很大的影响，这是一个相当抽象的水平。一直以来，在 AI 领域，曾经有一个广泛的观点认为，仅仅依赖大量训练数据让一个庞大的随机神经网络去学习复杂事物是不可能的。如果你和统计学家、语言学家或大多数人工智能领域的人交流，他们会说这只是一个白日梦，认为没有大规模的架构，就无法学习到真正复杂的知识。

但实际情况完全颠覆了这种观点。事实证明，你可以通过大量数据训练一个庞大的随机神经网络，利用随机梯度下降方法不断调整权重，从而学习到复杂的事物。这一发现对我们理解大脑的结构具有重要意义，表明大脑并不需要天生就具有所有的结构性知识。当然，大脑确实具有许多先天结构，但它显然不需要依赖这些结构来学习那些容易获得的知识。

这种观点也挑战了乔姆斯基的语言学理论，即复杂的语言学习必须依赖于先天就编织在大脑中的结构，并且要等待这种结构成熟。这种想法现在显然是无稽之谈。

Hellermark：我相信乔姆斯基会感谢你称他的观点为无稽之谈。

智能系统也能拥有情感

Hellermark：你认为要使这些模型更有效地模拟人类的意识，需要做些什么？

我认为它们也可以出现情感（feeling）。我们常常倾向于使用「内部剧场模型」来解释感知（perception）和情感。比如我说我想打 Gary 的鼻子，让我们试着把它从内部剧场模型的概念中抽象出来。这通常被解释为一种内部情感体验。然而，这种模型可能并不准确。实际上，当我表达这种情感时，我的真实意图是，如果不是因为我的前额叶的抑制作用，我可能真的会采取这样的行动。因此，所谓的情感，实际上是我们在没有限制的情况下可能会采取的行动。

事实上，这些感觉并非人类独有，机器人或其他智能系统也有可能体验情感。例如，1973 年在爱丁堡，我见过一个机器人表现出情感。这个机器人有两个抓手，可以在绿色毛毡上组装玩具汽车，只要将零件分开放置。但如果你把零件堆在一起，由于它的视觉系统不够好，无法分辨情况，它会显得困惑并将零件击散，然后再进行组装。如果这种行为发生在人类身上，我们可能会认为他因为不理解情况而感到恼怒，并因此摧毁了它。

Hellermark：这让人印象深刻。你之前说过，你将人类和大型语言模型描述为类比机器（analogy machines）。你认为你一生中发现的最有力的类比是什么？

在我的一生中，一个对我影响很大的、虽然有些牵强的类比是宗教信仰与符号处理之间的相似性。我出生在一个无神论家庭，当我还很小的时候，上学时首次接触到宗教信仰，对我来说那完全是无稽之谈，直到现在我仍然这么认为。当我了解到符号处理被用来解释人们的行为时，我觉得这和宗教信仰一样荒谬。但现在我不再认为它完全是无稽之谈，因为我确实认为我们进行了符号处理，只不过我们是通过为这些符号赋予嵌入向量来处理的。但我们实际上是在进行符号处理，只是方式与人们原本想象的完全不同。人们曾认为符号处理只是简单地匹配符号，一个符号只有一个属性：要么与另一个符号相同，要么不相同。我们根本不是这样做的。我们利用上下文为符号提供嵌入向量，然后利用这些嵌入向量的组件之间的相互作用来进行思考。

但谷歌有一位非常优秀的研究人员，名叫 Fernando Pereira，他曾表示我们确实有符号推理。我们拥有的唯一符号是自然语言。自然语言是一种符号语言，我们用它进行推理。我现在相信了。

对于问题保持怀疑，然后证明它

Hellermark：你已经完成了计算机科学史上一些最有意义的研究。能否向我们介绍一下，例如，如何挑选正确的问题进行研究？

我和我的学生做了很多最有意义的事情。这主要归功于与学生的良好合作以及我挑选优秀学生的能力。这是因为在上世纪 70 年代、80 年代、90 年代以及进入 21 世纪，很少有人研究神经网络。所以从事神经网络研究的少数人能够挑选到最优秀的学生，还需要依靠一点运气。

但我挑选研究问题的方式基本上是这样的：你知道，当科学家谈论他们的工作方式时，他们会有一些关于工作方式的理论，这些理论可能与事实并无太大关联。但我的理论是，我会寻找一个大家都认同的观点，但感觉上似乎有些不对劲的地方。通常是有一种微妙的直觉，觉得某处有问题，只是有一点点感觉不对劲。然后我就会研究这个问题，试图详细解释为什么它是错误的。也许我能用一个小型计算机程序做一个小展示，显示它的工作方式并不像你可能预期的那样。

让我举一个例子。大多数人认为，如果你给神经网络添加噪声，它的效果会变差。实际上，我们知道如果这样做，它的泛化能力会更好。这可以通过一个简单的例子来证明，这就是计算机模拟的好处。你可以展示你原先的想法 —— 添加噪声会使效果变差，让一半的神经元停止工作会使其效果变差 —— 在短期内确实如此。但如果你像这样训练它，最终它的效果会更好。你可以通过一个小型计算机程序来展示这一点，然后你可以仔细思考为什么会这样。这就是我的工作方法：找到一个听起来可疑的东西，然后研究它，看看你是否能用一个简单的展示来说明它为什么是错误的。

Hinton 想继续研究的未解之谜：大脑运作方式

Hellermark：最近，什么东西引起了你的怀疑？

我们不使用快速权重，这看起来有些问题。我们只有这两种时间尺度，这显然是错误的。这与大脑的运作方式完全不同。从长远来看，我认为我们将需要更多的时间尺度。

Hellermark：如果你现在带领一组学生，他们来找你，说到我们之前讨论过的问题，你所在的领域中最重要的问题是什么？你会建议他们接下来研究并工作什么？我们谈到了推理的时间尺度。你建议的最优先的问题是什么？

对我来说，现在的问题和我过去大约 30 年一直关注的问题相同，那就是大脑是否进行反向传播？我相信大脑在获取梯度。如果你没有获取到梯度，你的学习效果会比获取到梯度时差很多。但大脑是如何获取梯度的？它是否在实现某种近似版本的反向传播，或者是采用了一种完全不同的技术？这是一个很大的未解之谜。如果我继续从事研究，这就是我将要研究的内容。

Hellermark：当你现在回顾你的职业生涯时，你在很多事情上都是正确的。但假如当时用很少的时间来决定的方向后来被证明是错误的？

这里有两个单独的问题。1、你做错了什么？2、你希望自己少花点时间吗？我认为我对玻尔兹曼机的看法是错误的，我很高兴我在它上面花了很长时间。关于如何获得梯度，有比反向传播更美丽的理论，它只是普通且合理的，它只是一个章节。这两个机制都很聪明，这是一种非常有趣的获取梯度的方法。我希望大脑是这样运作的，但我认为事实并非如此。

Hellermark：您是否花了很多时间想象系统开发后会发生什么？如果我们能让这些系统运行得很好，我们就可以实现教育的民主化，我们可以让知识更容易获得，我们可以解决医学上的一些棘手问题。或者对你来说更重要的是了解大脑运行的机制？

是的，我确实觉得科学家应该做那些能帮助社会的事情。但实际上，当你的研究被好奇心驱动时，你做不到最好的研究。你只需要理解一些事情。更近地，我意识到这些东西可能会造成很多伤害，也会带来很多好处。我变得更加关注它们对社会的影响。但这不是动机。我只想知道大脑是如何学会做事的？那就是我想知道的。而我在试错的过程中，我们得到了一些不错的工程结果。

Hellermark：是的，这对世界来说是一个有益的失败。如果从可能带来巨大正面影响的角度来看，你认为最有前景的应用是什么？

我认为医疗保健显然是一个大领域。在医疗方面，社会可以吸收的数量几乎没有限制。对一个老人来说，他们可能需要全职的五位医生。所以当 AI 在做事上比人类更好时，你会希望你在这些领域出现更多的资源 —— 如果每个人都有三位医生，那就太好了。我们将达到那个地步。

还有新的工程，开发新材料，例如更好的太阳能电池板、室温超导或仅仅是理解身体的工作原理。这些都会有很大的影响力。我担心的是坏人利用它们做坏事。

Hellermark：你有没有担心过，放慢这个领域的发展速度也可能会放慢积极的一面？

当然。我认为这个领域不太可能放慢速度，部分原因是它是国际性的。如果一个国家放慢速度，其他国家不会放慢速度。之前有一个提议说我们应该暂停大模型研究六个月。我没有签名，因为我认为这永远不会发生。我可能应该签字，因为即使它永远不会发生，它也表明了一个观点。有时为了表明立场而使用它也是好事。但我不认为我们会放慢速度。

Hellermark：你认为拥有（ChatGPT）这样的助手将如何影响 AI 研究过程？

我认为它将使 AI 研究变得更加高效。当你有这些助手来帮助你编程，也帮助你思考问题，可能会在方程式上帮助你很多。

挑选学生，更看重直觉

Hellermark：你有没有深思熟虑过选择人才的过程？这对你来说大多是凭直觉的吗？就像当 Ilya Sutskever 出现在门口时，你会觉得「这是一个聪明人，让我们一起工作吧」。

对于选择人才，有时候是很明显的。在交谈后不久，你就能看出他非常聪明。进一步交谈你会发现，他显然非常聪明，并且在数学上有很好的直觉。所以这是轻而易举的。

还有一次我在 NIPS 会议上，我们有一个 Poster，有人走过来问我们关于 Poster 的问题。他问的每个问题都是对我们做错了什么的深刻洞察。五分钟后，我给了他一个博士后职位。那个人是 David McKay，他非常聪明。他去世了，这非常令人难过，但他显然是你想要的那种人。

其他时候就不那么明显了。我学到的一件事是，人是不同的。不仅仅有一种类型的好学生。有些学生可能不那么有创造力，但从技术角度来看非常强大，可以让任何事情都运转起来。还有一些学生技术上不那么强，但非常有创造力。当然，你想要的是两者兼备的人，但你并不总是能得到。但我认为实际上在实验室里，你需要各种不同类型的研究生。但我还是跟着我的直觉走，有时你和某人交谈，他们真的非常聪明，他们就是能跟得上思路，那就是你想要的人。

Hellermark：你认为你对有些人有更好的直觉的原因是什么？或者说你如何培养你的直觉？

我认为部分原因是，他们不会接受无意义的东西。有个获得糟糕直觉的方法，那就是相信你被告知的一切，那太致命了。你必须能够... 我认为有些人是这样做的，他们对理解现实有一个完整的框架。当有人告诉他们某些事情时，他们会试图弄清楚这如何适应他们的框架。如果不适合，他们就拒绝它。这是一个非常好的策略。

试图吸收他们被告知的一切的人最终会得到一个非常模糊的框架。他们可以相信一切，那是没有用的。所以我认为实际上拥有一个对世界的坚定观点，并试图整合输入的事实以适应你的观点，这可能会导致深刻的宗教信仰和致命的缺陷等等，像我对玻尔兹曼机的信念，但我认为这是正确的。

如果你有可靠的好直觉，你应该信任它们。如果你的直觉不好，怎么做都没用了。所以你不妨信任它们。

全力以赴，用多模态数据训练更大的模型

Hellermark：这是一个非常好的观点。当你看正在进行的研究类型时，你认为我们是不是在把所有的鸡蛋放在一个篮子里。我们是否应该在领域内更多样化我们的想法？还是说你认为这是最有希望的方向，所以我们应该全力以赴？

我认为拥有大型模型并在多模态数据上训练它们，即使只是为了预测下一个词，这是一个非常有希望的方法，我们应该全力以赴。显然，现在有很多人在做这件事，还有很多人在做一些看似疯狂的事情，这是好事。但我认为让大多数人走这条路是没问题的，因为它运作得非常好。

Hellermark：你认为学习算法真的那么重要吗，还是说规模更重要？是否有数百万种方法可以让我们达到人类级别的智能，还是有一些我们需要发现的特定方法？

是的，关于特定的学习算法是否非常重要，是否有很多学习算法可以完成这项工作，我不知道答案。但在我看来，反向传播在某种意义上是正确的事情。获得梯度，这样你就可以改变参数让它工作得更好，这似乎是正确的事情，而且它取得了惊人的成功。可能还有其他的学习算法，它们以不同的方式获得相同的梯度，并且也能工作。我认为这都是开放的，并且是一个非常有趣的问题，即是否有其他你可以试图最大化的东西，会给你好的系统。也许大脑正在这样做，因为它很容易。反向传播在某种意义上是正确的事情，我们知道这样做非常有效。

一生最自豪的成就：玻尔兹曼机的学习算法

Hellermark：最后一个问题。回顾你几十年的研究，你最自豪的是什么？是学生？还是研究？

玻尔兹曼机的学习算法。它非常优雅，可能在实践中没有希望，但这是我最享受的事情，我与 Terry 一起开发了它，这是我最自豪的，即使它是错误的。

论文链接：https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf

Hellermark：你现在花最多时间思考的问题是什么？

在 Netflix 上下个剧该看什么。

原文摘要：深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。这些方法在许多方面都带来了显著的改善，包括最先进的语音识别、视觉对象识别、对象检测和许多其它领域，例如药物发现和基因组学等。深度学习能够发现大数据中的复杂结构。它是利用BP算法来完成这个发现过程的。 BP算法能够指导机器如何从前一层获取误差而改变本层的内部参数，这些内部参数可以用于计算表示。深度卷积网络在处理图像、视频、语音和音频方面带来了突破，而递归网络在处理序列数据，比如文本和语音方面表现出了闪亮的一面。机器学习技术在现代社会的各个方面表现出了强大的功能：从Web搜索到社会网络内容过滤，再到电子商务网站上的商品推荐都有涉足。并且它越来越多地出现在消费品中，比如相机和智能手机。机器学习系统被用来识别图片中的目标，将语音转换成文本，匹配新闻元素，根据用户兴趣提供职位或产品，选择相关的搜索结果。逐渐地，这些应用使用一种叫深度学习的技术。传统的机器学习技术在处理未加工过的数据时，体现出来的能力是有限的。几十年来，想要构建一个模式识别系统或者机器学习系统，需要一个精致的引擎和相当专业的知识来设计一个特征提取器，把原始数据（如图像的像素值）转换成一个适当的内部特征表示或特征向量，子学习系统，通常是一个分类器，对输入的样本进行检测或分类。特征表示学习是一套给机器灌入原始数据，然后能自动发现需要进行检测和分类的表达的方法。深度学习就是一种特征学习方法，把原始数据通过一些简单的但是非线性的模型转变成为更高层次的，更加抽象的表达。通过足够多的转换的组合，非常复杂的函数也可以被学习。对于分类任务，高层次的表达能够强化输入数据的区分能力方面，同时削弱不相关因素。比如，一副图像的原始格式是一个像素数组，那么在第一层上的学习特征表达通常指的是在图像的特定位置和方向上有没有边的存在。第二层通常会根据那些边的某些排放而来检测图案，这时候会忽略掉一些边上的一些小的干扰。第三层或许会把那些图案进行组合，从而使其对应于熟悉目标的某部分。随后的一些层会将这些部分再组合，从而构成待检测目标。深度学习的核心方面是，上述各层的特征都不是利用人工工程来设计的，而是使用一种通用的学习过程从数据中学到的。深度学习正在取得重大进展，解决了人工智能界的尽最大努力很多年仍没有进展的问题。它已经被证明，它能够擅长发现高维数据中的复杂结构，因此它能够被应用于科学、商业和政府等领域。除了在图像识别、语音识别等领域打破了纪录，它还在另外的领域击败了其他机器学习技术，包括预测潜在的药物分子的活性、分析粒子加速器数据、重建大脑回路、预测在非编码DNA突变对基因表达和疾病的影响。也许更令人惊讶的是，深度学习在自然语言理解的各项任务中产生了非常可喜的成果，特别是主题分类、情感分析、自动问答和语言翻译。我们认为，在不久的将来，深度学习将会取得更多的成功，因为它需要很少的手工工程，它可以很容易受益于可用计算能力和数据量的增加。目前正在为深度神经网络开发的新的学习算法和架构只会加速这一进程。监督学习机器学习中，不论是否是深层，最常见的形式是监督学习。试想一下，我们要建立一个系统，它能够对一个包含了一座房子、一辆汽车、一个人或一个宠物的图像进行分类。我们先收集大量的房子，汽车，人与宠物的图像的数据集，并对每个对象标上它的类别。在训练期间，机器会获取一副图片，然后产生一个输出，这个输出以向量形式的分数来表示，每个类别都有一个这样的向量。我们希望所需的类别在所有的类别中具有最高的得分，但是这在训练之前是不太可能发生的。通过计算一个目标函数可以获得输出分数和期望模式分数之间的误差（或距离）。然后机器会修改其内部可调参数，以减少这种误差。这些可调节的参数，通常被称为权值，它们是一些实数，可以被看作是一些“旋钮”，定义了机器的输入输出功能。在典型的深学习系统中，有可能有数以百万计的样本和权值，和带有标签的样本，用来训练机器。为了正确地调整权值向量，该学习算法计算每个权值的梯度向量，表示了如果权值增加了一个很小的量，那么误差会增加或减少的量。权值向量然后在梯度矢量的相反方向上进行调整。我们的目标函数，所有训练样本的平均，可以被看作是一种在权值的高维空间上的多变地形。负的梯度矢量表示在该地形中下降方向最快，使其更接近于最小值，也就是平均输出误差低最低的地方。在实际应用中，大部分从业者都使用一种称作随机梯度下降的算法（SGD）。它包含了提供一些输入向量样本，计算输出和误差，计算这些样本的平均梯度，然后相应的调整权值。通过提供小的样本集合来重复这个过程用以训练网络，直到目标函数停止增长。它被称为随机的是因为小的样本集对于全体样本的平均梯度来说会有噪声估计。这个简单过程通常会找到一组不错的权值，同其他精心设计的优化技术相比，它的速度让人惊奇。训练结束之后，系统会通过不同的数据样本——测试集来显示系统的性能。这用于测试机器的泛化能力——对于未训练过的新样本的识别能力。当前应用中的许多机器学习技术使用的是线性分类器来对人工提取的特征进行分类。一个2类线性分类器会计算特征向量的加权和。当加权和超过一个阈值之后，输入样本就会被分配到一个特定的类别中。从20世纪60年代开始，我们就知道了线性分类器只能够把样本分成非常简单的区域，也就是说通过一个超平面把空间分成两部分。但像图像和语音识别等问题，它们需要的输入-输出函数要对输入样本中不相关因素的变化不要过于的敏感，如位置的变化，目标的方向或光照，或者语音中音调或语调的变化等，但是需要对于一些特定的微小变化非常敏感（例如，一只白色的狼和跟狼类似的白色狗——萨莫耶德犬之间的差异）。在像素这一级别上，两条萨莫耶德犬在不同的姿势和在不同的环境下的图像可以说差异是非常大的，然而，一只萨摩耶德犬和一只狼在相同的位置并在相似背景下的两个图像可能就非常类似。图1 多层神经网络和BP算法多层神经网络（用连接点表示）可以对输入空间进行整合，使得数据（红色和蓝色线表示的样本）线性可分。注意输入空间中的规则网格（左侧）是如何被隐藏层转换的（转换后的在右侧）。这个例子中只用了两个输入节点，两个隐藏节点和一个输出节点，但是用于目标识别或自然语言处理的网络通常包含数十个或者数百个这样的节点。获得 (的许可后重新构建的这个图。链式法则告诉我们两个小的变化（x和y的微小变化，以及y和z的微小变化）是怎样组织到一起的。 x的微小变化量Δx首先会通过乘以∂y/∂x（偏导数）转变成y的变化量Δy。类似的，Δy会给z带来改变Δz。通过链式法则可以将一个方程转化到另外的一个——也就是Δx通过乘以∂y/∂x和∂z/∂y（英文原文为∂z/∂x，系笔误——编辑注）得到Δz的过程。当x，y，z是向量的时候，可以同样处理（使用雅克比矩阵）。具有两个隐层一个输出层的神经网络中计算前向传播的公式。每个都有一个模块构成，用于反向传播梯度。在每一层上，我们首先计算每个节点的总输入z，z是前一层输出的加权和。然后利用一个非线性函数f(.)来计算节点的输出。简单期间，我们忽略掉了阈值项。神经网络中常用的非线性函数包括了最近几年常用的校正线性单元（ReLU）f(z) = max(0,z)，和更多传统sigmoid函数，比如双曲线正切函数f(z) = (exp(z) − exp(−z))/(exp(z) + exp(−z)) 和logistic函数f(z) = 1/(1 + exp(−z))。计算反向传播的公式。在隐层，我们计算每个输出单元产生的误差，这是由上一层产生的误差的加权和。然后我们将输出层的误差通过乘以梯度f(z)转换到输入层。在输出层上，每个节点的误差会用成本函数的微分来计算。如果节点l的成本函数是0.5*(yl-tl)^2, 那么节点的误差就是yl-tl，其中tl是期望值。一旦知道了∂E/∂zk的值，节点j的内星权向量wjk就可以通过yj ∂E/∂zk来进行调整。一个线性分类器或者其他操作在原始像素上的浅层分类器不能够区分后两者，虽然能够将前者归为同一类。这就是为什么浅分类要求有良好的特征提取器用于解决选择性不变性困境——提取器会挑选出图像中能够区分目标的那些重要因素，但是这些因素对于分辨动物的位置就无能为力了。为了加强分类能力，可以使用泛化的非线性特性，如核方法，但这些泛化特征，比如通过高斯核得到的，并不能够使得学习器从学习样本中产生较好的泛化效果。传统的方法是手工设计良好的特征提取器，这需要大量的工程技术和专业领域知识。但是如果通过使用通用学习过程而得到良好的特征，那么这些都是可以避免的了。这就是深度学习的关键优势。深度学习的体系结构是简单模块的多层栈，所有（或大部分）模块的目标是学习，还有许多计算非线性输入输出的映射。栈中的每个模块将其输入进行转换，以增加表达的可选择性和不变性。比如说，具有一个5到20层的非线性多层系统能够实现非常复杂的功能，比如输入数据对细节非常敏感——能够区分白狼和萨莫耶德犬，同时又具有强大的抗干扰能力，比如可以忽略掉不同的背景、姿势、光照和周围的物体等。反向传播来训练多层神经网络在最早期的模式识别任务中，研究者的目标一直是使用可以训练的多层网络来替代经过人工选择的特征，虽然使用多层神经网络很简单，但是得出来的解很糟糕。直到20世纪80年代，使用简单的随机梯度下降来训练多层神经网络，这种糟糕的情况才有所改变。只要网络的输入和内部权值之间的函数相对平滑，使用梯度下降就凑效，梯度下降方法是在70年代到80年代期间由不同的研究团队独立发明的。用来求解目标函数关于多层神经网络权值梯度的反向传播算法（BP）只是一个用来求导的链式法则的具体应用而已。反向传播算法的核心思想是：目标函数对于某层输入的导数（或者梯度）可以通过向后传播对该层输出（或者下一层输入）的导数求得（如图1）。反向传播算法可以被重复的用于传播梯度通过多层神经网络的每一层：从该多层神经网络的最顶层的输出（也就是改网络产生预测的那一层）一直到该多层神经网络的最底层（也就是被接受外部输入的那一层），一旦这些关于（目标函数对）每层输入的导数求解完，我们就可以求解每一层上面的（目标函数对）权值的梯度了。很多深度学习的应用都是使用前馈式神经网络（如图1），该神经网络学习一个从固定大小输入（比如输入是一张图）到固定大小输出（例如，到不同类别的概率）的映射。从第一层到下一层，计算前一层神经元输入数据的权值的和，然后把这个和传给一个非线性激活函数。当前最流行的非线性激活函数是rectified linear unit(ReLU)，函数形式：f(z)=max(z,0)。过去的几十年中，神经网络使用一些更加平滑的非线性函数，比如tanh(z)和1/(1+exp(-z))，但是ReLU通常会让一个多层神经网络学习的更快，也可以让一个深度网络直接有监督的训练（不需要无监督的pre-train）。达到之前那种有pre-train的效果。通常情况下，输入层和输出层以外的神经单元被称为隐藏单元。隐藏层的作用可以看成是使用一个非线性的方式打乱输入数据，来让输入数据对应的类别在最后一层变得线性可分。在20世纪90年代晚期，神经网络和反向传播算法被大多数机器学习团队抛弃，同时也不受计算机视觉和语音识别团队的重视。人们普遍认为，学习有用的、多级层次结构的、使用较少先验知识进行特征提取的这些方法都不靠谱。确切的说是因为简单的梯度下降会让整个优化陷入到不好的局部最小解。实践中，如果在大的网络中，不管使用什么样的初始化条件，局部最小解并不算什么大问题，系统总是得到效果差不多的解。最近的理论和实验表明，局部最小解还真不是啥大问题。相反，解空间中充满了大量的鞍点（梯度为0的点），同时鞍点周围大部分曲面都是往上的。所以这些算法就算是陷入了这些局部最小值，关系也不太大。 2006年前后，CIFAR（加拿大高级研究院）把一些研究者聚集在一起，人们对深度前馈式神经网络重新燃起了兴趣。研究者们提出了一种非监督的学习方法，这种方法可以创建一些网络层来检测特征而不使用带标签的数据，这些网络层可以用来重构或者对特征检测器的活动进行建模。通过预训练过程，深度网络的权值可以被初始化为有意思的值。然后一个输出层被添加到该网络的顶部，并且使用标准的反向传播算法进行微调。这个工作对手写体数字的识别以及行人预测任务产生了显著的效果，尤其是带标签的数据非常少的时候。使用这种与训练方法做出来的第一个比较大的应用是关于语音识别的，并且是在GPU上做的，这样做是因为写代码很方便，并且在训练的时候可以得到10倍或者20倍的加速。 2009年，这种方法被用来映射短时间的系数窗口，该系统窗口是提取自声波并被转换成一组概率数字。它在一组使用很少词汇的标准的语音识别基准测试程序上达到了惊人的效果，然后又迅速被发展到另外一个更大的数据集上，同时也取得惊人的效果。从2009年到到2012年底，较大的语音团队开发了这种深度网络的多个版本并且已经被用到了安卓手机上。对于小的数据集来说，无监督的预训练可以防止过拟合，同时可以带来更好的泛化性能当有标签的样本很小的时候。一旦深度学习技术重新恢复，这种预训练只有在数据集合较少的时候才需要。然后，还有一种深度前馈式神经网络，这种网络更易于训练并且比那种全连接的神经网络的泛化性能更好。这就是卷积神经网络（CNN）。当人们对神经网络不感兴趣的时候，卷积神经网络在实践中却取得了很多成功，如今它被计算机视觉团队广泛使用。卷积神经网络卷积神经网络被设计用来处理到多维数组数据的，比如一个有3个包含了像素值2-D图像组合成的一个具有3个颜色通道的彩色图像。很多数据形态都是这种多维数组的：1D用来表示信号和序列包括语言，2D用来表示图像或者声音，3D用来表示视频或者有声音的图像。卷积神经网络使用4个关键的想法来利用自然信号的属性：局部连接、权值共享、池化以及多网络层的使用。图2 卷积神经网络内部一个典型的卷积神经网络结构（如图2）是由一系列的过程组成的。最初的几个阶段是由卷积层和池化层组成，卷积层的单元被组织在特征图中，在特征图中，每一个单元通过一组叫做滤波器的权值被连接到上一层的特征图的一个局部块，然后这个局部加权和被传给一个非线性函数，比如ReLU。在一个特征图中的全部单元享用相同的过滤器，不同层的特征图使用不同的过滤器。使用这种结构处于两方面的原因。首先，在数组数据中，比如图像数据，一个值的附近的值经常是高度相关的，可以形成比较容易被探测到的有区分性的局部特征。其次，不同位置局部统计特征不太相关的，也就是说，在一个地方出现的某个特征，也可能出现在别的地方，所以不同位置的单元可以共享权值以及可以探测相同的样本。在数学上，这种由一个特征图执行的过滤操作是一个离线的卷积，卷积神经网络也是这么得名来的。卷积层的作用是探测上一层特征的局部连接，然而池化层的作用是在语义上把相似的特征合并起来，这是因为形成一个主题的特征的相对位置不太一样。一般地，池化单元计算特征图中的一个局部块的最大值，相邻的池化单元通过移动一行或者一列来从小块上读取数据，因为这样做就减少的表达的维度以及对数据的平移不变性。两三个这种的卷积、非线性变换以及池化被串起来，后面再加上一个更多卷积和全连接层。在卷积神经网络上进行反向传播算法和在一般的深度网络上是一样的，可以让所有的在过滤器中的权值得到训练。深度神经网络利用的很多自然信号是层级组成的属性，在这种属性中高级的特征是通过对低级特征的组合来实现的。在图像中，局部边缘的组合形成基本图案，这些图案形成物体的局部，然后再形成物体。这种层级结构也存在于语音数据以及文本数据中，如电话中的声音，因素，音节，文档中的单词和句子。当输入数据在前一层中的位置有变化的时候，池化操作让这些特征表示对这些变化具有鲁棒性。卷积神经网络中的卷积和池化层灵感直接来源于视觉神经科学中的简单细胞和复杂细胞。这种细胞的是以LNG-V1-V2-V4-IT这种层级结构形成视觉回路的。当给一个卷积神经网络和猴子一副相同的图片的时候，卷积神经网络展示了猴子下颞叶皮质中随机160个神经元的变化。卷积神经网络有神经认知的根源，他们的架构有点相似，但是在神经认知中是没有类似反向传播算法这种端到端的监督学习算法的。一个比较原始的1D卷积神经网络被称为时延神经网络，可以被用来识别语音以及简单的单词。 20世纪90年代以来，基于卷积神经网络出现了大量的应用。最开始是用时延神经网络来做语音识别以及文档阅读。这个文档阅读系统使用一个被训练好的卷积神经网络和一个概率模型，这个概率模型实现了语言方面的一些约束。 20世纪90年代末，这个系统被用来美国超过10%的支票阅读上。后来，微软开发了基于卷积神经网络的字符识别系统以及手写体识别系统。 20世纪90年代早期，卷积神经网络也被用来自然图形中的物体识别，比如脸、手以及人脸识别（face recognition ）。使用深度卷积网络进行图像理解21世纪开始，卷积神经网络就被成功的大量用于检测、分割、物体识别以及图像的各个领域。这些应用都是使用了大量的有标签的数据，比如交通信号识别，生物信息分割，面部探测，文本、行人以及自然图形中的人的身体部分的探测。近年来，卷积神经网络的一个重大成功应用是人脸识别。值得一提的是，图像可以在像素级别进行打标签，这样就可以应用在比如自动电话接听机器人、自动驾驶汽车等技术中。像Mobileye以及NVIDIA公司正在把基于卷积神经网络的方法用于汽车中的视觉系统中。其它的应用涉及到自然语言的理解以及语音识别中。图3 从图像到文字尽管卷积神经网络应用的很成功，但是它被计算机视觉以及机器学习团队开始重视是在2012年的ImageNet竞赛。在该竞赛中，深度卷积神经网络被用在上百万张网络图片数据集，这个数据集包含了1000个不同的类。该结果达到了前所未有的好，几乎比当时最好的方法降低了一半的错误率。这个成功来自有效地利用了GPU、ReLU、一个新的被称为dropout的正则技术，以及通过分解现有样本产生更多训练样本的技术。这个成功给计算机视觉带来一个革命。如今，卷积神经网络用于几乎全部的识别和探测任务中。最近一个更好的成果是，利用卷积神经网络结合回馈神经网络用来产生图像标题。如今的卷积神经网络架构有10-20层采用ReLU激活函数、上百万个权值以及几十亿个连接。然而训练如此大的网络两年前就只需要几周了，现在硬件、软件以及算法并行的进步，又把训练时间压缩到了几小时。基于卷积神经网络的视觉系统的性能已经引起了大型技术公司的注意，比如Google、Facebook、Microsoft、IBM，yahoo！、Twitter和Adobe等，一些快速增长的创业公司也同样如是。卷积神经网络很容易在芯片或者现场可编程门阵列（FPGA）中高效实现，许多公司比如NVIDIA、Mobileye、Intel、Qualcomm以及Samsung，正在开发卷积神经网络芯片，以使智能机、相机、机器人以及自动驾驶汽车中的实时视觉系统成为可能。分布式特征表示与语言处理与不使用分布式特征表示（distributed representations ）的经典学习算法相比，深度学习理论表明深度网络具有两个不同的巨大的优势。这些优势来源于网络中各节点的权值，并取决于具有合理结构的底层生成数据的分布。首先，学习分布式特征表示能够泛化适应新学习到的特征值的组合（比如，n元特征就有2n种可能的组合）。其次，深度网络中组合表示层带来了另一个指数级的优势潜能（指数级的深度）。多层神经网络中的隐层利用网络中输入的数据进行特征学习，使之更加容易预测目标输出。下面是一个很好的示范例子，比如将本地文本的内容作为输入，训练多层神经网络来预测句子中下一个单词。内容中的每个单词表示为网络中的N分之一的向量，也就是说，每个组成部分中有一个值为1其余的全为0。在第一层中，每个单词创建不同的激活状态，或单词向量（如图4）。在语言模型中，网络中其余层学习并转化输入的单词向量为输出单词向量来预测句子中下一个单词，可以通过预测词汇表中的单词作为文本句子中下一个单词出现的概率。网络学习了包含许多激活节点的、并且可以解释为词的独立特征的单词向量，正如第一次示范的文本学习分层表征文字符号的例子。这些语义特征在输入中并没有明确的表征。而是在利用“微规则”（‘micro-rules’,本文中直译为：微规则）学习过程中被发掘，并作为一个分解输入与输出符号之间关系结构的好的方式。当句子是来自大量的真实文本并且个别的微规则不可靠的情况下，学习单词向量也一样能表现得很好。利用训练好的模型预测新的事例时，一些概念比较相似的词容易混淆，比如星期二（Tuesday）和星期三（Wednesday），瑞典（Sweden）和挪威（Norway）。这样的表示方式被称为分布式特征表示，因为他们的元素之间并不互相排斥，并且他们的构造信息对应于观测到的数据的变化。这些单词向量是通过学习得到的特征构造的，这些特征不是由专家决定的，而是由神经网络自动发掘的。从文本中学习得单词向量表示现在广泛应用于自然语言中。图4 词向量学习可视化特征表示问题争论的中心介于对基于逻辑启发和基于神经网络的认识。在逻辑启发的范式中，一个符号实体表示某一事物，因为其唯一的属性与其他符号实体相同或者不同。该符号实例没有内部结构，并且结构与使用是相关的，至于理解符号的语义，就必须与变化的推理规则合理对应。相反地，神经网络利用了大量活动载体、权值矩阵和标量非线性化，来实现能够支撑简单容易的、具有常识推理的快速“直觉”功能。在介绍神经语言模型前，简述下标准方法，其是基于统计的语言模型，该模型没有使用分布式特征表示。而是基于统计简短符号序列出现的频率增长到N（N-grams，N元文法）。可能的N-grams的数字接近于VN，其中V是词汇表的大小，考虑到文本内容包含成千上万个单词，所以需要一个非常大的语料库。 N-grams将每个单词看成一个原子单元，因此不能在语义相关的单词序列中一概而论，然而神经网络语言模型可以，是因为他们关联每个词与真是特征值的向量，并且在向量空间中语义相关的词彼此靠近（图4）。递归神经网络首次引入反向传播算法时，最令人兴奋的便是使用递归神经网络（recurrent neural networks，下文简称RNNs）训练。对于涉及到序列输入的任务，比如语音和语言，利用RNNs能获得更好的效果。 RNNs一次处理一个输入序列元素，同时维护网络中隐式单元中隐式的包含过去时刻序列元素的历史信息的“状态向量”。如果是深度多层网络不同神经元的输出，我们就会考虑这种在不同离散时间步长的隐式单元的输出，这将会使我们更加清晰怎么利用反向传播来训练RNNs（如图5，右）。图5 递归神经网络RNNs是非常强大的动态系统，但是训练它们被证实存在问题的，因为反向传播的梯度在每个时间间隔内是增长或下降的，所以经过一段时间后将导致结果的激增或者降为零。由于先进的架构和训练方式，RNNs被发现可以很好的预测文本中下一个字符或者句子中下一个单词，并且可以应用于更加复杂的任务。例如在某时刻阅读英语句子中的单词后，将会训练一个英语的“编码器”网络，使得隐式单元的最终状态向量能够很好地表征句子所要表达的意思或思想。这种“思想向量”（thought vector）可以作为联合训练一个法语“编码器”网络的初始化隐式状态（或者额外的输入），其输出为法语翻译首单词的概率分布。如果从分布中选择一个特殊的首单词作为编码网络的输入，将会输出翻译的句子中第二个单词的概率分布，并直到停止选择为止。总体而言，这一过程是根据英语句子的概率分布而产生的法语词汇序列。这种简单的机器翻译方法的表现甚至可以和最先进的（state-of-the-art）的方法相媲美，同时也引起了人们对于理解句子是否需要像使用推理规则操作内部符号表示质疑。这与日常推理中同时涉及到根据合理结论类推的观点是匹配的。剩下的超过字数限制了……

相关文章