天才创始人对谈AI教父Hinton：多模态是AI的未来，医疗将发挥AI最大的潜力-科技让生活更美好

文|陈思达

编辑|冉立

5月17日，人工智能教父杰弗里·辛顿接受了采访。对话不仅涉及辛顿对大规模神经网络、多模态学习、模拟计算、AI安全等技术发展的看法，还涉及他接触人工智能的经历以及与伊利亚的首次会面。

采访的提问者是一位才华横溢的企业家——乔尔·海勒马克。

乔尔·海勒马克

乔尔是领先的人工智能公司Sana AI的创始人兼首席执行官，该公司已从NEA、门罗和EQT获得超过8000万美元的融资。他13岁自学编程，16岁创办了第一家公司并开发了视频推荐引擎。

官网截图

对话的要点如下:

Ilya是完美的研究伙伴，他的直觉非常灵敏

辛顿:我记得第一次从英国来到卡内基梅隆大学。它在英国的研究部门，我们通常在下午6点后去酒吧喝酒。但在我来了几周后的一个周六晚上，我没有任何朋友，不知道该做些什么。我在实验室有一台机器可以使用，但我家里没有，所以我决定去实验室编程。

所以我在周六晚上9点左右来到实验室，所有的学生都在那里，挤满了人。他们都在那里。他们都相信他们正在研究未来，他们接下来所做的事情将改变计算机科学的发展，这与英国的情况完全不同。所以对我来说很新鲜。

主持人:带我回到我第一次在剑桥探索脑科学的日子。你当时有什么感觉？

辛顿:老实说，我很失望。我在夏季学期学习生理学并教授大脑如何工作。结果，我只教了神经元如何传导动作电位。这真的很有趣，但我不明白大脑是如何工作的，所以我很失望。后来我转向哲学，希望了解思维是如何运作的。但同样失望。

我最后去了爱丁堡大学学习人工智能，这更有趣。至少我们可以模拟和测试这个理论。

主持人:你还记得你最初对人工智能的哪些方面感兴趣吗？有没有特定的论文或科学家让你发现了有趣的想法？

辛顿:唐纳德·赫伯的一本书对我影响很深。他对如何学习神经网络中的连接强度非常感兴趣。我还读了约翰·冯·诺依曼的一本书，重点是大脑如何计算以及大脑与普通计算机的区别。

主持人:当你在爱丁堡的时候，你认为这些想法在未来会有用吗？你当时的直觉是什么？

辛顿:在我看来，我们需要遵循大脑本身的学习方法。显然，大脑不可能先对所有事情进行编程，然后再使用逻辑推理，这从一开始就不太正确。因此，有必要了解大脑如何学习调整神经网络中的连接以处理复杂的任务。冯·诺依曼和图灵都相信这一点。他们非常擅长逻辑，但他们不相信这种逻辑方法。

主持人:在学习神经科学和只做人工智能中的算法之间，您如何分配精力？早期你得到了多少灵感？

辛顿:我对神经科学没有太多研究，我主要受到大脑工作方式的启发。大脑中有很多神经元，它们执行相对简单的操作，非线性地工作，但它们可以接收输入，对输入进行加权，然后在此基础上输出。问题是，如何改变权重以使整个系统做一些强大的事情？这个问题似乎很简单。

主持人:当时你和谁合作？

辛顿:我在卡内基梅隆大学做研究，但主要合作者不是来自卡内基梅隆大学。我和特伦斯·谢诺夫斯基（注:他和杰弗里·辛顿共同发明了玻尔兹曼机器）有很多接触。他在巴尔的摩的约翰·霍普金斯大学。应该是一个月一次。要么他开车去匹兹堡，要么我开车去250英里外的巴尔的摩。我们将在周末研究玻尔兹曼机器。合作很愉快。我们都相信这是大脑的工作方式。这是我做过的最令人兴奋的研究。也许有许多伟大的成就，但我不认为这是大脑的工作方式。

我和彼得·布朗也有很好的合作，他是一位优秀的统计学家，IBM从事语音识别。因此，当他去卡内基梅隆大学攻读博士学位时，他作为一名学生已经非常成熟，并且已经知道了很多东西。他教了我很多关于语音学的知识。事实上，他教了我隐马尔可夫模型。这是我理想中的学生:我从他身上学到的比我教给他的还要多。他教我隐马尔可夫模型的时候，我用的是带隐层的反向传播。当时还不叫隐层，但我决定用马尔可夫模型中的命名方法，它可以很好地表示变量在做什么。总之，这就是神经网络中隐藏一词的由来。

主持人:说说伊利亚出现在你办公室的时间。

辛顿:那时我在办公室。应该是星期天。我正在编程，然后有人敲门。敲门很急，和敲门不一样。我打开门，发现是一个年轻的学生。他说他整个夏天都在炸薯条，但他宁愿在我的实验室工作。所以我说，你为什么不约个时间谈谈？然后他说，现在呢？伊利亚就是这样的人。所以我们聊了聊，我给他看了一篇文章，是《自然》杂志上一篇关于反向传播的论文。

我们约定一周后再见面，他回来了。他说他不太明白。我很失望。我看起来很聪明。这只是一个链式法则，并不难理解。他说:不，我理解链式法则，我只是不明白为什么你不给一个合理的函数优化器梯度。好家伙，他提出的问题让我们思考了好几年。他总是这样。他对问题有很好的直觉，总能想出好主意。

主持人:为什么伊利亚会有这种直觉？

辛顿:我不知道。也许他总是独立思考，并在很小的时候就对人工智能感兴趣。他也擅长数学。但我不知道为什么他的直觉这么准。

主持人:你和他的分工是什么？

辛顿:这真的很有趣。我记得有一次，我们试图用数据制作一个复杂的地图，使用混合模型，因此您可以使用相似性来制作两个地图，这样在一个地图上，河岸可以靠近绿地，而在另一个地图上，河岸可以靠近河流。因为在地图上，你不能让它同时靠近两者。河流和绿地相距甚远。所以有了混合图，我们在MATLAB中操作，这涉及到大量的代码重组和正确的矩阵乘法。

后来他厌倦了这样做。有一天他找到我说，我想为MATLAB编写一个交互界面，这样我就可以用另一种语言编程，然后将其转换为MATLAB。我说，不，伊利亚，你要花一个月的时间。这个项目应该继续下去，我们不能因此而分心。伊利亚说，没关系，我早上就完成了。

主持人:太不可思议了！这些年来，最大的变化不仅在算法上，也在规模上。你怎么想呢?

辛顿:伊利亚很早就看到了这一点，并总是说，规模越大，性能越好。以前总觉得站不住脚，还需要新的思路。但事实证明，他的判断基本正确。像Transformers这样的算法确实很有用，但真正起作用的是数据和计算的规模。当时，我无法想象计算机会快几十亿倍，但我认为它会快一百倍，所以我试图想出巧妙的想法来解决这个问题。但有了更大的数据和计算规模，很多问题就会迎刃而解。

大约在2011年，伊利亚和另一位名叫詹姆斯·马丁斯的研究生与我合作写了一篇关于角色层面预测的论文。使用维基百科并尝试预测下一个HTML字符。在GPU上使用好的优化器，效果出乎意料的好。我们从来没有真正相信它理解任何东西，但它似乎又理解了，这似乎令人难以置信。

神经网络不仅仅是记忆训练数据，更是“理解”，推理能力的提升指日可待。

主持人:您能解释一下模型是如何预测下一个单词的，以及为什么这样认识它们是错误的吗？

辛顿:嗯，我实际上并不认为这是错的。

事实上，我认为我使用嵌入和反向传播制作了第一个神经网络语言模型。数据很简单，就三倍。每个符号被转换为一个嵌入，然后嵌入进行交互以预测下一个符号的嵌入，然后从嵌入中预测下一个符号，然后通过整个过程反向传播来学习这些三元组。大约10年后，Yoshua Bengio（图灵奖获得者）使用了一个非常相似的网络来演示其对真实文本的影响。大约10年后，语言学家开始相信嵌入。有一个发展的过程。

我认为这不仅仅是预测下一个符号。

问一个问题，答案的第一个字是下一个符号，那么你必须理解这个问题。大多数人认为的“自动填充”是指看到不同单词在第三个位置出现的频率，从而可以预测下一个符号。但事实并非如此。

为了预测下一个符号，有必要了解正在说什么。我们通过让它预测下一个符号来迫使它理解。很多人说他们不是像人类一样推理，而只是预测下一个符号。但我认为它的理解方式和我们一样。为了预测下一个符号，它必须进行一些推理。现在我们已经看到，如果你制作一个大型模型，他们可以在不添加任何特殊推理内容的情况下进行一些推理。规模越大，他们未来可以做出的推断就越多。

主持人:除了预测下一个符号之外，你还做过其他事情吗？

辛顿:这是学习的方式。无论是预测下一个视频帧还是下一个声音。我认为这是解释大脑学习的一个非常合理的理论。

主持人:为什么这些模型可以学习如此广泛的领域？

辛顿:大语言模型所做的是找到事物之间的共同结构。基于通用结构对事物进行编码是非常高效的。

比如说。问GPT-4，为什么堆肥堆像原子弹？大多数人回答不了这个问题，认为原子弹和堆肥堆是截然不同的两回事。但是GPT-4会告诉你，尽管能量和时间尺度不同，但相同的是堆肥堆变热时产热更快；当原子弹产生更多的中子时，中子产生的速度也会加快。这就引出了连锁反应的概念。通过这种理解，所有信息都被压缩成其自身的权重。

这样，它将能够处理数百种人类从未见过的类比。这些看似不相关的类比是创造力的源泉。我认为当GPT 4号变得更大时，它的创造力会非常高。如果你只是认为它只是在反复思考它所学到的东西，只是拼凑它所学到的文本，那么你将低估它的创造力。

主持人:你可能会说它会超越人类的认知。虽然我们看到了一些例子，但似乎还没有真正看到您所说的内容。在很大程度上，我们仍然处于当前的科学水平。你认为什么会让它开始超越？

辛顿:我想我在某些情况下见过这种情况。以AlphaGo为例。在与李世石的著名比赛中，所有专家都认为AlphaGo的第37步是一个错误，但后来他们意识到这是另一个精彩的步骤。

这在那个有限的领域已经是一个创造性的行动。随着模型规模的扩大，这样的例子会越来越多。

主持人:AlphaGo的不同之处在于它使用了强化学习，可以超越当前状态。它从模仿学习开始，观察人类如何在棋盘上游戏，然后通过自我游戏超越它。你认为这是当前数据实验室所缺乏的吗？

辛顿:我想这个可能不见了。AlphaGo和AlphaZero之间的自我博弈是其能够做出这些创造性举动的重要原因。但这并不完全必要。

很久以前，我做过一个小实验，训练神经网络识别手写数字。给它训练数据，一半的答案都是错的。它能学得多好？你有一半的答案错了一次，然后保持这种状态。因此，它不能仅通过查看同一个示例来平均错误率。有时答案是正确的，有时答案是错误的，训练数据的误差为50%。

但如果训练反向传播，误差将降至5%或更低。换句话说，它可以从标记不佳的数据中获得更好的结果。它可以看出训练数据是错误的。

聪明的学生可能比他们的导师更聪明。即使他们接受了导师教授的所有内容，他们也可以取其精华，去其糟粕，最终他们比导师更聪明。因此，这些大规模神经网络实际上具有超越训练数据的能力，而大多数人没有意识到这一点。

主持人:这些模型能获得推理能力吗？一种可能的方法是在这些模型中加入一些启发式方法。目前，许多研究试图将思维链的推理反馈到模型本身。另一种可能的方法是增加模型本身的参数比例。对此你怎么看？

Hinton:我的直觉告诉我，模型规模扩大后，推理能力也可以提高。

人们如何工作？一般来说，人类有直觉去推理，然后用推理来纠正我们的直觉。当然，推理过程中也会用到直觉。假设推理的结论与直觉冲突，我们将意识到我们需要纠正直觉。

这类似于AlphaGo或AlphaZero的工作方式。他们有一个评估功能。只要看看棋盘，然后决定:“这对我有多好？”然而，当你做蒙特卡洛推导时，你会得到一个更准确的想法，你可以修改你的评价函数。因此，通过接受推理的结果来训练模型。兵库北是谁

大语言模型必须开始做到这一点，必须开始通过推理训练模型的直觉，知道下一步该做什么，并意识到什么是错的。通过这种方式，他们可以获得更多的训练数据，而不仅仅是模仿人类。这就是AlphaGo能走第37步棋的原因。它有更多的训练数据，因为它使用推理来检查下一步应该是什么。

多模态使模型学习更容易，同时便于空之间的推理。

主持人:您怎么看多模态？我们谈到了这些类比，这些类比往往远远超出我们所能看到的。模型发现的类比远远超出了人类的能力，它可能处于我们永远无法理解的抽象水平。现在，当我们将图像、视频和声音引入其中时，您认为这将如何改变模型？你认为它将如何变化，以及它可以做出的类比？

辛顿:这将带来巨大的变化。例如，它将使模型更好地理解空之间的事物。从语言的角度来看，空之间的一些东西很难理解。尽管值得注意的是，GPT-4甚至在成为多模式之前就可以做到这一点。然而，当你使模型具有多模态时，如果你不仅使它可视化，而且使它可以伸手拿东西，它可以拿起物体并将其翻转等。，它会更好地理解物体。因此，尽管你可以从一种语言中学到很多东西，但如果它是多模态的，学习起来会更容易。事实上，需要更少的语言。

多式联运模式显然将占主导地位。你可以通过这种方式获得更多的数据，而他们需要的语言会更少。当然，你可以只从语言中学习一个非常好的模型，但是从多模态系统中学习要容易得多。

主持人:您认为这会如何影响模型的推理能力？

辛顿:我认为这将使空之间的推理更好。例如，如果你真的试图捡起一个物体，你会得到各种有用的训练数据。

主持人:您认为人脑的进化是为语言服务的，还是语言的进步是为人脑服务的？

辛顿:这是一个非常好的问题。我认为两者并存。我以前认为我可以完全不用语言来进行许多认知活动，但现在我的想法已经改变了。

然后，我将给出三种不同的语言观及其与认知的关系。

一种观点是旧的符号观，即认知包括在干净的逻辑语言中使用符号串，这种语言没有歧义并应用推理规则。这就是认知——只是对语言符号串等事物的符号操作。这是一种极端的观点。

在另一个极端，一旦你进入你的头脑，它都是矢量。符号进来，把这些符号转换成大向量，所有的内容都是用大向量完成的。然后，如果您想产生输出，您将生成符号。2014年左右，机器翻译界有一种说法。那时，当人们使用循环神经网络时，单词会不断输入，它们会有一个隐藏状态，并在这种隐藏状态下不断积累信息。因此，当他们读完一个句子时，他们将获得一个大的隐藏向量，该向量捕获句子的意思，然后可以用于生成另一种语言的句子。这被称为思想载体。这是第二种语言观——将语言转化为与语言完全不同的大矢量，这就是认知的全部内容。

第三点，我现在相信，是你把这些符号，转换成嵌入物，并使用多层嵌入物，所以你得到这些非常丰富的嵌入物。但是嵌入仍然与符号相关联。在某种意义上，这个符号有一个大矢量，那个符号也有一个大矢量。这些矢量相互作用产生下一个单词的符号矢量。这是理解的本质-知道如何将符号转换为这些向量，并知道向量的元素应该如何相互作用，以便预测下一个符号的向量。无论是在这些大型语言模型中还是在我们的大脑中，这都是理解的工作方式。这是一个介于两者之间的例子。你继续使用符号，但把它们解释为这些大向量，这就是全部工作。所有的知识都在于你使用的向量以及这些向量的元素如何相互作用，而不是符号的规则。

这并不是说你可以完全摆脱符号。相反，符号被转换为一个大矢量，符号的表面结构得以保留。这些模型就是这样工作的。在我看来，这也是人类思维的合理模式。

在共享权重的帮助下，数字系统的思维转移非常高效。

主持人:您是最早想到使用GPU的人之一。我知道黄仁勋非常喜欢你。你在2009年告诉詹森，这可能是一种训练神经网络的绝佳方法。你想用GPU训练神经网络的时候是怎么想的？

辛顿:我记得在2006年，我有一个研究生是一名出色的计算机视觉专家。在一次会议上，他建议我考虑使用图形处理卡（GPU），因为它们在矩阵乘法方面非常出色，而我所做的基本上就是矩阵乘法。我想了想，然后我们开始研究带有四个GPU的特斯拉系统。

我们一开始只是买了游戏用的GPU，发现它们把计算速度提高了30倍。然后买了一个四GPU的特斯拉系统，在此基础上做了一个公开报告，效果很好。2009年，我在NIPS大会上发表了演讲，告诉在场的1000名机器学习研究人员:你们都应该购买NVIDIA GPUs，它们是未来，你们需要GPU来进行机器学习。

我还发了一封电子邮件给NVIDIA，说我已经动员了1000名机器学习研究人员来购买您的卡。你能送我一个吗？他们没有回复。但是当Jensen后来讲这个故事时，他免费给了我一个（如果你想要显卡，你必须直接和你的老板谈）。

主持人:在人工智能的发展中，GPU其实也在发展。我们在计算领域将走向何方？

辛顿:在谷歌的最后几年里，我实际上一直在思考模拟计算。这样，我们可以使用30瓦的功率（如大脑）而不是使用1兆瓦的功率。我希望在模拟硬件中运行这些大型语言模型。虽然从未实现，但我开始真正关注数字计算。

使用低功耗模拟计算时，每个硬件部分都会有所不同，也就是说，您需要学会使用特定硬件的属性。这是人们正在经历的。人和人的大脑是不同的。我们不能把你大脑中的重量放到我的大脑中。硬件不同，每个神经元的确切属性也不同。我们最终都会死，我大脑中的重量对其他大脑毫无用处。

我们可以非常低效地将信息从一个人传递到另一个人。我写句子，你试着改变你头脑中的权重，你会说同样的话。这实际上叫做提炼，但这种知识交流效率很低。

数字系统则不同。他们不会死。一旦你有了一些重量，电脑外壳就不重要了。只需将重量存储在磁带或其他东西上，就可以将相同的重量传输到另一台计算机上。如果是数字的，可以像其他系统一样计算。因此，数字系统可以高效率地共享权重，甚至进行迭代。假设你有一个庞大的数字系统，从相同的权重开始，学习一点点，然后再次共享权重，这样它们都可以知道其他系统学习了什么，甚至完成迭代。人类做不到这一点，数字系统在知识共享方面比我们做得好得多。

主持人:在这个领域已经实施的许多想法实际上非常传统，因为这些想法一直存在于神经科学中。那么，你认为还有哪些想法可以应用到我们正在开发的系统中？

辛顿:因此，我们仍然需要赶上神经科学的发展。

在几乎所有的神经网络中，都有一个快速的活动变化时间尺度。因此，当输入进来时，活动和嵌入向量将发生变化，然后将有一个缓慢的时间尺度来改变权重。这是长期的学习。

你只有这两种时间尺度。然而，在大脑中，重量会在许多时间尺度上发生变化。例如，如果我说了一个意想不到的单词，例如“黄瓜”，五分钟后，当你戴上耳机时，你会听到很多噪音，而且这个单词非常模糊，但你会更好地识别“黄瓜”这个单词，因为我是在五分钟前说的。这些知识是如何储存在大脑中的？这种知识显然是突触的暂时变化，而不是神经元重复“黄瓜”这个词。你没有足够的神经元来做这件事。这是体重的暂时变化。你可以通过暂时的体重变化做很多事情，我称之为快速体重。

我们的神经模型不会做到这一点，因为不可能通过临时改变依赖于输入数据的权重来同时处理大量不同的情况。目前，我们使用大量不同的字符串，将它们堆叠在一起，然后并行处理它们，因为我们可以通过这种方式执行矩阵乘法，效率要高得多。正是这种效率阻止了我们使用快速权重。但是大脑显然使用快速权重进行临时记忆。另外，你可以这样做。做各种我们目前不做的事情。

我认为这是你必须学会的最重要的事情之一。我真的希望像Graphcore（英国人工智能芯片公司）这样的设备可以使用快速权重，如果它们采用顺序方法并且只在线学习的话。但是还没起作用。也许当人们用电导作为砝码时，它最终会起作用。

主持人:了解这些模型是如何工作的，了解大脑是如何工作的，以及它如何影响你的思维方式。

辛顿:多年来，人们一直看不起大规模随机神经网络。只要给他们大量的训练数据，他们就会学会做复杂事情的想法。如果你与统计学家或语言学家，或者人工智能领域的大多数人交谈，他们会说这只是一个白日梦。如果没有一些先天知识和许多建筑限制，模型是不可能学习真正复杂的东西的。我认为你可以通过随意使用大型神经网络从数据中学到很多东西——但这是完全错误的。

随机梯度下降，即使用梯度反复调整权重，也可以学习非常复杂的东西，这已经被这些大型模型所证实。这是理解大脑的重要一点。大脑不需要具备所有的先天结构。即使大脑确实有许多先天结构，它也不需要这些先天结构来学习容易的东西。

乔姆斯基的观点是，只有当知识本身极其扎实和成熟时，我们才能学到像语言这样复杂的东西。然而现在，这种观点显然是荒谬的。

主持人:乔姆斯基会很高兴看到你说他的观点是荒谬的。

辛顿:乔姆斯基的许多政治观点非常明智。我很惊讶为什么一个对中东问题有如此明智看法的人会在语言学上犯如此大的错误。

主持人:您认为什么将使这些模型有效地模拟人类意识？ChatGPT现在每次都从零开始，删除对话的记忆。如果生活中有一个你与之交谈过的人工智能助手，它可以自我反省。有一天，你死了。你觉得那个时候助理会有什么感觉吗？

辛顿:我想他们也会感觉到的。所以我认为，就像我们有这种感知的内心剧场模型一样，我们也有感觉的内心剧场模型。这些都是我能经历的，而其他人不能。我认为这个模型也是错误的。我想，假设我说，我想打加里的鼻子，我经常这样做。让我们试着从内心剧场的概念来总结这一点——我真正想告诉你的是，如果我的额叶没有受到抑制，我就会采取行动。因此，当谈论感情时，我们实际上是在谈论将不受限制地采取的行动。这就是感觉的真正含义——当没有极限时我们会采取的行动。所以没有理由说这些东西感觉不到。

1973年，我看到了一个情感机器人。爱丁堡有一个带两个夹子的机器人。如果你把零件铺在一块绿色的毛毡上，它就能组装一辆玩具车。但如果你把零件堆在一起，机器人就看不清零件了。你把夹子放在一起，把零件拆开，再把它们组装起来。如果你看到一个人类这样做，你会说他不太了解情况，很生气，所以他把零件弄坏了。

主持人:在我们之前的对话中，您将人类和LLM描述为擅长制造类比机器。你在生活中发现的最有力的类比是什么？

辛顿:我认为一个可能对我影响很大的弱类比是宗教和符号处理之间的类比。

我来自一个无神论家庭。当我还是个孩子在学校的时候，我面临着宗教信仰的问题。在我看来，这简直是无稽之谈。即使我再看一遍，我仍然认为这是胡说八道。当一些人将符号处理视为人们的工作方式时，我认为这种观点仍然是荒谬的。

但我认为目前的观点并不完全荒谬。我们确实在处理符号，我们给符号分配了大的嵌入向量。但它并不像人们想象的那样，只是匹配符号——一个符号的唯一属性是它与另一个符号的相似性和差异性，这使它成为一个符号的唯一属性。但这不是我们的工作。我们使用上下文为符号提供嵌入向量；借助嵌入向量分量之间的相互作用，我们可以思考。

有一位非常优秀的谷歌研究员名叫费尔南多·佩雷拉。他认为，我们确实在进行符号推理，但唯一的符号是自然语言。我们使用自然语言作为推理的符号语言。我认为现在这是正确的。

很难因为安全问题而放慢人工智能研究的速度，也很难对医疗保健应用持乐观态度。

主持人:您已经完成了计算机科学史上一些最重要的研究。你能告诉我们你是如何找到正确的研究问题的吗？

辛顿:首先，我想纠正你。我和我的学生做了很多有意义的研究。这与我与学生的良好合作以及我发现优秀学生的能力是分不开的。从20世纪70年代到本世纪初，很少有人研究神经网络。作为少数研究神经网络的人，我可以选择最好的学生。这是非常幸运的。

科学家有自己的一套研究方法和理论。虽然许多科学家会总结自己的研究方法和理论，但事实上，他们可能不会真的这样做。但我还是想说，我的理论是我会寻找大家都认同的问题，但我的直觉会觉得有点不对。然后我会把这作为一个研究问题，看看我是否能深入解释为什么我认为这是错误的。例如，也许我可以用一个小的计算机程序制作一个演示，这表明每个人的预期都是错误的。

我给你举个例子。许多人认为向神经网络添加噪声会使结果变得更糟。如果你训练一个例子，让一半的神经元保持沉默，效果会更差。然而实际上，这样做会带来更好的推广效果。你可以用一个简单的例子来证明这一点。这就是计算机模拟的优势。你可以证明增加噪音会使情况变得更糟，而移除一半的神经元会使其工作更糟。短期内确实如此。但是如果你这样训练它，它最终会更好地工作。你可以用一个小的计算机程序来证明这一点，然后你可以认真思考为什么会这样，以及它如何阻止复杂的协作适应。

这是我的研究方法。找到并研究那些看起来不可靠的东西，看看你是否能给出一个简单的演示来解释为什么它是错误的。

主持人:你觉得现在什么不靠谱？

辛顿:我们不使用快速砝码似乎不太可靠。我们只有两个时间尺度，这是完全错误的，根本不像大脑的工作方式。从长远来看，必须有更多的时间尺度。这只是一个例子。

主持人:我们谈到了推理和时间尺度。假设一群学生问你，你所在领域最重要的问题是什么？你会给他们哪些值得研究的问题？

辛顿:对我来说，现在的问题和我过去30年一直存在的问题是一样的，即大脑会向后传播吗？我相信大脑会有一个梯度。如果你没有得到梯度，你的学习效果会比得到梯度时差好得多。但是大脑是如何获得梯度的呢？它是否以某种方式实现了某种近似版本的反向传播，还是一种完全不同的技术？这是一个悬而未决的大问题。如果我继续做研究，这就是我想研究的。

主持人:当你现在回顾你的研究生涯时，你会发现你在许多事情上都是正确的。但是你做错了什么，以至于你希望你花更少的时间？

辛顿:这是两个独立的问题。一个是我错在哪里，另一个是我是否希望能在这上面少花点时间。

我认为我对玻尔兹曼机器的看法是错误的，我很高兴我花了很长时间研究它。关于如何获得梯度，有一个比反向传播更漂亮的理论。反向传播是常见且明智的。这只是一个连锁规则。玻尔兹曼机器非常聪明，它是一种非常有趣的获得梯度的方法。我希望大脑可以这样工作，但事实不应该如此。

主持人:你是否花了很多时间想象这些系统开发出来后会发生什么？你有没有想过，如果我们能让这些系统很好地工作，我们就可以使教育民主化，使知识更容易获得并解决一些医疗问题？对你来说，这更多的是了解大脑？

辛顿:科学家应该做一些对社会有益的事情，但事实上这不是开展研究的最佳方式。当好奇心驱使你时，你会做最好的研究。你只需要知道一些事情，仅此而已。天语A950手机开机键在哪里

但最近，我意识到这些技术是一把双刃剑，开始更担心它们对社会的影响。但这不是我的研究动机。我只想知道，大脑是如何学会做事的？这正是我想知道的。但是我失败了一点。作为失败的副作用，我们得到了一些好项目。

主持人:是的，这对世界来说是一个很好的“失败”。从真正可能顺利进行的角度来看，你认为最有前途的应用是什么？

辛顿:医疗保健显然将是一个很好的应用。社会能够吸收的医疗几乎是无穷无尽的。以一位老年人为例。他们可能需要五名全职医生的照顾。因此，当人工智能在某些领域超越人类时，我们将期待它在更多领域发挥更大的作用。这可能意味着我们需要更多的医生。每个人都可以有三个专属医生，这将是非常出色的。我们有望实现这一目标，这也是医疗保健领域的优势之一。

此外，新的工程项目和新材料的开发，例如用于提高太阳能电池板性能或超导性的材料，或者只是为了更好地了解人体的运行机制，都将产生很大的影响。这些都是积极的方面。

然而，我担心一些政客可能会利用这些技术做坏事，例如利用人工智能制造杀人机器人、操纵舆论或进行大规模监控。这些都是非常令人担忧的问题。

主持人:您是否担心如果我们放缓该领域的发展速度，也会阻碍其积极发展？

辛顿:当然，我有这样的担忧。我认为这个领域的发展速度不太可能放缓，部分原因是它是国际性的。一个国家选择放慢发展速度，其他国家不会跟随。因此，中美两国在人工智能领域显然存在竞争，双方都不会选择放缓发展速度。有人建议我们应该将开发速度放慢六个月，但我没有签署这项提议，因为我认为这永远不会发生。然而，我可能应该签署这项提案，因为即使它永远不会发生，它也会引发一个政治问题。为了表达我们的观点，有时我们需要提出一些高不可攀的要求，这往往是一种有效的策略。但我不认为我们会放慢发展的步伐。

主持人:您认为这些人工智能助手将对AI研究进程产生什么影响？usb 驱动

辛顿:我认为它们将大大提高研究效率。有了这些助手，人工智能研究将变得更加高效。他们不仅可以帮助你编程，还可以帮助你思考问题，甚至

未经允许不得转载：科技让生活更美好 » 天才创始人对谈AI教父Hinton：多模态是AI的未来，医疗将发挥AI最大的潜力

天才创始人对谈AI教父Hinton：多模态是AI的未来，医疗将发挥AI最大的潜力

作者：pu

相关推荐