有效加速还是超级对齐?

“百年政变”背后的奥秘

两周前,OpenAI经历了一场“百小时政变”:11月16日晚,OpenAI的CEO萨姆·奥特曼收到了公司首席科学家Llya Szaszko发来的短信,让他第二天谈谈这件事。

11月17日,奥特曼如期而至,但他惊讶地发现,Szaszko邀请他出席的并不是私人谈话,而是一场“宴会”。除了董事长兼总裁格雷格·布罗克曼(Greg Brockman)之外,OpenAI的整个董事会都出席了会议,并当场宣布了解雇奥特曼的决定。随后,布罗克曼也收到了董事会的来信,并被告知他已被董事会开除。就这样,OpenAI最有权力的两个人,在这次董事会的突然袭击中被“缴械”。

被废黜后,奥特曼游说各方势力,寻求力量帮助他“恢复”。最终,在OpenAI员工的集体请愿和微软的外部压力下,奥特曼于11月21日再次成为OpenAI的CEO,而之前驱逐他的董事们也依次被他驱逐。最吊诡的是,在700多名OpenAI员工要求奥特曼回归的公开联名信中,“逼宫”的Szaszko Weir签了名。

一场轰轰烈烈的政变就这样结束了,从开始到结束,总共才104个小时。然而,围绕未遂政变的讨论并没有就此结束:既然奥特曼本人如此被看好,在公司内外都很受欢迎,董事会当初为什么要强行开除他?董事会此前表示,奥特曼被解雇是因为他“在与董事会的沟通中总是不诚实”,但这样的解释似乎过于草率。奥特曼向董事会隐瞒了什么?他这样做是为了什么?

神秘的Q*模型

就在人们纷纷猜测事件真相的时候,网上出现了一条爆炸性新闻。据报道,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)向员工透露,在董事会开除奥特曼之前,几名内部员工写信给OpenAI董事会,警告他们该公司此前在Q*模式上的突破可能会对人类构成威胁。而这封信很可能是董事会决定罢免奥特曼的直接导火索。

这个迷人的Q*模型到底是什么?它实际上是一个由Szaszko Weir主持的研发项目,其前身是2021年启动的GPT-零。由于OpenAI本身并不向外界透露关于Q*模型的细节,所以关于这个模型的讨论主要基于猜想:

一个猜想是,Q*模型的名字似乎暗示了它是基于所谓的Q学习模型。q学习算法是一种强化学习算法。当人们使用这种算法时,不需要对环境进行建模,智能体可以通过估计动作-状态组合的“质量”来自动做出学习决策。

比如我们可以让一个机器人用Q算法走迷宫。在这种算法下,它会尝试不同的路线来寻找最快的出口路径。通过反复试验,机器最终会得到一个策略,即所谓的“Q表”,它会告诉它从迷宫中的每个位置采取的最佳行动。在这个学习过程中,所有的步骤都依赖于机器与环境的交互,研究人员不需要介入。

需要指出的是,Q学习模型的思路与OpenAI在训练GPT时使用的RLHF模型有很大不同。后者的学习过程很大程度上需要人类的帮助,因此效率相对较低,但一旦在学习过程中发现问题,人类可以及时干预;相比之下,Q学习算法的学习效率要高得多,但同时,由于整个学习过程都是由机器自动完成的,如果出现问题,人很难干预。

另一种猜测是,解开Q*模型之谜的关键可能是它以前的名字,GPT-零。熟悉AI发展史的朋友应该很容易看出,GPT-零这个名字其实是向阿尔法-零致敬。虽然是DeepMind与Alpha-Go的产物,但Alpha-Zero的特点非常突出:Alpha-Go是基于人类现有的棋谱,虽然学习量大,但终究有限;而Alpha-Zero会自动合成棋盘进行学习,所以理论上它的学习时间空是无限的。

当然也有人推测Q*模型可能是Q学习算法和合成数据的合成。如果这个猜测是正确的,那就意味着智能体将能够在没有任何人为干预的情况下进行一种“永动机”式的学习:自己制作学习材料,自己探索模型,然后利用模型进行学习。从理论上讲,只要投入足够的计算资源,它的智能水平就会爆发——而且这种“爆发”可能会持续下去。

在这样的情况下,如果AI被“唤醒”,拥有了自己的意识,那么人类将可能面临一种智能远在自己之上的新型硅基生命。如果它萌发了任何不利于人类的想法,人类就很难有反抗的能力。或许正是因为这个原因,内部员工写给董事会的警示函才应运而生。

现在的问题是,为什么董事会在收到警告信后决定带走奥特曼?而为什么是Szaszko Weil带领董事会完成这一切?这大概是由于他们对技术与社会关系理解的冲突。

奥特曼是有效的加速器吗?

在如今的AI圈,奥特曼往往被视为“有效加速器”。

什么是“有效加速”?这是一种关于技术与社会关系的哲学思考。从名字就可以看出,它与所谓的“加速度”有着很深的渊源。

早在1967年,美国科幻大师罗杰·泽拉兹尼就在他的小说《光之王》中提出了一个叫做“加速”的想法。这种思想认为,要改变社会,就要改变社会对技术的态度。

在上个世纪六七十年代,这一思想影响很大,包括德勒兹、利奥塔在内的著名哲学家对此进行了阐述。在这个阶段,加速带有非常明显的左翼色彩。持这种观点的人普遍认为,资本主义阻碍了技术的发展,应该通过技术发展埋葬资本主义,发展一种新的人类社会形态。

上世纪八九十年代,英国右翼哲学家尼克·兰德(Nick Land)重新发现了“加速主义”的内涵。他抛弃了左翼加速主义者的斗争观念,认为我们应该在资本主义逻辑中加速前进。在他看来,资本主义从来没有被完全释放,而是一直受到政治的阻碍。每个文明都在加速走向最终的灾难。政治组织总是试图阻止这一过程,但他们无法改变最终的结局。人类的选择是主动加速奔向这场大灾难的终点。

兰德之后,赛迪·普兰特、马克·费希尔等一批激进的哲学家加入了兰德的团队,和他一起总结了加速的核心,即“资本主义+技术”。

从根本上说,现在硅谷流行的“有效加速”可以看作是加速思想的延续。但由于它融入了物理学、生物学和“超人类主义”哲学的诸多内容,内涵更加丰富,形式上也更加“科学”。

比如在网上广为流传的《关于e/acc原理和原则的笔记》中,宣称有效加速的基础是热力学第二定律。根据这个定律,宇宙是一个不断膨胀和优化的过程。在有效加速器看来,人类社会也满足这一定律,但与自然界不同的是,所谓的“技术资本”在社会领域的热力学第二定律过程中起着关键作用。这里所说的“技术资本”是一种超越人类的智力形态。

在有效加速器看来,是技术资本主导了社会的进化,塑造了包括人工智能奇点在内的重要事件。相比之下,人类只是技术资本实现其目的过程中使用的一个个齿轮。基于这种“科学”的信念,有效加速器认为有效加速运动不是一种社会运动,甚至不是一种意识形态,而只是对真理的承认。无论是现实中的官僚体制、技术治理,还是任何试图控制技术的势力,都阻碍了人们对真理的认知,因此需要被废除。

虽然从哲学的角度来看,有效加速度可以用玄妙来形容,但在实际操作中,却非常简单。总之就是拼命加速技术的发展。我们知道在技术进步的过程中可能会出现许多问题。比如基因技术的发展可能会造成很多伦理困境,而人工智能的发展可能会带来很多技术失业。

那么,有效的加速器在开发中是怎么看待这个问题的呢?他们的答案很简单:视而不见。因为在他们的哲学中,技术资本是高于人类存在的,所以当面对技术发展带来的各种变化时,主动适应变化是人类的义务,人类的利益或者任何其他原因都不应该成为阻碍技术发展的理由。

因为硅谷的创业者大多是技术爱好者,有效加速所倡导的技术导向的思想很容易得到很多人的认同。现在的问题是,奥特曼真的像人们说的那样是有效加速的支持者吗?事实上,这是有争议的。因为在很多场合,奥特曼都表达过对AI发展可能带来的各种问题的担忧。在美国国会举行的听证会上,他甚至公开呼吁对AI进行监管。

然而,越来越多的证据开始表明,奥特曼的所作所为其实只是作为一个商人的逢场作戏。比如奥特曼就曾公开表示自己在有效加速器的聚集地E/ACC论坛有一个秘密账号。当然,人们把奥特曼当成加速器的主要原因是他在现实中对技术的激进态度。

举个例子,其实在OpenAI推出GPT之前,微软、谷歌等大型企业内部就开发了类似的AI项目。然而,正如这些公司出于道德原因控制项目开发进度一样,奥特曼忽略了这些,让OpenAI先上了GPT。

后来,为了提高GPT的性能,他让GPT先接入网络,以便AI能实时接受最新信息。在很多人看来,奥特曼的一系列激进举动已经清楚无疑地说明了他是一个有效加速器的真相。所谓“听其言,观其行”,似乎比什么话都有说服力。

超级对准器的选择

与倾向于有效加速的奥特曼不同,领导OpenAI政变的Szaszko Weir是“超级结盟”的信徒。

在当前的AI圈子里,对齐是一个备受关注的概念。虽然不同文档对这个概念的定义有一些细微的差别,但总的来说是指引导AI系统的行为,使其符合设计者的意图。

乍一看,对齐似乎不是一件困难的事情——毕竟,AI程序都是由人类设计师编写的。只要选择合理的目标函数,制定合理的行为准则,就可以使其按照设计者的意志行事。然而,事实并非如此简单:

第一,设计者本身往往很难准确表达自己的意图,所以AI当然也很难真正按照自己的意志行事。比如,在科幻小说中,设计师往往会给AI设定一些宏大的任务,比如“保护人类安全”、“让人类幸福”,但“安全”、“幸福”这两个词连人类自己都无法准确定义和表达。

在这样的情况下,如果让AI来执行这些任务,它可能会做一些人们没有预料到的事情。比如,为了保证人类的绝对安全,他们可能会把人类像动物一样圈养起来;为了让人快乐,他们可能会直接将电极插入人脑,刺激多巴胺分泌腺体。

第二,在设计AI的过程中,人们往往很难充分考虑到自己程序的所有可能后果,所以AI在执行其设定的程序时,可能会带来很多意想不到的后果。从事人工智能排列的人经常参考雅各布斯的恐怖小说《猴子& apos的爪子).

这部小说讲述了一个故事:怀特夫妇意外得到了一只神奇的猴爪,可以实现他们的三个愿望。怀特夫妇先许了个愿,要一百英镑。这个愿望很快就实现了——第二天,他们在工厂上班的儿子出了意外,被卷入机器,惨死。作为补偿,工厂主给了他们100英镑。儿子的死让怀特夫妇非常难过,于是他们向猴爪许了第二个愿望,希望儿子能回来。这个愿望也实现了,但回来的儿子不再是活人,而是行尸走肉。

国双科技500强

这让老两口非常害怕,于是他们向猴爪许了第三个愿望,让儿子消失。许下这个愿望后,他们的儿子消失了。在上面的故事中,怀特夫妇向猴爪许了三个愿望,猴爪如愿实现了这三个愿望。然而,这些愿望的实现并没有给他们带来想象中的改善,相反,他们失去了心爱的儿子。

在AI对齐的问题上,AI就像猴子的爪子,可以帮助人实现愿望。它可以帮助人们完成许多他们难以完成的任务。但是,如果AI为了完成任务而不择手段,它可能会像故事里的猴爪一样,不仅给人带来快乐,也给人带来灾难。

第三,很多时候人的目标是多样的,所以当他把这些目标传递给AI时,会对不同的目标赋予一定的权重。在这种情况下,为了优化,AI可能会过于关注那些被赋予较高权重且易于检查的目标,而忽略其余的目标。

比如,对于一个用来帮助孩子学习的AI,人们会希望它不仅能帮助孩子提高成绩,还能帮助孩子提高学习能力。显然,在这两个目标中,前者更容易量化,一般情况下也会被赋予更高的权重。所以AI在执行任务的时候,会优先考虑这个目标,让孩子不断地刷题,辅导各种解题技巧,未必有助于提高孩子真正的学习能力。

基于以上问题,要让AI真正按照设计者的意图行动,可能没有人们想象的那么容易。

此外,还有一个更重要的问题困扰着人们,那就是所谓的“结盟”到底应该“对准”谁。在现实中,人们的兴趣是多样的,他们对实现某一特定任务的各种方式的偏好也不尽相同。此时,如果AI要服务大量的人,就会陷入仆人不止一个的困境。郑州奥飞科技

为了让AI成功实现对齐,人们做了很多努力,也形成了很多不同的想法。比如在训练ChatGPT的时候,OpenAI就采用了RLHF的思想,即利用人类的反馈来纠正AI的行为。据报道,为了实现这种训练,OpenAI雇佣了数万名人类训练员,对ChatGPT对敏感问题的回答进行评分。这样,ChatGPT就可以从大量的人类反馈中逐步发掘出人类对具体问题的主流观点,并以此来指导自己的行为。

RLHF成功的关键之一是有效地将人类的反馈反映在AI的奖励功能上,从而改变AI的激励。但是有时候人的观察会有偏差,所以他们反馈给AI的激励是不正确的。更有甚者,AI出于其奖励功能最大化的目的,可能会故意利用人类训练者的观察缺陷来欺骗他们。

针对这种情况,有AI从业者建议用“超级比对”来比对AI系统,尤其是超智能AI系统。该策略的基本思想是创建一个“自动人类级比对研究员”,然后使用它来执行AI的比对工作。

换句话说,在比对的过程中,那些更适合AI的任务尽可能由AI自动完成,而人类只负责最关键的部分,尽可能提高比对的效率。目前这种比对思路已经得到了一些AI公司的高度评价。例如,OpenAI在今年7月启动了一个超级比对项目,主持该项目的是Szaszko Weil和另一位科学家简·雷科。

在许多场合,Szaszko Weil表达了他对他主持的项目的重视。例如,在Youtube的一次采访中,Szaszko Weil曾经将未来的超级AI比作核电站。在他看来,就像人们需要投入大量资源防止核电站意外泄漏一样,为了防止超级AI可能对人类造成的伤害,必须投入足够的资源进行比对工作。

有趣的是,人们会对奥特曼呼吁监管AI持怀疑态度;对于Szaszko对对齐的强调,人们愿意选择相信。我觉得人们的判断很大程度上是基于Szaszko过去的背景。Szaszko Weil是被称为“深度学习之父”的Geoffrey Hinton的学生。韩丁本人非常重视对齐。

至此,我们大致可以编一个Szaszko Weil一开始带头驱逐奥特曼的原因,然后他愿意为他的回归请愿:如果奥特曼真的是一个有效的加速器,那么他会敦促放弃一切阻碍GPT发展的障碍;即使他对有效加速的信念不是那么强烈,但他可能不会同意仅仅从一个企业家的立场出发,人为地推迟他的产品的开发。

作为一个超结盟的信徒,Szaszko Weir显然不会让奥特曼在这个他认为将关系到人类存亡的问题上犹豫不决。尤其是当他看到Q*模式的飞速发展,呈现出超级AI的趋势时,不得不仓促行动,和其他几个导演一起发动政变。

但是,当他看到奥特曼被驱逐后,OpenAI本身分崩离析,他的超对齐项目也将面临破产。同时,奥特曼和OpenAI的大量人才可以轻松加入微软等其他公司,从而延续超级AI项目。如果情况发展成这样,那么超级AI的控制可能会来得更快。相比这种情况,把奥特曼请回来,让他继续支持超对齐项目,可能是更好的妥协。

第三种方式:d/acc

那么,让我们把目光转向一个更重要的问题:在AI技术日新月异,超级AI似乎指日可待的今天,是应该坚持有效加速的态度,让技术发展下去,还是应该坚持超级对齐的观点,坚持AI的发展必须符合人类的意图?

以上两种观点,我个人都不完全认同。与他们相比,我更喜欢以太坊创始人维塔利克·布特林(Vitalik Buterin)倡导的d/acc。在d/acc这个词中,acc是加速度的缩写。所以不难看出,其实是加速的另一个版本。

其中,D可以有多种解读,比如“防御性”、“去中心化”、“民主性”。把D和acc放在一起是一种防御机制,主张去中心化和民主化来处理发展中的问题。

根据历史经验,虽然技术的发展肯定会带来各种各样的问题,但总的来说,它带来的好处一般会大于坏处。所以,即使人类不是技术发展过程中的主角,作为配角,也可以从这个过程中整体受益。

反过来,拒绝技术的发展,不仅代价巨大,还会错失提高生活水平的机会,所以得不偿失。从这个角度来说,不开发是最大的风险,加速的总体思路没有错。飞屋科技违法

那么,如何处理AI加速发展中的问题呢?是不是超对齐?个人觉得不太合适。在超级比对中,最重要的是确保用于执行AI比对的自动AI研究器已经对齐。具有讽刺意味的是,它是否做到了这一切,却掌握在少数专家手中。其实从OpenAI事件就可以看出,这种被人们寄予厚望的AI,连整个OpenAI董事会的一致利益都无法代表,更别说全人类了。

相比之下,通过分布式技术,d/acc一方面让更多的人参与到AI比对中,以民主的方式评判AI的行为;另一方面,对AI可能出现的问题建立更多的防御壁垒,似乎可以在确保技术充分发展的同时,更好地让AI与“人类价值观”对齐,也可以更好地防止对齐失败带来的灾难性后果。从这个角度来看,似乎是一个更妥协、更稳妥的AI发展计划。

未经允许不得转载:科技让生活更美好 » 有效加速还是超级对齐?