OpenAI的Q*没有毁灭人类,却打了学术界的脸

1.看完OpenAI的权力游戏,人们还是期待背后的真相与AI技术的恐怖突破有关,而不是一场过家家的权力闹剧。而Q*的传闻来得正是时候。

2.路透社先戳出来的。根据这些报道,Q*在庞大计算资源的支持下,可以解决一些数学问题。虽然只是小学生水平,但OpenAI的人认为它会威胁人类做数学题,OpenAI的技术团队也确实向董事会发出了预警,也正是这封信导致了董事会突然攻击奥特曼。

尘埃落定后,这项只有一个代号的技术再次引起热议。这个神秘的技术到底是什么?OpenAI对此也没有给出任何解释。不熟悉技术细节的人愿意想象Q*会成为AI毁灭人类的重要一步。但如果真的要关心技术本身,可能并不复杂。

4.简单来说,Q*=Q+A*。先拆开来解释一下“Q”。人工智能领域与资本Q密切相关,本质上是Q学习。指的是告诉代理在训练的过程中如何选择下一步,才能和历史最高奖励值一样。

5.比如Q-learning和agent就像一个团队的分析师和教练,分析师辅助教练,教练真正指导团队。教练的决策是反馈到环境中得到奖励值,而分析师只是记录奖励值,所以不需要对环境建模。

6.背后的想法早在1989年就存在了。后来最重要的进展是DeepMind等人在Q学习中寻求最大回报的过程中使用了神经网络技术,发明了DQN (Deep Q Network)。

7.它从来都不是一项受欢迎的技术。因为随着如今几百亿参数的大模型的流行,教练对真实环境的反应能力极强,分析师似乎也很迷茫。q学习似乎增加了复杂度,降低了鲁棒性,这是没有帮助的。

8.但Q-learning所体现的思想却一直吸引着研究者,因为它接近计算机运算的本质:它就像是高端版的弗洛伊德求边长,而在现代计算机中,处理器所使用的核心原理是弗洛伊德算法,通过与历史最优值的比较来寻找两点之间的最短路径。

9.q说完了,再来说说*背后的A*算法。这是一个启发式算法,我可以给你讲一个笑话帮助你更好的理解:有一天A决定考B,问“请快速找到1928749189571*1982379176的乘积”,B马上回答A说:“32”。这个A听着就很不解。这么大的两个数不可能相乘,答案是两位数。b问A:“你刚才说你快吗?”

10.看似离谱,但这就是启发式算法A*在做的事情。它的本质是估算。首先,通过启发式算法估计一个粗略的值。当然,这个值极有可能偏离正解。估算完成后,将开始循环。如果没有办法解决,就会重新评估,直到解决方案开始出现。如此反复,最终得到最优解。这样做的目的也很明确。效率和正解之间只有一个选择,所以选择效率。

11.于是问题也出现了。它的答案是对的,需要很长时间。放在个人设备上会导致内存溢出和系统问题,比如蓝屏。在过去,A*算法最典型的应用是网络游戏中的角色寻路。在一些大型游戏中,角色在寻路开始的那一刻就卡住了,原因是A*算法。

12.q和A*完了。都很简单。Q*最有可能的方式是利用Q学习快速找到接近最优解的估计,然后用A*算法在小范围内求解,省去了大量无意义的计算过程,从而达到快速找到最优解的效果。两者取长补短,即节省计算能力和内存,得到最优解。当然,OpenAI怎么做还得等公号论文(如果能等的话)。

13.所以你会发现关于Q*的信息,其实很容易解释清楚。而且比起它是什么,其实它体现的趋势更值得探讨:那就是人工智能发展中求解的过程比求解更有意义。

14.OpenAI再次提出Q*,赋予了这个老概念新的意义。毕竟,代理商,GPT商店和Q*都是由OpenAI出名的。人们有理由相信,在Q和A两种由来已久的算法思想中,OpenAI能够再次创造奇迹。

15.为什么人们期待OpenAI创造Q计算的奇迹,而不是依靠最早提出它的学术界?因为OpenAI垄断了计算能力。目前,计算能力资源的严重不平等是一个突出的问题,尤其是在学术界和企业界之间。9月底,在一次活动后,我遇到了斯坦福大学的李菲菲,问了她一个问题:今天你对AI最大的担忧是什么?她回答说,学术界和谷歌、OpenAI这样的公司在计算能力上是不匹配的。这使得研究人员无法复制或检查企业开发的模型。作为一个一直以研究推动的领域,这种不平衡会产生很大的影响——学术界显然更倾向于推动安全相关的研究,增加了机型的安全风险。

16.而第二天我有机会和OpenAI的Jason Wei交流,我把同样的问题抛给了他。他是OpenAI的明星研究员,这个职位应该是学术研究和行业实践之间的纽带,但他基本上对李菲菲的担忧没有任何同情。他给我的答案是:如果他们没有计算能力,就应该去做不需要计算能力的研究。

17.OpenAI的人越来越不重视学术界对新算法带来的帮助和参与讨论的必要性。OpenAI的Jason Wei的研究,在实际环境中无法检测和扩展基于它的研究,甚至他们自己的理论研究也越来越没力,只能停留在论文中。所以无论是最流行的技术路线,还是风险问题的主导权,都完全由OpenAI掌握。

18.于是,OpenAI成为showstopper,最终推动Q*成为跨界热门话题:一举一动,就能引爆一个概念,引起人们的广泛猜测,指向AI的超能力和“毁灭人类”的可能性。而最关键的真实信息和概念精髓,只会以各种谜语的形式展示出来,最终不会有论文。

19.所以,引爆Q*的背后,是OpenAI在技术话语权上对学术界的无情碾压。马斯克先生似乎很不喜欢今天的OpenAI,但他对学术界的看法和OpenAI主流的观点如出一辙——他认为99%的学术论文都是没有意义的。OpenAI里没人这么说,但他们就是这么做的。

未经允许不得转载:科技让生活更美好 » OpenAI的Q*没有毁灭人类,却打了学术界的脸