OpenAI的Q*没有毁灭人类，却打了学术界的脸-科技让生活更美好

1.看完OpenAI的权力游戏，人们还是期待背后的真相与AI技术的恐怖突破有关，而不是一场过家家的权力闹剧。而Q*的传闻来得正是时候。

2.路透社先戳出来的。根据这些报道，Q*在庞大计算资源的支持下，可以解决一些数学问题。虽然只是小学生水平，但OpenAI的人认为它会威胁人类做数学题，OpenAI的技术团队也确实向董事会发出了预警，也正是这封信导致了董事会突然攻击奥特曼。

尘埃落定后，这项只有一个代号的技术再次引起热议。这个神秘的技术到底是什么？OpenAI对此也没有给出任何解释。不熟悉技术细节的人愿意想象Q*会成为AI毁灭人类的重要一步。但如果真的要关心技术本身，可能并不复杂。

4.简单来说，Q*=Q+A*。先拆开来解释一下“Q”。人工智能领域与资本Q密切相关，本质上是Q学习。指的是告诉代理在训练的过程中如何选择下一步，才能和历史最高奖励值一样。

5.比如Q-learning和agent就像一个团队的分析师和教练，分析师辅助教练，教练真正指导团队。教练的决策是反馈到环境中得到奖励值，而分析师只是记录奖励值，所以不需要对环境建模。

6.背后的想法早在1989年就存在了。后来最重要的进展是DeepMind等人在Q学习中寻求最大回报的过程中使用了神经网络技术，发明了DQN (Deep Q Network)。

7.它从来都不是一项受欢迎的技术。因为随着如今几百亿参数的大模型的流行，教练对真实环境的反应能力极强，分析师似乎也很迷茫。q学习似乎增加了复杂度，降低了鲁棒性，这是没有帮助的。

8.但Q-learning所体现的思想却一直吸引着研究者，因为它接近计算机运算的本质:它就像是高端版的弗洛伊德求边长，而在现代计算机中，处理器所使用的核心原理是弗洛伊德算法，通过与历史最优值的比较来寻找两点之间的最短路径。

9.q说完了，再来说说*背后的A*算法。这是一个启发式算法，我可以给你讲一个笑话帮助你更好的理解:有一天A决定考B，问“请快速找到1928749189571*1982379176的乘积”，B马上回答A说:“32”。这个A听着就很不解。这么大的两个数不可能相乘，答案是两位数。b问A:“你刚才说你快吗？”

10.看似离谱，但这就是启发式算法A*在做的事情。它的本质是估算。首先，通过启发式算法估计一个粗略的值。当然，这个值极有可能偏离正解。估算完成后，将开始循环。如果没有办法解决，就会重新评估，直到解决方案开始出现。如此反复，最终得到最优解。这样做的目的也很明确。效率和正解之间只有一个选择，所以选择效率。

11.于是问题也出现了。它的答案是对的，需要很长时间。放在个人设备上会导致内存溢出和系统问题，比如蓝屏。在过去，A*算法最典型的应用是网络游戏中的角色寻路。在一些大型游戏中，角色在寻路开始的那一刻就卡住了，原因是A*算法。

12.q和A*完了。都很简单。Q*最有可能的方式是利用Q学习快速找到接近最优解的估计，然后用A*算法在小范围内求解，省去了大量无意义的计算过程，从而达到快速找到最优解的效果。两者取长补短，即节省计算能力和内存，得到最优解。当然，OpenAI怎么做还得等公号论文(如果能等的话)。

13.所以你会发现关于Q*的信息，其实很容易解释清楚。而且比起它是什么，其实它体现的趋势更值得探讨:那就是人工智能发展中求解的过程比求解更有意义。

14.OpenAI再次提出Q*，赋予了这个老概念新的意义。毕竟，代理商，GPT商店和Q*都是由OpenAI出名的。人们有理由相信，在Q和A两种由来已久的算法思想中，OpenAI能够再次创造奇迹。

15.为什么人们期待OpenAI创造Q计算的奇迹，而不是依靠最早提出它的学术界？因为OpenAI垄断了计算能力。目前，计算能力资源的严重不平等是一个突出的问题，尤其是在学术界和企业界之间。9月底，在一次活动后，我遇到了斯坦福大学的李菲菲，问了她一个问题:今天你对AI最大的担忧是什么？她回答说，学术界和谷歌、OpenAI这样的公司在计算能力上是不匹配的。这使得研究人员无法复制或检查企业开发的模型。作为一个一直以研究推动的领域，这种不平衡会产生很大的影响——学术界显然更倾向于推动安全相关的研究，增加了机型的安全风险。

16.而第二天我有机会和OpenAI的Jason Wei交流，我把同样的问题抛给了他。他是OpenAI的明星研究员，这个职位应该是学术研究和行业实践之间的纽带，但他基本上对李菲菲的担忧没有任何同情。他给我的答案是:如果他们没有计算能力，就应该去做不需要计算能力的研究。

17.OpenAI的人越来越不重视学术界对新算法带来的帮助和参与讨论的必要性。OpenAI的Jason Wei的研究，在实际环境中无法检测和扩展基于它的研究，甚至他们自己的理论研究也越来越没力，只能停留在论文中。所以无论是最流行的技术路线，还是风险问题的主导权，都完全由OpenAI掌握。

18.于是，OpenAI成为showstopper，最终推动Q*成为跨界热门话题:一举一动，就能引爆一个概念，引起人们的广泛猜测，指向AI的超能力和“毁灭人类”的可能性。而最关键的真实信息和概念精髓，只会以各种谜语的形式展示出来，最终不会有论文。

19.所以，引爆Q*的背后，是OpenAI在技术话语权上对学术界的无情碾压。马斯克先生似乎很不喜欢今天的OpenAI，但他对学术界的看法和OpenAI主流的观点如出一辙——他认为99%的学术论文都是没有意义的。OpenAI里没人这么说，但他们就是这么做的。

未经允许不得转载：科技让生活更美好 » OpenAI的Q*没有毁灭人类，却打了学术界的脸

OpenAI的Q*没有毁灭人类，却打了学术界的脸

作者：pu

相关推荐