大模型时代,孩子还需要读经典吗?

最近Wa有空的时候,我教他C++编程,很多东西我都忘了。我只是问文一句话。前两天教了一道编程题,求几个数中最小的数。书上有两三个解决方案,我可以百度一下,给一段代码。简单看了一下,惊讶于大模型给出的代码简洁实用。只有经验丰富的C++老手才能写出这样的文法,也符合问题。在书中不是万能的,而是简洁干净的。强行和伊娃解释了心中获得的美好,愤怒地看着他茫然的眼神。

据悉,OpenAI正在筹建OpenAI学院,预计2023年底开学。一个是每个人都可以访问的免费在线教学系统,教师和学生可以更方便地使用ChatGPT5学习课程。以后每个人都会有一个总师,真的是一件幸事,尤其是那些跨专业的问题:

除了感觉之外,我心里不仅有一个疑问:以后我要跟着大模型学习,而不是问题导向的学习。那些经典的人文书籍,不涉及任何实际问题的,可能只会给一些启发性的书籍,包括哲学、抽象方法论、情怀方面的书籍。你还需要读它们吗?笔者更喜欢看那些书,尤其是丹尼尔写的一些领域的书,往往具有很好的人文和哲学素养。当人类的长期思考与具体领域相结合时,阅读起来更愉悦。

人的学习需要书籍和资料,大模型也是如此。在讨论这个问题之前,我们先来看看学习大型语言模型用的是什么数据。

第一,大语言模型的训练数据

大型语言模型的训练数据大致可以分为两类:

1.训练前数据

大量文本用于无监督的预训练和学习一般表示。人工智能研究机构艾伦人工智能研究所(Allen Institute for AI)发布了一个名为Dolma的开源语料库,其中包含来自在线内容、学术出版物、代码、书籍和维基百科资料的3万亿token。包括维基百科、CommonCrawl等开源语料库,以及社交媒体数据和会话数据集。

总的来说,可以认为所有干净的人文都可以用来训练。针对特定领域,如法律:相关书籍、论文、法规、案例、法院听证会等。;金融领域:相关书籍、论文、研究报告、公告、财务报告、新闻等;其他学科也是如此。一般来说,对于前期训练:专业干净的领域相关文本资料,越多越好。

2.监督微调数据

监督微调数据以适应任务和用户偏好。有监督的微调数据准备也是应用大模型的主要工作。强化学习和训练的数据通常类似于指令微调的数据,通常不需要在应用阶段进行,也属于这一类。

典型的数据集是Alpaca-52k(alpaca_data.json)。羊驼-52k是一个开源的数据集,用来微调羊驼模型得到羊驼-7B模型的数据集,包含52000条指令数据。其数据格式分为两类:指令/输出和指令/输入/输出。输入是任务的可选上下文或输入。例如,当指令是“总结下面的文章”时,输入是文章。行业和领域的监督微调数据也是如此。自然科学和社会科学还是有一定标准的,人文学科很可能被放在主观偏好里。这也是为什么中国需要大规模的模特监督和证书。

3.少量的高质量数据足以进行大模型的监督微调训练。

Mata的研究人员发现,只有1000个高质量的样本数据用于微调,没有任何强化学习或人类偏好建模。65B的美洲驼模型表现出色。这对于我们这些做大模型应用的人来说当然是个好消息,这个领域也不缺高质量的数据。论文认为模型的知识和能力几乎完全是在预训练时学习的,而监督微调(SFT)则是教会它在与用户交互时使用哪种子分布格式,少量的高质量数据就能达到预期的效果。这似乎类似于人类可以用少量的数据进行学习。

第二,与大语言模型相比,人类的学习过程

1.经典是人类的优质数据。

在自然科学和社会科学领域,人类学习的高质量可以认为是机器标准的一致性。还是以人文学科为主吧。

陈寅恪被誉为三百年来第一书生。其中一位是清华大学历史、中文、哲学教授,精通20多门外语。课名叫“前人说的,我不说话;我就不说我最近说过的话了;外国人说过的话我不说;我自己过去也说过,就不说了。”他对阅读的建议是阅读原著。”中国只有一百多部原版经典,其余都是根据这些书改编的。“2023年诺贝尔生理学或医学奖得主卡塔利姆·卡里科(Catalim Kariko)在接受采访时也表示:我的爱好之一就是阅读经典的科学论文。当我意识到RNA中的尿苷会引爆免疫细胞,导致炎症和干扰素的产生时,我想知道以前有没有人注意到这一点。果然,在1963年的一篇论文中,发现从哺乳动物细胞中分离出来的RNA不会诱导干扰素的产生。

2.熏陶是一个人的训练过程。

说到经典的人文书籍,穆欣先生的《文学回忆录》是他给学生陈丹青讲课的抄本。从古希腊,新旧公约,到中国诗经,魏晋文学,再到欧洲中世纪文学,一直谈到20世纪文学,谈到各种流派。将自己在文学、艺术、哲学等领域的观点和喜好融入到讲座中。可想而知,这样五年的熏陶,对他的学生的人生和艺术生涯都是有益的。

理工科也是如此,在阅读经典、研究和解决问题的过程中。受老师影响,研究领域的方向和价值选择。

三、高质量数据学习:人类VS大语言模型

通常在大多数研究领域,只有阅读该领域的经典,才能通过实践中的训练,掌握解决该领域问题的方法。投资这种需要智慧的领域不算。即使在文学领域,多读书当然有价值,但也不是全部。钱钟书先生以博学著称,自称掌握了古今中外的原著经典。有“兔毛见干坤”的智慧但有时候“白的真干净”这种简单直接的风格更能打动人,这必然是小样本学习的结果。

作者断言,由于大语言模型是大量数据训练的结果,它永远无法成为该领域的直观专家。本身是不可能有创新发现和新思想的。

1.为什么大模型不能像人类一样只用那些经典的素材和数据来学习?

ChatGPT和其他大型语言模型简化并统一了问题形式。当输入特定问题作为提示时,模型会尝试匹配提供的上下文,并根据学习到的人类知识完成文本。ChatGPT也是一个AI生成的内容模型(AIGC),需要通过SeqGAN产生大量的样本数据来进一步优化模型。当最终模型与生成问题在输入输出形式上一致时,理解和生成任务在表达形式上完全统一,更有利于生成内容模型数据的生产和优化。

这也是大模型仅靠那些经典的资料和数据是学不来的原因。原著和经典论文太少,根本不够大模训练用。至少需要拟合数十亿个参数,并且必须训练大量数据。互相参考的书籍和文章也是大模型的优质数据,总比生成的数据可靠。

2.挖掘高维数据的价值是人类认识世界的方向之一,但不是全部。

多维数据矢量化特征表示将有利于挖掘和产生更多的数据价值。既然语言可以矢量化,为什么不可以呢?矢量量化也是机器学习算法发挥作用的前提条件之一,机器学习就是用来挖掘数据中的信息。利用机器在我们无法理解的数据中挖掘高维信息的速度将会进一步加快。

3.大模式是世界模式的方向。

近日,图灵奖获得者、深度学习创始人之一的LeCun在公开演讲中再次对GPT大模型提出了批评。他认为生成一个基于概率的自回归大模型根本不能打破错觉问题。甚至直接发出断言:大语言模型活不过5年。

他的设想是创造一种机器,能够学习世界如何运转的内部模型,即世界模型,使其能够更快地学习,为完成复杂任务制定计划,并随时应对不熟悉的新情况。

作为Meta的首席人工智能科学家,LeCun最近指导发布了一个“类似人类”的人工智能模型I-JEPA,声称在相同的数据和训练资源下,它可以比现有的模型更准确地分析和完成缺失的图像。不知道,但我个人有个没有武德的看法:为什么要用同样的数据和训练资源去比较效果?

LeCun希望设计一种学习算法,捕捉关于世界的常识背景知识,然后编码成算法。这是一个强人工智能方案,在学术上优于ChatGPT的弱人工智能方案。用算法来建模世界,显然是傲慢的。就像投资领域一样,希望把各行各业的产业链建模,捕捉到相互的影响。基于简单的常识,飞机不必学习鸟类的飞行原理。个人认为大模式是世界模式的方向。

动词 (verb的缩写)结论:人不一定要向机器学习,就像机器不一定要向人学习一样。

大型语言模型的一个令人印象深刻的功能是通过提供上下文中的示例并要求模型根据提供的最终输入生成响应来从小样本中学习。模型的知识和能力几乎完全是通过前期训练时的大量样本来学习的,这与人类善于学习少量的高质量数据有着本质的区别。

日前,美国美国食品药品监督管理局批准马斯克的Neuralink公司对脑机接口项目进行人体临床试验。

人脑不会因为ChatGPT的发明而自动进化,除非连接上脑机接口。所以对于人类的孩子来说,读经的学习方式还是存在的。

未经允许不得转载:科技让生活更美好 » 大模型时代,孩子还需要读经典吗?