冯提莫 病变
新智元报道。
编辑:艾伦好困
【新智元简介】新款SOTA再次亮相,Code Llama系列最强车型发布。70B代码模型一举击败GPT-4,开源代码登陆各大平台,大佬们直接玩了起来。
今天,Meta正式发布了Code Llama 70B,作为Code Llama系列中最大和最强大的版本,它一举击败了GPT-4!
目前,该模型有三个版本,均可免费用于研究和商业目的:
CodeLlama – 70B:基础代码模型; CodeLlama – 70B – Python:专门针对Python的 70B模型; CodeLlama – 70B – Instruct:专门用于理解自然语言指令的模型。
随着8月发布的代码Llama 7B、13B和34B,这个家已经完成。
htc发布新机
地址:https://ai . meta . com/research/publications/code-llama-open-foundation-models-for-code/
事实上,Code Llama在发布时已经展示了其良好的实力,并且在多个代码生成模型中处于领先地位。
然而,GPT-4仍然以67.0的人类评价分数(pass@1)遥遥领先(代号Llama 34B为53.7)。
虽然后来Code Llama的微调版本取得了更好的效果,但它并没有进入这种官方形式的Meta。
但是!在寒窗苦读五个月后,Code Llama终于一鸣惊人,并以最强的70B型号在所有三项测试中名列前茅。
其中,CodeLlama-70B-Instruct在HumanEval上直接获得了67.8的高分,在目前最强的开源模型中名列前茅。
可以说,除了GPT-4,其他类似型号几乎不可能与之匹敌。
对此,LeCun转发并宣传了自己的新模型:“新一代Code Llama仍然是开源的,就像它的前辈一样。」
最后发现我的AI是个小宝,还加大了宣传力度:
我们正式开源了一个全新且更加强大的Code Llama,包含一个庞大的700亿参数的模型。 在当今的AI域,编写和编辑代码已经成为了最关键的应用之一。同样,能够编程也对AI模型在其他领域进行更加严密和逻辑性的信息处理显得尤为重要。 我对我们在这方面取得的进展感到非常自豪,并且非常期待在未来的Llama 3及后续模型中加入这些先进的成果。
技术细节
Code Llama是一个大型语言模型,可以通过文本提示生成代码。它不仅可以提高现有开发人员的工作效率,还可以降低新手程序员的学习门槛。
Meta希望将Code Llama打造为一款不仅可以提高生产力,还具有教育价值的工具,并帮助程序员创建更稳定、文档更完善的软件。
Code Llama是基于Llama 2开发的版本,专门用于编程任务。
通过在专门为编码设计的数据集上进行深度训练,Code Llama可以理解并生成代码,并帮助完成编程任务(如编写函数、代码完成和调试)。
它还支持许多流行的编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。
到目前为止,Code Llama系列已经收集了四个音阶,参数分别为7B,13B,34B和70B。
前三个模型使用500B token代码和相关数据进行训练,而新发布的70B模型使用1TB token。
此外,7B和13B的基本模型和指令模型已经通过中间填充(FIM)函数进行了训练,它们具有将新代码直接插入现有代码的能力(代码补全)。
Code Llama系列型号针对不同要求和性能要求进行了优化:
7B模型可以在单个GPU上运行,适用于快速响应场景。型号34B和70B提供更高级的编码辅助功能,但运行速度较慢。
Code Llama可以处理长达100000 token的上下文,这意味着模型可以理解并生成更长的程序代码。
这对于在大型代码库中调试任务特别有用,开发人员可以提供大量代码上下文来获得更准确的编码建议。
此外,Code Llama还推出了两个特殊版本:Code Llama-Python和Code Llama-Instruct。
考虑到Python在AI社区中的重要性,Code Llama-Python专门针对Python代码进行了优化(使用100B token的Python代码数据进行微调),以使其在生成Python代码时更加流畅和准确。
CodeLlama-70B-Python还可以处理一系列任务,例如web爬行、数据分析、机器学习(ML)和Web开发。
Code Llama-Instruct通过接受自然语言指令和预期输出进行训练,这使其更擅长根据用户的需求生成代码或答案。
CodeLlama-70B-Instruct还可以用于处理排序、搜索、过滤和操作数据,以及实现算法(二分搜索法、斐波那契和阶乘等)。).
建议在需要生成代码时优先使用Code Llama-Instruct,以获得更安全、更有用的结果。
需要注意的是,主要用于编程问题的Code Llama和Code Llama-Python并不适合一般的自然语言任务。
基准测试
让我们看看新代码Llama在类似车型中的表现如何。这里采用了业内广泛使用的编程基准:
人类评估和最基本的Python编程(MBPP)。
HumanEval是一个包含164个编程问题的基准数据集,用于测试代码生成模型的功能正确性和逻辑,而MBPP则测试根据特定描述对模型进行编码的技能。
我们可以看到,上一代34B的性能非常出色,而参数增加了一倍的Code Llama 70B直接占据了榜单的主导地位,其性能与34B相比有了显著的提高。
其中,CodeLlama-70B-Instruct在HumanEval上的得分高达67.8分,超过了CodeGen-16 B- Mono(29.3分)和star coder(40.1分)等开放模型之前的最佳得分,并与GPT-4(68.2分)和Gemini Pro(69.4分)等闭源模型相当。
当然,为了更负责任地开发AI模型,Meta采取了多项安全措施,并对生成恶意代码的风险进行了量化评估。
结果表明,与chat GPT(GPT 3.5 Turbo)相比,Code Llama给出的答案更安全。
挑战GPT-4,编码模型被卷起!
目前,Code Llama 70B可以通过各种主流平台和框架访问和使用,例如Hugging Face、PyTorch、TensorFlow和Jupyter Notebook。
此外,Meta AI还提供了针对不同目的和语言使用和微调模型的文档和教程。
随着模型的发布,各大AI平台也加入了对Code Llama 70B的支持:
你也可以直接玩:
一些老板甚至将代码Llama 70B运行到苹果的处理器上,但它“有点热”。
然后这个简单地将编码Llama 70B直接量化为4比特。
参考资料:
https://ai . meta . com/blog/code-llama-large-language-model-coding/
魅族mx4好用吗
未经允许不得转载:科技让生活更美好 » Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新