11月27日,IT之家报道,浪潮信息今日发布“源2.0”基础模型,宣布全面开源。源2.0的基础模型包括1026亿、518亿、21亿三个参数规模的模型。
据介绍,Source 2.0通过使用中英文书籍、百科全书、论文等优质中英文素材,降低互联网语料库内容的比重。为了获取中文数学数据,浪潮信息从2018年到现在清理了大约10PB的互联网数据,但只获取了大约10GB的数学数据。
为了更高效地获取相对稀缺的高质量中文数学和代码数据集,Source 2.0采用了基于大模型的数据生产和过滤方式,保证了数据的多样性,提高了各个类别的数据质量。
在计算能力方面,Source 2.0采用了非均匀流水线并行的方法,综合应用了流水线并行+优化器参数并行+数据并行的策略,使得模型在流水线并行的各个阶段内存占用的分布更加均衡,避免了内存瓶颈导致的训练效率降低的问题。
Source 2.0已经在代码生成、数学问题解决和事实回答方面进行了测试。测试结果显示,Source 2.0的整体性能处于中上水平。
Source 2.0采用全面开源策略,所有系列模型参数和代码均可免费下载使用。它包含GitHub页面和纸质链接:
代码开源链接:
https://github.com/IEIT-Yuan/Yuan-2.0
纸质链接:
https://github . com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan 2.0 _ paper . pdf
未经允许不得转载:科技让生活更美好 » 浪潮信息发布“源 2.0”基础大模型,千亿参数代码开源