百川智能发布超千亿参数大模型Baichuan 3,医疗能力逼近GPT-4

图片来源:视觉中国

1月29日,中国人工智能初创公司百川智能发布了拥有超千亿参数的大语言模型“百川3”。百川3号在CMMLU、高考和AGI-Eval等多个权威的通用能力评估中表现出了其卓越的能力。在许多中文评估列表中,如CMMLU、高考、HumanEval和MBPP,它已超过GPT-4,以显示其在中文任务中的优势。

与百亿级、百亿级参数模型的训练不同,超千亿级参数模型在训练过程中对高质量数据、训练稳定性和训练效率的要求要高出几个数量级。为了更好地解决相关问题,百川智能提出了“动态数据选择”,& quot重要性维护”和“异步检查点存储”等创新技术手段和方案有效提升了白爨3的各项能力。

在高质量数据方面,传统的数据过滤依赖于人工定义,并通过重新过滤、质量评分和教科书过滤等方法过滤数据。但百川智能认为,数据优化和采样是一个动态的过程,应该随着模型本身的训练过程进行优化,而不是简单地依靠人工先验进行数据采样和筛选。为了全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,能够在模型训练时动态选择训练数据,大幅提升数据质量。

百川的智慧医疗知识水平也取得了突破。百川3的医疗数据集数量超过1000亿,其医疗能力接近GPT 4。为了给百川3注入丰富的医学知识,百川智能在模型预训练阶段构建了超过1000亿个Token医学数据集,包括医学研究文档、真实电子病历、医学领域专业书籍和知识库资源以及针对医学问题的问答。这个数据集涵盖了从理论到实践、从基础理论到临床应用的医学知识的各个方面。

目前百川智能并未透露车型参数,仅公布百川3是一款参数过千亿的大车型。相比之下,GPT-3.5是一个1750亿的参数。

百川智能由王小川和茹立云共同创立,成立于2023年4月,以搜狗团队为基础。据报道,该公司自成立以来已获得5000万美元的启动资金。banq u盘量产工具

百川智能的速度一直很快。成立不到100天,百川智能就发布了两款开源的中国机型——百川-7B和百川-13B,可以免费商用。从百川1.0到今天的3.0只用了9个月。

就在一个月前的2023年12月19日,百川智能宣布开放基于搜索增强的百度2-Turbo系列API,包括百度2-Turbo-192K和百度2-Turbo。在支持192k上下文窗口的基础上,它还增加了搜索增强知识库的能力。

与百川2-192K相比,百川3的允许输入文本长度有所缩减。百川2-192K推出时,用户被允许输入多达35万字的文本,声称他们可以一次读完一部《三体2》,使其成为世界上处理上下文窗口最长的最大型号。目前,百川3允许输入不超过4096个字符的文本,相当于2000个汉字或3000个英文单词。

在过去一年的大模型创业中,通过行业数据训练行业垂直大模型被认为是大模型在B端落地的主要路径。不过,百川智能选择了另一个方向。据甲子光年介绍,百川智能将向量数据库升级为搜索增强知识库,提高了大模型获取外部知识的能力。该模型将搜索增强知识库与超长上下文窗口相结合,可以连接所有企业知识库和全网信息。清华同方平板电脑价格图片

在去年底的媒体沟通会上,王小川透露,百川智能C端产品的第一个重点是医疗方向,产品预计将于2024年推出。

酷基金网官网手机版

未经允许不得转载:科技让生活更美好 » 百川智能发布超千亿参数大模型Baichuan 3,医疗能力逼近GPT-4