OpenAI寻求合作伙伴生成用于训练AI模型的数据集

11月10日,IT之家宣布OpenAI将与组织合作,为训练AI模型生成公共/私有数据集。数据合作伙伴关系旨在“让更多的组织能够帮助指导人工智能的未来”,并“从更有用的模型中受益”。

IT之家从博客中了解到,OpenAI表示:“为了让AI更安全,造福全人类,我们希望AI模型能够深入理解所有话题、行业、文化和语言,这需要尽可能广泛的训练数据集。”

作为数据伙伴计划的一部分,OpenAI表示,将收集“反映人类社会”的“大规模”数据集,目前不容易在线访问。尽管该公司计划跨多种模式工作,包括图像、音频和视频,但它特别寻求跨不同语言、主题和格式的“表达人类意图”(如长篇写作或对话)的数据

OpenAI表示,如果有必要,它将与组织合作,使用光学字符识别和自动语音识别工具来数字化训练数据,并在必要时删除敏感或个人信息

OpenAI希望创建两种类型的数据集:任何人都可以在AI模型训练中使用的开源数据集,以及一组可以用于训练专有AI模型的私有数据集

OpenAI表示,私有集适用于希望保持数据私有,但希望OpenAI的模型更好地了解其领域的组织;到目前为止,OpenAI已经与冰岛政府和MiindeEHF合作,提高GPT-4的冰岛语能力,并与自由法律项目合作,提高其模型对法律文件的理解。

未经允许不得转载:科技让生活更美好 » OpenAI寻求合作伙伴生成用于训练AI模型的数据集