训练大模型要小心什么?这场研讨会热议AI语料建设与合规

据中国网空安全协会消息,2024年3月2日下午,中国网空安全协会人工智能安全治理专业委员会在北京召开“人工智能语料库建设与合规”专题研讨会。专委会成员单位、律师事务所、科研机构、企业和相关领域社会组织的30余名代表参会,就大型模型语料库版权和确权等关键问题进行了交流。

研讨会以线上线下方式进行。与会嘉宾就人工智能语料库建设及合规问题进行了交流,并就人工智能模型训练阶段涉及的知识产权相关法律问题进行了全面深入的探讨,旨在推动我国人工智能高质量发展。

matlab仿真及电子信息应用第二版答案

训练大模型需兼顾版权合规

李小璐档案资料

与会者认为,获取和使用大规模高质量数据的紧迫性以及现行法律法规中版权的明确性是推动人工智能发展和治理需要解决的重要问题。

版权作品在其他任何地方都得不到保护。十四大贵州大圭律师事务所主任朱珊认为,网络空和人工智能模型的培养应基于发展和安全的考虑,政策和制度保障应在法律保护和合理使用之间取得平衡,并加快人工智能的立法进程。

第十四届全国* * * *和大湾区国际信息技术协会主席、数字经济发展委员会成员杨德彬指出,语料库是人工智能发展的一个非常重要的资源。在训练人工智能的过程中,我们需要尊重语料库的版权。同时也要考虑中英文语料来源的丰富性。作为一个高度国际化的城市,香港可以扮演国家需要的角色,而且在收集中英文语料库和利用普通法保护版权作品方面表现出色。丁建飞

第十四届全国* * * *暨中国手游大赛联合创始人兼副主席、郭虹嘉信资本创始合伙人兼董事长冼汉迪认为,大型模型训练存在很大的侵权风险,建议在明确使用版权作品的前提下,对大型模型使用语料库的版权责任进行限制;有必要鼓励技术创新,如开发智能版权识别技术,以更好地处理版权问题;有必要鼓励公众积极参与讨论,提高公众的版权意识,推动知识产权教育,共同促进人工智能的健康发展。

第十三届全国党校(国家行政学院)社会和生态文明部教授、博士生导师丁提出,在将版权所有者或内容创作者的文本纳入语料库之前,必须获得他们的明确认可,并界定使用范围和期限。尽可能开放具有共同属性的文本材料。应注明受版权保护的文本来源,并注明原作者。积极开发能够识别生成文本的水印技术。在生成性人工智能环境中培育尊重版权的文化氛围,深入研究并严格界定生成性文本与人类知识生产的异同。

语料建设及数据获取需遵循法律规范

在本次研讨会上,与会专家一致认为,数据采集和语料库建设需要遵循相关法律、标准和规范,推动形成科学有效的语料库采集、处理和使用机制,解决数据采集和使用的合法化问题,在政策法规上平衡有效保护和合理使用,促进高质量语料库的流通和使用,推动人工智能又好又快发展。

第十四届全国政协委员、首都经济贸易大学中国市场研究院院长曲庆超表示,中文语料库是数据要素的重要组成部分。如何进一步充分释放数据要素价值应关注两个方面:创新产权机制,促进数据要素流通;有必要对汉语语料库的所有权、使用权和经营权进行分类确认;扶持链主,引导产业发展;探索中文语料库数据资源资本化、市场化、产业化发展的有效模式和可行路径;夯实智能技术基础,组建创新联合体。

中华全国律师协会网络与高新技术专业委员会副主任、律师事务所合伙人陈季红认为,大规模模型技术在创新方面不断取得突破,但也遇到了一些挑战,其中之一是大规模预训练数据的获取与当前法律限制之间的矛盾。至于解决方案,在不久的将来,可以通过“注册进入-选择退出”、合理使用、共享协议和版权集体管理等机制来解决数据获取和使用的合法化问题。从长远来看,应改革现行法律体系,以适应和容纳人工智能技术的发展。

浙江大学光华法学院教授、博士生导师张魏军指出,面对人工智能技术日益激烈的国际竞争和我国相关技术不具备领先优势的现实,为推动人工智能技术进步,各国仍在审慎评估人工智能训练中使用的数据是否构成合理使用,安全审慎处理相关数据以获得授权是否妥当。

中国政法大学数据法治研究院教授、博士生导师张玲玲指出,大规模预训练数据或语料库的获取需要与当前的法律框架相联系。不仅要处理好知识产权制度之间的关系,收集和使用个人信息也要有法律依据。在鼓励发展的基础上,在制度设计上应充分考虑“数据二十条”等国家政策和指南可能指向的未来企业数据产权制度。

积极探索人工智能新立法

本次会议还从宏观层面探讨了人工智能合规的立法探索。

北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈阔认为,从国际地缘政治和人工智能全球竞争的角度来看,投入公共数据资源意义重大,亟需提高人工智能的语料库建设和生态水平,积极发展人工智能数据治理技术和应用,推动培育安全合规、多方参与、共建共享的高水平产业。基于当前行业和业务指导的需求,除了立法修订的研究和准备之外,最高司法机关还需要及时出台专门的司法解释,如《侵犯个人信息民事责任司法解释》,并引领和推动各级司法机关不断推出相关典型案例,通过个案司法裁判有效平衡和回应行业各方的前沿和特定需求。

郭恒智慧城市科学技术研究院院长、国家发展改革委中国经济体制改革研究会理事曾勇指出,对AIGC的合规要求不能过度,要重点关注目前颁布的网络信息、隐私保护及相关法律法规;既要积极提前介入,从人工智能布局源头开始合理、合规、有效的引导和监管,兼顾现实和长远;再次,要大力支持和广泛推动人工智能特别是生成式人工智能技术的突破和发展。

中国法学会法治研究会研究员、中国法学会网络与信息法学研究会理事兼副秘书长刘指出,利用受著作权保护的语料库训练AI大模型的行为,无论是在数据采集、数据处理还是结果生成阶段,根据我国著作权法的相关规定,仍具有较高的侵权风险,目前在司法上很难被认定为合理使用。为顺应和鼓励人工智能发展,充分释放数据价值,应在平衡保护著作权人合法权益的前提下,积极探索我国人工智能训练语料库合理使用的新立法。

杜南大数据研究院出品

南都记者张玉婷撰写

未经允许不得转载:科技让生活更美好 » 训练大模型要小心什么?这场研讨会热议AI语料建设与合规