研究显示ChatGPT可为科学假说生成虚假数据集,对学术诚信造成威胁

IT之家11月24日报道,在本月早些时候发表在《美国医学会眼科学杂志》上的一篇论文中,作者使用聊天机器人GPT-4和先进的数据分析工具ADA创建了一个虚假的临床试验数据集,从而支持了一个“未经证实”的科学主张。

图源像素

注意:ADA是一个Python集成的模型,可用于执行统计分析和创建可视化数据。

报道称,作者要求GPT-4和ADA生成一个关于角膜炎患者的数据集,并让其支持“在视力和眼部影像学测试中,深前角膜移植术(DALK)优于穿透性角膜移植术(PK)”的结论。

AI产生的数据包括160名男性参与者和140名女性参与者的实验结果,支持上述结论。然而,这一结果与真实临床试验中显示的结果不一致。

专家详细检查了虚假数据集,发现有明显的捏造迹象。英国曼彻斯特大学的生物统计学家杰克·威尔金森(Jack Wilkinson)说,“创建一个至少在表面上看起来可信的数据集似乎很容易。在未经训练的人看来,这绝对是真实的数据集。”

参与这份研究报告的作者承认,这个数据集中的缺陷可以在“仔细观察”后发现,但如果读者快速查看这些数据集,就“很难识别”数据中的非人类来源。

AI编造的“可信数据”增加了研究人员和期刊编辑对学术研究完整性的担忧。《EMBO报告》杂志主编伯恩德·普尔弗勒(Bernd Pulverer)表示,“在现实中,同行评审往往不会完全重新分析数据,因此不太可能发现人工智能精心设计的完整性漏洞。”他补充说,期刊需要更新质量检查,以识别人工智能生成的合成数据。

未经允许不得转载:科技让生活更美好 » 研究显示ChatGPT可为科学假说生成虚假数据集,对学术诚信造成威胁