聊天机器人胡言乱语?牛津研究人员利用语义熵来识破AI“幻觉”

IT之家6月24日报道,近年来,人工智能蓬勃发展,聊天机器人等应用逐渐普及。人们可以通过简单的指令从这些聊天机器人(如ChatGPT)中获取信息。然而,这些聊天机器人仍然容易出现“错觉”的问题,即提供错误的答案,有时甚至是危险的信息。三星w589驱动

图源像素百度一下,你真的就知道了吗?

“错觉”的原因之一是训练数据不准确,泛化能力不足,以及数据获取过程中的副作用。然而,牛津大学的研究人员另辟蹊径,在最新一期《自然》杂志上详细介绍了一种新开发的方法,用于检测大型语言模型(LLM)的“捏造”(即任意生成的不正确信息)。飞信2013

LLM通过在训练数据中寻找特定的模式来生成答案。但是这种方法并不总是有效。就像人类可以从云的形状看到动物一样,AI机器人可能会发现不存在的模式。但是,人类知道,云只是形状,天空中并没有漂浮的巨象。LLM可能会把这当成真的,从而“捏造”新技术和其他不存在的虚假信息。

牛津大学的研究人员利用语义熵的概念,通过概率来判断LLM是否有“幻觉”。语义熵指的是同一个词有多个意思的情况。例如,“沙漠”可以指遗弃或抛弃某人。当LLM使用这样的词时,它可能会对表达的意思感到困惑。研究者通过检测语义熵,旨在判断LLM的输出内容是否存在“错觉”的可能性。

使用语义熵的好处是可以快速检测出LLM的“错觉”问题,不需要额外的监督或强化学习。因为这种方法不依赖于具体任务的数据,所以即使LLM面临从未遇到过的新任务,也可以应用。这将大大增强用户对LLM的信任,即使AI第一次遇到问题或指令。

研究团队表示:“我们的方法可以帮助用户理解他们何时需要对LLM输出保持谨慎,并为原本受到不可靠性限制的LLM应用开辟了一个新世界。”

如果语义熵被证明是一种有效的“幻觉”检测方法,那么我们可以使用这种工具来双重检查人工智能的输出,并使其成为更可靠的伙伴。但是,IT之家需要提醒的是,就像人类并非无懈可击,即使是最先进的错误检测工具,LLM仍然可能出错。因此,始终仔细查看ChatGPT等聊天机器人提供的答案仍然是明智之举。

未经允许不得转载:科技让生活更美好 » 聊天机器人胡言乱语?牛津研究人员利用语义熵来识破AI“幻觉”