聊天机器人胡言乱语？牛津研究人员利用语义熵来识破AI“幻觉”-科技让生活更美好

IT之家6月24日报道，近年来，人工智能蓬勃发展，聊天机器人等应用逐渐普及。人们可以通过简单的指令从这些聊天机器人(如ChatGPT)中获取信息。然而，这些聊天机器人仍然容易出现“错觉”的问题，即提供错误的答案，有时甚至是危险的信息。三星w589驱动

图源像素百度一下,你真的就知道了吗?

“错觉”的原因之一是训练数据不准确，泛化能力不足，以及数据获取过程中的副作用。然而，牛津大学的研究人员另辟蹊径，在最新一期《自然》杂志上详细介绍了一种新开发的方法，用于检测大型语言模型(LLM)的“捏造”(即任意生成的不正确信息)。飞信2013

LLM通过在训练数据中寻找特定的模式来生成答案。但是这种方法并不总是有效。就像人类可以从云的形状看到动物一样，AI机器人可能会发现不存在的模式。但是，人类知道，云只是形状，天空中并没有漂浮的巨象。LLM可能会把这当成真的，从而“捏造”新技术和其他不存在的虚假信息。

牛津大学的研究人员利用语义熵的概念，通过概率来判断LLM是否有“幻觉”。语义熵指的是同一个词有多个意思的情况。例如，“沙漠”可以指遗弃或抛弃某人。当LLM使用这样的词时，它可能会对表达的意思感到困惑。研究者通过检测语义熵，旨在判断LLM的输出内容是否存在“错觉”的可能性。

使用语义熵的好处是可以快速检测出LLM的“错觉”问题，不需要额外的监督或强化学习。因为这种方法不依赖于具体任务的数据，所以即使LLM面临从未遇到过的新任务，也可以应用。这将大大增强用户对LLM的信任，即使AI第一次遇到问题或指令。

研究团队表示:“我们的方法可以帮助用户理解他们何时需要对LLM输出保持谨慎，并为原本受到不可靠性限制的LLM应用开辟了一个新世界。”

如果语义熵被证明是一种有效的“幻觉”检测方法，那么我们可以使用这种工具来双重检查人工智能的输出，并使其成为更可靠的伙伴。但是，IT之家需要提醒的是，就像人类并非无懈可击，即使是最先进的错误检测工具，LLM仍然可能出错。因此，始终仔细查看ChatGPT等聊天机器人提供的答案仍然是明智之举。

聊天机器人胡言乱语？牛津研究人员利用语义熵来识破AI“幻觉”