自诞生以来,人工智能大模型始终被“幻觉”问题困扰。这里的“幻觉”,指的是大语言模型会将虚构信息当作真实事实输出。实际上,“幻觉”这一表述相当委婉,它实则暴露出AI的核心缺陷——当前的大语言模型尚未达到真正意义上的智能水平。

就在上个月,编程工具Cursor引发一场风波。用户收到消息称,其使用政策将进行调整,未来仅支持在单台电脑上使用。然而,这条消息很快被证实为假。Cursor首席执行官兼联合创始人Michael Truell迅速出面澄清:“我们并未制定类似政策,用户完全可以在多台设备上使用Cursor。这一错误信息源于一线AI机器人的错误回复。”
此次事件不仅让用户虚惊一场,更直观展现了人工智能系统的不稳定。
幻觉成为AI进化的拦路虎
经过数年发展,尽管AI技术在诸多领域取得突破,但在判断信息真假时仍不尽如人意。即使是OpenAI、谷歌、DeepSeek等行业头部机构研发的模型也存在许多错误输出。
值得警惕的是,这些错误并未随着时间推移而减少,反而呈现增多趋势。诚然,AI在数学运算、编程领域有所提升,但在处理复杂事实性信息时依然存在明显短板,难以满足用户需求。
今天的AI实际上是根据“复杂数学系统”构建的,它们通过不断分析海量数字数据,持续优化自身性能。然而,算法系统始终存在一个根本性缺陷——无法有效区分信息真假。在一项测试中,相较于旧版AI系统,新版AI系统的“幻觉率”竟然更高,这说明AI面临严峻挑战。
Vectara专注于企业级AI工具开发,其首席执行官Amr Awadallah直言:“尽管我们倾尽全力,可‘幻觉’问题还是存在,它并没有消失。”现状表明,即便在专业团队的持续攻坚下,AI“幻觉”依然是难以攻克的技术顽疾。
Okahu致力于解决AI“幻觉”问题,其首席执行官Pratik Verma也指出:“判断AI回应是事实还是虚假需要耗费大量时间。如果不能妥善处理这些错误,就无法保证人工智能系统发挥应有价值,毕竟这些系统的设计初衷是帮助用户自动完成各项任务。”
AI企业并非不清楚“幻觉”问题的存在,它们付出了巨大努力,但始终无法有效解决这一难题。OpenAI的内部测试显示,相比老系统,它所开发的新系统“幻觉率”反而更高。
在PersonQA标准测试中,o3模型在33%的回答中产生幻觉,几乎是o1模型(16%)的两倍,而最新的o4-mini模型表现更差,“幻觉率”高达48%。若采用SimpleQA标准测试,情况同样不容乐观。o3和o4-mini的“幻觉率”分别达到51%和79%,o1模型的“幻觉率”也有44%。
OpenAI指出,AI系统从海量数据中学习,数据量之巨远超人类专家的理解能力,因此很难确定问题根源究竟在哪里。
人类恐怕不能解决AI幻觉
华盛顿大学及艾伦人工智能研究所研究人员Hannaneh Hajishirzi表示,他们找到一种新方法,能够追溯AI特定行为在训练数据中的源头。但由于系统学习的数据量过于庞大,新工具无法解释所有情况。Hannaneh Hajishirzi坦言:“我们仍然搞不清这些模型到底是如何运行的。”
Vectara近年来持续对AI系统展开测试,通过让系统总结新闻内容的方式,观察“幻觉率”的变化情况。然而,测试结果令人沮丧——“幻觉率”不仅未降低,反而呈上升趋势。
长期以来,OpenAI认定一个理念:向AI投喂的数据越多,AI就会越聪明。但如今,AI在训练时几乎耗尽所有互联网英文信息,它的幻觉却愈发严重。这一现实表明,若想突破“幻觉”困境必须探寻新的技术路径。
当前,工程师们开始倚重“强化学习”技术。在数学、编程等领域,强化学习确实能通过试错机制实现学习与进步,但在部分领域,该技术仍未带来明显改善。
此外,推理模型在解答复杂问题时会先进行“思考”,采用分步解决的策略。然而,每个思考步骤都潜藏着产生“幻觉”的风险,思考步骤越多,累积的错误也就越多,这无疑给提升AI信息准确性带来更大挑战。
如今的AI能够展示思考过程,使用户可以看到错误产生的环节,这无疑是技术层面的一大进步。然而研究人员发现,AI所展示的思考步骤可能与最终答案毫无关联。Anthropic研究人员Aryo Pradipta Gema直言:“AI系统声称自己正在思考,但它的思考有时并无必要。”
一些研究人员甚至认为,杜绝AI“幻觉”不可能实现,只能通过多种方法降低“幻觉率”。比如让AI直面自身知识盲区,主动向用户承认“我不知道”;引入“检索增强生成”技术,促使AI通过检索相关文档辅助作答,而非单纯依赖记忆数据直接输出答案。
美国东北大学体验式人工智能研究所研究人员Usama Fayyad提出,“幻觉”这一表述存在概念偏差,它过度拟人化。Usama Fayyad强调,AI生成错误信息与人类产生幻觉存在本质差异——AI既无意图,也无意识,应避免用带有情感色彩的词汇模煳技术本质。
【以上内容转自“极客网”,不代表本网站观点。如需转载请取得极客网许可,如有侵权请联系删除。】
延伸阅读:
AI智算升级服务,桃心AI云手机赋能数智生活 AI学习必须了解的十种常用算法,你知道几个?
0 条