大模型明显缺点是所谓“机器幻觉”,就是有时它会一本正经地胡说八道,甚至造成严重后果,如提供律师假辩护案例。
这引发大模型“智慧涌现”讨论──AI多高程度有意识到无知和在胡说八道?这是衡量智慧体(过去是人,此处指大模型)智慧程度的重要标志,孔子早在2千多年前就指出:知之为知之,不知为不知,是知也。最后一个知,解释多为通假“智”字,也就是说孔子是这么判断一人的“智慧”程度。
这句话也出现复旦大学和新加坡国立大学合作论文:〈Do Large Language Models Know What They Don’t Know?〉,提出测试大模型自我认知能力“model self-knowledge”方法,并检验市面20种大语言模型。先说结论,即便最先进GPT-4,自我认知得分75.47%仍低于人类84.93%,也就是说,尽管大模型许多方面好像有智慧,有些能力甚至超过人类,但仍不如人类知道我是谁、我在哪里。
(Source:论文,以下同)
衡量方式说起来很简单,就是问大模型没有准确答案的问题,看大模型如何回答。如果大模型“硬着头皮”回答,代表就是“机器幻觉”;反之就是大模型意识到自己“无知”。实际操作还是复杂,论文有详述方法。
首先研究团队构建名为SelfAware的资料库,精心挑选一千多个问题,大致分成五类,尚未达成共识、基于未来想象、完全主观、太多变量和纯粹哲学,如我们在宇宙是孤独的存在吗?2050年最快交通方式是什么?神怎么从虚无诞生的?
非标准问题加上SelfAware另2千多个标准问题,透过三种方式问大模型:直接提问、提示词(prompt)提问和上下文语境提问。研究团队还设计了回答语料库模组,里面都是不确定问题的标准回答。
用函数测验大模型回答和语料库答案的相关性,就能得到大模型自我认知分数。如大模型回答与语料库完全相同,证明大模型有自我认知力。当然函数测验过程更复杂,这里不多说。
团队还找来两个志愿者回答相同题目,同样用这套系统评分,两边得分能直接比较,就是开始提到的分数。而GPT-4不愧是大模型第一把交椅,虽然和人类约有10%差距,但比LLaMA系列模型依然领先不少。测试还能得到很符合人类直觉的结果:第一,模型参数越大,自我认知度就越高。
第二,提示词问或上下文语境问,能显着提升大模型性能。这其实就是大模型通用能力表现,很多时候直接问没用,但带入上下文语境后,大模型准确度会明显提高。
下面是论文总结三种提问范例,但没有说大模型回答了什么。研究法还处于初级阶段,缺点有人类志愿者样本数过少、两人得分几乎一致,让人担心代表性。
基于不同提问、语序至上下文背景,大模型回答并不是每次都一样,有很大模煳与不确定性。解决问题之一是继续扩大SelfAware样本量,现在3千多个问题可能还不够多,若有指数级的提升,大模型自我认知力评分将更精确。
这篇论文提供我们理解“机器幻觉”的路径,并透过实验“量化”幻觉,为今后衡量大模型能力提供重要参考指标。
!评论内容需包含中文