UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
作者:暴走手游网时间:2025-01-31 09:51:56
基于一段文本提问时,人类和大模型会基于截然不同的思维模式给出问题。大模型喜欢那些需要详细解释才能回答的问题,而人类倾向于提出更直接、基于事实的问题。
如果要你负责企业培训,培训结束需要出一份考试题目,那如今你可以选择将培训材料交给大模型,由大模型来负责出题并给出参考答案。
不过由大模型给出的考题,和人类出的题目究竟有没有差别,以及有哪些差别?
最近,加州大学伯克利分校、沙特阿拉伯阿卜杜拉国王科技城(KACST)和华盛顿大学的研究人员发表了一项研究,首次系统评价了大模型提问的能力,并指出大模型和人类的提问模式存在显著差异。
论文地址:https://arxiv.org/pdf/2501.03491
评价提问的四个维度
这项研究基于维基百科的文本,将文本拆分为 86 万个段落,之后通过亚马逊 Mechanical Turk 众包平台,由人类参与者为每个段落撰写对应的题目及答案,人类给出的文本将作为评估大模型的基准。
图 1:大模型出题并评价的模式
之后,研究人员将这些段落交给主流的大模型,包括闭源的 GPT-4o 和开源的 LLaMA-3.1-70b-Instruct,由大模型根据段落内容及上下文提问,之后对问题的评价也由大模型进行。
对问题的评价共包含 6 个指标,分为 2 组。前三个标准评估问题本身,而第二组标准负责评估反映问题质量的潜在答案。首先介绍与答案无关的标准。
1. 问题类型
对于人类来说,选择问哪个问题具有主观性。这项研究定义了十种问题类型,例如验证 / 确认问题,具体事实与数据问题及身份和归属问题等。
2. 问题长度
主要测量的是组成问题的单词数量。除了直接比较人类和大模型所生成的问题长度外,该研究还考察了问题长度与问题类型之间的关系。
3. 上下文覆盖率
上下文通常包括多个句子,问题可能只针对一个句子中的一个事实,或者需要跨越多个句子进行推理。这项标准旨在反映问题覆盖文本内容的长度,研究还分析了在生成过程中,大模型是否会有倾向性地关注上下文中的哪些特定部分。
4. 可回答程度
一个问题的关键质量标准是它是否可以在特定知识的基础上被精确地回答。具体来说,生成的提问应在提供上下文的情况下可回答,而非是模棱两可的。
5. 罕见性
大模型是在互联网上广泛可用的常识上进行训练。因此,即使没有明确提供上下文,大模型仍然可以进行提问,因此需要评估问题相对于其预训练数据的罕见程度,从而判断大模型究竟是有的放矢地提问,还是问给出一些泛泛而谈的问题。
6. 答案所需的长度
除了问题长度外,所需答案的长度是衡量提问模式的一个更有效的指标。然而,由于生成模型的回答往往冗长且包含很多无用细节,所以首先要明确提示模型提供最短的文本作为回答,并指导模型在一定的字数限制内生成答案。此外,研究者还会对这些答案进行额外评估,以确定是否可以用更少的词达到相同的质量评级。
大模型 vs.人类,问题差异在哪
研究结果显示,首先:在问题类型上,与人类相比,大模型更倾向于提出需要描述性、更长答案的问题,大约 44% 的人工智能生成问题是这一类。
这可能是因为大模型在训练过程中接触到了大量描述性文本。而人类倾向于提出更直接、基于事实的问题,例如核查具体的事实和数字,或者人物、地点、事件等。
而在问题长度上,,大模型生成的问题长度更长,而且不同模型对问题长度的偏好有所不同,例如 GPT-4o 生成的描述性问题更长。而人类生成的问题更短,且不同类型的问题间长度差异较大。
图 2:大模型提问的问题长度,前两行是人类参与者的问题长度
而在上下文覆盖上,人类产生的问题能更全面地覆盖上下文信息,包括句子级别和词语级别。这意味着相比人类,大模型的提问难以更全面地覆盖所有文本,往往会揪着一个细节去提问。
图 3:大模型和人类提出问题对应的上下文在句子和单词层面的覆盖比
更值得关注的是,大模型更关注文本的前部和后部,而忽略中间部分,这一点之前的研究也有提及。
图 4,大模型提问对不同位置的段落的覆盖情况
对于提出的问题是否可以被解答,需要根据上下文信息分别判断。如果提问所依据的文本包含了背景介绍,此时大模型生成的问题通常有清晰的答案。而如果文本中缺少上下文信息,缺乏常识的大模型生成的问题的可回答性会显著下降,甚至有些问题无法回答。
图 5,对比文本包含上下文以及不包含上下文时,大模型提出的问题时具有可回答度的评分分布
类似的,由于生成模型的特性,大模型生成的问题通常需要更长的答案、包含更多细节。同时大模型生成的答案可压缩性较差:尽管可以压缩,但仍然需要比人类更长的答案。
图 6:大模型和人类提出问题对应的回答的长度
研究 AI 提问的意义
这项研究中,交给 AI 提问的只是一个段落,而非具有更丰富上下文的文章。未来的研究,需要考察的是大模型面对更长的文本,甚至是多篇长文本组成的书籍时会提出怎样的问题,并考察不同阅读难度、不同学科背景的文本。
如今 AI 生成的提问在商业产品中变得越来越普遍。例如,亚马逊的购物助手会建议与产品相关的问题,而搜索引擎 Perplexity 和 X 的聊天机器人 Grok 则使用后续问题来帮助用户深入了解主题。
由于 AI 问题具有于区别于人类提问者的独特模式,我们就可以据此测试 RAG 系统,或识别 AI 系统何时在编造事实。
对大模型提问模式的了解,还可以帮助用户编写更好的提示词,无论是希望 AI 生成更类人的问题,还是要求有特定特征的问题。
随着人们越来越依赖大模型,本文最初描述的基于大模型出考试题,将会在未来变得越来越普遍,进而潜移默化地影响人类学生的思考模式,也许会让我们的下一代变得啰啰嗦嗦,或者看文章时只关注特定细节,尤其是头尾部的(考核中的重点)。
不过大模型的提问模式也是可以微调的,知道了大模型提问和人类的差异,我们就可以有针对性地进行改变。
参考资料:
https://arxiv.org/pdf/2501.03491
本文来自微信公众号:新智元(ID:AI_era)
相关文章
-
AI 竞争日益激烈,OpenAI CEO 阿尔特曼将再次开启“全球巡回之旅”
本站 2 月 1 日消息,据彭博社今日报道,OpenAI 首席执行阿尔特曼将在接下来的几周里,频繁往返东京、新德里、迪拜和德国,因为人工智能领域的竞争愈加激烈。阿尔特曼的这次出行,旨在与投资者、开发者
-
年产能 9GWh:欧盟批准法国对远景动力杜埃新 EV 电池超级工厂 4800 万欧元补贴
本站 2 月 1 日消息,欧盟委员会比利时布鲁塞尔当地时间 1 月 31 日宣布批准法国政府拟对远景动力 AESC 位于法国上法兰西大区杜埃的第二座电池超级工厂一期项目授予的 4800 万欧元(本站备
-
华硕海外回应“主板显卡易拆结构损伤金手指”问题,称“属于极少数个案”“不影响硬件性能”
本站 2 月 1 日消息,华硕在今年CES 2025中为旗下的主板 显卡引入了易拆设计(Q-Design),不过后续有多平台网友陆续反馈,华硕部分主板的显卡易拆结构会损伤显卡“金手指”短端(近I
-
三菱汽车回应是否加入本田日产合并磋商:正在推进探讨
感谢本站网友 西窗旧事 的线索投递! 本站 2 月 1 日消息,据日本共同社报道,本田和日产汽车 1 月 31 日透露,将在 2 月中旬就已开启磋商的经营
-
《GTA 6》游戏 9 月 17 日发行?零售商澄清为假消息:一场失控的玩笑
本站 2 月 1 日消息,乌拉圭电子游戏商店 XUruguay 于 1 月 29 日上架新页面,称《侠盗猎车手 6》(GTA 6)游戏将于 9 月 17 日在索尼 PS5 平台独占发行,但最终证实只是
-
库克 AR 战略受挫,古尔曼曝料称苹果消费级 AR 眼镜项目搁浅
本站 2 月 1 日消息,彭博社的马克・古尔曼(Mark Gurman)今天(2 月 1 日)发布博文,曝料称苹果公司内部已取消代号为 N107 的 AR 眼镜项目,标志着其打造吸引普通消费者的头戴设