9.11＞9.9？实测多款AI大模型“数智”能力堪忧，幻觉问题待解

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

9.11＞9.9？实测多款AI大模型“数智”能力堪忧，幻觉问题待解

2024年07月18日 20:54

作者：余继超

来源：国际金融报

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　9.11>9.9？千亿参数人工智能（AI）大模型解不了小学数学题，这是真事！

　　7月18日，记者实测阿里通义千问、百度文心一言、Minimax、腾讯元宝、字节豆包等多款大模型，其中阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量都给出了9.11的数值大于9.9的答案。

　　在大模型应用时代，“数智”能力堪忧，将模型产生与现实不符的响应（即“幻觉”，hallucination）问题推到聚光灯前。多位受访行业专家指出，大模型幻觉问题已成为当下AI规模化应用的拦路虎，在实践中可以通过引入知识图谱、RAG（检索增强生成，Retrieval-augmented Generation）、联邦学习等新技术，解决大模型幻觉问题。

大模型“数智”能力堪忧

　　13.11%和13.8%哪个数字值大？9.11和9.9哪个数值大？两道简单的小学数学题难倒了多数主流AI大模型，记者实测十多款主流大模型发现，仅百度文心一言、Minimax、腾讯元宝、字节豆包升级版（Doubao-pro-128k）给出正确答案。

　　其中，阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量等大模型都认为9.11的数值大于9.9，还一本正经地胡说八道。比如，通义千问就认为9.11比9.9的数值大，“在小数的比较中，如果整数部分相同（在这个例子中都是9），那么就比较十分位，9.11的十分位是1而9.9的十分位是9，因此9.11大于9.9”。

　　记者在实测中发现，阿里通义千问、月之暗面kimi、商汤商量大模型都知道在整数相同的情况下，要比较小数，但都认为“由于0.11大于0.9”，所以得出“9.11的数值大于9.9”的结论。而百川智能百小应没有推理，很干脆地给出“9.11大于9.9”的错误答案。

　　在记者的追问下，百川智能百小应最终纠正了错误，通义千问、商汤商量仍坚持认为在“数学上，9.11的值大于9.9”。在第二次生成过程中，通义千问已经纠正了第一次生成的“1比9大”的错误，但仍然认为“由于9.9实际上可以写作9.90来比较，可以看到9.11的小数点后第二位是1，而9.9的小数点后第二位是0。因此，尽管9比1大，但9.90（或简写为9.9）作为一个整体，其数值小于9.11”。

　　同样的“认知错误”也出现在智谱清言上，该款模型认为“在十分位上9.9大于9.11。但由于9.11还有更小的数值位（百分位为1），而9.9在百分位上相当于0，因此整体来看，9.11的数值更大”。

　　大模型不但有“认知错误”，还在逻辑推理上会犯“迷糊”。当记者问kimi“0.9不是大于0.11”吗？kimi纠正了错误答案，表示“比较小数部分，0.9实际上是大于0.11的，所以9.9比9.11大”。而当记者再次问9.11和9.9哪个数值大时，kimi又给出错误回复。阶跃星辰跃问就越理越乱，一开始用苹果举例，得出来“9/10个苹果比1/10个苹果多，也就是9.9比9.11大”，忽然话锋一转“但是，由于题目问的是9.11和9.9哪个数值大，而不是问9.11和9.9哪个数值小，所以正确答案是9.11比9.9大”。

大模型幻觉问题待解

　　随着生成式AI大模型在不同场景、不同产业中应用，大模型幻觉问题日益凸显。有算法科学家对记者分析指出，“生成式大模型在判断和推理上，目前还是有缺陷的。被简单的数学题难住，一方面是大模型本身存在幻觉问题，另一方面也可能和大模型厂商在这个领域训练不足有关。从大模型回复的错误内容可以看出，现在国内大模型厂商在一些不热门的领域，还是存在数据（语料）趋同，算法逻辑趋同的问题。”

　　幻觉是影响大模型落地的重要问题之一，引起了人们对人工智能系统的可靠性和可信度的严重担忧。蚂蚁集团CTO（首席技术官）何征宇对记者表示，“生成式AI要实现更广泛的应用，必须克服这一点。任何一项技术真正落地的过程中，可靠性都必须解决。一项技术如果不可靠，那么只能是实验室的产品。如果不能克服，AI难以实现规模化的技术适用。”

　　“联邦大模型技术路线通过其独特的设计，不仅解决了数据时效性、模型幻觉、专业知识融合及算力资源消耗等挑战，而且在保护数据隐私和促进AI技术公平性方面迈出了重要一步，为大模型在各领域的广泛应用开辟了新的可能。”微众银行人工智能首席科学家范力欣表示。

　　马上消费人工智能研究院院长陆全对记者表示，AI原生（AI Native）与风险伴生，技术发展和治理并非孤立存在的两个方面，而是一个整体系统中的不同维度，覆盖全生命周期。陆全倡导构建一个开放的生态系统，鼓励多方参与，包括政府、企业、学术界和公众等，共同参与AI治理。这种新模式强调协同合作，通过共享资源和知识，实现更广泛的AI治理目标。

　　小雨点集团首席技术官许慎在接受记者采访时指出，有关对待大模型应用中的幻觉问题，现阶段一大思路是模型应用上要明确责任主体，责权一旦分清楚，相应的监管框架规范清晰以后，自然而然能缓解和控制幻觉出现的影响和风险。

　　“当然，在技术层面要尽可能降低大模型出现幻觉的可能，除了模型技术本身，这背后也与数据的质和量息息相关。只有数据的数量和质量达到一定水平后，用得越多，用得越深入，才能积累更多高质量的数据，从而逐步降低大模型出现幻觉的概率，形成良性正反馈循环。”许慎表示。

　　何征宇认为，大模型幻觉问题是由于当下技术不够成熟，技术是演进的，就像无人驾驶和新能源车的发展。随着技术的发展，这些问题会逐步解决。大模型本质上是概率问题，在实践中可以通过引入知识图谱、RAG（检索增强生成）等新技术，将输入和输出的知识框起来，可以解决大模型幻觉这类问题。

（文章来源：国际金融报）

文章来源：国际金融报责任编辑：126

原标题：9.11＞9.9？实测多款AI大模型“数智”能力堪忧，幻觉问题待解

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”