9.11>9.9?实测多款AI大模型“数智”能力堪忧,幻觉问题待解
2024年07月18日 20:54
作者: 余继超
来源: 国际金融报
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

  9.11>9.9?千亿参数人工智能(AI)大模型解不了小学数学题,这是真事!

  7月18日,记者实测阿里通义千问、百度文心一言、Minimax、腾讯元宝、字节豆包等多款大模型,其中阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量都给出了9.11的数值大于9.9的答案。

  在大模型应用时代,“数智”能力堪忧,将模型产生与现实不符的响应(即“幻觉”,hallucination)问题推到聚光灯前。多位受访行业专家指出,大模型幻觉问题已成为当下AI规模化应用的拦路虎,在实践中可以通过引入知识图谱、RAG(检索增强生成,Retrieval-augmented Generation)、联邦学习等新技术,解决大模型幻觉问题。

大模型“数智”能力堪忧

  13.11%和13.8%哪个数字值大?9.11和9.9哪个数值大?两道简单的小学数学题难倒了多数主流AI大模型,记者实测十多款主流大模型发现,仅百度文心一言、Minimax、腾讯元宝、字节豆包升级版(Doubao-pro-128k)给出正确答案。

  其中,阿里通义千问、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应、商汤商量等大模型都认为9.11的数值大于9.9,还一本正经地胡说八道。比如,通义千问就认为9.11比9.9的数值大,“在小数的比较中,如果整数部分相同(在这个例子中都是9),那么就比较十分位,9.11的十分位是1而9.9的十分位是9,因此9.11大于9.9”。

  记者在实测中发现,阿里通义千问、月之暗面kimi、商汤商量大模型都知道在整数相同的情况下,要比较小数,但都认为“由于0.11大于0.9”,所以得出“9.11的数值大于9.9”的结论。而百川智能百小应没有推理,很干脆地给出“9.11大于9.9”的错误答案。

  在记者的追问下,百川智能百小应最终纠正了错误,通义千问、商汤商量仍坚持认为在“数学上,9.11的值大于9.9”。在第二次生成过程中,通义千问已经纠正了第一次生成的“1比9大”的错误,但仍然认为“由于9.9实际上可以写作9.90来比较,可以看到9.11的小数点后第二位是1,而9.9的小数点后第二位是0。因此,尽管9比1大,但9.90(或简写为9.9)作为一个整体,其数值小于9.11”。

  同样的“认知错误”也出现在智谱清言上,该款模型认为“在十分位上9.9大于9.11。但由于9.11还有更小的数值位(百分位为1),而9.9在百分位上相当于0,因此整体来看,9.11的数值更大”。

  大模型不但有“认知错误”,还在逻辑推理上会犯“迷糊”。当记者问kimi“0.9不是大于0.11”吗?kimi纠正了错误答案,表示“比较小数部分,0.9实际上是大于0.11的,所以9.9比9.11大”。而当记者再次问9.11和9.9哪个数值大时,kimi又给出错误回复。阶跃星辰跃问就越理越乱,一开始用苹果举例,得出来“9/10个苹果比1/10个苹果多,也就是9.9比9.11大”,忽然话锋一转“但是,由于题目问的是9.11和9.9哪个数值大,而不是问9.11和9.9哪个数值小,所以正确答案是9.11比9.9大”。

大模型幻觉问题待解

  随着生成式AI大模型在不同场景、不同产业中应用,大模型幻觉问题日益凸显。有算法科学家对记者分析指出,“生成式大模型在判断和推理上,目前还是有缺陷的。被简单的数学题难住,一方面是大模型本身存在幻觉问题,另一方面也可能和大模型厂商在这个领域训练不足有关。从大模型回复的错误内容可以看出,现在国内大模型厂商在一些不热门的领域,还是存在数据(语料)趋同,算法逻辑趋同的问题。”

  幻觉是影响大模型落地的重要问题之一,引起了人们对人工智能系统的可靠性和可信度的严重担忧。蚂蚁集团CTO(首席技术官)何征宇对记者表示,“生成式AI要实现更广泛的应用,必须克服这一点。任何一项技术真正落地的过程中,可靠性都必须解决。一项技术如果不可靠,那么只能是实验室的产品。如果不能克服,AI难以实现规模化的技术适用。”

  “联邦大模型技术路线通过其独特的设计,不仅解决了数据时效性、模型幻觉、专业知识融合及算力资源消耗等挑战,而且在保护数据隐私和促进AI技术公平性方面迈出了重要一步,为大模型在各领域的广泛应用开辟了新的可能。”微众银行人工智能首席科学家范力欣表示。

  马上消费人工智能研究院院长陆全对记者表示,AI原生(AI Native)与风险伴生,技术发展和治理并非孤立存在的两个方面,而是一个整体系统中的不同维度,覆盖全生命周期。陆全倡导构建一个开放的生态系统,鼓励多方参与,包括政府、企业、学术界和公众等,共同参与AI治理。这种新模式强调协同合作,通过共享资源和知识,实现更广泛的AI治理目标。

  小雨点集团首席技术官许慎在接受记者采访时指出,有关对待大模型应用中的幻觉问题,现阶段一大思路是模型应用上要明确责任主体,责权一旦分清楚,相应的监管框架规范清晰以后,自然而然能缓解和控制幻觉出现的影响和风险。

  “当然,在技术层面要尽可能降低大模型出现幻觉的可能,除了模型技术本身,这背后也与数据的质和量息息相关。只有数据的数量和质量达到一定水平后,用得越多,用得越深入,才能积累更多高质量的数据,从而逐步降低大模型出现幻觉的概率,形成良性正反馈循环。”许慎表示。

  何征宇认为,大模型幻觉问题是由于当下技术不够成熟,技术是演进的,就像无人驾驶新能源车的发展。随着技术的发展,这些问题会逐步解决。大模型本质上是概率问题,在实践中可以通过引入知识图谱、RAG(检索增强生成)等新技术,将输入和输出的知识框起来,可以解决大模型幻觉这类问题。

(文章来源:国际金融报)

文章来源:国际金融报 责任编辑:126
原标题:9.11>9.9?实测多款AI大模型“数智”能力堪忧,幻觉问题待解
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500