Llama 4被曝训练作弊 发布后实测差评如潮
2025年04月07日 16:56
来源: 界面新闻
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

K图 META_0

  4月5日,Meta公司发布了大型语言模型Llama的最新版本Llama 4 Scout与Llama 4 Maverick。

  Meta在声明中表示,Llama 4是一个多模态AI系统,能够处理和整合文本、视频、图像、音频等多种数据类型,并能在不同格式之间实现内容转换。据介绍,Scout和Maverick是该公司首款采用混合专家架构(MoE)的模型,两者均以开源形式发布。此外,Meta还预告了Llama 4 Behemoth,称其为“全球最聪明的语言模型之一,将作为未来模型训练的教师模型”。

  没想到,随后就被曝出模型训练测试集作弊,内部员工直接辞职,引发争议。

  争议的导火索源于海外留学求职交流论坛“一亩三分地”的一篇帖子,发帖人自称是参与Llama 4训练的内部员工,并表示已因此辞职。

  该员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的“测试集”数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份“好看”的成绩单。

  这位内部员工@dliudliu表示,自己无法接受这种做法,甚至辞职信中明确要求不要在Llama 4技术报告中挂名。

  就在Llama 4即将发布前几天,Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职。

  知名科技媒体TechCrunch也发文质疑Llama 4的性能测试存在误导性。文章聚焦Llama 4(即Maverick)在著名的人类评估排行榜LM Arena上的表现,指出Maverick虽取得第二名的好成绩,但背后另有隐情。在一些实测中,号称千万上下文的召回率,上下文的实际表现,远低于预期。而Llama 4 Maverick 在 aider 多语言编码基准测试中得分为实测仅为 16%。

  有人认为Llama 4的表现甚至和Llama 3.2一样没有任何进步,也无法完成写诗。其他用户在测试后也表达了同样的观点,Llama 4有点不符合预期。

  几位AI研究人员在社交媒体上都“吐槽”认为,Meta提交给LM Arena进行测试评估的Maverick版本,和公开发布给开发者使用的版本可能并非同一个。

  不过Meta表示,更强大的一款被命名为Llama 4 Behemoth的大模型仍在训练中。据称,Meta Platforms的CEO扎克伯格此前给全员下了死命令,4月底是Llama 4交付最后期限。

  早在1月10日,有媒体称,据加利福尼亚联邦法院公开的庭审文件中,一些作家指控Meta Platforms在训练其Llama AI模型时,未经授权使用了盗版电子书和文章数据集LibGen,并通过点对点(P2P)方式下载了大量盗版书籍和文章,而且内部员工还爆料此事获得了扎克伯格的允许,目前案件在审理中。

  今年年初,扎克伯格曾表示2025年计划投资多达650亿美元用于人工智能(AI)相关项目,包括建立新的巨型数据中心和加大AI团队的招聘,以巩固其在与OpenAI和谷歌竞争中的地位。

(文章来源:界面新闻)

文章来源:界面新闻 责任编辑:91
原标题:Llama 4被曝训练作弊,发布后实测差评如潮
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500