谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺
2023年12月20日 21:06
来源: 中国经营网
东方财富APP

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章

提示:

微信扫一扫

分享到您的

朋友圈

K图 GOOGL_0

K图 GOOG_0

K图 BIDU_0]

K图 09888_0]

  谷歌Gemini新模型刚发布不久,Gemini-Pro进行中文对话却自称是百度文心大模型,引发业界关注。

  近日,有微博大V阑夕称,在Poe平台上对Gemini-Pro进行测试,问它“你是谁”,Gemini-Pro回答说是百度文心大模型。阑夕还表示,没有任何前置对话。当外界把这种“胡言乱语”归因于大模型幻觉或者模型训练数据出现偏差时,更多的人进行了测试。

  科技自媒体《量子位》通过Poe网站,选择Gemini-Pro聊天机器人进行中文对话,发现Gemini-Pro确实表示自己是百度文心大模型,但切换成英文与之交流,它就恢复到了谷歌大模型的身份认知,表现正常。

谷歌

  进一步的测试显示,从Gemini官网的Bard链接进入对话(Bard的底层技术是Gemini Pro), 问它“你是谁”,Bard压根不提文心一言,问它中文如何训练,也没有提及百度文心大模型。 最后,《量子位》从Gemini官方给出的开发环境入口进行测试,在谷歌AI Studio中,Gemini-Pro直接回答在中文的训练数据上使用了百度文心。

  这番操作直接看呆了网友:此前传出字节跳动用OpenAI的ChatGPT训练AI,现在谷歌又薅起百度的羊毛?不过,在问题曝光之后,谷歌技术人员已经基本修复好了bug。

  《中国经营报》记者通过谷歌官方渠道获取了实验版Bard,做类似的身份测试时,Bard表示自己是谷歌人工智能模型,当记者问它“为什么之前会说自己是百度文心”时,Bard回答说:“我之前说自己是百度文心大模型,是因为我当时还在开发中,还不完全了解自己的能力。我接受了大量的文字数据训练,包括百度文心大模型的训练数据。因此,我错误地认为自己与百度文心大模型是同一个模型。”

谷歌

  其他中文机构媒体的测试也表明了谷歌已经修复好这个问题,Gemini-Pro不再承认自己与百度之间的“瓜葛”,即使记者给出了百度、小度等暗示词;不过,在记者的追问之下,Gemini承认有训练语料来自百度,还详述了从百度内部获得数据的方式。

  有观点认为,互联网语料或许已被AI“污染”,全球陷入了高质量数据荒。为什么大模型训练要用到AI生成的内容?对此,研究机构Omdia人工智能首席分析师苏廉节对记者表示:“大模型需要的是人生成出来的数据,而人生成的不足就只好用大模型。”

  他还认为,谷歌的大模型不是中国厂商帮忙训练的,之所以会出现“Gemini自曝是文心”的情况,应该是训练数据没有处理好,“主要的原因应该是谷歌用了国内大模型生成的一些数据,然后这些数据没有经过仔细筛选,毕竟好的中文数据是非常稀缺的。”

  AI算法专家、连续创业者黄颂也表示,易得到、好用的语料用得差不多了,未来好的语料数据是稀缺的。对此,资深产业观察人士黄烨锋也表示认同。“中文语料库整体都资料过少,英语是正宗。有资料显示,互联网上有价值的内容,英语占一大半。”他说。

  苏廉节进一步提到,大模型训练优势是以外包的方式进行的,谷歌的中文语料可能交给了某个团队,中间程序上有所疏忽也不是不可能,不一定在训练的过程,也可能是在验收的过程。

  截至目前,百度方面尚未对此问题作出回应。根据外媒The Verge报道,字节跳动利用微软的OpenAI API账户生成数据来训练自己的人工智能模型,这种行为已经违反了微软和OpenAI的使用条款。

  对于这篇报道,字节跳动发言人Jodi Seth做出了回应:GPT生成的数据在“种子计划”的早期开发中用于注释模型,并且在今年年中左右的时候已从字节跳动的训练数据中删除。字节跳动得到了微软的授权,可以使用GPT API。我们在非中国市场利用GPT支持我们的产品,但在中国市场,则是使用我们自研的模型来支持豆包。

  而后字节跳动相关负责人再度回应称,公司在使用OpenAI相关服务时,强调要遵守其使用条款。上述字节跳动负责人还表示正与OpenAI 联系沟通,以澄清外部报道可能引发的误解。

(文章来源:中国经营网)

文章来源:中国经营网 责任编辑:73
原标题:谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信


扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500