一日惊艳后翻车？谷歌“双子座”大模型6分钟视频被曝经过了剪辑

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

一日惊艳后翻车？谷歌“双子座”大模型6分钟视频被曝经过了剪辑

2023年12月08日 19:15

作者：罗亦丹

来源：新京报

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　年初bard首秀“翻车”后，北京时间12月7日，谷歌推出了大模型Gemini（中文名称“双子座”），并发布了一系列令人眼花缭乱的演示视频。这次“双子座”能对决GPT-4吗？

　　在这些演示视频中，最令人称奇的莫过于在一段4分钟的演示视频里，当测试人员进行绘画、变魔术等操作时，双子座可以即时发表观点，和测试人员实时互动，仅看视频中的表现，双子座的理解力甚至达到了人类的水平。

　　“仅就演示的内容来看，双子座的视频理解能力无疑达到了当前最领先的水平。”北京某大模型的算法工程师在接受新京报贝壳财经记者采访时表示，“这个能力来源于双子座在训练的时候就天然加入了大量的视频数据，并且在架构上就支持视频理解。”

　　不过，在发布仅一天之后，许多用户在测试中发现，双子座的视频理解能力并不像演示中那样“丝滑”。对此，谷歌很快发布了一篇博客文章解释了演示视频中的多模态交互过程，几乎承认了使用静态图片和多段提示词拼凑，才能达成这样的效果。此外，也有网友注意到，谷歌在演示视频中有一个重要的免责声明：为了演示效果减少了延迟，双子座的输出也被简化了。

　　即便如此，在不少专业人士看来，谷歌也终于推出了一款能和OpenAI“过两招”的大模型，作为人工智能的老牌厂商，谷歌“家底”丰厚，双子座也将成为GPT的有力竞争者。

　　剪辑了哪里？演示视频和实际差多少？

　　“你看谷歌最新大模型的视频演示了吗？多模态的切换是质变啊，特别是玩游戏地图那里，人都不一定能反应过来。”12月7日，从事网站开发的刘先生给贝壳财经记者发来了一段演示视频。

　　在这段令众多从业者兴奋的谷歌大模型双子座演示视频中，测试人员拿出了一张纸，双子座立刻回答“你拿出了一张纸”，随着测试人员在纸上绘画曲线、填色，双子座立刻“秒懂”，并随着测试人员的动作继续解说：“你在画曲线，看上去像是一只鸟，是一只鸭子，但蓝色的鸭子并不常见，鸭子大多数是棕色的，中文的鸭子发音是‘yazi’，中文有四种音调。”当测试者把一只蓝色的橡皮鸭子放到世界地图上时，双子座看到立刻说“这只鸭子被放到大海中间了，这里不常有鸭子。”

　　此后，测试人员又开始使用手势和双子座“互动”，当测试人员摆出了剪刀和布的动作时，双子座就“抢答”说“你在玩石头剪刀布”，之后，双子座还猜出了用手模仿的老鹰和狗的形象。

　　不过，贝壳财经记者在这段视频中发现了不少剪辑的痕迹，如石头剪刀布中，测试者出拳时的动作明显被剪去了不少。对此，谷歌发布了博客进行了“答疑解惑”：当给出双子座一张“出布”的图片，双子座的回答是“我看到了一只右手，手掌张开五指分开”；当给出“出拳头”的图片，双子座的回答是“一个人在敲门”；当给出“出剪刀”图片时，双子座的回答是“我看到一个食指和中指伸出的手。”只有把这三张图片放到一起，并问“你觉得我在干什么？”时，双子座才会回答“你在玩石头剪刀布”。

　　所以实际上，虽然双子座的回答依旧是真实的，但实际应用可能并没有演示视频中表现得那样“丝滑”。

　　来源：谷歌发布的“双子座”演示视频。

　　多模态能力是怎样“炼成”的？

　　通过这次演示，许多业界人士也承认谷歌确确实实在追赶OpenAI的过程中迈出了一步。实际上，在ChatGPT出现之前，谷歌一直在人工智能领域处于领先地位，不过，“既生瑜何生亮”， ChatGPT的一骑绝尘让谷歌压力山大，今年2月推出对标ChatGPT的bard但首秀“翻车”后，谷歌一直缺乏一个足够优秀的大模型来提振士气。

　　而“双子座”出现后，谷歌至少在多模态理解领域上体现出了一定的特色。“双子座是原生的多模态大模型，即其在训练的时候就是多模态的。谷歌在搜索、长视频、在线文档等本来就有强大的生态，另外谷歌显卡多，算力是OpenAI的好几倍，现在是在‘烧家底’来追赶OpenAI。”一位毕业于清华自动化专业的大模型从业者告诉贝壳财经记者。

　　具体来看，双子座模型包含三个版本：Gemini Ultra（超大杯），规模最大、能力最强的版本；Gemini Pro（大杯），可以适用于广泛的任务；Gemini Nano（中杯），将用于特定的任务以及移动设备。

　　除了多模态能力外，双子座在文本理解、代码运算等许多方面也表现不俗，在一个MMLU多任务语言理解数据集测试中，Gemini Ultra不光超越了GPT-4，甚至超越了人类专家。贝壳财经记者登录谷歌deepmind官网发现，“见证双子座——我们最有能力的大模型”这句话被放在了首页。

　　目前，用户可以从谷歌bard的端口进入体验Gemini Pro的能力，但贝壳财经记者测试发现，该能力仅提供给部分地区。通过一些国外网友的测试，用户既可以向双子座输入图片，也可以向双子座输入文本，而根据测试结果，Gemini Pro和同样具有多模态能力的GPT-4V在不少问题的回答上 “各有千秋”，并没有被GTP-4V碾压。

　　“根据我的观察，目前双子座在文本上的能力还是略逊于GPT4，但谷歌的技术实力仍然属于第一梯队。”上述大模型算法工程师表示。

　　他告诉贝壳财经记者，要想让大模型拥有理解图像视频声音的“多模态能力”，技术上可以看成把LLaVA （一种多模态预训练模型）的图像理解模块扩充到了视频和语音上，训练的时候额外加入视频、音频数据，“其实就是证明了，双子座第一次将视频和语音理解做进了大模型里面，验证了这两者在大模型上的可行性。”

　　“总体来说，本次谷歌大模型的发布符合预期，双子座的每个技术点之前都在学术界被验证过，可以找到相应的论文。未来，个人助手是一个很吸引人的场景，相比大语言模型，多模态大模型能够扮演一个能听能看能说能画的助手，更像一个人类了。”这名大模型算法工程师对贝壳财经记者说。

　　新京报贝壳财经记者罗亦丹

（文章来源：新京报）

文章来源：新京报责任编辑：43

原标题：一日惊艳后翻车？谷歌“双子座”大模型6分钟视频被曝经过了剪辑

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”