同日发布!谷歌和OpenAI“正面硬刚”
2025年03月26日 17:01
来源: 证券时报
3人评论
8
16
东方财富APP
Scan me!

方便,快捷

手机查看财经快讯

专业,丰富

一手掌握市场脉搏

手机上阅读文章
Scan me!

提示:

微信扫一扫

分享到您的

朋友圈

K图 GOOGL_0

  炒股第一步,先开个股票账户

  3月26日凌晨,谷歌正式推出了旗下新一代大语言模型Gemini 2.5。

  谷歌将Gemini 2.5定义为公司迄今为止“最智能的AI模型”,Gemini 2.5 Pro实验版本在多项基准测试中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。谷歌DeepMind首席技术官Koray Kavukcuoglu表示,Gemini 2.5代表了谷歌让“人工智能更智能、推理能力更强”的目标的下一步。

  值得注意的是,就在谷歌发布Gemini 2.5大约一小时后,OpenAI就紧急发布了迄今为止最先进的图像生成器GPT-4o图像生成技术。据介绍,GPT-4o图像生成功能可精准文本渲染、严格遵循指令提示、深度调用4o知识库及对话上下文——包括对上传图像进行二次创作或将其转化为视觉灵感。OpenAI创始人兼CEO山姆·奥特曼在直播中还现场用GPT-4o自拍生成了一张漫画图片。

  谷歌新推理模型,编码推理能力优秀

  据谷歌介绍,公司长期以来都在探索如何通过强化学习、思维链提示等技术,让人工智能变得更聪明、推理能力更强。去年12月,谷歌推出了Gemini 2.0 Flash Thinking模型,这一多模态推理模型具备快速且透明的处理能力。今年1月22日,谷歌正式发布了其Gemini 2.0 Flash Thinking推理模型的增强版。

  此次最新发布的Gemini 2.5系列模型,是谷歌挑战OpenAI“o”系列推理模型的尝试。作为该系列模型中最先进的复杂任务模型,Gemini 2.5 Pro实验版在多项基准测试中全面超越OpenAI o3-mini、Claude 3.7Sonnet、Grok-3和DeepSeek-R1,并且以显著的优势在LMArena(一个用于评估大型语言模型的开源平台)上排名第一。不过,谷歌并未放出Gemini 2.5 Pro与OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基准测试中的对比。

  在编码性能上,Gemini 2.5比2.0有了很大的飞跃,擅长创建视觉上引人注目的网页应用程序和代理代码应用程序,以及代码转换和编辑。在代理代码评估的行业标准SWE-BenchVerified上,Gemini 2.5Pro使用自定义代理设置得分为63.8%。

  据谷歌发布的演示视频,Gemini 2.5 Pro可以利用其推理能力通过从单行提示生成可执行代码来创建视频游戏。例如,能够在指定编程语言的情况下,设计出一款恐龙小游戏,生成了像素化的恐龙图像和有趣的游戏背景。

  在推理能力方面,Gemini 2.5 Pro在一系列需要高级推理的基准测试中都处于领先地位。在“人类的最后考试”中(注:“人类的最后考试”是一个由数百名学科专家设计的数据集,旨在捕捉人类知识和推理的前沿),它在未使用工具的模型中也获得了18.8%的最高分数,这是目前最先进的成绩。

  此外,Gemini 2.5 Pro具备原生多模态处理能力和超长上下文窗口,支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token。

  OpenAI紧急推出4o图像生成功能

  在谷歌深夜上线旗下最强推理模型Gemini 2.5的一个小时后,OpenAI也紧锣密鼓地推出了GPT-4o全新的图像生成功能。

  在此之前,OpenAI旗下的文生图模型主要是DALL-E系列。与DALL-E不同,此次OpenAI的全新图像生成器基于其原生多模态GPT-4o模型,奥特曼在直播活动中宣布,原生图像生成功能基于GPT-4o模型,不再需要调用独立的DALL-E文生图模型。

  据介绍,基于GPT-4o的多模态能力,ChatGPT在图像生成时能更加精确地遵循指示、更精确地渲染图像上的文字,轻松创作出虚实结合的场景。目前,该功能已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户陆续推出,企业和教育用户将很快允许访问。

  据OpenAI官方发布的案例,GPT-4o图像生成功能可以生成手写字,精准理解提示词中的每一个细节,而且图像清晰度可与高清照片媲美。

  例如,当输入提示词“这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字,她身穿一件印有大型OpenAI标志的T恤。笔迹看起来很自然,但有点凌乱,我们可以看到摄影师的倒影”后,最终生成的图片将“海湾大桥”“印有大型OpenAI标志的T恤”“摄影师的倒影”等细节均有体现。

  GPT-4o图像生成功能还能成为实用的生产力工具。比如,要为餐厅设计一份菜单图片,用户在提示词中写明不同菜品的名字、价格、主要特点,GPT-4o即可生成一张符合要求、可以商用的菜单图片。

  不过,OpenAI也承认模型并不完美,依然在裁剪、幻觉、精确绘图等方面存在多个限制,例如在上下文信息较少的提示情况下,图像生成功能可能会编造信息,在复杂度高的情况下难以渲染非拉丁语言,并产生错误的字符等。OpenAI表示,将在首次发布后通过模型改进来解决这些问题。

  一方面是谷歌发布迄今最智能的推理模型,向OpenAI的“o”系列推理模型发出挑战;另一方面是OpenAI推出GPT-4o图像生成功能,应对来自谷歌“全家桶”多模态能力带来的压力,两大硅谷科技巨头竞相发布AI新产品的背后,是全球AI竞争的持续升级。随着AI竞争日趋激烈,各厂商都在加快研发速度,无论是推理模型、多模态大模型还是AI智能体,接下来或都将不断迎来新的技术进展与突破。

  想炒股,先开户!选东方财富证券,行情交易一个APP搞定>>

(文章来源:证券时报)

文章来源:证券时报 责任编辑:10
原标题:同日发布!谷歌和OpenAI,“正面硬刚”
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
举报
分享到微信朋友圈
Scan me!

打开微信,

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈

扫描二维码关注

东方财富官网微信

还可输入
清除
提交评论
郑重声明: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。 《东方财富社区管理规定》
热门评论 查看全部评论
全部评论
最新 最热 最早
置顶
2025-03-26 19:20:29 来自 上海
谷歌与OpenAI的动态加剧了全球AI领域的竞争,双方在推理模型与图像生成技术上的突破,预示着AI技术的快速发展和应用领域的拓宽,可能推动行业标准的提升,加速AI技术的商业化进程。
取消置顶 删除 举报 评论 1
2025-03-26 21:20:01 来自 广西
这生成的漫画图实在太差了,全是亚洲脸,就是护色变了
置顶 删除 举报 评论 点赞
2025-03-26 17:38:23 来自 福建
没资金看得上,都懒得评论了 继续机器人和深海
置顶 删除 举报 评论 2

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500
搜索
复制