继续狂飙！豆包“全家桶”迎来重磅更新视觉理解、视频生成功能都来了

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

继续狂飙！豆包“全家桶”迎来重磅更新视觉理解、视频生成功能都来了

2024年12月18日 12:55

来源：财联社

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

摘要

【继续狂飙！豆包“全家桶”迎来重磅更新视觉理解、视频生成功能都来了】字节跳动豆包正一路高歌猛进，今日又迎来重磅更新。截至目前，豆包大模型日均tokens使用量超过4万亿，发布7个月以来增长超过33倍。在今日的火山引擎Force原动力大会上，豆包又发布了视觉理解模型，具备更强的内容识别、理解和推理、视觉描述等能力。火山引擎总裁谭待宣布，豆包视觉理解模型价格降至0.003元/千Tokens，比行业平均价格降低85%。

　　字节跳动豆包正一路高歌猛进，今日又迎来重磅更新。

　　截至目前，豆包大模型日均tokens使用量超过4万亿，发布7个月以来增长超过33倍。

　　在今日的火山引擎Force原动力大会上，豆包又发布了视觉理解模型，具备更强的内容识别、理解和推理、视觉描述等能力。火山引擎总裁谭待宣布，豆包视觉理解模型价格降至0.003元/千Tokens，比行业平均价格降低85%。

　　另外，字节豆包新一代视频生成大模型将明年1月正式发布。此外，抖音旗下图片和视频生成工具即梦AI，展示了新一代图片生成模型和动态海报功能。

　　从字节今日的种种新动态来看，其仍旧维持着在生成式AI领域的“饱和式”策略。

　　在今天之前，字节豆包大模型家族已包括了通用大语言、语音合成和识别、图片及视频等不同模态的生成式AI模型，但仍缺少具有视觉能力的可交互多模态大模型；并且，字节豆包之前已经以智能体耳机、智能玩偶、台灯为切入点，在AI硬件端开始布局，但同样受限于交互多模态模型的缺失，AI硬件产品仍只能实现语音层级交互。

　　从一定程度上来说，今日豆包发布的视觉理解模型，补上了“豆包全家桶”在视觉交互上的这一短板。

　　西部证券12月15日报告指出，视觉能力是大模型能力的核心，因为视觉输入占据人类交互信息的绝大多数，在包括AI玩具或AI眼镜等的下一代AI硬件终端中，视觉SoC将有望成为标配，这也将新增对NAND存储芯片的需求。分析师建议关注视觉SoC公司恒玄科技、星宸科技、安凯微；存储公司东芯股份、普冉股份。

　　国盛证券也表示，字节跳动目前已具备开放式耳机音频技术、大模型技术以及丰富的软件应用生态，有望应用到AI眼镜产品上，成为该赛道核心玩家。

　　算力需求或进一步扩大

　　另一方面，从豆包的文字大模型，到视觉理解模型和视频生成模型，可以看到，“豆包+”生态似乎也已初现雏形。若再加上猫箱、即梦等字节旗下更多AI应用，字节跳动的算力需求，或许又要再上一个台阶。国盛证券近日研报也指出，算力是字节AI产业链核心方向。

　　据媒体援引分析师测算，仅以豆包类似的文字模型来推算，以ChatGPT MAU（月活用户）为6亿来看，推理需求约需35万个A100显卡，训练需求需12万个A100显卡。

　　而相对于文字模型而言，视频大模型对算力的需求势必更高，例如在Sora正式上线后不久，OpenAI即出现算力不够用的问题。

　　上述分析师以即梦AI为例计算，即梦的视频生成模型Magic Video v2若MAU达到1亿，且每天有生成10分钟视频的需求，则需28万个英伟达H100 GPU，MAU达到2亿时，对H100的需求将达到55万个。

　　服务器代工厂英业达此前已获得字节跳动、百度、阿里巴巴、腾讯等公司的订单，主要出货形式为L10（机柜组装与测试）及L11（服务器整合与机架布建），其日前表态中也暗示了字节等公司对算力的需求之强劲——本季度客户对AI服务器需求较预期强劲，今年AI服务器营收有望同比增长2.5-3倍，明年出货量将进一步升温。

　　民生证券指出，豆包用户数的快速增长带来的将是算力中心的扩建，进而带动AI服务器需求提升；同时，算力中心扩建带来的不仅是基础建设需求，更多的是热管理的需求，字节AI端液冷有望拉动广阔市场空间。

　　据《科创板日报》不完全统计，A股中字节跳动算力硬件相关公司有：