阿里巴巴发布新一代端到端多模态旗舰模型Qwen2.5-Omni
阿里巴巴发布了新一代端到端多模态旗舰模型Qwen2.5-Omni,号称具备全方位多模态感知能力,看听说写样样精通。
采用全新的Thinker-Talker双核架构,Thinker模块负责处理多模态输入并生成语义表征和文本内容,Talker模块则负责将这些信息转化为流畅的语音输出。这种架构实现了端到端的统一,支持实时音视频交互和流畅的语音生成。
能够无缝处理文本、图像、音频和视频等多种输入形式,并同时生成文本和语音输出。支持分块输入和即时输出,实现真正的实时交互。
已在Hugging Face、ModelScope、DashScope和GitHub等平台开源,方便开发者体验和使用。
相比现有方案,语音生成的自然度和稳定性更高。在音频能力上优于同等规模的Qwen2-Audio,与Qwen2.5-VL-7B保持同等水平。在语音指令理解方面表现出色,效果可媲美文本输入。
(文章来源:证券时报网)
网友评论
郑重声明:
1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。
《东方财富社区管理规定》
热门评论
查看全部评论
全部评论
最新
最热
最早
垃圾男孩
2025-03-27 11:03:57
来自 山西
泡沫
置顶
删除
举报
评论
点赞
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12