美国对DeepSeek开展国家安全调查！阿里突放大招国产大模型又有重磅！

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

美国对DeepSeek开展国家安全调查！阿里突放大招国产大模型又有重磅！

2025年01月29日 17:48

来源：证券时报

49人评论

小中大

99+

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　全新妙想投研助理，立即体验

　　大年初一，阿里发出大模型新年第一弹。

　　1月29日凌晨1点半，阿里云通义千问旗舰版模型Qwen2.5-Max正式升级发布。据其介绍，Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果，预训练数据超过20万亿tokens，展现出极强劲的综合性能，在多项公开主流模型评测基准上录得高分，全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。

　　与Qwen2.5-Max进行对比的模型，就包括了最近火爆海内外的DeepSeek旗下的V3模型。受新模型的影响，阿里巴巴美股拉升，一度涨超7%，收盘录得6.71%的涨幅，报96.03美元/股。

　　最近几天，DeepSeek冲击了美股的投资逻辑，导致英伟达等巨头股价大幅震荡。

　　据央视新闻消息，当地时间1月28日，美国多名官员回应DeepSeek对美国的影响，表示DeepSeek是“偷窃”，正对其影响开展国家安全调查。

　　就在前一天，美国总统特朗普还称DeepSeek是很积极的技术成果。

　　无论是在硅谷、华尔街及白宫掀起轩然大波的DeepSeek，还是阿里通义千问新发布的大模型，国产大模型最近的密集创新成果表明，中国人工智能的进步与追赶，已经极大程度改变了全球AI的行业格局。

　　阿里新模型性能全球领先

　　阿里通义千问团队表示，Qwen2.5-Max采用超大规模MoE（混合专家）架构，基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练。

　　据介绍，Qwen2.5-Max在知识、编程、全面评估综合能力的以及人类偏好对齐等主流权威基准测试上，展现出全球领先的模型性能。指令模型是所有人可直接对话体验到的模型版本，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

　　同时，基座模型反映模型裸性能，由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型，通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B，以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。结果显示，在所有11项基准测试中，Qwen2.5-Max全部超越了对比模型。

　　记者还注意到，除了发布Qwen2.5-Max以外，1月28日，阿里还开源了全新的视觉理解模型Qwen2.5-VL，推出了3B、7B、72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。

阿里巴巴股价走势

　　受新模型的影响，阿里巴巴美股拉升，一度涨超7%，收盘录得6.71%的涨幅，报96.03美元/股。Qwen2.5-Max的发布引发了资本市场关于重估中国AI资产的讨论。如果将阿里巴巴美股上市后的股价走势时间轴拉长，其股价在2020年摸到311.046美元的高位后，便进入了下行的通道。业内人士分析，阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型，而且具备完整的云生态，或能形成类似去年北美云计算服务商的投资逻辑。

DeepSeek以外，大厂大模型也值得关注

　　最近几天，大家的注意力都在DeepSeek上，但有国内头部大模型厂商的核心技术骨干告诉证券时报记者，包括阿里通义千问、字节豆包、腾讯混元在内的互联网大厂大模型能力其实并不差，只是DeepSeek作为创业公司，和互联网大厂在发展战略上有所不同。DeepSeek作为纯技术驱动的公司，代码和训练方法完全开源，而互联网大厂往往出于商业化等方面的考量不会完全开源。

　　“DeepSeek出圈的原因主要还是跟金融市场相关。从基座能力上看，其实没有那么强，对我们的冲击也没有那么大。”该技术骨干告诉记者，美国股市上涨的逻辑主要是AI和英伟达芯片，但DeepSeek让人们发现可能不需要这么多英伟达的卡，就能做出来性能差不多的模型。“而且还开源了，所以DeepSeek才这么受关注。”该技术骨干表示。

　　与此同时，DeepSeek主要是在文本生成能力和理解能力方面比较强，尤其擅长中文语境下的长文本和复杂语境，DeepSeek V3和R1暂无多模态生成能力。有行业从业者向记者表示，以豆包等为代表的大厂模型都属于多模态大模型，在大语言模型基础上融合了图片、音频、视频等多种模态，对算力底座要求更高，不仅要支持大规模训练任务，还要确保端侧应用的实时性和高效性。

　　因此，DeepSeek除了通过创新架构与优化算法降低训练成本外，还能更加聚焦于大语言模型领域。一名国内大模型高管在分析DeepSeek的成功时就指出，有相对充裕的卡（算力资源）,没有融资压力，前面几年只做模型不做产品，这些都让DeepSeek更加纯粹和聚焦，能够在工程技术和算法上有所突破。

　　前述国内头部大模型厂商的核心技术骨干还透露，1月22日字节发布的豆包大模型1.5Pro，在多个测评基准上领先于许多头部的模型，“我们的压力不来自于DeepSeek，而是豆包，只是豆包1.5Pro没有出圈，大家没注意到。”该技术骨干说。

　　DeepSeek面临“蒸馏”争议

　　记者注意到，字节研究团队还表示，豆包1.5Pro通过高效标注团队与模型自提升相结合的方式持续优化数据质量，严格遵循内部标准，不使用任何其他模型的数据，确保数据来源的独立性和可靠性，也即没有通过“蒸馏”其他模型来走捷径。

　　所谓“蒸馏”，指的是一种开发者用来优化小型模型的方法，是一种在深度学习和机器学习领域广泛应用的技术，简单理解就是用预先训练好的复杂模型输出的结果，作为监督信号再去训练另外一个简单的模型。这样可以大幅减少计算资源消耗，让小模型在特定任务中以低成本取得类似效果。

　　DeepSeek的技术文档表示，R1模型使用了数据蒸馏技术（Distillation）生成的高质量数据提升了训练效率。周二，白宫人工智能和加密货币事务负责人大卫·萨克斯在接受该媒体采访时宣称，DeepSeek“有可能”窃取了美国的知识产权才得以崛起。他还表示，未来几个月美国领先的人工智能公司将采取措施，试图防止“蒸馏”。据金融时报报道，OpenAI称它发现DeepSeek使用了OpenAI专有模型来训练自己的开源模型的证据，但拒绝进一步透露其证据的细节。

　　不过多名业内人士表示，“蒸馏”虽然存在一定争议，但其实是大模型训练中一种常用的方法。由于训练复杂模型需要投入大量资源，并雇用专业人员教导模型如何生成符合人类表达方式的回答，耗钱耗时间，而“蒸馏”则可以避免这个问题。因此，无论是在中国还是美国，初创公司和学术机构使用ChatGPT等具有人类反馈优化的商业大语言模型输出数据来训练自己的模型，被视为一种普遍的、“默而不宣”的现象。

　　由中国科学院深圳先进技术研究院、北大等机构联合发表的论文《大语言模型的蒸馏量化》中，研究者就提到除了Claude、豆包和Gemini之外，当前知名的开闭源大语言模型均表现出了较高的“蒸馏”水平。研究人员普遍认为，“蒸馏”能够使模型训练的效率更好、成本更低，但会使模型的独特性下降，且过度“蒸馏”也会导致模型性能下降。

（文章来源：证券时报）

文章来源：证券时报责任编辑：6

原标题：美国对DeepSeek开展国家安全调查！阿里突放大招，国产大模型又有重磅！

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈