以异构协同释放本地硬件潜力更广谱、高性价比的大模型落地方案来了！

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

以异构协同释放本地硬件潜力更广谱、高性价比的大模型落地方案来了！

2025年11月21日 08:18

来源：上观新闻

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　大模型落地不能只有精英算力路径，更需要一条更广谱、高性价比的路线。

　　新民晚报记者获悉，趋境科技与清华共同开源的KTransformers，正以异构协同释放本地硬件潜力，以开源能力帮助更多团队和组织用得起、调得动、融得进自己的业务中，逐步实现算力普惠。

　　据介绍，在月之暗面正式发布Kimi-K2-Thinking模型后，KTransformers已完成对该模型的全面适配，单卡环境可完成推理任务，2卡环境可完成LoRA微调任务，大幅降低部署与定制化门槛。更值得关注的是，趋境科技也已完成了该模型在昇腾NPU上的全面适配，提供了完善的全国产化推理解决方案，为国产硬件生态与大模型落地搭建起高效桥梁。

　　KTransformers是一个高性能异构推理框架，专注于高效利用底层GPU、CPU、内存等多样化算力。在大模型推理中，它提出了面向CPU+GPU异构架构的MoE推理系统方案，通过系统级创新让GPU负责注意力和主干网络的高并行计算，CPU承担稀疏专家模块的推理任务，实现高效协同执行，让原本依赖昂贵多卡GPU的大模型，能在CPU参与的硬件环境中实现接近同等性能的推理体验。

　　不久前，KTransformers与主流推理框架SGLang达成合作，双方架构合入同一分支。在Kimi-K2-1TB的模型推理任务中，用户仅需简单安装SGLang与KTransformers CPU内核，下载官方模型及量化权重，即可通过一条命令启动服务，且仅需单张消费级GPU+CPU。此次合作推动大模型推理向更高性能、更低成本的方向演进，助力其更广泛的产业落地。

　　针对模型微调的核心需求，KTransformers与LLaMA-Factory深度集成，支持LoRA等轻量级微调方法，仅占用约41GB显存+2T内存，就能实现46.55 token/s的微调吞吐量。传统上，LoRA微调千亿模型成本高达数百万，而趋境的异构微调能力将资源需求降低到单个消费级GPU（如 RTX 4090）起，这使得高校、中小型实验室、初创公司甚至个人开发者都有机会参与进来。该方案在DeepSeek-14B模型上展现了超过传统方案1.8倍的吞吐、显存占用降低82%，是消费级显卡上微调超大参数MoE模型的唯一可行方案。

　　如今的KTransformers已成为被开发者、厂商与开源社区广泛复用的共建式底层框架。全球头部开源模型方，如Qwen、Kimi、智谱AI等多个主流大模型，都在模型发布首日就推荐KTransformers作为推理引擎支持；其工程实践与兼容性也被多家一体机产品线采纳。趋境科技已与多个国产CPU、GPU硬件平台合作，为数十家行业开发伙伴提供算力底座。

（文章来源：上观新闻）

文章来源：上观新闻责任编辑：70

原标题：以异构协同释放本地硬件潜力，更广谱、高性价比的大模型落地方案来了！

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

东方财富网

分享到微信朋友圈

打开微信，

点击底部的“发现”

使用“扫一扫”

即可将网页分享至朋友圈