继“龙虾”OpenClaw之后,又一个新词最近在AI行业走红——Harness Engineering(直译为“驾驭工程”)。在硅谷,它迅速席卷AI工程圈;在国内,它出现在林俊旸的长文中,汤道生的演讲里。
什么是Harness Engineering?简单来说,这是一个不强调模型性能,更强调工程环境,通过让“驾驭模型的系统环境”更专业而提升使用效果的范式。
事实上,国内的各大厂商已经将这一理念应用到了自家的产品设计中,近一周以来,新京报AI研究院从腾讯、字节、百度三家大厂相关负责人了解到了他们对Harness Engineering的理解,我们发现,“不只看模型还要看环境”“模型与框架协同升级”正在成为AI行业发展的重要转变之一。
什么是Harness Engineering?
在AI大语言模型破圈初期,被开发者们提及最多的概念是Prompt Engineering(提示词工程),即怎么把话对大模型说清楚,怎么给示例,怎么设计格式。
实际上,提示词工程已经被不少AI应用放到了产品层面,新京报AI研究院就曾在扣子、钉钉等不少应用中发现输入提示词后,旁边有“提示词优化”选项。
2026年初,Harness Engineering取代提示词工程,成为硅谷最流行的AI工程化范式,其核心是为 AI 智能体(Agent)构建一套完整的运行环境、约束规则与反馈闭环,让 AI 可靠、自主地完成复杂工作。
HashiCorp 联合创始人Mitchell Hashimoto(米切尔·桥本)曾给它下过一个朴素但深刻的定义:“每当 AI 犯错,就工程化一个方案,让它永远不再犯同样的错。”
“目前业内有一个共识:没有模型能支持所有Agent场景。通用模型的泛化性在复杂的真实环境中是有限的,而 Harness Engineering正是弥补这一鸿沟的关键路径。”百度云相关业务负责人云周(应采访对象要求化名)对新京报AI研究院表示。
他告诉记者,Harness Engineering的核心价值在于,不只是创造新能力,而且是通过工程手段,激发并稳定大模型在特定场景中的既有能力,“我们可以把大模型想象成一匹拥有惊人体能、在荒野中横冲直撞的野马。它虽然跑得快,但你无法预期它在赛场上的表现。”
在云周看来,Harness Engineering(驾驭工程)就是那套精良的“马具”,对于大模型而言, 缰绳是Prompt Engineering(提示词工程),马鞍是RAG(检索增强生成)插件,而马镫则是闭环的沙盒执行环境。没有这套“马具”,骑手(业务场景)无法指挥野马完成精准的跨栏或长途奔袭;有了 Harness,我们才能将野马转化为能上赛场、稳定输出的赛马。正如人类智能的提升源于工具使用的演进,AI 的进化也是通过 Harness 学会使用现实世界的工具。
那么,普通用户如何理解这一技术范式呢?云周对新京报AI研究院表示,普通用户并不需要理解背后的算法,但 Harness Engineering 的存在决定了你的 AI 体验是否“顺手”和“可靠”:它能有效抑制大模型的“幻觉”现象,确保 AI 给出的建议是基于事实的,而不是一本正经地胡说八道;它让 AI 能够“读懂”你的私人文档、公司流程,提供量身定制的帮助,而不仅仅是泛泛而谈;它像一道防火墙,确保 AI 不会输出有害信息,为 AI 建立了一个“隔离沙箱”,确保所有的操作都在安全范围内运行,不扩散风险,保护用户的数据隐私。
大厂已在实践,“AI 落地不只是一道算法题,更是一道工程题”
新京报AI研究院注意到,Harness Engineering的理念实际上已经深入到了国内大厂的产品中。
最先公开提及这一理念的是腾讯集团高级执行副总裁汤道生。他在3月27日腾讯云上海峰会的演讲中表示:“AI 落地不只是一道算法题,更是一道工程题。在同样的模型能力下,不同的Harness设计,都将影响 AI 落地的实际效果。”
汤道生称,腾讯要全面“强化模型的Harness与工具,用精心的工程实现,最大化发挥大模型的能力,让应用更高效落地”。
在4月2日火山引擎武汉峰会会后的采访中,火山引擎总裁谭待也回复了记者关于Harness Engineering的问题。他表示,火山引擎推出的“字节版龙虾”Arkclaw,已经使用了这类架构能力,“核心思路是把最好的框架进行服务化和产品化,而且框架要和模型趋同进化,比如让豆包模型在OpenClaw上跑得更好,这样也能帮助行业更好地发展。”
云周也对新京报AI研究院表示,Harness Engineering 本质上是软件工程与 AI 的深度交汇。百度智能云目前的几款产品,正是这一技术导向的典型实践,如百度最近发布的国产龙虾产品DuMate(搭子)展示出了Harness Engineering 的“约束与执行”能力。它原生内置了安全沙箱,让 AI 在闭环隔离的环境中执行代码和文件,不扩散风险。通过“高危拦截”机制,删除文件等敏感操作必须人工二次确认,给 AI 装上了“刹车” 。它突破了聊天机器人的边界,成为能自主完成跨应用、跨文件任务的“AI 搭子” 。这种从“理解”到“执行”的闭环,正是通过 Harness 工程将大模型能力精准导流到 Word、Excel、PPT 等真实办公场景中实现的。
新京报AI研究院注意到,这一新范式对企业 IT 负责人产生了直接的指导意义:不要再把精力全部花在“选哪个模型”上。当主流模型的推理能力差距逐步缩小时,真正决定落地效果的是围绕模型搭建的工程系统。
3月26日,原通义千问技术负责人林俊旸也在发布的长文中提到了Harness,他表示“在智能体强化学习中,策略被嵌入一个更大的Harness中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。同时,这也意味着Harness Engineering的崛起。” 他进一步指出,智能体时代的竞争优势,将来自更好的环境、更紧的训推耦合、更强的Harness工程,以及把模型决策与决策后果串成闭环的能力。
在汤道生看来,随着行业的发展,主流大模型的复杂推理能力都挺强,国内开源模型与海外闭源能力的差距,也在逐步缩小,为市场提供了更具性价比的大模型推理服务。客户按照自己的业务场景,对性能和成本的偏好,其实有很多的选择。因此才更加考验Harness Engineering的设计。
“Agentic模型训练最大的卡点不是模型,而是真实环境的复刻。2026年,我们不需要全能的通用模型,我们需要的是在垂直场景下,通过Harness Engineering 建立起高吞吐、高效率的强化学习系统。谁能把这套‘马具’做得最轻量、最坚固,谁就能率先通往产业级Agent之路。”云周对新京报AI研究院表示。
新京报AI研究院罗亦丹
(文章来源:新京报)