法律人对法律垂类大模型的期许是:"不会乱编法条,精准可靠。"
两年前,这话有说服力。
现在,这个期许正在变得遥遥无期。
不是因为这些产品变差了,而是因为它们存在的根本理由,正在被一场更大的变化悄悄抽掉。
大模型变了:从聊天机器人到任务大脑
要理解垂类大模型为什么会消亡,先要理解大模型本身发生了什么变化。
ChatGPT刚出来的时候,大模型的用法很简单——你问,它答。整个交互是一次性的,像发短信:你发过去,它回过来,完了。评价标准也很简单:回答准不准?语气像人话吗?
那两年,"提示词工程"是个热词,教你怎么问问题,从大模型那里榨出更好的答案。
但这个阶段已经过去了。
现在的大模型,越来越多地被用作 AI Agent 的大脑——不是回答问题,而是执行任务。
你不再是问 AI "民法典第1065条的内容是什么",而是在让 AI "帮我起草一份离婚协议,结合这份财产清单,参考最近三年的类似判决,确保条款符合当地实践"。这不是一问一答,这是一个需要多步推进的任务:理解需求、查找资料、草拟内容、自我检查、输出结果。
AI Agent 就是这么工作的。收到目标,自主规划,一步步执行,中间调用各种工具,处理意外,最终交出完整的结果。
这个角色的转变,带来了评价标准的根本变化。
原来问的是:这个模型本身好不好?
现在问的是:围绕这个模型搭建的整套系统,能不能可靠地完成任务?
这套系统,业内有个叫法:harness(参考 法律人学Claude|第二十期:学习AI的顶级心法 、 法律人学Claude|第十一期:给AI这匹野马套上缰绳——Hooks机制 ) 。 字面意思是马具——大模型是马,harness 是缰绳和驾驭系统。 从"prompt 优不优质",到"harness 优不优质" ,评价重心就这么转移了。2026年这个词在 AI 工程圈几乎无处不在,Anthropic、OpenAI、LangChain 都在围绕它发文,争论它的边界和未来。
幻觉时代的救命稻草
ChatGPT刚出来那阵,对法律人来说最大的恐惧就一个词:幻觉。
模型会"幻觉"出根本不存在的东西——法条编一半,案号完全捏造,判决结果说得煞有介事,法院从来没出过那个判决,被引用的学者根本没写过那篇文章。
幻觉怎么来的?大模型本质上是个概率预测机器。它生成每一个字的时候,计算的是:在当前上下文里,下一个字最可能是什么。它的"知识"是从海量训练数据里统计出来的模式,不是一个可以精确查询的数据库。
所以当你问它一个它"不太确定"的问题,它不会说"我不知道",它会生成一个听起来最合理的答案。说得很流畅,但完全是编的。
在法律行业,这种错误没法接受。错一个关键法条,可能直接影响辩护策略。
于是垂类大模型成了救命稻草。逻辑很直接:既然通用模型会乱说,那就专门用法律文本训练一个,减少它随机发挥的空间。法律 AI、合规 AI、医疗 AI,核心卖点都是同一个:我们不会乱说。
代价是什么?能力天花板降低。它的世界只有法律,别的领域更差,复杂推理不如通用模型。训练数据有上限,更新滞后,遇到边界情况容易失效。
但当时这笔买卖是合算的。可靠性在那个阶段是稀缺品,愿意为它付代价是合理的。
能力与可靠性的跷跷板
通用大模型和垂类大模型之间,存在一个内在的跷跷板。
通用大模型这边:推理能力强,知识覆盖广,能处理复杂任务。问题是幻觉相对多,在特定专业场景下稳定性不够。
垂类大模型那边:特定领域幻觉少,输出可预期,边界内表现稳定。问题是能力上限低,推理不深,遇到复杂任务力不从心。
这个跷跷板的底层原因,和大模型的训练方式有关。
大模型的能力,来自海量、多样化的训练数据。它能在法律问题上给出有价值的回答,部分原因是它训练时看过物理、数学、编程、历史、哲学——这些跨领域的内容,训练了它的推理能力和模式识别能力。
把训练数据缩减到"只有法律",它在法律领域的幻觉确实少了,但推理能力的天花板也随之降低了。你拿掉了那些让它"变聪明"的多样化训练,换来了"不乱说法条"的稳定性。
一笔能力换可靠性的交易。
垂类大模型存在的根本理由,就是这个跷跷板:因为通用模型可靠性不够,所以要用垂类模型的可靠性来换。
但如果可靠性这个问题,可以通过别的方式解决呢?
Harness:把可靠性外包出去
这就是 harness 出现的意义。
幻觉问题,现在越来越靠 harness 解决,不是靠换一个更"懂法律"的模型。
RAG(检索增强生成)是最直接的方式。传统做法是让模型靠"记忆"回答——训练时看过什么,就能说什么。但训练数据有截止日期,也有错误,也有覆盖不到的地方。于是模型在不确定的区域,靠统计推断填空,幻觉就出来了。
RAG 的思路是: 别让模型靠记忆,让它靠查询。 每次回答之前,先去检索真实的、经过验证的数据库,把找到的内容塞进上下文,再让模型基于这些内容回答。你问某个法条,它先查法条数据库,查到原文,再基于原文回答。查不到就说查不到,不编。这比任何垂类模型的训练数据都精准,而且可以实时更新。法律修改了,更新数据库,模型不需要重新训练。
工具调用是另一个机制。大模型的幻觉,很多时候来自让它做它不擅长的事——精确计算、查询实时信息、生成格式规范的文件。工具调用的思路是让大模型专注于推理和规划,具体执行交给专门的工具:查法条调用法律数据库 API,计算赔偿金额调用计算器,生成起诉书调用文书模板。大模型变成指挥官,负责理解需求、分解任务、整合结果。它不需要"记住"所有法条,因为它能"查到"所有法条。
还有多步校验。即便有了 RAG 和工具调用,输出仍然可能有问题。多步校验的思路是让另一个模型来检查主模型的输出——就像合伙人复核助理的工作,助理起草,合伙人检查,不合格就返工。
这三层组合起来,让通用大模型在法律场景下也能做到精准、可靠。垂类大模型的核心优势——更少幻觉、更可控输出——不再是它的专属了。
有数据可以说明:用同一个通用模型,在完全不改变模型参数的情况下,只通过优化 harness,Terminal Bench 基准测试从 52.8 分提升到 66.5 分。改变的不是模型,是驾驭模型的方式。
Harness 解决不了能力问题
到这里,有人可能会问:既然 harness 这么厉害,垂类大模型配上 harness 不也一样?
不一样。
harness 能解决的,是执行层面的可靠性问题:幻觉、格式错误、信息过时、步骤遗漏。这些问题的本质,是模型"知道但没说对",或者"该查但没查"。
harness 解决不了的,是推理层面的能力问题:复杂任务的规划、模糊需求的理解、多步逻辑的推进、异常情况的应对。这些问题的本质,是模型"根本想不到",或者"想了也想不清楚"。
研究者把这个叫做 "能力门槛" :harness 能提升可靠性,但有一个前提—— 模型必须具备足够强的基础推理能力。低于这个门槛,harness 也救不了。
打个比方:你可以给一个初级律师助理配最好的工作流——查法条的工具、复核他工作的人、标准化的操作手册。但如果他本身的逻辑思维不够,遇到复杂案情理解不了,再好的工具也没用。
垂类大模型就面临这个困境。它为了可靠性牺牲了能力,但可靠性现在可以用 harness 来补;而它失去的能力,harness 补不了。
Agent 时代:能力成为第一标准
进入 AI Agent 时代,评价标准的排序变了。
Agent 要干的事情越来越复杂:理解模糊需求、拆解任务、调用工具、处理意外、多步执行、自我纠错、输出完整结果。整个过程可能有几十个步骤,每一步都需要底层推理能力在撑着。
有个数学上的现实:一个十步走完的任务,每步成功率 85%,整体成功率是 0.85 的十次方——只有 20%。步骤越多,能力的重要性越是被放大。
harness 在这里补不了这个缺口。你可以在每一步加校验,失败了让它重来;但如果模型的基础推理能力不够,它会在同一个地方反复失败,无论重来多少次。
能力是地基,可靠性是装修。地基不够,装修再好也是危楼。
用打官司打比方:你需要一个会推理、能应对复杂局面的辩护律师,他偶尔需要查一下具体法条,这是 harness 可以解决的事。但你不能要一个只会背法条、遇到复杂案情就懵的律师,哪怕他从不说错法条。
垂类大模型用低能力换来的高可靠性,在 Agent 场景里彻底失去了价值——因为 harness 可以解决可靠性问题,但没有任何 harness 能解决能力问题。
最后聊聊
你不需要迷信"法律专属 AI"。
"我们用海量法律语料训练"这句话,在两年前是有效承诺,现在越来越像营销话术。垂类大模型卖的是可靠性,但可靠性已经不是稀缺品了,任何构建良好的 harness 都可以做到。
真正的稀缺品,是底层模型的能力。
你真正需要问的是:这个系统底层用的是什么模型?它的推理能力上限在哪里?它的 harness 是怎么设计的?
一个以通用旗舰模型(Claude、GPT、GLM、Minimax 这类)为核心,配上针对法律场景设计的检索、校验、工具调用机制的系统,才是正确的架构。而不是一个能力受限的垂类模型,加上"它很懂法律"的承诺。
未来的法律 AI 竞争,不会是"谁的模型更懂法律",会是谁的底层模型能力更强、谁的 harness 设计更好。
垂类大模型,正在从"解决方案"变成"历史阶段"。它是当年那个问题的正确答案,只是现在问题变了。
而能看清楚这件事、选对工具、构建自己工作方式的法律人,才是真正走在前面的那批人。