---
title: "垂类大模型已死 通用大模型当立"
section: "法律AI教程"
slug: "2026-04-20-垂类大模型已死-通用大模型当立"
canonical_url: "https://fazhuli.cn/tutorials/t_gs3urpic4d"
date: "2026-04-20"
author: "吕盈辉律师"
tags: ["法律AI"]
---

# 垂类大模型已死 通用大模型当立

作者：吕盈辉律师
发布日期：2026-04-20

## 摘要

现在，这个期许正在变得遥遥无期。

## 正文

# 法律人对法律垂类大模型的期许是："不会乱编法条，精准可靠。"

两年前，这话有说服力。

现在，这个期许正在变得遥遥无期。

不是因为这些产品变差了，而是因为它们存在的根本理由，正在被一场更大的变化悄悄抽掉。

## 大模型变了：从聊天机器人到任务大脑

要理解垂类大模型为什么会消亡，先要理解大模型本身发生了什么变化。

ChatGPT刚出来的时候，大模型的用法很简单——你问，它答。整个交互是一次性的，像发短信：你发过去，它回过来，完了。评价标准也很简单：回答准不准？语气像人话吗？

那两年，"提示词工程"是个热词，教你怎么问问题，从大模型那里榨出更好的答案。

但这个阶段已经过去了。

现在的大模型，越来越多地被用作 AI Agent 的大脑——不是回答问题，而是执行任务。

你不再是问 AI "民法典第1065条的内容是什么"，而是在让 AI "帮我起草一份离婚协议，结合这份财产清单，参考最近三年的类似判决，确保条款符合当地实践"。这不是一问一答，这是一个需要多步推进的任务：理解需求、查找资料、草拟内容、自我检查、输出结果。

AI Agent 就是这么工作的。收到目标，自主规划，一步步执行，中间调用各种工具，处理意外，最终交出完整的结果。

这个角色的转变，带来了评价标准的根本变化。

原来问的是：这个模型本身好不好？

现在问的是：围绕这个模型搭建的整套系统，能不能可靠地完成任务？

这套系统，业内有个叫法：harness（参考 [法律人学Claude｜第二十期：学习AI的顶级心法](https://mp.weixin.qq.com/s?__biz=MzI0NzUwMDUzMw==&mid=2247484257&idx=1&sn=25938ba33fd162b8a11e2f92feeea552&scene=21#wechat_redirect) 、 [法律人学Claude｜第十一期：给AI这匹野马套上缰绳——Hooks机制](https://mp.weixin.qq.com/s?__biz=MzI0NzUwMDUzMw==&mid=2247484072&idx=1&sn=278628daadc2feef0b73b07e23bd66c8&scene=21#wechat_redirect) ） 。 字面意思是马具——大模型是马，harness 是缰绳和驾驭系统。 从"prompt 优不优质"，到"harness 优不优质" ，评价重心就这么转移了。2026年这个词在 AI 工程圈几乎无处不在，Anthropic、OpenAI、LangChain 都在围绕它发文，争论它的边界和未来。

![image](https://mmbiz.qpic.cn/sz_mmbiz_png/et3ibfiaM9ia2yH9oDZpuKOd00fyn72xYTmL9l2FcqkMVCEDsticiaMhfdW7XdS6mfHsbVZZAeuhuaJ3vyxZJezmeJPpicpmicEcaQF1ibMgfXtDPLI/640?wx_fmt=png)

## 幻觉时代的救命稻草

ChatGPT刚出来那阵，对法律人来说最大的恐惧就一个词：幻觉。

模型会"幻觉"出根本不存在的东西——法条编一半，案号完全捏造，判决结果说得煞有介事，法院从来没出过那个判决，被引用的学者根本没写过那篇文章。

幻觉怎么来的？大模型本质上是个概率预测机器。它生成每一个字的时候，计算的是：在当前上下文里，下一个字最可能是什么。它的"知识"是从海量训练数据里统计出来的模式，不是一个可以精确查询的数据库。

所以当你问它一个它"不太确定"的问题，它不会说"我不知道"，它会生成一个听起来最合理的答案。说得很流畅，但完全是编的。

在法律行业，这种错误没法接受。错一个关键法条，可能直接影响辩护策略。

于是垂类大模型成了救命稻草。逻辑很直接：既然通用模型会乱说，那就专门用法律文本训练一个，减少它随机发挥的空间。法律 AI、合规 AI、医疗 AI，核心卖点都是同一个：我们不会乱说。

代价是什么？能力天花板降低。它的世界只有法律，别的领域更差，复杂推理不如通用模型。训练数据有上限，更新滞后，遇到边界情况容易失效。

但当时这笔买卖是合算的。可靠性在那个阶段是稀缺品，愿意为它付代价是合理的。

## 能力与可靠性的跷跷板

通用大模型和垂类大模型之间，存在一个内在的跷跷板。

通用大模型这边：推理能力强，知识覆盖广，能处理复杂任务。问题是幻觉相对多，在特定专业场景下稳定性不够。

垂类大模型那边：特定领域幻觉少，输出可预期，边界内表现稳定。问题是能力上限低，推理不深，遇到复杂任务力不从心。

![image](https://mmbiz.qpic.cn/mmbiz_png/eRZqoqddscIsn7ogOvaUGu0z1CtvibiaDW4N8JqVWvhzQudUJN4lfEnc6VcEJ0CwkhJKYjuwrSZrTiaWFJybAAia53EBHg6wUfzklflskiag7fTo/640?wx_fmt=png&from=appmsg)

这个跷跷板的底层原因，和大模型的训练方式有关。

大模型的能力，来自海量、多样化的训练数据。它能在法律问题上给出有价值的回答，部分原因是它训练时看过物理、数学、编程、历史、哲学——这些跨领域的内容，训练了它的推理能力和模式识别能力。

把训练数据缩减到"只有法律"，它在法律领域的幻觉确实少了，但推理能力的天花板也随之降低了。你拿掉了那些让它"变聪明"的多样化训练，换来了"不乱说法条"的稳定性。

一笔能力换可靠性的交易。

垂类大模型存在的根本理由，就是这个跷跷板：因为通用模型可靠性不够，所以要用垂类模型的可靠性来换。

但如果可靠性这个问题，可以通过别的方式解决呢？

## Harness：把可靠性外包出去

这就是 harness 出现的意义。

幻觉问题，现在越来越靠 harness 解决，不是靠换一个更"懂法律"的模型。

RAG（检索增强生成）是最直接的方式。传统做法是让模型靠"记忆"回答——训练时看过什么，就能说什么。但训练数据有截止日期，也有错误，也有覆盖不到的地方。于是模型在不确定的区域，靠统计推断填空，幻觉就出来了。

RAG 的思路是： 别让模型靠记忆，让它靠查询。 每次回答之前，先去检索真实的、经过验证的数据库，把找到的内容塞进上下文，再让模型基于这些内容回答。你问某个法条，它先查法条数据库，查到原文，再基于原文回答。查不到就说查不到，不编。这比任何垂类模型的训练数据都精准，而且可以实时更新。法律修改了，更新数据库，模型不需要重新训练。

工具调用是另一个机制。大模型的幻觉，很多时候来自让它做它不擅长的事——精确计算、查询实时信息、生成格式规范的文件。工具调用的思路是让大模型专注于推理和规划，具体执行交给专门的工具：查法条调用法律数据库 API，计算赔偿金额调用计算器，生成起诉书调用文书模板。大模型变成指挥官，负责理解需求、分解任务、整合结果。它不需要"记住"所有法条，因为它能"查到"所有法条。

还有多步校验。即便有了 RAG 和工具调用，输出仍然可能有问题。多步校验的思路是让另一个模型来检查主模型的输出——就像合伙人复核助理的工作，助理起草，合伙人检查，不合格就返工。

![Harness 三层架构：RAG检索层 + 工具调用执行层 + 多步校验验证层](https://mmbiz.qpic.cn/sz_mmbiz_jpg/et3ibfiaM9ia2yoyRRfgkeFsdUcBsJXeoM5xhfNbU5jpaXYJb58qm1KXzht6LBoCeL5X1aG8HGhDHbtLkOU37ibCEJ27l6hlYYMxYdicONeYo368/640?wx_fmt=jpeg)

这三层组合起来，让通用大模型在法律场景下也能做到精准、可靠。垂类大模型的核心优势——更少幻觉、更可控输出——不再是它的专属了。

有数据可以说明：用同一个通用模型，在完全不改变模型参数的情况下，只通过优化 harness，Terminal Bench 基准测试从 52.8 分提升到 66.5 分。改变的不是模型，是驾驭模型的方式。

## Harness 解决不了能力问题

到这里，有人可能会问：既然 harness 这么厉害，垂类大模型配上 harness 不也一样？

不一样。

harness 能解决的，是执行层面的可靠性问题：幻觉、格式错误、信息过时、步骤遗漏。这些问题的本质，是模型"知道但没说对"，或者"该查但没查"。

harness 解决不了的，是推理层面的能力问题：复杂任务的规划、模糊需求的理解、多步逻辑的推进、异常情况的应对。这些问题的本质，是模型"根本想不到"，或者"想了也想不清楚"。

研究者把这个叫做 "能力门槛" ：harness 能提升可靠性，但有一个前提—— 模型必须具备足够强的基础推理能力。低于这个门槛，harness 也救不了。

![能力门槛：门槛以上harness有效，门槛以下harness也救不了](https://mmbiz.qpic.cn/sz_mmbiz_jpg/et3ibfiaM9ia2zTu3U2Zlda3jHwPDic1ZyOh97RVqQr1aZHsaUy8S6rTib618uRic95CCOcqDzGjicotCe2LR1mX65vECuH71lDqFscVLfC5wr4MaA/640?wx_fmt=jpeg)

打个比方：你可以给一个初级律师助理配最好的工作流——查法条的工具、复核他工作的人、标准化的操作手册。但如果他本身的逻辑思维不够，遇到复杂案情理解不了，再好的工具也没用。

垂类大模型就面临这个困境。它为了可靠性牺牲了能力，但可靠性现在可以用 harness 来补；而它失去的能力，harness 补不了。

## Agent 时代：能力成为第一标准

进入 AI Agent 时代，评价标准的排序变了。

Agent 要干的事情越来越复杂：理解模糊需求、拆解任务、调用工具、处理意外、多步执行、自我纠错、输出完整结果。整个过程可能有几十个步骤，每一步都需要底层推理能力在撑着。

有个数学上的现实：一个十步走完的任务，每步成功率 85%，整体成功率是 0.85 的十次方——只有 20%。步骤越多，能力的重要性越是被放大。

![Agent多步任务成功率递减：每步85%，10步后仅剩20%](https://mmbiz.qpic.cn/sz_mmbiz_jpg/et3ibfiaM9ia2yU6QYXpxoUZibnuLd3ia3oziaTgFRbYfKZfOhA0QObQd1micN8pFHsKb0bJws6Ljtx2urhRarXeicffuMA7dWicnwYIKPAYJwUcByyo/640?wx_fmt=jpeg)

harness 在这里补不了这个缺口。你可以在每一步加校验，失败了让它重来；但如果模型的基础推理能力不够，它会在同一个地方反复失败，无论重来多少次。

能力是地基，可靠性是装修。地基不够，装修再好也是危楼。

用打官司打比方：你需要一个会推理、能应对复杂局面的辩护律师，他偶尔需要查一下具体法条，这是 harness 可以解决的事。但你不能要一个只会背法条、遇到复杂案情就懵的律师，哪怕他从不说错法条。

垂类大模型用低能力换来的高可靠性，在 Agent 场景里彻底失去了价值——因为 harness 可以解决可靠性问题，但没有任何 harness 能解决能力问题。

## 最后聊聊

你不需要迷信"法律专属 AI"。

"我们用海量法律语料训练"这句话，在两年前是有效承诺，现在越来越像营销话术。垂类大模型卖的是可靠性，但可靠性已经不是稀缺品了，任何构建良好的 harness 都可以做到。

真正的稀缺品，是底层模型的能力。

你真正需要问的是：这个系统底层用的是什么模型？它的推理能力上限在哪里？它的 harness 是怎么设计的？

一个以通用旗舰模型（Claude、GPT、GLM、Minimax 这类）为核心，配上针对法律场景设计的检索、校验、工具调用机制的系统，才是正确的架构。而不是一个能力受限的垂类模型，加上"它很懂法律"的承诺。

未来的法律 AI 竞争，不会是"谁的模型更懂法律"，会是谁的底层模型能力更强、谁的 harness 设计更好。

垂类大模型，正在从"解决方案"变成"历史阶段"。它是当年那个问题的正确答案，只是现在问题变了。

而能看清楚这件事、选对工具、构建自己工作方式的法律人，才是真正走在前面的那批人。

## 往期回顾

[法律人的AI agent教程 合集](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI0NzUwMDUzMw==&action=getalbum&album_id=4453870239231082497#wechat_redirect)
