用Harness揭秘AI辅助审判丨下篇：谁来监管AI审判

*本文基于互联网公开信息写作，对样本的观察存在滞后性，可能与现实情况不符，仅作探讨。

前两篇用Harness揭秘AI辅助审判丨上篇：深圳的大型试验、用Harness揭秘AI辅助审判丨中篇：审判更公正了吗的结论可以浓缩成一句话：深圳在当时（2025年1月以前）建了一套强大但不完整的AI系统，它提升了效率，但设计上缺少了一个关键的对抗性角色，这使它有可能在法官不自知的情况下系统性放大偏见。

没看的朋友可以补补课。

这篇讨论三件事：这个设计缺陷是孤立的还是普遍的，它能不能从工程层面修复，以及谁来承担修复的责任。

最后讨论律师的位置：在这套系统已经运行的现实里，你能做什么，应该想什么。

深圳不是孤例，但走得最深

在深圳系统上线之前，中国已经有三套不同的数字法院建设路径在运行。研究者庞闻淙和孙凯专门调研了上海、苏州和深圳三地的建设模式，把它们提炼为三种不同的Harness架构。

上海模式，叫做"纠错式"。

上海数字法院的核心逻辑是用数据碰撞发现错误，而不是生成裁判内容。它依托海量司法大数据平台，对案件处理中涉及的程序性和实体性问题进行自动检查和提示。

典型功能：当事人死亡或企业注销时，信息自动同步至审判管理系统，给法官弹出提示，避免因主体资格变化导致程序瑕疵；对判决书中的时间、金额、当事人姓名进行自动校准。2023年开启数字法院建设以来，已集中形成大数据平台、研发模型平台、三大平台体系，涵盖数助办案、数助监督、数助便民、数助政务、数助治理五大板块。

从Harness视角看：AI的Generator不进入裁判推理，只在推理之外做数据核查。这是介入最浅的模式，风险最低，但效率增益也相对有限，它解决不了核心的人案矛盾，只是减少了程序性错误。

苏州模式，叫做"要素式"。

苏州市两级法院依托无纸化办案流程，以智能辅助阅卷和法律文书辅助生成为重点，打造了生成式AI辅助办案系统。所谓"要素式"，是指以生成式AI为引擎，以类案裁判要点、裁判规则指引为业务规范，将案件审理过程中形成的起诉状、答辩状、庭审笔录等海量司法数据解构成法律要素，整理形成针对个案的争议焦点和裁判要点，并按照业务规则从中抓取所需法律要素。法官可以根据个性化需求指令智能助手辅助生成结构化的裁判文书，也可以由智能助手列明案件要点及争议事项，供法官参考后用以文书撰写。

技术上，苏州模式受制于OCR识别精度，对庭审材料有较高的形式要求，且要素抓取依赖于系统内表单填写的质量，这意味着法官或工作人员需要花大量时间填写前置表单，才能换取相对准确的推送结果，在案多人少的现实下这是一笔不小的时间成本。

从Harness视角看：苏州的Generator触碰了文书生成，但更多是在已有要素基础上组装，而非从裁判推理本身出发生成论证。介入深度介于上海和深圳之间。

深圳模式，叫做"辅助式"。

覆盖立案到执行的全业务流程，核心是AI直接生成裁判推理。上篇已经详细描述，不再重复。从Harness视角看：Generator直接进入"本院认为"，是三种模式中介入最深的。

三地数字法院模式：Harness介入深度比较

三种模式代表了不同的风险收益权衡。介入越深，效率收益越大，但Generator缺少Evaluator的设计问题也越集中。上海模式几乎没有这个问题，苏州模式有但程度较轻，深圳模式最突出。

深圳的模式被定位为"样板"向全国推广，这意味着如果当时（2025年1月以前）的设计缺陷不被正视，它可能将随着复制扩散而放大。

"辅助"的边界：法律说得清，实践说不清

最高法《关于规范和加强人工智能司法应用的意见》的表述是清晰的：数字技术在司法领域的应用必须以辅助审判为原则，裁判权始终由审判组织行使，裁判责任由审判者承担。

"辅助"的边界扩张轨迹

原则是清晰的。边界是模糊的。

"辅助"这个词在技术驱动下一直在扩张：

以往的辅助：填表、日程提示、送达通知、利息计算，纯粹的事务性替代，AI做的是机械劳动
现在的辅助：生成裁判推理、提供法律论证，实质性介入，AI在做智识性工作
未来可能的辅助：自动形成裁判建议、预测量刑区间、评估证人陈述的一致性？

学者庞闻淙把这个现象称为"功能延伸困惑"：在技术革新不断的新时代，"辅助"的外延一直在不断地拓展，或许以往司法的数字化仅仅体现在智能抓取信息回填表单、提示庭审日程安排等事务性的日常工作内容中，然而在新技术赋能下，诸如由数字技术实现判决书的草拟、判决意见的指南等涉及实体化的处理，存在突破"辅助"、实质上影响审判组织依法独立决策的风险。

在深圳系统的实际运作中，AI生成的裁判理由往往构成判决书的主体框架，法官的工作是在AI文本基础上增删修改，而不是从空白页面写起。当AI的文字已经成为判决书的主要内容，当法官修改的部分只是补充细节和调整措辞，主辅之间的地位，在实践中是否已经发生了某种程度的颠倒？

这个问题，在现有制度框架下没有人有权力正式追问，但它是真实存在的。

当前建设中存在的三类真实问题

除了中篇集中讨论的偏见风险，三种数字法院建设模式还各自面临更基础的困境。

数字法院建设的三类真实问题

第一类：技术条件的限制。

上海模式依赖关键字抓取技术，推送信息的精准度取决于关键字匹配质量，仍需大量人工筛查核实，生成式AI辅助办案仅适用于部分案由。苏州模式受制于OCR识别技术的精准度，对庭审材料有较高的形式要求，且系统对案件相关要素的抓取依赖于系统内表单的填写质量，导致办案法官或当事人需要花费大量时间完成前置表单的填写，技术普适性受限。深圳模式中，各个平台（办案平台、执行平台）数据并非天然联通，若要获取相对准确的推送信息，需要法官在不同平台中反复填写信息，自动化程度有待提高。

第二类：数据壁垒带来的信息噪声。

所有三种模式都面临相同的根本性数据问题。数字法院的基座是海量司法大数据，但在实践中存在两方面阻滞：

一是缺乏共治共享的数据协同治理体系。自然人主体的信息通常由GA部门保管，企业及营利性组织的登记信息由工商部门管理，两者分属平行的主管部门，各部门与法院之间缺乏畅通的实时数据共享渠道，导致算法难以得到高质量数据，自动化效果受限。

二是数据前端建设不充分。裁判文书的体例、用语等在全国范围内尚未形成统一的范式，且囿于隐私保护、文书质量、效率等因素，可供模型学习的高质量样本始终有限，导致相关模型对案件的辅助决策、裁判文书辅助生成等存在潜在的差错和偏倚风险。

信息噪声的具体影响：AI推送的决策参考并非全部准确有用，法官需要额外精力甄别，但案多人少的现实决定了这种甄别很难充分，在高认知负担下，"先用着再说"是最自然的选择，而这恰恰是偏见回声得以渗透的路径。

第三类：裁判文书的公开透明出现新缺口。

传统司法公开的核心有三个层面：裁判结果公开、裁判理由公开、证据认定过程公开。AI介入后，这三个层面都出现了新问题。

这份公开的裁判理由，有多少来自AI，有多少来自法官的独立判断？法官对AI初稿作了哪些修改，修改方向是什么？AI在生成时依赖了哪些类案和法条，这些来源是否准确？

这些问题的答案，当事人、律师、上诉法院，都无法从现有文书中获得。深圳至今没有公开AI辅助判决的比例，研究者也特别指出这一点。判决书上没有任何标注表明哪些内容由AI生成，系统似乎在有意回避这个透明度问题，深圳法院的官方报道反复强调"充分尊重法官主体地位"，但这是宣传表述，不是技术规范，也不是信息披露。

工程层面的修复方案：补上缺失的Evaluator

中篇已经指出，偏见回声的根源是Harness设计缺失Evaluator。这个问题在工程层面有清晰的解法，Anthropic在AI编程领域已经验证了这种双角色架构的有效性。

把Generator-Evaluator的思路迁移到司法场景，完整的Harness应该是这样：

第一层：法官独立认定事实，对每个争议焦点作出初步裁决。这一层不变，法官的决策主导权不受影响。

第二层：Generator AI基于法官的裁决方向，生成支持该裁决的裁判理由。这一层也不变，保留现有系统的效率价值。

第三层：Evaluator AI基于同样的案件事实，独立生成反驳该裁决的最强论点。它的角色设定是：扮演这个案件中最有力的对方论点，从法律和事实两个维度，为法官呈现他最可能忽视的反方论据。

第四层：法官同时阅读Generator的支持性推理和Evaluator的反对性论点，在这两套材料都面前之后，作出最终裁决和定稿理由。

这个设计的价值在于：它强迫法官在作出最终决定前，直面最有力的反方论据。它从流程设计层面重建了传统"写不下去"机制的功能，不是通过让法官亲自写理由，而是通过让AI主动呈现法官可能放过的反证，触发再一次的认知审视。

工程修复方案：从2层到4层Harness

Evaluator的设计有几个不可妥协的原则：

独立性：Evaluator必须与Generator完全独立，不能共享权重参数，不能相互影响。如果Evaluator知道Generator写了什么，它会不自觉地在Generator框架内批评，而不是真正独立地寻找反证。

有力性：Evaluator生成的内容必须尽可能有力，形式化的、无关痛痒的反对意见等于没有Evaluator 。弱Evaluator不能触发法官的认知审视，只会给系统增加一个看起来平衡但实际无效的步骤。

结构化输出：在实际操作中，Evaluator的输出不必是完整的说理文字，可以是结构化的简洁格式，比如"三条最强反对理由"，每条附上支持性证据或法条出处。这在保持效率的同时，为法官提供了真正需要应对的反方压力。

不干预最终决权：法官可以在读完双方论点后，维持自己的初步判断不变。 Evaluator的作用是提供信息，不是约束决定。改变的只是信息结构：法官不再只看到一面，而是看到两面，然后作出决定。

Evaluator的四个不可妥协原则

有人会担心效率损耗，法官需要阅读更多内容，在高案件量下是额外负担。这个担忧是真实的，但可以通过设计来管理：对于定罪和量刑这些高风险决策强制要求双Agent输出，对于程序性、事务性决策则豁免，不要一刀切。

更重要的是比例问题：量刑偏差的实验数据显示，在AI辅助下，法外因素可能导致被告多被判处约7个月。对于一个人来说，7个月不是效率问题，是自由问题。在这个利益权衡下，多读几条反对意见是完全合理的时间投入。

制度层面需要回答的三个问题

制度层面三个未解问题

工程架构是一部分，制度框架是另一部分。以下三个层面，目前在制度上都没有清晰的答案。

第一个问题：Harness设计的标准由谁来规范？

目前各地法院自行设计Harness，深圳有深圳的架构，苏州有苏州的要素式，上海有上海的纠错式，功能和深度各不相同。这意味着Generator介入裁判的深度、是否有Evaluator、信息如何传递，都是各地自行决定的，本质上这是在用行政意志代替工程规范。

最高法或许应当统一规定司法AI Harness的基本架构要求。核心要求至少应包括：凡是涉及裁判推理生成的系统（Generator功能），必须同时包含独立的Evaluator机制；禁止设计为只有单向支持性Generator的架构。这不是限制AI能力，而是把工程设计的底线写进制度。就像药物上市需要通过临床试验，医疗器械需要符合使用规范，介入裁判核心的AI系统，理应有对应的架构规范要求。

第二个问题：算法如何接受外部审查？

算法沙盒（Algorithm Sandbox）是目前被讨论较多的制度工具，概念来源于欧盟《人工智能法案》。

算法沙盒的核心理念是：AI系统在正式上线前，需要在具备隔离环境的沙盒中进行基于安全性、透明度等多个维度标准的测试运行，以保障算法风险的最小化。在应用层面，需要排除因种族、宗教等要素对算法产生偏见性与歧视性影响；一旦产生算法偏见或歧视的风险，须具备可操作性的手段及时进行修正；在审查层面，要求各方主体共同参与、共同治理，对算法从可操作性、伦理性、专业性等方面进行多维度审查；在维护优化方面，也需要存在定期、常态化的操作方案，以确保算法能稳定有效地运行。

算法沙盒制度：上线前的强制审查流程

迁移到司法AI场景，可以建立由办案法官、律师、法学学者和信息技术专家组成的多领域专家算法审查机构，针对数字法院智能化应用过程中形成的算法产品进行专业性、伦理性等多方面审查。对于算法的源代码、数据库和程序逻辑等，可依据其秘密程度、信息用途建立分级分类管理体系，并对训练数据进行来源标注和溯源披露处理。

第三个问题：当事人的知情权怎么保障？

Anthropic的Harness Engineering中有一个概念：structured handoff artifacts（结构化移交记录）。这是工程可靠性的基本要求，知道每个环节发生了什么，才能在出错时定位问题，才能持续改进。

对应到司法场景，这个概念的意义超出了工程范畴，进入了正当程序（due process）的领域：

系统应强制记录并可供调阅的内容包括：法官给AI的初始指令（对争议焦点的裁决方向）；Generator生成的原始推理文本（修改前）；Evaluator生成的反对方论点文本（如果有）；法官的最终修改记录（修改前后的对比）。

结构化移交记录：每层记录什么，谁能查阅

这些记录不必全部对外公开，但应在上诉程序中可供上级法院调阅，作为审查一审裁判质量的参考材料。当事人及其律师可申请查阅AI使用比例和修改摘要，以判断AI介入是否对裁判结果产生了实质性影响。

这三个问题，没有任何一个在现有制度框架内有清晰的答案。

数据治理：信息孤岛问题需要系统性解决

除了架构和制度问题，数据质量是数字法院建设的根本性制约，值得单独说清楚。

2024年2月27日，人民法院案例库正式上线，设置了明确的入库标准与编写格式，对司法案例的分类标准与检索规则进行了细化，为数字法院提供了目前质量最高的司法数据资源来源。这是一个重要的基础设施进步。

但当前系统的案例信息呈现仍较单一：使用者检索时仅能获取个案关联的法律法规，而类案检索、同类裁判规则下其他案例的结果等核心需求，缺乏便捷查询路径。这不仅削弱了案例库的实用价值，也限制了其作为数字法院底层数据资源的潜力。

从技术层面，区块链技术在司法领域已有一定应用（如哈希指纹、云存证等），未来可以在更大范围内推动区块链技术的司法应用，以提升数据的可信度和互操作性：统一各司法平台之间的数据格式和语言标准，做到"一次录入、全局共享"；统一API接口的数据标准，提升各平台数据兼容性；建立跨链协议，确保公检法三机关之间，以及法院与税务、工商、公安等行政部门之间的数据沟通畅通，打破信息孤岛，保证监督效能。

律师在这套系统里的位置

律师就是系统里缺失的Evaluator

说到这里，有一个定位问题需要说清楚，因为它关系到律师在AI时代的职业价值如何理解。

在当前单Generator架构的法院AI系统中，整套Harness没有内置Evaluator。但司法制度本身并非没有Evaluator，辩护律师在庭上的角色，从Harness Engineering的视角看，本质上就是那个缺失的Evaluator。

你是唯一被司法制度明确授权、提出反方最强论点的声音。你有义务呈现法官可能没有考虑到的反证，有义务质疑控方论证中的逻辑漏洞，有义务为你的当事人争取那些在单Generator系统中会被自动忽略的有利因素。

AI让法官的支持性论证更严密、更规范、更有逻辑感，这是真实的技术进步。但这意味着律师的对抗性工作比以往更重要，不是更不重要。Generator越强，Evaluator的价值就越高，没有强有力的Evaluator，一个强大的Generator只是一台把偏见包装得更精美的机器。

三篇系列完整逻辑链

至于律所怎么应对，诸位可以看看中篇用Harness揭秘AI辅助审判丨中篇：审判更公正了吗。

结语

Anthropic发展Harness Engineering的初衷，是让AI在处理长期复杂任务时不跑偏、不失控。司法AI面临的核心问题一模一样：如何在复杂案件的审理过程中，让AI不帮助法官的初步偏见跑偏。

工程层面的解法已经存在，Anthropic自己的研究已经证明双角色架构有效，这不是假设，是可以实施的方案。缺的不是技术，而是把Generator-Evaluator架构要求写进司法AI制度规范的意志，和把算法治理要求写进法律的勇气。

让我们回到那句"未来已来"。未来确实来了。但未来可能不等于正确，速度可能不等于方向，效率可能不等于公正。

这套系统现在覆盖的是民商事案件，2025年将扩展到刑事。到那时，AI将参与对一个人是否构成犯罪、应当被判多少年的决定。它不会署名，不会出庭，不会承担任何责任，但它的输出会实质性地影响裁判结果。

这是律师需要比法官更早理解的事情，因为你是这套系统里唯一被制度允许充当Evaluator的角色。

参考来源

John Zhuang Liu & Xueyao Li, How do judges use large language models? Evidence from Shenzhen , Journal of Legal Analysis, 2025, Vol.16, pp.235–259. DOI: 10.1093/jla/laae009
庞闻淙、孙凯：《面向未来：数字法院智能化应用路径的再优化——以上海、苏州、深圳的建设模式为样本》，载《法治实践》2024年。
何奎：《在深圳，智赋未来》，人民法院报，2024年8月29日第001版。
Anthropic Engineering: Effective Harnesses for Long-Running Agents ; Harness Design for Long-Running Application Development . anthropic.com/engineering, 2025–2026.
European Parliament and of the Council: Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence (Artificial Intelligence Act) . Official Journal of the European Union, 2024.

如果你想学适合法律人的AI，我创建了一个知识星球，如果你想加入可以直接咨询我微信： Law-AI 。

加入星球你将获得：

法律案例检索福利（建设中）；

如何理解 AI 产业带来的法律蓝海业务；如何搭建属于自己的提效 AI Agent 和工作流；

法律人如何用 AI 提升检索、写作、分析和办案效率；

如何用 AI 运营自媒体、打造个人 IP、获取更多专业机会。

往期相关内容回顾

法律人的AI agent教程合集

法律人学Claude｜第一期：桌面版已经很好用了，为什么我还是力推 VSCode 插件版？

法律人学Claude｜第二期：半小时装好 VSCode + Claude Code

法律人学Claude｜第四期：你的项目助理—CLAUDE.md使用指南

法律人学Claude｜第九期：给自己定制一个审合同Skill——Skill详解

法律人学Claude｜第十四期：法律检索报告实战

法律人学Claude｜第二十期：学习AI的顶级心法

我创建了法律人的AI社群，每天大家讨论AI，一起进步成长。

如果想要加群，可以在公众号主页找到我的联系方式和过渡交流群加进来。