*本文基于互联网公开信息写作,对 样本的 观察存在滞后性,可能与现实情况不符,仅作探讨。
前两篇 用Harness揭秘AI辅助审判丨上篇:深圳的大型试验 、 用Harness揭秘AI辅助审判丨中篇:审判更公正了吗 的结论可以浓缩成一句话: 深圳在当时(2025年1月以前)建了一套强大但不完整的AI系统,它提升了效率,但设计上缺少了一个关键的对抗性角色,这使它有可能在法官不自知的情况下系统性放大偏见。
没看的朋友可以补补课。
这篇讨论三件事:这个设计缺陷是孤立的还是普遍的,它能不能从工程层面修复,以及谁来承担修复的责任。
最后讨论律师的位置:在这套系统已经运行的现实里,你能做什么,应该想什么。
深圳不是孤例,但走得最深
在深圳系统上线之前,中国已经有三套不同的数字法院建设路径在运行。研究者庞闻淙和孙凯专门调研了上海、苏州和深圳三地的建设模式,把它们提炼为三种不同的Harness架构。
上海模式,叫做"纠错式"。
上海数字法院的核心逻辑是 用数据碰撞发现错误,而不是生成裁判内容 。它依托海量司法大数据平台,对案件处理中涉及的程序性和实体性问题进行自动检查和提示。
典型功能:当事人死亡或企业注销时,信息自动同步至审判管理系统,给法官弹出提示,避免因主体资格变化导致程序瑕疵;对判决书中的时间、金额、当事人姓名进行自动校准。2023年开启数字法院建设以来,已集中形成大数据平台、研发模型平台、三大平台体系,涵盖数助办案、数助监督、数助便民、数助政务、数助治理五大板块。
从Harness视角看:AI的Generator不进入裁判推理,只在推理之外做数据核查。 这是介入最浅的模式,风险最低,但效率增益也相对有限,它解决不了核心的人案矛盾,只是减少了程序性错误。
苏州模式,叫做"要素式"。
苏州市两级法院依托无纸化办案流程,以智能辅助阅卷和法律文书辅助生成为重点,打造了生成式AI辅助办案系统。所谓"要素式",是指以生成式AI为引擎,以类案裁判要点、裁判规则指引为业务规范,将案件审理过程中形成的起诉状、答辩状、庭审笔录等海量司法数据解构成法律要素,整理形成针对个案的争议焦点和裁判要点,并 按照业务规则从中抓取所需法律要素 。法官可以根据个性化需求指令智能助手辅助生成结构化的裁判文书,也可以由智能助手列明案件要点及争议事项,供法官参考后用以文书撰写。
技术上,苏州模式受制于OCR识别精度,对庭审材料有较高的形式要求,且要素抓取依赖于系统内表单填写的质量,这意味着法官或工作人员 需要花大量时间填写前置表单,才能换取相对准确的推送结果, 在案多人少的现实下这是一笔不小的时间成本。
从Harness视角看:苏州的Generator触碰了文书生成,但更多是在已有要素基础上组装,而非从裁判推理本身出发生成论证。介入深度介于上海和深圳之间。
深圳模式,叫做"辅助式"。
覆盖立案到执行的全业务流程,核心是AI直接生成裁判推理。上篇已经详细描述,不再重复。从Harness视角看:Generator直接进入"本院认为",是三种模式中介入最深的。
三种模式代表了不同的风险收益权衡。介入越深,效率收益越大,但Generator缺少Evaluator的设计问题也越集中。上海模式几乎没有这个问题,苏州模式有但程度较轻,深圳模式最突出。
深圳的模式被定位为"样板"向全国推广,这意味着如果当时(2025年1月以前)的设计缺陷不被正视,它可能将随着复制扩散而放大。
"辅助"的边界:法律说得清,实践说不清
最高法《关于规范和加强人工智能司法应用的意见》的表述是清晰的:数字技术在司法领域的应用必须以辅助审判为原则,裁判权始终由审判组织行使,裁判责任由审判者承担。
原则是清晰的。边界是模糊的。
"辅助"这个词在技术驱动下一直在扩张:
以往的辅助: 填表、日程提示、送达通知、利息计算,纯粹的事务性替代,AI做的是机械劳动
现在的辅助: 生成裁判推理、提供法律论证,实质性介入,AI在做智识性工作
未来可能的辅助: 自动形成裁判建议、预测量刑区间、评估证人陈述的一致性?
学者庞闻淙把这个现象称为"功能延伸困惑":在技术革新不断的新时代,"辅助"的外延一直在不断地拓展,或许以往司法的数字化仅仅体现在智能抓取信息回填表单、提示庭审日程安排等事务性的日常工作内容中,然而在新技术赋能下,诸如由数字技术实现判决书的草拟、判决意见的指南等涉及实体化的处理,存在突破"辅助"、实质上影响审判组织依法独立决策的风险。
在深圳系统的实际运作中,AI生成的裁判理由往往构成判决书的主体框架,法官的工作是在AI文本基础上增删修改,而不是从空白页面写起。当AI的文字已经成为判决书的主要内容,当法官修改的部分只是补充细节和调整措辞,主辅之间的地位,在实践中是否已经发生了某种程度的颠倒?
这个问题,在现有制度框架下没有人有权力正式追问,但它是真实存在的。
当前建设中存在的三类真实问题
除了中篇集中讨论的偏见风险,三种数字法院建设模式还各自面临更基础的困境。
第一类:技术条件的限制。
上海模式依赖关键字抓取技术,推送信息的精准度取决于关键字匹配质量,仍需大量人工筛查核实,生成式AI辅助办案仅适用于部分案由。苏州模式受制于OCR识别技术的精准度,对庭审材料有较高的形式要求,且系统对案件相关要素的抓取依赖于系统内表单的填写质量,导致办案法官或当事人需要花费大量时间完成前置表单的填写,技术普适性受限。深圳模式中,各个平台(办案平台、执行平台)数据并非天然联通, 若要获取相对准确的推送信息,需要法官在不同平台中反复填写信息,自动化程度有待提高。
第二类:数据壁垒带来的信息噪声。
所有三种模式都面临相同的根本性数据问题。数字法院的基座是海量司法大数据,但在实践中存在两方面阻滞:
一是缺乏共治共享的数据协同治理体系。自然人主体的信息通常由GA部门保管,企业及营利性组织的登记信息由工商部门管理,两者分属平行的主管部门,各部门与法院之间缺乏畅通的实时数据共享渠道,导致 算法难以得到高质量数据,自动化效果受限 。
二是数据前端建设不充分。裁判文书的体例、用语等在全国范围内尚未形成统一的范式,且囿于隐私保护、文书质量、效率等因素, 可供模型学习的高质量样本始终有限 ,导致相关模型对案件的辅助决策、裁判文书辅助生成等存在潜在的差错和偏倚风险。
信息噪声的具体影响:AI推送的决策参考并非全部准确有用,法官需要额外精力甄别,但案多人少的现实决定了这种甄别很难充分, 在高认知负担下,"先用着再说"是最自然的选择,而这恰恰是偏见回声得以渗透的路径。
第三类:裁判文书的公开透明出现新缺口。
传统司法公开的核心有三个层面:裁判结果公开、裁判理由公开、证据认定过程公开。AI介入后,这三个层面都出现了新问题。
这份公开的裁判理由,有多少来自AI,有多少来自法官的独立判断?法官对AI初稿作了哪些修改,修改方向是什么?AI在生成时依赖了哪些类案和法条,这些来源是否准确?
这些问题的答案,当事人、律师、上诉法院,都无法从现有文书中获得。深圳至今没有公开AI辅助判决的比例,研究者也特别指出这一点。判决书上没有任何标注表明哪些内容由AI生成,系统似乎在有意回避这个透明度问题,深圳法院的官方报道反复强调"充分尊重法官主体地位",但这是宣传表述,不是技术规范,也不是信息披露。
工程层面的修复方案:补上缺失的Evaluator
中篇已经指出,偏见回声的根源是Harness设计缺失Evaluator。这个问题在工程层面有清晰的解法,Anthropic在AI编程领域已经验证了这种双角色架构的有效性。
把Generator-Evaluator的思路迁移到司法场景,完整的Harness应该是这样:
第一层 :法官独立认定事实,对每个争议焦点作出初步裁决。这一层不变,法官的决策主导权不受影响。
第二层 :Generator AI基于法官的裁决方向,生成支持该裁决的裁判理由。这一层也不变,保留现有系统的效率价值。
第三层 :Evaluator AI基于同样的案件事实, 独立生成反驳该裁决的最强论点 。它的角色设定是:扮演这个案件中最有力的对方论点,从法律和事实两个维度,为法官呈现他最可能忽视的反方论据。
第四层 :法官 同时阅读Generator的支持性推理和Evaluator的反对性论点 ,在这两套材料都面前之后,作出最终裁决和定稿理由。
这个设计的价值在于: 它强迫法官在作出最终决定前,直面最有力的反方论据 。它从流程设计层面重建了传统"写不下去"机制的功能,不是通过让法官亲自写理由,而是通过让AI主动呈现法官可能放过的反证,触发再一次的认知审视。
Evaluator的设计有几个不可妥协的原则:
独立性 :Evaluator必须与Generator完全独立, 不能共享权重参数,不能相互影响 。如果Evaluator知道Generator写了什么,它会不自觉地在Generator框架内批评,而不是真正独立地寻找反证。
有力性 :Evaluator生成的内容 必须尽可能有力,形式化的、无关痛痒的反对意见等于没有Evaluator 。弱Evaluator不能触发法官的认知审视,只会给系统增加一个看起来平衡但实际无效的步骤。
结构化输出 :在实际操作中,Evaluator的输出不必是完整的说理文字,可以是结构化的简洁格式,比如"三条最强反对理由",每条附上支持性证据或法条出处。这在保持效率的同时,为法官提供了真正需要应对的反方压力。
不干预最终决权 :法官可以在读完双方论点后,维持自己的初步判断不变。 Evaluator的作用是提供信息,不是约束决定。改变的只是信息结构 :法官不再只看到一面,而是看到两面,然后作出决定。
有人会担心效率损耗,法官需要阅读更多内容,在高案件量下是额外负担。这个担忧是真实的,但可以通过设计来管理:对于定罪和量刑这些高风险决策强制要求双Agent输出,对于程序性、事务性决策则豁免,不要一刀切。
更重要的是比例问题:量刑偏差的实验数据显示,在AI辅助下,法外因素可能导致被告多被判处约7个月。对于一个人来说,7个月不是效率问题,是自由问题。在这个利益权衡下,多读几条反对意见是完全合理的时间投入。
制度层面需要回答的三个问题
工程架构是一部分,制度框架是另一部分。以下三个层面,目前在制度上都没有清晰的答案。
第一个问题:Harness设计的标准由谁来规范?
目前各地法院自行设计Harness,深圳有深圳的架构,苏州有苏州的要素式,上海有上海的纠错式,功能和深度各不相同。这意味着Generator介入裁判的深度、是否有Evaluator、信息如何传递,都是各地自行决定的,本质上这是在用行政意志代替工程规范。
最高法或许应当统一规定司法AI Harness的基本架构要求。核心要求至少应包括:凡是涉及裁判推理生成的系统(Generator功能),必须同时包含独立的Evaluator机制;禁止设计为只有单向支持性Generator的架构。这不是限制AI能力,而是把工程设计的底线写进制度。就像药物上市需要通过临床试验,医疗器械需要符合使用规范,介入裁判核心的AI系统,理应有对应的架构规范要求。
第二个问题:算法如何接受外部审查?
算法沙盒(Algorithm Sandbox)是目前被讨论较多的制度工具,概念来源于欧盟《人工智能法案》。
算法沙盒的核心理念是:AI系统在正式上线前,需要在具备隔离环境的沙盒中进行基于安全性、透明度等多个维度标准的测试运行,以保障算法风险的最小化。在应用层面,需要排除因种族、宗教等要素对算法产生偏见性与歧视性影响;一旦产生算法偏见或歧视的风险,须具备可操作性的手段及时进行修正;在审查层面,要求各方主体共同参与、共同治理,对算法从可操作性、伦理性、专业性等方面进行多维度审查;在维护优化方面,也需要存在定期、常态化的操作方案,以确保算法能稳定有效地运行。
迁移到司法AI场景,可以建立由办案法官、律师、法学学者和信息技术专家组成的多领域专家算法审查机构,针对数字法院智能化应用过程中形成的算法产品进行专业性、伦理性等多方面审查。对于算法的源代码、数据库和程序逻辑等,可依据其秘密程度、信息用途建立分级分类管理体系,并对训练数据进行来源标注和溯源披露处理。
第三个问题:当事人的知情权怎么保障?
Anthropic的Harness Engineering中有一个概念:structured handoff artifacts(结构化移交记录)。这是工程可靠性的基本要求,知道每个环节发生了什么,才能在出错时定位问题,才能持续改进。
对应到司法场景,这个概念的意义超出了工程范畴,进入了正当程序(due process)的领域:
系统应强制记录并可供调阅的内容包括:法官给AI的初始指令(对争议焦点的裁决方向);Generator生成的原始推理文本(修改前);Evaluator生成的反对方论点文本(如果有);法官的最终修改记录(修改前后的对比)。
这些记录不必全部对外公开,但应在上诉程序中可供上级法院调阅,作为审查一审裁判质量的参考材料。当事人及其律师可申请查阅AI使用比例和修改摘要,以判断AI介入是否对裁判结果产生了实质性影响。
这三个问题,没有任何一个在现有制度框架内有清晰的答案。
数据治理:信息孤岛问题需要系统性解决
除了架构和制度问题,数据质量是数字法院建设的根本性制约,值得单独说清楚。
2024年2月27日,人民法院案例库正式上线,设置了明确的入库标准与编写格式,对司法案例的分类标准与检索规则进行了细化,为数字法院提供了目前质量最高的司法数据资源来源。这是一个重要的基础设施进步。
但当前系统的案例信息呈现仍较单一:使用者检索时仅能获取个案关联的法律法规,而类案检索、同类裁判规则下其他案例的结果等核心需求,缺乏便捷查询路径。这不仅削弱了案例库的实用价值,也限制了其作为数字法院底层数据资源的潜力。
从技术层面,区块链技术在司法领域已有一定应用(如哈希指纹、云存证等),未来可以在更大范围内推动区块链技术的司法应用,以提升数据的可信度和互操作性:统一各司法平台之间的数据格式和语言标准,做到"一次录入、全局共享";统一API接口的数据标准,提升各平台数据兼容性;建立跨链协议,确保公检法三机关之间,以及法院与税务、工商、公安等行政部门之间的数据沟通畅通,打破信息孤岛,保证监督效能。
律师在这套系统里的位置
说到这里,有一个定位问题需要说清楚,因为它关系到律师在AI时代的职业价值如何理解。
在当前单Generator架构的法院AI系统中,整套Harness没有内置Evaluator。但司法制度本身并非没有Evaluator, 辩护律师在庭上的角色,从Harness Engineering的视角看,本质上就是那个缺失的Evaluator。
你是唯一被司法制度明确授权、提出反方最强论点的声音。你有义务呈现法官可能没有考虑到的反证,有义务质疑控方论证中的逻辑漏洞,有义务为你的当事人争取那些在单Generator系统中会被自动忽略的有利因素。
AI让法官的支持性论证更严密、更规范、更有逻辑感,这是真实的技术进步。但这意味着律师的对抗性工作比以往更重要,不是更不重要。Generator越强,Evaluator的价值就越高,没有强有力的Evaluator,一个强大的Generator只是一台把偏见包装得更精美的机器。
至于律所怎么应对,诸位可以看看中篇 用Harness揭秘AI辅助审判丨中篇:审判更公正了吗 。
结语
Anthropic发展Harness Engineering的初衷,是让AI在处理长期复杂任务时不跑偏、不失控。司法AI面临的核心问题一模一样: 如何在复杂案件的审理过程中,让AI不帮助法官的初步偏见跑偏。
工程层面的解法已经存在,Anthropic自己的研究已经证明双角色架构有效,这不是假设,是可以实施的方案。缺的不是技术,而是把Generator-Evaluator架构要求写进司法AI制度规范的意志,和把算法治理要求写进法律的勇气。
让我们回到那句"未来已来"。未来确实来了。 但未来可能不等于正确,速度可能不等于方向,效率可能不等于公正。
这套系统现在覆盖的是民商事案件,2025年将扩展到刑事。到那时,AI将参与对一个人是否构成犯罪、应当被判多少年的决定。它不会署名,不会出庭,不会承担任何责任,但它的输出会实质性地影响裁判结果。
这是律师需要比法官更早理解的事情,因为你是这套系统里唯一被制度允许充当Evaluator的角色。
参考来源
John Zhuang Liu & Xueyao Li, How do judges use large language models? Evidence from Shenzhen , Journal of Legal Analysis, 2025, Vol.16, pp.235–259. DOI: 10.1093/jla/laae009
庞闻淙、孙凯:《面向未来:数字法院智能化应用路径的再优化——以上海、苏州、深圳的建设模式为样本》,载《法治实践》2024年。
何奎:《在深圳,智赋未来》,人民法院报,2024年8月29日第001版。
Anthropic Engineering: Effective Harnesses for Long-Running Agents ; Harness Design for Long-Running Application Development . anthropic.com/engineering, 2025–2026.
European Parliament and of the Council: Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence (Artificial Intelligence Act) . Official Journal of the European Union, 2024.
如果你想学适合法律人的AI,我创建了一个知识星球,如果你想加入可以直接咨询我微信: Law-AI 。
加入星球你将获得:
法律案例检索福利(建设中);
如何理解 AI 产业带来的法律蓝海业务; 如何搭建属于自己的提效 AI Agent 和工作流;
法律人如何用 AI 提升检索、写作、分析和办案效率;
如何用 AI 运营自媒体、打造个人 IP、获取更多专业机会。
往期相关内容回顾
法律人学Claude|第一期:桌面版已经很好用了,为什么我还是力推 VSCode 插件版?
法律人学Claude|第二期:半小时装好 VSCode + Claude Code
法律人学Claude|第四期:你的项目助理—CLAUDE.md使用指南
法律人学Claude|第九期:给自己定制一个审合同Skill——Skill详解
我创建了法律人的AI社群,每天大家讨论AI,一起进步成长。
如果想要加群,可以在公众号主页找到我的联系方式和过渡交流群加进来。