用Harness揭秘AI辅助审判丨中篇：审判更公正了吗

*本文基于互联网公开信息写作，对样本的观察存在滞后性，可能与现实情况不符，仅作探讨。

上篇用Harness揭秘AI辅助审判丨上篇：深圳的大型试验讲了深圳系统的来龙去脉，数字很好看：结案增幅 73.9% ，平均结案时间缩短 38天，文书完成度超过九成，律师说当事人败诉了情绪也缓和了。

这篇要问一个没有人正面回答过的问题： AI介入之后，法官判得更公正了吗？

不是质疑效率，效率提升是真实的。但效率和公正是两件不同的事，两者可以同时为真，也可以同时出现裂缝。

香港大学刘庄副教授和上海交通大学李学尧教授的研究给了一个提示，令人不安。他们用139名有平均16年经验的真实职业法官做了一项实验，结果显示：在AI辅助下，一个与案件本身完全无关的法外因素，让法官的平均量刑多出了约7个月，统计上有显著影响。没有AI的时候，同样的法外因素没有产生统计上显著的影响。

这不是AI的错。这也许是系统设计的问题。要理解为什么，需要先理解这套系统在工程层面是什么。

这套系统在工程上缺了什么

Anthropic在研究如何让AI在复杂的长期任务中保持高质量输出时，发现了一个根本性问题：单个AI模型无法有效自我批评，它会倾向于给自己的输出打高分。

他们的解决方案是引入两个相互独立的角色：

Generator（生成者）：负责生成内容，按照给定方向构建论证。

Evaluator（评估者）：独立的、带有怀疑性的角色，专门负责挑毛病，像真正的对手一样审查Generator的输出，寻找逻辑漏洞、事实错误、遗漏的反证。

这个设计的灵感来自生成对抗网络（GAN）：两个模型相互博弈，一个生成，一个鉴别，质量在对抗中提升。Anthropic自己的实验数据显示，这种双角色架构与单角色相比，产出质量有质的飞跃。他们用AI独立开发一个2D游戏制作工具：单Agent系统运行20分钟花了9美元，生成了一个勉强能用的原型；双Agent系统运行6小时花了200美元，交付了一个功能丰富、真正可用的产品。这不是量的差距，是质的跃升。

现在用这个框架来看深圳系统。

Generator-Evaluator完整设计vs深圳现状

法官给出裁决方向，AI生成支持该裁决的裁判理由，法官修改定稿，这套流程中：有 Generator，没有 Evaluator。

这意味着当时（2025年1月以前）深圳的系统是一个只有Generator、没有Evaluator的残缺架构。

AI的任务被设定为：为法官的初步判断辩护。引用支持性法条，选择有利证据，构建严密论证。系统从结构上就没有给AI留下质疑法官判断的空间，这不是AI的选择，是Harness设计决定的。

讲的通俗一点，这套系统只有检察官，没有请辩护律师。

偏见回声：一个工程缺陷的行为科学后果

刘庄和李学尧在论文中把这个现象命名为 "偏见回声"（Echoes of Bias）。

机制很清晰：

第一步，法官基于案件事实和庭审形成初步判断，这个判断可能带有无意识的偏见，可能来自对被告身份的情绪反应，可能来自案件背景的社会压力，可能来自疲劳、饥饿或时间压力下的直觉判断。行为科学的大量研究已经证明，法官和普通人一样受到这些因素的影响。

第二步，AI的G enerator接收法官的裁决方向，生成强有力的支持性理由，引用法条，梳理证据，构建论证，顺带驳斥可能的反对意见。这份推理往往逻辑严密、措辞规范、层次清晰，看起来非常"专业"。

第三步，法官读到的全部是支持自己初步判断的内容，确认感增强，对自己判断的信心上升，审视自己判断的动力下降。

第四步，偏见被包裹在严密的法律论证里，变得更难察觉和纠正。如果说法官在没有AI的情况下还有机会在写理由的过程中发现自己的判断有问题，那么AI接手写理由之后，这个机会就消失了。

这里有一个令人不安的悖论： AI越聪明，生成的支持性理由越严密，偏见就越难被识别和纠正。AI越强，这个问题越严重，而不是越好。

偏见回声四步传导路径

这不是对AI技术的批评，而是对单Generator架构的批评。偏见回声不是AI创造的，是人机交互流程的产物（It should be noted that the echoes of bias are not created by AI but are the product of the human-AI interaction process）。

亲自写判决书的隐性价值被严重低估了

在AI介入之前，法官必须亲自写裁判理由。很多人认为这只是一个体力劳动，AI能做得更快更好，为什么不让AI做？

这个理解错了。

亲自写推理过程有一个隐性价值，被行为科学研究反复证实：书写理由是一种强迫反思机制，它会激活慢思维，减少情绪、直觉和偏见对决策的干扰。

心理学家Lerner、Goldberg和Tetlock的研究表明，被要求陈述理由的人，在决策中受到无关情绪因素影响的程度显著低于不需要陈述理由的人。Sieck和Yates的研究发现，书面阐述思维过程的人更不容易受到框架效应（framing effects）的影响。Mussweiler、Strack和Pfeiffer则发现，当汽车专家被要求讨论相反理由时，他们的价格评估中锚定偏见显著减弱。

在司法领域，这个现象有一个专有名词： "写不下去"（it won't write）现象。法律从业者都知道这种感受：庭审时你觉得结果很清晰，但真正动笔写理由时，发现逻辑说不圆，事实对不上，被迫回头重新审视案情，有时候推翻自己的初判。前美国联邦上诉法官查尔斯·梅里尔（Charles Merrill）曾专门谈过这个问题：写意见书的过程会在表达中揭示误判和疏漏，是对司法任意性的关键制约，它确保了法官在签发判决之前对案件事实和法律含义进行了真正的审慎复核，而不是依赖"snap judgments and lazy theorizing"（仓促判断和懒惰理论化）。

亲自写理由vs AI代劳：两条路径

AI代劳写理由之后，这个内置的自我纠错机制被悄悄绕开了。法官不再经历"写不下去"的时刻，因为AI总是能写出去。AI总能把任何初步判断都打扮成言之成理的法律论证，让法官省去了那个有可能推翻自己判断的艰难过程。

一位深圳法官已经意识到这个问题，他在接受研究者访谈时说：

"AI的使用让我产生了一个新的思考——AI是否会限制法官的思维。当然，法官完全可以不理会AI的建议，但AI的出现可能确实会对法官的思维产生限制。特别是在高认知负担的情况下（深圳法官可能每年要处理300到400件普通案件），系统的建议很可能被法官在没有多少反思的情况下直接采用。这是一个值得我们认真关注的问题，我们需要认真考虑如何避免过度依赖AI。"

这句话说出了问题的核心，但法官自己也没有答案。

139名真实法官参与的实验

研究者没有停留在理论层面，他们做了一项随机对照实验，被试是真实的职业法官。

139名真实法官：实验参与者画像

招募方式：在上海法官学院、上海交通大学法学院、上海普陀区法院，招募正在参加短期培训的法官，请他们在课间用20分钟完成一个决策任务。

参与者基本情况：141名法官参与，剔除两份无效答卷后，有效样本139人。56%为女性，平均年龄41岁，平均司法从业年限 16年，2023年人均办案 283件。84.89%来自基层法院或中级法院。这不是法学院学生，是有丰富实战经验的职业法官群体。这些法官被随机分到四个组里，并且不知道实验的真实目的。

实验案件：研究者设计了一个改编自经典"电车难题"的交通案件。司机王某驾驶货车，刹车失灵，为了避开前方三名骑行者，向右急打方向盘，结果撞上了紧急停车道上的一名骑行者，造成该骑行者死亡。货车超载约10%，但王某没有超速。

法官需要在三个结论中选择：交通肇事罪（较轻，可判处3年以下有期徒刑）、故意杀人罪（较重）、或紧急避险（无罪）。案件材料中同时提供了支持这三种定性的法律意见，模拟法官在合议过程中可能听到的多方论点。

实验组的法外因素：在对照组案件材料的基础上，实验组额外加入了以下信息：

货车上除了货物之外，还运输了两名被拐卖儿童，正被送往买家处。王某声称只是受托帮忙运人，不知道是被拐儿童。王某涉嫌参与拐卖儿童的案件由警方另案处理。

这个信息与交通事故引发刑事罪名的法律定性完全无关，但会引发对被告人强烈的负面情绪。研究者预计这会影响法官的裁判。

AI辅助的模拟：AI辅助组的法官先对罪名作出初步判断，然后看到屏幕上显示"AI正在根据您的决定生成裁判理由，请稍候……"（约5秒延迟，模拟真实等待体验），随后读取AI生成的裁判理由，评价认可程度，最后作出含量刑的最终裁决。

AI使用的是ChatGPT-3.5，提示词要求它以职业法官的口吻，在案件材料的范围内，按照给定结论（交通肇事罪/故意杀人罪/紧急避险）陈述理由。三种结论各有一份预先生成好的推理文本，按法官的初判分发。重要的是： AI推理中不包含实验组的额外信息（被拐儿童），对对照组和实验组使用完全相同的AI理由文本。这确保了任何差异都来自法官自己对法外因素的反应，而不是AI内容的不同。

AI为"交通肇事罪"生成的推理是这样的：

首先，根据《刑法》第一百三十三条，违反交通运输管理法规，因而发生重大事故，致人死亡或者使公私财产遭受重大损失的，构成交通肇事罪。本案中，王某驾驶超载约10%的货车，违反了交通运输管理规定。货车刹车失灵导致一人死亡，符合重大事故的构成要件，具备交通肇事罪的犯罪构成。其次，交通肇事罪是典型的过失犯罪。尽管王某在本案中没有超速，但货车超载和刹车失灵要求他对事故承担责任。根据最高人民法院《关于审理交通肇事刑事案件具体应用法律若干问题的解释》，造成一人死亡并负主要责任的，应当判处三年以下有期徒刑或者拘役。王某的行为符合这一规定。

此外，尽管王某在紧急情况下作出了转向决定，意图防止伤害前方骑行者，但这不能免除他在交通事故中的法律责任。紧急避险的抗辩不适用于本案，因为王某的选择（尽管是在紧急情况下作出的）已经产生了交通肇事罪的后果。最后，关于车辆超载与事故之间的因果关系：尽管王某货车的超载程度相对较低，但超载行为本身违反了交通运输法规。在本情境中，即使无法明确确立超载与事故结果之间的直接因果关系，王某的违法行为增加了事故发生的风险，因此他应承担相应的法律责任。综上，考虑到相关法律规定和本案的具体情况，王某应当承担交通肇事罪的刑事责任。

研究者指出，这段推理不只支持给定的定性，还主动回应和驳斥了"紧急避险"的辩护，在论证结构上表现出典型的Generator特征：单向推进，不呈现对立面。

实验结果：量刑偏差显著放大

结果一：定罪率——AI没有放大偏见

在139名法官的初始选择中，72人选择交通肇事罪，65人选择紧急避险，只有2人选择故意杀人罪。最终只有3人改变了初判（均属个别改变，分属不同实验组）。

无论是否有AI辅助，被告"顺带贩童"这个法外因素，都没有统计上显著地影响法官对罪名的认定：

无AI辅助：对照组定罪率45.71%，实验组51.35%，P=0.65（不显著）
AI辅助：对照组定罪率50.00%，实验组60.00%，P=0.47（不显著）

这里的P值中文全称是"显著性概率"：

P值越小，实验条件对结果的作用力越显著，越不像是巧合。

P值越大，实验条件对结果的作用力越不显著，越像是巧合。

在罪名判断这个层面，法官的职业训练发挥了作用，顶住了法外因素的干扰。

结果二：量刑——AI显著放大了偏见

没有AI时，法外因素（顺带贩童）使平均刑期多了约3.4个月，统计上不显著，在正常的随机波动范围内。

有AI时，同样的法外因素使平均刑期多了约7.24个月，统计上显著（P=0.01）。有AI辅助的实验组法官，平均判了13.83个月——比同组对照组法官多出了超过一倍的刑期。

用Harness Engineering的语言来解释这个结果：实验组的法官对被告产生了负面情绪（贩童），这个情绪影响了他们在量刑阶段的初步判断。AI的Generator接收了这个判断方向，为这个更重的量刑生成了严密的法律论证。法官读到了这份支持更重刑期的"客观分析"，确认感增强，最终判决固化了偏见。 Generator把法官对被告的负面情绪，转化成了专业的法律论证——让多判的7个月看起来有理有据，让偏见穿上了法袍。

偏见穿上了法袍

结论有多确定

研究者在论文中诚实地说明了局限性。

这项实验没有预先注册（not pre-registered），意味着结论应当被视为探索性的而非确定性的。交叉项检验（AI×法外因素的交互效应）在线性回归中的P值为0.31，不能完全排除分组随机误差的可能——也就是说，不排除AI辅助组和非AI辅助组在被分配时本身就存在某种差异，导致了我们观察到的量刑差异，而不是AI真的放大了偏见。

但是，标准统计检验同样不能排除真实大效应的存在。95%置信区间为[-3.60, 11.36]，这意味着：

我们想知道 AI到底有没有让法官变得更不公正。

最好的估算结果是：AI可能让有偏见的法官多判了大概4个月（3.88）。但问题在于——这个估算太不准了。

不准到什么程度？

相当于我说：" AI对量刑的影响在少判3.6个月到多判11.36个月之间。 "

你一听就知道：从"AI让法官更轻了"到"AI让法官重了将近一年"，这范围也太宽了，跟没说差不多。

关键是这个范围还穿过了0，如果真的准，我们应该能确定影响是正的还是负的。但它穿过了0，意味着连AI到底是让偏见更大还是更小都搞不清楚。

打个比方：你让我猜一个袋子里有多少颗糖，我的答案是"可能在-10颗到30颗之间"。这个答案本身就说明——我根本不知道。负数的糖不可能存在，说明我的判断连方向都没摸准。

研究者的结论是：足够引发严肃警惕，需要更多研究提供更确定的结论。我认为这是准确的表述。

幻觉通过工作流程渗入判决的风险

中篇还有另一个没有被充分讨论的风险：AI的法律解释层面幻觉，在单Generator架构下，有一条天然的渗透路径。

深圳系统通过RAG技术大幅降低了法条引用层面的幻觉——引用条文时先检索再生成，这部分基本可控。但AI在陈述和解释法律原则时，仍然可能出现不准确的表述，并且这类幻觉更难被识别，因为它不是简单的条文号码写错，而是对法律规则的错误理解。

研究者记录了一个真实案例。深圳某法官在处理一起股东资格争议案件时，AI生成的论述称：

"股权归属变更应当依据股东之间的协议及实际履行情况加以认定。"

法官发现并纠正说，正确的规则是：

"股权归属变更应当自记载于股东名册时生效。即便未更新股东名册，也须证明公司已认可受让方为新股东，方具有相应法律效力；而在工商局的登记变更则可以对抗第三人。"

AI的表述忽略了股东名册这个关键要件，把举证责任的重心偏移了。这个错误不是条文引用错误，是对公司法规则的实质性误读。

这类错误能被发现，是因为这位法官的专业敏感度足够强。但问题在于，在单Generator架构中，AI生成的理由永远是支持法官方向的。法官在审阅时，注意力自然集中在论证是否流畅、逻辑是否完整，而不是逐一核实每个法律命题。对于与自己判断方向一致的表述，确认偏见本身就会让人更容易接受而不是质疑。

幻觉渗透路径

如果有独立的Evaluator负责专门挑错，这类幻觉进入最终判决的概率会大幅下降。但深圳系统没有Evaluator。

对律师的直接影响和应对方案

据当时（2025年1月）的研究，刑事功能也将在2025年上线，今年四月说深圳AI辅助审判系统将在全国推广，这意味着这套系统将进入你的案件处理流程。

裁判文书的说理可能产生误导。 AI辅助后，说理更严谨、更详尽、更有逻辑感是真实的，张律师也说当事人败诉了情绪都缓和了。但这只代表法官的初步判断被包装得更好，不代表初步判断本身更正确。两者之间的距离，在单Generator架构下可能比以前更大，而不是更小。