喜报

7月26日,“沈家本与新时代知识产权保护”论坛暨沈家本研究会2019年年会在湖州市吴兴区召开。

我院干警赵翼昂、袁者共同撰写的论文《论大数据在类案类判中的应用》在本次论文交流评选中荣获二等奖。

论大数据在类案类判中的应用

论文提要:

近年来随着智慧法院建设强有力的促进审判体系和审判能力现代化,在大数据司法领域深入应用中,类案类判作为人工智能支持司法审判的重要内容。借着其在当前话题层面热议的机会,将从该技术的原理、其前景如何并在实践运行中存在哪些问题着手。首先从类案类判的概念着手,明确什么是类案类判。核心是确定类案标准,两个独立案件如何才能被视为是同类案件,又应当以什么样的标准来判断;类案类判的关键是类案推送,类案推送系统依托自然语言处理技术,借助知识图谱构建类案知识树和知识库,利用相关算法完成类案匹配。其次是着眼类案类判的现状,对类案类判制度进行探索。再是从类案类判机制在实践中的困难入手,研究法信平台、类案推送系统、北大法宝、裁判文书网等相关系统时候在准确性、精确性、积极性等方面缺陷。分析得出主要因为需求分析的不够准确,AI算法及推送技术不够成熟、案例数据不够规范造成以上困难。考虑到类案类判与人工智能深度融合,从明确规范标准、构建操作规则等方法,完善类案类判机制三个方面入手。全文共7631字。

主要创新观点:

分析大数据在类案类判中的应用,应该分别从类案类判的概念和大数据的特点分别把握。首先是建立类案标准, 案件审理是一个综合运用法律知识、经验法则、裁判技巧、解释法律的裁判过程,法官虽考虑接受法律约束,但也有自由裁量权做出价值判断,法官正在审理的案件应当与其所在法院和上一级法院已经审结的或者其他具有指导意义的同类案件裁判尺度一致,不能脱离法律、政治、社会三个效果一致的目的,否则类案标准将无法控制裁判偏离度。同时关键是积极利用类案检索,通过数学建模及模拟算法,得到合适的案例和判决结果。目前大数据在类案类判应用情况中还存在无法区分类案和推送技术不成熟的问题,主要体现在结果准确性、范围精细性和使用积极性上。可以采取规范类案类判机制、构建充足的类案数据库及发展提高算法来尝试解决大数据在类案类判应用中的窘境。

以下正文:

随着大数据在司法领域的深入应用和社会信息化的深入发展,借助智慧法院建设强有力的促进审判体系和审判能力现代化,类案类判作为人工智能支持司法审判的重要内容,是司法改革背景下推进审判权运行机制改革的重要尝试,对提升法院整体裁判水平、实现类案适法统一和促进司法公正有积极意义。其功能在于通过多种途径,为审判人员推送当前正处理的相似案例,启发及拓宽思路,能有效控制裁判偏离,统一相同地区领域的司法裁判尺度,同时也为新型疑难案件提供新的解决途径,实现关联案件之间法律、政治及社会效果一致。借着类案类判在当前话题层面热议的机会,笔者将着重探讨该技术的原理、其前景如何并在实践运行中存在哪些问题。

一、类案类判在审判应用中的现状

2017年8月1日最高人民法院印发《最高人民法院司法责任制实施意见(试行)》,期冀以通过类案和关联案件检索机制明确承办法官在审理案件进行类案检索,目的就要进一步统一裁判尺度。2017年10月26日中央办公厅印发《关于加强法官检察官正规化专业化职业化建设,全面落实司法责任制的意见》,明确依托大数据和云算法技术,完善智能辅助系统的类案推送、结果比对、数据分析等功能。2018年1月5日最高院紧跟着实施意见上线类案智能推送系统,覆盖全面1330个案由,从案件性质、案情特征、争议焦点、法律适用四个方面为查询和推送类案提供技术平台支撑(1)。在此之前最高院也确定审判人员应把握裁判趋势,在审理案件时候应对本院已审结或正在审理的类案进行全面检索,制作检索报告,可以说类案类判正式从试点探索、政策倡导走向司法部门及群众需求的层面。

积极响应中央政策的同时,各省市也依托办案平台和档案系统先后开发各自的类案推送系统,如上海高院运行刑事案件智能专审平台;浙江高院开展的“类案推送项目”;贵州高院建立类案标准数据库及关联案件强制检索机制。虽然类案类判机制有其独特优势和积极作用,可以对推送的内容进行分析、推理及决策,还可以提供角色登录、用户兴趣、语义理解和信息筛选等实用功能,但在实践中也存在不少的困难。现以浙江省高院类案推送系统为例,某个原被告均为自然人的追偿权纠纷,诉讼请求是被告归还借款代偿本息101841.66元并支付利息。事实与理由是2017年7月17日被告向小贷公司借款100000元,由原告承担连带担保责任,后因被告无力偿还到期借款,由原告代偿借款本金101841.66元,事后被告未及时支付代偿款纠纷款。系统有通过输入关键字、词组及上传文书自动识别两种方式,具体流程如下图:

当上传文书后系统自动对其进行识别并自动关联案件23万多件,本省12818件,通过筛选得基层法院近三年相关20173件。通过输入关键字“追偿权纠纷”“民事案件”,识别出有效判决文书54万多份,本省85884件,通过筛选得一审361692件。而在使用裁判文书公开网、法信平台及北大法宝等系统后相同案例效果更为不明显。

仔细观察推送结果可以发现,部分案例与追偿权纠纷并无直接关系;推送数据过多,增加筛选类案难度,容易产生厌烦心理;然而可供参考的案例稀缺,对审判人员无实质性帮助价值。当前而言在智能辅助办案系统里,类案类判系统显然不及法条关联、裁判文书模板自动生成及文书纠错等系统,这些平台能自动生成裁判文书初稿,帮助校验法律文书,实实在在减轻了事务性工作负担,所以许多审判人员更习惯求助它们。而类案类判平台对于复杂案件推送不精准,对于简单案件又失去了检索的需求,这就降低用户体验和减少使用意愿。所以类案检索机制未得到普遍运用是有一定原因的,后面笔者会结合身边同事实际使用反响及目前类案类判系统的技术特征归纳总结。

二、大数据在类案类判中如何发挥关键作用

(一)类案类判的概念

在讨论大数据如何帮助实现类案类判之前,要确定类案类判系统的运行机理。借助自然语言处理技术(NLP)通过模板寻找、标签注释等完成类案要素判断及提取,借助相应的技术构建类案知识库,利用云算法完成类案匹配和推送。

1.类案类判的核心是建立类案标准:何谓同类案件,又应当以什么样的标准来判断。目前学界主流有这几个观点:主要法律关系说、事实特征说、关键事实说等。总体来说主要基本案情和法律适用一致即是同类案件。一是以判断两个案件主张的事实认定是否一致为基础,但也不是要求两个事实必须在所有细节情形上严丝合缝一模一样。案件审理最终目的是确定是否应当支持当事人的诉讼请求,因此诉讼请求的构成要件所对应的各个事实要素一致,就可以认为两者事实一致;二是法院认定案件事实一致,按照要素清单进行论述,在判决书中清楚地表述每个要素上是认定了什么样的案件事实。根据要素清单认定案件事实,也具有多方面的现实意义,因为当法院认定的案件事实一致那么一般判决结果也是一样的;三是两者法律、政治、社会三个效果一致。其实裁判文书中的思想通常包含对三个效果的考虑,效果本身是社会主义核心价值观的体现,由于类案类判通常只对裁判文书进行比对,所以可避免万一将来该案作为类案比对的对象时错误理解和适用其裁判尺度。

2.类案类判的关键是发挥类案推送:其核心思路在于搭建案件性质的分类预测模型和裁判结果的回归预测模型,将海量裁判文书“前验”要素特征实例化,通过专家标注、规则推导建构基础数据模型,经由语词锁定、捕捉裁判文书关键信息形成结构化数据,遵循闭合性逻辑原理(2)。所谓的闭合性逻辑原理,是先有一个符合法律形式逻辑的大前提,然后再有一个案件事实基本接近的小前提,在大小前提都情况类似时,得出个案应与之前类案判决先例相似的结论。再判断高可信度关联,完成建模要素的有机重构,为类案多方位塑像形成类案树作为预测模型,并以类案大数据知识库为基础,以语义相似性度量方法,构建高维特征匹配的类案模型,对后续案件进行案件事实到适用法律及裁判结果的立体化相似性匹配,针对个性化用户模型和相似度算法,进行智能排序和个人偏好推送,对具体个案自动进行偏离常规裁判分析和风险防范预警,最后必须基于类案裁判结果的均值标准。

(二)挖掘大数据在法律领域应用

1981年随着人工智能技术的发展,D·沃特曼和M·皮特森开发了法律判决辅助系统,将其作为司法领域的实践工具并对民法中特定问题进行统计分析。该系统通过简单的责任认定、损害赔偿等模型计算案件的赔偿标准。国内在司法领域的第一次应用是在1986年国家社科“七五”研究课题取得盗窃罪量刑数据模型等成果(3)。这段时间内都是以专家的法律经验、知识框架作为规则。后面随着以大数据、机器搜索、深度学习的法律人工智能系统出现,实现AI可以做出分析预判,在关联案件相关调查中,分析不同场景不同体系不同舆论,找出最准确的文档及数据。在未来笔者认为法律人工智能会继续发展,之后的十多年,会随着大数据、云计算、计算机法律学及算法融合,深度学习处理器也从CPU往GPU/TPU发展,类案类判系统的效率及准确性会得到大幅度提升,成为审判人员工作时不可或缺的得力帮手。

首先大数据应用类案类判既有用到传统软件架构的网络框架、数据加密设计和发送接收技术,又运用到自认语言理解(NLP)、司法实体识别(OCR)、实体关系分析等技术,将每个案件及其相关信息做成一个点,再通过分析挖掘和个性化定制实现点与点之间匹配和联络,最终构建一个类案关系的框架。其中暗含大量的交互技术、机器训练和数据筛选,高效快捷的制作某类案件大数据分析报告。充分运用人工智能学习和语义分析技术,将大量专业法律数据进行清洗、分类、结构化,最终形成可以提供可视化的咨询服务平台;将数据进行高度整合、关联,提供结构化、可视化、智能化的搜索结果;按照事先设计制定的法律语言规则,将文书自动分段、贴标签,建立目录方便AI索引、分类、拾取,帮助审判人员能够进行关联搜索。

其次由于类案类判不同于以往简单的案件搜索,它处理结构化数据、半结构化数据和非结构化数据,例如案例数据库、判决文件、法条法规、图书期刊和庭审录音录像等,这些数据通过数据集成协议、关联分析、计算和挖掘在线公开。例如上海刑事案件智能辅助办案系统,在法律专家建立证据标准和规则的基础上,构建了此类案件证据链模型的总体框架,然后分析过往案件,得出该构成要件项下所需的关键证据,从而构建完整的证据链,而对民商事案件的预测也通过对当事人、案由、判决结果、管辖法院等简单要素分析,预测法律风险、案件胜诉率和撤诉率。又如法信平台是国内最大的法律知识和案例大数据融合服务平台,平台包括案例要旨、法律观点、法律图书、法律文件、司法裁判、法律期刊六大资源库和57个子库,总文献数达到2100万篇,总字数达100亿字(4)。

三、类案类判面临的瓶颈:

大数据精细化的困境

司法已经步入大数据的时代,网络快速传播和信息实时流转使得群体作用力越来越重要,类案类判作为以大数据为基础通过数据测算做出关联案件的均值判断的一种手段,凝聚着众多审判人员对于司法的理解,其优势在于规避了主观意识下带来的不确定和偏差。但以裁判文书公开网、法信平台、浙江高院开发的“类案推送系统”为例,在实际发现这些系统未达到预期的效果,身边更多是集中在年轻法官群体,上年纪的法官使用类案类判系统没有强烈的意愿,理由是系统推送过来的“类案”并不是他们想要的。所以目前类案类判系统觉得无用很大程度上还是类案识别和推送技术不够精准。

1.类案判断产生困难,无法精确识别关联案件:以盗窃罪为例,入户盗窃是盗窃罪的情形之一,因为刑法总论及侵犯财产权案件共性而言,在其他案由如抢劫罪、抢夺罪等可能存在争议焦点一致的情况。

如下图所示当在寻找入户盗窃的相关案例时候,类案类判中的类案应当是S,目前类案类判系统可能会向审判人员推送S+N,甚至可能会有S+W、S+W+O、S+W+O+N等情形出现。所以当系统对案件情节度高的和法律问题适用一致的两个情形无法区分时,就会产生类案识别偏差并在个案推送中不断放大。

2.推送技术粘合和调整不精细:目前推送方式有主动搜索和自动识别推送两种,以自动识别推送为例:案件的事实认定和争议焦点部分需要更高程度的规范化,同时优先推送有相同争议焦点的部分。假设系统判断出本体待决案件的认定事实是A+B+C,通过查找匹配后,系统找到案例1是A+B+C,案例2是A+B+C+D,案例3是A+B+C+F(F是争议焦点),案例4是A+B+C+E+Q(Q亦为争议焦点),则推送的顺序是为3-1-4-2。一旦审判人员调整了案件的事实,系统不会触发新的自动推送和主动搜索算法,其中的就会夹杂更多无效粗糙的推送服务。

综上所述在分析了类案类判系统内在运行机理,确定了核心与关键上的遇到的困难后就不难发现,我国目前类案类判系统当下存在着以下三个问题:

(一)准确性困难:类案推送的案件是否符合审判人员需求。以浙江高院开发的智审系统为例,笔者在实际使用和相关人员反馈发现,该系统推送案例最多只能做到10个。但这些推送的案例大部分很难达到一个同案或类案的标准。而像审判人员使用类案推送系统中主动搜索时,在未限制条件的情况下会出现上万甚至上十万的案例,需要花费大量时间甄别筛选。实际上办案法官可能仅想通过类案检索来参考相关裁判文书的思路判法,以至于其他如事实案情是否相似是否相同不是优先考虑的内容。因此单单凭简单通过大量的法律标签对比寻找类似的案件,即使单纯标签相同但倘若在核心法律技术细节上没有获得法官预期的检索结果,仍需要通过人工筛选的方式,比对与承办案件的相似程度,就没有参考价值。就这个角度而言目前类案推送制度太过粗糙,无法解决审判人员寻找类案的需求。

(二)精细性困难:推送案例范围过窄,以北大法宝司法平台为例,它包括最高法发布的96起指导性案例(16例刑事,33例民事,18例行政,其他29例),大量罪名和案由在指导性案例中未曾提及。另外笔者在使用过程中发现,推送案件往往集中在某些年份,同时由于全国各地2014年前后才推进电子档案扫描工作,所以无法推送扫描之前的相关案件。此外推送案例来源不明、层次不清也是阻挠审判人员使用的困难,目前推送的案例既有判决书也有裁定书,一审裁判的效力是否仍然存在没有标注说明,增加了参考类案的风险。

(三)积极性困难:在现实庞大工作量下,审判人员有规避适用的情况发生,以裁判文书网和类案智推系统为例,首先裁判文书网提供的案由、案件类型等15个可供选择的信息项大部分与类案识别标准没有直接的关联。无论是根据快捷检索窗口提供的单一信息项筛选还是高级检索平台提供的多信息项组合筛选都比较机械化、缺乏针对性,未从类案的区别标准和识别特点进行专业化设计。其次以上类案类判平台都未能发挥真正的作用,有的依赖于手动输入关键词,有的出现识别结果有误、识别方法不专业,究其原因机器并未深度学习类案识别的特点和比较点,案例认识与推理、自然语言理解、AI深度学习等功能的缺失。

四、原因及解决措施

(一)人工智能应用不规范

1.司法数据不完整对法官裁判的影响是巨大的,同时法官的判决也在对数据其进行着改造升级,由于将判决或由此得到的模型视为判决的依据,而法律又是判决的根据,中国并不是一个判例法的国家,判例并不是法律的渊源,这就会产生一个自相矛盾的说法。

2.当类案类判成为了司法裁判的价值追求,甚至当它能挑战依法裁判的前提后,审判人员运用价值判断和自由裁量权与大数据介入后精确模型化产生争议。例如人工智能在解决涉及艰难价值判断或道德悖论时,就像“电车问题”,在构建的情况下作出一个艰难的选择,归根到底是因为弱AI并无能力作出价值判断,无法识别哪些是对哪些是错(5)。

(二)检索需求描述不准确

1.审判人员使用类案类判系统前提是归纳总结争议焦点和要件事实,纠纷解决通常围绕以上两点展开,这就需要把这两点总结出关键词后再输入检索,什么是类案并如何识别类案、不同语境下是否具有独特性需要审判人员去判断,所以对精炼概括类案的能力有很高的要求。

2.在系统平台设计时关于争议焦点总结归纳出关键词这一功能也模糊不定,仍停留在简单的文本比对上面,并没有通过一些明确的指令就能对整个案件进行识别。所以审判人员感觉系统平台推送过来的关联案件没有作用,没有参考汲取的价值,但在一定程度上也体现出自身对案件把握不够准确。

(三)推送技术发展不全面

1.审判人员使用类案检索通过输入关键字,再由系统提取后获取相应的数据,但因为裁判文书内容结构复杂,不同文书包含不一样的事实判断和价值取向,随着后台数据深入处理,不规则程度也将提高。所以庞大复杂的数据就是拦在类案推送前面的一道大门,并不能满足精确检索智能推送的要求。

2.现有类案推送技术的前提依靠大量标签去配对,尽管通过该项技术匹配一定程度可以找到一些“相似”的案件,但随之而来的是推送数量过于庞大,甄别案件过于复杂等困难,本质上任未减轻审判人员办案压力。所以推送技术中不完整的维度、不全面的知识、不深入的分层等一系列原因,给审判人员留下类案类判系统食之无味的感觉。

或许当前借助大数据的类案类判不应被赋予过高的期望,相关的司法解释和指导性案例应当承担更多维护司法权威,统一司法裁判尺度,但之前笔者讨论了这么多归根结底无非是想更好的解决类案类判系统在当前的困境,从而更好的服务审判人员办案。

(一)统一类案类判平台建设规范,首先要明确顶层类案类判工作机制与标准流程,统一语言库和数据库,开发全国范围性质的“类案智能推送系统”,避免各省市陷入单打独斗各自为战的困境,摆脱各地利用自身有限的裁判文书及司法资源产生相关系统对整个格局造成混乱斑驳的影响。同时可以让具有深厚法学功底的法律工作人员加入到平台建设中,更加清晰明确的细化各类功能模块。考虑到目前法院现实庞大的工作量以及审判人员复杂的实际需求,明确类案类判标准和适用范围,确定合适的案例与场景使用类案类判,以减少不必要的事务性负担。

(二)完善类案数据库分类范围,加强类案自身建设与管理,如前文所述类案类判的基础是类案检索,检索算法最终依靠的还是真正优质的法律数据库。这就需要加强各省市裁判文书公开和电子档案扫描推进工作,尽可能拓展案例数据库的深度与广度。完善案例数据的规范化治理,通过信息降噪处理减少大量冗杂和错误数据、提高裁判文书的结构化和规范化、将起诉书、辩护词及证据材料作为一种检索数据方式拓宽数据来源都有助于提高相似法律问题的识别度。

(三)提高检索算法,争取AI可以自动提炼出争议焦点或者需要对焦的法律问题。首先对类案的标签与结构做到进一步的精细区分,标明推送案例的来源层级及效力,保证案例的完整性和提高案例的质量,打好类案推送与检索的数据匹配基础。与此同时可以通过获取法官所处庭室及办理案件类型的相关信息,不同审判人员对不同因素权重考量是不一样的,用修改偏好对权重进行重新排序,帮助法官获取更加准确有效又带个性化的推送服务。

五、总结

尽管目前类案类判制度与技术有进步改良的地方,审判人员的观念也亟需转变,但笔者相信在当前司法改革大背景下,在各方面前进摸索的努力下会有创新有突破。随着实现类案类判的精细化和专业化,平衡大数据介入司法领域后的司法经验和价值判断,避免审判人员的依赖性、错误文书的流转影响或抑制裁判文书创新性等新问题出现的前提下,有了大数据作为技术支撑的类案类判系统可以缓解人案矛盾和完善司法裁判统一,值得期待。

参考文献:

(1)罗书臻:《认真学习贯彻党的十九大精神深入推进智慧法院建设》,载《人民法院报》2018年1月6日。

(2)张嘉军:《司法大数据的价值功能、应用现状及其应对》,载《郑州大学学报:哲学社会科学版》2018年。

(3)伍红梅:《以“大数据+机器学习”为驱动构建刑事案件判案智能预测系统》,载《人民司法》2018年。

(4)左卫民:《大数据与人工智能的司法实践——如何通过人工智能实现类案类判》,载《中国法律评论》2018年。

(5)[美]詹姆斯·普斯特若夫斯基、安伯·斯塔布斯:《面向机器学习的自然语言标注》,邱立坤、金澎、王萌译,2017年版。

—END


本文由转载于互联网,如有侵权请联系删除!