4月 102015
 

(本文亦发于“无讼阅读”)

一、背景

大数据的概念早已被炒作了一轮又一轮,大数据看上去可以对任何行业产生助力,对法律行业来说也不例外。长期以来,法律行业都有着较高的门槛,法学教育的成本、司法考试的难度、法律职业开始阶段的清贫以及法律的高度专业化让无数人望而却步。通过对裁判文书的分析,或许可以让法律行业变得相对简单一些,让法律职业更加透明。

裁判文书是法律行业中最为宝贵的司法资源,且具备作为大数据被分析的条件。根据《人民法院工作年度报告(2014)》,截至2014年底,全国各级人民法院共在中国裁判文书网上传裁判文书5,691,450篇,虽然百万级别的数量可能尚不足以作为大数据的门槛,但这个数字会毫无悬念地逐年递增。

image

2014年上网裁判文书案件类型分布情况,来源:《人民法院工作年度报告(2014)》

因为裁判文书都是由文字组成,不涉及图片、视频或其他形式的数据,故数以百万份的裁判文书从存储空间的大小上来讲并不会是一个特别惊人的数字,但肯定会对检索的准确性造成一定的困扰。

image

2014年不同层级法院裁判文书上网总体情况,来源:《人民法院工作年度报告(2014)》

对于裁判文书,仅从案件大的类型及审理法院上进行分析统计只是简单的利用,在裁判文书中蕴藏着更加值得去挖掘的资源。

二、现状

1.律师之家/OpenLaw

“律师之家”及“OpenLaw”都是朱箭飞所开发的产品。目前,App“律师之家”就可以实现对裁判文书的自动分段,将一份裁判文书自动分为以下几部分:

  • 头部
  • 当事人
  • 庭审程序说明
  • 庭审过程
  • 查明事实
  • 法院意见
  • 判决结果
  • 庭后告知
  • 结尾

App还可以将裁判文书中所引用的法条列出,并且自动归纳出争议焦点。这样的分类及自动处理,无疑会提高阅读裁判文书的效率,让用户可以更加容易地找到所需要的信息。

OpenLaw作为裁判文书检索网站,使用的便利性超过了官方所提供的中国裁判文书公开网,提供以律所名称或律师姓名的检索。这些裁判文书的来源应该就是通过爬虫从官方网站上抓取而来的。OpenLaw在2015年2月了推出《2014年中国判例数据研究报告》,根据自己所搜集到的数据进行了统计。对比最高人民法院所发布的官方统计,可见数据虽有出入,但差距并不明显:

统计

OpenLaw不仅统计出来了全国民事案由的TOP10和刑事案由的TOP10,并且将统计工作细致到每个省的热点案件,这无疑有助于当地律师有针对性地进行准备。OpenLaw还统计了律所代理案件的排行榜,根据数据:上海市中天阳律师事务所在2014年度共代理各类型案件3043件,而根据上海市律协的数据,该所律师不过25人,平均每名律师需要代理122个案件,堪称劳模。

OpenLaw所提供的统计当然远不止这些,潜力更是无可估量,随着日益对数据的深入挖掘,可以挖掘出来的宝藏当然也会与日俱增。

2.CIELA

Rouse旗下的CIELA(China IP Litigation Analysis)是一个用于分析中国主要法院知识产权判决的工具。根据CIELA的宣传材料,通过分析裁判文书,可以做到:

  • 知识产权侵权案件的平均损害判定金额
  • 知识产权侵权案件的平均审理期间
  • 知识产权侵权案件原告胜诉及部分胜诉的平均比率
  • 特定公司作为原告或者被告的诉讼记录
  • “诉讼频率最高的公司”排名
  • 外国和国内当事人的诉讼结果明细
  • 具有最丰富诉讼经验的律师和律师事务所
  • 具有最佳诉讼结果的律师和律师事务所
  • 具有特定行业专业知识的律师和律师事务
  • 特定法官在判决中的倾向性
  • 依照所审案件的数量或者在特定行业的专业知识,确定法官的相关经验
  • 依照一套确定的衡量标准和专家评审,提供判决的相关质量等级

这些只是局限于知识产权案件,而知识产权案件只在我国诉讼中占很少的一部分。依照这些统计要素,将以上统计事项扩展到全部类型的案件,至少是民事案件,也是有可能的。

3.华宇软件

在华宇软件的2013年年度报告中提到:

公司持续在法律专项的自然语言处理领域加大投入,基于海量裁判文书的智能信息提取、文书校对、专题分析、快速检索、文本挖掘等技术不断加强,这些技术的深入研究,并逐步应用到产品中,不但增强了产品的竞争力,而且开发出了一系列高端软件产品,这项技术将形成公司未来的核心技术竞争力。

从相关报道来看,在各地法院的信息化解决方案中,多少都有华宇软件参与其中

4.专利

关于裁判文书的数据挖掘,已有专利申请。根据发明“一种数据挖掘系统以及实现方法和应用”(公开号:CN101499075 A),该专利的说明:

……

如权利要求1所述的系统在法院民事无第三人、无反诉一审判决书数据挖掘中的应用,其特征在于:(1) 将每份判决书表示为由法院、案由、判决时间等结构化数据,以及原告陈述内容、被告答辩内 容、法院査明内容、法院判决内容等具有对照关系的非结构化数据组成的数据集的一行,输入数据集由多个这样的行组成;(2) 根据挖掘的需要,可以增加类别列,包括表示判决生效、原告上诉、被告上诉、检察院抗诉、 审判监督程序再审的一个类别列,以及表示一审生效、二审维持、二审改判、发回重审这样的类别列;(3) 应用权利要求1所述的系统进行数据挖掘。

另外一项专利:“一种法律风险测评数据处理方法和查询系统”(公开号:CN101567069 A),根据其摘要介绍:

法律风险测评数据处理方法,包括S1:从裁判文书中提取包括法律风险点和多个特征项的原始数据表,并以预定格式存储于被计算机读取的存储介质;S2:通过计算机对原始数据表执行第一运算建立法律风险点与主特征项的逻辑关联并得到主特征数据表;S3:对所述主特征数据表执行第二运算计算各个法律风险点的参数数据化值,并生成包含所述参数数据化值的测评数据表;S4:对所述参数数据化值进行排序运算并据以对法律风险点进行排名。……

从以上两项关于裁判文书数据挖掘的的专利可以对这个领域的研究进展窥见一斑,当然我不是专业人员,无法判断这两项专利的价值。

三、裁判文书中可供分析的内容

通过裁判文书,可以直接获取的信息有:

  • 案号(具有唯一性)
  • 裁判法院
  • 案件类型(民事/刑事/行政/执行)
  • 裁判文书类型(判决/裁定)
  • 出具裁判文书的日期
  • 案件审理人员(包括合议庭人员与书记员)
  • 案件当事人
  • 委托代理人(包括律师所在律所)

以上这些信息相对容易获得,可能有些简单,但却是分析裁判文书的基础。尤其是通过案号的整理,可以让数以百万份的裁判文书有唯一对应的编号,并且可以通过案号将与之相关的上诉案件关联起来。

在裁判文书中,可能会写明案件的受理时间,在这种情况下,结合裁判文书最后的落款时间,可以计算出来案件审理的时间。尽管《民事诉讼法》中对一审、二审的审限及延长有明确规定,但如果可以根据历史数据统计出某一类型案件的评价审理时间,那么至少可以帮助评估诉讼的时间成本。

从裁判文书中还可以清楚地反映出法院在不同地区的审理特定案件时的倾向性。在美国,专利侵权诉讼通常会放到德州东区地方法院进行,因为这里对专利权人的态度较为友好,而且审判高效,像三星与苹果的专利侵权诉讼就是在这里进行。对于权利人来说,在管辖范围之内,如果能够了解哪里的法院对自己诉讼请求的态度最为友好,那么对于维权来说当然是再好不过的事情。

当然,在诉讼中最重要的也就是诉讼结果,如果不去统计诉讼的结果,那么对其他事项的统计即使再精确,也帮助不大。但诉讼不是竞技比赛,胜负不会一目了然。判决书通常会根据原告的每条诉讼请求逐条进行判决,可能会出现只支持部分的诉讼请求,或者只是支持部分的赔偿金额的情况。另外,如果涉及反诉则会让统计分析变得更加复杂。为了方便统计,对于原告(反诉人)来说,只要至少有一项诉讼请求获得法院支持就应被视为胜诉,尽管在实际情况中可能并非如此。以此为基础,可以方便地将胜诉率与律师事务所、律师、特定类型的案件、特定的法院等信息结合起来,让这些数据更具价值。

在民事案件中,有了诉讼结果,当事人与律师最关心的就是相应的赔偿金额,通过对判决书的分析,可以知道某一类型的案件在某地法院平均诉请的金额是多少,而法院通常又会支持多少,这个数据可以帮助律师与当事人更好的进行决策,是否发起诉讼或进行上诉。而对于刑事案件,除了是否有罪以外所关心的就是刑罚了,某一类型的案件加上某(几)种情节会有何种刑罚,这实际上已经很像是“司法售卖机”的概念了。

从裁判文书中,还可以看出司法鉴定对裁判结果的影响,更进一步还可以看出某一司法鉴定人是否会对特定领域的案件有所倾向,如果有相关的统计结果,或许可以帮助律师进行交叉盘问。

无论是民事案件、刑事案件还是行政案件,对案件进行分类都是精细化统计的基础。刑事案件当然是按照罪名来进行分类就可以了,而民事案件与行政案件则可以分别按照《民事案件案由规定》与《最高人民法院关于规范行政案件案由的通知》进行,里面对案件进行了非常详细的分类。

裁判文书中裁判案件除了事实部分,肯定会引用相关法条,如果可以整理出某一类型的案件主要会涉及到哪些法律条文,那么必然会方便律师对案件进行准备。针对个案中援引的法条,北大法宝或是万律这样的数据库已经做了非常好的工作,便于用户直接在裁判文书中找到对应的法条。

四、一些障碍

1.无法获得的内容

尽管说裁判文书是一座宝藏,但案件中有一些信息是无论如何也无法通过裁判文书来掌握的。律师与非律师一个重要的区别是律师有阅卷的权利,尤其是在刑事案件中,卷宗中的各种笔录往往可以反映出案件的真实情况,而在判决书中无法体现这部分内容。

一般来说,需要上审委会的案件都属于疑难案件,而审委会对案件的的判决与裁定也有最终的决定权,但是审委会并不会出现在裁判文书上,落款依旧是以合议庭的名义,更不用说看到审委会做决定的过程了。因此在裁判文书中也没有办法找到审委会的踪迹。

法院在进行裁判时,除了会依照法律、行政法规、司法解释外,还会依照各级法院的内部规范进行裁判,而这些内部规范往往不会公开,因此在进行分析时也无法了解到这些内部规范的存在,所分析的结果也会有所偏差。

以上这些无法获得的内容只能是无可奈何的事情,短期内也没有办法解决。

2.技术

技术是阻碍对裁判文书进行统计、分析的障碍之一。单从抓取裁判文书来说,从技术上并不难实现,从中国裁判文书公开网及各省的裁判文书公开网上足以获得充足的抓取内容。真正难以实现的是在获取这些裁判文书后如何进行利用,而这也是自然语言处理研究的重要课题。而裁判文书可能正好是各类文本中撰写最为规范,又可以达到“大数据”数量级的文本素材。

1992年,最高人民法院就发布了《关于试行法院诉讼文书样式的通知》,并且在1993年发布了《最高人民法院关于<法院诉讼文书样式(试行)>若干问题的解答》。1999年,最高院发布了《法院刑事诉讼文书样式》。2003年,最高院发布了《民事简易程序诉讼文书样式(试行)》。2011年,最高院发布了《民事申请再审案件诉讼文书样式》。以上各种文件对裁判文书的格式、文字措辞、计量单位,甚至是数字的表现形式都有要求。有时候为了使裁判文书符合要求,还制订了相应的评分标准,以《安徽省高级人民法院裁判文书评查标准》为例,就将裁判文书的评分分为写作规范与技术规范,可以精确为裁判文书打分,只是不知道该制度实行地怎么样。因此,在裁判文书中,大量的文本本身就已经具备了高度的结构化特征,便于在此基础上进行统计、分析。

裁判文书对文字的基本要求是准确、简明、庄重、严谨,并且裁判文书中的文字应当是经过反复权衡、斟酌的最精粹的法律语言。以前有过一点学习法律英语的经验,在学习中发现学习法律英语就像是学习一门新的外语一样,可能有些单词并不陌生,但用在法律中却完全是另外一个意思,中文中法律术语也是同样的道理。“原告诉称”、“被告辩称”、“经审理查明”、“本院认为”这些语言都具有很强的标记性,可以做到与相应的模块对应起来。另外,像“以上”、“以下”、“以内”、“届满”、“不满”、“以外”等词语都有着固定的含义,便于统计。

需要针对裁判文书的行文特点设计专门的分词系统,建立专门的法律词库,这需要较高的人力成本与时间成本,可不是“只差一个程序员”就能完成的工作了。

3.影响力案件

传统上法学院对于判决书的研习只是针对具有影响力的典型案件进行,要么是某个领域内的首起案件,要么是突破现有规则的案件。而现在最高人民法院也会定期发布指导性案例以指导审判工作,媒体也会发布年度影响力诉讼,人民法院出版社所出版的《人民法院案例选》更是学习法律所必不可少的教材。

而对所有裁判文书进行大数据分析,显然会忽略典型案件的重要性,无法特殊对待这些特色的案件,比如“南京彭宇案”、“许霆恶意取款案”、“药家鑫案”都对司法实践产生了重要影响,而对裁判文书的直接分析却无法直接体现出来。不过可以通过其他方式进行弥补,比如说以某一案件为时间节点,对该案件前后同类案件的审判情况进行比较,也算是新的法学研究途径了。

4.规范表达

尽管对于裁判文书已经是用语最为规范的文本了,但是因为各地法院的业务水平参差不齐,裁判文书也不是自动生成,其中的语言文字难免会出现表述不规范的情况,包括未使用术语或者使用了具有模糊性的语言,甚至是遗漏了本该有的裁判文书模块。另外,法律人写作通常都喜欢使用“该”、“其”或“本”这样的代词,这些词往往会出现指代不明的情况,这也是法律写作中应该极力避免的。这些词语会给分析代理一定的难度,如果不能够通过算法进行识别或区分,那就只能通过人工的方法进行甄别了。

五、总结

到目前为止,对裁判文书进行有效的大数据分析都还没有太值得一提的进展,要么是因为资源难以获得仍有待开采,要么是因为这些资源根本就没有什么价值。我不知道两种可能性哪一种更接近真实情况,或许都距离真实情况有万里之遥。

但无论如何,法律工作者都不应该忽视对裁判文书进行大规模分析的价值,哪怕所能提供的帮助有限。这可能才是裁判文书上网公开的真正价值

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)