近日,“裁判文书网要停止运营”的传言沸沸扬扬,许多法律人都担心再也找不到判决书,无法进行法律研究。
突然,网上开始流传了一份近95G的裁判文书数据库,包括了从1985年到2021的大部分公开裁判文书。
一时间,法律人纷纷打开某度网盘,开启了“狂热下载模式”。
但下载完成后,面对着一堆CSV文件可能无从下手
这格式看起来Excel可以打开,
但怎么有的能打开,有的什么都不显示呢?
这究竟要怎么用呢?
【本文提及的软件下载地址均在文章最后】
*本文仅为笔者个人观点,不视为任何法律建议或法律意见。
一、如何用Excel打开超大CSV文件
CSV文件是一种常见的文本文件格式,其全称是“逗号分隔值”(Comma-Separated Values)。它是一种用于存储表格数据的简单文本文件格式,其中每一行表示表格中的一行记录,而每个字段(列)之间由逗号或其他分隔符分隔。
Excel可以直接打开一些较小的CSV文件。打开后我们可以发现CSV文件看起来和普通Excle文件好像没什么两样。
但当我们打开数据集中某个超大的CSV文件(例如2020年6月的数据集就达到了11GB),则会发现Excel什么都不会显示。
原因在于,条目数超出Excle允许的上限太多了。
Excel允许打开的CSV文件大小上限大概为2GB,面对着超过2GB的庞然大物
Excel直接选择了罢工。
不过微软也给出了一种打开超大CSV文件的办法:
大概位置在这里
选择3GB以上的数据集文件,的确可以成功打开
点击【加载】按钮后,点击界面右方的【文书数据】,就会进入一个Power Query编辑器的界面。
加载期间无法进行数据查询。
如果此时手多再点击几下界面,可能就会出现熟悉的“未响应”。
就算正常打开了,操作界面也不够“直观”,需要更多的学习才能用上。
因为笔者不会使用Excel去管理超大CSV文件,有耐心的读者朋友可以参考微软的官方教程,看看如何使用:
二、大数据时代,我选择代码帮助
CSV文件的另一个管理办法,是把它们导入到一个数据库文件中,再用数据库工具进行管理、查询、导出数据。
大数据时代,最热门的编程语言是Python
所以笔者用Python编写了一个简单的脚本程序
以便把全部CSV文件导入数据库
虽然很多付费的SQL数据库软件会有导入CSV的功能
不过一来要付费,二来破解不合规
还是自己做的更有性价比
为了方便使用,还顺便做了一个简单的GUI
不得不吐槽一句,做界面的时间和做功能差不多
这个小程序的唯一功能是批量导入CSV文件到指定数据库。导入的CSV数据会存入同目录下的Chinese_Cases.db数据库文件,并创建基本索引。
程序默认会读取同目录下“inputCSV”文件夹内的全部CSV文件,也支持通过手动输入或点击【选择CSV文件夹】按钮,在弹出的窗口中选择其他文件目录。
选择好CSV文件目录后,程序会递归遍历该目录下的全部子文件夹,读取其中的CSV文件。
因此,如果只想导入特定目录里的CSV文件,需要精确选择子文件夹(例如“2001年”文件夹);如果选择上层目录,则会自动导入全部子文件夹的CSV文件。
选择好文件夹后,只需要点击【创建数据库】,即可开始创建流程
创建所需的时长视乎需要导入的文件大小以及电脑硬件性能
如果要把全部数据都导入的话,会需要一段“颇长”的时间
同时高频的存取可能会造成程序短暂卡死
因此创建时,建议不要随便拖动或者关闭窗口。
创建完成后,进度条会自动关闭,同时界面会出现“创建成功!”的提示,这时就可以直接右上角关闭软件。
打开脚本所在的文件夹,会发现已经生成了一个db(数据库)文件。
接下来还需要一个软件打开它。
三、用Antares SQL管理数据库文件
SQL管理数据库有很多,但很多不是英文的就是收费的,更重要的原因是,很多软件的界面还很“复古”,易用性不足。
笔者经过搜索对比,决定用Antares SQL管理这个数据库。
100%开源,100%免费,不仅有中文,界面也比较现代。
【非推广,开源软件真的业界良心】
首次开启后部分设备可能会有提示JAVA出错的弹窗,同时界面什么都不显示。不需要惊慌,这时只要重新打开一次软件就可以解决。
然后就可以切换到【General】页面,在【Language】栏目切换成“简体中文”。
而这个软件的使用方法也非常简单,只要三步:
1. 在【数据库类型】中选择”SQLite”
2. 数据库点击【浏览】,找到我们生成的“Chinese_Cases.db”,如果担心误操作,还能勾选上【只读模式】。
3. 然后点击【链接】
就可以浏览整个数据库的内容。
(为演示,笔者只导入了2010和2011年的数据)
如果要对数据进行搜索,只需要点击【放大镜】图标,按需输入与增加条件,然后点击【过滤器】按钮即可。
补充:
搜索条件有很多类型,笔者建议使用“LIKE”(模糊搜索)最为便捷。
对于确定性的内容,可以考虑用“=”(精确搜索)进行限定。
2010年的总条目大概有十五万条
在输入了三个搜索条件后,一共搜出了74条合适的结果,
总耗时:0.438秒
而要查看搜索结果的判决全文,只需要把表格拖到最右方,双击【全文】列下的单元格即可。
“全文”内容是纯文本,可随便复制。
不过可惜的是,数据集中的判决书全文都没有附带格式,直接浏览起来会略微有点麻烦。如果要复制到Word文档,还需要重新排版(也许以后可以通过程序解决)。
不过既然是AI时代了,直接扔给AI来阅读,好像也能接受。
四、其他要注意的内容
1 保存到数据库并不会节省硬盘空间
虽然数据集压缩包总计没有100GB,
但解压缩后全部CSV文件容量迫近400GB
而导入数据库并不会对文件进行压缩,同时因为存在索引文件的关系,容量反而会有所增加,例如原本800MB的CSV,导入完成后会达到943MB。
笔者认为,无论是保存CSV方案还是导出数据库方案,都更适合于整个法务部、法律团队乃至律所整体使用。
个人单独保存和使用可能成本较高。
把数据库文件保存到内网后,Antares SQL同样可以打开,且数据库特点就是允许多人同时连接,避免了Excel无法打开同一个文件的烦恼。
2 请生成完成后注意不要重复点击生成
因时间、成本以及习惯关系,笔者的软件内并没有增加验证数据重复的内容,如果再次点击生成,将会把新的数据直接追加到数据库中。
同理,导入成功的文件建议直接挪出input文件夹(如果是自定义文件夹的,可以考虑挪开原位),避免不小心重复导入。
虽然可以通过代码去重,但还是挺麻烦的。
3 能力有限,可能有BUG
因本人非编程专业,全部代码都是凭爱好自学而来,因此可能有BUG,烦请见谅。
代码全部基于Python原生库以及Pandas库,不包含任何病毒或危害代码,
如有报毒,必定误报。
五、软件下载地址
虽然本人并不认为有多少读者会着手打造自己的数据库(甚至可能很多人只是把数据集保存到了百度网盘而没有下载到本地),但万一呢?
因此,本人直接开源这个小脚本,相关代码可以通过以下链接获取:
https://github.com/ByronLeeeee/CreateChineseCasesDB
打包好的软件(通常复制到迅雷就可以下载)
https://github.com/ByronLeeeee/CreateChineseCasesDB/releases/download/main/CCCDB.exe
如因网络问题无法连接Github网站下载,请联系笔者。
Antares-SQL的官网地址如下:
但可能存在网络链接问题,可把以下链接通过迅雷等软件下载:
Win安装版:
https://github.com/antares-sql/antares/releases/download/v0.7.20/Antares-0.7.20-win_x64.exe
Win绿色版:
https://github.com/antares-sql/antares/releases/download/v0.7.20/Antares-0.7.20-portable.exe
Mac版:
https://github.com/antares-sql/antares/releases/download/v0.7.20/Antares-0.7.20-mac_x64.dmg
六、其他
制作这个软件本来只是为了自用,但发现最终解压缩的文件居然高达400GB,也让人深感“肉疼”。相信更加打断了大部分人创建本地数据库的想法。
不过“裁判文书网下架”的传言的确沸沸扬扬,保存一份数据在本地,对于大部分法律工作者的工作还是有帮助的。
最起码部分不舍得付费的用户,可以不用继续被迫忍受收费案例数据库的限制了。
如果觉得这个软件有帮助,可以转发给身边的法律工作朋友哦
如果是公司的话,转发给IT,让IT搭建一个也不麻烦就是了
北京市隆安(广州)律师事务所律师、隆安湾区人工智能法律研究中心高级顾问。具有近十年互联网法律实务经验,曾先后为创业板上市互联网企业、全国互联网综合实力 50 强企业、互联网快时尚零售独角兽等互联网企业提供法律服务,擅长办理互联网类企业诉讼与合规业务,擅于通过计算机技术手段深度挖掘证据。
您可以通过以下方式联系我: 电子邮箱:liboyang@lslby.com 微信号:legal-lby