下载了裁判文书数据发现Excel打不开? | 分享一个便捷办法制作本地数据库

近日,“裁判文书网要停止运营”的传言沸沸扬扬,许多法律人都担心再也找不到判决书,无法进行法律研究。

突然,网上开始流传了一份近95G的裁判文书数据库,包括了从1985年到2021的大部分公开裁判文书。

一时间,法律人纷纷打开某度网盘,开启了“狂热下载模式”。

但下载完成后,面对着一堆CSV文件可能无从下手

这格式看起来Excel可以打开,

但怎么有的能打开,有的什么都不显示呢?

这究竟要怎么用呢?

【本文提及的软件下载地址均在文章最后】

*本文仅为笔者个人观点,不视为任何法律建议或法律意见。

一、如何用Excel打开超大CSV文件

CSV文件是一种常见的文本文件格式,其全称是“逗号分隔值”(Comma-Separated Values)。它是一种用于存储表格数据的简单文本文件格式,其中每一行表示表格中的一行记录,而每个字段(列)之间由逗号或其他分隔符分隔。

Excel可以直接打开一些较小的CSV文件。打开后我们可以发现CSV文件看起来和普通Excle文件好像没什么两样。

但当我们打开数据集中某个超大的CSV文件(例如2020年6月的数据集就达到了11GB),则会发现Excel什么都不会显示。

原因在于,条目数超出Excle允许的上限太多了。

Excel允许打开的CSV文件大小上限大概为2GB,面对着超过2GB的庞然大物

Excel直接选择了罢工。

不过微软也给出了一种打开超大CSV文件的办法:

大概位置在这里

选择3GB以上的数据集文件,的确可以成功打开

点击【加载】按钮后,点击界面右方的【文书数据】,就会进入一个Power Query编辑器的界面。

加载期间无法进行数据查询。

如果此时手多再点击几下界面,可能就会出现熟悉的“未响应”

就算正常打开了,操作界面也不够“直观”,需要更多的学习才能用上。

因为笔者不会使用Excel去管理超大CSV文件,有耐心的读者朋友可以参考微软的官方教程,看看如何使用:

https://learn.microsoft.com/zh-cn/power-query/

二、大数据时代,我选择代码帮助

CSV文件的另一个管理办法,是把它们导入到一个数据库文件中,再用数据库工具进行管理、查询、导出数据。

大数据时代,最热门的编程语言是Python

所以笔者用Python编写了一个简单的脚本程序

以便把全部CSV文件导入数据库

虽然很多付费的SQL数据库软件会有导入CSV的功能

不过一来要付费,二来破解不合规

还是自己做的更有性价比

为了方便使用,还顺便做了一个简单的GUI

不得不吐槽一句,做界面的时间和做功能差不多

这个小程序的唯一功能是批量导入CSV文件到指定数据库。导入的CSV数据会存入同目录下的Chinese_Cases.db数据库文件,并创建基本索引。

程序默认会读取同目录下“inputCSV”文件夹内的全部CSV文件,也支持通过手动输入或点击【选择CSV文件夹】按钮,在弹出的窗口中选择其他文件目录。

选择好CSV文件目录后,程序会递归遍历该目录下的全部子文件夹,读取其中的CSV文件。

因此,如果只想导入特定目录里的CSV文件,需要精确选择子文件夹(例如“2001年”文件夹);如果选择上层目录,则会自动导入全部子文件夹的CSV文件。

选择好文件夹后,只需要点击【创建数据库】,即可开始创建流程

创建所需的时长视乎需要导入的文件大小以及电脑硬件性能

如果要把全部数据都导入的话,会需要一段“颇长”的时间

同时高频的存取可能会造成程序短暂卡死

因此创建时,建议不要随便拖动或者关闭窗口。

创建完成后,进度条会自动关闭,同时界面会出现“创建成功!”的提示,这时就可以直接右上角关闭软件。

打开脚本所在的文件夹,会发现已经生成了一个db(数据库)文件。

接下来还需要一个软件打开它。

三、用Antares SQL管理数据库文件

SQL管理数据库有很多,但很多不是英文的就是收费的,更重要的原因是,很多软件的界面还很“复古”,易用性不足。

笔者经过搜索对比,决定用Antares SQL管理这个数据库。

100%开源,100%免费,不仅有中文,界面也比较现代。

【非推广,开源软件真的业界良心】

首次开启后部分设备可能会有提示JAVA出错的弹窗,同时界面什么都不显示。不需要惊慌,这时只要重新打开一次软件就可以解决。

然后就可以切换到【General】页面,在【Language】栏目切换成“简体中文”。

而这个软件的使用方法也非常简单,只要三步:

1. 在【数据库类型】中选择”SQLite”

2. 数据库点击【浏览】,找到我们生成的“Chinese_Cases.db”,如果担心误操作,还能勾选上【只读模式】。

3. 然后点击【链接】

就可以浏览整个数据库的内容。

(为演示,笔者只导入了2010和2011年的数据)

如果要对数据进行搜索,只需要点击【放大镜】图标,按需输入与增加条件,然后点击【过滤器】按钮即可。

补充:

搜索条件有很多类型,笔者建议使用“LIKE”(模糊搜索)最为便捷。

对于确定性的内容,可以考虑用“=”(精确搜索)进行限定。

2010年的总条目大概有十五万条

在输入了三个搜索条件后,一共搜出了74条合适的结果,

总耗时:0.438秒

而要查看搜索结果的判决全文,只需要把表格拖到最右方,双击【全文】列下的单元格即可。

“全文”内容是纯文本,可随便复制。

不过可惜的是,数据集中的判决书全文都没有附带格式,直接浏览起来会略微有点麻烦。如果要复制到Word文档,还需要重新排版(也许以后可以通过程序解决)。

不过既然是AI时代了,直接扔给AI来阅读,好像也能接受。

四、其他要注意的内容

保存到数据库并不会节省硬盘空间

虽然数据集压缩包总计没有100GB,

但解压缩后全部CSV文件容量迫近400GB

而导入数据库并不会对文件进行压缩,同时因为存在索引文件的关系,容量反而会有所增加,例如原本800MB的CSV,导入完成后会达到943MB。

笔者认为,无论是保存CSV方案还是导出数据库方案,都更适合于整个法务部、法律团队乃至律所整体使用。

个人单独保存和使用可能成本较高。

把数据库文件保存到内网后,Antares SQL同样可以打开,且数据库特点就是允许多人同时连接,避免了Excel无法打开同一个文件的烦恼。

2 请生成完成后注意不要重复点击生成

因时间、成本以及习惯关系,笔者的软件内并没有增加验证数据重复的内容,如果再次点击生成,将会把新的数据直接追加到数据库中。

同理,导入成功的文件建议直接挪出input文件夹(如果是自定义文件夹的,可以考虑挪开原位),避免不小心重复导入。

虽然可以通过代码去重,但还是挺麻烦的。

3 能力有限,可能有BUG

因本人非编程专业,全部代码都是凭爱好自学而来,因此可能有BUG,烦请见谅。

代码全部基于Python原生库以及Pandas库,不包含任何病毒或危害代码,

如有报毒,必定误报。

五、软件下载地址

虽然本人并不认为有多少读者会着手打造自己的数据库(甚至可能很多人只是把数据集保存到了百度网盘而没有下载到本地),但万一呢?

因此,本人直接开源这个小脚本,相关代码可以通过以下链接获取:

https://github.com/ByronLeeeee/CreateChineseCasesDB

打包好的软件(通常复制到迅雷就可以下载)

https://github.com/ByronLeeeee/CreateChineseCasesDB/releases/download/main/CCCDB.exe

如因网络问题无法连接Github网站下载,请联系笔者。

Antares-SQL的官网地址如下:

https://antares-sql.app/

但可能存在网络链接问题,可把以下链接通过迅雷等软件下载:

Win安装版:

https://github.com/antares-sql/antares/releases/download/v0.7.20/Antares-0.7.20-win_x64.exe

Win绿色版:

https://github.com/antares-sql/antares/releases/download/v0.7.20/Antares-0.7.20-portable.exe

Mac版:

https://github.com/antares-sql/antares/releases/download/v0.7.20/Antares-0.7.20-mac_x64.dmg

六、其他

制作这个软件本来只是为了自用,但发现最终解压缩的文件居然高达400GB,也让人深感“肉疼”。相信更加打断了大部分人创建本地数据库的想法。

不过“裁判文书网下架”的传言的确沸沸扬扬,保存一份数据在本地,对于大部分法律工作者的工作还是有帮助的。

最起码部分不舍得付费的用户,可以不用继续被迫忍受收费案例数据库的限制了。

如果觉得这个软件有帮助,可以转发给身边的法律工作朋友哦

如果是公司的话,转发给IT,让IT搭建一个也不麻烦就是了

滚动至顶部