基于阿里语音转文本AI大模型的简易封装应用

一、前言

在AI时代，大量AI大模型层出不穷，囊括了生活的方方面面。

但遗憾的是，这些大模型往往与涉密行业有着极大的冲突

【隐私泄露】

这些大模型通常由各公司所提供，要使用这些模型，需要把数据或者资料上传到这些公司。

虽然大公司们总会拍胸脯保证不会偷看资料内容。

但谁又能保证呢？

作为法律行业或其他保密岗位人员来说

泄露秘密=前途尽毁

还好我们可以本地部署大模型（甚至可离线使用），尽可能避免泄露数据的问题。

基于此，笔者基于魔搭社区（http://modelscope.cn）中，阿里巴巴通义实验室分享的语音转文本大模型，搭建了一个简易的应用。

工具完全开源，希望大家一起体验AI大模型的魅力。

（再也不用买某家好贵的语音转文本服务了）

二、仓库地址

可git clone，或直接下载仓库内全部文件

https://github.com/ByronLeeeee/SimpleSpeechTranscription

三、使用说明

项目使用了Gradio库作为WebUI，基本用法也硬编码到界面上，基本只需要放入音频-点击按钮转换-在本地文件夹找到输出的文本文件即可。

必备环境

– Python 3.10以上

– FFMPEG（为了转音频格式，提前准备、配置也可，如程序未发现也会自己下载安装）

– 代码仅在Windows环境下进行了测试，其他系统请自行测试

– 请通过以下方式安装依赖：

pip install -r requirements.txt

使用步骤

一共有4个文件夹，用途如上图。

【音频识别】

只需要把待转换的wav文件放到wav文件夹，支持同时识别多个文件。

打开程序或刷新网页即可自动读取出可识别的音频文件列表，点击【开始识别】按钮即可进行语音转换文本。

成功转换后，右侧会出现首个文件的全文结果：

同时在output文件夹生成和音频同名称的两个txt文件

目前笔者在魔搭中预先找了一些模型：

其他模型可以在魔搭寻找，把模型链接粘贴到modellist.ini文件中，重启程序即可：

【格式转换】

因模型通常只支持wav格式文件针对MP3/FLAC等格式的音频文件需要进行转换

只需要把音频文件放到input文件夹，然后点击转换即可

转换成功后会自动保存到wav文件夹，切换回“识别音频”标签页或者刷新网页后即可看到转换后的文件。

四、补充

【下载速度慢】

首次使用模型会先进行下载，然后魔搭目前下载速度不一定稳定，可能会耗费时间较长，请耐心等候。

也可以直接在网页中下载模型放到本地路径。

【请勿更新modelscope和funasr库】

阿里最近更新了modelscope和funasr库，但调用方式和以往完全不同。

本工具代码并不支持新库的调用方式，请保持requirements.txt中的版本号

funasr==0.8.7
modelscope==1.9.5

如有其他使用问题，欢迎留言或github提issues。

李伯阳

北京市隆安(广州)律师事务所律师、隆安湾区人工智能法律研究中心高级顾问。具有近十年互联网法律实务经验，曾先后为创业板上市互联网企业、全国互联网综合实力 50 强企业、互联网快时尚零售独角兽等互联网企业提供法律服务，擅长办理互联网类企业诉讼与合规业务，擅于通过计算机技术手段深度挖掘证据。

您可以通过以下方式联系我：电子邮箱：liboyang@lslby.com 微信号：legal-lby

阅读数: 505