Discord / Q群 902124277
这是一个离线运行的本地语音识别转文字工具,基于 openai-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。
部署或下载后,双击 start.exe 自动调用本地浏览器打开本地网页。
拖拽或点击选择要识别的音频视频文件,然后选择发声语言、输出文字格式、所用模型(已内置base模型),点击开始识别,识别完成后以所选格式输出在当前网页。
全过程无需联网,完全本地运行,可部署于内网
openai-whisper 开源模型有 base/small/medium/large/large-v3, 内置base模型,base->large-v3识别效果越来越好,但所需计算机资源也更多,根据需要可自行下载后放到 models 目录下即可。
cn-stt.mp4
-
点击此处打开Releases页面下载预编译文件
-
下载后解压到某处,比如 E:/sts
-
双击 start.exe ,等待自动打开浏览器窗口即可
-
点击页面中的上传区域,在弹窗中找到想识别的音频或视频文件,或直接拖拽音频视频文件到上传区域,然后选择发生语言、文本输出格式、所用模型,点击“立即开始识别”,稍等片刻,底部文本框中会以所选格式显示识别结果
-
如果机器拥有英伟达GPU,并正确配置了CUDA环境,将自动使用CUDA加速
-
要求 python 3.9->3.11
-
创建空目录,比如 E:/sts, 在这个目录下打开 cmd 窗口,方法是地址栏中输入
cmd, 然后回车。使用git拉取源码到当前目录
git clone git@github.com:jianchang512/sts.git . -
创建虚拟环境
python -m venv venv -
激活环境,win下命令
%cd%/venv/scripts/activate,linux和Mac下命令source ./venv/bin/activate -
安装依赖:
pip install -r requirements.txt,如果报版本冲突错误,请执行pip install -r requirements.txt --no-deps -
win下解压 ffmpeg.7z,将其中的
ffmpeg.exe和ffprobe.exe放在项目目录下, linux和mac 到 ffmpeg官网下载对应版本ffmpeg,解压其中的ffmpeg和ffprobe二进制程序放到项目根目录下 -
下载模型压缩包,根据需要下载模型,下载后将压缩包里的 xx.pt 文件放到项目根目录的 models 文件夹内
-
执行
python start.py,等待自动打开本地浏览器窗口。
安装CUDA工具
如果你的电脑拥有 Nvidia 显卡,先升级显卡驱动到最新,然后去安装对应的 CUDA Toolkit 11.8 和 cudnn for CUDA11.X。
安装完成成,按Win + R,输入 cmd然后回车,在弹出的窗口中输入nvcc --version,确认有版本信息显示,类似该图
然后继续输入nvidia-smi,确认有输出信息,并且能看到cuda版本号,类似该图
然后执行 `python testcuda.py`,如果提示成功,说明安装正确,否则请仔细检查重新安装
- 如果没有英伟达显卡或未配置好CUDA环境,不要使用 large/large-v3 模型,可能导致内存耗尽死机
- 中文在某些情况下会输出繁体字
本项目主要依赖的其他项目