语音识别转文字工具

Discord / Q群 902124277

语音识别转文字工具

这是一个离线运行的本地语音识别转文字工具，基于 openai-whipser 开源模型，可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。

部署或下载后，双击 start.exe 自动调用本地浏览器打开本地网页。

拖拽或点击选择要识别的音频视频文件，然后选择发声语言、输出文字格式、所用模型(已内置base模型),点击开始识别，识别完成后以所选格式输出在当前网页。

全过程无需联网，完全本地运行，可部署于内网

openai-whisper 开源模型有 base/small/medium/large/large-v3, 内置base模型，base->large-v3识别效果越来越好，但所需计算机资源也更多，根据需要可自行下载后放到 models 目录下即可。

全部模型下载地址

视频演示

cn-stt.mp4

预编译Win版使用方法/Linux和Mac源码部署

点击此处打开Releases页面下载预编译文件
下载后解压到某处，比如 E:/sts
双击 start.exe ，等待自动打开浏览器窗口即可
点击页面中的上传区域，在弹窗中找到想识别的音频或视频文件，或直接拖拽音频视频文件到上传区域，然后选择发生语言、文本输出格式、所用模型，点击“立即开始识别”，稍等片刻，底部文本框中会以所选格式显示识别结果
如果机器拥有英伟达GPU，并正确配置了CUDA环境，将自动使用CUDA加速

源码部署(Linux/Mac/Window)

要求 python 3.9->3.11
创建空目录，比如 E:/sts, 在这个目录下打开 cmd 窗口，方法是地址栏中输入 cmd, 然后回车。

使用git拉取源码到当前目录 git clone git@github.com:jianchang512/sts.git .
创建虚拟环境 python -m venv venv
激活环境，win下命令 %cd%/venv/scripts/activate，linux和Mac下命令 source ./venv/bin/activate
安装依赖: pip install -r requirements.txt,如果报版本冲突错误，请执行 pip install -r requirements.txt --no-deps
win下解压 ffmpeg.7z，将其中的ffmpeg.exe和ffprobe.exe放在项目目录下, linux和mac 到 ffmpeg官网下载对应版本ffmpeg，解压其中的ffmpeg和ffprobe二进制程序放到项目根目录下
下载模型压缩包，根据需要下载模型，下载后将压缩包里的 xx.pt 文件放到项目根目录的 models 文件夹内
执行 python start.py ，等待自动打开本地浏览器窗口。

CUDA 加速支持

安装CUDA工具

如果你的电脑拥有 Nvidia 显卡，先升级显卡驱动到最新，然后去安装对应的 CUDA Toolkit 11.8 和 cudnn for CUDA11.X。

安装完成成，按Win + R,输入 cmd然后回车，在弹出的窗口中输入nvcc --version,确认有版本信息显示，类似该图

然后继续输入nvidia-smi,确认有输出信息，并且能看到cuda版本号，类似该图

然后执行 `python testcuda.py`，如果提示成功，说明安装正确，否则请仔细检查重新安装

注意事项

如果没有英伟达显卡或未配置好CUDA环境，不要使用 large/large-v3 模型，可能导致内存耗尽死机
中文在某些情况下会输出繁体字

致谢

本项目主要依赖的其他项目

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
models		models
static		static
stslib		stslib
templates		templates
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
ffmpeg.7z		ffmpeg.7z
requirements.txt		requirements.txt
start.py		start.py
sts-master.zip		sts-master.zip
testcuda.py		testcuda.py
version.json		version.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

语音识别转文字工具

视频演示

预编译Win版使用方法/Linux和Mac源码部署

源码部署(Linux/Mac/Window)

CUDA 加速支持

注意事项

致谢

About

Uh oh!

Releases 7

Uh oh!

Contributors 6

Languages

License

jianchang512/stt

Folders and files

Latest commit

History

Repository files navigation

语音识别转文字工具

视频演示

预编译Win版使用方法/Linux和Mac源码部署

源码部署(Linux/Mac/Window)

CUDA 加速支持

注意事项

致谢

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 7

Uh oh!

Contributors 6

Languages