FunASR离线实时语音转文字
FunASR离线实时语音转文字
FunASR(Fun Audio Speech Recognition)是阿里达摩院开源的语音识别工具,离线版支持本地音频转写,通过 Docker 部署可快速搭建环境,避免依赖冲突。以下是完整的部署步骤
拉取镜像
CPU版
1 | docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7 |
运行容器
启动容器(映射端口+挂载目录)
1 | nohup bash run_server.sh \ |
命令完整解析
| 参数 | 作用说明 |
|---|---|
| nohup | 后台运行脚本,忽略挂起信号,退出终端后服务仍运行 |
| –download-model-dir /workspace/models | 模型下载 / 存放目录(统一管理 VAD/ASR/ 标点等模型) |
| –vad-dir | 指定 VAD 模型(语音端点检测,分割静音 / 有效语音) |
| –model-dir | 核心 ASR 模型(带 VAD + 标点的 Paraformer 大模型,ONNX 版更轻量化) |
| –punc-dir | 标点恢复模型(转写结果自动加标点) |
| –lm-dir | 语言模型(优化识别准确率,尤其是生僻词 / 专业术语) |
| –itn-dir | 逆文本规范化(将数字 / 符号转为汉字,如 “123”→”一百二十三”) |
| –certfile 0 | 关闭 HTTPS 证书(仅 HTTP 服务,生产环境建议配置证书) |
| –hotword /workspace/models/hotwords.txt | 热词文件(提升专业词汇识别率,如行业术语、人名) |
| > log.txt 2>&1 | 日志重定向:标准输出 / 错误输出都写入 log.txt |
查看运行日志
1 | tail -f log.txt |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Ctrl+C 工程师!