FunASR离线实时语音转文字

FunASR(Fun Audio Speech Recognition)是阿里达摩院开源的语音识别工具,离线版支持本地音频转写,通过 Docker 部署可快速搭建环境,避免依赖冲突。以下是完整的部署步骤

拉取镜像

CPU版

1
2
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7

运行容器

启动容器(映射端口+挂载目录)

1
2
3
4
5
6
7
8
9
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
--model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
--itn-dir thuduj12/fst_itn_zh \
--certfile 0 \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

命令完整解析

参数 作用说明
nohup 后台运行脚本,忽略挂起信号,退出终端后服务仍运行
–download-model-dir /workspace/models 模型下载 / 存放目录(统一管理 VAD/ASR/ 标点等模型)
–vad-dir 指定 VAD 模型(语音端点检测,分割静音 / 有效语音)
–model-dir 核心 ASR 模型(带 VAD + 标点的 Paraformer 大模型,ONNX 版更轻量化)
–punc-dir 标点恢复模型(转写结果自动加标点)
–lm-dir 语言模型(优化识别准确率,尤其是生僻词 / 专业术语)
–itn-dir 逆文本规范化(将数字 / 符号转为汉字,如 “123”→”一百二十三”)
–certfile 0 关闭 HTTPS 证书(仅 HTTP 服务,生产环境建议配置证书)
–hotword /workspace/models/hotwords.txt 热词文件(提升专业词汇识别率,如行业术语、人名)
> log.txt 2>&1 日志重定向:标准输出 / 错误输出都写入 log.txt

查看运行日志

1
tail -f log.txt