FunASR离线实时语音转文字

FunASR（Fun Audio Speech Recognition）是阿里达摩院开源的语音识别工具，离线版支持本地音频转写，通过 Docker 部署可快速搭建环境，避免依赖冲突。以下是完整的部署步骤

拉取镜像

CPU版

1 2	docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7

运行容器

启动容器（映射端口+挂载目录）

nohup bash run_server.sh \
  --download-model-dir /workspace/models \
  --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
  --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx  \
  --punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
  --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
  --itn-dir thuduj12/fst_itn_zh \
  --certfile 0 \
  --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

命令完整解析

参数	作用说明
nohup	后台运行脚本，忽略挂起信号，退出终端后服务仍运行
–download-model-dir /workspace/models	模型下载 / 存放目录（统一管理 VAD/ASR/ 标点等模型）
–vad-dir	指定 VAD 模型（语音端点检测，分割静音 / 有效语音）
–model-dir	核心 ASR 模型（带 VAD + 标点的 Paraformer 大模型，ONNX 版更轻量化）
–punc-dir	标点恢复模型（转写结果自动加标点）
–lm-dir	语言模型（优化识别准确率，尤其是生僻词 / 专业术语）
–itn-dir	逆文本规范化（将数字 / 符号转为汉字，如 “123”→”一百二十三”）
–certfile 0	关闭 HTTPS 证书（仅 HTTP 服务，生产环境建议配置证书）
–hotword /workspace/models/hotwords.txt	热词文件（提升专业词汇识别率，如行业术语、人名）
> log.txt 2>&1	日志重定向：标准输出 / 错误输出都写入 log.txt

查看运行日志

1	tail -f log.txt