WhisperLiveKit
WhisperLiveKit 是一个支持实时语音转文字(STT)及说话人识别的工具,具有以下核心功能和特性:
- 功能:提供超低延迟的语音识别,支持多语言翻译(NLLB)、说话人识别(Diarization)及 LoRA 模型微调,适用于会议记录、无障碍辅助、媒体内容生成等场景。
- 使用方法:通过命令行参数配置后端策略(如 SimulStreaming 或 LocalAgreement)、语音活动检测(VAD)、SSL 证书、翻译选项等,支持 Docker 部署(含 GPU/CPU 优化)和 Nginx 生产环境配置。
- 特性:兼容多种后端(Faster-Whisper、MLX-Whisper、原生 Whisper),支持自定义音频缓冲参数(如帧阈值、最大上下文长度),提供 Docker 镜像加速部署,允许通过 Hugging Face 登录下载受限制模型。