2026.05.19

4 分钟阅读

Voice Agent

从唤醒、ASR、LLM 到 TTS 的整体框架梳理

Voice Agent 是一种融合了语音处理与大语言模型推理能力的智能体，能够实现实时、自然、类人化的语音交互体验，就像钢铁侠的贾维斯。

Framework

系统架构：唤醒 → 录音 → ASR(STT) → NLP/LLM → 文本回复 → TTS播放 / 动作行为

唤醒（Wake）：边缘设备检测唤醒词，启动交互。
录音（Recording）：采集用户语音。
ASR/STT（Speech to Text）：将语音转换为文本。
NLP/LLM：理解意图、生成回复。
文本回复：处理回复内容。
TTS播放 / 动作行为：合成语音输出或执行控制动作。

Wake (Edge Side)

设备通常在本地（边缘端）完成，低功耗、低延迟、隐私，当检测到预设唤醒词（如“Hey Siri”或“Alexa”）时，系统激活后续流程。

麦克风采集音频 → 本地唤醒词检测（Wake Word） → 唤醒成功 → 启动录音 → 上传到云端（HTTP / WebSocket / MQTT）

常见技术 / 框架

PocketSphinx，适合嵌入式设备。
ESP-SR 乐鑫语音识别框架
Jasper / Porcupine（Picovoice）
Snowboy（经典开源唤醒引擎（虽已停更，但仍被广泛使用）

ASR/ STT

ASR = Automatic Speech Recognition ，语音识别，语音转文字。实现声音 → 文字，不理解语义

常见技术 / 框架

本地部署
- Kaldi（经典开源 ASR），广泛用于学术和工业研究，有大量书籍和教程资源。
- ESP-SR
云端 API
- 科大讯飞 ASR
- 百度 DuerOS
- 微软 Azure Speech to Text
- OpenAI Whisper：开源，可部署本地。 https://github.com/openai/whisper

NLP / LLM

这是 Voice Agent 的“大脑”：文本 → NLP / LLM → 意图识别 / 对话理解 / 回复内容

传统 NLP：Natural Language Processing，自然语言处理）

指令型设备控制，“打开灯 / 调大音量”

现代 LLM：（Natural Language Processing，自然语言处理）

语义理解
多轮对话
推理
调用工具（Agent / MCP）

常见LLM技术 / 框架

DeepSeek
Qwen 通义千问
OpenAI GPT-4o

Agent / MCP

MCP（Model Context Protocol）

LLM → Agent 决策 → 调用工具 / API / 设备

MCP (Model Context Protocol)：旨在让 AI 能够更标准化地访问本地数据和工具。

TTS

Text-To-Speech，语音合成，用于给出语音应答相当于嘴巴，可定制不同声色。文本 → TTS引擎 → 音频

常见技术 / 框架

OpenAI
科大讯飞 TTS
GPT-SoVITS
百度 TTS
Azure Speech TTS
IndexTTS（开源）
ESP-TTS（嵌入式）、
Apple macos say：主要部署在mac电脑，利于使用系统API

Action & Control

控制协议：MQTT 智能家居联网，HTTP

平台：Home Assistant

拓展：

多模态 Multi-modal Agent：给智能体设备添加摄像头，通过ImageData，VideoData，理解看到场景，做决策。

About Project：

小智：https://xiaozhi.dev/docs/

悟空机器人：https://wukong.hahack.com/#/

志辉君迷你语音助手机器人 Pico ： https://zhihui.lingjun.life/2019/07/15/pico/

Jasper：https://github.com/jasperproject/jasper-client

API：

科大讯飞：https://www.xfyun.cn/doc/

百度：https://dueros.baidu.com/open

微软Azure：https://azure.microsoft.com/zh-cn/products/ai-foundry/tools/speech

Other

边缘侧设备选型：重点在于支持网络连接（Wi-Fi/Bluetooth/Ethernet）与本地唤醒词和TTS的运算。

MPU：瑞芯微 / 全志 / 晶晨 / Raspberry Pi
MCU: ESP32S3 , ESP32C3

可能的成本：

个性化的唤醒词与音色,需要GPU训练
部署LLM（如 Qwen,DeepSeek）的服务器或使用厂商的API key
MQTT 云服务
ASR/TTS 服务：云 API

技术实现

前端： ESP32-S3-BOX3 https://github.com/espressif/esp-box

后端：SpringBoot APP

ASP：DoubleASP
TTS：DoubleTTS
LLM：DeepSeek

WebSocket API

小智 AI开源链接：https://github.com/78/xiaozhi-esp32/blob/main/README_zh.md

小智 AI手册：https://my.feishu.cn/wiki/F5krwD16viZoF0kKkvDcrZNYnhb

开发环境

https://icnynnzcwou8.feishu.cn/wiki/JEYDwTTALi5s2zkGlFGcDiRknXf

GitHub Discussions

评论区

使用 GitHub 登录，欢迎友好交流。

Framework

Wake (Edge Side)

ASR/ STT

NLP / LLM

Agent / MCP

TTS

Action & Control

拓展：

About Project：

Other

技术实现

WebSocket API

开发环境

相关文章

Claude Code CLI 使用指南

Claude Code 更高权限设置

DeepSeek 本地部署配置

评论区