33-声学前端模型ESP-SR

用户5985

2025年4月3日修改

ESP-SR 是乐鑫官方开发的一个音频组件，支持以下模块：

•

•

•

•

组件地址：https://components.espressif.com/components/espressif/esp-sr/versions/2.0.2

声学前端 (Audio Front-End, AFE) 算法

由于语音交互类设备需要保证能够采集干净的音频，所以在读取麦克风的音频后，需要进行一系列的算法处理，例如AEC、NS、BSS、MISO、VAD、AGC等​

例如语音通过使用的算法

common.docs_name - LarkCCM_Docs_Menu_Image

WakeNet 唤醒词检测

WakeNet 是一个基于神经网络，为低功耗嵌入式 MCU 设计的唤醒词模型，目前支持 5 个以内的唤醒词识别，对于需要支持唤醒词功能的应用，我们可以把经过AFE算法处理的音频输入给WakeNet模型，得到唤醒状态，模型支持的音频格式如下：输入的音频文件采样率为 16 KHz，单声道，编码方式为 signed 16-bit。。​

例如语音识别使用的算法：

MultiNet 是为了在 ESP32-S3 系列上离线实现多命令词识别而设计的轻量化模型，目前支持 200 个以内的自定义命令词识别。​

•
支持中文和英文命令词识别​

•
支持用户自定义命令词​

•
支持运行过程中 增加/删除/修改 命令词语​

•
最多支持 200 个命令词​

•
支持单次识别和连续识别两种模式​

•
轻量化，低资源消耗​

•
低延时，延时 500 ms内​

•
支持在线中英文模型切换​

•
模型单独分区，支持用户应用 OTA​

乐鑫 TTS 语音合成模型是一个为嵌入式系统设计的轻量化语音合成系统，具有如下主要特性：​

•
目前 仅支持中文​

•
输入文本采用 UTF-8 编码​

33-声学前端模型ESP-SR​

33-声学前端模型ESP-SR