分享
33-声学前端模型ESP-SR
输入“/”快速插入内容
33-声学前端模型ESP-SR
用户5985
用户5985
2025年4月3日修改
ESP-SR 是乐鑫官方开发的一个音频组件,支持以下模块:
•
声学前端算法 AFE
•
唤醒词检测 WakeNet
•
命令词识别 MultiNet
•
语音合成(目前只支持中文)
组件地址:
https://components.espressif.com/components/espressif/esp-sr/versions/2.0.2
声学前端 (Audio Front-End, AFE) 算法
由于语音交互类设备需要保证能够采集干净的音频,所以在读取麦克风的音频后,需要进行一系列的算法处理,例如AEC、NS、BSS、MISO、VAD、AGC等
例如语音通过使用的算法
WakeNet 唤醒词检测
WakeNet 是一个基于神经网络,为低功耗嵌入式 MCU 设计的唤醒词模型,目前支持 5 个以内的唤醒词识别,对于需要支持唤醒词功能的应用,我们可以把经过AFE算法处理的音频输入给WakeNet模型,得到唤醒状态,模型支持的音频格式如下:输入的音频文件采样率为 16 KHz,单声道,编码方式为 signed 16-bit。。
例如语音识别使用的算法:
MultiNet 是为了在 ESP32-S3 系列上离线实现多命令词识别而设计的轻量化模型,目前支持 200 个以内的自定义命令词识别。
•
支持中文和英文命令词识别
•
支持用户自定义命令词
•
支持运行过程中 增加/删除/修改 命令词语
•
最多支持 200 个命令词
•
支持单次识别和连续识别两种模式
•
轻量化,低资源消耗
•
低延时,延时 500 ms内
•
支持在线中英文模型切换
•
模型单独分区,支持用户应用 OTA
乐鑫 TTS 语音合成模型是一个为嵌入式系统设计的轻量化语音合成系统,具有如下主要特性:
•
目前
仅支持中文
•
输入文本采用 UTF-8 编码