发布网友 发布时间:11小时前
共1个回答
热心网友 时间:11小时前
语音识别是一项从音频中提取语言文字内容的任务。流式语音识别允许用户将语音分段以流式输入,模型在收到分段语音的同时进行特征提取和解码,显著缩短获取最终结果的时间,提升用户体验。常见的流式语音识别模型包括Deepspeech2与Conformer。
Deepspeech2模型主要由特征提取、编码器与CTC解码器组成。特征提取模块将音频转换为频域信息。编码器使用多层神经网络编码特征,CTC解码器采用CTC损失函数训练,输出文本结果。
流式推理过程中,模型接收的语音数据以chunk形式输入,每个chunk的最小长度与模型结构相关,模型每一步的输出对应7帧输入。CTC解码器有三种方式:贪婪搜索、Beam搜索与Prefix Beam搜索,它们分别在不同阶段生成候选结果,最终解码为文字。
CTC解码结果的最终分数包含声学模型、语言模型与长度惩罚分。N-gram语言模型用于提升解码结果的准确性。
Conformer模型包含Encoder与Decoder,Encoder中加入卷积模块,结构与Transformer相似但有特殊设计以支持流式解码。流式解码分为说话中与结束阶段,使用CTC解码与Attention重打分。
流式Conformer使用因果卷积减少高时延问题,带有mask的Attention作用范围,以适应流式解码。在解码过程中使用缓存减小冗余计算。
Deepspeech2与Conformer通过特殊设计支持流式输入,显著提高实时语音识别效率。关注PaddleSpeech GitHub仓库,了解基于飞桨的语音方向开源模型库,用于语音与音频任务开发。