CN119601036A

CN119601036A - 一种基于事件级检测技术的呼吸音识别方法

Info

Publication number: CN119601036A
Application number: CN202510122041.6A
Authority: CN
Inventors: 张明辉; 董高杨; 王建鸿; 沈雨飞; 吴佳凯; 孙萍
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2025-01-26
Filing date: 2025-01-26
Publication date: 2025-03-11

Abstract

本发明提供了一种基于事件级检测技术的呼吸音识别方法，属于音频信号识别技术领域。针对现有方法对呼吸音事件检测不准确的问题，本发明提供的一种基于事件级检测技术的呼吸音识别方法，基于分层令牌语义音频Transformer构建呼吸音识别模型检测异常呼吸音事件，提高了呼吸音事件的检测准确度和速度，从而提高临床呼吸疾病的诊断效率。

Description

一种基于事件级检测技术的呼吸音识别方法

技术领域

本发明涉及音频信号识别技术领域，尤其涉及一种基于事件级检测技术的呼吸音识别方法。

背景技术

呼吸系统疾病是高发和高致亡率的疾病，早发现、早诊断、早治疗具有积极的临床意义。呼吸声音是呼吸过程中产生的噪音，它揭示了呼吸系统的正常或异常状态，常见的异常呼吸音包括肺部发出的爆裂音、喘鸣音、干啰音和喘鸣音。识别异常呼吸音在临床医学中起着至关重要的作用，传统的呼吸音识别方法主要依赖于手持式听诊器，这种方法受医生诊断经验和主观判断力所影响，且无法定量分析。近年来，研究人员利用计算机算法对呼吸音进行处理和分析，从而实现自动化和定量化识别呼吸音。

目前，呼吸音识别主要采用基于帧的事件检测方法，将每个音频帧划分为一个事件类别，然后汇集连续的帧级预测，以识别声音事件的边界。在帧级方法中，输入音频信号被划分为固定长度的片段，每个片段中的声音事件被进一步独立分类。这种分割分类策略缺乏事件的时间序列信息，无法有效识别连续发生的事件。声音事件检测（Sound EventDetection，SED）技术是指在给定的音频信号中检测和分类特定的声音事件，并且确定这些事件的开始和结束时间。该技术可以描述事件的时序，在检测连续发生的事件时更为有效。

将声音事件检测技术应用于呼吸音识别中有助于进一步提高对呼吸疾病的诊断效率，然而目前这种方法还尚待研究。因此，本发明提供一种方案解决此问题。

发明内容

本发明的目的在于提供一种基于事件级检测技术的呼吸音识别方法，能够解决现有方法对呼吸音事件检测不准确的问题。

本发明提供的一种基于事件级检测技术的呼吸音识别方法，包括如下内容：

获取并预处理呼吸音数据构建训练集；

基于分层令牌语义音频Transformer构建初始模型，在Transformer编码器的每一层输入中添加位置编码，在Transformer解码器的每一层引入掩码多头自注意力机制；

基于训练集训练初始模型获得呼吸音识别模型；

基于呼吸音识别模型对呼吸音进行识别得到识别结果。

本发明提供的一种基于事件级检测技术的呼吸音识别方法，基于分层令牌语义音频Transformer构建呼吸音识别模型检测异常呼吸音事件，提高了呼吸音事件的检测准确度和速度，从而提高临床呼吸疾病的诊断效率。

可选地，所述呼吸音数据包括连续偶发音和不连续偶发音。

可选地，预处理呼吸音数据时，对数据集中的音频信号进行16kHz重采样并转换为梅尔频谱图。

可选地，预处理呼吸音数据时，对梅尔频谱图采用时间和频率掩蔽技术对选定的区域进行掩蔽再进行频带偏移。

可选地，所述初始模型由分层令牌语义音频Transformer、Transformer编码器、Transformer解码器和前馈神经网络组成。

可选地，基于训练集训练初始模型获得呼吸音识别模型时，通过分层令牌语义音频Transformer提取梅尔频谱图的特征，利用一维位置编码结合所提取的特征通过Transformer编码器进一步训练，再通过Transformer解码器生成事件表示，最后利用前馈神经网络将生成的事件转换为事件检测结果，并利用匈牙利算法计算事件级损失。

可选地，利用匈牙利算法计算事件级损失时，损失函数包括位置损失函数和分类损失函数。

可选地，基于训练集训练初始模型获得呼吸音识别模型时，将所述训练集划分为训练数据和验证数据，基于所述训练数据对初始模型进行训练，基于所述验证数据对训练后的初始模型进行性能评估。

可选地，基于所述验证数据对训练后的初始模型进行性能评估，评估指标包括阳性预测值、灵敏度、阳性预测值和灵敏度的调和平均值。

可选地，基于呼吸音识别模型对呼吸音进行识别得到识别结果时，所述识别结果为呼吸音表示的事件类型和事件位置。

附图说明

图1为梅尔频谱图编码过程图；

图2为REDT模型结构组成图；

图3为Transformer编码器和解码器结构组成图；

图4为REDT模型训练过程图；

图5为REDT模型识别结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另外定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

本发明实施例提供了一种基于事件级检测技术的呼吸音识别方法，包括如下技术方案：

S1、获取并预处理呼吸音数据构建训练集；

S2、基于分层令牌语义音频Transformer(Hierarchical Token Semantic AudioTransformer，HTS-AT)构建初始模型，在Transformer编码器（Transformer Encoder)的每一层输入中添加位置编码，在Transformer解码器(Transformer Decoder)的每一层引入掩码多头自注意力机制；

S3、基于训练集训练初始模型获得呼吸音识别模型；

S4、基于呼吸音识别模型对呼吸音进行识别得到识别结果。

实际上在执行S1时，获取的呼吸音数据来源为HF_lung_V1公开数据集，采集自279名患者，包括9765个记录，每个记录持续时间为15秒，这是迄今为止最大的公开肺音记录数据集。该数据集包括34095个吸气（Inhalation）和18349个呼气（Exhalation），13883个连续偶发音（Continuous Adventitious Sounds，CAS）和15606个不连续偶发音（ContinuousAdventitious Sounds，DAS）；连续偶发音包括了8457个喘息事件、686个喘鸣事件和4740个干啰音事件，不连续偶发音全部为爆裂音事件。根据数据集作者提供的分割，将9765个记录分为7809个训练数据和1956个测试数据。

对用于训练和测试的呼吸音数据进行预处理，先对数据集中的音频信号进行16kHz重采样，参数设置为：nfft为1024，窗口大小为1024，hop大小为323，Mel filter大小为64。如图1所示，将数据转换为梅尔频谱图，对每个频谱图采用时间和频率掩蔽技术对选定的区域进行掩蔽再进行频带偏移，实现数据增强。

实际上在执行S2时，在有些呼吸音事件检测任务中，每个声音事件类别需要多个单独的模型进行检测。因此，在 HF_lung_V1 数据集中，吸气、呼气、CAS和DAS分别需要4个模型，这被称为单类多模型方法。这种方法无疑会增加对计算资源和存储空间的需求，而且很难在临床实践中应用。此外，呼吸音事件检测是一项典型的复音SED任务，需要同时识别多个重叠的呼吸音事件。为此，我们提出一种多类单模型REDT（Respiratory Sound EventDetection Transformer），只使用一个模型来检测所有呼吸声事件。如图2所示，REDT模型由HTS-AT、Transformer Encoder、Transformer Decoder和前馈神经网络（FeedforwardNeural Network，FFN）组成。

S21、HTS-AT用于提取梅尔频谱图的特征。HTS-AT基于Transformer深度学习模型架构，Transformer架构的核心是自注意力机制，这种机制使得模型能够处理序列数据中的长距离依赖问题，并且能够并行处理序列中的所有元素，这在传统的循环神经网络和卷积神经网络中是难以实现的。在呼吸音事件检测等音频处理任务中，采用Transformer作为特征提取部分，可以利用其强大的序列建模能力来提取音频信号中的关键特征，从而提高事件检测的准确性和鲁棒性。相比卷积神经网络，Transformer在处理序列数据时更加灵活，能够更好地捕捉音频信号中的时序信息和长距离依赖关系。

S22、Transformer编码器用于提取位置信息。如图3所示，Transformer 编码器由多个相同的Encoder Layer堆叠而成，每个Encoder Layer内部包含多头自注意力机制、位置编码、两个位置独立的层归一化层和两个残差连接，以及一个前馈神经网络。与标准Transformer的位置编码仅合并到Transformer的初始输入中形成鲜明对比，我们在每一层的输入中添加位置编码，以提高其定位能力。

S23、Transformer解码器用于生成事件表示。如图3所示，Transformer解码器的输入首先通过嵌入层转换成向量，同时加入位置编码以捕捉单词的位置信息。接着，输入数据经过N个解码器层的处理，每个解码器层包含掩码多头自注意力，它确保了在生成序列时不会泄露未来位置的信息；解码器关注编码器的输出并做出解码预测；以及前馈神经网络，用于对注意力层的输出进行进一步的非线性变换。最后，输出层是一个线性层后接softmax函数，它生成了每个时间戳对于呼吸音事件的概率分布。

S24、FFN是一种最基础的神经网络结构，它由多个层级组成，每个层级包含多个神经元。在FFN中，信息从输入层流向隐藏层，然后从隐藏层流向输出层，这个过程是单向的，没有反馈连接或循环。本模型中用了两个FFN，一个用于多标签的分类，一个用于时间戳的预测。

实际上在执行S3时，基于所述训练数据对初始模型进行训练时，如图4所示，先通过分层令牌语义音频Transformer提取梅尔频谱图的特征，利用一维位置编码结合所提取的特征通过Transformer 编码器进一步训练，再通过Transformer解码器用于生成事件，最后使用FFN将生成的事件转换为事件检测结果，并利用匈牙利算法计算事件级损失。

S31、提取特征

为了提高计算效率，利用HTS-AT将梅尔频谱图分割成更小的分区，然后应用滑动窗口的注意力机制提取特征，在保持高性能和轻量级的同时减少了训练时间和计算资源。

1）在Swim Transformer中，Patch Partition模块将大小为H×W×3的输入 RGB图像划分为相同大小的不重叠的patch，从而产生维度为 N × (P² × 3）。每个 P² × 3patch被视为一个patch token，总共被分割为N个，即Transformer 有效输入序列的长度。Swim Transformer中使用的补丁分区方法是为RGB图像设计的，不适用于音频的梅尔频谱图，其中时间和频率两个轴与图像中的水平轴和垂直轴不均匀，使用时间→频率→窗口来进行梅尔频谱图的补丁嵌入。

通过内核大小为（P × P）的Patch-Embed CNN 将音频梅尔频谱图分割成不同的patch token，然后依次输入到Transformer 中。与图像不同，音频梅尔频谱图的宽度和高度代表不同的信息，分别是时间和频率轴。一般来说，持续时间明显长于频率的跨度，为了更好地掌握同一时间范围内频率之间的关系，我们首先将梅尔频谱图划分为补丁窗口，例如 w1，w2，...，wn。之后，我们将补丁分割到每个窗口内。令牌序列按照时间、频率、最后窗口的顺序排列，在同一时间帧具有不同频率的补丁将在输入序列中相邻。

2）Patch Token将特征映射到任意维度（设置为 D），并且由于patch的数量为获得维度为 N × D 的矩阵。对于第 2 组、第 3 组和第 4 组，采用补丁合并层来减小序列大小。这一合并操作是通过将四个相邻补丁融合为一个来执行的，通道数量增加到四倍（4D）。然后添加一个线性层来将 4D 维度确定为 2D 维度，在四个网络组之后，补丁标记的形状从减少了8倍到，因此，每组之后 GPU 内存消耗呈指数下降。

对于组中的每个 Swin Transformer 块，采用窗口注意机制来降低计算复杂度。首先，注意力窗口分为aw1，aw2，…， awk，每个窗口包含 M × M 个补丁。然后我们只计算注意力窗口内的注意力矩阵。因此，我们拥有 k 个窗口注意力矩阵来代替整体全局注意力矩阵。对于大小为 f × t 且初始潜在维度为 D 的音频补丁标记，单个Transformer块中这两种机制的计算复杂度如下：

；

其中窗口注意力将第二个复杂度项减少 () 倍。对于按时间-频率-窗口序列排列的音频补丁令牌，每个窗口注意模块将计算连续频率仓和时间帧的特定范围内的关系。随着网络深入，Patch-Merge 层将合并相邻的窗口，从而能够在更大的空间中计算注意力关系。

S32、生成声音事件

为了在时间轴上进行类的定位，利用一维位置编码结合所提取的特征，通过Transformer 编码器进一步训练，它可以更好地注意到时域信息。最后，预测的时间戳由Transformer解码器实现，用于位置和类实现。

1）将一维位置编码集成到我们的模型中，这种编码机制使网络能够深入了解各个声音元素的时间定位，从而防止遗漏重要信息。从本质上讲，它增强了模型的时间感知，并确保对音频数据的全面分析。相应的公式可以表示为：

；

其中t、f是梅尔频谱图中的时间和频率，i是维度，d是Transformer注意力单元的数量。利用上式，我们可以推导出与形状相同的位置编码。其中是HTS-AT 提取的新特征图，T表示时间轴的维度，F表示频率轴的维度，d表示通道数。

2）将和P在时间和频率轴上展平以获得d×TF特征图和位置编码，再输入 Transformer编码器。Transformer将声音事件检测视为集成预测问题，并假设每个事件是独立的。因此，机器翻译任务中采用的标准自回归解码机制被丢弃。相反，解码器将N个学习的嵌入（称为事件查询）作为输入，并行输出N个事件表示，其中N是大于音频剪辑中事件的典型数量的超参数。最后，使用预测FFN将来自解码器的事件转换为事件检测结果，如

S33、计算事件损失

为了计算事件级损失，需要目标事件和预测事件之间的匹配，这种匹配可以通过匈牙利算法获得，不匹配的预测将被标记为“空”。损失函数由位置损失和分类损失组成：

；

位置损失是针对与“空”事件不匹配的预测（0）计算的，它是目标和预测位置向量之间的 L1 范数和 IOU 损失的线性组合：

；

其中、∈ R 是超参数，是匹配过程给出的分配，N是预测数量。分类损失是标签和预测之间的交叉熵：

；

S34、评估训练结果

基于所述验证数据对训练后的初始模型进行性能评估时，采用Jaccard相似度评价网络训练效果。通过将每个片段的预测结果与其对应的实际地面情况进行对比，计算实际地面情况与预测事件之间的Jaccard相似度。根据这一相似度，我们进行了如下分类：若Jaccard相似度大于0.5，则认为该预测为真阳性（True Positives，TP）；若相似度在0和0.5之间，则认为该预测为假阴性（False Negative，FN）；若相似度为零，则认为该预测为假阳性（False Positives，FP）。需要注意的是，在此事件检测任务中，我们无法定义真阴性（True Negative，TN）。为了评估我们的模型性能，我们采用阳性预测值（PositivePredictive Value，TPV）、灵敏度（Sensitivity，Se）、PPv和Se的调和平均值（F1 Score）。

1. 阳性预测值

阳性预测值评估模型在检测呼吸音事件时的准确性，即模型检测的事件中有多少是正确的，计算公式：

；

其中，TP 表示正确预测为阳性的样本数，FP 表示错误预测为阳性的样本数。

2. 灵敏度

灵敏度是评估模型在检测实际呼吸音事件时的能力，即实际发生的事件中有多少被正确检测到，计算公式如下：

；

其中，TP表示正确预测为阳性的样本数，FN 表示错误预测为阴性的样本数。

3. F1 Score

综合考虑了模型的精确性，是一个平衡的性能指标，计算公式如下：

；

这些指标对于评估和优化呼吸音事件检测模型至关重要，通过优化这些指标可以提高模型的临床应用价值，确保在实际使用中提供可靠和有效的诊断支持。

S35、呼吸音识别模型对比实验

当前有不同的方法来检测呼吸声事件，包括单类多模型法和多类单模型法。多类单模型事件检测更贴近临床医学应用，部署起来也相对容易。然而，相对于单类多模型事件检测，单类多模型方法的得分更高。我们进行了两组不同的对比实验，即单类多模型实验和多类单模型实验，以证明我们的模型的优越性和实用性。

1）采用肺部 SED 指标（JIE_F1）和基于 Tollar 的事件指标（TBE_F1）对CRNN 、TCN 和REDT三种多类单模型在HF_lung_V1数据集的检测结果进行对比评估，结果如下表1所示。在所有评估指标上，REDT模型均高于CRNN 、TCN模型。对于JIE_F1指标，与最佳 CRNN模型的基线相比，REDT模型在所有事件检测中的得分均提高了 40%以上，超过了平均水平。

表1. 不同多类单模型对比结果

，

2）采用肺部 SED 指标（JIE_F1）对LSTM、BiGRU、CNN-GRU、CNN- BiGRU、CNN-BiGRU和多分支TCN五种单类多模型与REDT模型在HF_lung_V1数据集的检测结果进行对比评估，结果如下表2所示。REDT模型在每个事件类别的JIE_F1得分均远超前四种单类多模型，与最先进的多分支TCN模型相比，REDT模型的吸气得分仅低2.7%，其他事件类别的得分则高很多。总之，结果表明，基于事件级检测的REDT多类单模型在呼吸音事件检测方面的表现优于其他单类多模型，达到了最先进的水平。

表2. 单类多模型和多类单模型对比结果

，

实际上在执行S4时，如图5所示，基于呼吸音识别模型对呼吸音进行识别得到识别结果时，所述识别结果为呼吸音表示的事件类型和事件位置。其中纵轴上C段表示连续偶发音事件，D段表示不连续偶发音事件，E段表示吸气事件，I段表示呼气事件。估计标签条形为REDT模型的识别结果，参考标签条形为多位高级医生的综合判断结果。从图中可以看出，两者十分接近，说明REDT对呼吸音的识别准确度很高。

虽然在上文中详细说明了本发明的实施方式，但是对于本领域的技术人员来说显而易见的是，能够对这些实施方式进行各种修改和变化。但是，应理解，这种修改和变化都属于权利要求书中所述的本发明的范围和精神之内。而且，在此说明的本发明可有其它的实施方式，并且可通过多种方式实施或实现。

Claims

1.一种基于事件级检测技术的呼吸音识别方法，其特征在于，

获取并预处理呼吸音数据构建训练集；

基于训练集训练初始模型获得呼吸音识别模型；

基于呼吸音识别模型对呼吸音进行识别得到识别结果。

2.根据权利要求1所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，所述呼吸音数据包括连续偶发音和不连续偶发音。

3.根据权利要求1所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，预处理呼吸音数据时，对数据集中的音频信号进行16kHz重采样并转换为梅尔频谱图。

4.根据权利要求3所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，预处理呼吸音数据时，对梅尔频谱图采用时间和频率掩蔽技术对选定的区域进行掩蔽再进行频带偏移。

5.根据权利要求1所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，所述初始模型由分层令牌语义音频Transformer、Transformer编码器、Transformer解码器和前馈神经网络组成。

6.根据权利要求5所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，基于训练集训练初始模型获得呼吸音识别模型时，通过分层令牌语义音频Transformer提取梅尔频谱图的特征，利用一维位置编码结合所提取的特征通过Transformer编码器进一步训练，再通过Transformer解码器生成事件表示，最后利用前馈神经网络将生成的事件转换为事件检测结果，并利用匈牙利算法计算事件级损失。

7.根据权利要求6所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，利用匈牙利算法计算事件级损失时，损失函数包括位置损失函数和分类损失函数。

8.根据权利要求1所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，基于训练集训练初始模型获得呼吸音识别模型时，将所述训练集划分为训练数据和验证数据，基于所述训练数据对初始模型进行训练，基于所述验证数据对训练后的初始模型进行性能评估。

9.根据权利要求8所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，基于所述验证数据对训练后的初始模型进行性能评估，评估指标包括阳性预测值、灵敏度、阳性预测值和灵敏度的调和平均值。

10.根据权利要求1所述的一种基于事件级检测技术的呼吸音识别方法，其特征在于，基于呼吸音识别模型对呼吸音进行识别得到识别结果时，所述识别结果为呼吸音表示的事件类型和事件位置。