Preparation of salicylic acid molecularly imprinted and N-doped TiO2 powders and their selective photocatalytic activity under visible light
-
摘要:目的
改善TiO2在可见光下对污染物的选择性降解能力。
方法采用改进的分子印迹溶胶-凝胶技术,以尿素、水杨酸分别为氮源和模板分子,制备水杨酸分子印迹掺氮TiO2粉末。通过X射线衍射(XRD)、透射电镜(TEM)、紫外-可见光漫反射吸收光谱(UV-Vis DRS)和低温N2物理吸附-脱附(BET)等技术对制备样品进行表征。
结果样品均为锐钛矿相,氮掺杂致使TiO2光吸收带边红移,分子印迹使TiO2具有了更为发达的孔结构和孔型,掺杂和分子印迹均有效地增大了比表面积。可见光下,与催化降解苯甲酸及甲基橙相比,分子印迹掺氮TiO2对水杨酸的选择性降解率较高,达96.0%。
结论水杨酸分子印迹和氮掺杂有效地改善了TiO2的选择性和可见光活性。
Abstract:ObjectiveTo improve selective degradation ability of catalyst (TiO2)under visible light.
MethodSalicylic acid molecularly imprinted and N-doped TiO2 powders were synthesized by an improved molecularly imprinted sol-gel technique using urea as a nitrogen (N) source and salicylic acid as a template molecule. The samples were characterized by XRD, TEM, UV-Vis diffuse reflectance spectrophotometer and N2 adsorption-desorption.
ResultAll samples were anatase.The red-shift of absorption band was caused by doping nitrogen to TiO2. The better-developed pore structure and pass were due to molecular imprinting technique, and the enlarged specific surface area was generated by N-doping and molecularly imprinting. Compared to benzoic acid and methyl orange, TiO2 selective photodegradation rate of salicylic acid (96.0%) was higher under visible light using molecularly imprinting and N-doping.
ConclusionThe selectivity and visible-light photoactivity of TiO2 can be effectively improved using salicylic acid molecularly imprinting and N-doping.
-
Keywords:
- titania /
- nitrogen-doped /
- molecular imprinting /
- visible light /
- selective degradation /
- salicylic acid
-
生猪音频包含丰富的可利用信息[1]。然而,如何在嘈杂的群养环境中分离出各类生猪音频信号并有效识别是智慧养殖的难点问题,解决该问题也是智慧饲养的趋势。
国内外的盲源分离算法研究主要集中在军事通信、语音信号处理、生物医学信号处理等领域。Ghani等[2]利用一种基于投射追踪的盲源分离技术,成功将无人机声音与其他环境声音区分开来。He等[3]提出一种针对非平稳信号的时变卷积盲源分离算法,其采用变分贝叶斯推理方法和高斯过程,将非平稳源逐帧从时变卷积信号中分离出来,最终可有效分离时变混合语音信号。Adam等[4]利用基于快速独立分量分析的盲源分离技术,去除噪声对脑电图、肌电图等生物信号的影响,获得了较好的试验结果。
国内外学者在生猪音频识别方面已有相应进展,张振华[5]利用隐马尔科夫模型对生猪打斗声、咳嗽声、饿叫声和抽搐声进行识别,总体识别率为89.25%。沈明霞等[6]提出一种基于深度神经网络的识别方法,提取梅山猪咳嗽及喷嚏、鸣叫、呼噜声的滤波器组与梅尔频率倒谱系数特征,识别生猪的咳嗽声,识别准确率高达97%。Ji等[7]将声学和视觉特征融合,提取均方根能量、梅尔频率倒谱系数等特征,精准检测猪咳嗽声,准确率达96.45%。在生猪音频盲源分离方面研究较少,彭硕等[8]利用基于稀疏分量分析的欠定盲源分离方法,成功分离了3类混合猪声信号,但其研究尚未拓展到处理更多类别的生猪音频分离问题,也未考虑到后续重构音频识别问题。
本研究提出一种基于欠定盲源分离及改进ECA-EfficientNetV2的生猪状态音频识别方法。利用欠定盲源分离技术,从混杂音频中分离出哼叫声、进食声、咆哮声、发情声4类生猪状态音频信号,再采用ECA-EfficientNetV2模型识别音频,旨在实现对猪只生活健康状态的监测和识别。
1. 材料与方法
1.1 试验整体设计流程
基于欠定盲源分离及ECA-EfficientNetV2的生猪状态音频识别方法总体流程如图1所示。
首先采集生猪不同状态的音频信号,将音频转化为具有时频特征的声谱图,构建声谱图数据集,再训练ECA-EfficientNetV2,实现不同生猪状态音频识别。仿真群养环境下生猪音频后,采用改进谱减法降噪及能熵比法端点检测对音频预处理。得到降噪的生猪混合音频,利用欠定盲源分离算法对混合音频分离重构。最终将重构音频转化为声谱图后利用ECA-EfficientNetV2模型进行识别,从音频中获取生猪当前状态信息。
算法运行硬件环境为Windows11系统,内存为32 GB,CPU为AMD Ryzen7 5800H with Radeon Graphics 3.2 GHz,GPU为NVIDIA Geforce RTX 3070。软件环境为开发平台Pycharm社区版2022.3,使用语言为Python3.8.16,神经网络模型在Pytorch2.0.0框架下运行,显卡为Cuda 11.8版。
1.2 生猪音频信号获取及预处理
1.2.1 音频数据获取
研究所用生猪音频采集于安徽某生猪养殖基地,采集装置为飞利浦VTR5110录音笔,单通道录制,采样点数设置为16 bit,采样率为
44100 Hz,音频保存格式为WAV格式。为获取较纯净的生猪音频,将长白猪依次单独圈养在封闭的4 m×4 m的房间内,房内无人无猪时声音分贝低于12 dB。经人工分类,将采集的音频信号分为进食声、哼叫声、咆哮声、发情声、噪声和无声段。1.2.2 基于多窗谱估计的谱减法降噪
多窗谱估计谱减法[9]在传统谱减法的基础上,采用多个不同长度的分析窗口。每个窗口捕捉语音和噪声成分的不同时频特性,可更准确地估计噪声谱[10],其具体算法流程图如图2所示。
设含噪语音加窗分帧后为
$ {x_i}(z) $ ,将$ {x_i}(z) $ 进行快速傅里叶变换(Fast Fourier transform, FFT),得出其幅度谱和相位谱,并且由此可计算出平均幅度谱:$$ \left| {\overline {{X_i}} (k)} \right| = \dfrac{1}{{2Z + 1}}\displaystyle\sum\limits_{j = - Z}^Z {\left| {{X_{i + j}}(k)} \right|} \text{,} $$ (1) 式中,
$ \left| {\overline {{X_i}} (k)} \right| $ 为平均幅度谱,Z为帧数,$ \displaystyle\sum\limits_{j = - Z}^Z {\left| {{X_{i + j}}(k)} \right|} $ 表示以第i帧为中心,取前后Z帧的幅度谱值相叠加,共有2Z+1帧进行平均,计算平均幅度谱。音频初始的数帧中,并无可用的生猪音频段,大多为仅含噪声的音频段。设此时仅含噪声的音频片段共有NIS帧,则可算出噪声的平均功率谱密度,如下式:$$ {P_n}(k) = \dfrac{1}{{{\mathrm{NIS}}}}\displaystyle\sum\limits_{i = 1}^{{\mathrm{NIS}}} {{P_y}(k,i)}, $$ (2) 式中,
$ {P_n}(k) $ 为平均功率谱密度,$ {P_y}(k,i) $ 为平滑功率谱密度,其由$ {x_i}(z) $ 进行多窗谱估计后得出。求出功率谱密度后,利用谱减关系计算增益因子,如下式:
$$ \begin{split} & g(k,i) =\\ & \left\{ {\begin{array}{*{20}{l}} { [{P_y}(k,i) - \alpha {P_{{n}}}{\text{(}}k{\text{)]/}}{P_{{y}}}{\text{(}}k,i{\text{) }} } , & { {P_{{y}}}{\text{(}}k,i{\text{)}} - \alpha {P_{{n}}}{\text{(}}k{\text{)}} \geqslant {\text{0 }} } , \\ { \beta {P_{{n}}}{\text{(}}k{\text{)/}}{P_{{y}}}{\text{(}}k,i{\text{) }} } , & { {P_{{y}}}{\text{(}}k,i{\text{)}} - \alpha {P_{{n}}}{\text{(}}k{\text{) < 0 }} , }\end{array}} \right. \end{split} $$ (3) 式中,
$ \alpha $ 为过减因子,$ \beta $ 为增益补偿因子。得出增益因子
$ g(k,i) $ 后,则可计算出谱减后的幅度谱,再通过离散傅里叶逆变换(Inverse discrete Fourier transform, IDFT)得到降噪音频,如下式:$$ {\hat x_i}(z) = {\mathrm{IDFT}}\left\{ {\left| {{{\hat X}_i}(k)} \right|\exp [j{\theta _i}(k)]} \right\}, $$ (4) 式中,
$ {\theta _i}(k) $ 为相位谱,$ \left| {{{\hat X}_i}(k)} \right| $ 为谱减后的幅度谱,$ {\hat x_i}(z) $ 为降噪音频,j为傅里叶变换中的虚数单位。1.2.3 基于能熵比的端点检测
基于能熵比的端点检测[11]利用信号的改进能量和谱熵2种参数的比值,确定有声段的起始位置和终止位置。有声段内,信号的熵相对较高;非有声段内,信号的熵相对较低[12]。
设加窗分帧后第i帧音频信号为
$ {{\boldsymbol{x}}_i}(m) $ ,FL为音频信号的帧长度,则音频的每帧能量如下式:$$ {\mathrm{AM}}{{\mathrm{P}}_i} = \displaystyle\sum\limits_{m = 1}^{{\mathrm{FL}}} {{x^2}_i} (m) 。$$ (5) 为缓和
$ {\mathrm{AM}}{{\mathrm{P}}_i} $ 的剧烈变化,引入常量a,并将短时能量对数化计算得改进能量,如下式:$$ {\mathrm{L}}{{\mathrm{E}}_i} = {\lg }(1 + {\mathrm{AM}}{{\mathrm{P}}_i}/{\text{a}})。 $$ (6) 将改进能量
$ {\mathrm{L}}{{\mathrm{E}}_i} $ 和谱熵$ {H_i} $ 构成能熵比,如下式:$$ {\mathrm{EE}}{{\mathrm{F}}_i} = \sqrt {1 + \left| {{\mathrm{L}}{{\mathrm{E}}_i}{\text{/}}{H_i}} \right|} 。$$ (7) 1.2.4 数据集制作
声谱图[13]的作用是将时域的音频信号转为频域表示,更直观地观察和分析音频信号的频谱结构。制作声谱图流程如图3所示。流程中的伪彩色映射指将音频信号在时频域上的频率、能量、时间等特征信息以彩色图的形式展现出来。
ECA-EfficientNetV2模型所需4种类型生猪声谱图样例如图4所示。利用不同窗函数、不同窗长生成具有不同时频特征信息的声谱图,其中宽带声谱图的时间分辨率较高,窄带声谱图的频率分辨率较高[14],2种声谱图如图5所示。
通常宽带声谱图以3 ms左右为1帧,窄带声谱图以20 ms左右为1帧进行分帧加窗处理[15]。根据FFT公式,当窗函数长度T为3 ms时,对应带宽约为293 Hz,T为20 ms时,对应带宽约为44 Hz。图5显示的是同一音频下采用44 Hz的带宽和以300 Hz的带宽分帧制成的窄带声谱图和宽带声谱图。不同的窗函数,可提取不同的时频特征[16]。本研究使用汉明窗、汉宁窗和布莱克曼窗分别处理生成声谱图,将含不同特征的声谱图数据集利用ECA-EfficientNetV2模型训练,提高模型鲁棒性。
1.3 基于稀疏重构的欠定盲源分离
1.3.1 欠定盲源分离整体流程
图 6 盲源分离处理模型s(t)为源信号矢量,F( · )为混合系统,v(t)为噪声矢量,x(t)为观测信号,H( · )为解混系统, $ \hat {\boldsymbol{S}}{\text{(}}t{\text{)}} $为解混信号,即重构后的信号Figure 6. Blind source separation processing models(t) is the source signal vector, F( · ) is the hybrid system, v(t) is the noise vector, x(t) is the observed signal, H( · ) is the demixed system, $ \hat {\boldsymbol{S}}{\text{(}}t{\text{)}} $ is the demixed signal, that is, the reconstructed signal研究仅考虑信号幅度衰减,不考虑时延性和传播路径问题,此时欠定盲源分离模型[18]如下式:
$$ {{\boldsymbol{x}}_i}(t) = \displaystyle\sum\limits_{k = 1}^N {{{\boldsymbol{a}}_{ik}}{{\boldsymbol{s}}_k}(t)} + {{\boldsymbol{v}}_i}(t),{\text{ 1}} \leqslant i \leqslant M, $$ (8) 式中,t为某一时刻,N为源信号数量,M为观测信号数量,aik为第i个时频点上第k个源信号对应的混合矩阵,表示信号的衰减幅度,xi(t)为第i个传感器获取到的观测信号,sk(t)为第k个源信号,vi(t)为第i个噪声信号噪声v(t)利用“1.2”节中改进谱减法进行降噪处理后得到的信号。
盲源分离中的欠定盲源分离处理如图7所示。
图 7 欠定盲源分离流程图x(t)为观测信号,X(t)为稀疏表示后的稀疏向量,$ \hat {\boldsymbol{A}} $为混合矩阵估计值,$ \hat {\boldsymbol{S}}{\text{(}}t{\text{)}} $为分离出的信号,s(t)为最终重构出的信号Figure 7. Flow chart of underdetermined blind source separationx(t) is the observed signal, X(t) is the sparse vector after sparse representation, $ \hat {\boldsymbol{A}} $ is the mixing matrix estimate, $ \hat {\boldsymbol{S}}{\text{(}}t{\text{)}} $ is the separated signal, and s(t) is the final reconstructed signal稀疏表示时,音频信号经过短时傅里叶变换从时域转为时频域,提升信号稀疏性[19]。稀疏表示后,聚类各特征点估计出混合矩阵,类心矢量方向即对应相应源信号的混合矢量方向[20]。利用信号的稀疏性,使用稀疏重构法[21]对信号进行重构,分离各状态的生猪音频信号。
1.3.2 单源点检测
比较稀疏表示后混合信号实部与虚部,对信号进行单源点检测[22],剔除低能点,使信号更具稀疏性。式(8)中,使用谱减法进行降噪操作后,任一时频点
$ (t,f) $ 上,可改写为式(9):$$ {{\boldsymbol{x}}_i}(t,f) = \displaystyle\sum\limits_{k = 1}^N {{{\boldsymbol{a}}_{ik}}{{\boldsymbol{s}}_k}(t,f)} = {\boldsymbol{As}}(t,f) \text{,} $$ (9) 式中,sk(t, f )为某时频点上的第k个源信号,A为混合矩阵向量,s(t, f )为源信号向量。此时观测信号
$ {\boldsymbol{x}}(t,f) $ 的实部为:$$ {\mathrm{Re}}\left[ {{\boldsymbol{x}}(t,f)} \right] = \displaystyle\sum\limits_{k = 1}^N {{{\boldsymbol{a}}_{ik}}{{\mathrm{Re}}} \left[ {{{\boldsymbol{s}}_k}(t,f)} \right]} \text{,} $$ (10) 虚部为:
$$ {\mathrm{Im}}\left[ {{\boldsymbol{x}}(t,f)} \right] = \displaystyle\sum\limits_{k = 1}^N {{{\boldsymbol{a}}_{ik}}{\mathrm{Im}}\left[ {{{\boldsymbol{s}}_k}(t,f)} \right]} 。 $$ (11) 当时频点为单源点时,实部与虚部关系如式(12),x1(t, f )为观测信号1的向量,x2(t, f )为观测信号2的向量:
$$ \dfrac{{{\mathrm{Re}}\left[ {{{\boldsymbol{x}}_2}(t,f)} \right]}}{{{\mathrm{Re}}\left[ {{{\boldsymbol{x}}_1}(t,f)} \right]}} - \dfrac{{{\mathrm{Im}}\left[ {{{\boldsymbol{x}}_2}(t,f)} \right]}}{{{\mathrm{Im}}\left[ {{{\boldsymbol{x}}_1}(t,f)} \right]}} = 0 \text{,} $$ (12) 由于噪声和计算误差的影响,很少有时频点满足式(12)的条件,因此降低检测条件,使用式(13)初步检测单源点:
$$ \left| {\dfrac{{{\mathrm{Re}}\left[ {{{\boldsymbol{x}}_2}(t,f)} \right]}}{{{\mathrm{Re}}\left[ {{{\boldsymbol{x}}_1}(t,f)} \right]}} - \dfrac{{{\mathrm{Im}}\left[ {{{\boldsymbol{x}}_2}(t,f)} \right]}}{{{\mathrm{Im}}\left[ {{{\boldsymbol{x}}_1}(t,f)} \right]}}} \right| < {\varepsilon _1} \text{,} $$ (13) 式中,ε1为阈值条件,值接近0。当满足式(13)时,特征点可视为单源点。
1.3.3 混合矩阵估计
将剔除大部分低能点的特征单源点使用聚类算法进行聚类,得到混合矩阵的估计值[23]。研究使用层次聚类算法[24]对特征点进行聚类。聚类算法步骤如下:
1) 将每个特征点视为1个簇,并计算每个特征点之间的距离。
2) 合并2个簇之间距离最小的2个簇,形成1个新的簇。
3) 计算新的簇和当前其他簇之间的距离。
4) 反复重复步骤2)和步骤3),直到所有特征点合并完成。
使用平均距离计算簇之间的距离,表示2个簇中任意的2个点距离相加取和,设平均值davg为2个簇之间的距离,如式(15):
$$ {d_{{\mathrm{avg}}}}({C_i},{C_j}) = \dfrac{1}{{\left| {{C_i}} \right|\left| {{C_j}} \right|}}\displaystyle\sum\limits_{p \in {C_i}} {\displaystyle\sum\limits_{q \in {C_j}} {\left| {p - q} \right|} } \text{,} $$ (14) 式中,Ci和Cj为任意2个簇,p和q为2个簇中任意2个点。
1.3.4 生猪音频信号重构
由于求解l0范数最小化问题是NP难问题,因此使用lp范数类算法中的求解非凸函数最小化算法(0<p<1)求解lp范数最小化[25],如式(15):
$$ \min{\left\| {\boldsymbol{s}} \right\|_p}{\text{ }}{\mathrm{s.t.}}{\text{ }}{\boldsymbol{x}} = {\boldsymbol{As}} , $$ (15) 式中,x和s分别表示观测信号向量和最终重构的音频向量。t时刻,lp范数最小化的可能解为
$ {\hat {\boldsymbol{S}}^{(K)}}(t) $ ,式(16)中,K为取得局部最小值的次数,最多有$ C_N^M $ 个可能解,$ {\hat {\boldsymbol{S}}_{{K_M}}}^{(K)}(t) $ 为t时刻第K次取得局部最小值时第M个观测信号分解的源信号估计向量,将其余解$ {\hat {\boldsymbol{S}}_j}^{(K)}(t) $ 均设为0:$$ {\hat {\boldsymbol{S}}}^{(K)}(t)= \left\{ \begin{array}{l} {\left[{\hat {\boldsymbol{S}}}_{{K}_{1}}^{(K)}(t),{\hat {\boldsymbol{S}}}_{{K}_{2}}^{(K)}(t),\cdots ,{\hat {\boldsymbol{S}}}_{{K}_{M}}^{(K)}(t)\right]}^{{\mathrm{T}}} = {\hat {{\boldsymbol{A}}}}_{K}^{-1}{\boldsymbol{x}}(t)\text{,}\\ \quad \quad ({K}_{1},{K}_{2},\cdots {K}_{M}\in \left\{1,2,\cdots ,N\right\}),\\ {\hat {\boldsymbol{S}}}_{j}^{(K)}(t)=0\text{,}(j\ne {K}_{1},{K}_{2},\cdots {K}_{M}),\end{array} \right. $$ (16) 式中,
$ {\hat {\boldsymbol{A}}^{ - 1}}_K $ 为$ C_N^M $ 个M×M维子矩阵的逆矩阵(K=1, 2,$\cdots $ ,$ C_N^M $ )。式(16)的
$ {\hat {\boldsymbol{S}}^{(K)}}(t) $ 对应lp范数JK为式(17)所示:$$ {J_K} = {\displaystyle\sum\limits_{i = 1}^M {\left| {{{\hat {\boldsymbol{S}}}_i}^{(K)}(t)} \right|} ^p},(K = 1,2,\cdots ,C_N^M), $$ (17) 最终确定lp范数最小解
$ {\hat {\boldsymbol{S}}_{\min }} = {\mathrm{argmin}}{J_K} $ ,此解即为源信号s(t)的估计$ \hat {\boldsymbol{S}}(t) $ 。1.3.5 盲源分离评价指标
采用信噪比[26]和归一化均方误差[27] 2种指标评价欠定盲源分离算法的分离质量。归一化均方误差用于评价混合矩阵估计的准确度,表达式如下:
$$ {\mathrm{NMSE}} = 10 \times \lg \left( {\dfrac{{\displaystyle\sum\limits_{i = 1}^L {{{\left( {{{\hat {\boldsymbol{a}}}_i} - {{\boldsymbol{a}}_i}} \right)}^2}} }}{{\displaystyle\sum\limits_{i = 1}^L {{{\left( {{{\boldsymbol{a}}_i}} \right)}^2}} }}} \right), $$ (18) 式中,
$ {\hat {\boldsymbol{a}}_i} $ 为混合矩阵估计值,$ {{\boldsymbol{a}}_i} $ 为原观测信号矩阵的值,L为混合矩阵数量。归一化均方误差的值越小,代表估计的精确率越高。盲源分离中信噪比用于判断原信号和重构信号的相似度,重构信号与源信号的差值类比为信噪比中的噪声,如下式:
$$ {\mathrm{SN}}{{\mathrm{R}}_i} = 10 \times \lg \left( {\dfrac{{\displaystyle\sum\limits_{t = 1}^T {{{\boldsymbol{s}}_i}^2(t)} }}{{\displaystyle\sum\limits_{t = 1}^T {{{\left[ {{{\boldsymbol{s}}_i}(t) - {{\boldsymbol{y}}_i}(t)} \right]}^2}} }}} \right),$$ (19) 式中,
$ {{\boldsymbol{s}}_i}(t) $ 为第i个源信号,$ {{\boldsymbol{y}}_i}(t) $ 为对应的重构信号。信噪比的值越大,源信号和重构信号之间的差异性越小,代表信号的重构效果越好。1.4 基于ECA-EfficientNetV2的生猪声谱图识别
1.4.1 ECA-EfficientNetV2网络模型
EfficientNetV2[28]本质是基于卷积神经网络的一类模型。其为EfficientNet的改进模型,降低了原始模型的参数量,并引入了渐进学习方法,动态调节训练图像的尺寸。
由于SE模块跨通道交互过程中可导致模型降维,影响模型预测能力。针对生猪声谱图的特点,将EfficientNetV2-S架构进一步简化,并将SE注意力机制替换为更轻量且能有效避免模型降维影响的ECA(Efficient channel attention)注意力机制[29]模块。架构如表1所示,将Stage 2和Stage 3中的Fused-MBConv内Expansion ratio调整为2倍,并将Stage 1中的Fused-MBConv 模块和Stage 4、Stage 5、Stage 6中的MBConv模块的重复次数Layers进行缩减,降低模型参数量,改进后的网络模型结构如图8所示。
表 1 ECA-EfficientNetV2架构表Table 1. ECA-EfficientNetV2 architecture table阶段
Stage操作
Operator层数
Layers步长
Stride0 Conv3×3 1 2 1 Fused-MBConv1, k3×3 1 1 2 Fused-MBConv2, k3×3 4 2 3 Fused-MBConv2, k3×3 4 2 4 MBConv4, k3×3, ECA 5 2 5 MBConv6, k3×3, ECA 7 1 6 MBConv6, k3×3, ECA 12 2 7 Conv1×1, Pooling, FC 1 根据数据集特征及硬件条件调整网络训练参数,其中batch-size调整为16,学习率选用0.01,momentum为0.9,表1中最终阶段随机失活率dropout-rate为0.2,MBConv卷积结构Dropout层随机丢弃率drop-connect-rate为0.2。
1.4.2 网络性能评价指标
采用精确率(Precision)、准确率(Accuracy)、召回率(Recall)、F1分数(F1-score)、浮点运算量(Floating-point operations, FLOPs)、参数量及推理时间评价模型能力,计算公式如下:
$$ {\mathrm{Accuracy}} = \dfrac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{TN}} + {\rm{FP}} + {\rm{FN}}}}, $$ (20) $$ {\rm{Precision}} = \dfrac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}}, $$ (21) $$ {\rm{Recall}} = \dfrac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}}, $$ (22) $$ {{\rm{F}}1}{\text{-}}{\rm{score}} = \dfrac{{2{\rm{TP}}}}{{2{\rm{TP}} + {\rm{FP}} + {\rm{FN}}}}, $$ (23) 式中,TP为模型正确预测正例样本数,FP为模型错误预测正例样本数,FN为模型错误预测负例样本数,TN为模型正确预测负例样本数。
2. 结果与分析
2.1 改进谱减法降噪及端点检测结果分析
直接采集猪棚内音频,虽可获得真实的环境噪声,但无法有效判断降噪算法对含噪音频的处理效果。为了定量分析降噪算法的降噪效果,在纯净生猪音频信号中添加IKS风噪数据集中排风扇的排风声和英国荷兰TNO感知研究所语音研究单位发布的金属门、金属围栏等金属碰撞产生的噪声信号,再对含噪音频降噪处理,对比降噪前后信噪比,判断降噪算法效果。信噪比为15 dB时,降噪前后如图9所示。
将多窗谱估计谱减法和经典谱减法分别在信噪比为0、5、15 dB下进行对比试验,前后信噪比如表2所示,当降噪前信噪比设为0 dB时,改进谱减法较传统谱减法信噪比提升2.36 dB,较降噪前提升4.67 dB。 当降噪前信噪比设为5 dB时,改进谱减法较传统谱减法信噪比提升1.45 dB,较降噪前提升2.42 dB。当降噪前信噪比设为15 dB时,改进谱减法较传统谱减法信噪比提升0.37 dB,较降噪前提升0.58 dB。表2数据可看出多窗谱估计的改进谱减法较经典谱减法对于带噪生猪音频降噪效果更好,信噪比提升更大。原信噪比越低时,降噪后信噪比提升越明显。原信噪比越高,噪声的干扰越小,降噪后信噪比并无明显提升。
表 2 谱减法与改进谱减法降噪效果对比Table 2. Comparison of noise reduction effects of spectral subtraction and improved spectral subtraction降噪前信噪比/dB
SNR before noise reduction谱减法降噪后信噪比/dB
SNR after spectral subtraction改进谱减法降噪后信噪比/dB
SNR after improved spectral subtraction for noise reduction0 2.31 4.67 5 5.97 7.42 15 15.21 15.58 利用能熵比法端点检测含噪生猪音频,结果如图10所示。即使在含噪情况下,能熵比法的端点检测仍可检测音频有声段并将其起始点和终止点准确地标出。
若信噪比太低,噪声干扰严重,能熵比法端点检测则无法再准确判断起始和终止点,如图11所示。信噪比为5 dB时,第5小段音频无法准确判断有声段的起始点和终止点,因此本研究所用端点检测方法适用于高信噪比音频,仅具有一定抗噪性。
2.2 欠定盲源分离结果分析
利用已知的混合矩阵对4种生猪音频进行混合,再通过欠定盲源分离算法重构4类单只生猪音频,通过对比重构音频和原始音频,对分离算法的性能进行定量评价。本研究以哼叫声、进食声、咆哮声、发情声各10 s的单声道音频为试验对象,用已知的混合矩阵混合成2个观测信号。4种状态的生猪音频波形图如图12所示。
设定原混合矩阵如下:
$$ {\boldsymbol{A}} = \left[ {\begin{array}{*{20}{c}} {0.258\;8} & {0.743\;1} & {0.987\;7} & {0.913\;5} \\[-1pt] { - 0.965\;9} & { - 0.669\;1} & { - 0.156\;4} & {0.406\;7} \end{array}} \right] 。$$ (24) 生成的2个观测信号波形图如图13所示。
根据“1.3.2”中单源点检测算法,设定式(13)中ε1=0.01,剔除低能点前后对比图如图14所示。检测后的图14b可清晰观测到4条直线分布特征,且较图14a单源点检测前更具稀疏特性。
利用层次聚类算法聚类特征点,聚类迭代次数设为80轮,用式(18)评价聚类后估计的混合矩阵与原矩阵的相似度,值越小则估计精确率越高,如图15所示。图15表明,归一化均方误差NMSE随着迭代次数的增加逐渐降低,在第44次后NMSE无限接近于0,取第63次时NMSE最低值3.266×10−4,此时估计精确率最高。
图15中,可观察到曲线在第0到43次迭代时产生了振荡,结合图14b可看出,有2条直线十分靠近,且经过单源点检测后的散点图十分稀疏,随着迭代次数增加层次聚类的距离算法易将2条相近线上的特征点聚类成1条,从而产生误差,导致曲线产生振荡。
本研究选用NMSE最低值时的混合矩阵进行后续试验,此时混合矩阵如下:
$$ \hat {\boldsymbol{A}} = \left[ {\begin{array}{*{20}{c}} {0.256\;6} & {0.753\;9} & {0.992\;3} & {0.891\;3} \\[-1pt] { - 0.966\;5} & { - 0.657\;0} & { - 0.124\;1} & {0.453\;5} \end{array}} \right]。 $$ (25) 获取混合矩阵后,使用lp范数类算法对信号重构,p值取0.5时重构信号波形图如图16所示。
分别计算4种波形重构前后信噪比,求其平均值。p不同取值时,4种源信号和重构信号平均信噪比在3.254~4.267 dB之间变化,p取0.3时平均信噪比最小,即3.254 dB。p取0.8时平均信噪比最大,即4.267 dB,此时lp范数分离算法重构的波形最接近源信号波形,分离效果最佳。
为了对盲源分离效果进行定量分析,本研究并未考虑生猪音频信号到达不同传感器的时延性和衰减性都不同的问题。且由于本研究使用的欠定盲源分离算法依赖信号的稀疏性,当信号的稀疏性较弱时,无法从观测信号获得高质量的重构信号,后续研究中会进一步研究解决上述问题。
2.3 ECA-EfficientNetV2模型分类结果分析
利用ECA-EfficientNetV2网络模型训练声谱图数据集。数据集图片共
2700 张,进食、哼叫、咆哮3类每个类别720张,发情类540张,数据集以8∶2分为训练集和验证集。每轮迭代中训练集与验证集的准确率和损失值结果如图17所示。在迭代80个epoch时曲线已经接近平稳,并无太大的上下波动,最终准确率在98%左右波动,损失值在0.08左右波动。利用“1.4.2”的评价指标进行定量分析,使用相同数据集,设置图像输入大小为224×224,迭代次数为80,学习率都为0.01,与同为卷积神经网络的经典网络模型ResNet50和VGG16以及原EfficientNetV2-S进行对比,具体结果如表3所示。
表 3 不同模型在生猪声谱图上的预测性能比较Table 3. Comparison of prediction performance of different models on pig spectrograms模型
Model准确率/%
Accuracy精确率/%
Precision召回率/%
RecallF1分数/%
F1-score参数量/M
Parameter quantityFLOPs/
G推理时间/ms
Inference timeResNet50 95.47 95.35 95.56 95.45 25.56 8.21 11.16 VGG16 96.54 96.73 96.58 96.54 138.30 30.97 10.11 EfficientNetV2-S 98.87 98.69 98.86 98.85 21.46 5.73 34.34 ECA-EfficientNetV2 98.35 98.33 98.37 98.35 14.26 3.87 24.94 表3数据显示,ECA-EfficientNetV2相较经典模型ResNet50、VGG16,其准确率、精确率等指标都优于经典模型,与原EfficientNetV2模型相比虽准确率下降了0.52个百分点,但模型参数量降低了33.56%,浮点运算量FLOPs降低了1.86 G,平均推理时间减少了9.40 ms,使模型更轻量化且推理速度更快,证明了本研究的生猪声谱图识别方法的有效性,并为后续应用于边缘节点计算打下基础。但在推理时间上与经典模型ResNet50、VGG16相比,所需时间更长,表明EfficientNetV2网络模型仍需进一步优化。在后续研究中,将采集更多患病生猪样本进行试验,并进一步优化网络模型,为生猪健康智能养殖提供更有意义的技术支持。
3. 结论
本研究提出一种基于盲源分离算法与ECA-EfficientNetV2网络模型相结合的生猪音频状态分类方法,所得主要结论如下:
1)欠定盲源分离方面,研究使用的改进谱减法降噪算法比原谱减法降噪算法的降噪效果更优。聚类得到的混合矩阵估计与原混合矩阵的NMSE最低可达3.266×10−4。lp范数重构时,在p取不同值时,重构出的信号与源信号有不同的差异,当p取值为0.8时,此时重构信号与源信号的差异性最小,利用信噪比作为评价指标,p为0.8时信噪比为4.267 dB,重构信号质量最佳。
2)生猪音频识别方面,ECA-EfficientNetV2相较于经典网络模型ResNet50、VGG16和原EfficientNetV2模型,具有更轻量化的模型参数,且准确率也相较ResNet50和VGG16提高了2.88和1.81个百分点,与原EfficientNetV2相比准确率降低0.52个百分点,但模型参数量和浮点运算量FLOPs与其余模型相比均为最低,且推理时间较原模型减少9.40 ms,为后续应用于边缘节点计算打下基础。
-
表 1 样品的晶粒大小及BET数据
Table 1 Crystal sizes and BET data of samples
表 2 样品对水杨酸、甲基橙、苯甲酸溶液的降解速率1)
Table 2 Degradation rate of salicylic acid, methyl orange and benzoic acid solutions by samples
-
[1] TOMKIEWICZ M.Scaling properties in photocatalysis [J].Catal Today, 2000, 58(2/3):115. doi: 10.1016-S0920-5861(00)00246-7/
[2] YARON P.Preferential photodegradation:Why and how?[J].Compt Rend Chim, 2006, 9(5/6):774-787. http://d.old.wanfangdata.com.cn/Periodical/nygcxb201407010
[3] HAUPT K, MOSBACH K.Molecularly imprinted poymers and their use in biomimetic sensors[J].Chem Rev, 2000, 100(7):2495-2504. doi: 10.1021/cr990099w
[4] 罗利军, 王娟, 潘学军, 等.二氧化钛选择性光催化降解有机污染物研究进展[J].化学通报, 2013, 76(4):332-337. http://d.old.wanfangdata.com.cn/Periodical/hxtb2201304007 [5] SHEN X T, ZHU L H, LI J, et al.Synthesis of molecular imprinted polymer coated photocatalysts with high selectivity[J].Chem Commun, 2007(11):1163-1165. doi: 10.1039/b615303h
[6] SHEN X T, ZHU L H, LIU G X, et al.Enhanced photocatalytic degradation and selective removal of nitrophenols by using surface molecular imprinted titania[J].Environ Sci Technol, 2008, 42(5):1687-1692. doi: 10.1021/es071788p
[7] SHEN X T, ZHU L H, YU H W, et al.Selective photocatalysis on molecular imprinted TiO2 thin films prepared via an improved liquid phase deposition method[J].New J Chem, 2009, 33(8):1673-1679. doi: 10.1039/b901087d
[8] XU P P, XU W Z, ZHANG X J, et al.Molecularly-imprinted material for dibenzothiophene recognition prepared by surface imprinting methods[J].Adsorpt Sci Technol, 2009, 27(10):975-987. doi: 10.1260/0263-6174.27.10.975
[9] DOVRAT S, YARON P.Preferential photodegradation of contaminants by molecular imprinting on titanium dioxide[J].Appl Catal B:Environ, 2010, 95:169-178. doi: 10.1016/j.apcatb.2009.12.024
[10] 邓芳. TiO2基光催化剂的制备与污染物降解的研究[D]. 南昌: 南昌大学, 2011. [11] WANG Z Q, LIU X, LI W Q, et al.Enhancing the photocatalytic degradation of salicylic acid by using molecular imprinted S-doped TiO2 under simulated solar light[J].Ceram Int, 2014, 40:8863-8867. doi: 10.1016/j.ceramint.2014.01.110
[12] QIN H L, GU G B, LIU S.Preparation of nitrogen-doped titania with visible-light activity and its application[J].Compt Rend Chim, 2008, 11(1/2):95-100. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=JJ023947994
[13] QIN H L, GU G B, LIU S.Preparation of nitrogen-doped titania using sol-gel technique and its photocatalytic activity[J].Mater Chem Phys, 2008, 112(2):346-352. doi: 10.1016/j.matchemphys.2008.05.059
[14] QIN H L, GU G B, LIU S.Preparation of nitrogen-doped titania and its photocatalytic activity[J].Rare Metals, 2007, 26(3):254-262. doi: 10.1016/S1001-0521(07)60211-3
[15] 索丹霞, 刘桂超, 彭婷婷, 等.N掺杂锐钛矿结构TiO2光催化性能研究[J].上海工程技术大学学报, 2015, 29(1):27-31. doi: 10.3969/j.issn.1009-444X.2015.01.007 [16] 陈孝云, 陆东芳, 卢燕凤.N、F共掺杂可见光响应介孔TiO 2光催化剂:纤维素模板剂合成及活性[J].无机化学学报, 2012, 28(12):2513-2522. http://www.cqvip.com/QK/93659X/201212/43957770.html [17] 景文珩, 王韦岗, 邢卫红.大孔-介孔氮掺杂二氧化钛的制备及其光催化性能测试[J].催化学报, 2009, 30(5):426-432. doi: 10.3321/j.issn:0253-9837.2009.05.011 [18] YU J G, WANG G H.Hydrothermal synthesis and photocatalytic activity of mesoporous titania hollow microspheres[J].J Phys Chem Solids, 2008, 69(5/6):1147-1151. http://www.sciencedirect.com/science/article/pii/S0022369707005677
[19] YU J G, YU H G, CHENG B, et al. Enhanced photocatalytic activity of TiO2 powder (P25) by hydrothermal treatment[J].J Mol Catal A:Chem, 2006, 253(1/2):112-118.
[20] XIANG Q J, LV K L, YU J G.Pivotal role of fluorine in enhanced photocatalytic activity of anatase TiO2 nanosheets with dominant (001) facets for the photocatalytic degradation of acetone in air[J].Appl Catal B: Environ, 2010, 96(3/4):557-564. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=JJ0215643581
[21] LIU S W, YU J G, JARONIEC M.Tunable photocatalytic selectivity of hollow TiO2 microspheres composed of anatase polyhedra with exposed (001) facets[J].J Am Chem Soc, 2010, 132(34):11914-11916. doi: 10.1021/ja105283s
[22] 秦好丽, 安娅, 古国榜.可见光下氮掺杂二氧化钛对有机污染物的降解动力学研究[J].生态环境学报, 2010, 19(3):513-517. doi: 10.3969/j.issn.1674-5906.2010.03.003 [23] 王思旋. 二氧化钛分子印迹光催化剂的制备和选择性光催化作用[D]. 武汉: 华中师范大学, 2013. [24] ASAHI R, MORIKAWA T, IRIE H, et al.Nitrogen-doped titanium as visible-light-sensitive photocatalyst: Designs, developments, and prospects[J].Chem Rev, 2014, 114(19):9824-9852. doi: 10.1021/cr5000738
[25] CHOI E H, HONG S I, MOON D J.Preparation of thermally stable mesostructured nano-sized TiO2 particles by modified sol-gel method using ionic liquid [J].Catal Lett, 2008, 123(1/2):84-89. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=JJ025234317
[26] ZHANG Z, WANG C, ZAKARIA R, et al.Role of particle size in nanocrystalline TiO2-based photocatalysts [J].J Phys Chem B, 1998, 102(52):10871-10878. doi: 10.1021/jp982948+
[27] 苗智颖. 溶胶-凝胶分子印迹聚合物和金属纳米材料的制备及其在传感器的应用研究[D]. 天津: 南开大学, 2014.