YOLOX继电保护压板状态校核，怎样提高核验正确率，降低成本

文|万象硬核

编辑|万象硬核

«——【·前言·】——»

随着经济发展社会用电量不断提升，电网安全稳定运行的重要性正日益凸显。变电站作为电网枢纽，对其站内继电保护设备的定期巡检是保障电网运行安全的有效手段。保护压板状态校核是巡检工作的重要组成部分，现阶段往往采用传统的人工方式实现，即一人持压板卡读取双重名称及投退状态，另一人复诵核对。

曾有变电站一直使用人工核对方法，但造成了漏核，造成严重的后果，而由于近年来大量新变电站、新设备的投入运行，站内继电保护压板数量日益增多，压板状态校核的工作量进一步加大，人工方法导致压板投退错误从而引起保护不正确动作的风险也随之成倍增大。

为此提出一种改进 YOLOX 的继电保护压板状态校核方法。所提方法将注意力机制应用到对 YOLOX 网络结构的改进，以提高模型对压板状态的关注度。并对识别结果中压板标签边界框区域进行倾斜角矫正。构建专业语料库提升文本识别质量，获得压板状态和双重名称的映射关系以实现校核。

这种方法是否可以取代人工核对，减少因为致错核、漏核导致的成本变高的问题？

YOLOX网络结构

YOLO模型多被应用于目标检测，作为该系列模型中的最新版本，YOLOX采用Mosaic数据增强、SimOTA动态匹配正样本等改进手段，其具有特征提取能力强、计算性能高、易于部署的优势，但同时也存在检测性能易受环境复杂度影响的不足。

YOLOX模型的基本结构如图1所示，其整体由4个部分构成，分别是输入层、主干特征提取模块CSPDarknet、加强特征提取模块FPN以及分类回归模块YOLOHead。

数据输入经Focus模块进行通道调整，再依次经过4个ResblockBody模块。在每个ResblockBody模块中通过CSPNet结构进行特征提取。使用主干特征提取模块最终会获得3个有效特征层，自下而上分别记为有效特征层3、有效特征层2和有效特征层1，其分别是输入图片压缩3～5次的结果，后续将作为加强主干特征网络的输入。

加强特征提取模块先后通过两次上采样与下采样对上层模块输出的三层不同维度的特征进行融合，如图1所示。通过该过程，输入的3个有效特征层相互融合，以加强特征层1、加强特征层2和加强特征层3的形式分别作为输出至分类回归模块。

YOLOX对分类回归部分进行了改进，采用了分支解耦的思想分别实现分类和回归，最后预测的时候才整合在一起。由图1可见，对于每一个输入的加强特征层，最终获得三个检测结果，分别是Reg、Obj和Cls。

其中Reg用于表征特征点的坐标预测回归值，其通道数为4，表征了边界框；Obj用于表征特征点有无检测目标，其通道数为1；Cls用于表征特征点所属检测目标的类别，其通道数为待检测的目标类别数。模型根据分类回归模块输出的预测值pj与训练集样本标注的真实值，g计算损失函数值，cij，其计算公式为

式中，Ls与Lg分别表征样本真实值gi与预测值pj之间的类别损失与基于边界框的回归损失；λ为平衡系数。

类别损失的计算方式为

式中，Bgi与Bpj分别表征真实值与预测值对应的边界框；IoU(.)为两边界框间的交并比。

回归损失采用交叉熵进行计算，其公式为

式中，N为目标类别总数；Pgki与Pgki分别为样本真实值与预测值对应于类别k的概率，该概率的计算需要综合考虑检测目标是否存在的置信度概率与所属目标类别的分类概率。

基于改进YOLOX的压板状态校核方法

压板状态校核需要继电保护屏上所有压板的状态及其对应的双重名称，以形成映射关系。因此需要识别每一个压板的状态及其标签，并对标签所在区域进行文本识别。

由于运行保护屏柜处于被锁住的状态，在不同的光照条件下，透过保护屏玻璃采集到的压板图像会受到不同强度的光反射干扰，而这将不利于模型的识别效果。CBAM卷积注意力模块能够增强复杂背景下待识别目标的特征表达能力，因此可以通过引入该模块提升反射光干扰下的模型鲁棒性。CBAM卷积注意力模块的结构如图2所示。

如图2所示，CBAM卷积注意力模块由通道注意力模块和空间注意力模块构成。对于输入的特征层，注意力机制会分别沿着独立的通道维度和空间维度依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化，从而增强重要信息、过滤无用信息。

在通道注意力模块中，输入特征层在空间维度上分别通过最大值池化与平均值池化进行维度压缩，此后经共享全连接层相加后再经激活函数后得到通道注意力特征图。

在空间注意力模块中，首先在通道维度上对输入特征层进行最大值池化和平均值池化，然后将两个结果基于通道做堆叠操作。此后通过卷积操作降维为单通道，再经过激活函数生成空间注意力特征图。

鉴于YOLOX模型在主干特征提取模块中通过CSPNet结构进行特征提取，考虑在输出三个有效特征层前的CSPNet结构中嵌入CBAM模块。改进后

的CSPNet结构如图3所示。

由图3可知，改进CSPNet结构中，经卷积标准化模块后部分输入经过n个堆叠的残差卷积块接入CBAM模块，而剩余输入部分作为残差边直接与CBAM的输出相堆叠，再经过卷积标准化模块后获得输出，继而输入后续模型结构。

通过图像识别模型，可以获得标定压板状态、压板双重名称标签坐标的边界框。考虑到YOLOX模型的输出结果仅能使用矩形边界框进行位置描述，而在实际应用中由于图像采集视角的存在，会造成边界框与文字的倾斜角误差，降低文本识别准确率，可采用透视变换对边界框内的文本进行倾斜角矫正。通过透视变换可以将边界框标定的倾斜文本图像投影至新平面为

式中，(x,y,z)为输入图像中某一点坐标；(,,)为变换后的坐标；M为透视变换矩阵，可以表示为：

由式(6)可知，获得8个参数的值即能确定透视变换矩阵。由于经透视变换后希望获得水平的文本图像，因此需要在倾斜文本图像中获得4个点的坐标，且这些点所围成区域的边应与倾斜文本平行。

鉴于标签颜色与背板背景色存在明显差异，且边缘保持水平，可以基于Canny边缘检测和Hough直线检测确定平行边，进而求解坐标，最后获得透视变换矩阵的参数，其流程如图4所示。

Tesseract5.0是支持多种语言文字检测的开源光学字符识别引擎考虑到压板名称一般由专业术语组成，可以基于专业术语构建语料库(图5)，有针对性地训练文字识别引擎，以提高文本识别的准确率。

在获得压板状态及其双重名称后与应投入的压板状态库进行比对实现状态校核，完整的状态校核流程如图6所示。

实际算例

采集某500kV变电站内某继电保护小室的压板图像共计500张，对其进行标注，并应用数据增强手段将图像数量扩充至2500后作为数据集。数据集包含了某500kV线变串对应的全部保护屏柜内不同颜色、不同状态的压板及其双重名称标签。

以8:1:1的比例将数据集划分为训练集、验证集和测试集，待识别的目标共计四类分别标注为投入的压板(on)、退出的压板(off)、备用的压板(standby)以及压板名称标签(name)。

算例所采用的评价指标应面向压板状态识别和压板标签文字识别两部分。针对压板状态识别采用的评价指标为平均准确度AP和平均准确度均值mAP，其计算方法如式(7)～(8)所示

式中，n表示待识别的目标类数；AP定义为不同召回率R下精确率P的均值；而召回率R、精确率P分别如式(9)、(10)所示

式中，对于某一类别待识别的目标而言，TP表示与真实边界框交并比IoU大于设定置信值的预测边界框的数量；FP表示与真实边界框交并比IoU小于设定置信值的预测边界框的数量；而FN表示没有被检测到的真实边界框的数量。

针对压板标签文字识别的评价指标为准确率Acc，其计算方式为

式中，N是被正确识别的字符数；NC为总的字符数。

由于在实际应用中，模型需要部署在移动设备(如室内巡检机器人)上，所以模型的大小和运行速度也是不可忽视的。评价模型大小可以使用模型文件占用字节数；评价运行速度可以采用每秒检测数(Framespersecond，FPS)作为指标。

模型训练平台采用配置为Core(TM)i7-8700CPU处理器、NVIDIARTX3060型GPU以及CUDA11.0GPU加速库。

模型训练在引用预训练权重的基础上分为两个阶段，第一阶段冻结主干特征提取模块，此时CSPDarknet参数不变仅对其余部分参数进行微调，占用显存较小；第二阶段解冻，此时整个网络的参数均发生调整，占用显存较大。两训练阶段为防止过拟合都采用了早停的训练技巧，两阶段参数设置如表1所示。

由图7可知，在冻结阶段模型于第90个训练轮次处提前停止，在随后的解冻阶段，损失函数发生一个较小的突增继而缓慢降低趋于收敛，于第155个训练轮次处提前停止。在整个过程中，验证集与训练集损失函数具有相似的收敛特性，不存在过拟合现象。

为了验证引入CBAM模块能提升模型的鲁棒性，采集站内实际运行屏柜的100张压板图像作为附加测试样本，附加测试样本包含玻璃光反射，而在训练阶段所用训练样本均不含玻璃光反射干扰。分别在自然光下和玻璃反光干扰下比较了YOLOX模型和改进模型的识别效果，如图8所示。

如图8a～8b所示，自然光下改进前模型对少数位于图像边缘的备用压板存在漏识别，对投入压板存在误识别，而改进后模型则完全识别正确；如图8c～8d所示，在光反射干扰下改进前模型存在较高漏识别率，而改进后模型依然保持正确的识别结果。易见，改进模型借助注意力机制有效提高了在光反射干扰下对目标的关注，提高了模型的鲁棒性。

进一步将CBAM模块与不同类型注意力机制模块进行对比，其结果如表2所示。

由表2可知，对于光反射干扰下的压板图像，采用CBAM模块能获得更好的识别效果，其平均准确度均值较采用STN模块和SENet模块分别提升了4.9%和2.5%，而采用SENet模块则优于采用STN模块。这是由于SENet模块对于通道维度上的光噪声具有抑制能力，优化了特征表达；而CBAM模块融合了通道注意力机制与空间注意力机制，其特征优化效果更为显著。

最后，基于训练阶段划分的测试集将改进模型与Faster-RCNN、YOLOv3以及传统YOLOX模型进行压板状态识别性能对比，如表3所示。

结果表明，Faster-RCNN模型能取得较高的识别精度，其平均准确度均值大于YOLOv3和YOLOX模型，但其在运行速度和模型大小的表现上与精度并不平衡，其每秒检测数仅有21.3，且其模型占用字节数也远大于其他模型。

较YOLOX模型改进YOLOX模型能获得更高的识别精度，其平均准确度均值达到98.1%，较改进前提高了5.3%，但其在模型大小和运行速度上的表现稍有下降，其原因在于注意力模块使模型结构变得更复杂，增大了运算量和模型参数。

考虑到现有的移动APP和智能巡检机器人等设备硬件平台的计算性能及现场工作的实际需求，改进模型已符合轻量化、高性能的特点，上述损失是完全可以接受的，改进YOLOX模型相比传统方法更具有优势。

通过YOLOX模型可以获取由边界框定位的压板标签区域，该区域包含待识别的压板双重名称文本，对该区域图像进行倾斜角矫正，如图9所示。

由图9可知，本文所提算法能有效实现倾斜角矫正。将文本图像区域切割后送入Tesseract5.0光学字符识别引擎进行识别，为了验证本文所采用改进手段的效果，以引擎自带语料库为基准，统计了采用两种改进方式后的压板双重名称文本识别准确率，其结果如表4所示。

由表4可知，基于自带语料库的光学字符识别引擎对中文字符的识别率仅为58.4%，非中文字符识别率仅为47.2%。而采用构建的专用语料库后，中文字符和非中文字符识别准确率分别提高31.8%和44.6%。如进一步增加倾斜角矫正，中文和非中文字符识别率还可以获得百分比分别为6.4%和4.2%的提升。

结语

我们提出一种基于改进YOLOX的继电保护压板状态校核方法，并通过变电站内实际算例获得了以下结论。

通过引入CBAM注意力机制改进YOLOX模型主干特征提取模块能提高模型的识别精度，较改进前平均准确度均值提升了5.3%，同时能提升模型对于光反射干扰的鲁棒性。

通过构建继电保护压板双重名称专业语料库，中文字符和非中文字符的识别率均得以显著提升，分别为31.8%和44.6%，同时通过对文本区域的倾斜角矫正，在此基础上识别率得以进一步的提高。综上，所提方法可以更好地辅助智能机器人对压板投退状态的进行校核，提高变电站巡检的效率和智能化程度。

注意力模块应用于模型结构中不同位置所产生的影响效果以及所提方法在不同场景下的泛化性、可移植性是未来需要进一步研究的工作。

玩酷网

YOLOX继电保护压板状态校核，怎样提高核验正确率，降低成本

生物万象硬核科学