arxiv 2022 7月论文
论文题目:
deepNIR: Datasets for generating synthetic NIR images and improved fruit detection system using deep learning techniques

论文地址:
https://arxiv.org/abs/2203.09091
摘要
本文介绍了用于合成近红外(NIR)图像生成和边界框水果检测系统的数据集,高质量的数据集是成功实现模型泛化和部署数据驱动的深度神经网络的基本构建模块之一,特别是,合成数据生成任务通常比其他监督方法需要更多的训练样本,因此,在本文中,我们分享了从两个公共数据集(即nirscene和SEN12MS)重新处理的NIR+RGB数据集,扩展了我们之前的研究deepFruits,以及我们新的NIR+RGB甜椒(capsicum)数据集,我们以10、100、200和400的比例对原始nirscene数据集进行过采样,总共产生了127 k对图像,从SEN12MS卫星多光谱数据集中,我们选择了夏季(45 k)和全季节(180 k)子集,并进行了简单而重要的转换;数字数(DN)到像素值的转换,然后进行图像标准化,我们的甜椒数据集由1615对NIR+RGB图像组成,这些图像来自商业农场。
我们定量和定性地证明了这些近红外+RGB数据集足以用于合成近红外图像生成,我们对nirscene1、SEN12MS和甜椒数据集分别实现了11.36、26.53和40.15的Frechet Inception Distance (FID),此外,我们还发布了11个水果边框的手动标注,可以通过云服务导出各种格式,四种新添加的水果[蓝莓、樱桃、猕猴桃和小麦]复合了11个新的包围框数据集,这是在我们之前在deepFruits项目中提出的工作[苹果、鳄梨、辣椒、芒果、橘子、岩瓜、草莓]的基础上,数据集的包围框实例总数为162 k,并且可以从云服务使用,对于数据集的评估,利用Yolov5单级检测器,并报告了令人印象深刻的平均精度,mAP[0.5:0.95]结果[min:0.49, max:0.812],我们希望这些数据集是有用的,并作为未来研究的基线,数据集可从http://tiny.one/deepNIR获得
1. 简介
数据驱动的机器学习(ML)技术的最新进展已经在工业研究领域甚至我们的日常生活中取得了令人印象深刻的成果,例如自动驾驶、自然语言处理(NLP)、合成视觉数据生成、蛋白质结构预测和核聚变反应堆控制等应用,看看ML还能学习什么,以及它会给我们未来的生活带来多大的影响,这是非常令人兴奋的。
在本文中,我们感兴趣的是将这些数据驱动的ML技术应用于农业部门,以便在植被分割和水果检测等核心农业任务中发挥相当大的优势,为此,我们采用了ML技术之一,合成图像生成和数据驱动的对象检测,看看我们能得到多少改进,特别是,我们首先关注生成合成近红外(NIR)图像,然后将其作为辅助信息用于目标检测,如图1所示。
在农业领域,近红外信息(λ ~ 750 ~ 850 nm)自1970年以来在各种任务中发挥了关键作用,最重要的贡献之一是使植被指数(NDVI)具有简单快速的封闭形式,这仍然为许多其他先进的指数,如增强植被指数(EVI)或归一化差异水指数(NDWI)奠定了基础。
与热光谱类似,近红外光谱允许测量超出可见范围并带来显著特征,近红外光谱可以观察植物的叶绿素反应(主要来自叶片),这些信息对于农学家了解显型植被的状态和条件是至关重要的,为了从RGB输入中合成近红外信息,有必要适当地近似一个高度非线性的映射,fθ使fθ: {IRGB} →INIR,其中θ是未知参数(例如,神经网络的参数),非线性源于入射光源、表面反射率、相机内外固有特性等诸多因素,因此,估计保证收敛的全局最优解是一个挑战,相反,我们尝试以数据驱动、无监督的方式学习映射,不需要手动注释或标签,为了做到这一点,我们设置了目标函数,最小化合成和原始NIR图像之间的差异给定RGB图像,这个想法很简单,之前已经有一些研究,不仅产生近红外,而且产生热和深度。
本文在以下几个方面有所不同,首先,也是最重要的是,我们清楚地展示了实验结果,并提供了高水平的技术细节,这是两者都缺乏的,在合成图像生成和一般的机器学习中,仔细地分割训练集和测试集以保持集之间等价或相似的统计属性(例如,特征分布)是重要的任务之一,但没有一个人正确地揭示了这一点,只是给出了一些毫无意义的分数,他们都没有将数据集提供给公众使用,因此不可能复制或在他们的研究基础上构建另一个系统,最后,综合生成的信息为什么以及如何在他们的工作中有用是模糊的,我们通过将合成的近红外图像前馈到后续的水果检测任务中来证明这一点。
•我们为合成图像生成提供了公开可用的NIR+RGB数据集,该数据集遵循标准格式,因此可以直接与任何其他合成图像生成引擎一起使用。
•扩展了我们之前的研究,我们增加了4个水果类别,包括它们的包围框注释,我们对11种水果/作物进行了严格评估,据我们所知,这是目前可用的最大类型的数据集。
图2总结了本文提供的所有数据集,左边的绿色方框表示NIR + RGB对数据集及其技术细节,右边的蓝色方框表示用于对象检测的包围框数据集。
除了上述贡献,我们还提供了详细的实验结果,他们的分析和见解,可以为读者有用。数据集可以从http://tiny.one/deepNIR下载,本文其余部分的结构如下,第2节介绍了合成图像生成和目标检测的文献综述,第3节涵盖了用于生成合成图像的方法,数据集细节,以及生成对抗网络和单级检测框架的简要总结,第4节包含合成图像生成和目标检测的评估指标,然后是定性和定量结果,这还包括本文开发的模型之间的相互比较,以及与其他研究评估的基线比较,我们还将讨论在第5节中发现的优点和局限性,第6节总结了本文的结果、拟议工作的影响和未来展望。
2. 相关工作
在本节中,我们描述了以前的相关研究;尤其关注公共RGB-NIR数据集、合成图像生成和目标检测方法,本节介绍了其他数据集与我们提出的以及其他研究人员可以替代利用的最先进的合成图像生成和物体检测技术之间的明确区别,因此,本节有助于读者更好地理解其余部分。
2.1. 近红外(NIR)和RGB图像数据集
现代数据驱动的深度学习方法在各个领域都表现出了非常有前景和令人印象深刻的表现,并且毫不夸张地说,大规模和高质量训练数据集在取得这些成功中发挥了关键作用。特别是在农业领域,NIR-RGB(或多光谱互换)数据集提供了关于作物或水果等植被的丰富特征信息。它们被认为是农学家、数据科学家和机器学习研究人员的重要关键指标之一,因此,在园艺或受保护的农场场景中存在着有价值和显著的贡献。
Brown M.等人的数据集是利用多光谱信息进行场景识别的前沿NIR-RGB数据集之一,如前所述,该数据集包含477张RGB+近红外图像对,这些图像对是使用两台摄像机在大多数户外日常生活场景中异步捕获的,这个数据集是有用的,我们也在本文中使用了它,然而,对的时间差异和缺乏辐射定标和小规模数据集是使用该数据集的挑战。我们将在下一节中演示数据集规模和过采样策略的影响。
最近,我们之前的一项研究侧重于使用多光谱图像进行甜椒检测和语义分割,为园艺部门做出了贡献,本文使用了103像素级注释和NIR+RGB对,考虑到农业场景像素标记任务的挑战,尽管规模相对较小,更重要的是,我们在这篇文章中分享了另一个1615个NIR-RGB对数据集,这些数据集是在那次活动中收集的,但还作了注释。
Chebrolu N.等提供了一个全面的大规模农业机器人数据集,适用于植被语义分割以及定位和映射,多光谱图像、RGB-D、激光雷达、RTK-GPS和车轮里程计传感器数据在德国的一个甜菜田收集了两个月,获得了该数据集5TB,但[16]没有提供数据集汇总表,因此如果不尝试使用该数据集,很难找到有多少多光谱图像及其注释。
在农业领域,卫星图像是重要的资源之一,被广泛应用于许多领域,它们提供了丰富的、大规模的地球观测数据,这对于数据驱动的机器学习方法非常有用,因此,有前景的研究和公共数据集利用了卫星多光谱图像(例如,欧洲航天局(ESA)发射的Sentinel-2 a +B双卫星平台)。
Schmitt M. et al在2019年引入了前所未有的多光谱数据集,他们从全球256个分布在四个季节的地点采样,构成约180 k NIR+RGB对,本文采用该数据集并进行了以下处理,我们将格式化为多通道GeoTIFF的原始数据集转换为每个图像对具有图像标准化的普通图像格式,并将其分割为训练/验证/测试集,我们同意,这些步骤是微不足道的,实现起来很简单,然而,在实践中,特别是使用180 k多光谱图像训练模型时,通常重要的是要知道简洁和准确的分割集,并确保直接可训练的数据集,而不是模糊和有问题的分割或需要从可再现性的角度进行任何修改。这种模糊性可能导致花费时间和精力建立基线,例如,将数字(DN)转换为每个通道的8位标准图像格式可能是一项艰巨的任务,并且评估指标也可能根据数据集的分割方式而变化,从这些角度来看,用相应的度量建立一个固定的数据集分割是很重要的,以了解其他因素对性能的影响有多大(即消融研究)。
2.2. 合成图像生成
合成图像生成可能是深度学习技术的许多其他有趣和有前途的应用中最具吸引力和最活跃的领域之一,从生成式对抗网络(GAN)开始,有一些非常棒的想法,要么改进了原始的对抗想法,要么建立了另一个垫脚石。
Mirza M.等提出了一种新的想法,即有条件地不仅为生成器输入噪声,还为更好的模型收敛和泛化(cGAN)提供辅助信息,他们演示了对图像到图像转换任务的影响,并启用/高度影响了其他变体,如Pix2pix、StyleGAN、CycleGAN或最近的OASIS,尽管他们提出了不同的方法和应用,但基本的思想来源于上述的研究,在本文中,我们采用Pix2pix的工作来评估和确认我们数据集的含义,但读者可以自由选择任何最先进的框架作为合成生成工具。
在这些核心工作之上,许多有趣的应用程序使用合成图像生成,分别使用nirscene和SEN12MS数据集演示了从可见范围(RGB)到近红外光谱(NIR)的转换,有一些有趣的研究从热光谱转换到视觉光谱,目标是估计可见光谱(450 ~ 750 nm)到长波红外(8 ~ 12 um)范围之间的非线性映射,光谱差距大,造成严重的外观差异,因此任务比NIR-RGB映射的情况更加困难,为了实现良好的广义模型和稳定的性能,需要大规模的数据集和精确的热校准(例如,流场校正和温度校准)。
他们没有单独处理每张图像,而是尝试只融合不同的特征,有研究提出了一种多模态数据的融合方法,他们的工作目标是通过强制判别器具有更多细节来融合RGB图像中的可见纹理和红外图像中的热辐射。
从上面的文献中我们可以看出,选择近谱范围是成功学习非线性映射的关键,Ma . z等通过在活体荧光成像中从NIR-I (900 ~ 1300 nm)到NIR-IIb (1500 ~ 1700 nm)的转变证明了这一点2,根据他们的结果,他们实现了前所未有的信号背景比和光片显微镜分辨率,类似的方法应用于医学图像;使用CycleGAN和无监督图像到图像转换网络(UNIT)从计算机断层扫描图像(CTI)生成磁共振图像(MRI)。
我们从我们的角度介绍了使用GAN技术进行图像到图像转换的最基础的研究和最出色的应用,然而,这一研究领域是活跃的,发展速度很快,所以我们想参考一份更可靠和最近的调查论文。
2.3. Object-based fruit localisation
从上一节中合成生成的图像可以用作各种计算机视觉任务的辅助信息,如对象分类、识别、边界盒级检测和语义分割,以提高性能,在本文中,我们对水果物体检测(即边界框定位)任务感兴趣,我们之前在DeepFruits中提出的研究中,我们演示了使用两阶段物体检测器的7种水果/作物检测,在工作的基础上,我们分享了另外4个新的水果注释及其分割,我们使用单级探测器评估了我们的3通道和4通道数据集。
目标检测问题是遥感、计算机视觉、机器学习和机器人社区中最重要的任务之一,GPU计算加速了大规模数据集和机器学习算法的最新进展,释放了潜力,实现了超级人类水平的性能,在这一研究领域,主要有两种趋势;单级和两级检测。
第一种方法将问题表述为单一回归优化问题,以较低的性能为代价获得更快的推理速度,而后者,两阶段检测器,采用区域建议网络(RPN),它为后续的对象分类和边界盒回归头建议了许多候选(例如,矩形或圆形),通常,这种方法以降低处理速度为代价获得了优异的性能,根据最近的目标检测趋势,值得一提的是,借助密集优化的图像增强技术和更高效的网络架构设计,这些范式之间的检测性能差距已经显著缩小,我们将在第3.2节详细讨论这个问题。
尽管我们在该领域取得了最显著的成就,但我们想指出另一篇物体检测调查论文,以涵盖更具体的总结和研究方向。
3.方法
在本节中,我们介绍了利用生成的4通道(即3 可见光+ 1 红外光谱)数据合成近红外图像的生成及其应用—目标检测。
3.1. 合成近红外图像生成
丰富和高质量的训练数据是基本的驱动因素之一,特别是对于深度神经网络(DNN)等数据驱动的方法,这些数据通常需要大量资源(例如,手动注释),因此,研究人员和社区为此付出了巨大的努力,从而产生了令人印象深刻和出色的想法,数据增强,伪标记,生成对抗模型,在本文中,出于以下原因,我们对开发生成模型感兴趣,首先,通过采用以前的研究(如风格转移和假图像生成)的想法来重新制定问题很简单。
在训练阶段,我们只需要输入图像对(RGB, NIR)作为输入和目标,其次,在非农业领域,如假人脸图像生成或从手绘到杰作的风格转换,有成熟的资源证明了出色的表现,图3展示了用于合成图像生成的生成对抗网络(GAN)之一,我们的目标是在训练阶段找到给定真实图像对的最佳生成器和分类器。
如图所示,生成器和分类器的作用分别是创建一个合成图像对和区分实图像对或合成图像对,推理阶段简单地使用训练好的生成器模型和输入的RGB图像执行正向预测,创建合成图像输出,值得一提的是,如果训练数据集和测试数据集共享类似的上下文,生成器可能具有生成小的模糊场景的能力,例如,在真实的近红外图像中有一辆路过的汽车,而在图3的RGB图像中没有,这是因为NIR和RGB图像是在公共数据集[13]中异步捕获的,尽管如此,我们的生成器能够恢复图像的一小部分(红色虚线框),因为它学会了如何从RGB光谱(380 nm-740 nm)转移到近红外(~ 750 nm)。
更正式地说,GAN的目标(更准确地说是条件GAN)可以表示为:
其中GθG和DθD是发生器,G: {x, z} 7→y和分类器(或鉴别器)分别参数化了θG和θD,x∈RWxHxC, y∈RWxHxC, z∈R1是输入图像,是目标图像,在这种情况下是一个随机噪声,直观地,第一项表示给定输入数据分布数据样本x(即RGB图像)和目标y(近红外图像),分类器的期望,最大化这一项意味着我们成功地欺骗了分类器,即使生成器生成了合成图像,第二项是我们想要最小化生成器输出(∈RWxHxC)之间的差值给定随机噪声z从噪声分布,pz(z),给定目标图像y和目标图像y尽可能接近。
具体地说,我们还可以增加L1损失函数来减少模糊
因此,最终目标是一个最小-最大优化问题
除了条件GAN外,在制定损失函数时,还有许多GAN变体,如卷积GAN或循环GAN,它们也可用于合成图像生成任务。
在众多可能的方法中,我们选择了Pix2pixHD框架作为我们的基线研究,原因如下,它已被广泛应用于合成数据生成任务中,因此有许多可比较的资源,它可以处理比其更高分辨率的图像,并且易于使用许多可用的选项,如超参数搜索和模型评估,我们将本文中用于训练和测试的数据集提供给公众,人们可以使用不同的最先进的GAN框架重现或评估模型性能。
3.1.1. 用于生成合成图像的数据集
我们在使用我们的基线合成图像生成框架(即Pix2pixHD)时做了一些小修改,以便能够在改变数据集的情况下评估模型性能,如表2所示,有了这些数据集,人们将能够重现我们获得的类似结果,或者使用其他框架获得更好的结果。
数据由3个公共数据集组成,第一个数据集,即nirscene,包含477张RGB+近红外图像(1024x679),这些图像是由带有750nm带截止滤波器的商用高端相机捕获的,彩色图像采用白平衡,红外图像采用通道平均,通过RGB域和NIR域的特征匹配,完成了两次图像对齐(或配准),这些只是关键特征,图4显示了数据集中的示例图像,这个数据集很有用,但只有477对,这可能会阻碍一个良好的可见-红外域映射,虽然更多的实验结果将在接下来的第4节中展示,但我们执行了硬裁剪和过度采样来解决这个问题,硬裁剪是生成裁剪数据集的增强技术之一,而软裁剪在训练/测试阶段生成裁剪样本,过度抽样是指对冗余度更高的数据进行随机抽样,事实上,我们能从过度抽样中获得的最大信息量是原始数据,然而,我们发现过度采样有助于稳定训练并在很大程度上提高表现,关于这一点,我们将在第4节中进行更多的讨论和分析。
第二个数据集SEN12MS是来自Sentinel-1和Sentinel-2的公开卫星图像,没有图像处理应用于这个数据集,我们只选择了两个子集(夏季和所有季节),然后是火车/有效/测试分割,图5显示了作者采样多光谱图像的地理位置,多光谱图像的光谱范围为450 nm - 842 nm(即Sentinel-2的band2, band3, band4, band8),拍摄距离为768 km,这导致地面样本距离(GSD)为10米/像素,辐射校正工作已由卫星系统机构妥善完成,图6展示了该数据集中的两个示例。
最后一个数据集,capsicum,是我们之前在中提出的研究之一,数据集是从澳大利亚加顿和斯坦索普的甜椒农场收集的,使用多光谱相机JAI AD-130GE,该相机有两个电荷耦合装置(1280x960)棱镜机构为每个RGB和近红外光谱,与其他数据集不同,我们使用较大的原始图像来训练我们的模型,因为这简化了后续程序(例如,对象检测),数据收集活动大多在夜间进行,使用受控的可见光、红外光源以减轻外部干扰,用灰色图表正确地进行白平衡,省略了辐射定标,图7显示了来自此数据集的示例。
3.2. 利用合成图像进行水果检测
在本节中,我们将介绍一个应用程序,在该应用程序中,我们可以利用上一步中合成生成的图像,目标检测或语义图像分割是许多研究和商业领域的重要下游任务之一,特别是,农业中的精确目标检测可以被认为是一个关键的垫脚石,因为它可以用于许多其他后续任务,如作物计数、产量估计、收获和疾病检测,使用边界盒级别分割或分类。
对于目标检测,我们选择Yolov5主要是由于推理时间快(即单级检测),易于训练和直观的可视化优于其他框架,然而,还有其他功能强大的框架,如SAHI、Detectron2]或MMDetection,这些框架在适应新的模块或数据集方面非常灵活,并支持许多预训练的权重,这可以在很大程度上提高目标检测性能。
Yolov5的网络架构和实现细节可以从中找到,为了帮助读者理解对象检测,我们只提供了一个简明的高级视图,它由四个子部分组成;即输入层、骨干层、颈部层和头部层,第一个输入层采用拼接数据增强,这是裁剪图像、自适应锚和许多其他增强技术的聚合,骨干网络和颈部网络通过使用焦点(即图像切片)、卷积批归一化和Leaky ReLU (CBL)、跨阶段部分(CSP)和空间金字塔池化(SPP)、特征金字塔网络(FPN)和路径聚合网络(PAN)模块负责特征提取,直观地,颈部网络的输出是包含不同对象规模的特征金字塔,这可能会导致比其他单级检测器(SSD)更好的性能,最后一个头部层是特定于应用程序的层,大多数对象检测任务从头部层预测边界框(4)、置信度(4)和类(1),更具体地,表示了目标检测中使用的包围盒损失,即Lbox
其中s为网格的个数,N为每个网格中包围框的个数,GIoU是具有[- 1,1]标量值的并集,ˆB, B是面积预测和注释边界框(即两个任意凸形状)和C的面积是最小的封闭凸形状,I和U分别是B和B的交和并,从损失函数的直觉上看,当GIoU越小,意味着在需求方和需求方之间的重叠越小,损失就会不断增加,另一方面,当两个边界框大量重叠时,损失就会随着GIoU的增大而减小。
对于置信度分数Lscore和类概率Lclass还有两个损失,分别用逻辑回归和二元交叉熵建模如下
类似地,类概率Lcls定义为
总损失可以计算出
我们在训练阶段寻找最小化总损失的参数。
图8展示了我们在本文中提出的对象检测管道,在各种视觉融合方法中,我们遵循“早期融合”,以保持与3通道推理相似的推理处理时间(“晚期融合”需要O(N)复杂度,其中N是输入的数量),此外,它更容易实现,并直接从3通道基线扩展,首先,将输入图像∈RWxHx3输入到学习可见-红外域映射的生成器中,输出合成图像∈RWxHx1,这两个数据在输入卷积层(即早期融合)之前拼接成输入数据∈RWxHx4的形状,经过正向计算,网络预测出具有相应置信度的边界框(见图中红框)。“4ch推理”和“3ch推理”分别表示有合成图像和没有合成图像的预测,从这个精选的实验中,我们观察到有趣的方面:1)有一个实例只有4通道模型才能检测到,人工标注的黄色标记,3通道模型遗漏了一个被叶子和严重阴影遮挡的辣椒(假阴性),相比之下,4通道模型正确地检测到它,我们认为这是引入合成图像的影响,2)两个模型在非常具有挑战性的情况下都失败了(用洋红色标记),3)两个模型都成功检测到对象,尽管手动注释错误(标记为青色)。
3.2.1. 用于水果检测的数据集(4ch)
为了观察合成生成图像的影响,我们创建了一个数据集,其中包括4个通道11个水果,建立在我们之前的研究上,该研究提出了7个水果检测,蓝莓、樱桃、猕猴桃和小麦在这个数据集中是新引入的,尽管图像总数远远少于其他公开可用的数据集,如ImageNet, COCO(小麦除外),但这可能对另一个下游任务的模式预训练有用,每张图片包含多个实例,因为水果通常形成一个集群,除此之外,每张水果图像都是在不同的相机视图、比例和光照条件下拍摄的,这对模型的泛化非常有帮助,我们在一个云注释框架中公开了这个数据集,以便人们可以以多种不同的格式下载它们,请注意,我们手动生成并修复了之前数据集中的错误,除了从机器学习比赛中获得的wheat数据集4,数据集分割遵循8:1:1的训练/验证/测试规则,最终的对象检测结果使用测试集报告,详细的实验结果和数据集样本将在下面的实验部分中展示。
4. 实验与结果
在本节中,我们首先定义用于合成生成图像和对象检测任务的评估指标,在此基础上,给出了合成近红外图像生成和目标检测任务的定量和定性结果。
4.1. 评价指标
对于合成图像生成来说,准确衡量性能相对困难,因为生成器模型经常生成虚构的图像(例如,假人脸),幸运的是,在我们的任务中,我们可以使用传统的图像相似度指标或特征空间图像分布比较,因为我们的目标是生成与原始近红外相比残留误差较小的合成近红外图像,对于目标检测任务,我们采用平均精度,IoU扫描范围为[0.5:0.95](mAP[0.5:0.95]),步长为0.05。
4.1.1. 合成图像评价指标
正如在评估合成图像时所提到的固有挑战,社区广泛使用各种性能指标,如Frechet Inception Distance (FID)或FID,生成对抗度量(GAM),每一种都有其独特的优点和缺点,其中,我们选择了在高维特征空间中报告两幅图像相似度的FID,它意味着度量找到了两个多元高斯分布XA∼N(µA, ΣA)和XB∼N(µB, ΣB)之间的距离,这两个分布适合嵌入到特征空间中的数据(例如,使用InceptionNet或VGG16骨干提取的特征)。
4.1.2. 目标检测评估指标
还有许多用于对象检测任务的度量标准,如IoU、GIoU、mAP和F-α,其中mAP[0.5:0.95]是一个被广泛使用和接受的度量,其定义如下
其中TP、FP、FN分别表示真阳性、假阳性、假阴性,真阳性意味着我们的预测在注释边界框(hit)时是正确的,假阳性是当我们错误地做出预测(假警报)时,假阴性发生在我们错过一个边界框(miss)时,注意,在目标检测任务中不考虑真负TN,因为这意味着正确的拒绝(例如,不应该有边界框,模型不在该位置进行预测),并且存在无限个满足条件的情况,P和R是精度和召回率,AP和mAP是平均精度,平均平均精度是所有类别AP的平均值,在我们的例子中,AP和mAP被平等对待,因为我们的训练数据集中只有一个类(M = 1),如图所示,AP等于精度-召回曲线的面积,mAP[0.5:0.95]是在0.05步内改变IoU阈值范围0.5 ~ 0.95(即20个样本的平均值)时,所有类别的平均精度,根据每个数据集的训练/推理处理时间,以及每个任务使用的GPU设备,见表4
4.2. 合成近红外图像生成的定量结果
在本节中,我们介绍了nirscene1、SEN12MS和辣椒数据集的三个定量合成图像生成结果,An L.等人通过使用多通道注意选择模块展示了令人印象深刻的结果,他们用256×256分辨率裁剪了3691张图像用于模型训练和测试,不幸的是,本研究中使用的数据集不可用,技术细节也不足以进行公平的比较(例如,训练/测试样本及其分割没有公开)。
根据经验,我们将数据集8:1:1分割为训练/验证/测试,如表2所示,并继续进行实验,我们取得的比较结果如表5所示,可以看到,FID一直在提高(越低越好),对应的是过采样率,事实上,过采样样本的最大信息量应该小于或等于原始数据集,这种冗余可能会引入系统开销,并对图像分割或目标检测任务产生边际影响,然而,训练gan型模型往往表现出以下明显的特点;说到收敛,GAN模型通常很难找到最优点,因为它固有的最小-最大博弈框架,即使收敛稳定,由于模式崩溃或梯度减小问题,通常也难以保证训练后GAN模型的性能,如果样本数量很小(例如,<10 k),训练一个稳定的模型是非常具有挑战性的,通过过采样,我们假设GAN模型可以学习受样本数量显著影响的稳定参数,特别是批归一化层。
据我们所知,An L.等人是唯一利用nirscene1数据集报告FID评分的可比基线,然而,这项研究不准确地描述了基本的技术细节,如评估了多少个测试图像和数据分割,因此,我们的结果很难与其进行公平的比较。
Yuan X.等发布了使用SEN12MS数据集进行合成图像生成的令人印象深刻的结果,分别从Summer数据集中随机抽取30000/300张图像进行训练和测试,他们报告了图像相似度指标的定量结果,如平均绝对误差(MAE)或结构相似度(SSIM),这与我们的评估指标不同,更重要的是,只有1%的人评价了拆分策略,其余99%的数据集用于训练,从我们的角度来看,在如此小的测试样本下,很难正确评估模型的性能,辣椒的FID得分为40.15,该数据集是所有数据集中距离最近的数据集,包含杂乱的结构和复杂的场景,模型很难正确地学习RGB到NIR的映射(反之亦然)。
我们从这些定量结果中总结出,样本数量对于GAN模型是显著的,我们的合成近红外发生器最适合SEN12MS进行适当的辐射校准,以获得反射率而不是原始像素值,获取这些反射率是至关重要的,因为它们可以保持一致的值,尽管可接受的相机内部或外部参数的变化,如果图像是在类似的光源下拍摄的,值得一提的是,图像分辨率也是值得考虑的有趣方面之一,如更高分辨率的结果所示,如果图像的分辨率越高,网络学习NIR-RGB关系就越困难,为了改善这一点,我们需要设计一个更深入的网络,有更多的训练样本。
最后一个分析点是,FID评分没有单位,没有质量衡量,低的分数意味着高的性能,但是15 FID是好是坏是值得怀疑的,我们建议对模型预测进行可视化检查,以解决这个问题,将在下一节中介绍。
4.3. 合成近红外图像生成的定性结果
我们展示了nirscene1、SEN12MS和capsicum 3个数据集的定性结果,nirscene1数据集的FID为26.53,图9示例了6个随机选择的测试样本,最左边的两列是原始的NIR- rgb对,Synthetic NIR是指导致上述FID评分的模型预测(dNIR),原始NDVI是用原始NIR-RGB对提取的NDVI NIR−RED/NIR+RED,通过计算dNIR−RED/dNIR+RED输出合成NDVI,两张NDVI图像的直方图显示在最右边的一列(蓝色=原始NDVI,红色=合成NDVI),一般来说,网络学习了很好的非线性映射,然而,它显示出局限性,特别是不同的强度和模糊的边缘,从直方图中可以清楚地看到这些,nirscene1数据集包含许多户外拍摄的图像,其中光照条件不一致,这为模型在给定的小数据集上学习映射提出了挑战性的条件。
SEN12MS数据集在比nirscene1更稳定的条件下采集/校准,从图10可以清楚地观察到这一点,预测很好地符合原始NDVI,除了两个被低估的点,在这些实验中,我们实现了夏季的FID为16.47,所有季节子集的FID为11.36,定性地说,小于15 FID是原始数据的极好近似,我们仍在调查低估的原因,然而,这可能是一个有效的假设,即网络需要看到更多含有水的图像,因为它主要在非常低的NDVI(接近归一化水指数(NDWI)波长)时产生误差。
最后一个数据集是capsicum,如图11所示,该数据集保持一致的照明和白平衡,但一些样本严重曝光不足(见图中底部一行),此外,这个数据集是在最近的范围内拍摄的,造成了非常混乱和复杂的场景,虽然我们的模型工作得非常好,但它仍然无法恢复清晰的细节,这导致了40.15的FID相对较高,但仍然令人印象深刻,我们可以使用这个结果来看看我们是否可以改进目标检测任务。
4.4. 合成近红外和RGB图像在水果检测中的应用
合成近红外图像(700-800 nm波长)可以提供可见光范围内RGB图像无法覆盖的有用信息,其中一个突出的性质是高反射率在这个特定的带宽从植被由于叶绿素在叶片细胞,将近红外与RED通道(即归一化植被指数(NDVI)I)相结合,可以方便地测量植被面积及其状况,因此,额外的近红外信息可以显著提高植物分割任务的性能,如我们之前的研究所示。
不仅用于图像分割任务,而且可以提高物体检测性能,如我们之前的实验所述,所提供的信息通过提供高质量的特征,有助于增强识别能力,例如,在浅阴影下的纹理和物体在红外范围内比可见光更清晰。
因此,在本节中,我们的目标是通过注入在前一节中生成的额外合成数据来提高目标检测性能,所有实验均使用表4中提到的数据集进行,我们采用Yolov5单级探测器进行实验,并做了微小的修改,以获得4通道输入,任何其他物体探测器,如Detectron2, MMDetection或其他yolo系列都可以轻松使用。
4.5. 水果定量检测结果
如评估指标(4.1)部分所述,mAP[0.5:0.95]是本次定量评估中的关键绩效指标,11水果和农作物如表6所示,注意,当使用两级检测器(faster - rcnn)作为主要目标检测器时,我们从之前的工作中采用了[apple, avocado, pepper, mango, orange rockmelon, strawberry]等7种水果,虽然这7种水果的样本几乎完全相同,但我们重新注释了错误注释的样本,并将它们通过云服务与新添加的4个水果数据集一起提供,这允许用户以适合无缝使用各种对象检测框架的各种格式导出数据集。
我们为每种水果考虑了两种模型;yolov5s (7.2M参数)和yolov5x (86.7M参数),每个模型使用/不使用合成近红外图像进行训练,因此,每个水果包含4个性能结果,使用的所有超参数都是来自最新存储库的默认值,除了wheat之外,只有epoch的数量被设置为600,这主要是因为它在数据集大小上要大一个数量级,粗体表示每个水果的最佳分数对应的指标,在训练阶段,我们假设数据集中只存在一个类,考虑到单一物种的水果农场场景,这是一个有效的假设,在生成合成近红外图像时,我们部署了使用表2中提到的辣椒数据集训练的生成器。
值得一提的是,用于合成近红外生成和目标检测的两个辣椒数据集在数据采集活动位置、时间、光照条件等各个方面都有所不同,这是因为我们只能从我们之前的工作[15]中获得辣椒注释用于对象检测,而我们从试验集中收集了大量未注释的RGB+近红外对用于合成近红外生成。
总体而言,所有的检测性能是令人印象深刻的,尽管少量的训练样本,mAP0.5的min-max为[0.85-0.98],mAP[0.5:0.95]为[0.49-0.81],苹果、辣椒、鳄梨、橙子等4种水果利用额外的近红外信息表现最好,其他7种水果仅利用RGB信息表现最好,这一结果与我们的目标相违背,我们想深入阐述因果关系。
稳定和一致的反射率在合成图像生成中起着非常重要的作用,直观地说,这意味着我们的网络需要学习具有小变化的RGB到近红外非线性映射,如果数据集的分布和特征显著变化,我们的模型将需要更多的数据集覆盖,否则,它将会过度拟合,从而导致在我们的情况下出现的较差的性能,在对象检测中评估的所有数据集都与用于GAN模型学习的辣椒数据集具有边际相关性,其中许多都是从没有近红外图像的网页上获得的,更详细的限制、失败案例和可能的解决方案将在下一节5中讨论。
图12显示了表6的不同视图,可以看出,参数越多的模型性能越好,训练时间越长,硬件资源越少,乍一看,仅RGB和RGB+NIR之间的性能差距很难区分。据我们所知,仅利用RGB图像进行水果包围盒检测就足够了,训练/验证损失是衡量模型性能和行为的重要指标。
图13报告了新增水果、蓝莓、樱桃、猕猴桃和小麦的两个mAP指标和损失结果,一种早期停止机制被激活,如果模型的评估在N = 10个连续的epoch/steps中没有改善,则会终止训练阶段,从而导致每个果实的步骤不同,所有的水果都很好地融合在一起,没有过度拟合,并获得令人印象深刻的mAP,蓝莓周围有凸起(红色)有100步,这是训练时图像增强的常见效果(例如,基于概率的几何或颜色变换)。
4.6. 定性物体检测结果
在本节中,我们演示了定性水果检测性能,所有图像都是从测试集中随机抽取的(即训练时未见过的数据),并且使用性能最佳的模型Yolov5x(具有RGB图像)进行推理,在推理时间方面,在NVIDIA RTX 3090 GPU上给出640x640大小的图像,Yolov5s和Yolov5x模型的平均推理时间/图像分别为4.2ms (238Hz)和10.3ms (97Hz),该推断时间与Yolov5报告的相匹配,足以用于实时处理应用。
尽管我们使用了与2015年之前的研究相同的7种水果的训练数据集,但我们可以定性地观察到最先进的物体检测器的性能改进,这可以从图14所示的检测小尺度物体中清楚地看到,自深度学习的早期时代以来,目标检测一直在积极发展,并通过开发强大的图像增强、模型架构以及硬件和软件优化,在准确性和推理速度方面实现了出色的性能提升,图14举例了11种水果的检测结果。
5. 挑战和局限
在进行实验时,我们发现了该方法的有趣之处和局限性,首先,我们的合成近红外发生器可以恢复小的缺陷数据,如图26所示,由于相机硬件问题(例如,数据流达到以太网接口的最大带宽或相机温度异常高),出现了几条损坏的水平线,这些人工制品在合成近红外中略有恢复,因为生成器学会了如何合并相邻像素信息来确定近红外像素值,最终,这会产生模糊效果,用插值数据填充一条水平线,我们同意,很难争论这是否会对业绩产生积极或消极的影响,但是,如果损坏程度较小(例如,一个或两个像素行)并且频繁发生,生成器可以有效地拒绝异常。
另一个讨论点和限制是合成近红外图像的性能略有提高甚至下降,11种水果中只有4种在附加信息的情况下表现出更好的结果,主要原因是训练集和测试集之间存在很大的差异,例如,图27显示了给予苹果、樱桃和猕猴桃RGB输入的合成近红外图像,此外,这些测试图像来自互联网,具有较高的变异特性,因此,由于缺乏原始的近红外图像,很难判断生成的图像是好是坏。
另一方面,如图28所示,我们的生成器在给定来自相似训练集分布的测试图像的情况下,正确地生成了合成的近红外图像,从这个实验中,我们想说的是,推广我们的生成器模型非常具有挑战性,导致错误和不现实样本,然而,它应该适用于从类似环境和条件中提取的样本,关键特性是一致的照明和辐射校准。
6. 结论与展望
在本文中,我们提出了使用无监督深度神经网络(只需要NIR-rgb对)生成合成近红外图像的方法,通过采用3个过采样的公共数据集,我们证明了训练数据集规模的重要性,事实证明,即使有冗余的信息,它也有助于稳定参数,并导致优越的性能,我们重新处理了这些数据集,并将其公之于众,这些合成的近红外图像使用11个水果(7个来自我们之前的研究和4个新添加的数据集)进行严格评估,它们还以各种边界框格式公开提供,这将使其他研究人员能够轻松和及时地使用该数据集,进行了早期融合方式的目标检测实验,并与读者分享了详细的分析和讨论。
虽然与ImageNet或COCO、KITTI等其他大型数据集相比,对象注释的规模相对较小,但这些专注于农业和园艺的数据集将在许多方面发挥作用,它可以用于模型域内预训练,任务内训练(或finetune)之前的预步骤,例如,如果有人想用自己的数据集训练樱桃探测器,那么使用我们的数据集而不是ImageNet或COCO进行预训练更有意义,因为后者包含许多非农业上下文(例如,汽车、建筑物、摩托车或船舶),另一个用例是这个小数据集可以生成伪注释,给定一个未加注释的数据集(例如,100k kiwi图像),可以获得预测(即,框和置信度)在一个小数据集上使用训练过的模型,递归这些迭代可以大大提高基线模型的性能。
据我们所知,本文介绍了目前最不同类型的水果/作物的边界框注释数据集,我们希望这对其他后续研究有用。