背景
番茄是一种受欢迎且营养丰富的水果,在全球市场上占据了重要地位。近几十年来,大量的研究致力于培育出品质更高、抗逆性更强的番茄品种。果实的品质与幼苗的生长密切相关,因此,有效监控幼苗的生长对于培育上等番茄至关重要。传统的化学方法在监测植物中大量色素的浓度方面可能会受到限制。为了克服这些限制,研究人员经常求助于非侵入性、高通量和实时监测技术,例如光谱学和高光谱成像,这些技术可以在不需要破坏性采样的情况下评估植物中的色素浓度,并提供有效监测大量植物的能力。
试验设计
本研究使用的樱桃番茄幼苗在华南农业大学园艺学院室内植物工厂(113.36°E,23.6°N)进行水培,包括两种类型的番茄幼苗:未改变的野生型和长下胚轴缺失(HY5)突变体。野生型花青素含量较高,HY5突变体的花青素含量较低。花青素在植物光合作用中起重要作用,并影响其他色素的积累。两种苗种在相同的环境条件下培养。如图1(a)所示,将幼苗置于顶部和底部有开口的海绵方块上,使其叶子向上,根向下,将幼苗种植在72孔泡沫板上。泡沫板被放置在植物工厂的水培架子上,使番茄幼苗的根部能够接触到营养液。番茄幼苗以单孔空间分开种植,以减少植物叶片在生长过程中的相互遮荫,以确保植物获得足够的光线。本研究记录了番茄幼苗在播种后17、20和23天的光谱数据和色素浓度数据。从4块泡沫板中选取144个样本,每块泡沫板中包含36棵幼苗。一半的样本是野生型,另一半是HY5型。实验中番茄幼苗的选择标准是叶片表面平整,以便于光谱图像的获取。
图1 (a)高光谱图像采集和(b)ROI提取
如图1(a)所示,高光谱图像采集装置由近红外相机Gaia Field-N17、光源、暗盒和加载板组成。该近红外相机具有256个光谱通道,可以记录900-1700 nm范围内的反射光谱。每个样品的高光谱数据使用近红外相机和控制软件SpecVIEW v2.9采集。仪器和软件均由江苏双利合谱光谱成像技术有限公司提供。
本研究共采集了432株幼苗,其中一半为野生型,一半为HY5型。幼苗叶片中色素浓度随时间的平均值和分布如图2所示。这些折现说明了每种光合色素的平均浓度总体上呈上升趋势。叶绿素浓度在第20天显著高于第17天,第23天变化不大。这可能有两个潜在原因:随着植物的生长,它可能耗尽了土壤中可用的营养物质。光合色素,如叶绿素,需要氮、镁等关键营养物;植物可能将资源转向开花、结果或其他繁殖过程。小提琴图展示了不同时间间隔中色素浓度的分布,小提琴图中较宽的部分表明该范围内样本数量较多。每个时间点分组的上部小提琴图显示了野生型的分布,而下部小提琴图代表HY5突变型。HY5是植物生长发育过程中促进光形态发生,刺激叶绿素和类胡萝卜素合成的关键调控因子。HY5缺失导致下胚轴变长,光形态发生受损导致色素沉着减少。
图2 色素随时间的平均浓度和分布
番茄幼苗的原始反射率曲线如图3(a)所示,其中包含少量异常值。常用箱形图来处理这一问题,超出上四分位数或低于下四分位数的样本值会被排除出数据集。值得注意的是,在900 nm和1700 nm附近发生细微的波动,这可能是由噪音和杂散光引起的。利用SG滤波器进行降噪处理,得到更平滑的反射率曲线,如图3(b)所示。一阶导数结果的显著波动清楚地揭示了反射率曲线的变化,如图3(c)所示。此外,如图3(d)所示,经过SNV标准化后,光谱曲线围绕在零附近变得更加密集。因此,利用SG滤波器和SNV联合对反射光谱进行处理,在不失去其特性的情况下,消除了噪声和快速振荡的干扰。
图3 预处理方法比较((a)原始光谱;(b)SG平滑滤波器;(c)一阶导数;(d)SNV)
在主成分分析法中,载荷图通常用来检验特征与主成分之间的关系,每个主成分中原始变量的权重有助于进一步理解所选波长的重要性。如图4(a)所示,在21个选定的主成分中,有5个主成分占总载荷的90%以上。曲线的峰谷分别出现在910 nm、950 nm、1130 nm、1400 nm和1450 nm附近,与番茄幼苗色素的相关性*强。PC4在910 nm左右上升,PC5在1130 nm左右下降,可能是由于C-H键的拉伸和弯曲振动引起的。950 nm和1130 nm附近发生的特征是由于对称和不对称振动和旋转方式对H2O分子的吸收。1450 nm左右的显著下降与水的O-H拉伸**泛音和碳水化合物的存在有关。
如图4(b)所示,以叶绿素-a的结果为例,CARS经过21次蒙特卡罗采样迭代后,所选择的特征总计为37。所选特征主要集中在950~1150 nm和1400~1480 nm之间。在960 nm处观察到的吸收峰主要来自于水分子内羟基(OH)的二阶频率加倍,而在1200 nm附近的衰减被认为是有机物内CH基团的二阶振动吸收的结果。另一方面,叶绿素-b和类胡萝卜素所选择的波长不同。然而,它们都紧密地聚集在两个特定的光谱范围内:930-1210 nm之间和1350-1550 nm之间的峰谷。930-1210 nm之间的特征与植物中O-H和C-H键的振动有关。综上所述,这些一致的结果符合光谱学的既定原理,支持了特征提取的验证。
图4 PCA和CARS的结果说明((a)基于PCA方法的波长权重;(b)CARS法提取叶绿素-a的敏感波长)
为了证明特征提取有助于预测性能的提升,进行了全波段对比实验。表1显示了不同特征提取方法与PLSR结合时的性能,其中Np代表预测中使用的特征数量,R2c、R2v和RMSEc、RMSEv分别代表校准集和验证集上的R2和RMSE值。如表1所示,通过整合三种特征提取方法,PLSR模型的性能较使用全波段特征有所提升。以叶绿素-a为例��与全波段相比,PCA、ICA和CARS组合的R2分别提高了0.027、0.030和0.082。此外,其他三种色素的预测中也发现了相同的改善。因此,这些特征提取方法能有效地移除反射光谱中的无关信息。
此外,在表1中,CARS显示出更高的R2和更小的RMSE,证明了其相较于其他两种策略的优越性。虽然PCA和ICA方法倾向于使用较少的特征进行预测,但它们可能无法保留重要的波长。另一方面,CARS展示了更高的准确性和鲁棒性。因此,在接下来的建模讨论中采用了CARS来选择敏感波长。
在特征提取后,对PLSR和ELM进行测试和比较,以确定预测番茄幼苗中色素浓度的*佳模型。采用网格搜索技术确定模型的*优参数。当隐藏层节点数设置为30时,ELM达到*优,预测结果如图5(a)所示。总体而言,ELM比PLSR具有更高的R2和更低的RMSE,即ELM在检测任务中表现出更高的准确性和鲁棒性,可能的关键因素是数据中非线性关系的存在。在3种色素中,ELM模型在叶绿素-a的预测精度*高,在测试集上的R2为0.86,在叶绿素-b和类胡萝卜素数据中表现出几乎一致的预测性能。
图5 预测结果((a)PLSR和ELM的比较;(b)色素浓度的可视化)
所提出的方法随后被用于检测活体番茄幼苗叶片中的色素浓度。该过程包括将原始高光谱图像作为输入输入到预训练系统,系统随即生成色素浓度的预测。如图5(b)所示,热图中的颜色编码(蓝色代表低浓度,红色代表高浓度)提供了对这些色素分布的直观理解,结果也确实合理。如预期,叶片中的色素浓度高于茎部。这与植物生理学的理解一致,叶子是光合作用的主要场所,这些色素在其中发挥关键作用。
利用预测的叶绿素和类胡萝卜素浓度对野生型和HY5型番茄幼苗进行分类。为此训练了基于逻辑回归、支持向量机(SVC)和K*近邻(KNN)的分类模型,将番茄幼苗的输入样本分为野生型和HY5型。模型训练是在包含三种色素浓度和相应基因型标签的真实化学数据集上进行的。然后,使用训练好的分类器和ELM预测的色素浓度作为测试输入,来确定番茄幼苗的基因型。分类器的主要结果在表2中进行了总结。从表中可以观察到,逻辑回归和SVC在测试集上达到了*高的准确度得分,约为0.85。此外,这两个模型的F1分数和AUC也达到了相对较高的值,分别为0.86和0.85,表明这些模型在处理野生型和HY5型的二分类问题上具有高水平的表现。
结论
为了解决在植物工厂监测大量番茄幼苗生长的挑战,本研究提出了一种新的方法,该方法结合了高光谱成像技术和机器学习技术。在本研究中,叶绿素和类胡萝卜素的实际浓度是通过化学方法确定的,这些数据作为建模的真实基准。进行了使用不同特征提取算法的实验,以验证提取过程的有效性并通过结果比较识别*佳算法。结果显示,CARS方法胜过其他方法,成为特征选择的优选方法。每种色素的敏感波长都被记录下来,以备将来应用。基于PLSR和ELM构建的回归模型进一步用于预测叶绿素a、叶绿素b和类胡萝卜素的浓度,结果显示ELM模型表现更佳,这三种色素的R2分别达到了0.86、0.83和0.83。使用ELM预测的色素浓度作为输入,基于逻辑回归和SVC构建的分类模型用于分类番茄幼苗的基因型,在测试集上达到了0.85的准确度。所提出的方法可以整合到运行在微型计算机上的软件中,使用近红外高光谱相机实时估算色素浓度和基因型。这一概念可能会启发监测设备的开发,旨在提高植物工厂的效率和生产力。
作者简介:
黄斌山,一作,华南农业大学电子工程学院/人工智能学院。
参考文献:
Huang Binshan, Li Songhao, Long Teng, Bai Shudai, Zhao Jing, Xu Haitao, Lan Yubin, Liu Houcheng, Long Yongbing. Research on Predicting Photosynthetic Pigments in Tomato Seedling Leaves Based on Near-Infrared Hyperspectral Imaging and Machine Learning. Microchemical Journal, 2024, 204: 111076.