高光谱成像技术凭借其强大的空间和光谱信息获取能力,已成为植物产品地理来源识别与质量控制的前沿工具。根据研究,高光谱技术结合深度学习模型,可以实现枸杞的地理来源精准分类,准确率高达95.63%。通过特征波长提取,不仅显著提高了分析效率,还增强了数据的科学解释性。此外,高光谱与化学分析(如NMR)的结合,能够进一步揭示样品化学成分与光谱特征的关联,为复杂样品的快速、非破坏性检测提供**解决方案。
背景
枸杞以其**的营养价值和显著的药用功效享誉全球,尤其是在抗氧化、**调节和抗肿瘤等方面表现突出。这些特性与其地理来源密切相关,地理来源不仅决定了其化学成分和药用效果,还显著影响市场价值。因此,快速、准确地识别枸杞的地理来源对于质量控制和市场调节至关重要。传统的地理来源识别方法主要依赖于物理化学特性或感官评价,但这些方法通常依赖专家经验,缺乏客观性和**。近年来,现代分析技术(如近红外光谱、超高光谱成像(HSI)、核磁共振(NMR)和液相色谱-飞行时间质谱)在地理来源鉴定中显示出强大优势。其中,HSI提供了丰富的光谱和空间信息,NMR在成分识别与定量分析中表现突出。然而,这些方法单独使用时存在一定局限性,如数据复杂性高、维度大,导致传统机器学习模型难以有效处理。
为克服上述挑战,深度学习技术被引入到分析过程。这些方法能够从高维数据中自动提取特征,能够有效利用光谱与空间特征,从而显著提升地理来源的分类精度。同时,SHAP解释模型的引入解决了深度学习的“黑箱”问题,增强了结果的可解释性。因此,该研究通过将HSI和NMR技术与深度学习技术相结合,用于识别枸杞的地理来源。具体目标包括:(i) 通过将HSI数据与SHAP方法相结合,改进ResNet-34模型,实现枸杞地理来源的判定;(ii) 利用NMR技术识别枸杞的地理来源及其特定地理标记(GI);(iii) 建立枸杞地理标记物与HSI数据中提取的特征波长之间的关联。
实验设计
材料与方法
(1)样品制备
干燥后的枸杞样品由中国宁夏农业产品质量标准与检测技术研究所下属的农业产品质量监测中心提供。所有枸杞样品均采自四个主要产区的当地农场,包括宁夏同心县(TX)和宁夏中宁县(ZN,品种分别为ZN1和ZN2)、青海诺木洪(NMH)以及青海德令哈(DLH)。
宁夏地区的枸杞样品于2022年6月下旬至7月上旬采收,青海地区的样品则于2022年9月完成采收。不同产地和品种的枸杞均采用人工手工采摘的方式,从每棵枸杞树的东、南、西、北四个方向分别采摘,以保证采样的**性。为确保数据分析的一致性并减少潜在偏差,每个产地的样品经过严格筛选,尽量保持大小均匀。采摘完成后,枸杞在自然条件下日晒干燥数日。*终共获得525份样品(每个产地n=105)。样品的两面分别标记为A面和B面,其RGB图像如图1所示。随后,所有样品均迅速冷冻保存于-80°C环境中,以保持其生化和物理特性。
图1. 不同地理和品种产地的代表性枸杞样品的RGB图像
(2)HSI和1H核磁共振(NMR)采集和数据预处理
HSI数据采集及光谱预处理:HSI数据在可见光-近红外(VNIR)高光谱成像系统(GaiaField-V10E)上获取。该系统由高光谱成像仪(GaiaField-V10E)、透镜(HSIA-OL23)、光源(HSIA-LS-T-200W)、标准漫射参考板(HSIA-CT-400×400)和安装有SpecView软件的计算机组成。将枸杞样品放置在离透镜35cm的工作台上。分别采集枸杞两侧的HSI数据,记为A面和B面。然后对枸杞的高光谱数据进行黑白校正。为了减少光谱外围噪声波动的影响,校正后的高光谱图像中初始6个波长被消除。随后,对枸杞高光谱数据进行了准确的分割处理。每个枸杞被指定为一个独特的兴趣区域,以方便深入分析。
1H NMR采集及光谱预处理:在完成所有枸杞样品的HSI数据采集后,从每个地理产地和品种中随机挑选30个枸杞样品,迅速在液氮中冷冻,并使用研钵和研杵将其研磨成细粉。每个样品中取100mg的粉末,溶解于甲醇-氯仿-水的混合溶剂中,体积比为4:4:6。混合液通过涡旋混合1分钟以确保充分混匀,然后在冰浴中冷却15分钟以促进相分离。冷却后,溶液在4°C条件下离心10分钟。小心将上清液转移至5 mL的Eppendorf管中,并使用样品浓缩器蒸发30分钟后,进行24小时的冷冻干燥,以去除残留的甲醇和水。干燥残渣用600μL的氘化磷酸盐缓冲液(100mM,pH=5.7)重新溶解,该缓冲液中含有0.05%的TSP(钠盐3-(**基硅基)丙酸-2,2,3,3-d4)。混合液再涡旋混合5分钟后,在10,000g×4 °C条件下离心10分钟。*后,将550 μL的上清液转移至5mm NMR管中,用于采集1H NMR光谱数据。
所有枸杞样品的1H NMR光谱均使用850 MHz的Bruker AVANCE III核磁共振波谱仪(Bruker公司,德国卡尔斯鲁厄)采集,配备CPTCI探头,工作频率为850.32 MHz。1H NMR光谱通过ZGPR脉��序列采集,参数设定如下:温度为298K,谱宽为14KHz,数据点数为32K,弛豫延迟为4.0秒,采集时间为1.9秒,共64次扫描。
所有枸杞样品的1H NMR光谱数据均通过MestReNova软件(V14.0.0,Mestrelab Research,西班牙)进行预处理。处理步骤包括傅里叶变换、相位和基线校正,以及利用TSP的单峰信号(δ0)对光谱进行对齐。在δ0-10范围内,将光谱分割为宽度为0.002 ppm的区间,并移除残留甲醇峰(δ3.35-3.37)和水峰(δ4.75-4.90)的干扰信号。对TSP峰(δ0)进行归一化处理,使其峰强值为9,便于后续的定量分析。*终,将积分数据导入SIMCA 14.1软件进行**的多变量统计分析。
(3)枸杞的地理来源鉴定
传统机器学习:采用逻辑回归(LR)和采用基于径向基函数核函数的非线性支持向量机(SVM)进行枸杞产地的识别。为了优化SVM模型的性能,使用网格搜索方法调整惩罚因子(C)和核参数(γ)。具体来说,惩罚因子C从20.1变化到250,核参数γ从2-15调整到2-10。
改进的ResNet-34:与传统机器学习算法相比,深度学习模型在分类任务中表现出更高的准确性,这主要归因于其能够自动从高维数据中提取更**的特征。这种优势在高精度地理来源识别中得到了验证。如今,ResNet被广泛应用于各种分类任务。考虑到HSI数据的复杂性和高维性,以及模型的性能要求,本研究选择了一种改进版的ResNet-34架构。
表1展示了改进版ResNet-34的架构,说明其由五个模块组成,每个模块包含36个卷积层,*终连接至一个全连接层。与原始ResNet相比,*显著的区别在于初始卷积层Conv1_x的修改。传统的2D卷积层被替换为3D卷积层,以更好地适应枸杞HSI数据的复杂性。Conv1_x层包含三个3D卷积子层和一个2D卷积子层,各自配备不同尺寸的卷积核:3×3×17、3×3×11、3×3×7(3D卷积)和3×3(2D卷积)。每次卷积操作均应用修正线性单元(ReLU)激活函数。这一架构调整的动机是利用HSI数据中固有的多波段图像特性,这不仅提供了丰富的空间和光谱信息,也显著增加了数据的复杂性和体量。整个枸杞HSI数据集(包括A面和B面)随机分为训练集(占70%)和测试集(占30%)。训练集用于优化改进版ResNet-34模型的参数,测试集则用于评估模型的预测性能。在本研究中,学习率、批量大小、训练周期数、损失函数和优化器分别设置为0.001、16、200、交叉熵损失和Adam。这些参数的选择旨在有效处理具有64×64像素空间维度和114个光谱波段的图像。
特征波长提取:虽然HSI提供了丰富的光谱和空间信息,但其高维性和共线性以及冗余性对计算效率和模型鲁棒性构成了重大挑战。此外,深度学习模型的“黑箱”性质(其特征是缺乏固有的可解释性)进一步使其应用复杂化。为了解决这些问题,有必要对预处理后的光谱进行特征提取,以尽量减少非相关变量的影响,消除冗余信息,从而提高模型的计算效率和性能。
利用SHAP技术对模型输出进行解析,提取了400-1040nm光谱范围内的特征波长。计算SHAP值,得到各光谱波段各数据点的贡献分数,这些SHAP值代表各光谱波段对模型的重要程度。该方法不仅揭示了HSI数据中每个光谱波段对全球范围内预测结果的重要性,而且还描绘了其在每个HSI区域内的影响。在本研究中,迭代选取贡献率*高的5%以内的光谱波段图像作为模型的训练数据,每一步递增5%,直到模型的预测精度接近于原始模型。
(4)统计分析
所有NMR积分数据随后通过SIMCA 14.1软件进行多变量统计分析。在此之前,数据进行了单位方差缩放,以突出微量成分的差异。使用偏*小二乘判别分析(PLS-DA)来揭示不同产地之间的组成差异,随后应用正交偏*小二乘判别分析(OPLS-DA)以识别枸杞的地理或品种标志物。PLS-DA和OPLS-DA模型的性能通过模型参数R2X、R2Y和Q2进行评估。此外,为了检测潜在的过拟合,模型进行了200次置换检验。
枸杞中各成分的定量通过比较每种成分特征峰的积分与内标物(TSP)的积分实现,浓度以平均值 ± 标准偏差(SD)表示,基于三次重复实验获得。在本研究中,构建了一个四维火山图以展示倍数变化、p值、**相关系数(r)和投影变量重要性(VIP)。枸杞的地理标志(GI)标志物基于以下严格标准进行识别:倍数变化不在0.8–1.2范围内,p<0.05,|r|>0.90,且VIP值位于前5%。
为了分析同一枸杞样品中NMR数据与HSI数据之间的相关性,计算了它们的Pearson相关系数。此外,使用精度评估了LR、SVM和改进的ResNet-34模型在识别枸杞地理起源方面的性能。
结果与讨论
(1)基于HSI数据的枸杞产地识别
图2显示了不同地理产地的枸杞样品A面和B面的平均反射率。不同产地的枸杞样品中相似的光谱趋势表明相似的化学成分,而光谱强度的差异表明不同成分的浓度不同。同时,图2a和b显示了枸杞样品的A面和B面光谱差异很小,这一发现意味着从单侧采集HSI数据是一种可行的方法,因为尽管样本两侧的外部和内部特征存在潜在变化,但它不会引入重大误差。在400-560nm的可见光光谱中,枸杞样品的光谱反射率明显较低,曲线重叠,这可能是由于枸杞的红色表面在该波长范围内反射的光较少。相反,在560-850nm波长范围内,枸杞表面的反射率逐渐增加,光谱曲线呈现出微小的差异。虽然不同产地的枸杞样品的反射率曲线开始出现差异,但差异仍然很小。枸杞在922nm和985nm处有小谷,在963nm处有小峰,这些特征表明了O-H拉伸的**和**泛音。
图2.来自不同地理和品种产地的枸杞样品的(a)A面和(b)B面平均反射光谱
尽管不同地理来源或品种的枸杞在光谱上存在差异,但不能通过视觉比较来有效区分。此外,相似的颜色和形状增加了视觉区分的难度。因此,选择合适的分类策略对其进行准确分类就变得至关重要。为了获得更好的分类结果,本研究采用了机器学习技术。表2显示了线性(LR)和非线性(SVM)模型对枸杞地理来源识别的分类结果。在A侧和B侧的测试数据集上,LR和SVM模型对枸杞产地的分类准确率均未超过90%,但当使用一侧数据训练的模型对枸杞产地进行识别时,LR模型和SVM模型的预测准确率分别达到95.24%和99.43%。总体结果表明,机器学习结合HSI技术有效地识别了枸杞的起源。此外,通过从枸杞的任何一侧收集HSI数据,可以实现可靠的地理来源追溯。
考虑到LR和SVM模型的分类准确率不足90%,引入深度学习对高维HSI数据进行进一步分析。正如之前的研究所指出的那样,深度学习模型需要大量的训练数据集。因此,我们将来自枸杞两侧的HSI数据纳入了包含730个样本的训练数据集和包含320个样本的测试数据集。为了避免同一枸杞样品的A面或B面被分配至不同的数据集(从而影响验证结果的完整性),同一样品的两面被策略性地分配至相同数据集。