基于图像处理方法的空间站舱室材料表面真菌滋(3)
【作者】网站采编
【关键词】
【摘要】之后的模型构建与验证采用降维后的样本数据集进行随机拆分,划分为训练集和测试集,80%作为训练样本,分别采用SVM 模型和随机森林模型对4 种典型真菌
之后的模型构建与验证采用降维后的样本数据集进行随机拆分,划分为训练集和测试集,80%作为训练样本,分别采用SVM 模型和随机森林模型对4 种典型真菌滋生图像种类识别和生物量等级分类进行建模, 20%作为测试样本,用于对模型的评价检验。
3.3 模型构建方法
3.3.1 基于SVM 的真菌种类识别模型构建
使用拆分的训练集基于SVM 模型对铝合金板表面4 种典型真菌种类识别模型进行训练。 采用GridSearchCV 方法对表2 中SVM 不同核函数及参数进行网格搜索,进行5 折交叉验证,以准确率为评价指标得到最优的核函数及其参数。
网格搜索结果最优参数组合为:核函数为多项式函数,惩罚因子C =10,多项式函数最高项次数Degree=2,评价指标准确率为96.34%。
表2 SVM 核函数及参数Table 2 Kernel functions and parameters of SVM注:C 为惩罚因子,Gamma 为核函数宽度参数,Degree 为多项式函数最高项次数核函数 参数线性 C:[1,100]径向基函数 C:[1,100] Gamma:[0.1,1]多项式函数 C:[1,100] Degree:[1,5]
在得到SVM 的最优参数组合后,采用学习曲线来判断训练模型是否为欠拟合(underfitting)或过拟合(overfitting)。 将训练集划分为10 等分,在训练模型时逐渐增加训练集样本,并计算在当前训练样本数量情况下训练出来的模型准确性。
3.3.2 基于随机森林的真菌种类识别模型构建
与构建SVM 分类器类似,也需要寻找构建随机森林模型的最优参数。 利用GridSearchCV 对随机森林的基评估器n_estimators的数量的最优值进行搜索,基评估器数量越大,模型的效果越好。当数量达到一定程度之后,模型的效果将没有明显变化。 最终得到随机森林模型最优的基评估器的数量为40。 确定随机森林模型的最优参数后,采用学习曲线判断随机森林模型状态。
3.3.3 真菌生物量分级识别模型构建
分别对4 种真菌数据的训练集采用网格搜索寻找SVM 分类器最优参数组合。 从表3 中可以看出,4 种真菌生物量SVM 分级模型的最优核函数都为多项式函数。 在寻找到最优参数后,分别采用训练集数据对铝合金板表面4 种典型真菌滋生生物量分级模型进行构建。
表3 SVM 模型最优参数组合Table 3 Optimal parameter combination of SVM model菌种 核函数 最高项次数 惩罚因子黑曲霉 多项式函数 1 10芽枝状枝孢霉 多项式函数 2 10金灰青霉 多项式函数 2 10杂色曲霉 多项式函数 1 100
4 结果与讨论
4.1 真菌滋生图像
4 种真菌在铝合金板材料表面的滋生情况如图2 所示。 通过采用镜像翻转、随机裁剪、缩放等方法对图像集进行扩增,最终将已有的480 张图像扩增到了2229 张。 其中,铝合金板材料表面黑曲霉不同滋生状况图像一共495 张,依据材料表面生物量等级分为大量、少量、微量3 种等级的图像各165 张;芽枝状枝孢霉不同滋生状况图像一共534 张,生物量等级为大量、少量、微量3 种等级的图像各178 张;金灰青霉不同滋生状况图像一共600 张,生物量等级为大量、少量、微量3种等级的图像各200 张;杂色曲霉不同滋生状况图像一共600 张,生物量等级为大量、少量、微量3 种等级的图像各200 张。
图2 4 种真菌在铝合金板材料表面滋生图像Fig.2 Images of 4 kinds of fungi growing on the surface of aluminum alloy plate material
4.2 模型构建结果
图3 为在逐渐增加训练样本数据时SVM 模型在训练集和验证集上的准确率曲线。 从图中可以看出,训练集准确率与验证集准确率随着训练样本数据的增加在逐渐收敛,训练集准确率高于验证集准确率,并随着训练样本的增加差距在减小,即过拟合状态也在减小。
图3 SVM 模型学习曲线Fig.3 Learning curve of SVM model
在确定SVM 模型最优参数组合并且确定SVM 模型在训练集准确率与验证集准确率是收敛的后,采用拆分的训练集来对铝合金板表面4种典型真菌种类构建识别模型。 采用SVM 进行分类的过程即为寻找类别之间的超平面,将不同类别分割。 对4 种典型真菌进行分类,则需要6个超平面将4 种典型真菌进行分割开来。 图4 为在训练模型时找到的6 个超平面及4 个类别数据到超平面的距离的直方图。 其中,X =0 错分,这是因为在训练模型过程中允许分类器对一些样本犯错,避免SVM 分类器过拟合,降低了模型对噪声点的敏感性,提升了模型的泛化性能。
图4 训练集到分割超平面距离直方图Fig.4 Histogram of distance from training set to segmented hyperplane
文章来源:《中国体视学与图像分析》 网址: http://www.zgtsxytxfx.cn/qikandaodu/2021/0610/656.html
上一篇:动画电影中情感表征的图像转喻和隐喻以哪吒之
下一篇:基于生成对抗网络的虚拟试穿方法