研究目的
提出一种新颖的光谱识别计算方法,该方法融合两种策略:(a) 训练数据集的合理选择、预处理与增强;(b) 采用能有效分类多维噪声数据且不易过拟合的机器学习方法。
研究成果
所提出的方法,尤其是极端随机树(Extra Trees)方案,在校正后的RRUFF数据集上分类准确率超越了此前报道的最佳结果,证明基于集成学习的方法能够高效学习并区分光谱样本中化学混合物的细微差异,且无需计算负担。
研究不足
该方法的表现取决于训练数据集的质量和代表性。预处理和增强步骤需要仔细调整,以避免改变给定峰所代表的化合物的身份。