研究目的
构建一个框架,能够自动处理数据集中数值型与分类型特征的差异,并将它们归类为相似的聚类组。
研究成果
基于UFL提出了一种适用于噪声、不确定及混合数据的新方法。针对混合数据应用,提出了UFLA方法。即使在数据集重要子空间数据量较少的情况下,UFLA仍能自主学习特征。该方法习得的特征表示可消除分类特征与数值特征处理的差异,从而获得更优的聚类结果。当聚类数量未知时,采用视觉评估倾向性来确定数据集的真实聚类数。将该方法应用于多个真实数据集的结果验证了该方法的有效性。
研究不足
该方法需要对数据进行预处理以处理缺失值、区间值和多值数据,这可能较为耗时。该方法的性能可能会因警觉参数ρ等参数的选择而有所不同。