研究目的
为应对传统话题检测与追踪(TDT)方法在处理长篇新闻文本时面临的挑战——包括无法准确识别单篇文本中的多个话题、计算时间随文本长度和数量呈指数级增长,以及需要更好地表征长文本新闻的连贯性与相关性。
研究成果
改进的单遍算法(IMBSP)通过使用关键词和实体进行聚类,有效解决了传统TDT方法的挑战,显著提高了准确率和召回率,并减少了计算时间。该算法引入了新闻点的概念,以便在大数据环境中更好地跟踪和识别主题。
研究不足
当某一事件的报告数量非常少时,该算法的召回率会降低,这表明未来需要改进对此类情况的处理。