The server is under maintenance between 08:00 to 12:00 (GMT+08:00), and please visit
later.
We apologize for any inconvenience caused
An Improved Text Clustering Algorithm of Generalized Suffix Tree
Author(s): DU Hong-bin, XIA Ke-wen, LIU Nan-ping, WU Tao
Pages: 331-
336
Year: 2009
Issue:
3
Journal: Information and Control
Keyword: 文本聚类; web挖掘; 广义后缀树; 后缀树聚类(STC);
Abstract: 分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法.针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出了基于信息增益的类别标识提取算法.为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点.实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识.
Citations
No citation information