• EN
教师基本信息
徐晓丹
性别:女
在职信息:在岗

个人信息 Personal information

职称:讲师 毕业院校:浙江工业大学 在职信息:在岗 所在单位:计算机科学与技术学院 入职时间:2000-08-01

基于半监督学习的中文多文档子主题划分<sup>*</sup>

点击次数: 第一作者:徐晓丹 发表时间:2011-01-01 发表刊物:浙江师范大学学报(自然科学版) 所属单位:数理与信息工程学院 文献类型:期刊 期号:第3期 页面范围:302-305 ISSN号:1001-5051 关键字:多文档文摘;子主题;半监督学习;k-means聚类 摘要:为了能在多文档自动摘要过程中更好地划分子主题,提出了一种基于半监督学习的子主题划分方法:首先计算句子的语义相似度;然后通过层次聚类对可信度高的句子进行主题类别标记,生成少量已标记主题类别的句子集,在此基础上对所有句子进行constrained-k-means聚类,通过交叉验证的方法确定子主题的数目k;最后使用k-means聚类获得多文档的各个子主题.实验结果表明,该方法有效地提高了子主题的识别率. 是否译文:
推荐本文