下你所需,载你所想!
汇集开发技术源码资料

python主题爬虫爬取与主题词相关的网页

:4.429KB :1 :2022-01-06 17:44:13

部分简介

python主题爬虫爬取与主题词相关的网页如果开发者对于本文件有需要的可以参考。
在提取出文本之后,进行了文本的切分,获取每个词汇。
进行了停用词过滤,最后以词汇出现的次数和词汇在每个段落出现的情况来进行特征选择,最终选择出10个代表该页面内容的词汇。
将这些词汇与事先设定的主题词汇基于Jaccard相似系数来计算页面内容与主题的相关度。

热门推荐

相关文章