C1-通用论坛正文提取方法研究与实验报告

发布时间:2017-06-20 11:12:05来源:本站原创 我要收藏 取消收藏
信息价值的作用日益凸显,利用网络爬虫技术提取论坛网站的有价值信息效果明 显。报告针对论坛网站主帖和回帖的标题、作者、时间、内容的提取,提出了三种可行方案,并通过对比分析、综合三种方案的优缺点,提出最优方案,且该方案对网络论坛具有普遍适用性。 该方案基于网页分块的论坛爬虫思想,利用CSS选择器和正则表达式(用于筛选时间), 结合HTML DOM树及HTML标签的特性,考虑到部分网络论坛的特殊性,具有高度通用性。
公众号
返回
顶部
请关注“官方公众号”
Copyright © 2013-2017   广州泰迪智能科技有限公司   技术支持   粤ICP备14098620号