爬虫如何辨别目录页？

分类: 问答 常识词典 编辑 : 常识发布 : 08-22

阅读 :359

爬虫如何辨别目录页？现在有一堆url，我想根据这些url爬取网页，但是那些主页和目录页是没用的，要怎么辨别并过滤掉这些页面？例如news.sina.cn/z/cjzxyz...，我要怎么辨别呢？4 个答案

答案 1：

当下我采用的是简单幼稚但还算有效的办法----链接数目，超过阈值便处理为索引页，否则判定为内容页。

答案 2：

我猜想可以这样判断：1、页面子链个数很多。2、页面子链的url形式（目录）有一定共性。3、判断锚文本占页面所有文本比重很高。

答案 3：

首先要区分问题解决的环境：如果是处理特定的站点，肯定是手工配url pattern，如果是大规模海量无共性站点，那么@郑传义的方法机上@Paul说的特征，毫无疑问是性价比最高的，当然如果你对自己自信，可以基于站点构型做挖掘最后，这些索引页是帮你发现新链接的，如果做spider，怎么会没用呢？

答案 4：

我的想法是这样的，如果有子url的就是目录页，如果没有的基本都是内容页。但是就是news.sina.cn/z/cjzxyz...，这个这样下来就不大好辨别了

标签 : 问答 08-22