欢迎来到 常识词典网 , 一个专业的常识知识学习网站!

[ Ctrl + D 键 ]收藏本站

您所在的位置:首页 > 教育学习 > 问答

问答

爬虫如何辨别目录页?

分类: 问答 常识词典 编辑 : 常识 发布 : 08-22

阅读 :316

爬虫如何辨别目录页?现在有一堆url,我想根据这些url爬取网页,但是那些主页和目录页是没用的,要怎么辨别并过滤掉这些页面?例如news.sina.cn/z/cjzxyz...,我要怎么辨别呢?4 个答案

答案 1:

当下我采用的是简单幼稚但还算有效的办法----链接数目,超过阈值便处理为索引页,否则判定为内容页。

答案 2:

我猜想可以这样判断:1、页面子链个数很多。2、页面子链的url形式(目录)有一定共性。3、判断锚文本占页面所有文本比重很高。

答案 3:

首先要区分问题解决的环境:如果是处理特定的站点,肯定是手工配url pattern,如果是大规模海量无共性站点,那么@郑传义的方法机上@Paul说的特征,毫无疑问是性价比最高的,当然如果你对自己自信,可以基于站点构型做挖掘最后,这些索引页是帮你发现新链接的,如果做spider,怎么会没用呢?

答案 4:

我的想法是这样的,如果有子url的就是目录页,如果没有的基本都是内容页。但是就是news.sina.cn/z/cjzxyz...,这个这样下来就不大好辨别了

下一篇:京九线运营至今,盈亏分析究竟如何?大家如何看待? 下一篇 【方向键 ( → )下一篇】

上一篇:一般而言,一天睡多少个小时才是正常的、健康的? 上一篇 【方向键 ( ← )上一篇】