欢迎来到 常识词典网 , 一个专业的常识知识学习网站!
[ Ctrl + D 键 ]收藏本站
答案 1:
当下我采用的是简单幼稚但还算有效的办法----链接数目,超过阈值便处理为索引页,否则判定为内容页。答案 2:
我猜想可以这样判断:1、页面子链个数很多。2、页面子链的url形式(目录)有一定共性。3、判断锚文本占页面所有文本比重很高。答案 3:
首先要区分问题解决的环境:如果是处理特定的站点,肯定是手工配url pattern,如果是大规模海量无共性站点,那么@郑传义的方法机上@Paul说的特征,毫无疑问是性价比最高的,当然如果你对自己自信,可以基于站点构型做挖掘最后,这些索引页是帮你发现新链接的,如果做spider,怎么会没用呢?答案 4:
我的想法是这样的,如果有子url的就是目录页,如果没有的基本都是内容页。但是就是news.sina.cn/z/cjzxyz...,这个这样下来就不大好辨别了下一篇:京九线运营至今,盈亏分析究竟如何?大家如何看待? 下一篇 【方向键 ( → )下一篇】
上一篇:一般而言,一天睡多少个小时才是正常的、健康的? 上一篇 【方向键 ( ← )上一篇】
快搜