欢迎来到 常识词典网 , 一个专业的常识知识学习网站!
[ Ctrl + D 键 ]收藏本站
答案 1:
原创内容识别是搜索引擎的难题之一,google在这方面做的明显要好, 但和理想的情况还是有差距.以"谈谈书价"这个query为例, google的结果已经做的非常棒了google.-k/#-l=z--C...几个可能的识别"原创"的方法:时间:直观来想最重要的识别因子就是时间, 但对于google而言, 这个因子却很难像我们想象的那样有效. 可能的几个参考时间:搜索引擎收录时间: 由于抓取系统的调度不同, 即使是google, 即使是用ping, 原创结果也不一定优先被收录(虽然在很多情况下, 已经向这个方向靠拢了). 这是基于优先级队列的网页抓取算法和机器抓取性能有限共同决定的. 第一时间新浪编辑转载的内容可能就比原创先收录.
网页上文章的生成时间: 抛开完全不靠谱的服务器lastmodifytime, 网页上本身就显示有生成时间, 如果可以被识别, 也是有效的. 但并不是所有的网页都有这个属性,read.weiwu-ui/arc-ives... 就找不到有意义的时间. 而且即使存在, 对于这个由网页生成者提供的时间, 是否可信也是一个问题.
基本上是没有所有网页通用的有效时间因素, 可以被搜索引擎获取到. 时间不准确的话, 即使是完全相同的网页内容, 也无法判断了. (判断网页是否微小改变, 由于时间不靠谱, 在原创问题上就不是重要的因素, 就不展开了. 从方法上看, 列温斯顿编辑距离这些方法已经是非常成熟有效的. 看起来google没这么用)链接关系:在一个理想化的互联网里面, 转载方会给出原始出处, 链接关系就是比较靠谱的识别原创的方法. google可以顺着链接关系, 找到最终的原始出处. 但目前来看, 这个方法的作用有限:没有专业精神的转载者: 转载不给出出处, ^C+^Y-. 简体中文互联网里面几乎所有的综合性站点, 都有一些编辑耍流氓不给出原始出处的现象, 甚至是剽窃别人的内容当做自己的原创. 这种-和剽窃, 切断了链接的传播途径(现在微博上的那些粉丝多的草根微博, 都是走-粘贴这个路数的货色, 更不要说采集站了). 搜索引擎识别不能.
没有统一的出处: 对于一些urban legend或者笑话, 人类自己都搞不清楚源头是什么, 甚至很多源头都不在互联网上. 链接关系也无法指向最终出处, 可能指向的只是可考的镜像. 这类超出人类自身的问题, 搜索引擎也没能力.
传播能力:目前看, google识别原创的最主要手段就是识别传播能力. 根据meme理论传播越广的内容其价值越高:en.-.org/wiki...其实这里换了概念, 把"原创"换成了"价值高". 这是一种对于识别"原创"困难的折中. 把找出"源头"的工作, 交给了用户的群体智慧. 网页被用户通过主动的方式看到的越多, 那么他是"原创"的概率就越大. 把识别的工作, 交给了全体用户来共同参与. 相当于是我们找出了信息源(但有可能不是原创), 再把这个结果告诉google. 虽然可能不是真正的原创, 但可能是最具影响力的结果.基于此我们经常看到, 对于同一篇内容, 投稿在月光博客上的网页, 会比真正的原创网页排名高.对于query: quora的创新, 知乎的土壤google的结果第一位的就是月光博客上的结果, 而真正的原创结果是第一页找不到的.至于如何识别网页的"传播能力", 类似于facebook的like按钮就是比较典型的代表, google目前自身的产品已经可以获取到很多类似的数据(目前还不包括+1的数据), 链接关系也可以包括在这里面, 虽然不是最有效的.答案 2:
很理论的东西:首先你这个文章的:标题、段落的第一句、段落的末句、段落的顺序。抓取到的内容去和 数据库中比较!看重复度!!!一般地说 差异化达到50%(有说60%) 就算原创了(另称伪原创成功)。答案 3:
看了答案,不是很靠谱.贴一个我知道的答案.... 所以如果你要让机器知道哪一篇文章是原创还是转载,你需要解决2个问题. 1.把所有同一篇文章找出来. 2.把抓到时间按照时间排序,最先抓来的认为是原创的. 第2个问题非常好解决,所以说一下第1个问题的解决方案. >我先把所有页面中的文字提取,按照自然断句,变成一个文档.
我取出该网页最长的一个句子,作为签名,认为这个是这篇文章中一个特征.
我取出该网页上次最长句子作为签名2,认为是是第二个特征.
下一篇:刘强东在微博爆料投资京东15亿美元的大佬是李彦宏,-的电子商务意在何为? 下一篇 【方向键 ( → )下一篇】
上一篇:您是怎么记忆 C++(或其他语言)函数标准库或 W3C 标准的呢? 上一篇 【方向键 ( ← )上一篇】
快搜