欢迎来到 常识词典网 , 一个专业的常识知识学习网站!

[ Ctrl + D 键 ]收藏本站

您所在的位置:首页 > 教育学习 > 知道

知道

豆瓣九点是如何做文章自动分类的?

分类: 知道 常识词典 编辑 : 常识 发布 : 08-22

阅读 :353

豆瓣九点是如何做文章自动分类的?如果不是人工编辑,那么就是一个文本主题分类的问题。如果是贝叶斯,那么是完全切词,通过人工标注一批样本学习一个分类器,还是通过特定的词是否在文章中出现进行学习?如果是前者,这个样本量是多少?后者是否需要更新特殊词词典?或者是别的取 feature方式学习?2 个答案

答案 1:

不好意思,没办法回答的非常详细。基本上是一个半监督的学习过程,会给每个博客计算profile确定分类,同时对博客里的文章再计算profile进行调整。豆瓣的一个优势是拥有比较完整的用户兴趣数据,因此可以不必局限于博客和文章的文本进行分类。把用户的兴趣数据利用起来可以收到比较好的效果。

答案 2:

你说的两种方式都不是非此即彼的,完全切词后也需要特征提取(找一个特殊词词典),特定词是否出现其实就是决策树方法的一个特例,两个方式都需要机器学习,说到机器学习,那就是一个方法了,只是算法选择有差异罢了。

下一篇:还记得年少时的梦吗? 下一篇 【方向键 ( → )下一篇】

上一篇:你会购买MOTO的平板电脑 XOOM吗? 上一篇 【方向键 ( ← )上一篇】