欢迎来到 常识词典网 , 一个专业的常识知识学习网站!
[ Ctrl + D 键 ]收藏本站
答案 1:
当然需要。既然是“文本挖掘”,自然语言处理最基本的功能点肯定都要做:新词发现、分词、词性标注、分类、自动提取标签、实体自动发现和识别。最基本的这些功能点做了之后,可以用统计方法完成简单文本挖掘应用,统计方法比如:TF/IDF、Map/Reduce、贝叶斯。再深入一些,就需要:聚类(层次聚类、SVM、V-)、情感趋势分析。再想提高:语法分析、句式判断。但一般做到NLP最基本功能点+统计方法即可搞定一般的互联网应用。答案 2:
关于郑钧的回答,我觉得涉及的点很好,但是有些知识不是很准确; -p/reduce 是一种分布式计算的框架,TIIDF可以看作是一种特征表示方法;统计方法比较常用的包括,朴素贝叶斯,最大后验概率,EM算法,CRF(比如用于分词)等; SVM不是聚类方法,而是分类回归方法; V-应该是vector-space-model吧,是向量空间模型,是文本表示的基本模型;常见的聚类方法分为两类,层次聚类和扁平聚类,扁平聚类的代表算法是经典的KMean算法。分类方法也用的很多,比如SVM和决策树。 NLP本身有一点比较特别的是语言模型;答案 3:
肯定的,至于要懂到什么程度,取决于具体的应用。答案 4:
可繁可简,复杂的可以做到用正则表达式去处理,当然中文不想英文那么规整;简单的就做关键字匹配就好了。答案 5:
作文本挖掘需要学习NLP,因为你需要处理文本,提取出你感兴趣的信息。如果你对机器学习熟悉,学习statistical NLP还是比较容易的。另外,也需要补充一些语言学基础知识。答案 6:
文本挖掘包括很多个自然语言处理的模块,如文本分类、文本聚类、文摘、关键词抽取等,所有这些的基础也是NLP的基础工作,包括分词、词性标注(很多现成工具)等。所以还是看一些NLP的基础工作,打好底子。不需要去实现,但需要了解,然后根据具体应用运用相应的底层工具就好。答案 7:
首先,肯定是需要的。最基本要做到:新词发现、词频统计、聚类、分类、文本摘要及关键词提取、文档去重、全文检索等等。答案 8:
贵不在多,首先在于能真正了解文本挖掘的过程,以及中间涉及到的技术及应用场合。然后根据你的需求,对其中某一个分支领域(比如是特征抽取,还是句法分析等等)或者某一个算法(是贝叶斯还是SVM?)进行钻研...下一篇:怎样成为一个成功的销售或售前? 下一篇 【方向键 ( → )下一篇】
上一篇:iPad 2 什么时候在国内上市? 上一篇 【方向键 ( ← )上一篇】
快搜