欢迎来到 常识词典网 , 一个专业的常识知识学习网站!

[ Ctrl + D 键 ]收藏本站

您所在的位置:首页 > 教育学习 > 为什么

为什么

有哪些比较好的中文分词方案?

分类: 为什么 常识词典 编辑 : 常识 发布 : 11-08

阅读 :430

有哪些比较好的中文分词方案?18 个答案

答案 1:

中文分词是个基础问题,研究成果已有不少,我拣几个我自己觉得好的吧。>

@张磊提到的mmseg是我自己最喜欢的分词方法,简单、高效、实用、效果还不错。tec-nology.c-tsai.org/mmseg/我给它起了个名字,叫做“3段回溯式方法”,即每次从一个完整的句子里,按照从左向右的顺序,识别出多种不同的3个词的组合;然后根据下面的4条消歧规则,确定最佳的备选词组合;选择备选词组合中的第1个词,作为1次迭代的分词结果;剩余的2个词继续进行下一轮的分词运算。采用这种办法的好处是,为传统的前向最大匹配算法加入了上下文信息,解决了其每次选词只考虑词本身,而忽视上下文相关词的问题。4条消歧规则包括,1)备选词组合的长度之和最大。2)备选词组合的平均词长最大;3)备选词组合的词长变化最小;4)备选词组合中,单字词的出现频率统计值最高。

CRF方法是目前公认的效果最好的分词算法。但,具体效果是否好,也依赖于你使用的训练模型。nlp.stanford.edu/software...

我认识一个做搜索解决方案的朋友,他们公司提供了CRF和mmseg的开源实现coreseek.cn/opensour...

其实还可以使用专业公司的解决方案,比如海量和中科院分词的收费版本,也花不了多少钱。集中精力找到你自己产品独特的价值所在。

下一篇:国内有哪些优秀的硬件产品设计师? 下一篇 【方向键 ( → )下一篇】

上一篇:多国部队只出动空军,不出动地面部队,如何才能击败卡扎菲? 上一篇 【方向键 ( ← )上一篇】