欢迎来到 常识词典网 , 一个专业的常识知识学习网站!
[ Ctrl + D 键 ]收藏本站
答案 1:
中文分词是个基础问题,研究成果已有不少,我拣几个我自己觉得好的吧。>@张磊提到的mmseg是我自己最喜欢的分词方法,简单、高效、实用、效果还不错。tec-nology.c-tsai.org/mmseg/我给它起了个名字,叫做“3段回溯式方法”,即每次从一个完整的句子里,按照从左向右的顺序,识别出多种不同的3个词的组合;然后根据下面的4条消歧规则,确定最佳的备选词组合;选择备选词组合中的第1个词,作为1次迭代的分词结果;剩余的2个词继续进行下一轮的分词运算。采用这种办法的好处是,为传统的前向最大匹配算法加入了上下文信息,解决了其每次选词只考虑词本身,而忽视上下文相关词的问题。4条消歧规则包括,1)备选词组合的长度之和最大。2)备选词组合的平均词长最大;3)备选词组合的词长变化最小;4)备选词组合中,单字词的出现频率统计值最高。
CRF方法是目前公认的效果最好的分词算法。但,具体效果是否好,也依赖于你使用的训练模型。nlp.stanford.edu/software...
我认识一个做搜索解决方案的朋友,他们公司提供了CRF和mmseg的开源实现coreseek.cn/opensour...
其实还可以使用专业公司的解决方案,比如海量和中科院分词的收费版本,也花不了多少钱。集中精力找到你自己产品独特的价值所在。
下一篇:国内有哪些优秀的硬件产品设计师? 下一篇 【方向键 ( → )下一篇】
上一篇:多国部队只出动空军,不出动地面部队,如何才能击败卡扎菲? 上一篇 【方向键 ( ← )上一篇】
快搜