jieba分词的学习能力如何体现 #124

xmkane · 2013-12-12T03:32:22Z

各位，新接触这块领域，多多指教。

对于jieba的学习新词的能力，是会自动讲本次分词过程中的新词自动加入默认的词典，还是其他方式体现。

谢谢。
Kane

xmkane · 2013-12-12T04:28:08Z

刚详细看了下几个问题列表，对https://github.com/fxsjy/jieba/issues/7中提到的回复也看了下，
基本知道jieba的新词学习能力跟hmm有关系，也试了下finalseg的新词学习功能：

姚晨和老凌离婚了
张绍刚发道歉信网友不认可

结果：

/ 姚晨/ 和/ 老凌/ 离婚/ 了/
/ 张绍/ 刚发/ 道歉信/ 网友/ 不/ 认可/

基本知道jieba默认分词是打开了新词学习的，想问下：
1、姚晨这个例子，是否可以讲学习到的新词自动补充到默认词典中？
1、第二个错误，需要自己补充词典来解决这个错误么？

望不吝赐教，谢谢。

fxsjy · 2013-12-12T04:34:14Z

@xmkane , 现在结巴分词并不能很好地处理一些歧义case，解决办法暂时只有加词典条目。自定义词典如何添加可以参考wiki，另外git repository中的最新版本也支持调用add_word加词条 #122 。

另外，你举的【张绍刚发道歉信网友不认可】这个例子可以用jieba分词子模块posseg来试一试，它的新词识别能力比较强，但是速度要慢一些。

张绍刚/nr 发/v 道歉信/vn 网友/n 不/d 认可/v

http://jiebademo.ap01.aws.af.cm/ （选择“显示词性”）

wfwei · 2013-12-12T05:02:17Z

@fxsjy ,我最近也在jieba，感觉很好，但也不清楚jieba的新词发现机制，简单测试了一下，貌似新词发现能力和文本长度没有关系？我以前了解过基于统计的新词发现方法，比如考虑词的内聚性和自由度，这就文本越多分词越准确，但我感觉jieba使用的不是这个原理？可以稍微说一下jieba的新词发现机制么？非常感谢呢～～

ryze124 · 2020-11-26T07:14:00Z

概率问题啊，基于 TF-IDF，P(张绍刚)>P(张绍)*P(刚发)，还有个逆序的排列，P(刚绍张)>P(发刚)*P(绍张) 然后就拆分成张绍刚；
要么就要加自定义词典，就是有点难维护；

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

jieba分词的学习能力如何体现 #124

jieba分词的学习能力如何体现 #124

xmkane commented Dec 12, 2013

xmkane commented Dec 12, 2013

fxsjy commented Dec 12, 2013

wfwei commented Dec 12, 2013

ryze124 commented Nov 26, 2020

jieba分词的学习能力如何体现 #124

jieba分词的学习能力如何体现 #124

Comments

xmkane commented Dec 12, 2013

xmkane commented Dec 12, 2013

fxsjy commented Dec 12, 2013

wfwei commented Dec 12, 2013

ryze124 commented Nov 26, 2020