Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

jieba分词的学习能力如何体现 #124

Open
xmkane opened this issue Dec 12, 2013 · 4 comments
Open

jieba分词的学习能力如何体现 #124

xmkane opened this issue Dec 12, 2013 · 4 comments

Comments

@xmkane
Copy link

xmkane commented Dec 12, 2013

各位,新接触这块领域,多多指教。

对于jieba的学习新词的能力,是会自动讲本次分词过程中的新词自动加入默认的词典,还是其他方式体现。

谢谢。
Kane

@xmkane
Copy link
Author

xmkane commented Dec 12, 2013

刚详细看了下几个问题列表,对https://github.com/fxsjy/jieba/issues/7中提到的回复也看了下,
基本知道jieba的新词学习能力跟hmm有关系,也试了下finalseg的新词学习功能:

姚晨和老凌离婚了
张绍刚发道歉信网友不认可

结果:

/ 姚晨/ 和/ 老凌/ 离婚/ 了/
/ 张绍/ 刚发/ 道歉信/ 网友/ 不/ 认可/

基本知道jieba默认分词是打开了新词学习的,想问下:
1、姚晨这个例子,是否可以讲学习到的新词自动补充到默认词典中?
1、第二个错误,需要自己补充词典来解决这个错误么?

望不吝赐教,谢谢。

@fxsjy
Copy link
Owner

fxsjy commented Dec 12, 2013

@xmkane , 现在结巴分词并不能很好地处理一些歧义case,解决办法暂时只有加词典条目。 自定义词典如何添加可以参考wiki,另外git repository中的最新版本也支持调用add_word加词条 #122

另外,你举的【张绍刚发道歉信网友不认可】这个例子可以用jieba分词子模块posseg来试一试,它的新词识别能力比较强,但是速度要慢一些。

张绍刚/nr 发/v 道歉信/vn 网友/n 不/d 认可/v

http://jiebademo.ap01.aws.af.cm/ (选择“显示词性”)

@wfwei
Copy link

wfwei commented Dec 12, 2013

@fxsjy ,我最近也在jieba,感觉很好,但也不清楚jieba的新词发现机制,简单测试了一下,貌似新词发现能力和文本长度没有关系?我以前了解过基于统计的新词发现方法,比如考虑词的内聚性和自由度,这就文本越多分词越准确,但我感觉jieba使用的不是这个原理?可以稍微说一下jieba的新词发现机制么?非常感谢呢~~

@ryze124
Copy link

ryze124 commented Nov 26, 2020

概率问题啊,基于 TF-IDF,P(张绍刚)>P(张绍)*P(刚发),还有个逆序的排列,P(刚绍张)>P(发刚)*P(绍张) 然后就拆分成张绍刚;
要么就要加自定义词典,就是有点难维护;

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants