1
dovme Aug 13, 2020 jieba 分词
|
2
rabbull Aug 13, 2020 `import jieba as jb`
|
3
johnsona Aug 13, 2020 boson 分词
效果很好 页面就可以体验,但限制次数 不要用 ip 代理去撸,不要逼得别人要登录才可以体验 |
4
huobazi Aug 13, 2020
中国人都用 "结巴" O(∩_∩)O 哈哈~
|
5
zhou00 Aug 13, 2020
jieba, 精确模式,得到的结果跟你要的结果一样
|
6
marcong95 Aug 13, 2020
@jsisjs20130824 #3 搜了下这个 boson,搜到一个 BosonNLP.com 的网站,似乎已经停止对外开放还是怎么着,跳转到了阿里巴巴集团的登录页,用自己的淘宝账号似乎是登不进去,需要内部账号
|
7
wangritian Aug 13, 2020
jieba/hanlp
|
8
johnsona Aug 13, 2020
|
9
zcfnc Aug 13, 2020
我也是一直用的 jieba
给楼主参考一下 import jieba as jb result = jb.lcut("我们希望 V2EX 能够成为中文世界中氛围最好的社区,而实现这个目标..") print(result) ···['我们', '希望', ' ', 'V2EX', ' ', '能够', '成为', '中文', '世界', '中', '氛围', '最好', '的', '社区', ',', '而', '实现', '这个', '目标', '..']··· |
10
KalaSearch Aug 13, 2020 via iPhone
请问分词是在什么场景下用?看起来是为了提高搜索的召回率?
如果是搜索的话,可以尝试下卡拉搜索,不用自己配置分词 |
11
zxc12300123 Aug 13, 2020
bosonnlp, hanlp 都不错,jieba 真的很差。。
|
12
KalaSearch Aug 13, 2020 via iPhone |
13
519718366 Aug 13, 2020
借楼问下,java 版的 hanlp 能获取 同义词的 扩展不
比如同义词:super,超级 输入:super hanlp 分词处理后,我能获取到 super 以及它的同义词 超级 |
14
l890908 OP @jsisjs20130824 这个找了半天没找到注册获得 TOKEN 的地方?😂😂😂
|
17
xiaoliu926 Aug 13, 2020
我用的百度分词,50W 次免费
|
18
laminux29 Aug 13, 2020
结巴分词有 2 个问题:
1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 |
19
netnr Aug 13, 2020
|
20
linvaux Aug 13, 2020
用 lucene 的 IK 分词器
|
21
Merlini Aug 13, 2020
既然是 nlp,还是要提百度的,推荐百度刚出的 lac 。
https://github.com/baidu/lac |
22
Baboonowen Aug 13, 2020
北大分词
|
23
levelworm Aug 14, 2020 via Android
@KalaSearch 梁哥做的对吧,微博上有关注
|
24
encro Aug 14, 2020
@laminux29
结巴分词有 2 个问题: 1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 1,HMM 模式支持自动发现新词。 2,运行过性能测评?那么结巴的c++,GO,Java 实现呢? |
25
mjikop1231 Aug 14, 2020
deepl 的分词,除了贵还好用
|