大家有没有比较好的分词 API 推荐

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2093 days ago, the information mentioned may be changed or developed.

分词断句，比如——

“我们希望 V2EX 能够成为中文世界中氛围最好的社区，而实现这个目标...”

分词为——

我们希望 V2EX 能够成为中文世界中氛围最好的社区，而实现这个目标 ...

相对智能和稳定一点，付费也可，网上搜了一些前排的，感觉都有点缺陷。

分词

V2EX

中文

氛围

25 replies • 2020-08-14 19:18:00 +08:00

dovme

Aug 13, 2020

jieba 分词

rabbull

Aug 13, 2020

`import jieba as jb`

johnsona

Aug 13, 2020

boson 分词
效果很好
页面就可以体验，但限制次数
不要用 ip 代理去撸，不要逼得别人要登录才可以体验

huobazi

Aug 13, 2020

中国人都用 "结巴" O(∩_∩)O 哈哈~

zhou00

Aug 13, 2020

jieba, 精确模式，得到的结果跟你要的结果一样

marcong95

Aug 13, 2020

@jsisjs20130824 #3 搜了下这个 boson，搜到一个 BosonNLP.com 的网站，似乎已经停止对外开放还是怎么着，跳转到了阿里巴巴集团的登录页，用自己的淘宝账号似乎是登不进去，需要内部账号

wangritian

Aug 13, 2020

jieba/hanlp

johnsona

Aug 13, 2020

http://static.bosonnlp.com/demo

zcfnc

Aug 13, 2020

我也是一直用的 jieba
给楼主参考一下
import jieba as jb
result = jb.lcut("我们希望 V2EX 能够成为中文世界中氛围最好的社区，而实现这个目标..")
print(result)

···['我们', '希望', ' ', 'V2EX', ' ', '能够', '成为', '中文', '世界', '中', '氛围', '最好', '的', '社区', '，', '而', '实现', '这个', '目标', '..']···

KalaSearch

Aug 13, 2020 via iPhone

请问分词是在什么场景下用？看起来是为了提高搜索的召回率？

如果是搜索的话，可以尝试下卡拉搜索，不用自己配置分词

zxc12300123

Aug 13, 2020

bosonnlp, hanlp 都不错，jieba 真的很差。。

KalaSearch

Aug 13, 2020 via iPhone

另外推荐下 pullword.com

清华的师兄做的，口碑很好

519718366

Aug 13, 2020

借楼问下，java 版的 hanlp 能获取同义词的扩展不
比如同义词：super,超级
输入：super
hanlp 分词处理后，我能获取到 super 以及它的同义词超级

l890908

Aug 13, 2020

@jsisjs20130824 这个找了半天没找到注册获得 TOKEN 的地方？😂😂😂

johnsona

Aug 13, 2020

@l890908 之前是登录，有后台生成，现在。。可能是 ai 泡沫破灭了，搞不下去了。

johnsona

Aug 13, 2020

@l890908 自行联系网站管理员吧

xiaoliu926

Aug 13, 2020

我用的百度分词，50W 次免费

laminux29

Aug 13, 2020

结巴分词有 2 个问题：

1.不支持新词。如果比较重要的话，可以后期人工再过滤一遍。

2.python 程序性能差，对多核支持不行。建议根据核数，开对应数量的 python 程序，然后用负载均衡的通信框架进行负载均衡地 rpc 。

netnr

Aug 13, 2020

结巴 nodejs 版本

https://api.zme.ink/analysis?content=结过婚的和尚未结过婚的

linvaux

Aug 13, 2020

用 lucene 的 IK 分词器

Merlini

Aug 13, 2020

既然是 nlp，还是要提百度的，推荐百度刚出的 lac 。
https://github.com/baidu/lac

Baboonowen

Aug 13, 2020

北大分词

levelworm

Aug 14, 2020 via Android

@KalaSearch 梁哥做的对吧，微博上有关注

encro

Aug 14, 2020

@laminux29

结巴分词有 2 个问题：

1.不支持新词。如果比较重要的话，可以后期人工再过滤一遍。

2.python 程序性能差，对多核支持不行。建议根据核数，开对应数量的 python 程序，然后用负载均衡的通信框架进行负载均衡地 rpc 。

1，HMM 模式支持自动发现新词。

２，运行过性能测评？那么结巴的ｃ＋＋，GO，Java 实现呢？

mjikop1231

Aug 14, 2020

deepl 的分词，除了贵还好用