英文的分词也不只是用空格分开那么简单,比如: The golden gate bridge is located in San Francisco ,这句话如果简单的用空格 explode 的话,最终会将“ golden gate bridge ”以及“ San Francisco ”给分拆开来而失去原有的意义,有没有这方面英文词组相关的分词 api 或者开源程序?
1
knightdf 2017 年 2 月 15 日
你想多了,这已经不是简单的分词了,是 entity extraction 了
|
2
ligyxy 2017 年 2 月 15 日 via Android
second order phrase model
|
3
yangyaofei 2017 年 2 月 15 日 via Android
@knightdf 这不是 n-gram 么……
|
4
neurocomputing 2017 年 2 月 15 日
stanford 有开源的 NLP 包
|
5
slixurd 2017 年 2 月 15 日
所以一般英文处理的时候会保留位置信息...
|
6
knightdf 2017 年 2 月 15 日
@yangyaofei n-gram 只是方法
|
8
cszeus 2017 年 2 月 16 日
是想做 named entity recognition 还是 tokenization?
|
9
cszeus 2017 年 2 月 16 日
反正可以看看 standford 的 http://nlp.stanford.edu/software/CRF-NER.shtml#Starting 或者 NLTK
|
10
freeman 2017 年 2 月 16 日
还有那种没有空格的,比如: goldnecklace(gold necklace)
|
11
holajamc 2017 年 2 月 16 日
斯坦福的 CoreNLP ,如果是 Java 程序员的话可以直接用,也可以配合 Python NLTK ,另外连续相同的单词首字母大写可以划分为一个词咩(逃
|
12
liyu4 2017 年 2 月 16 日
wocao ,英文分词你还要怎么样!
|
13
BarryLu 2020 年 11 月 16 日
您好!请问一下,这个分词需求您后来用什么解决了?
|