NLP

NLP - 词性标注(1)

常用库总结

Posted by Jing on February 10, 2020

词性标注常用库总结

词性标注常用库总结

补充:

pynlpir分词上的特点: 句子上的全局优化只取一个最优分词结果，它会先保留 N 个最优结果。然后在后面层叠多个细分的 HMM 模型（人名/地名识别、嵌套词识别），修正这 N 个分词结果。最后再从修正的 N 个分词结果中选取最优的作为最终分词结果
Jieba:

(1). 如果词典中有，就从词典中读取该词的词性；

(2). 如果词典中没有该词，用viterbi算法来估计，viterbi算法中的状态是复合状态（位置+词性），比如(‘B’,’n’)表示名词的开始
THULAC: 同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。