词性标注常用库总结
词性标注常用库总结
- 补充:
- pynlpir分词上的特点: 句子上的全局优化只取一个最优分词结果,它会先保留 N 个最优结果。 然后在后面层叠多个细分的 HMM 模型(人名/地名识别、嵌套词识别),修正这 N 个分词结果。 最后再从修正的 N 个分词结果中选取最优的作为最终分词结果
-
Jieba:
(1). 如果词典中有,就从词典中读取该词的词性;
(2). 如果词典中没有该词,用viterbi算法来估计,viterbi算法中的状态是复合状态(位置+词性),比如(‘B’,’n’)表示名词的开始
- THULAC: 同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。