NLP

NLP - 词性标注(1)

常用库总结

Posted by Jing on February 10, 2020

词性标注常用库总结

词性标注常用库总结

  • 补充:
  1. pynlpir分词上的特点: 句子上的全局优化只取一个最优分词结果,它会先保留 N 个最优结果。 然后在后面层叠多个细分的 HMM 模型(人名/地名识别、嵌套词识别),修正这 N 个分词结果。 最后再从修正的 N 个分词结果中选取最优的作为最终分词结果
  2. Jieba:

    (1). 如果词典中有,就从词典中读取该词的词性;

    (2). 如果词典中没有该词,用viterbi算法来估计,viterbi算法中的状态是复合状态(位置+词性),比如(‘B’,’n’)表示名词的开始

  3. THULAC: 同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。