2021
09-22
09-22
浅谈分词器Tokenizer
目录一、概述二、AC自动机(Aho-Corasickautomaton)2.1、字典树(trie树)2.2、失败指针三、最终的分词结果一、概述分词器的作用是将一串字符串改为“词”的列表,下面以“大学生活”这个输入为例进行讲解:对“大学生活”这句话做分词,通常来说,一个分词器会分三步来实现:(1)找到“大学生活”这句话中的全部词做为一个集合,即:[大、大学、大学生、学、学生、生、生活、活](2)在第一步中得到的集合中找到所有能组合成“大学...
继续阅读 >