基本文本处理技能

分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；

对句子从左到右进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行下一次匹配。

对句子从右到左进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行下一次匹配。

将正向最大匹配算法和逆向最大匹配算法进行比较，从而确定正确的分词方法。

一元分词，把句子分成一个一个的汉字

二元分词，把句子从头到尾每两个字组成一个词语

三元分词，把句子从头到尾每三个字组成一个词语

可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库

词向量矩阵生成按照以下过程：

分词（可采用结巴分词来进行分词操作，其他库也可以）；去停用词；构造词表。

每篇文档的向量化。