任务二-特征提取

基本文本处理技能

分词的概念(分词的正向最大、逆向最大、双向最大匹配法);

正向最大匹配法

对句子从左到右进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。

逆向最大匹配法

对句子从右到左进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。

双向最大匹配法

将正向最大匹配算法和逆向最大匹配算法进行比较,从而确定正确的分词方法。

词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)

语言模型

语言模型中unigram、bigram、trigram的概念

unigram

一元分词,把句子分成一个一个的汉字

bigram

二元分词,把句子从头到尾每两个字组成一个词语

trigram

三元分词,把句子从头到尾每三个字组成一个词语

unigram、bigram频率统计

可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库

文本矩阵化:要求采用词袋模型且是词级别的矩阵化

词向量矩阵生成按照以下过程:

  1. 加载数据集
  2. 分词
  3. 生成词汇表
  4. 生成word_index
  5. 加载预训练词向量模型
  6. 生成词向量矩阵

分词(可采用结巴分词来进行分词操作,其他库也可以);去停用词;构造词表。

每篇文档的向量化。

参考

结巴分词介绍和使用:GitHub - fxsjy/jieba: 结巴中文分词

iOSDevLog wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!