1. 基本文本处理技能
1.1 分词的概念(汾词的正向最大、逆向最大、双向最大匹配法);
1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块也可以自己寻找其他好用的库)
3. 文本矩阵化:要求采用词袋模型且是词级别的矩阵化
3.1 分词(可采用结巴分词来进行分词操作,其他库也可以);
3.2 去停用词;构造词表
3.3 每篇文档的向量化。
1. 基本文本处理技能
1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);
最大匹配法:最大匹配是指以词典为依据取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率还可以跟据字数多少设计多个字典,然后根据字数分別从不同字典中进行扫描)例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字然后逐字递减,在对應的词典中进行查找
正向最大匹配法:对句子从左到右进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词然后进行下┅次匹配。
逆向最大匹配法:对句子从右到左进行扫描尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配
雙向最大匹配法:将正向最大匹配算法和逆向最大匹配算法进行比较,从而确定正确的分词方法
1.2 词、字符频率统计;(可以使用Python中的collections.Counter模塊,也可以自己寻找其他好用的库)
data
= '北京大学和清华大学是中国的顶尖大学' 2.1 n
-gram模型(考虑句子中单词之间的顺序) unigram一元分词把句子分成一個一个的汉字 bigram二元分词,把句子从头到尾每两个字组成一个词语
trigram三元分词把句子从头到尾每三个字组成一个词语 bigram形式为: 西安
/安交
/交通
/通大
/大学 trigram形式为:西安交
/安交通
/交通大
/通大学
2.2词袋模型(不考虑句子中单词之间的顺序) 将所有词语装进一个袋子里,不考虑其词法和语序的问题即每个词语都是独立的。
3. 文本矩阵化:要求采用词袋模型且是词级别的矩阵化