实验 1
字符串基础操作及应用
知识点: 1.什么是自然语言处理 2.Python进行字符串操作 3.正则表达式在NLP的应用
实验 2
中英文分词方法及实现
知识点: 1.英文分词 2.中文分词
实验 3
中文邮件文本分类实战
知识点: 1.文本分类概述 2.支持向量机 3.TFIDF
自然语言处理是指对人们平时日常使用的交流语言进行处理的一项技术。自然语言处理经过多年的发展,现今可以划分为两部分内容,即:自然语言的理解和自然语言的生成。本次实验将以文本分类为目标,介绍自然语言处理相关的基础操作和应用。学习完本课程后,建议继续学习:https://www.lanqiao.cn/courses/1329
知识点: 1.什么是自然语言处理 2.Python进行字符串操作 3.正则表达式在NLP的应用
知识点: 1.英文分词 2.中文分词
知识点: 1.文本分类概述 2.支持向量机 3.TFIDF
代码小猴 共发布过 3 门课程
查看老师的所有课程 >
哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
通俗易懂很好
搭配 https://www.lanqiao.cn/courses/2628 学习更佳
主要是是用jieba对一些字符串文本进行处理
字符串的加减切割组合基础操作
文本分类是指在一定的规则下,根据内容自动确定文本类别这一过程。文本分类在实际场景中有诸多方面的应用,比如常见的有垃圾邮件分类,情感分析等,新闻分类等等。 二分类问题:也是最基础的分类,顾名思义是将文本归为两种类别,比如将正常邮件邮件划分问题,垃圾邮件或者正常邮件。一段影评,判断是好评还是差评的问题。 多分类问题:是将文本划分为多个类别,比如将新闻归为政治类,娱乐类,生活类等等。 多标签分类:是给文本贴上多个不同的标签,比如一部小说可以同时被划分为多个主题,可能既是修仙小说,又是玄幻小说。 文本分类主要有两种方法:传统机器学习文本分类算法、深度学习文本分类算法。 传统方法:特征提取 + 分类器。就是将文本转换成固定维度的向量,然后送到分类器中进行分类。 深度学习方法:可以自动提取特征,实现端到端的训练,有较强的特征表征能力,所以深度学习进行文本分类的效果往往要好于传统的方法。 垃圾邮件分类任务实验步骤大致如下: 导入数据,并进行分词和剔除停用词。 划分训练集和测试集。 将文本数据转化为数字特征数据。 构建分类器。 训练分类器。 测试分类器。
词袋模型是最原始的一类特征集,忽略掉了文本的语法和语序,用一组无序的单词序列来表达一段文字或者一个文档。可以这样理解,把整个文档集的所有出现的词都丢进袋子里面,然后无序的排出来(去掉重复的)。对每一个文档,按照词语出现的次数来表示文档。
TF-IDF 模型:这种模型主要是用词汇的统计特征来作为特征集。TF-IDF 由两部分组成:TF(Term frequency,词频),IDF(Inverse document frequency,逆文档频率)两部分组成。
在语言理解中,词是最小的能够独立活动的有意义的粒度。由词到句,由句成文。在中文中,文本是由连续的字序列构成,词和词之间没有天然的分隔符。不同分词方法的结果会影响到词性,句法等问题。分词作为一个方法,如果运用场景不同,要求不同,最终对任务达到的效果也不同。可以说中文分词相对英文分词有很大的困难。 机械分词方法:正向最大匹配法,逆向最大匹配法和双向匹配法三种。 统计分词方法:语料统计方法、序列标注方法; 两种结合起来的分词方法。 第三方的中文分词工具 jieba ,用的是隐马尔可夫模型与字典相结合的方法。有三种模式可选: 全模式 精确模式 搜索引擎模式 jieba 允许用户自己添加该领域的自定义词典,我们可以提前把这些词加进自定义词典当中,来增加分词的效果。调用的方法是:
jieba.load_userdic()
。 自定义词典的格式要求每一行一个词,有三个部分,词语,词频(词语出现的频率),词性(名词,动词……)。其中,词频和词性可省略。用户自定义词典可以直接用记事本创立即可,但是需要以 utf-8 编码模式保存。 停用词表:一个简单过滤器,来过滤掉不需要的文本信息字符串操作 统计子串出现的次数 去除字符串 拼接字符串 比较 字符串大小写转换 翻转字符串 查找字符串 判断子串是否存在 字符串代替 检查字符串
henhao
hao
hao
学习了文本分类、支持向量机、TF-IDF基础知识,并实现了一个邮件分类程序。
学习了中英文分词的基础知识。
学习
学习