实验 1
字符串基础操作及应用
知识点: 1.什么是自然语言处理 2.Python进行字符串操作 3.正则表达式在NLP的应用
实验 2
中英文分词方法及实现
知识点: 1.英文分词 2.中文分词
实验 3
中文邮件文本分类实战
知识点: 1.文本分类概述 2.支持向量机 3.TFIDF
自然语言处理是指对人们平时日常使用的交流语言进行处理的一项技术。自然语言处理经过多年的发展,现今可以划分为两部分内容,即:自然语言的理解和自然语言的生成。本次实验将以文本分类为目标,介绍自然语言处理相关的基础操作和应用。学习完本课程后,建议继续学习:https://www.lanqiao.cn/courses/1329
知识点: 1.什么是自然语言处理 2.Python进行字符串操作 3.正则表达式在NLP的应用
知识点: 1.英文分词 2.中文分词
知识点: 1.文本分类概述 2.支持向量机 3.TFIDF
代码小猴 共发布过 0 门课程
查看老师的所有课程 >
课程很不错!实验楼的环境很nice!
通俗易懂很好
11
很好
很强大,慢慢学
机械分词统计分词停用词表
深入浅出,很好!
jieba
正则表达式,以及NPL处理的几个常用函数
太难
哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
搭配 https://www.lanqiao.cn/courses/2628 学习更佳
主要是是用jieba对一些字符串文本进行处理
字符串的加减切割组合基础操作
文本分类是指在一定的规则下,根据内容自动确定文本类别这一过程。文本分类在实际场景中有诸多方面的应用,比如常见的有垃圾邮件分类,情感分析等,新闻分类等等。 二分类问题:也是最基础的分类,顾名思义是将文本归为两种类别,比如将正常邮件邮件划分问题,垃圾邮件或者正常邮件。一段影评,判断是好评还是差评的问题。 多分类问题:是将文本划分为多个类别,比如将新闻归为政治类,娱乐类,生活类等等。 多标签分类:是给文本贴上多个不同的标签,比如一部小说可以同时被划分为多个主题,可能既是修仙小说,又是玄幻小说。 文本分类主要有两种方法:传统机器学习文本分类算法、深度学习文本分类算法。 传统方法:特征提取 + 分类器。就是将文本转换成固定维度的向量,然后送到分类器中进行分类。 深度学习方法:可以自动提取特征,实现端到端的训练,有较强的特征表征能力,所以深度学习进行文本分类的效果往往要好于传统的方法。 垃圾邮件分类任务实验步骤大致如下: 导入数据,并进行分词和剔除停用词。 划分训练集和测试集。 将文本数据转化为数字特征数据。 构建分类器。 训练分类器。 测试分类器。
词袋模型是最原始的一类特征集,忽略掉了文本的语法和语序,用一组无序的单词序列来表达一段文字或者一个文档。可以这样理解,把整个文档集的所有出现的词都丢进袋子里面,然后无序的排出来(去掉重复的)。对每一个文档,按照词语出现的次数来表示文档。
TF-IDF 模型:这种模型主要是用词汇的统计特征来作为特征集。TF-IDF 由两部分组成:TF(Term frequency,词频),IDF(Inverse document frequency,逆文档频率)两部分组成。