实验 1
武侠小说词频统计
知识点: 1.熟悉Hadoop程序开发及执行流程 2.熟悉MapReduce基本原理 3.学习结巴分词用法 4.学习词频统计方法
本课程是 Hadoop 的一个非常基础的应用项目,利用实验楼提供的 Hadoop 环境,对一本武侠小说的文集进行简单的 WordCount 词频统计,从而得到该书中出现频次最高的人名。需要一定的 Hadoop 和 MapReduce 基础。本课程难度为简单,属于入门级别课程,适合对 Hadoop 刚刚入门的用户,甚至没有接触过 Hadoop 的用户也可以按照步骤一步步做出来。
知识点: 1.熟悉Hadoop程序开发及执行流程 2.熟悉MapReduce基本原理 3.学习结巴分词用法 4.学习词频统计方法
石头山 实验楼 共发布过 26 门课程
查看老师的所有课程 >
hadoop@173ce92e75b1:~$ hdfs dfs -put tlbbtestfile.txt testinput.txt put: Call From 173ce92e75b1/192.168.42.5 to localhost:9000 failed on connection exception: java.net.ConnectException: \u62d2\u7edd\u8fde\u63a5; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 你们一直都提示默认是hadoop,可是我查看是hadoop2.7.3,用2.7.3替换2.6.0添加到环境变量中,还是不能把文件读取到hdfs。
将文件添加到hdfs时,9000端口拒绝连接是怎么回事?
好
非常好的课程,动手实践了hdfs mapreduce联合使用
动手写代码,但是没有运行成功,不会排除错误,大致流程明白了。
very good
不错的实验,全部可用
本着好奇的心开了个会员,做了几个实验没有一个顺利的!这个实验下载的txt文件各种乱码,各种格式不对,默认居然是unknow-8bit格式,还是dos的...转换成unix utf-8也是乱码,我也是醉了。。。
即使开会员,也不想用实验桌面了。。。感觉好难用唉,还不如自己建个虚拟机搭个Linux呢
Hadoop挺好玩的
实验环境中创建的文件默认应该就是 utf8 的格式,这种编码问题如果不涉及到中文的话应该没有问题。
我再补充一下,如果我把小说源文件格式修改为utf-8后,此时程序就能正常运行了。我很想知道我们的实验环境是怎么解决这个问题的。谢谢~~~~~~
我在我个人的电脑上做了这个相同的实验,但是遇到了python中文字符集的问题。 echo $LANG 后显示的字符集是 zh_CN.UTF-8 这个和实验室里的一模一样 我环境里的mapper程序是直接下载的,小说文件txt,也是直接下载下来的,他们都没有做任何改动 但是运行时就是报下面的错误 [hadoopwordcount-master]$ cat ~/tlbbtestfile.txt | ./mapper.py UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 2: invalid continuation byte 请帮我解答下,谢谢
txt文件有错误
。。。gg