博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用Python编写WordCount程序任务
阅读量:4624 次
发布时间:2019-06-09

本文共 971 字,大约阅读时间需要 3 分钟。


用Python编写WordCount程序任务

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔

  1. 编写map函数,reduce函数
  2. 将其权限作出相应修改
  3. 本机上测试运行代码
  4. 放到HDFS上运行
  5. 下载并上传文件到hdfs上
  6. 用Hadoop Streaming命令提交任务
    #!/usr/bin/env python2import sys for line in sys.stdin:    line = line.strip()    words = line.split()    for word in words:        print '%s\t%s' % (word,1)
    #!/usr/bin/env python2from operator import itemgetterimport syscurrent_word = Nonecurrent_count= 0word= Nonefor line in sys.stdin:    line = line.strip()    word,count=line.split(' /t',1)    try:        count =int (count)    except ValueError:        continue    if current_word ==word:       current_count += count    else:        if current_word:           print  (current_word,cureent_count)        current_count=count        current_word =wordif current_word==word:   print (current_word,current_count)

    设置权限

    chomd a+x mapper.py
    chomd a+x reducer.py

编写脚本

上传到hdfs

转载于:https://www.cnblogs.com/weixingna/p/9025554.html

你可能感兴趣的文章
第十八课 Gazebo仿真器
查看>>
g2o:一种图优化的C++框架
查看>>
微信自定义菜单errcode(40016)
查看>>
十天冲刺-09
查看>>
python格式化输出的方式汇总
查看>>
linux 安装中文包和设置中文环境
查看>>
Mac 使用WireShark
查看>>
OpenCV---环境安装和初次使用
查看>>
回调函数的经典代码使用
查看>>
【学术篇】bzoj3262 陌上花开. cdq分治入门
查看>>
daily scrum 12.8
查看>>
Nginx初识
查看>>
EOJ 2847 路由结点
查看>>
题解 化学反应
查看>>
题解 楼房重建
查看>>
Python汉字转换成拼音
查看>>
高德地图:定位、覆盖物
查看>>
抽象类不能实例化对象
查看>>
树状数组(hdu-4325,hdu-1166,pat-1057)
查看>>
C#引用类型参数,ref按引用传值
查看>>