简单的介绍一下大数据中最重要的MapReduce
概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 使用 MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。 这两个函数的形参和返回值都是,使用的时候一定要注意构造。 ![]() 执行流程(此处举例说明)
1.获取每一个block块中的文本,遍历所有,回去其中的一行str 因为要统计的是每一个单词i的次数,所以还需要直到文本中有哪些单词,可以根据字符串的特点,使用split()进行切割。
根据要求,需将每一个单词i转换为的形式,k为单词本身,v为单词出现的次数。 2.因为mr的计算是分布式的 ,每一个map(称之为一个mapper task)计算其中的一个block块数据。
经过上述操作之后,系统会将计算结果输出给用户,一般会先存储(落地)到hdfs,然后反馈给用户。 到此为止,MapReduce执行完毕,接下来就可以进行大数据的其他一系列操作了。
【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。 |
-
DNS即域名系统怎样工作?看这位“翻译官”如何转换域名和IP地址
一、什么是DNS? DNS( Domain Name System)是域名系统...[详细]
-
前言: 工业物联网是将具有感知、监控能力的各类采集...[详细]
-
TCP(Transmission Control Protocol,传输控制协议)和...[详细]
-
网络行业正快速变化,网络职业发展也将如此。也许你刚...[详细]
-
防火墙配置错误可能与没有防火墙一样危险。人们需要了...[详细]
-
这是5G之后的事吗? 由于5G网络仍在世界各地部署,并且...[详细]
-
一、OSI参考模型 1. OSI的来源 OSI(Open System Inter...[详细]
-
这屋里蒸馒头,屋外铁板烧的三伏天里,空调配火锅简直...[详细]
-
整个 2019 年,整个中国移动通信行业其实有两个重要的...[详细]
-
数据分析从业者必看,10 个加速Python数据分析的简单的小技巧
笔者按,一些小的技巧在编程领域可能会非常有用,在数...[详细]