大数据面试题集锦-Hadoop面试题(三)-MapReduce

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题关注一下"张飞的猪大数据分享"吧公众号会不定时的分享相关的知识和资料。

文章目录

1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

1序列化和反序列化
1序列化就是把内存中的对象转换成字节序列或其他数据传输协议以便于存储持久化和网络传输。
2反序列化就是将收到字节序列或其他数据传输协议或者是硬盘的持久化数据转换成内存中的对象。
3Java的序列化是一个重量级序列化框架Serializable一个对象被序列化后会附带很多额外的信息各种校验信息header继承体系等不便于在网络中高效传输。所以hadoop自己开发了一套序列化机制Writable精简、高效。

2自定义bean对象要想序列化传输步骤及注意事项

1必须实现Writable接口
2反序列化时需要反射调用空参构造函数所以必须有空参构造
3重写序列化方法
4重写反序列化方法
5注意反序列化的顺序和序列化的顺序完全一致
6要想把结果显示在文件中需要重写toString()且用"\t"分开方便后续用
7如果需要将自定义的bean放在key中传输则还需要实现comparable接口因为mapreduce框中的shuffle过程一定会对key进行排序

2、FileInputFormat切片机制

job提交流程源码详解

 waitForCompletion()
  submit();
  // 1、建立连接
    connect();
      // 1创建提交job的代理
      new Cluster(getConfiguration());
        // 1判断是本地yarn还是远程
        initialize(jobTrackAddr, conf);
  // 2、提交job
  submitter.submitJobInternal(Job.this, cluster)
    // 1创建给集群提交数据的Stag路径
    Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
    // 2获取jobid 并创建job路径
    JobID jobId = submitClient.getNewJobID();
    // 3拷贝jar包到集群
    copyAndConfigureFiles(job, submitJobDir);
    rUploader.uploadFiles(job, jobSubmitDir);
    // 4计算切片生成切片规划文件
    writeSplits(job, submitJobDir);
    maps = writeNewSplits(job, jobSubmitDir);
    input.getSplits(job);
    // 5向Stag路径写xml配置文件
    writeConf(conf, submitJobFile);
    conf.writeXml(out);
    // 6提交job,返回提交状态
    status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

3、在一个Hadoop 任务中什么是InputSplit切片以及切片是用来做什么的切片与block有什么区别

FileInputFormat源码解析(input.getSplits(job))
1找到你数据存储的目录。
2开始遍历处理规划切片目录下的每一个文件。
3遍历第一个文件xx.txt。
a获取文件大小fs.sizeOf(xx.txt);。
b计算切片大小
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))。
c默认情况下切片大小=blocksize。
d开始切形成第1个切片xx.txt—0:128M 第2个切片xx.txt—128:256M 第3个切片xx.txt—256M:300M每次切片时都要判断切完剩下的部分是否大于块的1.1倍不大于1.1倍就划分一块切片。
e将切片信息写到一个切片规划文件中。
f整个切片的核心过程在getSplit()方法中完成。
g数据切片只是在逻辑上对输入数据进行分片并不会再磁盘上将其切分成分片进行存储。InputSplit只记录了分片的元数据信息比如起始位置、长度以及所在的节点列表等。
h注意block是HDFS上物理上存储的存储的数据切片是对数据逻辑上的划分。
4提交切片规划文件到yarn上yarn上的MrAppMaster就可以根据切片规划文件计算开启maptask个数。

4、如何判定一个job的map和reduce的数量?

1map数量
splitSize=max{minSize,min{maxSize,blockSize}}
map数量由处理的数据分成的block数量决定default_num = total_size / split_size;
2reduce数量
reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1。

5、 Maptask的个数由什么决定

一个job的map阶段MapTask并行度个数由客户端提交job时的切片个数决定。

6、MapTask和ReduceTask工作机制或工作原理

MapTask工作机制

1Read阶段Map Task通过用户编写的RecordReader从输入InputSplit中解析出一个个key/value。
2Map阶段该节点主要是将解析出的key/value交给用户编写map()函数处理并产生一系列新的key/value。
3Collect收集阶段在用户编写map()函数中当数据处理完成后一般会调用OutputCollector.collect()输出结果。在该函数内部它会将生成的key/value分区调用Partitioner并写入一个环形内存缓冲区中。
4Spill阶段即“溢写”当环形缓冲区满后MapReduce会将数据写到本地磁盘上生成一个临时文件。需要注意的是将数据写入本地磁盘之前先要对数据进行一次本地排序并在必要时对数据进行合并、压缩等操作。
5Combine阶段当所有数据处理完成后MapTask对所有临时文件进行一次合并以确保最终只会生成一个数据文件。

ReduceTask工作机制
1Copy阶段ReduceTask从各个MapTask上远程拷贝一片数据并针对某一片数据如果其大小超过一定阈值则写到磁盘上否则直接放到内存中。
2Merge阶段在远程拷贝数据的同时ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并以防止内存使用过多或磁盘上文件过多。
3Sort阶段按照MapReduce语义用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序因此ReduceTask只需对所有数据进行一次归并排序即可。
4Reduce阶段reduce()函数将计算结果写到HDFS上。

7、描述mapReduce有几种排序及排序发生的阶段

1排序的分类
1部分排序
MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。
2全排序
如何用Hadoop产生一个全局排序的文件最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低因为一台机器必须处理所有输出文件从而完全丧失了MapReduce所提供的并行架构。
替代方案首先创建一系列排好序的文件其次串联这些文件最后生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如可以为待分析文件创建3个分区在第一分区中记录的单词首字母a-g第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。
3辅助排序GroupingComparator分组
Mapreduce框架在记录到达reducer之前按键对记录排序但键所对应的值并没有被排序。甚至在不同的执行轮次中这些值的排序也不固定因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。
4二次排序
在自定义排序过程中如果compareTo中的判断条件为两个即为二次排序。
2自定义排序WritableComparable
bean对象实现WritableComparable接口重写compareTo方法就可以实现排序
@Override
public int compareTo(FlowBean o) {
// 倒序排列从大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
3排序发生的阶段
1一个是在map side发生在spill后partition前。
2一个是在reduce side发生在copy后 reduce前。

8、描述mapReduce中shuffle阶段的工作流程如何优化shuffle阶段

分区排序溢写拷贝到对应reduce机器上增加combiner压缩溢写的文件。

9、描述mapReduce中combiner的作用是什么一般使用情景以及和reduce的区别

1Combiner的意义就是对每一个maptask的输出进行局部汇总以减小网络传输量。
2Combiner能够应用的前提是不能影响最终的业务逻辑而且Combiner的输出kv应该跟reducer的输入kv类型要对应起来。
3Combiner和reducer的区别在于运行的位置。
Combiner是在每一个maptask所在的节点运行
Reducer是接收全局所有Mapper的输出结果。

10、如果没有定义partitioner那数据在被送达reducer前是如何被分区的

如果没有自定义的 partitioning则默认的 partition 算法即根据每一条数据的 key 的 hashcode 值摸运算%reduce 的数量得到的数字就是“分区号“。

11、MapReduce 出现单点负载多大怎么负载平衡

通过Partitioner实现

12、MapReduce 怎么实现 TopN

可以自定义groupingcomparator对结果进行最大值排序然后再reduce输出时控制只输出前n个数。就达到了topn输出的目的。

13、Hadoop的缓存机制Distributedcache是怎么样的

分布式缓存一个最重要的应用就是在进行join操作的时候如果一个表很大另一个表很小我们就可以将这个小表进行广播处理即每个计算节点上都存一份然后进行map端的连接操作经过我的实验验证这种情况下处理效率大大高于一般的reduce端join广播处理就运用到了分布式缓存的技术。
DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前文件在每个Job中只会被拷贝一次缓存的归档文件会被在Slave节点中解压缩。将本地文件复制到HDFS中去接着Client会通过addCacheFile() 和addCacheArchive()方法告诉DistributedCache在HDFS中的位置。当文件存放到文地时JobClient同样获得DistributedCache来创建符号链接其形式为文件的URI加fragment标识。当用户需要获得缓存中所有有效文件的列表时JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都返回一个指向本地文件路径对象数组。

14、mapReduce如何实现两个表的join?

1reduce side join : 在map阶段map函数同时读取两个文件File1和File2为了区分两种来源的key/value数据对对每条数据打一个标签tag,比如tag=0 表示来自文件File1tag=2 表示来自文件File2。
2map side join : Map side join 是针对以下场景进行的优化两个待连接表中有一个表非常大而另一个表非常小以至于小表可以直接存放到内存中。这样我们可以将小表复制多份让每个map task 内存中存在一份比如存放到hash table 中然后只扫描大表对于大表中的每一条记录key/value在hash table 中查找是否有相同的key 的记录如果有则连接后输出即可。