【大数据】Hadoop-CSDN博客

文章目录 概述Hadoop组成HDFSMapReduce写MapReduce程序Hadoop streaming YARNHadoop 启动 工作方式Hadoop的主从工...

不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Na...

云服务器搭建Hadoop分布式-CSDN博客

文章目录 1.服务器配置2.Java环境3. 安装Hadoop4. 集群配置5. 编写集群的启动脚本 1.服务器配置 服务器主机名配置115.157.197.82s11...

Hadoop3教程(三十四):(生产调优篇)MapReduce生产经验汇总-CSDN博客

文章目录 164MR跑得慢的原因165MR常用调优参数Map阶段Reduce阶段 166MR数据倾斜问题参考文献 164MR跑得慢的原因 MR程序执行效率的瓶颈或者说当...

大数据技术学习笔记(三)—— Hadoop 的运行模式-CSDN博客

目录 1 本地模式2 伪分布式模式3 完全分布式模式3.1 准备3台客户机3.2 同步分发内容3.2.1 分发命令3.2.2 执行分发操作 3.3 集群配置3.3.1 集群部署规...

Hadoop3教程(三十):(生产调优篇)纠删码-CSDN博客

文章目录 155纠删码原理纠删码原理纠删码相关命令纠删码策略解释 156纠删码案例实操参考文献 155纠删码原理 纠删码原理 默认情况下一个文件在HDFS里会保留3个...

Hadoop面试题+详解-CSDN博客

20道面试题及详细解答 1.说说什么是结构化数据、非结构化数据和半结构化数据 结构化数据、非结构化数据和半结构化数据是根据数据的组织结构和格式来划分的不同类型的数据。 结构化数据结构化数据...

0基础学习PyFlink——模拟Hadoop流程-CSDN博客

学习大数据还是绕不开始祖级别的技术hadoop。我们不用了解其太多只要理解其大体流程然后用python代码模拟主要流程来熟悉其思想。 还是以单词统计为例如果使用hadoop流程实现则如下图。 为什...

Hadoop的安装

安装JDK 设置环境变量 配置Hadoop下载hadoop安装包 # wget http://mi...

Hadoop3教程(十九):MapReduce之ETL清洗案例-CSDN博客

文章目录 121ETL数据清洗案例参考文献 121ETL数据清洗案例 ETL即Extract-Transform-Load的缩写用来描述数据从源端经过抽取Extract、转换...