[学习笔记]黑马程序员-Hadoop入门视频教程
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
文章目录
参考资料
黑马程序员大数据Hadoop入门视频教程适合零基础自学的大数据Hadoop教程
目录
大数据导论与Linux基础
大数据导论
Linux操作系统概述
VMware Workstation虚拟机使用
Linux常用基础命令
Linux常用系统命令
vi/vim文本编辑器基础使用
学习目标
1.理解大数据基本概念
2.掌握数据分析基本步骤
3.理解分布式、集群概念
4.学会VMware虚拟机的导入与使用
5.掌握Linux常用操作命令使用
6.掌握vi/vim编辑器基础使用
大数据导论
企业数据分析方向
数据分析是为了把隐藏在数据背后的信息集中和提炼出来总结出所研究对象的内在规律帮助管理者进行有效的判断和决策。数据分析在”企业日常经营“分析中主要有三大方向现状分析->原因分析->预测分析
- 现状分析分析当下的数据现阶段的整体情况各个部分的构成占比、发展、变动
- 原因分析分析过去的数据某一现状为什么发生确定原因做成调整优化
- 预测分析结合数据预测未来结合已有数据预测未来发展趋势
离线分析Batch Processing面向过去面向历史分析已有的数据在时间维度明显成批次性变化。一周一分析T+7一天一分析T+1所以也叫做批处理
。
实时分析Real Time Processing | Streaming
面向当下分析实时产生的数据所谓的实时是指从数据产生到数据分析与数据应用的时间间隔很短可细分秒级、毫秒级。实时分析又称为流式处理Streaming。
机器学习Machine Learning
基于历史数据和当下产生的实时数据预测未来发生的事情侧重于数学算法的运用如分类、聚类、关联、预测。
数据分析基本流程步骤
数据分析步骤流程的重要性体现在对如何开展数据分析提供了强有力的逻辑支撑
张文霖老师在《数据分析六部曲》中提到典型的数据分析应该包含以下几个步骤
明确分析目的和思路->数据收集->数据处理->数据分析->数据展现->报告攥写
明确分析的目的和思路
- 目的是整个分析流程的起点为数据的收集、处理及分析提供清晰的指引方向
- 思路是使
分析框架体系化
比如先分析什么后分析什么使各分析点之间具有逻辑联系保证分析维度的完整性
分析结果的有效性
以及正确性
需要数据分析方法论
进行支撑 - 数据分析方法论是一些营销管理相关理论比如用户行为理论、PEST分析法、5W2H分析法等
数据收集
- 数据
从无到有
的过程比如传感器收集气象数据、埋点收集用户行为数据 - 数据
传输搬运
的过程比如采集数据库数据到数据分析平台
常见的数据源和种类
- 业务数据RDBMS
- 日志数据服务器、应用日志
- 爬虫数据爬虫数据库
- 互联网公开数据行业、政府网站
数据处理
- 准确来说应该称之为
数据预处理
。 - 数据预处理需要对收集到的数据进行加工整理形成适合数据分析的样式主要包括
数据清洗
、数据转化
、数据提取
、数据计算
- 数据预处理可以保证数据的一致性和有效性让数据变成干净规整的
结构化数据
。
思考
- 当下的企业中用于分析的数据是侧重文本数据多一些还是侧重于图片、视频数据多一些
答案文本数据多一点- 什么叫干净规整的结构化数据有非结构化数据
答案结构化数据专业来说就是二维表的数据行列对应
数据分析
- 用适当的分析方法及分析工具对处理过的数据进行分析提取有价值的信息形成有效结论的过程
- 需要掌握各种
数据分析方法
还要熟悉数据分析软件
的操作
数据展现
- 数据展现又称之为数据可视化指的是分析结果图表展示因为人类是视觉动物
- 数据可视化Data Visualization属于数据应用的一种
- 注意
数据分析的结果不是只有可视化展示
还可以继续数据挖掘Data Mining、即席查询Ad Hoc等。
报告攥写
- 数据分析报告是对整个数据分析结过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整地呈现出来供决策者参考
- 需要有明确的结论最好有建议或解决方案
大数据时代
大数据定义
大数据big data是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特征
5个V开头的单词从5个方面准确、生动、形象地介绍了大数据特征。
- Volume数据体量大
采集数据量大存储数据量大计算数据量大TB、PB级别起步 - Variety种类、来源多样化
种类结构化、半结构化、非结构化
来源日志文本、图片、音频、视频 - Value低价值密度
信息海量但是价值密度低
深度复杂的挖掘分析需要机器学习参数 - Velocity速度快
数据增长速度快
获取数据速度快
数据处理速度快