[Hadoop]大数据导论与Linux基础
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
目录
大数据导论
企业数据分析方向
数据分析在企业日常经营分析中主要有三大方向
-
现状分析实时分析面向当下分析实时产生的数据所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短可细分秒级、毫秒级。
-
原因分析离线分析面向过去分析已有的数据。一周一分析T+7),一天一分析(T+1),所以也叫做批处理。
-
预测分析机器学习基于历史数据和当下产生的实时数据预测未来发生的事情。侧重于数学算法的运用。
数据分析基本步骤
-
明确分析的目的和思路
-
数据收集
-
数据预处理
-
数据分析
-
数据展现数据可视化
-
报告撰写
一切围绕着数据通俗描述数据从哪里来、数据到哪里去。
大数据时代
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据5V特征
-
Volume数据体量大
-
采集数据量大
-
存储数据量大
-
计算数据量大
-
TB、PB起步。
-
-
Variety种类、来源多样化
-
种类结构化、半结构化、非结构化
-
来源日志文件、图片、音频、视频
-
-
Value低价值密度
-
信息海量但是价值密度低
-
深度复杂的挖掘分析需要机器学习参与
-
-
Velocity速度快
-
数据增长速度快
-
获取数据速度快
-
数据处理速度快
-
-
Veracity数据的质量
-
数据的准确性
-
数据的可信赖度
-
应用场景
-
抖音推荐的都是你喜欢的视频
-
电商站内广告推荐给用户推荐可能喜欢的商品
-
零售纸尿布+啤酒
-
物流存储
-
......
分布式与集群
分布式多台机器每台机器上部署不同组件。
集群多台机器每台机器上部署相同组件。
应用
数据大爆炸海量数据处理场景面临问题。
存储单机存储有瓶颈多台机器分布式存储。
计算单机计算能力有限多台机器分布式计算。
Linux操作系统概述
操作系统概念与分类
操作系统概念
-
操作系统OS是管理计算机硬件与软件资源的程序。
-
没有操作系统的机器称之为裸机不管是开发还是使用都十分不便。
-
操作系统也提供一个用户与系统交互的操作界面。
操作系统分类
-
桌面操作系统桌面指的是图形化操作页面。Mac os(Apple)、Window(Microsoft)、Linux三足鼎立。
-
嵌入式操作系统单片机。
-
服务器操作系统一般指的是安装在大型计算机上的操作系统。主要分为四大流派Unix、Linux、Windows Server和Netware。
-
移动设备操作系统主要应用在智能手机、平板等智能设备上。主要有iOS苹果、Android谷歌、Harmony华为鸿蒙
Linux起源与发展
-
Unix系统较早被广泛使用的计算机操作系统之一因版权、开源等问题延伸出不同Unix版本。
-
Linus Torvalds发布Linux系统的第一版本遵循GPL协议通用公共许可证开源免费。
-
Linux是一个类似Unix的操作系统并在功能和用户体验上进行优化Linux并没有抄袭Unix的源码只是外观类似。
Linux内核与发行版本
Linux内核Kernel
-
操作系统的核心部分简称内核Linux第一版独立内核由Linus Torvalds开发实现约10000行代码。
-
后续Linus Torvalds公开了Linux内核代码并邀请他人一起完善Linux现在只有2%的Linux核心代码是由Linus Torvalds自己编写。
-
Linux操作系统=Linux Kernel+GNU软件及系统软件+必要的应用程序。
Linux发行版本
-
Linux发行版可分为个人桌面版和企业服务器版。
-
个人桌面版中Ubuntu成熟度颇高较受欢迎而Redhat(红帽系列)及其延申版本Centos凭借稳定的性能在服务器中占比很大。
VMware Workstation虚拟机使用
VMware虚拟机概念
它是一款虚拟机软件允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行。
最好将软件安装到一个没有中文、没有空格的目录下。
VMware虚拟机常规使用
快照使用
-
VMware虚拟机软件提供了快捷功能用于记录某一时间点的状态用户备份恢复
-
拍好快照之后可以在任何时间恢复到指定的快照时间点。
-
如果需要快照跳转恢复3台虚拟机必须要同时进行恢复避免彼此之间时间状态不同步。
-
在Linux中SSH的主要用途有用户加密实现远程登录、服务器之间的免密登录。
Linux常用基础命令
Linux文件系统基础知识
Linux文件系统概念
-
操作系统中负责管理和存储文件信息的软件称为文件管理系统简称文件系统。
-
文件系统的结构通常叫做目录树结构以/root开始。
-
Linux号称“万物皆文件”意味着针对Linux的操作大多数时间是在针对Linux文件系统操作。
文件系统通用特征
-
大部分文件系统都以/root开始。
-
目录树中节点分为两个种类目录、文件
-
从根目录开始路径具有唯一性。
-
只有在目录下才可以继续创建下一级目录。
易混概念
-
当前路径也叫当前工作目录当下用户所属的位置。查看用pwd。
-
相对路径相对当前工作目录开始的路径会随着当前路径变化而变化。
-
绝对路径不管工作目录在哪绝对路径都以/开始唯一不重复。
特殊符号
-
. 目录或者文件名字以.开始表示是隐藏的文件如果路径以.开始表示当前路径
-
.. 当前目录的上一级目录
-
~ 当前用户的home目录比如root用户的home目录是/root
-
/ 根目录
Linux常用操作命令
-
Tab键可以实现自动补全和提示功能要合理使用。
-
history命令可以显示历史执行记录或者使用方向键来切换前后执行过的命令。
显示目录内容
ls命令
-
ls -a 显示所有文件及目录隐藏文件也会显示
-
ls -l 或 ll 将文件信息详细列出
切换目录
cd命令切换的路径可以是绝对路径或相对路径。若路径省略则变换至使用者的home目录。
-
cd ~ 切换至家目录
-
cd . 表示目前所在的目录
-
cd .. 切换至当前目录的上一级目录
创建、删除
-
mkdir命令用于创建目录
-
mkdir a 表示在当前目录下创建a文件不能创建 /a/b
-
mkdir -p /a/b 表示在当前目录下创建/a/b
-
-
touch命令创建一个空文件无任何内容
-
rm命令用于删除一个文件或目录
-
rm -rf aaa 将aaa文件强制删除以及aaa的子文件也强制删除
-
复制、移动
-
cp命令用于复制文件或目录
-
cp -r aaa/ bbb/ 将aaa递归复制到bbb下
-
-
mv命令用来为文件或目录改名、或将文件或目录移入到其他位置。
-
mv aaa文件 ccc文件 将aaa改为ccc
-
mv aaa(文件) ccc目录 将aaa文件移动到ccc目录下
-
文件内容查看
-
cat命令适合小文件内容的查看直接输出到控制台。
-
cat 1.txt
-
-
more命令类似cat不过会以一页一页的形式显示翻页结束自动退出适合大文件的查看。按space键翻下一页按b翻上一页。
-
tail用于查看文件的结尾部分的内容。
其他
-
| 管道命令 命令1|命令2 可以将命令1的结果通过命令2做进一步的处理
-
echo命令将内容输出到控制台上。
-
echo 111
-
-
> 输出重定向覆盖)命令
-
>> 输出重定向追加命令
打包、解包
tar 命令常用于备份文件。
-
tar -cvf test.tar 1.txt 2.txt 将1.txt和2.txt打包到test.tar中
-
tar xvf test.tar -C /aaa/ 将test.tar中的文件解包到 aaa目录下
解压缩命令
-
tar zcvf test.tar.gz 1.txt 2.txt 将1.txt和2.txt压缩到test.tar.gz
-
tar zxvf test.tar.gz -C /aaa/ 将test.tar.gz解压到aaa目录下
Linux常用系统命令
时间、日期查看
-
date命令用来显示或设定系统的日期与时间
-
cla命令用于显示当前或者指定日期的公历
内存、磁盘使用率查看
-
free -h用于显示内存状态
-
df -h用于显示Linux系统上的文件系统磁盘使用情况统计
进程查看
-
ps命令用于显示当前进程的状态类似于windows的任务管理器
-
ps -ef 查看所有进程
-
kill -9 进程号杀死进程
-
-
jps命令这是JDK自带的命令专门用于查看本机运行的java进程情况必须在安装好JDK之后才可以使用
vi/vim文本编辑器
vim编辑器介绍、3种工作模式
vim编辑器简介
-
vim是从vi发展出来的一个文本编辑器可以理解为vi编辑器的增强版。
-
万物皆命令。
vim /path/file
-
如果打开的文件不存在此时就是新建文件
-
如果打开的文件已存在进入命令模式
vim编辑器的3种工作模式
在命令模式下按shift+zz,可以实现快速的保存退出
vim基本操作命令
光标移动
-
方向控制键
-
翻页 pageup pagedown
-
行首 0 行尾 $)
-
跳到文件的最后一行 G
-
跳到文件的第一行 gg
复制粘贴
-
复制
-
yy 复制光标当前所在行内容
-
nyy复制当前行往下n行
-
-
粘贴
-
p 当前行的下一行粘贴
-
P 当前行的上一行粘贴
-
删除、撤销操作
-
删除命令
-
dd 删除光标所在当前行的内容
-
ndd 删除当前行往下n行
-
-
撤销、反撤销
-
u 撤销上一步的操作后悔药
-
ctrl+r 反撤销
-