SparkSQL-第一章：SparkSQL快速入门

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

Spark是大数据体系的明星产品，是一款高性能的分布式内存迭代计算框架，可以处理海量规模的数据。下面就带大家来学习今天的内容！

一、什么是SparkSQL

SparkSQL-第一章：SparkSQL快速入门_hive

SparkSQL 是Spark的一个模块, 用于处理海量结构化数据

限定: 结构化数据处理

二、为什么学习SparkSQL

SparkSQL-第一章：SparkSQL快速入门_Hive_02

SparkSQL是非常成熟的海量结构化数据处理框架.

学习SparkSQL主要在2个点:

SparkSQL本身十分优秀, 支持SQL语言\性能强\可以自动优化\API简单\兼容HIVE等等

企业大面积在使用SparkSQL处理业务数据

离线开发
数仓搭建
科学计算
数据分析

三、SparkSQL的特点

SparkSQL-第一章：SparkSQL快速入门_Core_03

四、SparkSQL发展历史 - 前身 Shark框架

在许多年前(2012\2013左右)Hive逐步火热起来, 大片抢占分布式SQL计算市场；

Spark作为通用计算框架, 也不可能放弃这一细分领域。于是, Spark官方模仿Hive推出了Shark框架(Spark 0.9版本)；

Shark框架是几乎100%模仿Hive, 内部的配置项\优化项等都是直接模仿而来，不同的在于将执行引擎由MapReduce更换为了Spark；

因为Shark框架太模仿Hive, Hive是针对MR优化, 很多地方和SparkCore(RDD)水土不服, 最终被放弃

Spark官方下决心开发一个自己的分布式SQL引擎也就是诞生了现在的SparkSQL

SparkSQL-第一章：SparkSQL快速入门_spark_04

SparkSQL-第一章：SparkSQL快速入门_大数据_05

● 2014年 1.0正式发布

● 2015年 1.3 发布DataFrame数据结构, 沿用至今

● 2016年 1.6 发布Dataset数据结构(带泛型的DataFrame), 适用于支持泛型的语言(Java\Scala)

● 2016年 2.0 统一了Dataset 和 DataFrame, 以后只有Dataset了, Python用的DataFrame就是没有泛型的Dataset

● 2019年 3.0 发布，性能大幅度提升， SparkSQL变化不大

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

返回列表

上一篇：Spark Core-第六章：Spark 内核调度_spark metrics

下一篇：Spire.Office 8.1.1 for .NET 是 Spire.Office 7.12.5吗

“SparkSQL-第一章：SparkSQL快速入门” 的相关文章

在线客服系统的源码中Golang Gin框架实现IP白名单机制1年前 (2023-02-02)

如何站在开发者的角度理解框架的设计思想？1年前 (2023-02-02)

如何实现在react现有项目中嵌入Blazor？1年前 (2023-02-02)

Linux ALSA驱动之三：PCM创建流程源码分析（基于Linux 5.18）1年前 (2023-02-02)

Apache IoTDB C# SDK 介绍1年前 (2023-02-02)

扑克玩法：9点半--数据分析1年前 (2023-02-02)

详解BFS，Dijkstra算法，Floyd算法是如何解决最短路径问题的1年前 (2023-02-02)

一文带你入门图机器学习1年前 (2023-02-02)

【Linux操作系统】自动化编译make和Makefile1年前 (2023-02-02)