ClickHouse开发系列-CSDN博客

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

一、 ClickHouse详解、安装教程_clickhouse源码安装

二、ClickHouse 语法详解_clickhouse讲解

三、ClickHouse SQL 操作语句详解

四、ClickHouse 高级教程—官方原版

五、ClickHouse主键索引最佳实践

六、MySQL与ClickHouse集成

七、ClickHouse 集成MongoDB、Redis

八、Java ClickHouse整合—官方教程

一、什么是ClickHouse

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

在传统的行式数据库系统中数据按如下顺序存储

Row	WatchID	JavaEnable	Title	GoodEvent	EventTime
#0	89354350662	1	Investor Relations	1	2016-05-18 05:19:20
#1	90329509958	0	Contact us	1	2016-05-18 08:10:20
#2	89953706054	1	Mission	1	2016-05-18 07:38:00
#N	…	…	…	…	…

处于同一行中的数据总是被物理的存储在一起。

常见的行式数据库系统有MySQL、Postgres和MS SQL Server。

在列式数据库系统中数据按如下的顺序存储

Row:	#0	#1	#2	#N
WatchID:	89354350662	90329509958	89953706054	…
JavaEnable:	1	0	1	…
Title:	Investor Relations	Contact us	Mission	…
GoodEvent:	1	1	1	…
EventTime:	2016-05-18 05:19:20	2016-05-18 08:10:20	2016-05-18 07:38:00	…

这些示例只显示了数据的排列顺序。来自不同列的值被单独存储来自同一列的数据被存储在一起。

常见的列式数据库有 Vertica、 Paraccel (Actian MatrixAmazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb+。

不同的数据存储方式适用不同的业务场景数据访问的场景包括进行了何种查询、多久查询一次以及各类查询的比例每种类型的查询(行、列和字节)读取多少数据读取数据和更新之间的关系使用的数据集大小以及如何使用本地的数据集是否使用事务,以及它们是如何进行隔离的数据的复制机制与数据的完整性要求每种类型的查询要求的延迟与吞吐量等等。

系统负载越高依据使用场景进行定制化就越重要并且定制将会变的越精细。没有一个系统能够同时适用所有不同的业务场景。如果系统适用于广泛的场景在负载高的情况下要兼顾所有的场景那么将不得不做出选择。是要平衡还是要效率

二、OLAP场景的关键特征

绝大多数是读请求
数据以相当大的批次(> 1000行)更新而不是单行更新;或者根本没有更新。
已添加到数据库的数据不能修改。
对于读取从数据库中提取相当多的行但只提取列的一小部分。
宽表即每个表包含着大量的列
查询相对较少(通常每台服务器每秒查询数百次或更少)
对于简单查询允许延迟大约50毫秒
列中的数据相对较小数字和短字符串(例如每个URL 60个字节)
处理单个查询时需要高吞吐量(每台服务器每秒可达数十亿行)
事务不是必须的
对数据一致性要求低
每个查询有一个大表。除了他以外其他的都很小。
查询结果明显小于源数据。换句话说数据经过过滤或聚合因此结果适合于单个服务器的RAM中

很容易可以看出OLAP场景与其他通常业务场景(例如,OLTP或K/V)有很大的不同因此想要使用OLTP或Key-Value数据库去高效的处理分析查询场景并不是非常完美的适用方案。例如使用OLAP数据库去处理分析请求通常要优于使用MongoDB或Redis去处理分析请求。

三、列式数据库更适合OLAP场景的原因

列式数据库更适合于OLAP场景(对于大多数查询而言处理速度至少提高了100倍)下面详细解释了原因(通过图片更有利于直观理解)

行式

Row oriented

列式

Column oriented

看到差别了么下面将详细介绍为什么会发生这种情况。

1、输入/输出

针对分析类查询通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。例如如果只需要读取100列中的5列这将帮助你最少减少20倍的I/O消耗。
由于数据总是打包成批量读取的所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。这进一步降低了I/O的体积。
由于I/O的降低这将帮助更多的数据被系统缓存。

例如查询«统计每个广告平台的记录数量»需要读取«广告平台ID»这一列它在未压缩的情况下需要1个字节进行存储。如果大部分流量不是来自广告平台那么这一列至少可以以十倍的压缩率被压缩。当采用快速压缩算法它的解压速度最少在十亿字节(未压缩数据)每秒。换句话说这个查询可以在单个服务器上以每秒大约几十亿行的速度进行处理。这实际上是当前实现的速度。