java:Cassandra入门与实战——上

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6


一、数据存储方式和NoSQL

1.1 数据存储方式

互联网时代各种数据存储方式层出不穷,有传统的关系性数据库如:MySQL、Oracle等,;有全文检索框架如:ElasticSearch、Solr;有NoSQL如:Cassandra、Redis

这些存储方式的特点:

  • 关系型数据库:支持事务,二级索引,SQL语句,支持主从架。
  • 全文检索:分布式,p2p架构,不支持事务,采用倒排索引提供全文检索。
  • NoSQL:一般基于内存,支持分布式,面向列,不支持SQL。

1.2 NoSQL概述

NoSQL,泛指非关系型的数据库,NoSQL去掉关系数据库的关系型特性,数据之间无关系,非常容易扩展。

NoSQL型数据库一般包含一些共同特性:

  • 易扩展

NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展,在架构的层面上带来了可扩展的能力。

  • 大数据量,高性能

NoSQL数据库都具有非常高的读写性能,尤其在大数据量下。一般MySQL使用Query Cache。NoSQL的Cache是记录级的,是一种细粒度的Cache,所以NoSQL在这个层面上来说性能就要高很多。

  • 灵活的数据模型

NoSQL无须事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。

  • 高可用

NoSQL在不太影响性能的情况,就可以方便地实现高可用的架构。比如Cassandra、HBase模型,通过复制模型也能实现高可用。

1.3 NoSQL的分类

键值(Key-Value)存储数据库

这一类数据库主要使用[哈希表],这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型的优势在于简单、易部署。代表为: Redis。

列存储数据库

这类数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家组来安排的。如:Cassandra, HBase。

文档型数据库

文档型数据库和第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值,在处理网页等复杂数据时,文档型数据库比传统键值数据库的查询效率更高。如:CouchDB, MongoDb。

图形(Graph)数据库

图形结构的数据库同其他行列以及关系型数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。

二、Cassandra的介绍

2.1、Cassandra概述

2.1.1 来自百科的介绍

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩展性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。

2.1.2 Cassandra的官网

Cassandra在2009年成为了Apache软件基金会的Incubator项目,并在2010年2月走出孵化器,成为正式的基金会项目。

java:Cassandra入门与实战——上_java

 

2.1.3 Cassandra的Logo

Cassandra的名称来源于希腊神话,是特洛伊的一位悲剧性的女先知的名字,因此项目的Logo是一只放光的眼睛。

java:Cassandra入门与实战——上_hadoop_02

 

2.2、Cassandra特点

  • 弹性可扩展性 - Cassandra是高度可扩展的; 它允许添加更多的硬件以适应更多的客户和更多的数据根据要求。
  • 始终基于架构 - Cassandra没有单点故障,它可以连续用于不能承担故障的关键业务应用程序。
  • 快速线性性能 - Cassandra是线性可扩展性的,即它为你增加集群中的节点数量增加你的吞吐量。因此,保持一个快速的响应时间。
  • 灵活的数据存储 - Cassandra适应所有可能的数据格式,包括:结构化,半结构化和非结构化。它可以根据您的需要动态地适应变化的数据结构。
  • 便捷的数据分发 - Cassandra通过在多个数据中心之间复制数据,可以灵活地在需要时分发数据。
  • 事务支持 - Cassandra支持属性,如原子性,一致性,隔离和持久性(ACID)。
  • 快速写 - Cassandra被设计为在廉价的商品硬件上运行。 它执行快速写入,并可以存储数百TB的数据,而不牺牲读取效率。

2.3、Cassandra使用场景

2.3.1 特征

  • 数据写入操作密集
  • 数据修改操作很少
  • 通过主键查询
  • 需要对数据进行分区存储

2.3.2 场景举例

  • 存储日志型数据
  • 类似物联网的海量数据
  • 对数据进行跟踪

三、Cassandra下载、安装、访问

3.1 Cassandra 3.9下载

打开官网,选择下载频道https://cassandra.apache.org/download/

java:Cassandra入门与实战——上_hadoop_03

 

进入下载频道后,目前最近版是3.11.6,我们选择使用版本3.9,可以从版本列表中选择想要使用版本

java:Cassandra入门与实战——上_大数据_04

 

点击3.9的最新版显示如下:

java:Cassandra入门与实战——上_大数据_05

 

点击进入3.9的目录,下载apache-cassandra-3.9-bin.tar.gz

java:Cassandra入门与实战——上_数据库_06

 

点击红框内的链接,下载3.9版本,下载后文件如下:

java:Cassandra入门与实战——上_hadoop_07

 

3.2 Windows下安装

注意:Cassandra使用JAVA语言开发,首先保证当前机器中已经安装JDK

3.2.1 解压文件

找一个不包含中文的目录,把刚才下载的安装文件复制过去。然后解压到当前文件夹

java:Cassandra入门与实战——上_java_08

 

3.2.2 配置环境变量

1)新建CASSANDRA_HOME

在环境变量中新建一个CASSANDRA_HOME变量,值为:D:\coding-software\apache-cassandra-3.9

java:Cassandra入门与实战——上_大数据_09

 

2)在Path中添加

在Path环境变量中在末尾添加:%CASSANDRA_HOME%\bin

java:Cassandra入门与实战——上_分布式_10

 

3)验证环境变量

打开dos窗口可以查看是否设置成功。输入echo %cassandra_home%,显示如下内容说环境变量值设置成功

java:Cassandra入门与实战——上_hadoop_11

 

3.2.3 配置Cassandra

cassandra的数据分为3类,这3类数据的存储位置都可以在配置文件中修改

data目录:用于存储真正的数据文件,即后面将要讲到的SSTable文件。如果服务器有多个磁盘,可以指定多个目录,每一个目录都在不同的磁盘中。这样Cassandra就可以利用更多的硬盘空间。

在data目录下,Cassandra 会将每一个 Keyspace 中的数据存储在不同的文件目录下,并且 Keyspace 文件目录的名称与 Keyspace 名称相同。

假设有两个 Keyspace,分别为 ks1 和 ks2,但在 data目录下,将看到3个不同的目录:ks1,ks2和 system。其中 ks1 和 ks2 用于存储系统定义的两个 Keyspace 的数据,另外一个 system 目录是 Cassandra 系统默认的一个 Keyspace,叫做 system,它用来存储 Cassandra 系统的相关元数据信息以及 HINT 数据信息。

commitlog目录: 用于存储未写人SSTable中的数据,每次Cassandra系统中有数据写入,都会先将数据记录在该日志文件中,以保证Cassandra在任何情况下宕机都不会丢失数据。如果服务器有足够多的磁盘,可以将本目录设置在一个与data目录和cache目录不同的磁盘中,以提升读写性能。

cache目录: 用于存储系统中的缓存数据。可以在cassandra. yaml文件中定义Column Family的属性中定义与缓存相关的信息,如缓存数据的大小(对应配置文件中的keys_cached和rOws_ cached)、 持久化缓存数据的时间间隔(对应配置文件中的row cache_save_ period in. seconds 和key. cache save period in seconds)等。当Cassandra系统重启的时候,会从该目录下加载缓存数据。如果服务器有足够多的磁盘空间,可以将本目录设置在一个与data目录和commitlog目录不同的磁盘中,以提升读写性能。

1)新建数据存储目录,data目录

  • 在D:\coding-software\apache-cassandra-3.9目录中新建一个data目录;
  • 找到D:\coding-software\apache-cassandra-3.9\conf目录下的cassandra.yaml配置data目录;
  • 注意:如果不配置数据目录默认为$CASSANDRA_HOME/data/data;
  • 注意:- 的后面要跟一个空格,这是yaml的语法;
  • 代码:
data_file_directories: 
- D:\coding-software\apache-cassandra-3.9\data
  • 如图:

java:Cassandra入门与实战——上_hadoop_12

 

2)新建日志目录,commitlog目录

  • 在D:\coding-software\apache-cassandra-3.9目录中新建一个commitlog目录;
  • 在cassandra.yaml中配置commitlog目录;
  • 注意:如果不配置日志目录,默认为:$CASSANDRA_HOME/data/commitlog;
  • 注意:- 的后面要跟一个空格,这是yaml的语法;
  • 代码:
commitlog_directory: 
- D:\coding-software\apache-cassandra-3.9\commitlog
  • 如图:

java:Cassandra入门与实战——上_大数据_13

 

3)新建缓存目录,saved_caches目录

  • 在D:\coding-software\apache-cassandra-3.9目录中新建一个saved_caches目录;
  • 在cassandra.yaml中配置saved_caches目录;
  • 注意:如果不配置日志目录,默认为:$CASSANDRA_HOME/data/saved_caches;
  • 注意:saved_caches_directory: 后面要跟一个空格,这是yaml的语法;
  • 代码:
saved_caches_directory: D:\coding-software\apache-cassandra-3.9\saved_caches
  • 如图:

java:Cassandra入门与实战——上_java_14

 

3.2.4 启动Cassandra

打开DOS窗口,进入D:\InstallFile\apache-cassandra-3.9\bin目录,执行cassandra.bat文件,看到下入图,说明启动成功。 注意:这个CMD窗口不要关闭,一旦关闭,Cassandra服务就会关闭了!!!

java:Cassandra入门与实战——上_hadoop_15

 

3.2.5 Cassandra客户端连接Cassandra服务器

注意:Cassandra的客户端的使用需要用的Python2.X版本。需要先安装Python2.X

1) 下载Python2.7安装文件

访问Python的下载页面

java:Cassandra入门与实战——上_hadoop_16

 

进入2.7.13的下载页面,这里我选择windows 64位安装文件,点击下载

java:Cassandra入门与实战——上_hadoop_17

 

2) 在本机安装Python2.7

接下来,安装Python2.7,找到安装文件双击打开,多次点击下一步,完成安装。

然后把Python2.7安装后的目录设置到环境变量的path中

3) 验证Python

新打开CMD窗口,输入命令 python,如果现实如下内容,说明python安装成功

java:Cassandra入门与实战——上_java_18

 

4) 使用Cassandra客户端连接服务器

新打开CMD窗口,进入Cassandra的bin目录,输入

D:\coding-software\apache-cassandra-3.11.6\bin>cqlsh.bat 192.168.137.1 9042

回车,看到如图所示,说明已经连接到服务器

java:Cassandra入门与实战——上_分布式_19

 

3.3 CentOS下安装

注意:Cassandra使用JAVA语言开发,首先保证当前机器中已经安装JDK

3.3.1 解压安装文件

输入命令解压文件

tar -xzvf apache-cassandra-3.9-bin.tar.gz

解压后,可以看到Cassandra的目录,如图:

java:Cassandra入门与实战——上_java_20

 

3.3.2 创建数据存放文件夹

进入解压后的目录,创建3个Cassandra的数据文件夹

[root@localhost apache-cassandra-3.9]# mkdir data
[root@localhost apache-cassandra-3.9]# mkdir commitlog
[root@localhost apache-cassandra-3.9]# mkdir saved_caches

3.3.3 配置Cassandra

在conf目录中找到cassandra.yaml配置文件,配置上面创建的3个数据目录

1)配置 data_file_directories

内容:

data_file_directories:
- /usr/local/apache-cassandra-3.9/data

2)配置commitlog_directory

内容:

commitlog_directory: /usr/local/apache-cassandra-3.9/commitlog

3)配置saved_caches_directory

内容:

saved_caches_directory: /usr/local/apache-cassandra-3.9/saved_caches

4)保存文件

使用 :wq 保存文件

3.3.4 启动Cassandra

进入/usr/local/apache-cassandra-3.9/bin 目录,执行cassandra

java:Cassandra入门与实战——上_数据库_21

 

意思是官方不推荐使用root用户或组来运行Cassandra,请使用其他系统用户来启动Cassandra。如果就是想用root用户来启动,可以在 命令后面加上 -R,也就是 使用root用户启动的命令是

./cassandra -R

好,接下来输入命令来启动,可以看到一大堆的输出内容,说明启动成功了。如下:

java:Cassandra入门与实战——上_分布式_22

 

输入命令来查看正在运行的cassandra的pid

ps -ef|grep cassandra

显示如图,pid 是 1729:

java:Cassandra入门与实战——上_大数据_23

 

3.3.5 关闭Cassandra

刚才已经查到了pid,现在可以使用命令杀掉这个pid对应的进程

kill -9 1729

3.3.6 启动、重启、关闭的脚本

为了方便管理,可以编写脚本来管理,在/usr/local/apache-cassandra-3.9下创建一个startme.sh,输入一下内容:

#!/bin/sh
CASSANDRA_DIR="/usr/local/apache-cassandra-3.9"
echo "************cassandra***************"
case "$1" in
start)

echo "* *"
echo "* starting *"
nohup $CASSANDRA_DIR/bin/cassandra -R >> $CASSANDRA_DIR/logs/system.log 2>&1 &
echo "* started *"
echo "* *"
echo "************************************"
;;
stop)

echo "* *"
echo "* stopping *"
PID_COUNT=`ps aux |grep CassandraDaemon |grep -v grep | wc -l`
PID=`ps aux |grep CassandraDaemon |grep -v grep | awk {'print $2'}`
if [ $PID_COUNT -gt 0 ];then
echo "* try stop *"
kill -9 $PID
echo "* kill SUCCESS! *"
else
echo "* there is no ! *"
echo "* *"
echo "************************************"
fi
;;
restart)

echo "* *"
echo "********* restarting ******"
$0 stop
$0 start
echo "* *"
echo "************************************"
;;
status)
$CASSANDRA_DIR/bin/nodetool status
;;

*)
echo "Usage:$0 {start|stop|restart|status}"

exit 1
esac

接下来就可以使用这个脚本进行 启动,重启,关闭 的操作

[root@localhost apache-cassandra-3.9]# ./startme.sh start
[root@localhost apache-cassandra-3.9]# ./startme.sh restart
[root@localhost apache-cassandra-3.9]# ./startme.sh stop

3.3.7 查看状态

运行bin 目录下的 nodetool

[root@localhost bin]# ./nodetool status

结果如图:

java:Cassandra入门与实战——上_java_24

 

也可以运行自己编写的脚本,效果与上图一致:

[root@localhost apache-cassandra-3.9]# ./startme.sh status

如果cassandra启动出错,可以在bin目录下 使用 journalctl -u cassandra 命令查看

[root@localhost bin]# journalctl -u cassandra

3.3.8 使用客户端连接

命令

[root@localhost apache-cassandra-3.9]# ./bin/cqlsh

效果

java:Cassandra入门与实战——上_数据库_25

 

看到上面的效果,说明Cassandra已经安装成功,并且使用客户端连接成功

3.4 Cassandra的端口

7199 - JMX
7000 - 节点间通信(如果启用了TLS,则不使用)
7001 - TLS节点间通信(使用TLS时使用)
9160 - Thrift客户端API
9042 - CQL本地传输端口

3.5 Cassandra.yaml内容

cluster_name

集群的名字,默认情况下是TestCluster。对于这个属性的配置可以防止某个节点加入到其他集群中去,所以一个集群中的节点必须有相同的cluster_name属性。

listen_address

Cassandra需要监听的IP或主机名,默认是localhost。建议配置私有IP,不要用0.0.0.0。

commitlog_directory

commit log的保存目录,压缩包安装方式默认是/var/lib/cassandra/commitlog。通过前面的了解,我们可以知道,把这个目录和数据目录分开存放到不同的物理磁盘可以提高性能。

data_file_directories

数据文件的存放目录,压缩包安装方式默认是/var/lib/cassandra/data。为了更好的效果,建议使用RAID 0或SSD。

save_caches_directory

保存表和行的缓存,压缩包安装方式默认是/var/lib/cassandra/saved_caches。

通常使用:用得比较频繁的属性

在启动节点前,需要仔细评估你的需求。

commit_failure_policy

提交失败时的策略(默认stop):

stop:关闭gossip和Thrift,让节点挂起,但是可以通过JMX进行检测。

sto_commit:关闭commit log,整理需要写入的数据,但是提供读数据服务。

ignore:忽略错误,使得该处理失败。

disk_failure_policy

设置Cassandra如何处理磁盘故障(默认stop)。

stop:关闭gossip和Thrift,让节点挂起,但是可以通过JMX进行检测。

stop_paranoid:在任何SSTable错误时就闭gossip和Thrift。

best_effort:这是Cassandra处理磁盘错误最好的目标。如果Cassandra不能读取磁盘,那么它就标记该磁盘为黑名单,可以继续在其他磁盘进行写入数据。如果Cassandra不能从磁盘读取数据,那个这些SSTable就标记为不可读,其他可用的继续堆外提供服务。所以就有可能在一致性水平为ONE时会读取到过期的数据。

ignore:用于升级情况。

endpoint_snitch

用于设置Cassandra定位节点和路由请求的snitch(默认org.apache.cassandra.locator.SimpleSnitch),必须设置为实现了IEndpointSnitch的类。

rpc_address 一般填写本机ip

用于监听客户端连接的地址。可用的包括:

  • 0.0.0.0监听所有地址
  • IP地址
  • 主机名
  • 不设置:使用hosts文件或DNS

seed_provider

需要联系的节点地址。Cassandra使用-seeds集合找到其他节点并学习其整个环中的网络拓扑。

class_name:(默认org.apache.cassandra.locator.SimpleSeedProvider),可用自定义,但通常不必要。

– seeds:(默认127.0.0.1)逗号分隔的IP列表。

compaction_throughput_mb_per_sec

限制特定吞吐量下的压缩速率。如果插入数据的速度越快,越应该压缩SSTable减少其数量。推荐16-32倍于写入速度(MB/s)。如果是0表示不限制。

memtable_total_space_in_mb

指定节点中memables最大使用的内存数(默认1/4heap)。

concurrent_reads

(默认32)读取数据的瓶颈是在磁盘上,设置16倍于磁盘数量可以减少操作队列。

concurrent_writes

(默认32)在Cassandra里写很少出现I/O不稳定,所以并发写取决于CPU的核心数量。推荐8倍于CPU数。

incremental_backups

(默认false)最后一次快照发生时备份更新的数据(增量备份)。当增量备份可用时,Cassandra创建一个到SSTable的的硬链接或者流式存储到本地的备份/子目录。删除这些硬链接是操作员的责任。

snapshot_before_compaction

(默认false)启用或禁用在压缩前执行快照。这个选项在数据格式改变的时候来备份数据是很有用的。注意使用这个选项,因为Cassandra不会自动删除过期的快照。

phi_convict_threshold

(默认8)调整失效检测器的敏感度。较小的值增加了把未响应的节点标注为挂掉的可能性,反之就会降低其可能性。在不稳定的网络环境下(比如EC2),把这个值调整为10或12有助于防止错误的失效判断。大于12或小于5的值不推荐!

性能调优

commit_sync

(默认:periodic)Cassandra用来确认每毫秒写操作的方法。

  • periodic:和commitlog_sync_period_in_ms(默认10000 – 10 秒)一起控制把commit log同步到磁盘的频繁度。周期性的同步会立即确认。
  • batch:和commitlog_sync_batch_window_in_ms(默认disabled)一起控制Cassandra在执行同步前要等待其他写操作多久时间。当使用该方法时,写操作在同步数据到磁盘前不会被确认。

commitlog_periodic_queue_size

(默认1024*CPU的数量)commit log队列上的等待条目。当写入非常大的blob时,请减少这个数值。比如,16倍于CPU对于1MB的Blob工作得很好。这个设置应该至少和concurrent_writes一样大。

commitlog_segment_size_in_mb

(默认32)设置每个commit log文件段的大小。一个commit log段在其所有数据刷新到SSTable后可能会被归档、删除或回收。数据的总数可以潜在的包含系统中所有表的commit log段。默认值适合大多数情况,当然你也可以修改,比如8或16MB。

commitlog_total_space_in_mb

(默认32位JVM为32,64位JVM为1024)commit log使用的总空间。如果使用的空间达到以上指定的值,Cassandra进入下一个临近的部分,或者把旧的commit log刷新到磁盘,删除这些日志段。该个操作减少了在启动时加载过多数据引起的延迟,防止了把无限更新的表保存到有限的commit log段中。

compaction_preheat_key_cache

(默认true)当设置为true的时候,缓存的row key在压缩期间被跟踪,并且重新缓存其在新压缩的SSTable中的位置。如果有极其大的key要缓存,把这个值设为false。

concurrent_compactors

(默认每个CPU一个)设置每个节点并发压缩处理的值,不包含验证修复逆商。并发压缩可以在混合读写工作下帮助保持读的性能——通过减缓把一堆小的SSTable压缩而进行的长时间压缩。如果压缩运行得太慢或太快,请首先修改compaction_throughput_mb_per_sec的值。

in_memory_compaction_limit_in_mb

(默认64)针对数据行在内存中的压缩限制。超大的行会溢出磁盘并且使用更慢的二次压缩。当这个情况发生时,会对特定的行的key记录一个消息。推荐5-10%的Java对内存大小。

multithreaded_compaction

(默认false)当设置为true的时候,每个压缩操作使用一个线程,一个线程用于合并SSTable。典型的,这个只在使用SSD的时候有作用。使用HDD的时候,受限于磁盘I/O(可参考compaction_throughput_mb_per_sec)。

preheat_kernel_page_cache

(默认false) 启用或禁用内核页面缓存预热压缩后的key缓存。当启用的时候会预热第一个页面(4K)用于由每个数据行的顺序访问。对于大的数据行通常是有危害的。

file_cache_size_in_mb

(小于1/4堆内存或512)用于SSTable读取的缓存内存大小。

memtable_flush_queue_size

(默认4)等待刷新的满的memtable的数量(等待写线程的memtable)。最小是设置一个table上索引的最大数量。

memtable_flush_writers

(默认每数据目录一个)设置用于刷新memtable的线程数量。这些线程是磁盘I/O阻塞的,每个线程在阻塞的情况下都保持了memtable。如果有大的堆内存和很多数据目录,可以增加该值提升刷新性能。

column_index_size_in_kb

(默认64)当数据到达这个值的时候添加列索引到行上。这个值定义了多少数据行必须被反序列化来读取列。如果列的值很大或有很多列,那么就需要增加这个值。

populate_io_cache_on_flush

(默认false)添加新刷新或压缩的SSTable到操作系统的页面缓存。

reduce_cache_capacity_to

(默认0.6)设置由reduce_cache_sizes_at定义的Java对内存达到限制时的最大缓存容量百分比。

reduce_cache_sizes_at

(默认0.85)当Java对内存使用率达到这个百分比,Cassandra减少通过reduce_cache_capacity_to定义的缓存容量。禁用请使用1.0。

stream_throughput_outbound_megabits_per_sec

(默认200)限制所有外出的流文件吞吐量。Cassandra在启动或修复时使用很多顺序I/O来流化数据,这些可以导致网络饱和以及降低RPC的性能。

trickle_fsync

(默认false)当使用顺序写的时候,启用该选项就告诉fsync强制操作系统在trickle_fsync_interval_in_kb设定的间隔刷新脏缓存。建议在SSD启用。

trickle_fsync_interval_in_kb

(默认10240)设置fsync的大小

四、Cassandra的基本概念

本章介绍Cassandra的基本入门概念

4.1 数据模型

Cassandra的数据模型与常见的关系型数据库的数据模型有很大的不同

4.1 .1 列(Column)

列是Cassandra的基本数据结构单元,具有三个值:名称,值、时间戳

java:Cassandra入门与实战——上_数据库_26

 

在Cassandra中不需要预先定义列(Column),只需要在KeySpace里定义列族,然后就可以开始写数据了。

4.1.2 列族( Column Family)未完成

列族相当于关系数据库的表(Table),是包含了多行(Row)的容器。

ColumnFamily的结构举例,如图:

java:Cassandra入门与实战——上_java_27

 

可以理解为Java结构 Map>,如图:

java:Cassandra入门与实战——上_分布式_28

 

1)ColumnFamily 的2种类型

  • 静态column family(static column family)

静态的column family,字段名是固定的,比较适合对于这些column都有预定义的元数据

  • 动态column family(dynamic column family)

动态的column family,字段名是应用程序计算出来并且提供的,所以column family只能定义这些字段的类型,无法不可以指定这些字段的名字和值,这些名字和值是由应用程序插入某字段才得出的。

2)Row key

ColumnFamily 中的每一行都用Row Key(行键)来标识,这个相当于关系数据库表中的主键,并且总是被索引的。

3)主键

Cassandra可以使用PRIMARY KEY 关键字创建主键,主键分为2种

  • Single column Primary Key

如果 Primary Key 由一列组成,那么称为 Single column Primary Key

  • Composite Primary Key

如果 Primary Key 由多列组成,那么这种情况称为 Compound Primary Key 或 Composite Primary Key

列族具有以下属性 -

  • keys_cached - 它表示每个SSTable保持缓存的位置数。
  • rows_cached - 它表示其整个内容将在内存中缓存的行数。
  • preload_row_cache -它指定是否要预先填充行缓存。

4.1.3 建空间 (KeySpace)

Cassandra的键空间(KeySpace)相当于数据库,我们创建一个键空间就是创建了一个数据库。

键空间包含一个或多个列族(Column Family)

注意:一般将有关联的数据放到同一个 KeySpace 下面

建空间 (KeySpace) 创建的时候可以指定一些属性:副本因子,副本策略,Durable_writes(是否启用 CommitLog 机制)

副本因子(Replication Factor)

副本因子决定数据有几份副本。例如:

副本因子为1表示每一行只有一个副,。副本因子为2表示每一行有两个副本,每个副本位于不同的节点上。在实际应用中为了避免单点故障,会配置为3以上。

注意:所有的副本都同样重要,没有主从之分。可以为每个数据中心定义副本因子。副本策略设置应大于1,但是不能超过集群中的节点数。

副本放置策略 (Replica placement strategy)

描述的是副本放在集群中的策略

目前有2种策略,内容如下:

java:Cassandra入门与实战——上_java_29

 

Durable_writes

否对当前KeySpace的更新使用commitlog,默认为true

4.1.4 副本 (Replication)

副本就是把数据存储到多个节点,来提高容错性

4.1.5 节点(Node)

存储数据的机器

4.1.6 数据中心(DateCenter)

4.1.7 集群(Cluster)

Cassandra数据库是为跨越多条主机共同工作,对用户呈现为一个整体的分布式系统设计的。Cassandra最外层容器被称为群集。Cassandra将集群中的节点组织成一个环(ring),然后把数据分配到集群中的节点(Node)上。

4.1.8 超级列

超级列是一个特殊列,因此,它也是一个键值对。但是超级列存储了子列的地图。

通常列族被存储在磁盘上的单个文件中。因此,为了优化性能,重要的是保持您可能在同一列族中一起查询的列,并且超级列在此可以有所帮助。下面是超级列的结构。

4.2 数据类型

CQL提供了一组丰富的内置数据类型,用户还可以创建自己的自定义数据类型。 CQL是Cassandra提供的一套查询语言

4.2.1 数值类型

java:Cassandra入门与实战——上_大数据_30

 

4.2.2 文本类型

CQL提供2种类型存放文本类型,text和varchar基本一致

java:Cassandra入门与实战——上_大数据_31

 

4.2.3 时间类型

java:Cassandra入门与实战——上_数据库_32

 

4.2.4 标识符类型

java:Cassandra入门与实战——上_hadoop_33

 

4.2.5 集合类型

1)set

集合数据类型,set 里面的元素存储是无序的。

set 里面可以存储前面介绍的数据类型,也可以是用户自定义数据类型,甚至是其他集合类型。

2)list

list 包含了有序的列表数据,默认情况下,数据是按照插入顺序保存的。

3)map

map 数据类型包含了 key/value 键值对。key 和 value 可以是任何类型,除了 counter 类型

使用集合类型要注意: 1、集合的每一项最大是64K。 2、保持集合内的数据不要太大,免得Cassandra 查询延时过长,Cassandra 查询时会读出整个集合内的数据,集合在内部不会进行分页,集合的目的是存储小量数据。 3、不要向集合插入大于64K的数据,否则只有查询到前64K数据,其它部分会丢失。

4.2.6 其他基本类型

java:Cassandra入门与实战——上_分布式_34

 

4.2.7 用户自定义类型

如果内置的数据类型无法满足需求,可以使用自定义数据类型。

4.3 CQL Shell 客户端

CQL Shell 简称cqlsh,是一个可以和Cassandra数据库通信的客户端,使用这个cqlsh客户端可以执行Cassandra查询语言(CQL)。

4.3.1 启动cqlsh

1)Windows启用

新打开CMD窗口,进入Cassandra的bin目录,输入

D:\coding-software\apache-cassandra-3.9\bin>cqlsh.bat 192.168.137.1 9042

回车,看到如图所示,说明已经连接到服务器

java:Cassandra入门与实战——上_分布式_35

 

2)CentOS启用

进入cassandra安装目录下的 bin 目录,执行 cqlsh 命令

[root@localhost apache-cassandra-3.9]# ./bin/cqlsh 192.168.137.131 9042

执行命令后效果

java:Cassandra入门与实战——上_分布式_36

 

4.3.2 启动说明

上面的操作在启动cqlsh的时候并没有指定需要连接的节点以及端口,默认 cqlsh 会自动探测本机及端口。上面的操作时已经启动了 Cassandra 服务并绑定相关端口,注:【 端口列表】,cqlsh默认就会连接本机的9042端口。

从上面的命令可以看出 cqlsh 连接到名为 Test Cluster 的集群,这个名字是默认值,可以自定义,配置在 conf/cassandra.yaml 文件的 cluster_name 参数,注:【yaml全内容】

另外,也可以在启动 cqlsh 的时候指定节点和端口,效果和不指定一样:

[root@localhost apache-cassandra-3.9]# ./bin/cqlsh localhost 9042

4.3.3 cqlsh的基本命令

命令列表

java:Cassandra入门与实战——上_大数据_37

 

1)help 帮助

输入命令,可以查看cqlsh 支持的命令

cqlsh> help

显示效果:

java:Cassandra入门与实战——上_java_38

 

3)DESCRIBE

此命令配合 一些内容可以输入信息

Describe cluster 提供有关集群的信息

输入命令

cqlsh> Describe cluster;

效果

java:Cassandra入门与实战——上_数据库_39

 

Describe Keyspaces 列出集群中的所有Keyspaces(键空间)

输入命令

cqlsh> Describe Keyspaces;

效果,显示当前Cassandra里的所有键空间

java:Cassandra入门与实战——上_java_40

 

Describe tables 列出键空间的所有表

输入命令

cqlsh> Describe tables;

效果,当前没有创建任何的键空间,这里显示的默认内置的表

java:Cassandra入门与实战——上_分布式_41

 

Describe tables 列出键空间内指定表的信息

先指定键空间 ,这里使用 system_traces

cqlsh> USE system_traces ;

列出system_traces 下的 sessions信息

cqlsh:system_traces> DESCRIBE sessions;

效果

java:Cassandra入门与实战——上_hadoop_42

 

Capture 捕获命令输出到文件

此命令捕获命令的输出并将其添加到文件。

输入命令,将输出内容捕获到名为outputfile的文件

CAPTURE '/usr/local/apache-cassandra-3.11.6/outputfile'

执行效果

java:Cassandra入门与实战——上_java_43

 

执行一个查询,控制台可以看到输出。

然后去看outputfile文件,会发现把刚才查询的

show 显示当前cqlsh会话的详细信息

show命令后可以跟3个内容 ,分别是 HOST 、SESSION 、VERSION 输入SHOW ,点击2次TAB 按键,可以看到3个内容提示

代码:

cqlsh:system_traces> SHOW

输入SHOW HOST,显示当前cqlsh 连接的Cassandra服务的ip和端口

cqlsh:system_traces> SHOW HOST

输入 SHOW VERSION 显示当前的版本

cqlsh:system_traces> SHOW VERSION

出入SHOW SESSION 显示会话信息,需要参数uuid

cqlsh:system_traces> SHOW SESSION <uuid>

显示效果

java:Cassandra入门与实战——上_hadoop_44

 

Exit 用于终止cql shell

4.4 CQL-Cassandra查询语言

CQL:Cassandra Query Language 和关系型数据库的 SQL 很类似(一些关键词相似),可以使用CQL和 Cassandra 进行交互,实现 定义数据结构,插入数据,执行查询。

注意:CQL 和 SQL 是相互独立,没有任何关系的。CQL 缺少 SQL 的一些关键功能,比如 JOIN 等。

4.4.1 数据定义命令

java:Cassandra入门与实战——上_数据库_45

 

4.4.2 数据操作指令

java:Cassandra入门与实战——上_hadoop_46

 

4.4.3 查询指令

java:Cassandra入门与实战——上_数据库_47

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: Java