Redis学习【1】之Nosql概述
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
文章目录
一 从技术发展探究使用Nosql的原因
1.1 单机Mysql时代
- mysql代指服务器
- 早期一个网站的访问量一般不大用单个数据库解决
- 静态网页居多动态交互类型的网站不多
- 整个网站的瓶颈/数据存储的瓶颈
- 数据量的过多一个机器无法存储
- 数据的索引B+ Tree过多一个机器的内存放不下
- 访问量读写混合一个实例不能承受
1.2 Memcached缓存+ MySQL + 垂直拆分[读写分离]
- mysql代指服务器
- 由于网站读的操作比较多为减轻数据的压力可以使用缓存保证效率
- 发展过程
- 优化数据结构和索引
- 文件缓存IO
- Memcached
1.3 MySQL主从读写分离
- 由于数据库的写入压力增加Memcached只能缓解数据库的读取压力读写集中在一个数据库上让数据库不堪重负。
- 大部分网站开始使用主从复制技术来达到读写分离以提高读写性能和读库的可扩展性MySQL的master-slave模式成为这个时候的网站标配。
1.4 分表分库 + 水平拆分 + Mysql 集群
- 在Memcached的高速缓存MySQL的主从复制读写分离的基础之上这时MySQL主库的写压力开始出现瓶颈而数据量的持续猛增由于MyISAM使用表锁在高并发下会出现严重的锁问题大量的高并发MySQL应用开始使用InnoDB引擎代替MyISAM。
- MyISAM表锁
- InnoDB行锁
- MySQL虽然推出了还不太稳定的表分区这也给一般的公司带来了希望。
- MySQL推出了MySQL Cluster集群但性能也不能很好满足互联网的需求只是在高可靠性上提供了非常大的保证。
1.5 如今时代
- MySQL 的扩展性瓶颈
- MySQL数据库也经常存储一些大文本的字段导致数据库表非常的大在做数据库恢复的时候就导致非常的慢不容易快速恢复数据库。
- 如果能把这些数据从MySQL省去MySQL将变的非常的小关系数据库很强大但是它并不能很好的应付所有的应用场景MySQL的扩展性差需要复杂的技术来实现大数据下IO压力大表结构更改困难。
1.6 使用NoSQL的原因
- 今天可以通过第三方平台如GoogleFaceBook等可以很容易的访问和抓取数据【用户的个人信息社交网络地理位置】
- 用户生成的数据和用户操作日志已经成倍的增加、如果要对这些用户数据进行挖掘SQL数据库已经不适合而NoSQL数据库的发展却能很好的处理这些大的数据。
二 Nosql初识
- NoSQL = Not Only SQL【不仅仅是SQL】
- NoSQL泛指非关系型的数据库
- NoSQL数据库的产生就是为了解决大规模数据集合多种数据种类带来的挑战尤其是大数据应用难题包括超大规模数据的存储。例如谷歌或Facebook每天为他们的用户收集万亿比特的数据。这些类型的数据存储不需要固定的模式无需多余操作就可以横向扩展。
2.1 NoSQL的特点【解耦】
- 方便拓展
- 去掉关系数据库的关系型特性数据之间没有关系很好拓展
- 大数据量高性能
- NoSQL数据库都具有非常高的读写性能。得益于它的非关系性数据库的结构简单
- NoSQL是一种细粒度的缓存性能会比较高
- 数据模型多样
- NoSQL无需事先为要存储的数据建立字段随时可以存储自定义的数据格式而在关系数据库里增删字段是一件非常麻烦的事情。
- 传统的RDBMS VS NoSQL
- 传统的关系型数据库 RDBMS
- 高度组织化结构化数据
- 结构化查询语言SQL
- 数据和关系都存储在单独的表中
- 数据操纵语言数据定义语言
- 严格的一致性
- 基础事务
- NoSQL
- 代表着不仅仅是SQL
- 没有声明性查询语言
- 没有预定义的模式
- 键值对存储列存储文档存储图形数据库
- 最终一致性而非ACID属性
- 非结构化和不可预知的数据
- CAP定理和BASE异地多活
- 高性能高可用性 和 可伸缩性
- 传统的关系型数据库 RDBMS
- 拓展:3V+3高
- 大数据时代的3V [对问题的描述]
- 海量 Volume
- 多样 Variety
- 实时 Velocity
- 互联网需求的3高 [对程序的要求]
- 高并发
- 高可用
- 高性能
- 技术没有高低之分Mysql和Nosql
三 NoSQL的四大分类
- KV键值
- 文档型数据库
- MongoDB
- 一个基于分布式文件存储的数据库。由 C++ 语言编写主要处理大量文档
- 一个介于关系数据库和非关系数据库之间的产品
- 是非关系数据库当中功能最丰富最像关系数据库的。
- MongoDB
- 列存储数据库
- HBase
- 分布式文件系统
- 图关系数据库
- 存放的是关系
- Neo4J, InfoGrid
四 CAP + BASE
- 关系型数据库遵循ACID规则事务在英文中是transaction
4.1 ACID特性
- A (Atomicity) 原子性
- 事务里的所有操作要么全部做完要么都不做事务成功的条件是事务里的所有操作都成功只要有一个操作失败整个事务就失败需要回滚
- 比如转账业务转账双方的余额必须都进行正确的改变否则不改变余额
- C (Consistency) 一致性
- 事务前后数据的完整性必须保持一致
- I (Isolation) 隔离性
- 并发的事务之间不会互相影响如果一个事务要访问的数据正在被另外一个事务修改只要另外一个事务未提交它所访问的数据就不受未提交事务的影响
- A账户转100元至B账户在这个交易还未完成的情况下如果此时B查询自己的账户是看不到新增加的100元的
- D (Durability) 持久性
- 一旦事务提交后它所做的修改将会永久的保存在数据库上即使出现宕机也不会丢失
4.2 CAP三进二
- C : Consistency强一致性
- A : Availability可用性
- P : Partition tolerance分区容错性
- CAP理论就是说在分布式存储系统中最多只能实现上面的两点
- 由于当前的网络硬件肯定会出现延迟丢包等问题所以分区容错性是我们必须需要实现的所以我们只能在一致性和可用性之间进行权衡没有NoSQL系统能同时保证这三点。
- 注意分布式架构的时候必须做出取舍
- 一致性和可用性之间取一个平衡。多余大多数web应用其实并不需要强一致性。
因此牺牲C换取P这是目前分布式数据库产品的方向
- 一致性与可用性的决择
- 对于web2.0网站来说关系数据库的很多主要特性却往往无用武之地
- 数据库事务一致性需求
- 很多web实时系统并不要求严格的数据库事务对读一致性的要求很低 有些场合对写一致性要求并不高。允许实现最终一致性。
- 数据库的写实时性和读实时性需求
- 对关系数据库来说插入一条数据之后立刻查询是肯定可以读出来这条数据的但是对于很多web应用来说并不要求这么高的实时性比方说发一条消息之 后过几秒乃至十几秒之后我的订阅者才看到这条动态是完全可以接受的。
- 对复杂的SQL查询特别是多表关联查询的需求
- 任何大数据量的web系统都非常忌讳多个大表的关联查询以及复杂的数据分析类型的报表查询特别是SNS类型的网站从需求以及产品设计角度就避免了这种情况的产生。往往更多的只是单表的主键查询以及单表的简单条件分页查询SQL的功能被极大的弱化了。
- CAP理论的核心
- 一个分布式系统不可能同时很好的满足一致性可用性和分区容错性这三个需求最多只能同时较好的满足两个。因此根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP原则和满足 AP 原则三 大类
- CA - 单点集群满足一致性可用性的系统通常在可扩展性上不太强大。
- CP - 满足一致性分区容忍必的系统通常性能不是特别高。
- AP - 满足可用性分区容忍性的系统通常可能对一致性要求低一些
- 一个分布式系统不可能同时很好的满足一致性可用性和分区容错性这三个需求最多只能同时较好的满足两个。因此根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP原则和满足 AP 原则三 大类
4.3 BASE 理论
- BASE理论是由eBay架构师提出的。BASE是对CAP中一致性和可用性权衡的结果其来源于对大规模互联网分布式系统实践的总结是基于CAP定律逐步演化而来。其核心思想是即使无法做到强一致性但每个应用都可以根据自身业务特点采用适当的方式来使系统达到最终一致性。
- BASE就是为了解决关系数据库强一致性引起的问题而引起的可用性降低而提出的解决方案。
- BASE详解
- 基本可用(Basically Available)
- 基本可用是指分布式系统在出现故障的时候允许损失部分可用性即保证核心可用。
- 电商大促时为了应对访问量激增部分用户可能会被引导到降级页面服务层也可能只提供降级服务。这就是损失部分可用性的体现。
- 软状态(Soft State)
- 软状态是指允许系统存在中间状态而该中间状态不会影响系统整体可用性。
- 分布式存储中一般一份数据至少会有三个副本允许不同节点间副本同步的延时就是软状态的体现。MySQL Replication 的异步复制也是一种体现。
- 最终一致性(Eventual Consistency)
- 最终一致性是指系统中的所有数据副本经过一定时间后最终能够达到一致的状态。弱一致性和强一致性相反最终一致性是弱一致性的一种特殊情况。
- 基本可用(Basically Available)
- 它的思想是通过让系统放松对某一时刻数据一致性的要求来换取系统整体伸缩性和性能上改观。这么说的原因就在于大型系统往往由于地域分布和极高性能的要求不可能采用分布式事务来完成这些指标要想获得这些指标我们必须采用另外一种方式来完成这里BASE就是解决这个问题的办法。
- 解释
- 分布式不同的多台服务器上面部署不同的服务模块工程他们之间通过Rpc通信和调用对外提供服务和组内协作。
- 集群不同的多台服务器上面部署相同的服务模块通过分布式调度软件进行统一的调度对外提供服务和访问。