MONGODB  磁盘与内存的数据格式是否一致_缓存

最近MONGODB 系统中的数据量逐渐变大,联系了开发准备开始进行数据的archive 和  cleanup 事宜。其中运维的同学问我,你存储的数据size 和实际的数据 size 是不一样的,我回答那是mongodb 自带的数据压缩功能。

但后续的问题我模糊了,例如磁盘和内存的数据是否完全一致,压缩的比率是多少,等等。人无完人,我也不是DB 百科全书。不过好在还不是中年油腻大叔,模糊了那就learning 去。

那就直奔主题wiredTiger , wiredTiger 作为MONGODB 的主力存储引擎(3.0以后,当然还有PERCONA 但目前不主流)。

首先我们看看wiredTiger 到底是怎么存储数据的,本身wiredTiger 存储数据的方式有两种, 行模式 和 列模式。而这两种方式都是使用 B+ TREE的方式来进行数据的存储的。

在行模式中,KEY 与 Values 都是 strings 可变的,而如果采用列的方式,key是通过 64BIT的方式记录 Values 和行模式一样。所以行与列的模式中不同的是 key 的存储方式。

这两种存储方式各有优点和缺点

行的方式提取整行数据快,但需要的存储空间大,并且如果某些方面设计不好,消耗的I/O 无论从性能还是尺寸上都比较大。

列式存储则适合提取所需的字段(意思就是最好别一次提取较多的字段,否则没优势),并且存储的值被限制在 8-BITS 这限制值的大小。相关的mongodb的并发控制主要在 transactions , snapshots 和  cache几个位置

MONGODB  磁盘与内存的数据格式是否一致_数据_02

MONGODB中 基本行采用了行模式的方式进行数据的存储,而数据存储中就会牵扯到 mongodb  中的数据压缩

目前行的存储方面支持四种压缩方式

1 键值前缀压缩

2 字段压缩

3 霍夫曼数据编码压缩

4 块压缩

具体四种压缩方式,默认采用的是键值前缀压缩的方式。这主要是根据CPU 磁盘的消耗,压缩,以及算法的复杂度等因素考虑。

首先要确认的是,磁盘存储的数据与在内存中的数据一定是不一样的,要不怎么还有压缩一说。

1

文件系统缓存中的数据与磁盘上的格式相同,包括对数据文件进行任何压缩,MONGODB使用文件系统缓存来减少磁盘I/O。

2

WiredTiger内部缓存中加载的索引具有与磁盘格式不同的数据表示形式,但是仍然可以利用索引前缀压缩来减少RAM的使用。索引前缀压缩从索引字段中去除常见前缀。

3

WiredTiger内部缓存中的收集数据是未压缩的,并且使用与磁盘格式不同的表示形式。

关于压缩比率的问题,其实没有一个具体的固定的比率这和存储的数据是有关的,下面有一个图,这是 percona 的一个 PPT 中曾经提到的压缩的比率还是比较高的

MONGODB  磁盘与内存的数据格式是否一致_数据_03

所以在设计MONGODB 的时候,不能因为MONGODB 自带压缩功能 snappy,就可以随意的存储数据尤其是KEY 设计的不应该太长。因为在怎样你的数据在内存中是要打回原形的。

当然,面对mongodb 的 过期数据的  archive 还可以找一期来说说

MONGODB  磁盘与内存的数据格式是否一致_数据_04

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: go