热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

redis学习sds字符串

redis学习-sds字符串Redis设计与实现:如果想要知道redis底层,这本书可以给予不少的帮助,非常推荐每一位学习redis的同学去翻一翻。sds字符串建议多看看源代码的实


redis学习 - sds字符串


Redis 设计与实现 :如果想要知道redis底层,这本书可以给予不少的帮助,非常推荐每一位学习redis的同学去翻一翻。


sds字符串建议多看看源代码的实现,这篇文章基本是个人看了好几篇文章之后的笔记。


源代码文件分别是: sds.csds.h


redis的string API使用


首先看下API的简单应用,设置str1变量为helloworld,然后我们使用 debug object +变量名 的方式看下,注意编码为 embstr


127.0.0.1:17100> set str1 helloworld
-> Redirected to slot [5416] located at 127.0.0.1:17300
OK
127.0.0.1:17300> debug object str1
Value at:0x7f2821c0e340 refcount:1 encoding:embstr serializedlength:11 lru:14294151 lru_seconds_idle:8

如果我们将str2设置为 helloworldhelloworldhelloworldhelloworldhell ,字符长度为44,再使用下 debug object+变量名 的方式看下,注意编码为 embstr


127.0.0.1:17300> set str2 helloworldhelloworldhelloworldhelloworldhell
-> Redirected to slot [9547] located at 127.0.0.1:17100
OK
127.0.0.1:17100> get str2
"helloworldhelloworldhelloworldhelloworldhell"
127.0.0.1:17100> debug object str2
Value at:0x7fd75e422c80 refcount:1 encoding:embstr serializedlength:21 lru:14294260 lru_seconds_idle:6

但是当我们把设置为 helloworldhelloworldhelloworldhelloworldhello ,字符长度为45,再使用 debug object+变量名 的方式看下,注意编码改变了,变为 raw


127.0.0.1:17100> set str2 helloworldhelloworldhelloworldhelloworldhello
OK
127.0.0.1:17100> debug object str2
Value at:0x7fd75e430c60 refcount:1 encoding:raw serializedlength:21 lru:14294358 lru_seconds_idle:9

最后我们将其设置为整数100,再使用 debug object+变量名 的方式看下,编码的格式变为了int。


127.0.0.1:17100> set str2 11
OK
127.0.0.1:17100> get str2
"11"
127.0.0.1:17100> debug object str2
Value at:0x7fd75e44d370 refcount:2147483647 encoding:int serializedlength:2 lru:14294440 lru_seconds_idle:9

所以Redis的string类型一共有三种存储方式:



  1. 当字符串长度小于等于44,底层采用 embstr

  2. 当字符串长度大于44,底层采用 raw

  3. 当设置是 整数 ,底层则采用 int


至于这三者有什么区别,可以直接看书:


http://redisbook.com/preview/...


为什么redis string 要使用sds字符串?



  1. O(1)获取长度 ,c语言的字符串本身不记录长度,而是通过末尾的 \0 作为结束标志,而sds本身记录了字符串的长度所以获取直接变为O(1)的时间复杂度、同时,长度的维护操作由sds的本身api实现

  2. 防止缓冲区溢出bufferoverflow :由于c不记录字符串长度,相邻字符串容易发生缓存溢出。sds在进行添加之前会检查长度是否足够,并且不足够会自动根据api扩容

  3. 减少字符串修改的内存分配次数 :使用动态扩容的机制,根据字符串的大小选择合适的header类型存储并且根据实际情况动态扩展。

  4. 使用 空间预分配和惰性空间释放 ,其实就是在扩容的时候,根据大小额外扩容2倍或者1M的空间,方面字符串修改的时候进行伸缩

  5. 使用 二进制保护 ,数据的读写不受特殊的限制,写入的时候什么样读取就是什么样

  6. 支持 兼容部分 的c字符串函数,可以减少部分API的开发


SDS字符串和C语言字符串库有什么区别


摘自黄健宏大神的一张表































C 字符串 SDS
获取字符串长度的复杂度为 O(N) 。 获取字符串长度的复杂度为 O(1) 。
API 是不安全的,可能会造成缓冲区溢出。 API 是安全的,不会造成缓冲区溢出。
修改字符串长度 N 次必然需要执行 N 次内存重分配。 修改字符串长度 N 次最多需要执行 N 次内存重分配。
只能保存文本数据。 可以保存文本或者二进制数据。
可以使用所有 库中的函数。 可以使用一部分 库中的函数。

redis的sds是如何实现的


由于c语言的string是以 \0 结尾的Redis单独封装了SDS简单动态字符串结构,如果在字符串变量十分多的情况下,会浪费十分多的内存空间,同时为了减少malloc操作,redis封装了自己的sds字符串。


下面是网上查找的一个sds字符串实现的数据结构设计图:



s1,s2分别指向真实数据区域的头部,而要确定一个sds字符串的类型,则需要通过 s[-1] 来获取对应的flags,根据flags辨别出对应的Header类型,获取到Header类型之后,根据最低三位获取header的类型(这也是使用 __attribute__ ((__packed__)) 关键字的原因下文会说明):



  • 由于s1[-1] == 0x01 == SDS_TYPE_8,因此s1的header类型是sdshdr8。

  • 由于s2[-1] == 0x02 == SDS_TYPE_16,因此s2的header类型是sdshdr16。


下面的部分是sds的实现源代码:


sds一共有5种类型的header。之所以有5种,是为了能让不同长度的字符串可以使用不同大小的header。这样,短字符串就能使用较小的header,从而节省内存。


typedef char *sds;

// 这个比较特殊,基本上用不到
struct __attribute__ ((__packed__)) sdshdr5 {
usigned char flags;
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr8 {
uint8_t len;
uint8_t alloc;
unsigned char flags;
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr16 {
uint16_t len;
uint16_t alloc;
unsigned char flags;
char buf[];
};
//string_size <1ll<<32
struct __attribute__ ((__packed__)) sdshdr32 {
uint32_t len;
uint32_t alloc;
unsigned char flags;
char buf[];
};
//string_size <1ll<<32
struct __attribute__ ((__packed__)) sdshdr64 {
uint64_t len;
uint64_t alloc;
unsigned char flags;
char buf[];
};
// 定义了五种header类型,用于表示不同长度的string
#define SDS_TYPE_5 0
#define SDS_TYPE_8 1
#define SDS_TYPE_16 2
#define SDS_TYPE_32 3
#define SDS_TYPE_64 4
#define SDS_TYPE_MASK 7 // 类型掩码
#define SDS_TYPE_BITS 3 //
#define SDS_HDR_VAR(T,s) struct sdshdr##T *sh = (void*)((s)-(sizeof(struct sdshdr##T))); // 获取header头指针
#define SDS_HDR(T,s) ((struct sdshdr##T *)((s)-(sizeof(struct sdshdr##T)))) // 获取header头指针
#define SDS_TYPE_5_LEN(f) ((f)>>SDS_TYPE_BITS)

上面的代码需要注意以下两个点:



  • __attribute__ ((__packed__)) 这是C语言的一种关键字,这将使这个结构体在内存中不再遵守字符串对齐规则,而是以内存紧凑的方式排列。目的时在指针寻址的时候,可以直接通过sds[-1]找到对应flags,有了flags就可以知道头部的类型,进而获取到对应的len,alloc信息,而不使用内存对齐,CPU寻址就会变慢,同时如果不对齐会造成CPU进行优化导致空白位不补0使得header和data不连续,最终无法通过flags获取低3位的header类型。

  • SDS_HDR_VAR 函数则通过结构体类型与字符串开始字节,获取到动态字符串头部的开始位置,并赋值给sh指针。 SDS_HDR 函数则通过类型与字符串开始字节,返回动态字符串头部的指针。

  • 在各个header的定义中最后有一个char buf[]。我们注意到这是一个没有指明长度的字符数组,这是C语言中定义字符数组的一种特殊写法,称为柔性数组( flexible array member ),只能定义在一个结构体的最后一个字段上。它在这里只是起到一个标记的作用,表示在flags字段后面就是一个字符数组,或者说,它指明了紧跟在flags字段后面的这个字符数组在结构体中的偏移位置。而程序在为header分配的内存的时候,它并不占用内存空间。如果计算sizeof(struct sdshdr16)的值,那么结果是5个字节,其中没有buf字段。



关于柔性数组的介绍:

深入浅出C语言中的柔性数组




  • sdshdr5 与其它几个header结构不同,它不包含alloc字段,而长度使用flags的 高5位 来存储。因此,它不能为字符串分配空余空间。如果字符串需要动态增长,那么它就必然要重新分配内存才行。所以说,这种类型的sds字符串更适合存储静态的短字符串(长度小于32)。


同时根据上面的结构可以看到,SDS结构分为两个部分:



  • len、alloc、flags。只是 sdshdr5 有所不同,



    • len: 表示字符串的真正长度(不包含NULL结束符在内)。

    • alloc: 表示字符串的最大容量(不包含最后多余的那个字节)。

    • flags: 总是占用一个字节。其中的最低3个bit用来表示header的类型。header的类型共有5种,在sds.h中有常量定义。



#define SDS_TYPE_5 0
#define SDS_TYPE_8 1
#define SDS_TYPE_16 2
#define SDS_TYPE_32 3
#define SDS_TYPE_64 4


  • buf[] :柔性数组,之前有提到过,其实就是具体的数据存储区域,注意这里实际存储的数据的时候末尾存在 NULL


小贴士:


\#define SDS_HDR(T,s) ((struct sdshdr##T *)((s)-(sizeof(struct sdshdr##T))))


\#号有什么作用?


这个的含义是让"#"后面的变量按照 普通字符串 来处理


双\#又有什么用处呢?


双“#”号可以理解为,在单“#”号的基础上,增加了连接功能


sds的创建和销毁


sds sdsnewlen(const void *init, size_t initlen) {
void *sh;
sds s;

char type = sdsReqType(initlen);
/* Empty strings are usually created in order to append. Use type 8
* since type 5 is not good at this. */
if (type == SDS_TYPE_5 && initlen == 0) type = SDS_TYPE_8;
int hdrlen = sdsHdrSize(type);
unsigned char *fp; /* flags pointer. */
sh = s_malloc(hdrlen+initlen+1);
if (!init)
memset(sh, 0, hdrlen+initlen+1);
if (sh == NULL) return NULL;
s = (char*)sh+hdrlen;
fp = ((unsigned char*)s)-1;
switch(type) {
case SDS_TYPE_5: {
*fp = type | (initlen < break;
}
case SDS_TYPE_8: {
SDS_HDR_VAR(8,s);
sh->len = initlen;
sh->alloc = initlen;
*fp = type;
break;
}
case SDS_TYPE_16: {
SDS_HDR_VAR(16,s);
sh->len = initlen;
sh->alloc = initlen;
*fp = type;
break;
}
case SDS_TYPE_32: {
SDS_HDR_VAR(32,s);
sh->len = initlen;
sh->alloc = initlen;
*fp = type;
break;
}
case SDS_TYPE_64: {
SDS_HDR_VAR(64,s);
sh->len = initlen;
sh->alloc = initlen;
*fp = type;
break;
}
}
if (initlen && init)
memcpy(s, init, initlen);
s[initlen] = '\0';
return s;
}
sds sdsempty(void) {
return sdsnewlen("",0);
}
sds sdsnew(const char *init) {
// 如果initlen 为NULL,使用0作为初始化数据
size_t initlen = (init == NULL) ? 0 : strlen(init);
return sdsnewlen(init, initlen);
}
void sdsfree(sds s) {
if (s == NULL) return;
s_free((char*)s-sdsHdrSize(s[-1]));
}

上面的源代码需要注意如下几个点:



  1. SDS_TYPE_5 由于设计之初按照常量对待,实际情况大多数为append操作扩容,而 SDS_TYPE_5 扩容会造成内存的分配,所以使用 SDS_TYPE_8 进行判定

  2. SDS字符串的长度为: hdrlen+initlen+1 -> sds_header 的长度 + 初始化长度 + 1 (末尾占位符 NULL 判定字符串结尾)

  3. s[initlen] = '\0'; 字符串末尾会使用 \0 进行结束标志:代表为 NULL

  4. sdsfree释放sds字符串需要计算出Header的起始位置,具体为 s_malloc 指针所指向的位置


知道了sds如何创建之后,我们可以了解一下里面调用的具体函数。比如 sdsReqTypesdsReqType 方法定义了获取类型的方法,首先根据操作系统的位数根据判别 LLONG_MAX 是否等于 LONG_MAX ,根据机器确定为32位的情况下分配sds32,同时在64位的操作系统上根据判断小于2^32分配sds32,否则分配sds64。


这里值得注意的是: string_size <1ll<<32 这段代码在 redis3.2 中才进行了bug修复,在早期版本当中这里存在分配类型的 Bug


commit


static inline char sdsReqType(size_t string_size) {
if (string_size <1<<5)
return SDS_TYPE_5;
if (string_size <1<<8)
return SDS_TYPE_8;
if (string_size <1<<16)
return SDS_TYPE_16;
// 在一些稍微久远一点的文章上面没有这一串代码 #
#if (LONG_MAX == LLONG_MAX)
if (string_size <1ll<<32)
return SDS_TYPE_32;
return SDS_TYPE_64;
#else
return SDS_TYPE_32;
#endif
}

再来看下 sdslen 方法, s[-1] 用于向低位地址偏移一个字节,和 SDS_TYPE_MASK 按位与的操作,获得Header类型,


static inline size_t sdslen(const sds s) {
unsigned char flags = s[-1];
// SDS_TYPE_MASK == 7
switch(flags&SDS_TYPE_MASK) {
case SDS_TYPE_5:
return SDS_TYPE_5_LEN(flags);
case SDS_TYPE_8:
return SDS_HDR(8,s)->len;
case SDS_TYPE_16:
return SDS_HDR(16,s)->len;
case SDS_TYPE_32:
return SDS_HDR(32,s)->len;
case SDS_TYPE_64:
return SDS_HDR(64,s)->len;
}
return 0;
}

sds的连接(追加)操作


/* Append the specified binary-safe string pointed by 't' of 'len' bytes to the
* end of the specified sds string 's'.
*
* After the call, the passed sds string is no longer valid and all the
* references must be substituted with the new pointer returned by the call. */
sds sdscatlen(sds s, const void *t, size_t len) {
size_t curlen = sdslen(s);
s = sdsMakeRoomFor(s,len);
if (s == NULL) return NULL;
memcpy(s+curlen, t, len);
sdssetlen(s, curlen+len);
// 注意末尾需要设置占位符\0代表结束标志
s[curlen+len] = '\0';
return s;
}
sds sdscat(sds s, const char *t) {
return sdscatlen(s, t, strlen(t));
}
sds sdscatsds(sds s, const sds t) {
return sdscatlen(s, t, sdslen(t));
}
// sds实现的一个核心代码,用于判别是否可以追加以及是否有足够的空间
sds sdsMakeRoomFor(sds s, size_t addlen) {
void *sh, *newsh;
size_t avail = sdsavail(s);
size_t len, newlen;
char type, oldtype = s[-1] & SDS_TYPE_MASK;
int hdrlen;
/* Return ASAP if there is enough space left. */
// 如果原来的空间大于增加后的空间,直接返回
if (avail >= addlen) return s;
len = sdslen(s);
sh = (char*)s-sdsHdrSize(oldtype);
newlen = (len+addlen);
// 如果小于 1M,则分配他的两倍大小,否则分配 +1M
if (newlen newlen *= 2;
else
newlen += SDS_MAX_PREALLOC;
type = sdsReqType(newlen);
/* Don't use type 5: the user is appending to the string and type 5 is
* not able to remember empty space, so sdsMakeRoomFor() must be called
* at every appending operation. */
// sdsheader5 会造成内存的重新分配,使用header8替代
if (type == SDS_TYPE_5) type = SDS_TYPE_8;
hdrlen = sdsHdrSize(type);
// 如果不需要重新分配header,那么试着在原来的alloc空间分配内存
if (oldtype==type) {
newsh = s_realloc(sh, hdrlen+newlen+1);
if (newsh == NULL) return NULL;
s = (char*)newsh+hdrlen;
} else {
/* Since the header size changes, need to move the string forward,
* and can't use realloc */
// 如果需要更换Header,则需要进行数据的搬迁
newsh = s_malloc(hdrlen+newlen+1);
if (newsh == NULL) return NULL;
memcpy((char*)newsh+hdrlen, s, len+1);
s_free(sh);
s = (char*)newsh+hdrlen;
s[-1] = type;
sdssetlen(s, len);
}
sdssetalloc(s, newlen);
return s;
}

通过上面的函数可以了解到每次传入的都是一个旧变量,但是在返回的时候,都是 新的sds变量 ,redis多数的数据结构都采用这种方式处理。


同时我们可以确认一下几个点:



  • append 操作的实现函数为 sdscatlen 函数

  • getrange 这种截取一段字符串内容的方式可以直接操作字符数组,对于部分内容操作看起来比较容易,效率也比较高。


sds字符串 的空间扩容策略:


简单来说就是:



  • 小于1M,扩容修改后长度2倍

  • 大于1M,扩容1M


结尾:


多多翻翻资料,其实很多东西不需要去钻研细节,有很多优秀的人为我们答疑解惑,所以最重要的是理解作者为什么要这样设计,学习任何东西都要学习思想,思想层面的东西才是最有价值的。


sds已经被许多大佬文章进行过说明,这篇文章只是简单的归纳了一下自己看的内容, 如果有错误的地方还望指正 ,谢谢


参考资料:


下面是个人学习sds的参考资料:


Redis内部数据结构详解(2)——sds


http://zhangtielei.com/posts/...


解析redis的字符串sds数据结构:


https://blog.csdn.net/wuxing2...


SDS 与 C 字符串的区别


http://redisbook.com/preview/...


Redis源码剖析--动态字符串SDS


https://zhuanlan.zhihu.com/p/...


C基础 带你手写 redis sds


https://www.lagou.com/lgeduar...


redis源码分析系列文章


http://www.soolco.com/post/73...


Redis SDS (简单动态字符串) 源码阅读


https://chenjiayang.me/2018/0...




推荐阅读
  • Android自定义控件绘图篇之Paint函数大汇总
    本文介绍了Android自定义控件绘图篇中的Paint函数大汇总,包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数,可以更好地掌握Paint的用法。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文介绍了如何使用PHP向系统日历中添加事件的方法,通过使用PHP技术可以实现自动添加事件的功能,从而实现全局通知系统和迅速记录工具的自动化。同时还提到了系统exchange自带的日历具有同步感的特点,以及使用web技术实现自动添加事件的优势。 ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • Java String与StringBuffer的区别及其应用场景
    本文主要介绍了Java中String和StringBuffer的区别,String是不可变的,而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象,内存使用上要优于String类。因此,在需要频繁对字符串进行修改的情况下,使用StringBuffer更加适合。同时,文章还介绍了String和StringBuffer的应用场景。 ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • 有没有一种方法可以在不继承UIAlertController的子类或不涉及UIAlertActions的情况下 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
author-avatar
条条大路种西瓜
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有