热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

GolangMap数据结构和mapbuckets的数据组织结构

hash表是什么从大学的课本里面,我们学到:hash表其实就是将key通过hash算法映射到数组的某个位置,然后把对应的val存放起来。如果出现了hash冲突(也就是说,不同的ke





hash 表是什么


从大学的课本里面,我们学到:hash 表其实就是将key 通过hash算法映射到数组的某个位置,然后把对应的val存放起来。

如果出现了hash冲突(也就是说,不同的key被映射到了相同的位置上时),就需要解决hash冲突。解决hash冲突的方法还是比较多的,比如说开放定址法,再哈希法,链地址法,公共溢出区等(复习下大学的基本知识)。


其中链地址法比较常见,下面是一个链地址法的常见模式:



position 指通过key 计算出的数组偏移量。例如当 position = 6 的位置已经填满kv后,再次插入一条相同position的数据将通过链表的方式插入到该条位置之后。


在php的array 中是这么实现的,golang中也基本是这么实现。下面我们学习下golang中map的实现。



golang map 实现的数据结构


golang的map中,首先把kv 分在了n个桶中,每个桶中的数据有8条(bucketcnt)。如果一个桶满了(overflow),也会采用链地址法解决hash 的冲突。


下面是定义一个hashmap的结构体:

type hmap struct {
// 长度
count int
// map 的标识, 下方做了定义
flags uint8
// 实际buckets 的长度为 2 ^ b
b uint8
// 从bucket中溢出的数量,(存在extra 里面)
noverflow uint16
// hash 种子,做key 哈希的时候会用到
hash0 uint32
// 存储 buckets 的地方
buckets unsafe.pointer
// 迁移时oldbuckets中存放部分buckets 的数据
oldbuckets unsafe.pointer
// 迁移的数量
nevacuate uintptr
// 一些额外的字段,在做溢出处理以及数据增长的时候会用到
extra *mapextra
}
const (
// 有一个迭代器在使用buckets
iterator = 1
// 有一个迭代器在使用oldbuckets
olditerator = 2
// 并发写,通过这个标识报panic
hashwriting = 4
samesizegrow = 8
)
type mapextra struct {
overflow *[]*bmap
oldoverflow *[]*bmap
nextoverflow *bmap
}
type bmap struct {
tophash [bucketcnt]uint8
}


表中除了对基本的hash数据结构做了定义外,还对数据迁移、扩容等操作做了定义,这里我们可以忽略,等学习到时我们再深入了解。



深入 桶列表 (buckets)


buckets 字段中是存储桶数据的地方。正常会一次申请至少2^n长度的数组,数组中每个元素就是一个桶。n 就是结构体中的b。这里面要注意以下几点:




  1. 为啥是2的幂次方 为了做完hash后,通过掩码的方式取到数组的偏移量, 省掉了不必要的计算。


  2. b 这个数是怎么确定的 这个和我们map中要存放的数据量是有很大关系的。我们在创建map的时候来详述。


  3. bucket 的偏移是怎么计算的 hash 方法有多个,在 runtime/alg.go 里面定义了。不同的类型用不同的hash算法。算出来是一个uint32的一个hash 码,通过和b取掩码,就找到了bucket的偏移了。下面是取对应bucket的例子:

// 根据key的类型取相应的hash算法
alg := t.key.alg
hash := alg.hash(key, uintptr(h.hash0))
// 根据b拿到一个掩码
m := bucketmask(h.b)
// 通过掩码以及hash指,计算偏移得到一个bucket
b := (*bmap)(add(h.buckets, (hash&m)*uintptr(t.bucketsize)))


深入 桶 (bucket)


一个桶的示意图如下:


每个桶里面,可以放8个k,8个v,还有一个overflow指针(就是上面的next),用来指向下一个bucket 的地址。在每个bucket的头部,还会放置一个tophash,也就是bmap 结构体。这个数组里面存放的是key的hash值,用来对比我们key生成的hash和存出的hash是否一致(当然除了这个还有其他的用途,后面讲数据访问的时候会讲到)。 tophash中的数据,是从计算的hash值里面截取的。获取bucket 是用的低bit位的hash,tophash 使用的是高bit位的hash值(8位)




  1. 为啥bucket 一次要存8个kv,而不是一个kv放一个bucket,然后链地址法做处理就ok了 据我分析,有几点原因: a, 一次分配8个kv的空间,可以减少内存的分配频次; b,减少了overflow指针的内存占用,比如说8个kv,采用一个一个存储的话,需要8 * 8b (64位机) = 64b的数据存下一个的地址,而采用go实现的这种方式,只需要 8b + 8b (bmap的大小) = 16b 的数据就可以了。


  2. 为啥需要用tophash 一般的hash 实现逻辑是直接和key比较,如果比较成功,这找到相应key的数据。但是这里用到了tophash,好处是可以减少key的比较成本(毕竟key 不一定都是整数形式存在的)


  3. 为啥是8个 8 * 8b = 64b 整好是64位机的一个最小寻址空间,不过可以通过修改源码自定义吧。


  4. 为什么key 和val 要分开放 这个也比较好理解,key 和val 都是用户可以自定义的。如果key是定长的(比如是数字,或者 指针之类的,大概率是这样。)内存是比较整齐的,利于寻址吧。



技术总结


golang 实现的map比朴素的hashmap 在很多方面都有优化。




  1. 使用掩码方式获取偏移,减少判断。


  2. bucket 存储方式的优化。


  3. 通过tophash 先进行一次比较,减少key 比较的成本。


  4. 当然,有一点是不太明白的,为啥 overflow 指针要放在 kv 后面? 放在tophash 之后的位置岂不是更完美?


原文连接:https://www.cnblogs.com/-lee/p/12777241.html



推荐阅读
  • Flutter入门指南:实现自动关闭的对话框与提示
    本文为Flutter系列教程的一部分,专注于讲解如何在Flutter应用中实现自动关闭的对话框和提示。通过具体的代码示例,帮助开发者掌握SnackBar、BottomSheet和Dialog的使用方法。 ... [详细]
  • 本文详细介绍了在Hive中创建表的基本语法,包括临时表、外部表的创建方法,以及如何设置表的各种属性和约束条件。 ... [详细]
  • 一、数据更新操作DML语法中主要包括两个内容:查询与更新,更新主要包括:增加数据、修改数据、删除数据。其中这些操作是离不开查询的。1、增加数据语法:INSERTINTO表名称[(字 ... [详细]
  • 本文介绍了如何处理在使用 aiohttp 进行 HTTPS 请求时遇到的 SSL 证书验证错误,包括忽略证书验证和使用自定义证书的方法。 ... [详细]
  • 重构:优化现有代码设计(第二版)笔记
    本文介绍了重构的基本概念,通过具体示例展示了如何提炼函数以处理过长的代码段,并探讨了多种重构技术,如分阶段重构、封装变量等。 ... [详细]
  • mysql 分库分表策略_【数据库】分库分表策略
    关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多, ... [详细]
  • 本文详细介绍了MySQL中关于员工数据库的基础知识、操作技巧以及常见问题的解决方案,适合初学者和有一定基础的用户阅读。 ... [详细]
  • 手把手教你构建简易JSON解析器
    本文将带你深入了解JSON解析器的构建过程,通过实践掌握JSON解析的基本原理。适合所有对数据解析感兴趣的开发者。 ... [详细]
  • 本文深入探讨了Java注解的基本概念及其在现代Java开发中的应用。文章不仅介绍了如何创建和使用自定义注解,还详细讲解了如何利用反射机制解析注解,以及Java内建注解的使用场景。 ... [详细]
  • 本文探讨了如何在C语言中动态分配结构体数组,并在完成相关操作后正确地释放内存。同时,讨论了不同情况下内存分配与释放的最佳实践。 ... [详细]
  • 导读上一篇讲了zsh的常用字符串操作,这篇开始讲更为琐碎的转义字符和格式化输出相关内容。包括转义字符、引号、print、printf的使用等等。其中很多内容没有必要记忆,作为手册参 ... [详细]
  • 本文详细介绍了 C# 编程语言中 Main 方法的作用、不同形式及其使用场景,帮助开发者更好地理解和应用这一重要概念。 ... [详细]
  • Android json字符串转Map
    Androidjson字符串转Map,Go语言社区,Golang程序员人脉社 ... [详细]
  • 一个产品数组拼图|集合 2 (O(1)空间) ... [详细]
  • 本文详细探讨了 Java 中 Daemon 线程的特点及其应用场景,并深入分析了 Random 类的源代码,帮助开发者更好地理解和使用这些核心组件。 ... [详细]
author-avatar
gbn3312168
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有