作者:好富饶_152 | 来源:互联网 | 2023-05-24 07:01
我有一个程序处理大量数据集.由于程序一直在寻找容器中的对象,因此最好将对象存储在散列实现的容器中.
第一个想法是使用HashMap,因为获取和删除此容器的方法更适合我需要的用途.
但是,我开始看到HashMap的使用是相当大的内存消耗品,这是一个主要问题,所以我认为切换到HashSet会更好,因为它只使用
,而不是
每个元素,但是当我看到实现我学会了它使用底层的HashMap!这意味着它不会节省任何记忆!
所以这是我的问题:
我所有的假设都是真的吗?
HashMap内存是否浪费?更具体地说,每个条目的开销是多少?
HashSet和HashMap一样浪费吗?
是否有任何其他基于Hash的容器将显着减少内存耗材?
更新
根据评论的要求,我将对我的程序进行一些扩展,hashMap意味着保存一对其他对象,以及一些数值 - 从它们计算的浮点数.一路上,它提取了一些并进入新的对.给定一对,它需要确保它不会保持这对或删除它.可以使用float值或hashCode
pair对象完成映射.
另外,当我说"庞大的数据集"时,我说的是~4*10 ^ 9个对象
1> Null..:
关于java中的集合性能,本网站上有非常有用的提示.
HashSet
建立在a之上HashMap
,其中value是单个"当前"对象.这意味着the memory consumption of aHashSet is identical to HashMap
:为了存储SIZE
值,您需要32*SIZE + 4*CAPACITY字节(加上值的大小).它绝对不是一个对内存友好的集合.
THashSet可能是最简单的替换集合HashSet
- 它实现了Set和Iterable,这意味着你应该在集合的初始化中更新单个字母.
THashSet
使用单个对象数组作为其值,因此它使用4*CAPACITY字节进行存储.如您所见,与JDK HashSet相比,在相同的加载因子的情况下,您将节省 32*SIZE字节,这是一个巨大的改进.
另外,我从这里拍摄的下图可以帮助我们记住选择合适的收藏品
2> gknicker..:
我所有的假设都是真的吗?
你是正确的,HashSet
使用HashMap
,所以你不会通过使用HashSet
来保存任何内存.
如果你正在创建具有大量元素的地图,你应该根据你的知识构造你的HashMap
s,initialCapacity
以防止重复的重复(因此内存颠簸).
HashMap内存是否浪费?更具体地说,每个条目的开销是多少?
不,这不浪费.开销是底层数组(修改的大小loadFactor
),以及Entry
每个键值对的对象.除了存储键和值之外,入口对象还存储指向槽中下一个条目的指针(如果两个或多个条目占据底层阵列中的相同槽).默认的loadFactor 0.75
使基础数组大小保持在条目数的133%.
非常具体地说,每个条目的内存开销是:
入口对象对密钥的引用,
入口对象对值的引用,
入口对象对下一个条目的引用,
和底层数组对条目的引用(除以加载因子).
对于基于散列的集合来说,要获得更多的修剪是非常困难的.
HashSet和HashMap一样浪费吗?
通过使用HashSet
而不是,你将获得没有内存效率HashMap
.
是否有任何其他基于Hash的容器将显着减少内存耗材?
如果你的密钥是原始的(例如int
s),那里有自定义Map
和Set
实现(在第三方库中),它们使用更多内存有效的数据结构.