作者:荆灬樊小姐_526 | 来源:互联网 | 2023-05-28 14:56
这是" 在Java 8中使用Java 7 HashMap "的后续问题.有一些有趣的评论.有些我很清楚; 其他人少.
为什么这种hashCode()
方法被认为很差?
乍一看,我觉得这很合理.也许17可以增加到31.否则,它似乎遵循普遍接受的公式Arrays.hashCode(Object[])
.一个猜测:它适用于一般情况,其中项目数量相对较小(小于10.000),但对于非常大的集合(1.000.000或更高)表现不佳.
这是原始代码:(包含所有内容以提供一些上下文.)
import java.util.HashMap;
import java.util.Map;
import java.util.Random;
public class Test1 {
static int max_k1 = 500;
static int max_k2 = 500;
static Map map;
static Random random = new Random();
public static void main(String[] args) {
for (int i = 0; i <15; i++) {
long start = System.nanoTime();
run();
long end = System.nanoTime();
System.out.println((end - start) / 1000_000);
}
}
private static void run() {
map = new HashMap<>();
for (int i = 0; i <10_000_000; i++) {
Node key = new Node(random.nextInt(max_k1), random.nextInt(max_k2));
Node val = getOrElseUpdate(key);
}
}
private static Node getOrElseUpdate(Node key) {
Node val;
if ((val = map.get(key)) == null) {
val = key;
map.put(key, val);
}
return val;
}
private static class Node {
private int k1;
private int k2;
public Node(int k1, int k2) {
this.k1 = k1;
this.k2 = k2;
}
@Override
public int hashCode() {
int result = 17;
result = 31 * result + k1;
result = 31 * result + k2;
return result;
}
@Override
public boolean equals(Object obj) {
if (this == obj)
return true;
if (!(obj instanceof Node))
return false;
Node other = (Node) obj;
return k1 == other.k1 && k2 == other.k2;
}
}
}
RealSkeptic..
6
我是其中一个告诉你它很穷的人.我告诉你原因:"250,000个可能的Node
值它只有15969个哈希码."
如果您的Node
项目应该在0≤ k1
<500和0≤ k2
<500范围内或多或少均匀分布,那么您有250,000个可能的节点值.
一个好的哈希函数应该为你提供这些250,000个值尽可能唯一的哈希码.也就是说,理想情况下,一个好的哈希函数应该给你的每个组合不同的价值k1
和k2
.
散列函数不需要是唯一的,因为在许多情况下这是不可能的 - 如果你的对象具有数万亿和数万亿的可能组合,当然你不能将所有这些组合映射到不同的整数.
您使用的标准哈希函数适用于该类对象.如果你有均匀分布的对象具有很多可能性,那么这种散列函数最终将使用所有可能的整数值,这是它能做的最好的.
但在您的特定情况下,您有250,000个组合,可以使用该函数轻松表示为单个整数500 * k1 + k2
.完全独特的哈希函数是理想的选择.
你使用的"标准"哈希函数表现不佳,因为在这么小的整数范围内,它将它们中的许多映射到相同的值,你最终只有15,969个唯一的哈希码.这意味着您的许多Node
对象将映射到相同的哈希码.(250,000/15,969
对于每个代码!).所以你将会遇到很多哈希冲突.
您拥有的哈希冲突越多,哈希映射的性能就越差,因为大多数哈希映射的良好性能依赖于相同哈希桶中尽可能少的密钥.并且散列桶由散列码确定.
1> RealSkeptic..:
我是其中一个告诉你它很穷的人.我告诉你原因:"250,000个可能的Node
值它只有15969个哈希码."
如果您的Node
项目应该在0≤ k1
<500和0≤ k2
<500范围内或多或少均匀分布,那么您有250,000个可能的节点值.
一个好的哈希函数应该为你提供这些250,000个值尽可能唯一的哈希码.也就是说,理想情况下,一个好的哈希函数应该给你的每个组合不同的价值k1
和k2
.
散列函数不需要是唯一的,因为在许多情况下这是不可能的 - 如果你的对象具有数万亿和数万亿的可能组合,当然你不能将所有这些组合映射到不同的整数.
您使用的标准哈希函数适用于该类对象.如果你有均匀分布的对象具有很多可能性,那么这种散列函数最终将使用所有可能的整数值,这是它能做的最好的.
但在您的特定情况下,您有250,000个组合,可以使用该函数轻松表示为单个整数500 * k1 + k2
.完全独特的哈希函数是理想的选择.
你使用的"标准"哈希函数表现不佳,因为在这么小的整数范围内,它将它们中的许多映射到相同的值,你最终只有15,969个唯一的哈希码.这意味着您的许多Node
对象将映射到相同的哈希码.(250,000/15,969
对于每个代码!).所以你将会遇到很多哈希冲突.
您拥有的哈希冲突越多,哈希映射的性能就越差,因为大多数哈希映射的良好性能依赖于相同哈希桶中尽可能少的密钥.并且散列桶由散列码确定.
@kevinarpe他的解释写得很好.:)也许你应该选择它作为答案.