热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

为什么这个hashCode()方法被认为很差?

如何解决《为什么这个hashCode()方法被认为很差?》经验,为你挑选了1个好方法。

这是" 在Java 8中使用Java 7 HashMap "的后续问题.有一些有趣的评论.有些我很清楚; 其他人少.

为什么这种hashCode()方法被认为很差?

乍一看,我觉得这很合理.也许17可以增加到31.否则,它似乎遵循普遍接受的公式Arrays.hashCode(Object[]).一个猜测:它适用于一般情况,其中项目数量相对较小(小于10.000),但对于非常大的集合(1.000.000或更高)表现不佳.

这是原始代码:(包含所有内容以提供一些上下文.)

import java.util.HashMap;
import java.util.Map;
import java.util.Random;

public class Test1 {

static int max_k1 = 500;
static int max_k2 = 500;

static Map map;
static Random random = new Random();

public static void main(String[] args) {
    for (int i = 0; i <15; i++) {
        long start = System.nanoTime();
        run();
        long end = System.nanoTime();
        System.out.println((end - start) / 1000_000);
    }
}

private static void run() {
    map = new HashMap<>();
    for (int i = 0; i <10_000_000; i++) {
        Node key = new Node(random.nextInt(max_k1), random.nextInt(max_k2));
        Node val = getOrElseUpdate(key);
    }
}

private static Node getOrElseUpdate(Node key) {
    Node val;
    if ((val = map.get(key)) == null) {
        val = key;
        map.put(key, val);
    }
    return val;
}

private static class Node {

    private int k1;
    private int k2;

    public Node(int k1, int k2) {
        this.k1 = k1;
        this.k2 = k2;
    }

    @Override
    public int hashCode() {
        int result = 17;
        result = 31 * result + k1;
        result = 31 * result + k2;
        return result;
    }

    @Override
    public boolean equals(Object obj) {
        if (this == obj)
            return true;

        if (!(obj instanceof Node))
            return false;

        Node other = (Node) obj;

        return k1 == other.k1 && k2 == other.k2;
    }
  }
}

RealSkeptic.. 6

我是其中一个告诉你它很穷的人.我告诉你原因:"250,000个可能的Node值它只有15969个哈希码."

如果您的Node项目应该在0≤ k1<500和0≤ k2<500范围内或多或少均匀分布,那么您有250,000个可能的节点值.

一个好的哈希函数应该为你提供这些250,000个值尽可能唯一的哈希码.也就是说,理想情况下,一个好的哈希函数应该给你的每个组合不同的价值k1k2.

散列函数不需要是唯一的,因为在许多情况下这是不可能的 - 如果你的对象具有数万亿和数万亿的可能组合,当然你不能将所有这些组合映射到不同的整数.

您使用的标准哈希函数适用于该类对象.如果你有均匀分布的对象具有很多可能性,那么这种散列函数最终将使用所有可能的整数值,这是它能做的最好的.

但在您的特定情况下,您有250,000个组合,可以使用该函数轻松表示为单个整数500 * k1 + k2.完全独特的哈希函数是理想的选择.

你使用的"标准"哈希函数表现不佳,因为在这么小的整数范围内,它将它们中的许多映射到相同的值,你最终只有15,969个唯一的哈希码.这意味着您的许多Node对象将映射到相同的哈希码.(250,000/15,969对于每个代码!).所以你将会遇到很多哈希冲突.

您拥有的哈希冲突越多,哈希映射的性能就越差,因为大多数哈希映射的良好性能依赖于相同哈希桶中尽可能少的密钥.并且散列桶由散列码确定.



1> RealSkeptic..:

我是其中一个告诉你它很穷的人.我告诉你原因:"250,000个可能的Node值它只有15969个哈希码."

如果您的Node项目应该在0≤ k1<500和0≤ k2<500范围内或多或少均匀分布,那么您有250,000个可能的节点值.

一个好的哈希函数应该为你提供这些250,000个值尽可能唯一的哈希码.也就是说,理想情况下,一个好的哈希函数应该给你的每个组合不同的价值k1k2.

散列函数不需要是唯一的,因为在许多情况下这是不可能的 - 如果你的对象具有数万亿和数万亿的可能组合,当然你不能将所有这些组合映射到不同的整数.

您使用的标准哈希函数适用于该类对象.如果你有均匀分布的对象具有很多可能性,那么这种散列函数最终将使用所有可能的整数值,这是它能做的最好的.

但在您的特定情况下,您有250,000个组合,可以使用该函数轻松表示为单个整数500 * k1 + k2.完全独特的哈希函数是理想的选择.

你使用的"标准"哈希函数表现不佳,因为在这么小的整数范围内,它将它们中的许多映射到相同的值,你最终只有15,969个唯一的哈希码.这意味着您的许多Node对象将映射到相同的哈希码.(250,000/15,969对于每个代码!).所以你将会遇到很多哈希冲突.

您拥有的哈希冲突越多,哈希映射的性能就越差,因为大多数哈希映射的良好性能依赖于相同哈希桶中尽可能少的密钥.并且散列桶由散列码确定.


@kevinarpe他的解释写得很好.:)也许你应该选择它作为答案.
推荐阅读
  • 缓存这个东西就是为了提高运行速度的,由于缓存是在寸土寸金的内存里面,不是在硬盘里面,所以容量是很有限的。LRU这个算法就是把最近一次使用时间离现在时间最远的数据删除掉。先说说List:每 ... [详细]
  • 属性类 `Properties` 是 `Hashtable` 类的子类,用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入,支持字符串类型的键和值。通过 `Properties` 类,开发者可以方便地进行配置信息的管理,确保应用程序的灵活性和可维护性。此外,`Properties` 类还提供了加载和保存属性文件的方法,使其在实际开发中具有较高的实用价值。 ... [详细]
  • HashMap:键值对(key-value):通过对象来对对象进行索引,用来索引的对象叫做key,其对应的对象叫做value.默认是1:1关系:存在则覆盖,当key已经存在,则利用新的va ... [详细]
  • HashTable与ConcurrentHashMap均可实现HashMap的功能,对外提供了键值对存储的数据结构。但是在内部结构及实现上有何区别,性能上的差异到底在哪里又是如何导致的 ... [详细]
  • 本篇文章给大家分享的是有关Java中怎么对HashMap按键值排序,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话 ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • 如何在Java中使用DButils类
    这期内容当中小编将会给大家带来有关如何在Java中使用DButils类,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。D ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 我有3个来自RESEARCHS的映射值,指定要使用参考数据集填充的行中的范围。该研究 ... [详细]
  • 转载自:http:www.blogjava.netCarpenterLeearchive20160427430268.html总体介绍之所以把HashSet和HashMa ... [详细]
  • 类Hashtable<K,V>所有已实现的接口:Serializable,Cloneable,Map<K,V>此类实现一个哈希表,该哈希表将键映 ... [详细]
  • 本文介绍了 .NET 中用于线程间通信的工具 WaitHandle 及其子类 ManualResetEvent 和 AutoResetEvent,并详细解释了线程池的概念及其在优化资源利用方面的优势。 ... [详细]
  • 本题探讨如何编写程序来计算一个数值的整数次方,涉及多种情况的处理。 ... [详细]
  • 图解HashMap
    什么是HashMap,文章内HashMap源码主要来自Android7.0HashMap是开发中常用的一个类,那么他究竟是什么呢?HashMap是一个存储key-value的集合, ... [详细]
  • Java集合详解5:深入理解LinkedHashMap和LRU缓存
    Java集合详解5:深入理解LinkedHashMap和LRU缓存今天我们来深入探索一下LinkedHashMap的底层原理,并且使用linkedhashmap来实现LRU缓存。具体代码在我的 ... [详细]
author-avatar
荆灬樊小姐_526
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有