热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

手写HashMap,快手面试官直呼内行

手写HashMap,快手面试官直呼内行-手写HashMap?这么狠,面试都卷到这种程度了?第一次见到这个面试题,是在某个不方便透露姓名的Offer收割机大佬的文章:这……我当

手写HashMap?这么狠,面试都卷到这种程度了?

第一次见到这个面试题,是在某个不方便透露姓名的Offer收割机大佬的文章:

这……我当时就麻了,我们都知道HashMap的数据结构是数组+链表+红黑树,这是要手撕红黑树的节奏吗?

后来,整理了一些面经,发现这道题在快手的面试出现还比较频繁,分析这道题应该在快手的面试题库。那既然频繁出,肯定不能是手撕红黑树——我觉得面试官也多半撕不出来,不撕红黑树,那这道题还有点救,慢慢往下看。

认识哈希表

HashMap其实是数据结构中的哈希表在Java里的实现。

哈希表本质

哈希表也叫散列表,我们先来看看哈希表的定义:

哈希表是根据关键码的值而直接进行访问的数据结构。

就像有人到公司找老三,前台小姐姐拿手一指,那个墙角的工位就是。

简单说来说,哈希表由两个要素构成:桶数组散列函数

  • 桶数组:一排工位
  • 散列函数:老三在墙角

桶数组

我们可能知道,有一类基础的数据结构线性表,而线性表又分两种,数组链表

哈希表数据结构里,存储元素的数据结构就是数组,数组里的每个单元都可以想象成一个(Bucket)。

假如给若干个程序员分配工位:蛋蛋熊大牛儿张三,我们观察到,这些名字比较有特色,最后一个字都是数字,我们可以把它提取出来作为关键码,这些一来,就可以把他们分配到对应编号的工位,没分配到的工位就让它先空着。

那么在这种情况下,我们查找/插入/删除的时间复杂度是多少呢?很明显,都是O(1)

但咱们也不是葫芦娃,名字不能都叫一二三四五六七之类的,假如来的新人叫南宫大牛,那我们怎么分配他呢?

这就引入了我们的第二个关键要素——散列函数

散列函数

我们需要在元素和桶数组对应位置建立一种映射映射关系,这种映射关系就是散列函数,也可以叫哈希函数。

例如,我们一堆无规律的名字诸葛钢铁刘华强王司徒张全蛋……我们就需要通过散列函数,算出这些名字应该分配到哪一号工位。

散列函数构造

散列函数也叫哈希函数,假如我们数据元素的key是整数或者可以转换为一个整数,可以通过这些常见方法来获取映射地址。

  • 直接定址法

    直接根据key来映射到对应的数组位置,例如1232放到下标1232的位置。

  • 数字分析法

    key的某些数字(例如十位和百位)作为映射的位置

  • 平方取中法

    key平方的中间几位作为映射的位置

  • 折叠法

    key分割成位数相同的几段,然后把它们的叠加和作为映射的位置

  • 除留余数法

    H(key)=key%p(p<=N),关键字除以一个不大于哈希表长度的正整数p,所得余数为哈希地址,这是应用最广泛的散列函数构造方法

在Java里,Object类里提供了一个默认的hashCode()方法,它返回的是一个32位int形整数,其实也就是对象在内存里的存储地址。

但是,这个整数肯定是要经过处理的,上面几种方法里直接定址法可以排除,因为我们不可能建那么大的桶数组。

而且我们最后计算出来的散列地址,尽可能要在桶数组长度范围之内,所以我们选择除留取余法

哈希冲突

理想的情况,是每个数据元素经过哈希函数的计算,落在它独属的桶数组的位置。

但是现实通常不如人意,我们的空间是有限的,设计再好的哈希函数也不能完全避免哈希冲突。所谓的哈希冲突,就是不同的key经过哈希函数计算,落到了同一个下标。

既然有了冲突,就得想办法解决冲突,常见的解决哈希冲突的办法有:

链地址法

也叫拉链法,看起来,像在桶数组上再拉一个链表出来,把发生哈希冲突的元素放到一个链表里,查找的时候,从前往后遍历链表,找到对应的key就行了。

开放地址法

开放地址法,简单来说就是给冲突的元素再在桶数组里找到一个空闲的位置。

找到空闲位置的方法有很多种:

  • 线行探查法: 从冲突的位置开始,依次判断下一个位置是否空闲,直至找到空闲位置
  • 平方探查法: 从冲突的位置x开始,第一次增加1^2个位置,第二次增加2^2…,直至找到空闲的位置
  • 双散列函数探查法

……

再哈希法

构造多个哈希函数,发生冲突时,更换哈希函数,直至找到空闲位置。

建立公共溢出区

建立公共溢出区,把发生冲突的数据元素存储到公共溢出区。

很明显,接下来我们解决冲突,会使用链地址法

好了,哈希表的介绍就到这,相信你已经对哈希表的本质有了深刻的理解,接下来,进入coding时间。

HashMap实现

我们实现的简单的HashMap命名为ThirdHashMap,先确定整体的设计:

  • 散列函数:hashCode()+除留余数法
  • 冲突解决:链地址法

整体结构如下:

内部节点类

我们需要定义一个节点来作为具体数据的载体,它不仅要承载键值对,同样还得作为单链表的节点:

    /**
     * 节点类
     *
     * @param 
     * @param 
     */
    class Node<K, V> {
        //键值对
        private K key;
        private V value;

        //链表,后继
        private Node<K, V> next;

        public Node(K key, V value) {
            this.key = key;
            this.value = value;
        }

        public Node(K key, V value, Node<K, V> next) {
            this.key = key;
            this.value = value;
            this.next = next;
        }
    }

成员变量

主要有四个成员变量,其中桶数组作为装载数据元素的结构:

    //默认容量
    final int DEFAULT_CAPACITY = 16;
    //负载因子
    final float LOAD_FACTOR = 0.75f;
    //HashMap的大小
    private int size;
    //桶数组
    Node<K, V>[] buckets;

构造方法

构造方法有两个,无参构造方法,桶数组默认容量,有参指定桶数组容量。

    /**
     * 无参构造器,设置桶数组默认容量
     */
    public ThirdHashMap() {
        buckets = new Node[DEFAULT_CAPACITY];
        size = 0;
    }

    /**
     * 有参构造器,指定桶数组容量
     *
     * @param capacity
     */
    public ThirdHashMap(int capacity) {
        buckets = new Node[capacity];
        size = 0;
    }

散列函数

散列函数,就是我们前面说的hashCode()和数组长度取余。

    /**
     * 哈希函数,获取地址
     *
     * @param key
     * @return
     */
    private int getIndex(K key, int length) {
        //获取hash code
        int hashCode = key.hashCode();
        //和桶数组长度取余
        int index = hashCode % length;
        return Math.abs(index);
    }

put方法

我用了一个putval方法来完成实际的逻辑,这是因为扩容也会用到这个方法。

大概的逻辑:

  • 获取元素插入位置
  • 当前位置为空,直接插入
  • 位置不为空,发生冲突,遍历链表
  • 如果元素key和节点相同,覆盖,否则新建节点插入链表头部
    /**
     * put方法
     *
     * @param key
     * @param value
     * @return
     */
    public void put(K key, V value) {
        //判断是否需要进行扩容
        if (size >= buckets.length * LOAD_FACTOR) resize();
        putVal(key, value, buckets);
    }

    /**
     * 将元素存入指定的node数组
     *
     * @param key
     * @param value
     * @param table
     */
    private void putVal(K key, V value, Node<K, V>[] table) {
        //获取位置
        int index = getIndex(key, table.length);
        Node node = table[index];
        //插入的位置为空
        if (node == null) {
            table[index] = new Node<>(key, value);
            size++;
            return;
        }
        //插入位置不为空,说明发生冲突,使用链地址法,遍历链表
        while (node != null) {
            //如果key相同,就覆盖掉
            if ((node.key.hashCode() == key.hashCode())
                    && (node.key == key || node.key.equals(key))) {
                node.value = value;
                return;
            }
            node = node.next;
        }
        //当前key不在链表中,插入链表头部
        Node newNode = new Node(key, value, table[index]);
        table[index] = newNode;
        size++;
    }

扩容方法

扩容的大概过程:

  • 创建两倍容量的新数组
  • 将当前桶数组的元素重新散列到新的数组
  • 新数组置为map的桶数组
    /**
     * 扩容
     */
    private void resize() {
        //创建一个两倍容量的桶数组
        Node<K, V>[] newBuckets = new Node[buckets.length * 2];
        //将当前元素重新散列到新的桶数组
        rehash(newBuckets);
        buckets = newBuckets;
    }

    /**
     * 重新散列当前元素
     *
     * @param newBuckets
     */
    private void rehash(Node<K, V>[] newBuckets) {
        //map大小重新计算
        size = 0;
        //将旧的桶数组的元素全部刷到新的桶数组里
        for (int i = 0; i < buckets.length; i++) {
            //为空,跳过
            if (buckets[i] == null) {
                continue;
            }
            Node<K, V> node = buckets[i];
            while (node != null) {
                //将元素放入新数组
                putVal(node.key, node.value, newBuckets);
                node = node.next;
            }
        }
    }

get方法

get方法就比较简单,通过散列函数获取地址,这里我省去了有没有成链表的判断,直接查找链表。

    /**
     * 获取元素
     *
     * @param key
     * @return
     */
    public V get(K key) {
        //获取key对应的地址
        int index = getIndex(key, buckets.length);
        if (buckets[index] == null) return null;
        Node<K, V> node = buckets[index];
        //查找链表
        while (node != null) {
            if ((node.key.hashCode() == key.hashCode())
                    && (node.key == key || node.key.equals(key))) {
                return node.value;
            }
            node = node.next;
        }
        return null;
    }

完整代码:

测试

测试代码如下:

    @Test
    void test0() {
        ThirdHashMap map = new ThirdHashMap();
        for (int i = 0; i < 100; i++) {
            map.put("刘华强" + i, "你这瓜保熟吗?" + i);
        }
        System.out.println(map.size());
        for (int i = 0; i < 100; i++) {
            System.out.println(map.get("刘华强" + i));
        }
    }

    @Test
    void test1() {
        ThirdHashMap map = new ThirdHashMap();
        map.put("刘华强1","哥们,你这瓜保熟吗?");
        map.put("刘华强1","你这瓜熟我肯定要啊!");
        System.out.println(map.get("刘华强1"));
    }

大家可以自行跑一下看看结果。

总结

好了,到这,我们一个简单的HashMap就实现了,这下,面试快手再也不怕手写HashMap了。

快手面试官:真的吗?我不信。我就要你手写个红黑树版的……

当然了,我们也发现,HashMap的O(1)时间复杂度操作是在冲突比较少的情况下,简单的哈希取余肯定不是最优的散列函数;冲突之后,链表拉的太长,同样影响性能;我们的扩容和put其实也存在线程安全的问题……

但是,现实里我们不用考虑那么多,因为李老爷已经帮我们写好了,我们只管调用就完了。

下一篇,会以面试对线的形式来走进李老爷操刀的HashMap!

点赞关注不迷路,咱们下期见!



参考:

[1].《数据结构与算法》

[2].构造哈希函数方法

[3].ACM金牌选手讲解LeetCode算法《哈希》



文章首发,技术交流???

推荐阅读
  • HashTable与ConcurrentHashMap均可实现HashMap的功能,对外提供了键值对存储的数据结构。但是在内部结构及实现上有何区别,性能上的差异到底在哪里又是如何导致的 ... [详细]
  • Java之HashMap在多线程情况下导致死循环的问题
    PS:不得不说Java编程思想这本书是真心强大..学习内容:1.HashMap<K,V>在多线程的情况下出现的死循环现象当初学Java的时候只是知道HashMap< ... [详细]
  • 缓存这个东西就是为了提高运行速度的,由于缓存是在寸土寸金的内存里面,不是在硬盘里面,所以容量是很有限的。LRU这个算法就是把最近一次使用时间离现在时间最远的数据删除掉。先说说List:每 ... [详细]
  • 01Map集合概述A:Map集合概述:我们通过查看Map接口描述,发现Map接口下的集合与Collection接口下的集合,它们存储数据的形式不同a:Collection中的集合 ... [详细]
  • Java面试 HashMap、HashSet源码解析
    本章所有源代码基于JDK1.8版本HashMap和HashSet是JavaCollectionFramework的两个重要成员,其中HashMap是Map接口的常用实现类,Hash ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 本文深入解析了JDK 8中HashMap的源代码,重点探讨了put方法的工作机制及其内部参数的设定原理。HashMap允许键和值为null,但键为null的情况只能出现一次,因为null键在内部通过索引0进行存储。文章详细分析了capacity(容量)、size(大小)、loadFactor(加载因子)以及红黑树转换阈值的设定原则,帮助读者更好地理解HashMap的高效实现和性能优化策略。 ... [详细]
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • 本文探讨了 Java 中 Pair 类的历史与现状。虽然 Java 标准库中没有内置的 Pair 类,但社区和第三方库提供了多种实现方式,如 Apache Commons 的 Pair 类和 JavaFX 的 javafx.util.Pair 类。这些实现为需要处理成对数据的开发者提供了便利。此外,文章还讨论了为何标准库未包含 Pair 类的原因,以及在现代 Java 开发中使用 Pair 类的最佳实践。 ... [详细]
  • Java集合详解5:深入理解LinkedHashMap和LRU缓存
    Java集合详解5:深入理解LinkedHashMap和LRU缓存今天我们来深入探索一下LinkedHashMap的底层原理,并且使用linkedhashmap来实现LRU缓存。具体代码在我的 ... [详细]
  • 转载自:http:www.blogjava.netCarpenterLeearchive20160427430268.html总体介绍之所以把HashSet和HashMa ... [详细]
  • 类Hashtable<K,V>所有已实现的接口:Serializable,Cloneable,Map<K,V>此类实现一个哈希表,该哈希表将键映 ... [详细]
  • 本篇文章给大家分享的是有关Java中怎么对HashMap按键值排序,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话 ... [详细]
  • 邮件解析引擎FastMail库大功告成!
    1概述邮件解析库API完全使用面向对象技术设计,使用C++语言开发的用于邮件解析和组装的库。它提供了一些类用来解析和组装Internet邮件,如MimeMessa ... [详细]
  • 如何利用Java 5 Executor框架高效构建和管理线程池
    Java 5 引入了 Executor 框架,为开发人员提供了一种高效管理和构建线程池的方法。该框架通过将任务提交与任务执行分离,简化了多线程编程的复杂性。利用 Executor 框架,开发人员可以更灵活地控制线程的创建、分配和管理,从而提高服务器端应用的性能和响应能力。此外,该框架还提供了多种线程池实现,如固定线程池、缓存线程池和单线程池,以适应不同的应用场景和需求。 ... [详细]
author-avatar
我只当你的千纸鹤
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有