一致性hash算法简单易懂(一口气讲透一致性哈希)
一致性hash算法简单易懂(一口气讲透一致性哈希)
2024-09-30 05:13:43  作者:最好的珍惜  网址:https://m.xinb2b.cn/life/iyq125175.html

如今云计算、大数据、物联网、AI的兴起,使得分布系统得到了前所未有的广泛应用,然而由于分布式系统具有极高的复杂度,带来了许多难题,一致性哈希就是为了解决分布式难题之一应运而生的,本篇主要图示讲解一致性哈希的原理及其应用,助力码农变身。

简而言之,一致性哈希(Consistent Hash)是为了解决由于分布式系统中节点的增加或减少而带来的大量失效问题,它可以有效地降低这种失效影响,从而提高分布式系统的性能和可用性。

什么是Hash

在深入探讨之前,我们先了解下什么是hash:哈希(hash)简单理解就是将任意长度的输入通过散列算法转换成固定长度的输出,这个输出一般称之为散列码或哈希值。哈希是一种映射思想,散列算法即是一种函数,对比数学函数可以表示如下

f(x)=y → f(输入)=散列码

经过计算输出的散列码一般用正整数表示,它比输入要简短的多,因此你会遇到有些朋友会说哈希是一种压缩,但温馨提醒的是这种压缩是不可逆的,也就是说没办法解压缩,所以建议把哈希理解成映射会更妥当些。

比如把“码农神说”作为输入,经过散列算法计算处理,输出对应的散列码“30”,也就是说散列码30是原始输入“码农神说”的映射,这种映射关系是一一对应的(哈希碰撞的特殊情况可暂时忽略,因为自然碰撞的概率极低),使用散列码通过这种映射关系可以找到对应的原始输入,哈希处理及映射关系如下图


散列码是原始输入的摘要,计算机处理摘要这种短数据比处理原始输入的长数据更容易些、性能也更高,所以哈希的用途十分广泛,如安全加密、唯一标识、数据校验等,常见的散列算法有MD4、MD5、SHA等。

取余%

在计算机中的取余(%)操作除了判断奇偶数等常规用途外,还可以把目标映射在一个区间范围内,比如对5取余,相当于把目标映射在[0,5)开闭区间内,接着上例的图示进一步取余如下图示


从图中看得出也是一种映射,但这种映射不同于哈希映射,它并非一对一。

取余的应用场景不仅在算法上用途较多,在分布式系统中也广泛应用,它进一步缩小了范围能够让计算机处理更集中、状态更一致,比如有状态的服务集群、缓存的服务集群等等,这些场景都需要把同一个客户的请求寻址发送到同一个固定的节点上,这样不仅达到了负载分散也做到了存储状态一致,避免了数据的复制。常见的作法比如对用户IP进行哈希,再以集群中节点数量作为基数取余,从而可以寻址到已经排了序的节点并与其绑定。假想一个如下分布式缓存的例子


很完美吧≧◠◡◠≦!但是!!

分布式系统中横向伸缩或节点故障等,会形成节点的自动增加或删除。比如节点B如果故障,会自动从集群中被剔除,那么取余基数则变成了2,当请求过来时新的哈希过程就会变更如下


这就比较尴尬了,用户D和E的绑定节点变更可以理解,但用户B和F绑定的节点也需要变更,导致之前的数据失效。那么如果增加了一个节点D排序为4呢,你猜会怎样


增加一个基点导致几乎所有的绑定失效,大量失效会造成了某个时间点的网络抖动和性能急剧下降。

一致性hash算法

一致性hash算法就是为了解决上述大量失效问题,失效的最主要原因是取余的基数是根据集群中的节点数动态变化的!一致性hash算法把取余的基数固定为一个常数2^32,这样可以做到以不变应万变。一致性hash算法把散列码对2^32取余从而把范围控制在[0,2^32-1]的区间范围内,并把这个区间按照顺时针的方向均匀分布在一个圆环上,称之为HASH环。hash环正上方的点代表0,按顺时针依次是1、2、3.....2^32-1。


依旧使用上述分布式缓存的例子,我们首先把集群的节点根据IP或节点名进行HASH得到散列码并取余后分布在hash环上,同时也把用户请求根据IP地址Hash取余分布在hash环上,如下图


hash环上的用户以顺时针方向寻找环上最近的节点,则此用户的请求就绑定到该节点上,绑定对应如下图,比如用户A、B、C按顺时针在hash环上绑定到节点A上


如果此时节点B出现了故障,则B会被从集群中剔除,剔除后按照一致性hash算法后绑定如下图


可以观察到,只会影响到D、E用户的节点绑定,对比发现绑定的失效量相对较少,如果增加一个节点D呢,只用影响到用户A的节点绑定,大大降低了失效率


所以一致性hash不管是在集群中剔除节点还是增加节点,对比直接hash取余都会降低失效率,充分体现了一致性hash算法的优势。

虚拟节点

如果集群中的节点太少,则会造成数据倾斜问题,就是负载不均衡,导致有些节点超负荷


此时使用虚拟节点,通过对同一个节点使用不同散列算法得到不同的散列码,尽量在hash换上分布均匀,就可以缓解数据倾斜问题,如下


不适合做什么

一致性hash只能把失效率降到最低,但无法完全避免,它最初是针对分布式cache设计的,那么Cache失效后毕竟数据源里还有数据,大不了再拿一次,数据不会丢失。但如果是有状态服务集群,比如session状态,一旦丢失将会导致大面积用户重新登录,给用户体验带来极不痛快的体验。这种问题只能通过高可用的其他方案进行弥补。


漫画 | 架构设计中的那些事

Java中异常处理的9个最佳实践

Intellij IDEA必备插件,提高效率的“七种武器”

接住喽,送你个装B的技能:JDK动态代理

给“小白”漫画 图示讲解MyBatis原理,就问香不香

面试官:CAP都搞不清楚,别跟我说你懂微服务

  • 罗布泊发现楼兰古城了吗(谜失千年的楼兰古国)
  • 2024-09-30谜失千年的楼兰古国楼兰的兴衰《史记》《汉书》中记述过西域有小国“楼兰”“鄯善”,语焉不详随历史长河流泻,时过境迁,至二十世纪初,除了少数专事西域研究者外,中外史学界,对地处偏僻的新疆,对新疆沙漠中这些短暂显示光辉的绿洲。
  • 山楂片泡水方法(山楂片怎么泡水)
  • 2024-09-30山楂片怎么泡水山楂干泡水的正确泡法,就是取适量的山楂干放在容器里,然后再放适量的温开水进行浸泡,水温一般控制在60度左右,每次浸泡20分钟左右就可以口服山楂是日常生活中比较常用的药食两用的食材,具有健胃消食,活血化。
  • 宽体大众t1面包车(致敬大众T1大众复古)
  • 2024-09-30致敬大众T1大众复古[爱卡汽车国内新车原创]9月7日,大众ID.Buzz正式在国内首发亮相,新车基于MEB模块化电驱动平台打造,此前海外发布时共推出了ID.Buzz(MPV)和ID.BuzzCargo(封闭式货车)两个版。
  • 华为Mate50正式发售(Card陶瓷纪念版发布)
  • 2024-09-30Card陶瓷纪念版发布IT之家9月6日消息,据华为官方消息,HuaweiCard陶瓷纪念版现已发布,华为Mate50RS|保时捷设计用户可限量免费申领此外,华为还推出了“Mate十年”纪念版,供华为Mate50系列用户申领。
  • dnf怎么获得星空深渊原石(DNF超星空深渊如何买票更划算)
  • 2024-09-30DNF超星空深渊如何买票更划算超星空深渊如何买票更划算?星空原石不是最佳它成本少一半作者:三桌自从95版本开启后,超星空深渊一直以来都是玩家们取得史诗装备的主要渠道而星空深渊和超星空深渊和普通深渊不同的是,在进入这两个深渊时,必须。
  • 立体的小狗怎么画简单的(3D绘画笔怎么做立体小狗)
  • 2024-09-303D绘画笔怎么做立体小狗3d打印笔绘画小技巧:在制作像雕像或动物这样的更复杂的结构时,可以用纸,胶带和一些家用物品来制作自己的模具具体步骤:步骤1绘制小狗并在纸上绘制每个小狗身体部位上简化的形状(例如:用于头部的圆形,用于身。
  • 扫地机器人的视觉导航有什么用(视觉导航vs激光导航)
  • 2024-09-30视觉导航vs激光导航如今扫地机器人越来越受欢迎,已经成为一类“新兴小家电”为了效率更高、更节能地实现清扫全屋的功能,绘制室内地图以及确定自身位置是必不可少的功能,许多早期扫地机器人产品并没有配备导航系统,只能按照设定的路。
  • 朱贵事迹(甘肃老将朱贵千里驰援浙江)
  • 2024-09-30甘肃老将朱贵千里驰援浙江朱贵祠殿堂朱贵将军是近代我国抗击外国侵略、战死疆场的著名将领,在中国近代史上占有一席之地宁波人民为纪念这位抗英爱国将领及其部下将士,道光二十三年(1843),在慈溪募捐修建了高节祠,又名慈郭庙,俗称朱。
  • 富豪会不会买假爱马仕(真豪门还是假名媛)
  • 2024-09-30真豪门还是假名媛很久没有追过女人我最大了,从前看到很多分享会哇哦的程度现在竟成了假包晾晒修罗场,唏嘘……事情是这样的:时尚名媛王思佳和顶级名媛关颖一起上《女人我最大》,王思佳拿了四个爱马仕介绍,号称价值几百万(新台币。