一致性hash算法简单易懂(一口气讲透一致性哈希)
一致性hash算法简单易懂(一口气讲透一致性哈希)
2024-09-27 12:17:00  作者:最好的珍惜  网址:https://m.xinb2b.cn/tech/iyq125175.html

如今云计算、大数据、物联网、AI的兴起,使得分布系统得到了前所未有的广泛应用,然而由于分布式系统具有极高的复杂度,带来了许多难题,一致性哈希就是为了解决分布式难题之一应运而生的,本篇主要图示讲解一致性哈希的原理及其应用,助力码农变身。

简而言之,一致性哈希(Consistent Hash)是为了解决由于分布式系统中节点的增加或减少而带来的大量失效问题,它可以有效地降低这种失效影响,从而提高分布式系统的性能和可用性。

什么是Hash

在深入探讨之前,我们先了解下什么是hash:哈希(hash)简单理解就是将任意长度的输入通过散列算法转换成固定长度的输出,这个输出一般称之为散列码或哈希值。哈希是一种映射思想,散列算法即是一种函数,对比数学函数可以表示如下

f(x)=y → f(输入)=散列码

经过计算输出的散列码一般用正整数表示,它比输入要简短的多,因此你会遇到有些朋友会说哈希是一种压缩,但温馨提醒的是这种压缩是不可逆的,也就是说没办法解压缩,所以建议把哈希理解成映射会更妥当些。

比如把“码农神说”作为输入,经过散列算法计算处理,输出对应的散列码“30”,也就是说散列码30是原始输入“码农神说”的映射,这种映射关系是一一对应的(哈希碰撞的特殊情况可暂时忽略,因为自然碰撞的概率极低),使用散列码通过这种映射关系可以找到对应的原始输入,哈希处理及映射关系如下图


散列码是原始输入的摘要,计算机处理摘要这种短数据比处理原始输入的长数据更容易些、性能也更高,所以哈希的用途十分广泛,如安全加密、唯一标识、数据校验等,常见的散列算法有MD4、MD5、SHA等。

取余%

在计算机中的取余(%)操作除了判断奇偶数等常规用途外,还可以把目标映射在一个区间范围内,比如对5取余,相当于把目标映射在[0,5)开闭区间内,接着上例的图示进一步取余如下图示


从图中看得出也是一种映射,但这种映射不同于哈希映射,它并非一对一。

取余的应用场景不仅在算法上用途较多,在分布式系统中也广泛应用,它进一步缩小了范围能够让计算机处理更集中、状态更一致,比如有状态的服务集群、缓存的服务集群等等,这些场景都需要把同一个客户的请求寻址发送到同一个固定的节点上,这样不仅达到了负载分散也做到了存储状态一致,避免了数据的复制。常见的作法比如对用户IP进行哈希,再以集群中节点数量作为基数取余,从而可以寻址到已经排了序的节点并与其绑定。假想一个如下分布式缓存的例子


很完美吧≧◠◡◠≦!但是!!

分布式系统中横向伸缩或节点故障等,会形成节点的自动增加或删除。比如节点B如果故障,会自动从集群中被剔除,那么取余基数则变成了2,当请求过来时新的哈希过程就会变更如下


这就比较尴尬了,用户D和E的绑定节点变更可以理解,但用户B和F绑定的节点也需要变更,导致之前的数据失效。那么如果增加了一个节点D排序为4呢,你猜会怎样


增加一个基点导致几乎所有的绑定失效,大量失效会造成了某个时间点的网络抖动和性能急剧下降。

一致性hash算法

一致性hash算法就是为了解决上述大量失效问题,失效的最主要原因是取余的基数是根据集群中的节点数动态变化的!一致性hash算法把取余的基数固定为一个常数2^32,这样可以做到以不变应万变。一致性hash算法把散列码对2^32取余从而把范围控制在[0,2^32-1]的区间范围内,并把这个区间按照顺时针的方向均匀分布在一个圆环上,称之为HASH环。hash环正上方的点代表0,按顺时针依次是1、2、3.....2^32-1。


依旧使用上述分布式缓存的例子,我们首先把集群的节点根据IP或节点名进行HASH得到散列码并取余后分布在hash环上,同时也把用户请求根据IP地址Hash取余分布在hash环上,如下图


hash环上的用户以顺时针方向寻找环上最近的节点,则此用户的请求就绑定到该节点上,绑定对应如下图,比如用户A、B、C按顺时针在hash环上绑定到节点A上


如果此时节点B出现了故障,则B会被从集群中剔除,剔除后按照一致性hash算法后绑定如下图


可以观察到,只会影响到D、E用户的节点绑定,对比发现绑定的失效量相对较少,如果增加一个节点D呢,只用影响到用户A的节点绑定,大大降低了失效率


所以一致性hash不管是在集群中剔除节点还是增加节点,对比直接hash取余都会降低失效率,充分体现了一致性hash算法的优势。

虚拟节点

如果集群中的节点太少,则会造成数据倾斜问题,就是负载不均衡,导致有些节点超负荷


此时使用虚拟节点,通过对同一个节点使用不同散列算法得到不同的散列码,尽量在hash换上分布均匀,就可以缓解数据倾斜问题,如下


不适合做什么

一致性hash只能把失效率降到最低,但无法完全避免,它最初是针对分布式cache设计的,那么Cache失效后毕竟数据源里还有数据,大不了再拿一次,数据不会丢失。但如果是有状态服务集群,比如session状态,一旦丢失将会导致大面积用户重新登录,给用户体验带来极不痛快的体验。这种问题只能通过高可用的其他方案进行弥补。


漫画 | 架构设计中的那些事

Java中异常处理的9个最佳实践

Intellij IDEA必备插件,提高效率的“七种武器”

接住喽,送你个装B的技能:JDK动态代理

给“小白”漫画 图示讲解MyBatis原理,就问香不香

面试官:CAP都搞不清楚,别跟我说你懂微服务

  • 不配合防疫检查会怎么样(不配合防疫检查)
  • 2024-09-27不配合防疫检查来源:微延安涉疫警情通报2022年4月1日至4月21日,富县公安局张家湾派出所共查处两起涉疫案件,现通报如下1、4月5日,张家湾镇三城行政村村民刘某在提前三天收到村书记告知其疫情期间举办满月酒席应申请。
  • 易烊千玺陈伟霆goodboy(女神节福利易烊千玺)
  • 2024-09-27女神节福利易烊千玺一年一度的3月8日女神节又到了~今天是女神们的专属节日,集万千宠爱于一身的她们在这一天是女王、是小公举,男生们不得不使出各种招数来讨好女神们的欢心,比如上演尴聊大戏、给女神送保温杯等等…错误的方式很容。
  • 全国最好的5所经济学大学(世界大学经济学排名)
  • 2024-09-27世界大学经济学排名2019,知名排名机构QS(QuacquarelliSymonds)发布了世界大学经济学排名统计数据,中国5所高校今年上榜总排名50强这些高校今年位列总排名中国前5强:香港科技大学位列第26名;北京大。
  • 酸甜里脊(酸甜里脊的做法)
  • 2024-09-27酸甜里脊的做法食材:玉米淀粉,猪肉,蕃茄酱,陈醋,砂糖,玉米淀粉猪肉切片后,切成细长条先用腌料腌制15分钟,再用5大匙玉米淀粉将肉条抓拌至全部均匀裹上粉锅内烧热油至160度投入裹上粉的里脊条,油温要高至肉一投入就会。
  • 自考助学是什么意思(自考助学的解释)
  • 2024-09-27自考助学的解释自考助学是高等教育自学考试的一种特有形式,一般指普通高校举办助学班,是普通高校采取多形式、多途径满足社会持续增长的高等教育需求办学的有效方式,用规范的管理、高质量的教育带动和引导社会助学活动,全日制脱。
  • 纪念神农氏的节日是什么(今日四月二十六)
  • 2024-09-27今日四月二十六导读:天气预报:今日四月二十六,不一般!晴天有啥说法?看农谚咋说今天是阳历5月26号,这个时间是个普通日子但是今天是农历四月二十六,这个日子可不一般,因为每年的农历四月二十六是华夏始祖炎帝神农氏的诞辰。
  • 通化供电公司四抓四强化 通化供电公司四抓四强化
  • 2024-09-27通化供电公司四抓四强化 通化供电公司四抓四强化来源:人民网-吉林频道11月15日,通化供电公司建设部专业人员深入曙光220千伏输变电工程建设现场,对现场安全工作进行全面细致检查,确保工程建设安全今年,通化供电公司共有11项新建、续建工程,数量为近。
  • flyme体验版停更了吗(为什么魅友说用了Flyme之后就回不去了)
  • 2024-09-27为什么魅友说用了Flyme之后就回不去了如何让智能手机更好地为人类服务,是如今各大手机厂商正在研究的课题,而随着AI的探索与应用,手机厂商似乎也找到了突破点从被AI赋能的智能语音助手,到智能手机上出现的各种人性化的功能点,如今的手机正在诠释。
  • 睡眠障碍包括节律障碍吗(认床属于睡眠障碍)
  • 2024-09-27认床属于睡眠障碍来源:经济日报-中国经济网睡觉是人生一件大事,睡得好不好往往决定这一个人一天的状态但是想睡好也不是那么容易的,有些人一旦换了环境,比如出差或者旅游就无法正常入睡了这种换一张新的床不习惯所造成心理不适应。