Cassandra内部架构介绍
Cassandra是一个开源的、分布式的、无中心节点的、有弹性和可扩展的、高度可用的、容错的、一致和协调的、面向列的NoSQL数据库。
Cassandra集群(Cluster)Cluster
Node(节点):一个运行cassandra的实例
Rack(机架):一组nodes的集合
DataCenter(数据中心):一组racks的集合
Cluster(集群):映射到拥有一个完整令牌圆环所有节点的集合
协调者(Coordinator)客户端连接到某一节点发起读写请求时,该节点充当客户端应用与集群中拥有相应数据节点间的桥梁,称为协调者,以根据集群配置确定环(ring)中的哪个节点应当获取这个请求。
使用CQL连接指定的-h节点就是协调节点
1、集群中任何一个节点都可能成为协调者
2、每个客户端请求都可能由不同的节点来协调
3、由协调者管理复制因子(复制因子:一条新数据应该被复制到多少个节点)
4、协调者申请一致性级别(一致性级别:集群中有多少节点必须相应读写的请求)
分区器(Partitioner)分区器决定了数据如何在集群内被分发。在Cassandra中,table的每行由唯一的primarykey标识,partitioner实际上为一hash函数用,以计算primary key的token。Cassandra依据这个token值在集群中放置对应的行。
Cassandra提供了三种不同的分区器
Murmur3Partitioner(默认)- 基于MurmurHash hash值将数据均匀的分布在集群
RandomPartitioner - 基于MD5 hash值将数据均匀的分布在集群中
ByteOrderedPartitioner - 通过键的字节来保持数据词汇的有序分布
虚拟节点(Vnode)每个虚拟节点对应一个token值,每个token决定了节点在环中的位置以及节点应当承担的一段连续的数据hash值的范围,因此每个节点都拥有一段连续的token,这一段连续的token,组成了一个封闭的圆环。
没有使用虚拟节点, Ring环的tokens数量=集群的机器数量. 比如一共有6个节点,所以token数=6.因为副本因子=3,一条记录要在集群中的三个节点存在. 简单地方式是计算rowkey的hash值,落在环中的哪个token上,第一份数据就在那个节点上,剩余两个副本落在这个节点在token环上的后两个节点.