分布式系统设计之CAP理论

一、概述

CAP理论是美国加州大学的计算机科学家 Eric Brewer 在1998年提出的，该理论主要指出了分布式系统设计中存在两个质量指标：数据强一致性（Consistent）和服务高可用（Avaliability），以及一个不可避免的缺陷：网络分区，以及对应的网络分区容忍（Partition tolerance），其中数据一致性和服务可用性在分布式系统中是不能同时存在的，即要么保证数据的强一致性，服务可以出现不可用的情况，要么保证服务的高可用，而数据可以出现不一致的情况，具体原因以下详细分析。
其次是网络分区容忍，由于网络的不稳定性，网络分区是不可避免的，即两个机器之间无法通信，而分布式系统的各个子服务又需要通过网络来传输数据进行通信，所以在分布式系统设计中，需要能够容忍出现网络分区的情况，即在出现网络分区时，要根据实际业务特点，如是需要保证数据的强一致性还是需要保证服务的高可用，在数据一致性和服务可用性之间做一个取舍，这个取舍不能对实际的业务造成致命影响，否则这个分布式系统就失去了意义。
而如果既要保证数据的强一致性，又要保证服务的高可用，则只能使用单体应用架构了，因为单体应用架构的所有功能模块都运行在一个进程内部，功能模块之间不需要通过网络来传输数据，故不会受到网络出现不稳定时的网络分区的影响。
CAP理论分析

二、CAP理论分析

以下以分布式存储系统来在分析数据强一致性与服务高可用（CA）不能在分布式系统中同时存在的主要原因：

数据强一致性：在传统的CAP理论中，数据强一致性通常是指在分布式存储系统中，数据存储主节点与多个备份存储节点的数据在任何时候需要保持一致，即客户端任何时候需要请求某项数据时可以访问任何一个节点，即主节点或者备份节点，对应所返回的数据都是一样的。
服务高可用：而服务高可用是指客户端在任何时候需要获取某项数据时，都可以随时访问对应的数据存储节点，数据存储节点都可以成功返回该数据。
CA不能同时存在的原因

CA不能同时存在的原因

由于数据存储主节点和多个数据存储备份节点是分布在不同机器节点的，故在数据存储主节点写入某项数据后，需要通过网络来传输到其他的多个备份节点，则由于在数据存储主节点写入数据后，同步到备份节点之前，主节点和备份节点的数据是不一致的，此时如果需要保证数据的强一致性，由于从主节点通过网络同步到多个备份节点的过程是存在网络延迟的且一般存在多个备份节点，所以在所有备份节点达到与主节点数据一致的这段时间内，客户端是不能访问该项数据的，否则可能访问到还没从主节点同步过来该项数据的某个备份节点的旧数据，而其他客户端可能访问到已经同步完成的节点的新数据，故会出现数据不一致的问题，这与需要保证数据强一致性的要求是相反的。
反过来分析，如果需要保证服务的高可用，则此时客户端还可以继续选择任意一个节点来访问该项数据，由于可能访问到进行数据同步的节点或者未进行数据同步的节点，故可能访问到最新数据，也可能访问到旧数据，所以不能保证数据的强一致性。
总结

三、总结

所以在进行分布式系统设计时，需要认识到CAP理论中，数据强一致性和服务高可用不能同时满足的限制，从而根据实际业务特点，对这两个进行二选一，设计出一个切实可行的解决方案。

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

分布式系统设计之CAP理论

一、概述

二、CAP理论分析

CA不能同时存在的原因

三、总结

与本文相关的文章

评论列表(0)