分布式存储客户端将写请求发送给主副本,主副本将写请求复制到其他备副本,常见的做法是同步操作日志(CommitLog)。主副本首先将操作日志同步到备副本,备副本回放操作日志,完成后通知主副本。接着,主副本修改本机,等到所有的操作都完成后再通知客户端写成功。复制协议要求主备同步成功才可以返回客户端写成功,这种协议称为强同步协议。大量PC机通过网络互联,对外作为一个整体提供存储服务。分布式存储系统可以通过增加PC机的方式,使系统整体性能表现为线性增长。分布式存储由于多个副本的存在,如何保证副本之间的一致性是整个分布式系统的理论中心。分布式存储系统实现存储系统的高可扩展性首先要解决两个方面的重要问题。天津数据分布式存储系统
而非对称式分布式存储系统中,有专门的一个或者多个节点负责管理元数据,其他节点需要频繁与元数据节点通信以获取新的元数据比如目录列表文件属性等等,后者典型表示比如HDFS、GFS、BWFS、Stornext等。对于分布式存储系统,其可以是分布式+对称式、分布式+非对称式、共享式+对称式、共享式+非对称式,两两任意组合。分布式存储系统按照元数据的管理方式,可分为对称式分布式存储系统和非对称式分布式存储系统。前者每个节点的角色均等,共同管理文件元数据,节点间通过高速网络进行信息同步和互斥锁等操作,典型表示是Veritas的VCS。天津图片分布式存储平台分布式存储的功能是非常强大的。
分布式集群与NTFS、EXT等本地文件系统的目的不同,前者是为了扩展性,后者运行在单机环境,纯粹管理块和文件之间的映射以及文件属性。分布式元数据管理架构则将元数据分散在多个结点上.进而解决了元数据服务器的性能瓶颈等问题.并提高了元数据管理架构的可扩展性,但实现较为复杂,并引入了元数据一致性的问题。另外,还有一种无元数据服务器的分布式架构,通过在线算法组织数据,不需要专门的元数据服务器。但是该架构对数据一致性的保障很困难.实现较为复杂。文件目录遍历操作效率低下,并且缺乏文件系统全局监控管理功能。
大数据具有大规模、高动态及快速处理等特性,通用的数据存储模型通常并不是能提高应用性能的模型。而大数据存储系统对上层应用性能的关注远远超过对通用性的追求。分布式存储系统需要使用多台服务器共同存储数据,而随着服务器数量的增加,服务器出现故障的概率也在不断增加。为了保证在有服务器出现故障的情况下系统仍然可用。一般做法是把一个数据分成多份存储在不同的服务器中。但是由于故障和并行存储等情况的存在,同一个数据的多个副本之间可能存在不一致的情况。这里称保证多个副本的数据完全一致的性质为一致性。分布式存储系统实现较为复杂,并引入了元数据一致性的问题。
通常一般机械硬盘得平均寻道时间为10ms。同一个服务商同时提供两个服务是有好处的,除了提供的服务比较全这个优点以外,分布式存储还可以支撑块存储的快照、主机的系统镜像存储等应用,可以相互结合的。权衡的因素有很多——可靠性要求、可用性要求、时延要求、一致性要求、使用模式相关要求(包括请求大小、QPS/IOPS、吞吐)等。面对单机存储系统面对两个难点,分布式存储系统通过集群方式扩展到几百甚至几千台集群规模来解决系统扩展能力,通过软件层面对单机服务器的硬件容错能力提升了整体集群的容错能力。分布式存储是一种混合智能。福州网络分布式存储服务
分布式存储常见的做法是同步操作日志(CommitLog)。天津数据分布式存储系统
说到分布式存储不得不提单机数据库存储的事务特性:A(原子性)C(一致性)I(隔离性)D(持久性),而扩展到分布式存储后,受限于分布式C(一致性)A(可用性)P(分区容忍性)理论,几乎不可能满足完整得事务特性。各种分布式存储服务实现都对单机存储的事务特性作了权衡取舍,满足特定的服务场景需求。另外分布式存储系统是基于网络互联的,所以除了基本得磁盘访问性能开销,还多了网络性能开销。通常一般机械硬盘得平均寻道时间为10ms。机房内网得网络访问开销一般小于0.5ms,相对性能损失较小。天津数据分布式存储系统