当前位置: 开发笔记 > 编程语言 > 正文

活动精彩实录|Cassandra在360的最新进展（二）

作者：赵顺帆_705 | 来源：互联网 | 2023-09-13 15:25

来自360系统部的国浩老师从四个方面介绍了Cassandra

点击蓝字关注我们

在本文中，来自360系统部的国浩就Cassandra在360的最新进展进行了介绍。在360，国浩老师负责对象存储系统的开发、对Cassandra的二次开发及线上集群维护。

由于本次演讲时间较长，我们将分为三篇文章在微信上刊载。此篇为演讲的第二部分。

点击文末“阅读原文”观看演讲录像，了解更多技术细节。

针对上面这个设计我们也需要更改我们的数据副本分布策略。

默认的副本分布策略是SimpleStrategy，也就是说三副本的情况是往环里的下面两个节点顺延来存储另外两个副本。

我们设计里的Chunk表需要采取一个新的副本分布策略，因为我们需要保证Chunk表里10+4的所有块最大限度的分布到尽可能多的节点里，所以我们新增了一个条带化的副本分布策略，如上图所示。

我们的Key Meta还是使用普通的副本存储策略，因为这个元数据是非常重要的，如果它丢了，那就代表整个key下面的数据都丢掉了。所以元数据还是使用Simple的副本分布策略。

针对我们刚才提到的加入EC纠删码以后，我们需要更改我们数据读写的路径，以及加入两个新的扩展表，我们在读取的路径下做了一些修改，并且针对于它的数据修复做了一个定制化的读修复的功能。

每次需要读一个key的时候，先去读取它的元信息，拿到它的所有Chunk的数据块的信息。如果所有的数据块都是健康的，我们会在协调者节点上直接把数据拼装好了以后直接发送给我们的客户端。

如果发现有数据块是丢失的，我们会去读取我们的EC校验块，再加上我们原有的数据块进行一个EC的反解码，拿到最终的数据，把这部分的数据直接返回给我们的客户端。

另一部分因为发现有数据缺失，我们会在系统表里（System Keyspace里我们创建了一张默认的系统表）记录我们丢失的数据块的信息。

为什么要加这张表？因为我们有数据块丢失发生的时候往往是这个数据块的节点已经挂掉了。这时如果我们把这个信息存到这样的本地表里，不管对方的节点是不是还是存活的，再由一个repair task异步的去消费这个表里的数据，如果那个节点还是挂掉的，我们这个表里的数据不会删。

如果节点是健康的状态的话，相当于我们发送了写请求把这个修回来了之后，对应的我们会清除本地表的内容。这样可以做到读取过程中的读修复。

我们还针对这个EC功能加了一个异步删除的功能。也就是说我们在写入一条删除请求的时候，相当于也是写入了一条Delete的标志。

所以我们在截取到Delete标志的时候，会在协调者节点读取我们的元信息，然后同步地标记删除元信息，同时也会开一个异步的线程池一点一点地标记Chunk信息的删除。下次读取的时候只要元信息已经被标记删除了，就会正常返回删除。

这张slide继续说明我们针对成本节约的另一个改进。

我们这种对象存储的场景，有些用户会使用删除的请求。

Cassandra默认的是在SSTable层面把正常的数据和删除的数据混合的，如果我们要释放数据空间的话，需要对这些SSTable做Compaction才能真正的删除，这样并不能做到一个精准的删除。

在用户删除无规律的情况，怎样能性价比更高的精准删除，释放空间呢？

我们改了Cassandra做Flush memtable的过程，在里面加了一个迭代器，对每一个row都做DeletionTime.isLive()判断。如果这个row是带删除标记的数据，就flush到delFile SSTable里；如果是普通的数据，就flush到正常的SSTable里。

这样可以把带删除标记的数据和正常数据分开，在做compaction的时候就可以非常精准的释放空间。

Compaction里面是这样做的：首先我们挑一些DelFile SSTable出来，每个DelFile SSTable也会有一个StartKey以及EndKey，我们根据这个范围在正常的SSTable扫描看看有没有交集，把有交集的SSTable筛选出来。

然后确认DelFile的Rowkey也在这些筛选出来的SSTable里，形成SSTable的列表，把这些SSTable和我们的DelFile做一次Compaction，这样可以精准的释放我们删除的空间，形成新的SSTable。

这里我们对数据的可靠性做了二次开发，也就是摘盘自愈的功能。

一个存储系统避免不了出现坏盘的问题。如何处理坏盘丢数据的问题呢？

大家知道Cassandra自带有一些修复功能：Hinted Handoff, Read Repair读修复, Anti-Entropy Node Repair反熵修复。但是对于我们这样重IO的场景，反熵修复的开销也是非常大的，所以我们一般也不会去开启反熵修复。

这里Cassandra的主要问题，是并不能自主的知道哪些数据丢失了，比如我们有一个坏盘，它并不知道哪些数据丢失了，它需要一个精准的方式知道哪些范围的数据丢失。

Cassandra在检测到IO Exception（比如有坏盘）的时候，默认的机制是STOP，也就是进入一个对客户端和其他节点看来都是挂掉的状态。同时它会把BadDataDir加入到一个黑名单BlackList里面，这样后续和IO相关的一些操作（比如Flush memtable）就会避免这个目录。

我们在这个加入Blacklist的地方做了一些二次开发。

首先我们对IOException加了一个引用的计数。比如说，我们有十块盘，如果盘1出现了十次IOException，我们会把它标记为一个不可用的状态，把它加入黑名单。

然后我们会去通过一个Hook去扫SSTableTracker（这是Cassandra内部的一个数据结构，用来存储CF下面都有哪些SSTable）中属于坏盘数据目录下面的SSTable，并且把这些SSTable对应的Keyspace、CF以及token范围加到一个叫SSTableLost的系统表里。

后面会有一个异步的RepairTask对这些范围做修复。

有了这个实现，就解放了我们的一些运维的压力。因为出现了坏盘以后，不用运维去特别快速的修复，因为系统有自动修复的能力。

---未完待续---

本文版权归DataStax所有

未经书面允许禁止转载

DataStax在中国

技术资讯 | 行业动态 | 活动信息

阅读这篇文章有收获？
请通过点赞、分享和在看告诉我们

推荐阅读

spring
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
string
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
less
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
string
如何自行分析定位SAP BSP错误

The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]

蜡笔小新 2023-12-14 19:58:05
random
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
string
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
string
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
stream
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
stream
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
stream
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
stream
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
stream
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
import
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
copy
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
copy
Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池？

本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点，解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时，介绍了JDK原生线程池的工作流程。 ... [详细]

蜡笔小新 2023-12-13 16:18:09

赵顺帆_705

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章