热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Astudyoflinuxfilesystemevolution阅读笔记(文件系统补丁)

这篇论文跟普通的论文是区别的,它并不是针对现有问题,提出一个新颖的解决方案,然后对其进行测试评估。这篇论文主要是对文件系统的代码发展做了一


这篇论文跟普通的论文是区别的,它并不是针对现有问题,提出一个新颖的解决方案,然后对其进行测试评估。
这篇论文主要是对文件系统的代码发展做了一个全面的研究。通过分析linux文件系统8年来在5097个补丁之间的改变。在文件系统开发的过程中,我们获得了很多新颖的(有时候是惊人的)观察。我们的结果对于文件系统开发本身和bug查找工具的发展都是十分有用的

1 Introduction
开源的本地文件系统,比如linux的ext4,XFS,btrfs,仍然是现在存储界的关键组件。比如,很多最近的分布式文件系统会跨本地文件系统复制数据对象(和相关的元数据),比如google GFS和Hadoop的DFS。在手机上,大多数的用户数据都被本地文件系统管理。比如google android phones使用ext4和苹果的IOS设备使用HFSX。而且,桌面用户仍然不会定期备份他们的数据。在这种情况下,本地文件系统明显扮演了一个至关重要的角色,作为唯一的用户数据管理。
开源的本地文件系统仍然是一个移动目标。不同团队因为不同目的开发文件系统,这些文件系统加入新的特性使其快速进化,修复bugs,提高性能和可靠性。每几年都有很多新的文件系统被介绍。随着最近几年技术的改变(FLASH),在这一领域,我们可以期待甚至更多变化。
进一步分解bug的分类。我们发现语义bugs是bug的主要类型,大约占了50%。并发bugs是第二常见的bugs,大约占了20%左右。剩余的bugs分别为内存bugs和不正确的纠错码处理。在内存bugs分类中,内存泄露和空指针间接引用是最常见的。
我们一样从不同角度对bugs进行分类,以获取更进步一步的见解。我们发现我们研究的很多错误都会导致系统崩溃或者corruption,因此这是非常严重的。这些bugs主要包括语义,并发,内存,纠错码bugs。以数据结构分类,我们发现btrees每行代码的错误相对较少。当以bugs是否发生在正常情况下还是发生在故障处理的过程中分类,我们发现,40%的bugs发生在故障处理的过程中。
除了以上我们研究的补丁,性能和可靠性的补丁一样是流行的,分别占补丁的8%和7%。


1.为什么研究是有用的?
研究驱动系统的设计:之前的研究关注的是测试,很少有关注系统的发展。对系统发展的研究,可以回答以下几个重要问题:1.文件系统的复杂性 2.主要的bugs类型 3.性能优化 4.可靠性增强 5文件系统之间的相似性

2.怎么研究?
手动补丁检查:
XFS,EXT4,BTRFS,EXT3,REISERFS,JFS,
LINUX 2.6 系列
5079个补丁
分析:
补丁类型,bug模式,结果
性能和可靠性技术
提供一个注释数据集:
丰富的数据为了进一步分析

3.主要结果
bugs是普遍存在的
语义bugs占主导地位
bugs 是constant
corruption和crash是非常普遍的情况
元数据的管理会出现更多的bugs
在故障处理过程中是更容易出错的
各种性能技术被使用
2 Methodology
在这一章节中,我们首先对我们的目标文件系统做一个间断的描述,然后,我们以详细的列子阐述我们怎样分析补丁。最后我们讨论我们方法的局限性。
 2.1 Target File Systems
对于文件系统的选择,主要包括不同的可靠性特征(物理日志,逻辑日志,校验和,写时复制),数据结构(hash表,间接块,扩展映射表,树),性能优化(异步线程池,扩展算法,缓存,SSD设备块分配),更高级的特征(预分配,快照,卷),成熟度(稳定,仍在开发)。
根据以上原因,我们选择以下6个文件系统和他们的相关模块:Ext3 with JBD [47], Ext4 with JBD2 [31], XFS [46], Btrfs [30], ReiserFS [13], and JFS [10].

对于patch的分析,我们举个例子来说明,这个例子是关于解决可能的内存空指针问题。
patch header:




总结:
patch概览:
类型:bug
bug分析:
模式:内存(空指针)
结果:crash
数据结构:super 
工具:coverity

本文使用的方法限制:
     1.只有六种流行的文件系统
     2.只有linux2.6的主要版本
     3.只有被报告的bugs

3 Patch Overview
     需要关注的问题:
1.补丁是做什么的?
2.bugs是什么样的
3.bugs会随着时间的推移减少吗?
4.bugs会导致的结果
5.文件系统的复杂性体现在哪?
6.什么性能技术被使用

下面针对以上几个问题进行深入研究:

  1.补丁是做什么的?
补丁分为以下5中类型:bug补丁,性能补丁,可靠性补丁,特征补丁,维护补丁,各类补丁的具体描述见下图。


     45%的patches用于维护,35%的patches用于bugs修复。

     2.bugs是什么样的
         bugs的类型分为语义bugs,并发bugs,内存bugs,纠错码bugs。
语义bugs指的是错误的设计和实现(错误的状态更新,错误的设计)
并发bugs指的是错误的并发行为(没有解锁,死锁)
内存bugs是指错误操作内存对象(资源泄露,空指针间接引用)
纠错码bugs是指丢失或者错误的纠错码操作

  在bugs中,55%的bugs都是语义bugs
3.bugs会随着时间的推移减少吗?
          在整个文件系统的生命周期里,bugs的修复是个不间断的过程。

        4.bugs会导致的结果
        bugs导致以下几种结果:
            数据损坏和系统崩溃是最常见的情况。

 5.文件系统的复杂性体现在哪?
                    
           结论:元数据的管理有很高的bugs密度。与tree相关的代码不是太容易出错

        6.什么性能技术被使用
                  
结论:各种各样的性能技术在文件系统中被广泛使用。

根据以上6个问题,进行文件系统patches的总结;
         在patches当中,最多的是维护类的patches,其次是bugs的patches。
         在bugs中,语义bugs是最多的。
         在各个linux版本中,文件系统的bugs是不会随着时间减少的。
          bugs导致的最常见的结果是数据损坏和系统崩溃。
          元数据的管理占最高的bugs密度,tree组件没有太多的bugs。
          各种各样的性能技术在文件系统中被广泛使用。

最后,作者给出了做了注释的数据集。
Our dataset is released
     ➡ http://research.cs.wisc.edu/wind/Traces/fs-patch/




推荐阅读
  • 本文详细介绍了优化DB2数据库性能的多种方法,涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段,可以显著提升数据库的运行效率和响应速度。 ... [详细]
  • JSOI2010 蔬菜庆典:树结构中的无限大权值问题
    本文探讨了 JSOI2010 的蔬菜庆典问题,主要关注如何处理非根非叶子节点的无限大权值情况。通过分析根节点及其子树的特性,提出了有效的解决方案,并详细解释了算法的实现过程。 ... [详细]
  • 目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • Hadoop发行版本选择指南:技术解析与应用实践
    本文详细介绍了Hadoop的不同发行版本及其特点,帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]
  • 深入理解 .NET 中的中间件
    中间件是插入到应用程序请求处理管道中的组件,用于处理传入的HTTP请求和响应。它在ASP.NET Core中扮演着至关重要的角色,能够灵活地扩展和自定义应用程序的行为。 ... [详细]
  • 本文详细探讨了 org.apache.hadoop.ha.HAServiceTarget 类中的 checkFencingConfigured 方法,包括其功能、应用场景及代码示例。通过实际代码片段,帮助开发者更好地理解和使用该方法。 ... [详细]
  • Appium + Java 自动化测试中处理页面空白区域点击问题
    在进行移动应用自动化测试时,有时会遇到某些页面没有返回按钮,只能通过点击空白区域返回的情况。本文将探讨如何在Appium + Java环境中有效解决此类问题,并提供详细的解决方案。 ... [详细]
  • 2018-2019学年第六周《Java数据结构与算法》学习总结
    本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容,重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]
  • Nginx 反向代理与负载均衡实验
    本实验旨在通过配置 Nginx 实现反向代理和负载均衡,确保从北京本地代理服务器访问上海的 Web 服务器时,能够依次显示红、黄、绿三种颜色页面以验证负载均衡效果。 ... [详细]
  • 本文介绍了在Java环境中使用PDFBox和XPDF工具从PDF文件中提取文本内容的方法。重点讨论了处理中文字符集及解决相关错误的技术细节,特别是针对某些特定格式的PDF文件(如网上填写的报名表和下载的论文)遇到的问题及解决方案。 ... [详细]
  • 本文深入探讨了SQL数据库中常见的面试问题,包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点,以及事务和存储过程的概念。通过详细的解答和示例,帮助读者更好地理解和应对这些技术问题。 ... [详细]
  • 本题来自WC2014,题目编号为BZOJ3435、洛谷P3920和UOJ55。该问题描述了一棵不断生长的带权树及其节点上小精灵之间的友谊关系,要求实时计算每次新增节点后树上所有可能的朋友对数。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • 从码农到创业者:我的职业转型之路
    在观察了众多同行的职业发展后,我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师,并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]
author-avatar
郭尚刚
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有