解剖SQLSERVER第十六篇OrcaMDFRawDatabase--MDF文件的瑞士军刀（译）

作者：六道轮回2602906501 | 来源：互联网 | 2023-08-19 11:25

解剖SQLSERVER第十六篇OrcaMDFRawDatabase--MDF文件的瑞士军刀（译）http:improve.dkorcamdf-rawdatabase-a-swiss-

解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士军刀（译）

http://improve.dk/orcamdf-rawdatabase-a-swiss-army-knife-for-mdf-files/

当我最初开始开发OrcaMDF的时候我只有一个目标，比市面上大部分的书要获取MDF文件内部的更深层次的知识

随着时间的推移，OrcaMDF确实做到了。在我当初没有计划的时候，OrcaMDF 已经可以解析系统表，元数据，甚至DMVs。我还做了一个简单UI，让OrcaMDF 更加容易使用。

这很好，但是带来的代价是软件非常复杂。为了自动解析元数据例如schemas, partitions, allocation units 还有其他的东西，更不要提对于堆表和索引的细节的抽象层了，抽象层需要很多代码并且需要更多的数据库了解。鉴于不同SQLSERVER版本之间元数据的改变，OrcaMDF 目前仅支持SQL Server 2008 R2。然而，数据结构是相对稳定的，元数据的存储方式只有一点不同，使用DMVs暴露数据等等。要让OrcaMDF 正常运行，需要元数据是完好无损的，这就导致当SQLSERVER损坏的时候OrcaMDF 也是一样的。遇到损坏的boot page吗？无论SQLSERVER还是 OrcaMDF 都不能解析数据库

向RawDatabase问好
我在憧憬OrcaMDF 的未来和如何使用他才是最有用的。我能够不断增加新的特性进去以使SQLSERVER支持什么功能他也支持，最终使得他能100%解析MDF文件。但是意义何在？当然，这是一个很好的学习机会，不过重点是，你使用软件读取数据，SQLSERVER能比你做得更好。所以，该如何选择？

RawDatabase, 参照Database 类，他不会尝试解析任何东西除非你让他去解析。
他不会自动解析schemas。他不知道系统表。他不知道DMVs。然而他知道SQLSERVER数据结构和给他一个接口他可以直接读取MDF文件。

让RawDatabase 只解析数据结构意味着他可以跳过损坏的系统表或者损坏的数据

例子
这个工具还在开发的早起，不过让我展示一下使用RawDatabase能够做什么东西。
当我运行LINQPad上的代码，他很容易的显示出结果，结果只是标准的.NET 对象。
所有的例子都在AdventureWorks 2008R2 LT (Light Weight)数据库上运行

获取单个页面
很多时候，我们只需要解析单个页面

// Get page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).Dump();

解析页头
现在我们获取到页面，我们如何把页头dump出来

// Get the header of page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).Header.Dump();

解析行偏移阵列
就像页头那样，我们也可以把页尾的行偏移阵列条目dump出来

// Get the slot array entries of page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).SlotArray.Dump();

解析数据记录
当获取到行偏移条目的原始数据，你通常想看一下数据行记录的内容。幸运的是，这也很容易做到

// Get all records on page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).Records.Dump();

从记录中检索数据
一旦你得到记录，你现在可以利用FixedLengthData 或者 VariableLengthOffsetValues 属性
去获取原始的定长数据内容和变长数据内容。然而，你肯定只想获取到实际的已解析的数据值。
对于解析，OrcaMDF会帮你解析，你只需要为他提供schema.

// Read the record contents of the first record on page 197 of file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
RawPrimaryRecord firstRecord = (RawPrimaryRecord)db.GetPage(1, 197).Records.First();

var values = RawColumnParser.Parse(firstRecord, new IRawType[] {
    RawType.Int("AddressID"),
    RawType.NVarchar("AddressLine1"),
    RawType.NVarchar("AddressLine2"),
    RawType.NVarchar("City"),
    RawType.NVarchar("StateProvince"),
    RawType.NVarchar("CountryRegion"),
    RawType.NVarchar("PostalCode"),
    RawType.UniqueIdentifier("rowguid"),
    RawType.DateTime("ModifiedDate")
});
    
values.Dump();

RawColumnParser.Parse方法做的事情是跟他一个schema,他帮你自动将raw bytes转换为Dictionary，key就是从schema 那里获取到的列名，

而value就是数据列的实际值，例如int，short，guid，string等等。让你的用户给定schema, OrcaMDF 可以跳过大量的依赖的元数据进行解析，因此可以忽略可能的元数据错误带来的数据读取失败。

由于页头已经给出了 NextPageID 和 PreviousPageID属性，这能够让软件简单的遍历链表中的所有页面，并解析这些页面里面的数据 --他基本上是根据给定的allocation unit来进行扫描

过滤页面
除非检索一个特定的页面，RawDatabase 也有一个页面属性能够枚举数据库中的所有页面。
使用这个属性，举个例子，获取数据库中所有的IAM页面的列表

// Get a list of all IAM pages in the database
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.Pages
    .Where(x => x.Header.Type == PageType.IAM)
    .Dump();

并且由于这是使用LINQ技术，这很容易去设计你想要的属性。
举个例子，你可以获取所有的 index pages 和他们的 slot counts 就像这样：

// Get all index pages and their slot counts
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.Pages
    .Where(x => x.Header.Type == PageType.Index)
    .Select(x => new {
        x.PageID,
        x.Header.SlotCnt
    }).Dump();

或者假设你想获得如下条件的页面
1、页面里面至少有一条记录
2、free space空间至少有7000 bytes

下面是page id, free count, record count 和平均记录大小的输出

var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.Pages
    .Where(x => x.Header.FreeCnt > 7000)
    .Where(x => x.Header.SlotCnt >= 1)
    .Where(x => x.Header.Type == PageType.Data)
    .Select(x => new {
        x.PageID,
        x.Header.FreeCnt,
        RecordCount = x.Records.Count(),
        RecordSize = (8096 - x.Header.FreeCnt) / x.Records.Count()
    }).Dump();

最后一个例子，,假设你只有一个MDF文件并且你已经忘记了有哪些对象存储在MDF文件里面。
不要紧，我们只需要查询系统表sysschobjs ！sysschobjs 系统表包含了所有对象的数据
并且幸运的是，他的object ID 是 34。利用这些信息，我们可以把所有属于object ID 34的数据页面
过滤出来，并且从这些页面里读取记录并只需要解析这个表的前两列（你可以定义一个分部schema, 只要你在最后忽略列）

最后我们只需要把名称dump出来（当然我们可以把表里的所有列都查询出来，如果我们想的话）

SELECT * FROM sys.sysschobjs

var db = new RawDatabase(@"C:\AWLT2008R2.mdf");

var records = db.Pages
    .Where(x => x.Header.ObjectID == 34 && x.Header.Type == PageType.Data)
    .SelectMany(x => x.Records);
    
var rows = records.Select(x => RawColumnParser.Parse((RawPrimaryRecord)x, new IRawType[] {
    RawType.Int("id"),
    RawType.NVarchar("name")
}));

rows.Select(x => x["name"]).Dump();

兼容性
可以看到 RawDatabase并不依赖于元数据，这很容易兼容多个版本的SQLSERVER。
因此，我很高兴的宣布：RawDatabase 完全兼容SQL Server 2005, 2008, 2008R2 ， 2012.
这也有可能兼容2014，不过我还未进行测试。说到测试，所有的单元测试都是自动运行的
在测试期间使用AdventureWorksLT for 2005, 2008, 2008R2 and 2012 。
现在有一些测试demo来让OrcaMDF RawDatabase去解析AdventureWorks LT 数据库里面每个表的每条记录

数据损坏
其中一个有趣的使用RawDatabase 的方法是用来附加损坏的数据库。你可以检索特定object id的所有页面然后硬解析每个页面
无论他们是否是可读的。如果元数据损坏，你可以忽略他，你手工提供schema （输入表的每个列的列名）并且只需要沿着页面链表
或者解析IAM页面去读取堆表里面的数据。接下来的几个星期我将会写一些关于OrcaMDF RawDatabase 的使用场景的博客，其中包括数据损坏

源代码和反馈
我非常兴奋因为最新的RawDatabase 已经添加到OrcaMDF 里面并且我希望不单只只有我一个见证他的威力。
如果你也想试一试，或者有任何想法，建议或者其他反馈，我都很乐意接受。

如果你想试用，在GitHub上签出OrcaMDF项目。一旦这个工具做得比较完美了，我会把他放上去NuGet 。
就好像OrcaMDF一样，在GPL v3 licensed 下发布

第十六篇完

推荐阅读

char
关于SQLSERVER的全文目录跟全文索引的区别

很久没有写随笔了，本来之前想写一篇关于SQLSERVER全文索引的随笔，可惜没有时间，一直拖到现在才有时间写，不好意思让各位久等了~先介绍一下SQLSERVER中的存储类对象，哈哈，先介绍一下概念嘛 ... [详细]

蜡笔小新 2023-10-11 11:25:01
schema
binlog2sql，你该知道的数据恢复工具

binlog2sql，你该知道的数据恢复工具 ... [详细]

蜡笔小新 2024-11-22 18:58:43
join
SQLServer与Access数据库ASP代码有什么区别

这篇文章主要讲解了“SQLServer与Access数据库ASP代码有什么区别”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深 ... [详细]

蜡笔小新 2023-09-24 14:43:05
web
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
web
深入解析轻量级数据库 SQL Server Express LocalDB

本文详细介绍了 SQL Server Express LocalDB，这是一种轻量级的本地 T-SQL 数据库解决方案，特别适合开发环境使用。文章还探讨了 LocalDB 与其他轻量级数据库的对比，并提供了安装和连接 LocalDB 的步骤。 ... [详细]

蜡笔小新 2024-11-25 20:36:01
char
SQL 数据恢复技巧：利用快照实现高效恢复

本文详细介绍了如何在 SQL 中通过数据库快照实现数据恢复，包括快照的创建、使用及恢复过程，旨在帮助读者深入了解这一技术并有效应用于实际场景。 ... [详细]

蜡笔小新 2024-11-25 18:00:40
char
解决ORA-00227错误：控制文件中检测到损坏块

本文详细介绍了如何处理Oracle数据库中的ORA-00227错误，即控制文件中检测到损坏块的问题，并提供了具体的解决方案。 ... [详细]

蜡笔小新 2024-11-25 11:31:38
join
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
char
SqlServer存储过程异常处理

微软平台的软件开发系统中，有着一套自己的约定规则。熟悉.net开发的都会对异常处理不陌生，现阶段的各种编程语言中，都不乏异常处理机制，个中原理也都大同小异。sqlserver在批处 ... [详细]

蜡笔小新 2023-10-10 15:10:34
char
定制数据层_sqlserver

定制数据层关键字：数据层，访问，元数据，数据访问模型http://www.gaodaima.com/35448.html定制数据层_sqlserver ... [详细]

蜡笔小新 2023-10-10 12:26:17
select
SQLServer2008全套数据库简介，分离，收缩，快照

第三课视频笔记：联机丛书的使用附加和分离数据库---收缩数据库--------数据库快照 ... [详细]

蜡笔小新 2023-09-25 06:09:52
schema
SqlServer分区表概述（转载）

什么是分区表一般情况下，我们建立数据库表时，表数据都存放在一个文件里。但是如果是分区表的话，表数据就会按照你指定的规则分放到不同的文件里，把一个大的数据文件拆分为多个小文件，还可以把这些小文件 ... [详细]

蜡笔小新 2023-09-24 13:16:49
import
Java连接SqlServer2008数据库（转）

Java连接SqlServer2008数据库首先下载JDBC：下载地址：http:www.microsoft.comzh-cndownloaddetails.aspx?id21599下载 ... [详细]

蜡笔小新 2023-10-10 13:15:33
import
【存档归纳】Sqlserver数据库详解 ----深度挖掘sqlserver帮助所得一

在Sqlserver数据库历代版本当中，系统数据库有四个，master，model，msdb，tempdbmaster----记录SQLServer系统的所有系统级信息。这包括实例范围的元数 ... [详细]

蜡笔小新 2023-10-10 11:11:58
web
日志不停的在刷新SQLSERVER 错误

在目标队列中对消息进行排队时出现异常。错误:15404，状态:19。CouldnotobtaininformationaboutWindowsNTgroupuserSERVER ... [详细]

蜡笔小新 2023-09-24 15:36:20

六道轮回2602906501

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章