热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

Oracle怎样标记坏块及一次数据恢复

Oracle数据文件的坏块,可分为物理坏块和逻辑坏块。物理坏块(也可以称为介质坏块)指的是块格式本身是坏的,块内的数据没有任何

Oracle数据文件的坏块,可分为物理坏块和逻辑坏块。物理坏块(也可以称为介质坏块)指的是块格式本身是坏的,块内的数据没有任何

Oracle数据文件的坏块,可分为物理坏块和逻辑坏块。物理坏块(也可以称为介质坏块)指的是块格式本身是坏的,块内的数据没有任何意义。而逻辑坏块,指的是块内的数据在逻辑是存在问题。比如说索引块的索引值没有按从小到大排列。物理坏块一般是由于内存问题、OS问题、IO子系统问题和硬件引起,逻辑坏块一般是是由于Oracle Bug等原因引起。

Oracle数据文件的每个块,其块头为20字节。其定义如下:(来自于DSI401)

struct kcbh
{
ub1 type_kcbh; /* block type */
ub2 frmt_kcbh;
ub1 spare1_kcbh;
ub1 spare2_kcbh;
krdba rdba_kcbh; /* relative DBA */
ub4 bas_kcbh; /* base of SCN */
ub2 wrp_kcbh; /* wrap of SCN */
ub1 seq_kcbh; /* sequence # of changes at the same scn */
ub1 flg_kcbh;
ub2 chkval_kcbh;
};

在块头中,seq_kcbh(占用1字节,块头偏移14)有着特殊的含义,如果该值为0xff,则表示该块被标记为corruption。

下面我们做一个测试:

SQL> create table test.t1 as select * from dba_objects;

表已创建。

SQL> select header_file,header_block from dba_segments where segment_name=’T1′ and owner=’TEST’;

HEADER_FILE HEADER_BLOCK
----------- ------------
10 1445

修改db_block_checksum参数值为TRUE,关闭数据库,我们用ultraedit修改10号文件的1447块的check sum(一个随便>0的数)及flag=0×04。然后再打开数据库。再执行下面的查询:

SQL> select count(*) from test.t1;
select count(*) from test.t1
*
ERROR 位于第 1 行:
ORA-01578: ORACLE 数据块损坏(文件号10,块号1447)
ORA-01110: 数据文件 10: ‘D:\ORACLE\ORADATA\XJ\TEST01.DBF’

由于非系统表空间在db_block_checksum参数设为FALSE时,会忽略checksum的检查。所以这里为了测试的方便设置为TRUE。
从上面的错误信息来看,块号1447这个块已经坏了,报的错误是经典的ORA-01578错误。

我们用dbv检查一下这个文件:

D:\oracle\oradata\XJ>dbv file=TEST01.dbf blocksize=2048

DBVERIFY: Release 9.2.0.1.0 - Production on 星期一 2月 23 17:20:43 2009

Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.

DBVERIFY - 验证正在开始 : FILE = TEST01.dbf
标记为损坏的页1447
***
Corrupt block relative dba: 0×028005a7 (file 10, block 1447)
Bad check value found during dbv:
Data in bad block -
type: 6 format: 2 rdba: 0×028005a7
last change scn: 0×0000.0023b43e seq: 0×2 flg: 0×04
consistency value in tail: 0xb43e0602
check value in block header: 0xf0f0, computed block checksum: 0×3a4f
spare1: 0×0, spare2: 0×0, spare3: 0×0
***

DBVERIFY - 验证完成

检查的页总数 :56660
处理的页总数(数据):53947
失败的页总数(数据):0
处理的页总数(索引):30
失败的页总数(索引):0
处理的页总数(其它):2669
处理的总页数 (段) : 0
失败的总页数 (段) : 0
空的页总数 :13
标记为损坏的总页数:1
汇入的页总数 :0

dbv检查发现了坏块(check错误)。
而如果用analyze命令检查也会发现有坏块:

SQL> analyze table test.t1 validate structure;
analyze table test.t1 validate structure
*
ERROR 位于第 1 行:
ORA-01578: ORACLE 数据块损坏(文件号10,块号1447)
ORA-01110: 数据文件 10: ‘D:\ORACLE\ORADATA\XJ\TEST01.DBF’

我们用dbms_repair来处理这个坏块(实际上如果只是checksum坏了,可以修改checksum为正确的值。但实际情况下,checksum坏了往往意味着坏内的数据已经坏了,大多数情况下只能丢弃):

SQL>> begin
2 dbms_repair.admin_tables (
3 table_name => ’REPAIR_TABLE’,
4 table_type => dbms_repair.repair_table,
5 action => dbms_repair.create_action,
6 tablespace => ’SYSTEM’);
7 end;
8 /

PL/SQL 过程已成功完成。
SQL> set serveroutput on
SQL> declare
2 rpr_count int;
3 begin
4 rpr_count := 0;
5 dbms_repair.check_object (
6 schema_name => ’TEST’,
7 object_name => ’T1′,
8 repair_table_name => ’REPAIR_TABLE’,
9 corrupt_count => rpr_count);
10 dbms_output.put_line(’repair count: ’ || to_char(rpr_count));
11 end;
12 /
repair count: 1

PL/SQL 过程已成功完成。
SQL> select object_name, block_id, corrupt_type, marked_corrupt,corrupt_description,
2 repair_description from repair_table;

OBJECT_NAME BLOCK_ID CORRUPT_TYPE MARKED_COR CORRUPT_DESCRIPTION REPAIR_DESCRIPTION
------------- ---------- ------------ ---------- -------------------- --------------------
T1 1447 6148 TRUE mark block software
corrupt

T1 1447 6148 TRUE mark block software
corrupt
SQL> declare
2 fix_count int;
3 begin
4 fix_count := 0;
5 dbms_repair.fix_corrupt_blocks (
6 schema_name => ’TEST’,
7 object_name => ’T1′,
8 object_type => dbms_repair.table_object,
9 repair_table_name => ’REPAIR_TABLE’,
10 fix_count => fix_count);
11 dbms_output.put_line(’fix count: ’ || to_char(fix_count));
12 end;
13 /
fix count: 0

PL/SQL 过程已成功完成。
SQL> begin
2 dbms_repair.skip_corrupt_blocks (
3 schema_name => ’TEST’,
4 object_name => ’T1′,
5 object_type => dbms_repair.table_object,
6 flags => dbms_repair.skip_flag);
7 end;
8 /

PL/SQL 过程已成功完成。

SQL> select table_name, skip_corrupt from dba_tables where table_name = ’T1′ and owner=’TEST’;

TABLE_NAME SKIP_COR
------------------------------ --------
T1 ENABLED

SQL> select count(*) from test.t1;

COUNT(*)
----------
28762

SQL> alter system checkpoint;

系统已更改。

从上面可以看到,dbms_repair.fix_corrupt_blocks并不修复checksum错误,也不做坏块标记。通过dbv和用ultraedit检查块头,没有发现任何变化。但是通过dbms_repair.skip_corrupt_blocks过程在数据字典中将表设置为跳过坏块,则在查询时会跳过该块。

如果用RMAN备份该文件,而后还原该文件后,则这个坏块的seq_kcbh则被设为0xff。而此时用dbv查该文件则显示的错误信息则为:

DBVERIFY - 验证正在开始 : FILE = TEST01.dbf

DBV-00200: 块, dba 41944487, 已经标记为崩溃

DBVERIFY - 验证完成

检查的页总数 :56655
处理的页总数(数据):53948
失败的页总数(数据):0
处理的页总数(索引):30
失败的页总数(索引):0
处理的页总数(其它):2669
处理的总页数 (段) : 0
失败的总页数 (段) : 0
空的页总数 :8
标记为损坏的总页数:0
汇入的页总数 :0

注意这里“标记为损坏的总页数”跟前一次检查的不一样,这里为“0”。

注意,使用skip_corrupt_blocks只能使oracle跳过Oracle能够读出的块,而如果在操作系统层read调用就失败的,则不能跳过该过。甚至于该会话也可能会被中断。遇到这样的情况,使用dd命令或操作系统的copy(cp)命令都不能复制该文件,rman也不能备份该文件,遇到这样的问题,如果数据文件没有备份怎么办?

在前几天我们的一个客户就遇上了这样的问题,,windows系统,2节点RAC,使用了OCFS,由于存储及硬盘出现问题,1个数据文件出现坏块,连操作系统都不能复制出该文件。这样的情况在前几个月也遇到过,不过那个系统是Linux系统下的RAC(难不成OCFS的问题?二者都用了OCFS)。由于存储出了问题,硬盘亮了黄灯,换盘之后故障仍然存在。需要紧急备份这个库,但是那个文件始终无法复制出来。

遇到这样的情况,写个脚本把数据插入到另一个表?然后exp出来?到现场发现,那个坏块所在的表,居然有200G以上。有没有更简单的方法?到了客户那里,我利用大约20多分钟的时间,写了个简单的程序来复制这个不能利用操作系统工具复制出来的文件。其原理就是以块为单位读取数据,写入一个新的文件中,遇到读不出来的块,就写个一坏块(seq_kcbh设为0xff,flag_kcbh设为0×04,checksum就随便写入一个值,其他全为0)到新文件中。这样就复制出来了文件,幸运的是,整个文件复制其坏块只有2个。经过测试该文件完全可用。


推荐阅读
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细介绍了如何在 Linux 平台上安装和配置 PostgreSQL 数据库。通过访问官方资源并遵循特定的操作步骤,用户可以在不同发行版(如 Ubuntu 和 Red Hat)上顺利完成 PostgreSQL 的安装。 ... [详细]
  • Windows服务与数据库交互问题解析
    本文探讨了在Windows 10(64位)环境下开发的Windows服务,旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行,但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]
  • PyCharm下载与安装指南
    本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境(IDE),涵盖Windows、macOS和Linux系统,同时提供详细的安装步骤及配置建议。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 解决Linux系统中pygraphviz安装问题
    本文探讨了在Linux环境下安装pygraphviz时遇到的常见问题,并提供了详细的解决方案和最佳实践。 ... [详细]
  • 本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建,还处理了系统服务的配置和启动,确保在多种 Linux 发行版上都能顺利运行。 ... [详细]
  • CMake跨平台开发实践
    本文介绍如何使用CMake支持不同平台的代码编译。通过一个简单的示例,我们将展示如何编写CMakeLists.txt以适应Linux和Windows平台,并实现跨平台的函数调用。 ... [详细]
  • 在Linux系统中配置并启动ActiveMQ
    本文详细介绍了如何在Linux环境中安装和配置ActiveMQ,包括端口开放及防火墙设置。通过本文,您可以掌握完整的ActiveMQ部署流程,确保其在网络环境中正常运行。 ... [详细]
  • 如何配置Unturned服务器及其消息设置
    本文详细介绍了Unturned服务器的配置方法和消息设置技巧,帮助用户了解并优化服务器管理。同时,提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]
  • 本文详细分析了Hive在启动过程中遇到的权限拒绝错误,并提供了多种解决方案,包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]
  • 从 .NET 转 Java 的自学之路:IO 流基础篇
    本文详细介绍了 Java 中的 IO 流,包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据,并结合编码机制确保字符数据的正确读写。同时,文中还涵盖了装饰设计模式的应用,以及多种常见的 IO 操作实例。 ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
author-avatar
baaiiii
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有