如何使用bash解析xml的示例代码分析

作者：jnto. | 来源：互联网 | 2017-05-14 02:24

最初的需求是希望bash能提供完整成熟的xml解析工具来解析xml，但是并没有找到这样的工具。后来在StackOverFlow上找到一个简单的处理xml的方法，即：

rdom () { local IFS=\> ; read -d \方法只有一行！（当然，两条语句应该算是两行……）
当然，这也只能处理最简单原始的xml，不能处理带属性的，不能有注释等等。
由于楼主过于懒惰，不想引入（学习）新的脚本语言，所以打算改造上面的方法。
改造之前，先来解释一下上面那行语句的意义。
其实很简单，这行命令的作用就是读取<与下一个<之间的字符
（xml中，如果在节点本身之外存在<或者>，属性值含有空格，则函数失效，所以我们假设xml中没有此情况）
有了上面的假设，那么两个<字符直接，就一定会有一个>字符，>将read读取的内容分为两部分，分别记做E和C，举个简单的例子：
value
第一次执行rdom时，read读取到<即结束了，所以E和C都是空字符串。
第二次执行rdom时，read读取到的内容为：tag>value，然后是<字符，read结束。所以E=tag；C=value
第三次执行rdom时，read读取到的内容为：/tag>到下一个<或文件末尾。所以E=/tag，C为空白符。
所以这种方式并不实用，我们想支持带属性的节点，我们也不想删除xml中的注释，我们甚至还想解析xml的声明，我们……好了，我们想的太多了。我们还是看看能做些什么吧。
我们可以看出，<>里面的部分是作为整体赋值给E的，那么解析属性就要对E做手脚。
（我们假设xml中，在节点本身之外存在没有<和>，属性值中也没有空格） 
下面我们来操作一下，首先先引入一个输入空格，用来显示层级的函数echo_tabs
echo_tabs() {
    local tabs="";
    for((i = 0; i <$1; i++)); do
        tabs=$tabs&＃39;    &＃39; #4个空格
    done
    echo -n "$tabs" #一定要加双引号
}
然后我们来解析xml中的声明，就是下面这部分 
声明与其他标签闭合方式不同，并且尖括号内两端是?，所以这里要把它与普通节点区分。 
read_dom() {
    #备份IFS
    local oldIFS=$IFS

    local IFS=\> #字段分割符改为>
    read -d \下面我们来解析注释。注释让人烦恼的地方是，注释内可以包含尖括号！这里只做最简单处理，只解析不含尖括号的注释！ 
if [[ "$ENTITY" = \!--*-- ]]; then #不检查注释
    return 0
fi
现在我们看xml中最关键的部分
我们知道，CONTENT为节点的内容，显示出来就可以了
if [[ ! "$CONTENT" =~ ^[[:space:]]*$ ]]; then
    echo -n COnTENT=$CONTENT
fi
节点自身属性都在ENTITY中，所以我们需要将节点名称与属性分开，然后再提取属性名和属性值
我们分别处理下面几种形式的节点


abc
我们之前已经将节点名称与属性分开了
ELEMENT=${ENTITY%% *} #获取节点名称，如果ENTITY中有空格，则第一个空格前面部分即为节点名称
ATTRIBUTES=${ENTITY#* } #获取节点所有属性，如果ENTITY中有空格，则第一个空格后面部分为所有属性(#2和#4，#4情况下，会多出/)
但是上面的ATTRIBUTES变量会有个小问题，稍后说明
ELEMENT如果以/开头，那么这是读取到节点的闭合标签了
ELEMENT如果以/结尾，那么这是一个空标签，类似
其他情况ELEMENT均为节点名称，但是读取这类标签时，ELEMENT没有问题，ATTRIBUTES是以/结尾，也就是说，这时，标签已经闭合，并且我们需要将/从ATTRIBUTES末尾删除
#!/usr/bin/env bash
#只适合解析简单xml，若属性值带有空格，注释中含有尖括号等，则无法解析
#下面情况可以正常解析
#0.
#1.Only For Test
#2.
#3.
#4.
#Attribute=Attribute Name
#VALUE=Attribute Value
#ELEMENT=Element Name
#COnTENT=Element Content

#接受一个int层级参数，层级从0开始
echo_tabs() {
    local tabs="";
    for((i = 0; i <$1; i++)); do
        tabs=$tabs&＃39;    &＃39; #4个空格
    done
    echo -n "$tabs" #一定要加双引号
}

read_dom() {
    #备份IFS
    local oldIFS=$IFS

    local IFS=\> #字段分割符改为>
    read -d \
    #此时read结果为?xml version="1.0" encoding="utf-8"?
    #COnTENT=若干空白符

    #1.1785
    #此时read结果为Size，所以ENTITY=Size，COnTENT=&＃39;1785&＃39;
    #第三次read结为/Size，所以ENTITY=/Size，COnTENT=若干空白符

    #2.
    #此时read结果为ListBucketResult xmlns="http://s3.amazonaws.com/doc/2006-03-01/"，
    所以ENTITY=tListBucketResult xmlns="http://s3.amazonaws.com/doc/2006-03-01/"，COnTENT=同#1

    #3.
    #此时read结果为test/，所以ENTITY=test/，COnTENT=若干空白符

    #4.
    #此时read结果为test name="xyz" age="21"/，所以ENTITY=test name="xyz"/，COnTENT=若干空白符

    #5.
    #此时read结果为!--q1--，所以ENTITY=!--q1--，COnTENT=&＃39;&＃39;

    # ENTITY = ?xml version="1.0" encoding="utf-8"?
    #解析xml声明，并非普通节点，闭合方式与节点不同
    if [[ "$ENTITY" =~ ^\?xml[[:space:]]*(.*)\?$ ]]; then #使用正则去除问号和xml字符
        ENTITY=&＃39;&＃39;
        ELEMENT=&＃39;&＃39; #不是普通节点
        ATTRIBUTES="${BASH_REMATCH[1]}" #获取声明中的属性
    else #普通节点
        ELEMENT=${ENTITY%% *} #获取节点名称，如果ENTITY中有空格，则第一个空格前面部分即为节点名称
        ATTRIBUTES=${ENTITY#* } #获取节点所有属性，如果ENTITY中有空格，则第一个空格后面部分为所有属性(#2和#4，#4情况下，会多出/)
    fi

    if [[ "$ENTITY" = \!--*-- ]]; then #不检查注释(#5)
        return 0
    fi

    if [[ "$ELEMENT" = /* ]]; then #节点末尾 #1第三步
        tabCount=$[$tabCount - 1]
        echo_tabs $tabCount
        echo END ${ELEMENT#*/} #删除/
        return 0
    elif [[ "$ELEMENT" = */  ]] || [[ $ATTRIBUTES = */  ]]; then #3或#4
        empty=true #节点没有子节点，也没有value(自身为闭合标签)
        if [[ $ATTRIBUTES = */  ]]; then #如果是#4情况
            ATTRIBUTES=${ATTRIBUTES%*/} #将末尾的/删除，提取所有属性
        fi
        echo_tabs $tabCount
        echo -n ELEMENT=${ELEMENT%*/}&＃39; &＃39;
    elif [ ! "$ELEMENT" = &＃39;&＃39; ]; then #第一次执行时，ENTITY和CONTENT都是空串
        echo_tabs $tabCount
        echo -n ELEMENT="$ELEMENT"&＃39; &＃39; #输出节点名
        tabCount=$[$tabCount + 1] #新节点
    else
        echo -n "XML declaration " #ELEMENT为空，不计算层级
    fi

    local empty=false #没有子节点，没有value
    IFS=$oldIFS #属性之间由空白符分割，恢复IFS，IFS默认为空格/换行/制表符
    local hasAttribute=false #节点是否有属性
    for a in $ATTRIBUTES; do #循环所有属性
        #echo ATTRIBUTES=$ATTRIBUTES &＃39;   -+-+-+-   &＃39;
        if [[ "$a" = *=* ]] #情况#2和#4
        then
            hasAttribute=true
            ATTRIBUTE_NAME=${a%%=*} #提取属性名
            ATTRIBUTE_VALUE=`tr -d &＃39;"&＃39; <<<${a#*=}` #提取属性值并去掉双引号
            echo -n ATTRIBUTE=$ATTRIBUTE_NAME VALUE=$ATTRIBUTE_VALUE&＃39; &＃39; #输出属性名/属性值
        fi
    done

    if [[ ! "$CONTENT" =~ ^[[:space:]]*$ ]]; then
        echo -n COnTENT=$CONTENT
    fi

    if [ "$empty" = true ]; then
        echo
        echo_tabs $tabCount
        echo -n END ${ELEMENT%/*} #删除/
#        echo -n &＃39; (empty node)&＃39;
    fi

    echo
    return $ret
}

read_xml() {
    local tabCount=0 #用来格式化输出，计算节点层级
    while read_dom; do
        :
    done 对下面xml执行此脚本



    
    
    
    
        
        Only For Test
        
        abc
        

        
        
    
输出结果为
以上就是如何使用bash解析xml的示例代码分析的详细内容，更多请关注 第一PHP社区 其它相关文章！

推荐阅读

main
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
go
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
bash
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
bash
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
go
在Linux系统中配置并启动ActiveMQ

本文详细介绍了如何在Linux环境中安装和配置ActiveMQ，包括端口开放及防火墙设置。通过本文，您可以掌握完整的ActiveMQ部署流程，确保其在网络环境中正常运行。 ... [详细]

蜡笔小新 2024-12-27 14:38:54
go
MyBatis：深入解析与应用

在当前众多持久层框架中，MyBatis（前身为iBatis）凭借其轻量级、易用性和对SQL的直接支持，成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]

蜡笔小新 2024-12-27 12:17:16
go
使用Windows批处理脚本监控并重启Java应用程序

本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序，确保其持续稳定运行。脚本每30分钟检查一次，并在需要时重启Java程序。同时，它会将任务结果发送到Redis。 ... [详细]

蜡笔小新 2024-12-27 10:44:39
go
RecyclerView初步学习(一)

RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式，除了提供ViewHolder缓存模式，还可以自定义动画，分割符，布局样式，相比于传统的ListVi ... [详细]

蜡笔小新 2024-12-26 20:24:01
text
深入理解HTML基础语法

本文详细介绍超文本标记语言（HTML）的基本概念与语法结构。HTML是构建网页的核心语言，通过标记标签描述页面内容，帮助开发者创建结构化、语义化的Web页面。 ... [详细]

蜡笔小新 2024-12-24 08:21:49
include
构建个人博客站点：基于LAMP环境的WordPress部署指南

本文详细介绍如何利用已搭建的LAMP（Linux、Apache、MySQL、PHP）环境，快速创建一个基于WordPress的内容管理系统（CMS）。WordPress是一款流行的开源博客平台，适用于个人或小型团队使用。 ... [详细]

蜡笔小新 2024-12-23 20:23:57
main
Android 九宫格布局详解及实现：人人网应用示例

本文深入探讨了人人网Android应用中独特的九宫格布局设计，解析其背后的GridView实现原理，并提供详细的代码示例。这种布局方式不仅美观大方，而且在现代Android应用中较为少见，值得开发者借鉴。 ... [详细]

蜡笔小新 2024-12-28 11:23:01
js
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
go
告别传统文件传输，迎接新一代高效工具Croc

在现代网络环境中，两台计算机之间的文件传输需求日益增长。传统的FTP和SSH方式虽然有效，但其配置复杂、步骤繁琐，难以满足快速且安全的传输需求。本文将介绍一种基于Go语言开发的新一代文件传输工具——Croc，它不仅简化了操作流程，还提供了强大的加密和跨平台支持。 ... [详细]

蜡笔小新 2024-12-26 16:16:06
go
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
text
Struts与Spring框架的集成指南

本文详细介绍了如何将Struts和Spring两个流行的Java Web开发框架进行整合，涵盖从环境配置到代码实现的具体步骤。 ... [详细]

蜡笔小新 2024-12-23 17:46:59

jnto.

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章