【手写简易浏览器】htmlparser篇

作者：假爱多慌乱 | 来源：互联网 | 2023-10-12 11:17

思路分析实现htmlparser主要分为词法分析和语法分析两步。词法分析词法分析需要把每一种类型的token识别出来，具体的类型有：开始标签，如&amp;lt;div&amp;gt;结束标签，如&amp;lt;div&amp;gt;注释标签，如&amp;lt;!--comment--&amp;gt;do

思路分析

实现 html parser 主要分为词法分析和语法分析两步。

词法分析

词法分析需要把每一种类型的 token 识别出来，具体的类型有：

开始标签，如
结束标签，如

注释标签，如

doctype 标签，如

text，如 aaa

这是最外层的 token，开始标签内部还要分出属性，如这种。

也就是有这几种情况：

【手写简易浏览器】html parser 篇

第一层判断是否包含 <，如果不包含则是 text，如果包含则再判断是哪一种，如果是开始标签，还要对其内容再取属性，直到遇到 > 就重新判断。

语法分析

语法分析就是对上面分出的 token 进行组装，生成 ast。

html 的 ast 的组装主要是考虑父子关系，记录当前的 parent，然后 text、children 都设置到当前 parent 上。

【手写简易浏览器】html parser 篇

我们来用代码实现一下：

代码实现

词法分析

首先，我们要把 startTag、endTag、comment、docType 还有 attribute 的正则表达式写出来：

正则

结束标签就是

const endTagReg = /^<\/([a-zA-Z0-9\-]+)>/;

注释标签是中间夹着非 --> 字符出现任意次

const commentReg = /^)]*\-\->/;

doctype 标签是字符出现多次，加 >

const docTypeReg = /^]+>/;

attribute 是多个空格开始，加 a-zA-Z0-9 或 - 出现多次，接一个 =，之后是非 > 字符出多次

const attributeReg = /^(?:[ ]+([a-zA-Z0-9\-]+=[^>]+))/;

开始标签是 <开头，接 a-zA-Z0-9 和 - 出现多次，然后是属性的正则，最后是 > 结尾

const startTagReg = /^<([a-zA-Z0-9\-]+)(?:([ ]+[a-zA-Z0-9\-]+=[^> ]+))*>/;

分词

之后，我们就可以基于这些正则来分词，第一层处理 <和 text：

function parse(html, options) {
    function advance(num) {
        html = html.slice(num);
    }

    while(html){
        if(html.startsWith('<')) {
            //...
        } else {
            let textEndIndex = html.indexOf('<');
            options.onText({
                type: 'text',
                value: html.slice(0, textEndIndex)
            });
            textEndIndex = textEndIndex === -1 ? html.length: textEndIndex;
            advance(textEndIndex);
        }
    }
}

第二层处理

box1 box1 box1

box2 box2 box2

`); console.log(JSON.stringify(domTree, null, 4));

总结

这篇是简易浏览器中 html parser 的实现，少了自闭合标签的处理，就是差一个 if else，后面会补上。

我们分析了思路并进行了实现：通过正则来进行 token 的拆分，把拆出的 token 通过回调函数暴露出去，之后进行 AST 的组装，需要记录当前的 parent，来生成父子关系正确的 AST。

html parser 其实也是淘系前端的多年不变的面试题之一，而且 vue template compiler 还有 jsx 的 parser 也会用到类似的思路。还是有必要掌握的。希望本文能帮大家理清思路。

推荐阅读

js
HTML5 Canvas 图片导出与上传至远程服务器的方法

在现代Web开发中，HTML5 Canvas常用于图像处理和绘图任务。本文将详细介绍如何将Canvas中的图像导出并上传至服务器，适用于拼图、图片编辑等场景。 ... [详细]

蜡笔小新 2024-11-18 18:04:32
js
egg实现登录鉴权（七）：权限管理

权限管理包含三部分：访问页面的权限，操作功能的权限和获取数据权限。页面权限：登录用户所属角色的可访问页面的权限功能权限：登录用户所属角色的可访问页面的操作权限数据权限：登录用户所属 ... [详细]

蜡笔小新 2024-11-23 16:30:15
int
树剖||树链剖分||线段树||BZOJ4034||Luogu3178||[HAOI2015]树上操作

题面：P3178[HAOI2015]树上操作好像其他人都嫌这道题太容易了懒得讲，好吧那我讲。题解：第一个操作和第二个操作本质上是一样的&# ... [详细]

蜡笔小新 2024-11-24 15:06:53
function
PHP Memcached 使用详解

本文详细介绍了如何在PHP中使用Memcached进行数据缓存，包括服务器连接、数据操作、高级功能等。 ... [详细]

蜡笔小新 2024-11-24 09:51:34
js
Vue CLI 3 项目中使用 Pre-render SPA Plugin 进行预渲染

页面预渲染适用于主要包含静态内容的页面。对于依赖大量API调用的动态页面，建议采用SSR（服务器端渲染），如Nuxt等框架。更多优化策略可参见：https://github.com/HaoChuan9421/vue-cli3-optimization ... [详细]

蜡笔小新 2024-11-23 22:19:17
js
利用Node.js实现PSD文件的高效切图

本文介绍了如何通过Node.js及其psd2json模块，快速实现PSD文件的自动化切图过程，以适应项目中频繁的界面更新需求。此方法不仅提高了工作效率，还简化了从设计稿到实际应用的转换流程。 ... [详细]

蜡笔小新 2024-11-22 13:21:24
int
java解析json转Map

java解析json转Map前段时间在做json报文处理的时候，写了一个针对不同格式json转map的处理工具方法，总结记录如下：1、单节点单层级、单节点多层级json转mapim ... [详细]

蜡笔小新 2024-11-15 18:21:27
select
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
int
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
int
Cogs 2701. 动态树（使用 LCT 维护子树信息）

本文介绍了一种使用链剖分（Link-Cut Tree, LCT）来维护动态树结构的方法，特别是如何通过 LCT 来高效地管理子树的信息，如子树大小等。 ... [详细]

蜡笔小新 2024-11-24 10:35:13
int
Splay 树的高级应用：区间操作详解

在学习了Splay树的基本查找功能后，可能会觉得它与普通的二叉查找树没有太大的区别，仅仅是通过splay操作减少了时间开销。然而，Splay树之所以被誉为“序列之王”，主要在于其强大的区间操作能力。 ... [详细]

蜡笔小新 2024-11-24 06:59:35
int
CodeForces 315B: 线段树与区间更新

题目概述：Sereja 拥有一个由 n 个整数组成的数组 a1, a2, ..., an。他计划执行 m 项操作，这些操作包括更新数组中的特定元素、增加数组中所有元素的值，以及查询数组中的特定元素。 ... [详细]

蜡笔小新 2024-11-23 16:14:08
int
编译原理中的语法分析方法探讨

本文探讨了在编译原理课程中遇到的复杂文法问题，特别是当使用SLR(1)文法时遇到的多重规约与移进冲突。文章讨论了可能的解决策略，包括递归下降解析、运算符优先级解析等，并提供了相关示例。 ... [详细]

蜡笔小新 2024-11-19 14:44:19
int
如何处理PHP缺少扩展的问题

本文将详细介绍如何解决PHP环境中缺少扩展的问题，包括检查当前环境、修改配置文件以及验证修改是否生效的具体步骤，帮助开发者更好地管理和使用PHP扩展。 ... [详细]

蜡笔小新 2024-11-19 09:19:01
select
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21