当前位置: 开发笔记 > 编程语言 > 正文

如何解析域名到html网页,从URL到页面

作者：心如止水向北飞2012_737 | 来源：互联网 | 2023-08-18 14:36

一个老生常谈的问题，从输入url到页面渲染完成之间发生了什么？在这个过程中包括以下2大部分：-1.http请求响应-2.渲染1.http请

一个老生常谈的问题&＃xff0c;从输入url到页面渲染完成之间发生了什么&＃xff1f;

在这个过程中包括以下2大部分&＃xff1a;

- 1.http请求响应

- 2.渲染

1.http请求响应

先来提三个问题&＃xff1a;

1.当输入url后&＃xff0c;浏览器如何包装发起请求&＃xff1f;

2.在发出请求--接到响应之间发生了什么&＃xff1f;

3.当返回请求结果后&＃xff0c;浏览器如何解析结果&＃xff1f;

1.1 请求

1.1.1 GET请求包装

1.为了知道浏览器是如何包装http请求的&＃xff0c;使用nodejs搭建服务器const http &＃61; require(&＃39;http&＃39;);const server &＃61; http.createServer((req,res) &＃61;> { if(req.url &＃61;&＃61;&＃61; &＃39;/&＃39;){

res.end(&＃39;hello&＃39;)

}

});

server.listen(8005,() &＃61;> { console.log(&＃39;server listen on http://localhost:8005&＃39;)

});

2.服务器搭建好了&＃xff0c;需要知道浏览器到底包装了什么信息&＃xff0c;直接看控制台&＃xff1a;Request URL: http://localhost:8005/Request Method: GET

Status Code: 200 OK

Remote Address: [::1]:8005Referrer Policy: no-referrer-when-downgradeAccept: text/html,application/xhtml&＃43;xml,application/xml;q&＃61;0.9,image/webp,image/apng,*/*;q&＃61;0.8,application/signed-exchange;v&＃61;b3

Accept-Encoding: gzip, deflate, br

Accept-Language: zh-CN,zh;q&＃61;0.9,en;q&＃61;0.8Cache-Control: max-age&＃61;0Connection: keep-aliveHost: localhost:8005Upgrade-Insecure-Requests: 1User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36

1.1.2 POST请求包装

这些是浏览器自动包装过后的请求&＃xff0c;包括请求行&＃xff0c;请求头和请求主体&＃xff0c;浏览器默认发送的是GET请求&＃xff0c;如果需要指定POST请求&＃xff0c;可以写个表单来验证一下,大概意思是浏览器发起post请求&＃xff0c;服务端接收到后返回success&＃xff0c;浏览器端显示返回的内容//index.html

submit

这样写的时候&＃xff0c;由于html文件的协议是file&＃xff0c;所以为了解决跨域问题&＃xff0c;需要服务端进行设置const http &＃61; require(&＃39;http&＃39;);const server &＃61; http.createServer((req,res) &＃61;> { if(req.url &＃61;&＃61;&＃61; &＃39;/&＃39;){

res.setHeader("Access-Control-Allow-Origin", "*")

res.setHeader("Access-Control-Allow-methods", "GET, POST, OPTIONS, PUT, DELETE")

res.setHeader("Access-Control-Allow-Headers","*")

res.setHeader("Content-type","application/plain")

res.end(&＃39;success!!!&＃39;)

}

});

server.listen(8005,() &＃61;> { console.log(&＃39;server listen on http://localhost:8005&＃39;)

});

1460000019115527

这样一次post请求就成功了&＃xff0c;来看看浏览器默认包装了什么信息Request URL: http://localhost:8005/Request Method: POST

Status Code: 200 OK

Remote Address: [::1]:8005//自动使用https协议Referrer Policy: no-referrer-when-downgrade

Content-type: application/*

Origin: null

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36

这些信息有的是我们自己在后端写的&＃xff0c;有的是浏览器自动添加的

1.2 过程

1.2.1 整体流程

前面已经知道了浏览器在发起GET或者POST请求的时候会自动的添加的字段&＃xff0c;那浏览器在发送请求后到接收到服务端传来的数据前这段时间发生了什么&＃xff1f;

网上看到大家的回答大部分都是&＃xff1a;1.接收 URL&＃xff0c;并拆分成协议&＃xff0c;网络地址&＃xff0c;资源路径

2.与缓存进行比对&＃xff0c;如果请求的对象在缓存中&＃xff0c;则直接进行第9步

3.检查域名是否在本地的 host 的文件中&＃xff0c;在则直接返回 IP 地址&＃xff0c;不在则向 DNS 服务器请求,直到查询到 IP 地址

4.浏览器向服务器发起一个 TCP 连接

5.浏览器通过 TCP 连接向服务器发起 HTTP 请求&＃xff0c;HTTP 三次握手&＃xff0c;HTTPS 握手过程则复杂得多

6.浏览器接受 HTTP 响应&＃xff0c;这时候它能关闭 TCP 连接也能为另一个连接保留。

7.检查 HTTP header 里的状态码&＃xff0c;并做出不同的处理方式。比如&＃xff1a;错误(4XX、5XX)&＃xff0c;重定向(3XX)&＃xff0c;授权请求(2XX)

8.如果是可以缓存的&＃xff0c;这个响应则会被存储起来

9.浏览器进行解码响应&＃xff0c;并决定如何处理该响应(比如HTML页面&＃xff0c;图像&＃xff0c;声音等等)

10.浏览器渲染响应&＃xff0c;或者为不能识别的类型提供下载的提示框

1.2.2 域名解析流程

这样的回答确实把相关的流程说了一遍&＃xff0c;但是DNS是如何把域名解析成IP的&＃xff1f;这个过程可以被观察到么&＃xff1f;三次握手又是什么意思&＃xff1f;

为了看到域名解析的过程&＃xff0c;我们可以使用Nslookup,它是由微软发布用于对DNS服务器进行检测和排错的命令行工具

比如可以看一下&＃xff0c;https://www.baidu.com它的IP是什么&＃xff0c;nslookup https://www.baidu.com

我在查看的时候一直报延时错误&＃xff0c;只好从网上引用一张图来说明一下了

1460000019115528

其中server代表本地地址ip&＃xff0c;下面那个address是百度的ip

通过这样的方式就能看到具体域名解析的过程

1.2.3 三次握手流程

接下来是三次握手&＃xff0c;当域名转化成IP后&＃xff0c;浏览器沿着ip找到服务器&＃xff0c;进行三次握手&＃xff1a;第一次握手&＃xff1a;客户端的应用进程主动打开&＃xff0c;并向客户端发出请求报文段。其首部中&＃xff1a;SYN&＃61;1,seq&＃61;x。

第二次握手&＃xff1a;服务器应用进程被动打开。若同意客户端的请求&＃xff0c;则发回确认报文&＃xff0c;其首部中&＃xff1a;SYN&＃61;1,ACK&＃61;1,ack&＃61;x&＃43;1,seq&＃61;y

第三次握手&＃xff1a;客户端收到确认报文之后&＃xff0c;通知上层应用进程连接已建立&＃xff0c;并向服务器发出确认报文&＃xff0c;其首部&＃xff1a;ACK&＃61;1,ack&＃61;y&＃43;1。当服务器收到客户端的确认报文之后&＃xff0c;也通知其上层应用进程连接已建立

1460000019115529

看到这里&＃xff0c;有个问题&＃xff0c;前两次握手已经把客户端和服务端联系在一起了&＃xff0c;那为什么还要第三次握手&＃xff1f;如果是两次握手&＃xff0c;当A想要建立连接时发送一个SYN&＃xff0c;然后等待ACK&＃xff0c;结果这个SYN因为网络问题没有及时到达B&＃xff0c;所以A在一段时间内没收到ACK后&＃xff0c;在发送一个SYN&＃xff0c;B也成功收到&＃xff0c;然后A也收到ACK&＃xff0c;这时A发送的第一个SYN终于到了B&＃xff0c;对于B来说这是一个新连接请求&＃xff0c;然后B又为这个连接申请资源&＃xff0c;返回ACK&＃xff0c;然而这个SYN是个无效的请求&＃xff0c;A收到这个SYN的ACK后也并不会理会它&＃xff0c;而B却不知道&＃xff0c;B会一直为这个连接维持着资源&＃xff0c;造成资源的浪费,但如果是三次握手&＃xff0c;如果第三次握手迟迟不来&＃xff0c;服务器便会认为这个SYN是无效的&＃xff0c;释放相关资源

1.3 响应

成功发起请求并完整走完了上述流程&＃xff0c;浏览器能获得服务器发来的数据&＃xff0c;那这些数据被放在哪里&＃xff0c;它是如何被浏览器处理的&＃xff1f;

其实这个问题很简单&＃xff0c;在前面成功发起http请求后&＃xff0c;服务端会有一个响应,这里面规定了各种文件格式Access-Control-Allow-Headers: *

Access-Control-Allow-methods: GET, POST, OPTIONS, PUT, DELETE

Access-Control-Allow-Origin: *Connection: keep-alive

Content-Length: 10Content-type: application/plainDate: Wed, 08 May 2019 07:12:14 GMT

2.渲染

2.1 整体流程

数据请求回来以后&＃xff0c;浏览器是如何把数据转化成页面的呢?这个过程就涉及到了DOM树&＃xff0c;CSSOM树&＃xff0c;render树的生成和页面的绘制&＃xff0c;先来贴图看看整体流程&＃xff1a;

1460000019115530

在构建DOM树的时候&＃xff0c;遇到 js 和 CSS元素&＃xff0c;HTML解析器就换将控制权转让给JS解析器或者是CSS解析器。开始构建CSSOM,在构建CSSOM树的时候&＃xff0c;解析是从右向左进行的&＃xff0c;DOM树构建完之后和CSSOM合成一棵render tree

有了Render Tree&＃xff0c;浏览器已经能知道网页中有哪些节点、各个节点的CSS定义以及他们的从属关系。下一步操作称之为Layout&＃xff0c;顾名思义就是计算出每个节点在屏幕中的位置

Layout后&＃xff0c;浏览器已经知道了哪些节点要显示(which nodes are visible)、每个节点的CSS属性是什么(their computed styles)、每个节点在屏幕中的位置是哪里(geometry)。就进入了最后一步&＃xff1a;Painting&＃xff0c;按照算出来的规则&＃xff0c;通过显卡&＃xff0c;把内容画到屏幕上&＃xff0c;HTML默认是流式布局的&＃xff0c;CSS和js会打破这种布局&＃xff0c;改变DOM的外观样式以及大小和位置&＃xff0c;当尺寸改变时会reflow&＃xff0c;也就是重新绘制&＃xff0c;比如table布局整体尺寸改变&＃xff0c;页面就需要重绘&＃xff0c;但当非尺寸改变时&＃xff0c;会进行replaint通过这个分析知道了DOM树的生成过程中可能会被CSS和JS的加载执行阻塞&＃xff0c;所以平时写CSS时&＃xff0c;尽量用id和class&＃xff0c;千万不要过渡层叠&＃xff0c;尽量减少会造成reflow的操作&＃xff0c;把JS代码放到页面底部&＃xff0c;且Javascript 应尽量少影响 DOM 的构建

2.2 底层源码

这样说一遍&＃xff0c;还是在很表面的层次在说渲染这件事&＃xff0c;那有没有更深层次的理解呢&＃xff1f;可以通过看浏览器源码来进行分析&＃xff1a;

大致分为三个步骤&＃xff1a;1.HTMLDocumentParser负责解析html文本为tokens

2.HTMLTreeBuilder对这些tokens分类处理

3.HTMLConstructionSite调用不同的函数构建DOM树

1460000019115531

接下来使用这个html文档来说明DOM树的构建过程&＃xff1a;

demo

2.2.1生成tokens

首先是>>>HTMLDocumentParser负责解析html文本为tokensvoid DocumentLoader::commitData(const char* bytes, size_t length) {

ensureWriter(m_response.mimeType()); if (length)

m_dataReceived &＃61; true;

m_writer->addData(bytes, length);//内部调用HTMLDocumentParser}

2.2.2tokens分类

接着是>>>>>HTMLTreeBuilder对这些tokens分类处理void HTMLTreeBuilder::processToken(AtomicHTMLToken* token) { if (token->type() &＃61;&＃61; HTMLToken::Character) {

processCharacter(token); return;

}

switch (token->type()) { case HTMLToken::DOCTYPE:

processDoctypeToken(token); break; case HTMLToken::StartTag:

processStartTag(token); break; case HTMLToken::EndTag:

processEndTag(token); break; //othercode

}

2.2.3 构建DOM树

最后&＃xff0c;最关键的就是HTMLConstructionSite调用不同的函数构建DOM树&＃xff0c;它根据不同的节点类型进行不同的处理

1.DOCTYPE的处理// tagName不是html&＃xff0c;那么文档类型将会是怪异模式

if (name !&＃61; "html" ) {

setCompatibilityMode(Document::QuirksMode); return;

}// html4写法,文档类型是有限怪异模式

if (!systemId.isEmpty() &&

publicId.startsWith("-//W3C//DTD HTML 4.01 Transitional//",

TextCaseASCIIInsensitive))) {

setCompatibilityMode(Document::LimitedQuirksMode); return;

}// h5的写法&＃xff0c;标准模式

setCompatibilityMode(Document::NoQuirksMode);

不同的模式会造成什么影响&＃xff1f;// There are three possible compatibility modes:

// Quirks - quirks mode emulates WinIE and NS4. CSS parsing is also relaxed in

// this mode, e.g., unit types can be omitted from numbers.

// Limited Quirks - This mode is identical to no-quirks mode except for its

// treatment of line-height in the inline box model.

// No Quirks - no quirks apply. Web pages will obey the specifications to the

// letter.

//怪异模式会模拟IE&＃xff0c;同时CSS解析会比较宽松&＃xff0c;例如数字单位可以省略&＃xff0c;

//有限怪异模式和标准模式的唯一区别在于在于对inline元素的行高处理不一样

//标准模式将会让页面遵守文档规定

2.开标签的处理

首先是标签&＃xff0c;处理这个标签的任务应该是实例化一个HTMLHtmlElement元素&＃xff0c;然后把它的父元素指向documentHTMLConstructionSite::HTMLConstructionSite(

Document& document)

: m_document(&document),

m_attachmentRoot(document)) {

}void HTMLConstructionSite::insertHTMLHtmlStartTagBeforeHTML(AtomicHTMLToken* token) {

HTMLHtmlElement* element &＃61; HTMLHtmlElement::create(*m_document);//创建一个html结点

attachLater(m_attachmentRoot, element);//加到一个任务队列里面

m_openElements.pushHTMLHtmlElement(HTMLStackItem::create(element, token));//压到一个栈里面&＃xff0c;这个栈存放了未遇到闭标签的所有开标签

executeQueuedTasks();//执行队列里面的任务}//建立一个taskvoid HTMLConstructionSite::attachLater(ContainerNode* parent,Node* child, bool selfClosing) {

HTMLConstructionSiteTask task(HTMLConstructionSiteTask::Insert);

task.parent &＃61; parent;

task.child &＃61; child;

task.selfClosing &＃61; selfClosing;

// Add as a sibling of the parent if we have reached the maximum depth

// allowed.

if (m_openElements.stackDepth() > maximumHTMLParserDOMTreeDepth &&

task.parent->parentNode())

task.parent &＃61; task.parent->parentNode();

queueTask(task);

}//executeQueuedTasks根据task的类型执行不同的操作void ContainerNode::parserAppendChild(Node* newChild) { if (!checkParserAcceptChild(*newChild)) return;

AdoptAndAppendChild()(*this, *newChild, nullptr);

}

notifyNodeInserted(*newChild, ChildrenChangeSourceParser);

}//建立起html结点的父子兄弟关系void ContainerNode::appendChildCommon(Node& child) {

child.setParentOrShadowHostNode(this);//设置子元素的父结点&＃xff0c;也就是会把html结点的父结点指向document

if (m_lastChild) { //子元素的previousSibling指向老的lastChild&＃xff0c;老的lastChild的nexSibling指向它

child.setPreviousSibling(m_lastChild);

m_lastChild->setNextSibling(&child);

} else { //如果没有lastChild&＃xff0c;会将这个子元素作为firstChild

setFirstChild(&child);

} //子元素设置为当前ContainerNode(即document)的lastChild

setLastChild(&child);

}

每当遇到一个开标签时&＃xff0c;就把它压起来&＃xff0c;下一次再遇到一个开标签时&＃xff0c;它的父元素就是上一个开标签,借助一个栈建立起了父子关系

3.闭标签的处理

第一个闭标签是head标签&＃xff0c;它会把开的head标签pop出来&＃xff0c;栈里面就剩下html元素了&＃xff0c;所以当再遇到body时&＃xff0c;html元素就是body的父元素了m_tree.openElements()->popUntilPopped(token->name());

推荐阅读

web
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
web
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
request
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
buffer
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
request
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
io
Android 自定义 RecycleView 左滑上下分层示例代码

为了满足项目需求，需要在多个场景中实现左滑删除功能，并且后续可能在列表项中增加其他功能。虽然网络上有很多左滑删除的示例，但大多数封装不够完善。因此，我们尝试自己封装一个更加灵活和通用的解决方案。 ... [详细]

蜡笔小新 2024-11-13 17:43:59
request
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
request
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
hook
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
select
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
ip
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
web
开发中遇到的一些常见问题及解决方案

本文总结了一些开发中常见的问题及其解决方案，包括特性过滤器的使用、NuGet程序集版本冲突、线程存储、溢出检查、ThreadPool的最大线程数设置、Redis使用中的问题以及Task.Result和Task.GetAwaiter().GetResult()的区别。 ... [详细]

蜡笔小新 2024-11-12 08:20:05
select
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
import
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
ip
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19

心如止水向北飞2012_737

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章