热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

虚拟化篇之前后端驱动分析

前后端驱动是虚拟化的重要组成部分,在我们平时的排查过程中,经常会涉及到这部分的数据,特别是与性能相关的问题类型。举个例子,我们经常会碰到网络抖动的问题,此时我们会在实例内部和后端v

前后端驱动是虚拟化的重要组成部分,在我们平时的排查过程中,经常会涉及到这部分的数据,特别是与性能相关的问题类型。举个例子,我们经常会碰到网络抖动的问题,此时我们会在实例内部和后端vif口抓包,如果发现两者之间存在延迟,经常我们就会怀疑到前后端的问题。因此我们需要对其工作原理和排查方法需要有一个全面的了解,其中也涉及到一些调试技巧,如为了确定问题是否与前后端队列有关,需要在实例系统的core dump内解析出内存中的队列数据。

何为前后端:

说到前后端就要提到virtIO,virtIO是IBM提出的实现虚拟机内部和宿主机之前数据交换的一种方式,与之前所谓全虚拟化方式比较即通过qemu在模拟设备的方式,性能有了较大的提升。我们在本文中仅局限于网卡设备,这也是因为在实例案例中网络部分占了主导地位。简单来讲,在virtIO体系中分为前端驱动和后端驱动两个部分,前端驱动我们一般可以理解为虚拟机内部的虚拟网卡的驱动,当然Windows和Linux的驱动是不同的,后端驱动virtIO是宿主机上的部分 的实现可能会有不同的方式,我们常见的是vhost-net,内核模式的vhost,至于其他模式如用户态vhost、qemu等等又有不同,但是本质的功能是类似的,就是将前端驱动发出的报文转发到NC虚拟交换机上,同理将收到的报文传入实例内的前端驱动。

虚拟化篇之前后端驱动分析

上面这张图表示了前面驱动和后端驱动的关系。简单来讲前端驱动就是虚拟机内的虚拟网卡驱动,而后端驱动是主机上的vhost进程负责将报文转发出来,或者将物理机上接受到的报文转发进虚拟机。这两者其实就是负责了虚拟机内外的数据交换。

前后端之间如何交换数据

总的来说两者是通过vring、或者说virt queue即前后端环形队列进行数据交换。一共存在三个队列:

crash> struct vring
struct vring {
unsigned int num;
struct vring_desc *desc;
struct vring_avail *avail;
struct vring_used *used;
}

  1. desc队列 - 放置了所有真正的报文数据。
  2. avail队列与used队列 - 在发送报文的时候,前端驱动将报文在desc中的索引放在avail队列中,后端驱动从这个队列里获取报文进行转发,处理完之后将这些报文放入used队列。在接受报文的时候前端驱动将空白的内存块放入avail队列中(当然也只是报文在desc队列中的索引而已),后端接受报文将内容填充后,将这些含数据的报文放入used队列。

这三个队列都是固定长度的环形队列,当然实现仅仅是对相应索引号对最大长度去余而已。下面这张图形象地表明三个队列和前后端驱动的关系:

虚拟化篇之前后端驱动分析

主要的数据结构

我们以前端的发送队列为例,注意所有的结构信息都是在虚拟机内部可见的,可以通过core dump查看:

struct vring_virtqueue {
vq = {
list = {
next = 0xffff881027e3d800,
prev = 0xffff881026d9b000
},
callback = 0xffffffffa0149450,
name = 0xffff881027e3ee88 "output.0", ->>表明是发送队列
vdev = 0xffff881023776800,
priv = 0xffff8810237d03c0
},
vring = {
num = 256, ->>所有的队列长度
desc = 0xffff881026d9c000, ->> desc队列
avail = 0xffff881026d9d000, ->> avail队列
used = 0xffff881026d9e000 ->> used队列
},
broken = false,
indirect = true,
event = true,
num_free = 0, ->> 队列目前有多少空闲元素了,如果已经为0表明队列已经阻塞,前端将无法发送报文给后端
free_head = 0, ->> 指向下一个空闲的desc元素
num_added = 0, ->>是最近一次操作向队列中添加报文的数量
last_used_idx = 52143, 这是前端记录他看到最新的被后端用过的索引(idx),是前端已经处理到的used队列的idx。前端会把这个值写到avail队列的最后一个元素,这样后端就可以得知前端已经处理到used队列的哪一个元素了。

<> ->> last_avail_idx 前端不会碰,而且前端的virtqueue结构里就没有这个值,这个代表后端已经处理到avail队列的哪个元素了,前端靠这个信息来做限速,后端是把这个值写在used队列的最后一个元素,这样前端就可以读到了。

notify = 0xffffffffa005a350,
queue_index = 1,
data = 0xffff881026d9f078
}

crash> struct vring_avail 0xffff881026d9d000
struct vring_avail {
flags = 0,
idx = 52399, ->> avail队列的下个可用元素的索引
ring = 0xffff881026d9d004 ->> 队列数组
}

crash> struct vring_used
struct vring_used {
__u16 flags;
__u16 idx; ->> used队列的下个可用元素的索引
struct vring_used_elem ring[]; ->> 队列数组
}

报文发送的具体流程

相比接受,报文发送是我们处理案例中主要遇到问题的部分,所以我们将其流程单独拿出来详细分析一下。

主要以前端驱动(Linux版本)的行为为主,后端行为设计到阿里云源码实现暂不做分析,但是从前端行为基本可以判断后端的大致行为:

  1. 保存head = vq->free_head。

  2. 首先为报文分配desc,即报文的描述块,包含映射到内存的报文内容。

  3. 判断队列的num_free是否小于要发送desc元素个数,如果是的话,说明队列已经阻塞了,后端驱动无法及时处理,所以此时需要通知(notify)后端驱动,前端通知后端的方法就是写入notification register寄存器。

  4. 调整num_free减去已经分配的desc元素数量。

  5. 调整free_head指向下一个空闲的desc元素。

  6. 计算本次应该用avail ring中的哪个元素(即得出元素索引),avail队列是个环形数组,这里通过(vq->vring.avail->idx) & (vq->vring.num - 1)达到取余的目的。

  7. 记录本次逻辑buf的起始desc索引号,即将根据刚才得出的元素索引找到相应在avail中的元素,将该元素的值指向本次分配desc的元素。这样处理之后avail队列中就已经包含了要处理的报文了(当然只是指向desc的索引而已)

  8. 调整avail->idx指向了下一次操作使用avail队列的哪个元素。

  9. 调整num_added记录增加了几个可用的avail ring元素。

  10. 根据skb->xmit_more的值来决定是否"kick"即通知(notify)后端驱动。xmit_more值代表是否后续还有更多的报文需要发送,如果没有,前端驱动就会决定kick,如果有前端驱动会继续等待其他报文进入队列后再一起"kick"。

  11. 在决定是否要notify后端驱动时,这里有一个限速逻辑:

    1. 首先提取used队列中最后一个元素,这是后端填入的信息,表示后端驱动处理到哪个avail队列的元素了,将值保存到event_idx。
    2. 记录上一次avail队列idx索引的值到old。
    3. 记录这一次报文进入队列之后avail队列idx索引的值到new_idx。
    4. 于是这里有一个公式来最后决定是否要notify后端驱动,即所谓的限速逻辑:

      (new_idx - event_idx - 1) <(new_idx - old)

用一张图来表示这个限速逻辑:

第一种情况,当前后端处理速度很快,前端应当notify后端驱动:

虚拟化篇之前后端驱动分析

第二种情况,后端处理速度跟不上前端发送报文速度,暂时不要notify后端:

虚拟化篇之前后端驱动分析

前端队列的状态分析

这里介绍的主要是通过core dump分析前端队列的方法,后端由于涉及到线上物理机,我们往往无法进行有效的分析。

Linux Core Dump

由于后端缺乏详尽的日志,我们往往需要依赖前端进行分析,而前后端队列的状态是在内核态,因此core dump是成了比较重要的分析手段了。以下介绍怎样通过Linux Core Dump对前后端队列进行分析:

首先通过net命令可以直接获取所有net_device的地址:

crash> net
NET_DEVICE NAME IP ADDRESS(ES)
ffff881028c66020 lo 127.0.0.1
ffff8810225f5020 eth0 172.20.1.13

获取其中的device地址:

crash> struct net_device ffff8810225f5020 -o | grep device
struct net_device {
[ffff8810225f50a0] struct net_device_stats stats;
[ffff8810225f5168] const struct net_device_ops *netdev_ops;
[ffff8810225f5198] struct net_device *master;
[ffff8810225f5408] struct net_device *link_watch_next;
[ffff8810225f5418] void (*destructor)(struct net_device *);
[ffff8810225f5450] struct device dev; --->> device地址

获取其中的parent指针:

crash> struct device ffff8810225f5450 | grep parent
parent = 0xffff881023776810,

将结果减去10就是virtio_device结构:

crash> struct virtio_device ffff881023776800 -o
struct virtio_device {
[ffff881023776800] int index;
[ffff881023776804] bool config_enabled;
[ffff881023776805] bool config_change_pending;
[ffff881023776808] spinlock_t config_lock;
[ffff881023776810] struct device dev;
[ffff881023776a30] struct virtio_device_id id;
[ffff881023776a38] struct virtio_config_ops *config;
[ffff881023776a40] struct list_head vqs; ----->> 所有队列的地址
[ffff881023776a50] unsigned long features[1];
[ffff881023776a58] void *priv;

列出所有队列的地址:

crash> list ffff881023776a40
ffff881023776a40
ffff881026d9b000 ->> input.0 接受队列
ffff881026d9f000 ->> output.0 发送队列
ffff881027e3d800 ->> control控制指令队列

我们一般比较多关注发送队列,因此挑选发送队列来看:

crash> struct vring_virtqueue ffff881026d9f000
struct vring_virtqueue {
vq = {
list = {
next = 0xffff881027e3d800,
prev = 0xffff881026d9b000
},
callback = 0xffffffffa0149450,
name = 0xffff881027e3ee88 "output.0",
vdev = 0xffff881023776800,
priv = 0xffff8810237d03c0
},
vring = {
num = 256,
desc = 0xffff881026d9c000,
avail = 0xffff881026d9d000,
used = 0xffff881026d9e000
},
broken = false,
indirect = true,
event = true,
num_free = 0, ----->> 表明队列已满
free_head = 0,
num_added = 0,
last_used_idx = 52143,
notify = 0xffffffffa005a350,
queue_index = 1,
data = 0xffff881026d9f078
}

当然还可以打出desc、avail和used每个数组的情况。


推荐阅读
  • 深入理解Kafka服务端请求队列中请求的处理
    本文深入分析了Kafka服务端请求队列中请求的处理过程,详细介绍了请求的封装和放入请求队列的过程,以及处理请求的线程池的创建和容量设置。通过场景分析、图示说明和源码分析,帮助读者更好地理解Kafka服务端的工作原理。 ... [详细]
  • LeetCode笔记:剑指Offer 41. 数据流中的中位数(Java、堆、优先队列、知识点)
    本文介绍了LeetCode剑指Offer 41题的解题思路和代码实现,主要涉及了Java中的优先队列和堆排序的知识点。优先队列是Queue接口的实现,可以对其中的元素进行排序,采用小顶堆的方式进行排序。本文还介绍了Java中queue的offer、poll、add、remove、element、peek等方法的区别和用法。 ... [详细]
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
  • 深入解析Linux下的I/O多路转接epoll技术
    本文深入解析了Linux下的I/O多路转接epoll技术,介绍了select和poll函数的问题,以及epoll函数的设计和优点。同时讲解了epoll函数的使用方法,包括epoll_create和epoll_ctl两个系统调用。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • 本文介绍了解决二叉树层序创建问题的方法。通过使用队列结构体和二叉树结构体,实现了入队和出队操作,并提供了判断队列是否为空的函数。详细介绍了解决该问题的步骤和流程。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 栈和队列的共同处和不同处
    本文主要介绍了栈和队列的共同处和不同处。栈和队列都是由几个数据特性相同的元素组成的有限序列,也就是线性表。队列是限定仅在表的一端插入元素、在另一端删除元素的线性表,遵循先进先出的原则。栈是限定仅在表尾进行插入或删除操作的线性表,遵循后进先出的原则。 ... [详细]
  • 李逍遥寻找仙药的迷阵之旅
    本文讲述了少年李逍遥为了救治婶婶的病情,前往仙灵岛寻找仙药的故事。他需要穿越一个由M×N个方格组成的迷阵,有些方格内有怪物,有些方格是安全的。李逍遥需要避开有怪物的方格,并经过最少的方格,找到仙药。在寻找的过程中,他还会遇到神秘人物。本文提供了一个迷阵样例及李逍遥找到仙药的路线。 ... [详细]
  • Linux的uucico命令使用方法及工作模式介绍
    本文介绍了Linux的uucico命令的使用方法和工作模式,包括主动模式和附属模式。uucico是用来处理uucp或uux送到队列的文件传输工具,具有操作简单快捷、实用性强的特点。文章还介绍了uucico命令的参数及其说明,包括-c或--quiet、-C或--ifwork、-D或--nodetach、-e或--loop、-f或--force、-i或--stdin、-I--config、-l或--prompt等。通过本文的学习,读者可以更好地掌握Linux的uucico命令的使用方法。 ... [详细]
  • 本文介绍了使用哈夫曼树实现文件压缩和解压的方法。首先对数据结构课程设计中的代码进行了分析,包括使用时间调用、常量定义和统计文件中各个字符时相关的结构体。然后讨论了哈夫曼树的实现原理和算法。最后介绍了文件压缩和解压的具体步骤,包括字符统计、构建哈夫曼树、生成编码表、编码和解码过程。通过实例演示了文件压缩和解压的效果。本文的内容对于理解哈夫曼树的实现原理和应用具有一定的参考价值。 ... [详细]
  • 本文介绍了在Android开发中使用软引用和弱引用的应用。如果一个对象只具有软引用,那么只有在内存不够的情况下才会被回收,可以用来实现内存敏感的高速缓存;而如果一个对象只具有弱引用,不管内存是否足够,都会被垃圾回收器回收。软引用和弱引用还可以与引用队列联合使用,当被引用的对象被回收时,会将引用加入到关联的引用队列中。软引用和弱引用的根本区别在于生命周期的长短,弱引用的对象可能随时被回收,而软引用的对象只有在内存不够时才会被回收。 ... [详细]
  • STL迭代器的种类及其功能介绍
    本文介绍了标准模板库(STL)定义的五种迭代器的种类和功能。通过图表展示了这几种迭代器之间的关系,并详细描述了各个迭代器的功能和使用方法。其中,输入迭代器用于从容器中读取元素,输出迭代器用于向容器中写入元素,正向迭代器是输入迭代器和输出迭代器的组合。本文的目的是帮助读者更好地理解STL迭代器的使用方法和特点。 ... [详细]
  • 本文介绍了一种图的存储和遍历方法——链式前向星法,该方法在存储带边权的图时时间效率比vector略高且节省空间。然而,链式前向星法存图的最大问题是对一个点的出边进行排序去重不容易,但在平行边无所谓的情况下选择这个方法是非常明智的。文章还提及了图中搜索树的父子关系一般不是很重要,同时给出了相应的代码示例。 ... [详细]
author-avatar
Xiaxia的肖肖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有