selectpollepoll区别

作者：ZZDXP | 来源：互联网 | 2023-09-25 17:06

理论知识：select，poll，epoll都是IO多路复用的机制。IO多路复用就通过一种机制，可以监视多个描述符

理论知识&＃xff1a;

select&＃xff0c;poll&＃xff0c;epoll都是IO多路复用的机制。I/O多路复用就通过一种机制&＃xff0c;可以监视多个描述符&＃xff0c;一旦某个描述符就绪&＃xff08;一般是读就绪或者写就绪&＃xff09;&＃xff0c;能够通知程序进行相应的读写操作。但select&＃xff0c;poll&＃xff0c;epoll本质上都是同步I/O&＃xff0c;因为他们都需要在读写事件就绪后自己负责进行读写&＃xff0c;也就是说这个读写过程是阻塞的&＃xff0c;而异步I/O则无需自己负责进行读写&＃xff0c;异步I/O的实现会负责把数据从内核拷贝到用户空间。

epoll跟select都能提供多路I/O复用的解决方案。在现在的Linux内核里有都能够支持&＃xff0c;其中epoll是Linux所特有&＃xff0c;而select则应该是POSIX所规定&＃xff0c;一般操作系统均有实现

fd(file descriptor),用于表述指向文件的引用的抽象化概念&＃xff0c;是进程独有的文件描述符表的索引,它是一个索引值&＃xff0c;指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时&＃xff0c;内核向进程返回一个文件描述符。在程序设计中&＃xff0c;一些涉及底层的程序编写往往会围绕着文件描述符展开。但是文件描述符这一概念往往只适用于UNIX、Linux这样的操作系统。

简单的说&＃xff0c;就是内核为每个进程维护了一个file descriptor table&＃xff0c;file descriptor是file descriptor table的索引&＃xff0c;file descriptor table的表项又转而可以索引到系统级的file table&＃xff0c;file table又可以索引到系统级的inode table&＃xff0c;而这个inode table则真正的描述了底层的文件。系统级的file table还记录了每个文件被打开的方式&＃xff1a;读、写、追加…。file descriptor table每个进程都有一个&＃xff0c;所以fork的会被拷贝。

select 时间复杂度 O(n)

int select (int n, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

&＃xff08;1&＃xff09;使用copy_from_user从用户空间拷贝fd_set到内核空间

&＃xff08;2&＃xff09;注册回调函数__pollwait

&＃xff08;3&＃xff09;遍历所有fd&＃xff0c;调用其对应的poll方法&＃xff08;对于socket&＃xff0c;这个poll方法是sock_poll&＃xff0c;sock_poll根据情况会调用到tcp_poll,udp_poll或者datagram_poll&＃xff09;

&＃xff08;4&＃xff09;以tcp_poll为例&＃xff0c;其核心实现就是__pollwait&＃xff0c;也就是上面注册的回调函数。

&＃xff08;5&＃xff09;__pollwait的主要工作就是把current&＃xff08;当前进程&＃xff09;挂到设备的等待队列中&＃xff0c;不同的设备有不同的等待队列&＃xff0c;对于tcp_poll来说&＃xff0c;其等待队列是sk->sk_sleep&＃xff08;注意把进程挂到等待队列中并不代表进程已经睡眠了&＃xff09;。在设备收到一条消息&＃xff08;网络设备&＃xff09;或填写完文件数据&＃xff08;磁盘设备&＃xff09;后&＃xff0c;会唤醒设备等待队列上睡眠的进程&＃xff0c;这时current便被唤醒了。

&＃xff08;6&＃xff09;poll方法返回时会返回一个描述读写操作是否就绪的mask掩码&＃xff0c;根据这个mask掩码给fd_set赋值。

&＃xff08;7&＃xff09;如果遍历完所有的fd&＃xff0c;还没有返回一个可读写的mask掩码&＃xff0c;则会调用schedule_timeout是调用select的进程&＃xff08;也就是current&＃xff09;进入睡眠。当设备驱动发生自身资源可读写后&＃xff0c;会唤醒其等待队列上睡眠的进程。如果超过一定的超时时间&＃xff08;schedule_timeout指定&＃xff09;&＃xff0c;还是没人唤醒&＃xff0c;则调用select的进程会重新被唤醒获得CPU&＃xff0c;进而重新遍历fd&＃xff0c;判断有没有就绪的fd。

&＃xff08;8&＃xff09;把fd_set从内核空间拷贝到用户空间。

select 函数监视的文件描述符分3类&＃xff0c;分别是writefds、readfds、和exceptfds。调用后select函数会阻塞&＃xff0c;直到有描述副就绪&＃xff08;有数据可读、可写、或者有except&＃xff09;&＃xff0c;或者超时&＃xff08;timeout指定等待时间&＃xff0c;如果立即返回设为null即可&＃xff09;&＃xff0c;函数返回。当select函数返回后&＃xff0c;可以通过遍历fdset&＃xff0c;来找到就绪的描述符。

fd_set(监听的端口个数)&＃xff1a;32位机默认是1024个&＃xff0c;64位机默认是2048。

缺点&＃xff1a;

&＃xff08;1&＃xff09;单进程可以打开fd有限制&＃xff0c;在Linux上一般为1024&＃xff0c;可以通过修改宏定义甚至重新编译内核的方式提升这一限制&＃xff0c;但是这样也会造成效率的降低。

&＃xff08;2&＃xff09;对socket进行扫描时是线性扫描&＃xff0c;即采用轮询的方法&＃xff0c;效率较低&＃xff1b;

&＃xff08;3&＃xff09;用户空间和内核空间的复制非常消耗资源&＃xff1b;

poll 时间复杂度O(n)

int poll (struct pollfd *fds, unsigned int nfds, int timeout);

不同与select使用三个位图来表示三个fdset的方式&＃xff0c;poll使用一个 pollfd的指针实现。

struct pollfd {int fd; /* file descriptor */short events; /* requested events to watch */short revents; /* returned events witnessed */ };

调用过程和select类似

时间复杂度:O(n)

其和select不同的地方&＃xff1a;采用链表的方式替换原有fd_set数据结构,而使其没有连接数的限制。

select和poll都需要在返回后&＃xff0c;通过遍历文件描述符来获取已经就绪的socket。事实上&＃xff0c;同时连接的大量客户端在一时刻可能只有很少的处于就绪状态&＃xff0c;因此随着监视的描述符数量的增长&＃xff0c;其效率也会线性下降。(花大量时间只能获取小部分有用数据这也是很明显的缺点)

epooll 时间复杂度O(1)

epoll是在2.6内核中提出的&＃xff0c;是之前的select和poll的增强版本。相对于select和poll来说&＃xff0c;epoll更加灵活&＃xff0c;没有描述符限制。epoll使用一个文件描述符管理多个描述符&＃xff0c;将用户关系的文件描述符的事件存放到内核的一个事件表中&＃xff0c;这样在用户空间和内核空间的copy只需一次。

epoll可以理解为event poll&＃xff0c;不同于忙轮询和无差别轮询,epoll事先通过epoll_ctl()来注册一个文件描述符&＃xff0c;一旦基于某个文件描述符就绪时&＃xff0c;内核会采用类似callback的回调机制&＃xff0c;迅速激活这个文件描述符&＃xff0c;当进程调用epoll_wait() 时便得到通知。(此处去掉了遍历文件描述符&＃xff0c;而是通过监听回调的的机制。这正是epoll的魅力所在。)

epoll操作过程定义的三个接口&＃xff0c;分别如下&＃xff1a;

int epoll_create(int size)&＃xff1b;//创建一个epoll的句柄&＃xff0c;size用来告诉内核这个监听的数目一共有多大 int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)&＃xff1b; int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

1. int epoll_create(int size);

创建一个epoll的句柄&＃xff0c;size用来告诉内核这个监听的数目一共有多大&＃xff0c;这个参数不同于select()中的第一个参数&＃xff0c;给出最大监听的fd&＃43;1的值&＃xff0c;参数size并不是限制了epoll所能监听的描述符最大个数&＃xff0c;只是对内核初始分配内部数据结构的一个建议。
当创建好epoll句柄后&＃xff0c;它就会占用一个fd值&＃xff0c;在linux下如果查看/proc/进程id/fd/&＃xff0c;是能够看到这个fd的&＃xff0c;所以在使用完epoll后&＃xff0c;必须调用close()关闭&＃xff0c;否则可能导致fd被耗尽。

**2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)&＃xff1b;**

函数是对指定描述符fd执行op操作。
- epfd&＃xff1a;是epoll_create()的返回值。
- op&＃xff1a;表示op操作&＃xff0c;用三个宏来表示&＃xff1a;添加EPOLL_CTL_ADD&＃xff0c;删除EPOLL_CTL_DEL&＃xff0c;修改EPOLL_CTL_MOD。分别添加、删除和修改对fd的监听事件。
- fd&＃xff1a;是需要监听的fd&＃xff08;文件描述符&＃xff09;
- epoll_event&＃xff1a;是告诉内核需要监听什么事&＃xff0c;struct epoll_event结构如下&＃xff1a;

struct epoll_event {__uint32_t events; /* Epoll events */epoll_data_t data; /* User data variable */ };//events可以是以下几个宏的集合&＃xff1a; EPOLLIN &＃xff1a;表示对应的文件描述符可以读&＃xff08;包括对端SOCKET正常关闭&＃xff09;&＃xff1b; EPOLLOUT&＃xff1a;表示对应的文件描述符可以写&＃xff1b; EPOLLPRI&＃xff1a;表示对应的文件描述符有紧急的数据可读&＃xff08;这里应该表示有带外数据到来&＃xff09;&＃xff1b; EPOLLERR&＃xff1a;表示对应的文件描述符发生错误&＃xff1b; EPOLLHUP&＃xff1a;表示对应的文件描述符被挂断&＃xff1b; EPOLLET&＃xff1a; 将EPOLL设为边缘触发(Edge Triggered)模式&＃xff0c;这是相对于水平触发(Level Triggered)来说的。 EPOLLONESHOT&＃xff1a;只监听一次事件&＃xff0c;当监听完这次事件之后&＃xff0c;如果还需要继续监听这个socket的话&＃xff0c;需要再次把这个socket加入到EPOLL队列里

**3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);**

等待epfd上的io事件&＃xff0c;最多返回maxevents个事件。
参数events用来从内核得到事件的集合&＃xff0c;maxevents告之内核这个events有多大&＃xff0c;这个maxevents的值不能大于创建epoll_create()时的size&＃xff0c;参数timeout是超时时间&＃xff08;毫秒&＃xff0c;0会立即返回&＃xff0c;-1将不确定&＃xff0c;也有说法说是永久阻塞&＃xff09;。该函数返回需要处理的事件数目&＃xff0c;如返回0表示已超时。

epoll的两种工作方式&＃xff1a;

1.水平触发 LT (level trigger) 默认模式

LT模式&＃xff1a;是缺省的工作方式&＃xff0c;并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述符是否就绪了&＃xff0c;然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作&＃xff0c;内核还是会继续通知你的。

2.边缘触发 ET(edge trigger)

ET模式&＃xff1a;是高速工作方式&＃xff0c;只支持no-block socket(非阻塞的读写 : 为了保证数据的完整性 )。就绪的事件只能处理一次&＃xff0c;若没有处理完会在下次的其它事件就绪时再进行处理。而若以后再也没有就绪的事件&＃xff0c;那么剩余的那部分数据也会随之而丢失。 ET模式在很大程度上减少了epoll事件被重复触发的次数&＃xff0c;因此效率要比LT模式高。只是如果使用ET模式&＃xff0c;就要保证每次进行数据处理时&＃xff0c;要将其处理完&＃xff0c;不能造成数据丢失&＃xff0c;这样对编写代码的人要求就比较高。

优点&＃xff1a;

1、没有最大并发连接的限制&＃xff0c;能打开的FD的上限远大于1024&＃xff08;1G的内存上能监听约10万个端口&＃xff1b;
2、效率提升&＃xff0c;不是轮询的方式&＃xff0c;不会随着FD数目的增加效率下降。只有活跃可用的FD才会调用callback函数&＃xff1b;
即Epoll最大的优点就在于它只管你“活跃”的连接&＃xff0c;而跟连接总数无关&＃xff0c;因此在实际的网络环境中&＃xff0c;Epoll的效率就会远远高于select和poll。

3、内存拷贝&＃xff0c;利用mmap()文件映射内存加速与内核空间的消息传递&＃xff1b;即epoll使用mmap减少复制开销。

总结 :

1、select&＃xff0c;poll实现需要自己不断轮询所有fd集合&＃xff0c;直到设备就绪&＃xff0c;期间可能要睡眠和唤醒多次交替。而epoll其实也需要调用epoll_wait不断轮询就绪链表&＃xff0c;期间也可能多次睡眠和唤醒交替&＃xff0c;但是它是设备就绪时&＃xff0c;调用回调函数&＃xff0c;把就绪fd放入就绪链表中&＃xff0c;并唤醒在epoll_wait中进入睡眠的进程。虽然都要睡眠和交替&＃xff0c;但是select和poll在“醒着”的时候要遍历整个fd集合&＃xff0c;而epoll在“醒着”的时候只要判断一下就绪链表是否为空就行了&＃xff0c;这节省了大量的CPU时间。这就是回调机制带来的性能提升。

2、select&＃xff0c;poll每次调用都要把fd集合从用户态往内核态拷贝一次&＃xff0c;并且要把current往设备等待队列中挂一次&＃xff0c;而epoll只要一次拷贝&＃xff0c;而且把current往等待队列上挂也只挂一次&＃xff08;在epoll_wait的开始&＃xff0c;注意这里的等待队列并不是设备等待队列&＃xff0c;只是一个epoll内部定义的等待队列&＃xff09;。这也能节省不少的开销。

综上&＃xff0c;在选择select&＃xff0c;poll&＃xff0c;epoll时要根据具体的使用场合以及这三种方式的自身特点。

1、表面上看epoll的性能最好&＃xff0c;但是在连接数少并且连接都十分活跃的情况下&＃xff0c;select和poll的性能可能比epoll好&＃xff0c;毕竟epoll的通知机制需要很多函数回调(复杂的设计必然存在更多的中间处理环节,产生必要的开销)。但是当遇到大量的idle- connection&＃xff0c;就会发现epoll的效率大大高于select/poll。

2、select低效是因为每次它都需要轮询。但低效也是相对的&＃xff0c;视情况而定&＃xff0c;也可通过良好的设计改善

参考

IO多路复用之select总结
IO多路复用之poll总结
IO多路复用之epoll总结

Linux IO模式及 select、poll、epoll详解

推荐阅读

schema
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
schema
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
tree
SaltStack部署实践（4）JOB管理与Returns模块

目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]

蜡笔小新 2024-12-22 18:53:43
tree
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
go
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
go
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
runtime
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
command
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
runtime
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
range
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
go
深入理解Shell脚本编程

本文详细介绍了Shell脚本编程的基础概念、语法结构及其在操作系统中的应用。通过具体的示例代码，帮助读者掌握如何编写和执行Shell脚本。 ... [详细]

蜡笔小新 2024-12-25 06:58:01
go
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
go
Linux中Diff命令的详细使用指南

本文介绍Linux中的Diff命令，该命令用于逐行对比两个文本文件，展示它们之间的差异。通过系统性检查，它能有效标识出文件间所有不同的行，无需事先对文件进行排序。 ... [详细]

蜡笔小新 2024-12-23 14:53:00
go
C语言的起源与发展历程

本文详细介绍了C语言的起源、发展及其标准化过程，涵盖了从早期的BCPL和B语言到现代C语言的演变，并探讨了其在操作系统和跨平台编程中的重要地位。 ... [详细]

蜡笔小新 2024-12-23 14:11:43
go
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41