热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

linux3.10内核详解,你了解Linux3.10kernelbridge的转发逻辑?

前分析过linuxkernel2.6.32的bridge转发逻辑,下面分析一下linuxkernel3.10的bridge转发逻辑。这样正是CentOS5和CentO

前分析过linux kernel 2.6.32的bridge转发逻辑,下面分析一下linux kernel 3.10的bridge转发逻辑。这样正是CentOS 5和CentOS 7对应的内核。3.10 kernel中bridge逻辑的最大改变就是增加了vlan处理逻辑以及brdige入口函数的设置。

1. netdev_rx_handler_register

在分析之前首先要介绍一个重要函数:netdev_rx_handler_register,这个函数是2.6内核所没有的。

netdev_rx_handler_register

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

/*

* dev: 要注册接收函数的dev

* rx_handler: 要注册的接收函数

* rx_handler_data: 指向rx_handler_data使用的数据

*/

int netdev_rx_handler_register(struct net_device *dev,

rx_handler_func_t *rx_handler,

void *rx_handler_data)

{

ASSERT_RTNL();

if (dev->rx_handler)

return -EBUSY;

/* Note: rx_handler_data must be set before rx_handler */

rcu_assign_pointer(dev->rx_handler_data, rx_handler_data);

rcu_assign_pointer(dev->rx_handler, rx_handler);

return 0;

}

这个函数可以给设备(net_device)注册接收函数,然后在__netif_receive_skb函数中根据接收skb的设备接口,再调用这个被注册的接收函数。比如为网桥下的接口注册br_handle_frame函数,为bonding接口注册bond_handle_frame函数。这相对于老式的网桥处理更灵活,有了这个机制也可以在模块中自行注册处理函数。比如3.10中的openvswitch(OpenvSwitch在3.10已经合入了内核)创建netdev vport的函数netdev_create。

netdev_create

1

2

3

4

5

6

7

staTIc struct vport *netdev_create(const struct vport_parms *parms)

{

struct vport *vport;

/....../

err = netdev_rx_handler_register(netdev_vport->dev, netdev_frame_hook,vport);

/....../

}

这个函数在创建netdev vport时将设备的接收函数设置为netdev_frame_hook函数,这也是整个openvswitch的入口函数,如果查看OpenvSwitch的源码可以看到当安装于2.6内核时这里是替换掉bridge的br_handle_frame_hook函数,从而由bridge逻辑进入OpenvSwitch逻辑。

2. Bridge转发逻辑分析

还是先从neTIf_receive_skb函数分析,这个函数算是进入协议栈的入口。

neTIf_receive_skb

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

int neTIf_receive_skb(struct sk_buff *skb)

{

int ret;

if (skb_defer_rx_timestamp(skb))

return NET_RX_SUCCESS;

rcu_read_lock();

/*RPS逻辑处理,现在内核中使用了RPS机制, 将报文分散到各个cpu的接收队列中进行负载均衡处理*/

#ifdef CONFIG_RPS

if (static_key_false(&rps_needed)) {

struct rps_dev_flow voidflow, *rflow = &voidflow;

int cpu = get_rps_cpu(skb->dev, skb, &rflow);

if (cpu >= 0) {

ret = enqueue_to_backlog(skb, cpu, &rflow->last_qtail);

rcu_read_unlock();

return ret;

}

}

#endif

ret = __netif_receive_skb(skb);

rcu_read_unlock();

return ret;

}

netif_receive_skb只是对数据包进行了RPS的处理,然后调用__netif_receive_skb。

__netif_receive_skb并没有其他多余的处理逻辑,主要调用 __netif_receive_skb_core,这个函数才真正相当于2.6内核的netif_receive_skb。以下代码省略了和bridge无关的逻辑。

__netif_receive_skb_core

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

static int __netif_receive_skb_core(struct sk_buff *skb, bool pfmemalloc)

{

struct packet_type *ptype, *pt_prev;

rx_handler_func_t *rx_handler;

struct net_device *orig_dev;

struct net_device *null_or_dev;

bool deliver_exact = false;

int ret = NET_RX_DROP;

__be16 type;

/*......*/

orig_dev = skb->dev;

skb_reset_network_header(skb);

pt_prev = NULL;

skb->skb_iif = skb->dev->ifindex;

/*ptype_all协议处理,tcpdump抓包就在这里*/

list_for_each_entry_rcu(ptype, &ptype_all, list) {

if (!ptype->dev || ptype->dev == skb->dev) {

if (pt_prev)

ret = deliver_skb(skb, pt_prev, orig_dev);

pt_prev = ptype;

}

}

/*调用接收设备的rx_handler*/

rx_handler = rcu_dereference(skb->dev->rx_handler);

if (rx_handler) {

if (pt_prev) {

ret = deliver_skb(skb, pt_prev, orig_dev);

pt_prev = NULL;

}

switch (rx_handler(&skb)) {

case RX_HANDLER_CONSUMED:

ret = NET_RX_SUCCESS;

goto out;

case RX_HANDLER_ANOTHER:

goto another_round;

case RX_HANDLER_EXACT:

deliver_exact = true;

case RX_HANDLER_PASS:

break;

default:

BUG();

}

}

/*根据 skb->protocol传递给上层协议*/

type = skb->protocol;

list_for_each_entry_rcu(ptype,&ptype_base[ntohs(type) & PTYPE_HASH_MASK], list) {

if (ptype->type == type && (ptype->dev == null_or_dev || ptype->dev == skb->dev ||ptype->dev == orig_dev)) {

if (pt_prev)

ret = deliver_skb(skb, pt_prev, orig_dev);

pt_prev = ptype;

}

}

if (pt_prev) {

if (unlikely(skb_orphan_frags(skb, GFP_ATOMIC)))

goto drop;

else

ret = pt_prev->func(skb, skb->dev, pt_prev, orig_dev);

} else {

drop:

atomic_long_inc(&skb->dev->rx_dropped);

kfree_skb(skb);

ret = NET_RX_DROP;

}

out:

return ret;

}

如果一个dev被添加到一个bridge(做为bridge的一个接口),的这个接口设备的rx_handler被设置为br_handle_frame函数,这是在br_add_if函数中设置的,而br_add_if (net/bridge/br_if.c)是在向网桥设备上添加接口时设置的。进入br_handle_frame也就进入了bridge的逻辑代码。

br_add_if

1

2

3

4

5

6

int br_add_if(struct net_bridge *br, struct net_device *dev)

{

/*......*/

err = netdev_rx_handler_register(dev, br_handle_frame, p);

/*......*/

}

br_handle_frame

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

rx_handler_result_t br_handle_frame(struct sk_buff **pskb)

{

struct net_bridge_port *p;

struct sk_buff *skb = *pskb;

const unsigned char *dest = eth_hdr(skb)->h_dest;

br_should_route_hook_t *rhook;

if (unlikely(skb->pkt_type == PACKET_LOOPBACK))

return RX_HANDLER_PASS;

if (!is_valid_ether_addr(eth_hdr(skb)->h_source))

goto drop;

skb = skb_share_check(skb, GFP_ATOMIC);

if (!skb)

return RX_HANDLER_CONSUMED;

/*获取dev对应的bridge port*/

p = br_port_get_rcu(skb->dev);

/*特殊目的mac地址的处理*/

if (unlikely(is_link_local_ether_addr(dest))) {

/*

* See IEEE 802.1D Table 7-10 Reserved addresses

*

* Assignment Value

* Bridge Group Address 01-80-C2-00-00-00

* (MAC Control) 802.3 01-80-C2-00-00-01

* (Link Aggregation) 802.3 01-80-C2-00-00-02

* 802.1X PAE address 01-80-C2-00-00-03

*

* 802.1AB LLDP 01-80-C2-00-00-0E

*

* Others reserved for future standardization

*/

switch (dest[5]) {

case 0x00: /* Bridge Group Address */

/* If STP is turned off,then must forward to keep loop detection */

if (p->br->stp_enabled == BR_NO_STP)

goto forward;

break;

case 0x01: /* IEEE MAC (Pause) */

goto drop;

default:

/* Allow selective forwarding for most other protocols */

if (p->br->group_fwd_mask & (1u <

goto forward;

}

/* LOCAL_IN hook点&#xff0c;注意经过这个hook点并不代表发送到主机协议栈(只有特殊目的mac 01-80-C2才会走到这里)*/

if (NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_IN, skb, skb->dev,

NULL, br_handle_local_finish)) {

return RX_HANDLER_CONSUMED; /* consumed by filter */

} else {

*pskb &#61; skb;

return RX_HANDLER_PASS; /* continue processing */

}

}

/*转发逻辑*/

forward:

switch (p->state) {

case BR_STATE_FORWARDING:

rhook &#61; rcu_dereference(br_should_route_hook);

if (rhook) {

if ((*rhook)(skb)) {

*pskb &#61; skb;

return RX_HANDLER_PASS;

}

dest &#61; eth_hdr(skb)->h_dest;

}

/* fall through */

case BR_STATE_LEARNING:

/*skb的目的mac和bridge的mac一样&#xff0c;则将skb发往本机协议栈*/

if (ether_addr_equal(p->br->dev->dev_addr, dest))

skb->pkt_type &#61; PACKET_HOST;

/*NF_BR_PRE_ROUTING hook点*/

NF_HOOK(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING, skb, skb->dev, NULL,br_handle_frame_finish);

break;

default:

drop:

kfree_skb(skb);

}

return RX_HANDLER_CONSUMED;

}

经过NF_BR_LOCAL_IN hook点会执行br_handle_local_finish函数。

br_handle_local_finish

1

2

3

4

5

6

7

8

9

10

static int br_handle_local_finish(struct sk_buff *skb)

{

struct net_bridge_port *p &#61; br_port_get_rcu(skb->dev);

u16 vid &#61; 0;

/*获取skb的vlan id(3.10的bridge支持vlan)*/

br_vlan_get_tag(skb, &vid);

/*更新bridge的mac表&#xff0c;注意vlan id也是参数&#xff0c;说明每个vlan有一个独立的mac表*/

br_fdb_update(p->br, p, eth_hdr(skb)->h_source, vid);

return 0; /* process further */

}

经过NF_BR_PRE_ROUTING hook点会执行br_handle_frame_finish函数。

br_handle_frame_finish

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

int br_handle_frame_finish(struct sk_buff *skb)

{

const unsigned char *dest &#61; eth_hdr(skb)->h_dest;

struct net_bridge_port *p &#61; br_port_get_rcu(skb->dev);

struct net_bridge *br;

struct net_bridge_fdb_entry *dst;

struct net_bridge_mdb_entry *mdst;

struct sk_buff *skb2;

u16 vid &#61; 0;

if (!p || p->state &#61;&#61; BR_STATE_DISABLED)

goto drop;

/*这个判断主要是vlan的相关检查&#xff0c;如是否和接收接口配置的vlan相同*/

if (!br_allowed_ingress(p->br, nbp_get_vlan_info(p), skb, &vid))

goto out;

/* insert into forwarding database after filtering to avoid spoofing */

br &#61; p->br;

/*更新转发数据库*/

br_fdb_update(br, p, eth_hdr(skb)->h_source, vid);

/*多播mac的处理*/

if (!is_broadcast_ether_addr(dest) && is_multicast_ether_addr(dest) &&

br_multicast_rcv(br, p, skb))

goto drop;

if (p->state &#61;&#61; BR_STATE_LEARNING)

goto drop;

BR_INPUT_SKB_CB(skb)->brdev &#61; br->dev;

/* The packet skb2 goes to the local host (NULL to skip). */

skb2 &#61; NULL;

/*如果网桥被设置为混杂模式*/

if (br->dev->flags & IFF_PROMISC)

skb2 &#61; skb;

dst &#61; NULL;

/*如果skb的目的mac是广播*/

if (is_broadcast_ether_addr(dest))

skb2 &#61; skb;

else if (is_multicast_ether_addr(dest)) { /*多播*/

mdst &#61; br_mdb_get(br, skb, vid);

if (mdst || BR_INPUT_SKB_CB_MROUTERS_ONLY(skb)) {

if ((mdst && mdst->mglist) ||

br_multicast_is_router(br))

skb2 &#61; skb;

br_multicast_forward(mdst, skb, skb2);

skb &#61; NULL;

if (!skb2)

goto out;

} else

skb2 &#61; skb;

br->dev->stats.multicast&#43;&#43;;

} else if ((dst &#61; __br_fdb_get(br, dest, vid)) && dst->is_local) {/*目的地址是本机mac&#xff0c;则发往本机协议栈*/

skb2 &#61; skb;

/* Do not forward the packet since it&#39;s local. */

skb &#61; NULL;

}

if (skb) {

if (dst) {

dst->used &#61; jiffies;

br_forward(dst->dst, skb, skb2); //转发给目的接口

} else

br_flood_forward(br, skb, skb2); //找不到目的接口则广播

}

if (skb2)

return br_pass_frame_up(skb2); //发往本机协议栈

out:

return 0;

drop:

kfree_skb(skb);

goto out;

}

{C}

我们先看发往本机协议栈的函数br_pass_frame_up。

br_pass_frame_up

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

static int br_pass_frame_up(struct sk_buff *skb)

{

struct net_device *indev, *brdev &#61; BR_INPUT_SKB_CB(skb)->brdev;

struct net_bridge *br &#61; netdev_priv(brdev);

//更新统计计数(略)

/* Bridge is just like any other port. Make sure the

* packet is allowed except in promisc modue when someone

* may be running packet capture.

*/

if (!(brdev->flags & IFF_PROMISC) && !br_allowed_egress(br, br_get_vlan_info(br), skb)) {

kfree_skb(skb); //如果不是混杂模式且vlan处理不合要求则丢弃

return NET_RX_DROP;

}

//vlan处理逻辑

skb &#61; br_handle_vlan(br, br_get_vlan_info(br), skb);

if (!skb)

return NET_RX_DROP;

indev &#61; skb->dev;

skb->dev &#61; brdev; //重点&#xff0c;这里修改了skb->dev为bridge

//经过NF_BR_LOCAL_IN再次进入协议栈

return NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_IN, skb, indev, NULL,

netif_receive_skb);

}

{C}

再次进入netif_receive_skb&#xff0c;由于skb-dev被设置成了bridge&#xff0c;而bridge设备的rx_handler函数是没有被设置的&#xff0c;所以就不会再次进入bridge逻辑&#xff0c;而直接进入了主机上层协议栈。

下面看转发逻辑&#xff0c;转发逻辑主要在br_forward函数中&#xff0c;而br_forward主要调用__br_forward函数。

__br_forward

1

2

3

4

5

6

7

8

9

10

11

12

13

14

static void __br_forward(const struct net_bridge_port *to, struct sk_buff *skb)

{

struct net_device *indev;

//vlan处理

skb &#61; br_handle_vlan(to->br, nbp_get_vlan_info(to), skb);

if (!skb)

return;

indev &#61; skb->dev;

skb->dev &#61; to->dev; //skb->dev设置为出口设备dev

skb_forward_csum(skb);

//经过NF_BR_FORWARD hook点&#xff0c;调用br_forward_finish

NF_HOOK(NFPROTO_BRIDGE, NF_BR_FORWARD, skb, indev, skb->dev,

br_forward_finish);

}

{C}

br_forward_finish

1

2

3

4

5

int br_forward_finish(struct sk_buff *skb)

{

//经过NF_BR_POST_ROUTING hook点,调用br_dev_queue_push_xmit

return NF_HOOK(NFPROTO_BRIDGE, NF_BR_POST_ROUTING, skb, NULL, skb->dev, br_dev_queue_push_xmit);

}

{C}

br_dev_queue_push_xmit

1

2

3

4

5

6

7

8

9

10

11

12

int br_dev_queue_push_xmit(struct sk_buff *skb)

{

/* ip_fragment doesn&#39;t copy the MAC header */

if (nf_bridge_maybe_copy_header(skb) || (packet_length(skb) > skb->dev->mtu && !skb_is_gso(skb))) {

kfree_skb(skb);

} else {

skb_push(skb, ETH_HLEN);

br_drop_fake_rtable(skb);

dev_queue_xmit(skb); //发送到链路层

}

return 0;

}

Skb进入dev_queue_xmit就会调用相应设备驱动的发送函数。也就出了bridge逻辑。所以整个3.10kernel的bridge转发逻辑如下图所示&#xff1a;

7869933365740b0ce4cbc7bc31642ca6.png

注意&#xff0c;和2.6kernel一样&#xff0c;bridge的OUTPUT hook点在bridge dev的发送函数中&#xff0c;这里不再分析列出。



推荐阅读
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • JDK源码学习之HashTable(附带面试题)的学习笔记
    本文介绍了JDK源码学习之HashTable(附带面试题)的学习笔记,包括HashTable的定义、数据类型、与HashMap的关系和区别。文章提供了干货,并附带了其他相关主题的学习笔记。 ... [详细]
  • 本文介绍了一种在PHP中对二维数组根据某个字段进行排序的方法,以年龄字段为例,按照倒序的方式进行排序,并给出了具体的代码实现。 ... [详细]
  • 本文整理了Java面试中常见的问题及相关概念的解析,包括HashMap中为什么重写equals还要重写hashcode、map的分类和常见情况、final关键字的用法、Synchronized和lock的区别、volatile的介绍、Syncronized锁的作用、构造函数和构造函数重载的概念、方法覆盖和方法重载的区别、反射获取和设置对象私有字段的值的方法、通过反射创建对象的方式以及内部类的详解。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 电话号码的字母组合解题思路和代码示例
    本文介绍了力扣题目《电话号码的字母组合》的解题思路和代码示例。通过使用哈希表和递归求解的方法,可以将给定的电话号码转换为对应的字母组合。详细的解题思路和代码示例可以帮助读者更好地理解和实现该题目。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • 阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]
  • 本文介绍了如何在给定的有序字符序列中插入新字符,并保持序列的有序性。通过示例代码演示了插入过程,以及插入后的字符序列。 ... [详细]
  • 服务器上的操作系统有哪些,如何选择适合的操作系统?
    本文介绍了服务器上常见的操作系统,包括系统盘镜像、数据盘镜像和整机镜像的数量。同时,还介绍了共享镜像的限制和使用方法。此外,还提供了关于华为云服务的帮助中心,其中包括产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题和视频帮助等技术文档。对于裸金属服务器的远程登录,本文介绍了使用密钥对登录的方法,并提供了部分操作系统配置示例。最后,还提到了SUSE云耀云服务器的特点和快速搭建方法。 ... [详细]
  • RouterOS 5.16软路由安装图解教程
    本文介绍了如何安装RouterOS 5.16软路由系统,包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程,方便读者进行操作。 ... [详细]
  • 重入锁(ReentrantLock)学习及实现原理
    本文介绍了重入锁(ReentrantLock)的学习及实现原理。在学习synchronized的基础上,重入锁提供了更多的灵活性和功能。文章详细介绍了重入锁的特性、使用方法和实现原理,并提供了类图和测试代码供读者参考。重入锁支持重入和公平与非公平两种实现方式,通过对比和分析,读者可以更好地理解和应用重入锁。 ... [详细]
author-avatar
广东蒗缦m莎
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有