目录

摘要

​编辑

1 从网卡开始

2 硬中断,有点短

2.1 Game Over

3 接力——软中断

3.1 NET_RX_SOFTIRQ 软中断的开始

3.2 数据包到了协议栈

3.3 网络层处理

3.4 传输层处理

4 应用层的处理

5 总结

摘要

        一个网络包的接收始于网卡,经层层协议栈的解析,终于应用层。今天来循着一个网络包的足迹,深入学习一下 Linux 下接收数据的处理流程。

文中引用 Linux 内核源码基于版本 2.6.34,并做了一些删减以提高可读性。

1 从网卡开始

        三更半夜,一串二进制的比特流在错综复杂的网线中极速穿行,并顺着网线爬到了你的家中。敏锐的网卡感知到了这个不速之客的到来,将它放到了辖下的某个接收队列。

如何查看网卡 RingBuf 的大小? 借助 ethtool 工具,如下表示接收缓存区支持存放 1024 个数据帧:

[root@centos ~]# ethtool -g eth0 Ring parameters for eth0: Pre-set maximums: RX:             1024 RX Mini:        0 RX Jumbo:       0 TX:             1024 ...

ifconfig 输出中 overruns 表示的就是因 RingBuf 满而不得已丢弃的数据帧的个数。

        接着,网卡在内存中提前开辟的缓冲区—— RingBuf 中循着空闲位置,找到后,由 DMA 引擎把数据直接从网卡的接收队列拷贝至 RingBuf 中。

现代网络接口卡(NICs)通常都会内置直接内存访问(DMA)引擎。DMA是一种允许硬件设备直接向主内存读写数据的技术,而无需CPU的直接介入,这样可以显著提高数据传输的效率,减少CPU的负载。

        紧接着~网卡向 CPU 同学发出了一个电信号——硬中断:“起来接客!”

2 硬中断,有点短

        CPU 左脚被电了一激灵,便知道是网卡送来了好东西,便开始查硬中断注册表,找到网卡提前注册在这里的回调函数。对于 Intel 的 igb 网卡,其注册的硬中断处理函数为 igb_msix_ring 。

// drivers/net/igb/igb_main.c

static irqreturn_t igb_msix_ring(int irq, void *data)

{

struct igb_q_vector *q_vector = data;

// 记录硬件中断频率

igb_write_itr(q_vector);

// 走 napi 处理数据

napi_schedule(&q_vector->napi);

return IRQ_HANDLED;

}

        NAPI 是 linux 内核网络子系统的一个特性,通过定期轮询的方式处理聚合后的数据,可以减少高负载下的中断次数来降低 CPU 的使用率,进而提升系统的整体性能。

        顺着 napi_schedule 这个调用一路前行,最终来到了 __napi_schedule :

void __napi_schedule(struct napi_struct *n)

{

unsigned long flags;

local_irq_save(flags);

// 将 napi 带来的的数据帧 list 放到每 cpu 的 sofnet_data 的 list 中

list_add_tail(&n->poll_list, &__get_cpu_var(softnet_data).poll_list);

// 触发 NET_RX_SOFTIRQ 软中断

__raise_softirq_irqoff(NET_RX_SOFTIRQ);

local_irq_restore(flags);

}

        这里触发软中断的方式类似于发送信号,只是简单的修改了一个变量,将软中断信号设置到了 irq_stat 中。irq_stat 是一个数组,以 cpu 号为索引。所以这里操作之后,在硬中断对应的那个 cpu 上设置了软中断标记。后续的软中断也是在同一个 cpu 上继续执行的。所以如果发现软中断负载不均的话,就需要调整硬中断的 cpu 亲和性,将其均衡到不同的 cpu 核上去。或是更换支持多队列的网卡,每个队列都会有一个自己的中断号,可以更好的支持负载均衡。

#define __raise_softirq_irqoff(nr) \

do { or_softirq_pending(1UL << (nr)); } while (0)

#define or_softirq_pending(x) (local_softirq_pending() |= (x))

#ifndef __ARCH_IRQ_STAT

extern irq_cpustat_t irq_stat[]; /* defined in asm/hardirq.h */

#define __IRQ_STAT(cpu, member) (irq_stat[cpu].member)

#endif

/* arch independent irq_stat fields */

#define local_softirq_pending() \

__IRQ_STAT(smp_processor_id(), __softirq_pending)

2.1 Game Over

        到这里,硬中断的使命就完成了。可见,其只是做了及其简单的处理:

记录硬中断频率将待处理数据帧 list 挂到 softnet_data 的 poll_list 上触发软中断

3 接力——软中断

        再来看一下这张图,cpu 现在已经执行完了硬中断上网卡注册的回调函数,并触发了一个 NET_RX_SOFTIRQ 软中断。

        在 linux 启动的时候,就已经给每个 cpu 启动了一个名为的 ksoftirq/x 的内核线程,ksoftirq/x 启动后,它的入口函数是这个:

// kernel/softirq.c

static int run_ksoftirqd(void * __bind_cpu)

{

set_current_state(TASK_INTERRUPTIBLE);

while (!kthread_should_stop()) {

if (!local_softirq_pending()) {

schedule();

}

__set_current_state(TASK_RUNNING);

while (local_softirq_pending()) {

do_softirq();

}

set_current_state(TASK_INTERRUPTIBLE);

}

__set_current_state(TASK_RUNNING);

return 0;

}

        local_softirq_pending 是不是挺眼熟的,前面触发软中断即是调用它来获取软中断保存的变量。在 ksoftirq/x 中会循环调用 local_softirq_pending 判断是否有待处理的软中断,没有就会schdule 出去,否则就要调用 do_softirq 开始处理软中断了。do_softirq 进一步调用了 __do_softirq:

// kernel/softirq.c

asmlinkage void __do_softirq(void)

{

do {

if (pending & 1) {

trace_softirq_entry(h, softirq_vec);

// 调用对应软中断的回调方法

h->action(h);

trace_softirq_exit(h, softirq_vec);

}

h++;

pending >>= 1;

} while (pending);

}

        在 __do_softirq 中,会遍历软中断注册表,查找发生了软中断的回调函数 action ,调用之。对于 NET_RX_SOFTIRQ 软中断,对应的回调函数为 net_rx_action。

3.1 NET_RX_SOFTIRQ 软中断的开始

        net_rx_action 中从 softnet_data 的 poll_list 中拿到待处理的数据帧,遍历这个 poll_list ,然后依次调用一个 poll 方法处理这些数据帧。

static void net_rx_action(struct softirq_action *h)

{

// 从 softnet_data 的 poll_list 中获取待处理数据帧,这是前面硬中断cb中放在这里的

struct list_head *list = &__get_cpu_var(softnet_data).poll_list;

while (!list_empty(list)) {

/* Even though interrupts have been re-enabled, this

* access is safe because interrupts can only add new

* entries to the tail of this list, and only ->poll()

* calls can remove this head entry from the list.

*/

n = list_first_entry(list, struct napi_struct, poll_list);

if (test_bit(NAPI_STATE_SCHED, &n->state)) {

work = n->poll(n, weight);

trace_napi_poll(n);

}

...

}

}

        poll 也是一个网卡驱动注册的回调方法,对于 Inter 的 igb 网卡,它是 igb_poll:

// drivers/net/igb/igb_main.c

static int igb_poll(struct napi_struct *napi, int budget)

{

struct igb_q_vector *q_vector = container_of(napi,

struct igb_q_vector,

napi);

if (q_vector->tx_ring)

tx_clean_complete = igb_clean_tx_irq(q_vector);

if (q_vector->rx_ring)

igb_clean_rx_irq_adv(q_vector, &work_done, budget);

...

}

        igb_poll 方法中,做的事主要有两点:

清理发送缓冲中的无用数据处理&清理接收缓冲中的数据

        我们跟进看一下 igb_clean_rx_irq_adv 对接收的处理流程:

// drivers/net/igb/igb_main.c

static bool igb_clean_rx_irq_adv(struct igb_q_vector *q_vector,

int *work_done, int budget)

{

while (staterr & E1000_RXD_STAT_DD) {

// 将数据包从 RingBuf 上取下来

skb = buffer_info->skb;

prefetch(skb->data - NET_IP_ALIGN);

buffer_info->skb = NULL;

...

skb_record_rx_queue(skb, rx_ring->queue_index);

vlan_tag = ((staterr & E1000_RXD_STAT_VP) ?

le16_to_cpu(rx_desc->wb.upper.vlan) : 0);

// 数据包处理

igb_receive_skb(q_vector, skb, vlan_tag);

...

}

...

return cleaned;

}

        这里主要数将 skb 摘下来,对 skb 包头一些元数据进行填充,如协议类型、时间戳等,随后就交给 igb_receive_skb 去处理:

static void igb_receive_skb(struct igb_q_vector *q_vector,

struct sk_buff *skb,

u16 vlan_tag)

{

struct igb_adapter *adapter = q_vector->adapter;

if (vlan_tag && adapter->vlgrp)

vlan_gro_receive(&q_vector->napi, adapter->vlgrp,

vlan_tag, skb);

else

napi_gro_receive(&q_vector->napi, skb);

}

        这里主要是区分了是否 vlan 收上来的包,vlan 的包有一层独特的包头需要处理,我们之间看 napi_gro_receive 即可:

// net/core/dev.c

static gro_result_t __napi_gro_receive(struct napi_struct *napi, struct sk_buff *skb)

{

struct sk_buff *p;

for (p = napi->gro_list; p; p = p->next) {

NAPI_GRO_CB(p)->same_flow =

(p->dev == skb->dev) &&

!compare_ether_header(skb_mac_header(p),

skb_gro_mac_header(skb));

NAPI_GRO_CB(p)->flush = 0;

}

return dev_gro_receive(napi, skb);

}

enum gro_result dev_gro_receive(struct napi_struct *napi, struct sk_buff *skb)

{

...

// gro 特性处理: 将多个小包聚合成一个大包再传递给协议栈去处理

// 减少传递给网络协议栈的包数,提升性能

list_for_each_entry_rcu(ptype, head, list) {

if (ptype->type != type || ptype->dev || !ptype->gro_receive)

continue;

skb_set_network_header(skb, skb_gro_offset(skb));

mac_len = skb->network_header - skb->mac_header;

skb->mac_len = mac_len;

NAPI_GRO_CB(skb)->same_flow = 0;

NAPI_GRO_CB(skb)->flush = 0;

NAPI_GRO_CB(skb)->free = 0;

pp = ptype->gro_receive(&napi->gro_list, skb);

break;

}

if (pp) {

struct sk_buff *nskb = *pp;

*pp = nskb->next;

nskb->next = NULL;

// 数据包继续走 napi 流程

napi_gro_complete(nskb);

napi->gro_count--;

}

...

}

        dev_gro_receive 中对小包进行了聚合,随后继续走 napi 处理流程 : 

static int napi_gro_complete(struct sk_buff *skb)

{

// 将数据包交给协议栈处理

return netif_receive_skb(skb);

}

3.2 数据包到了协议栈

      接着看协议栈是如何一层一层的解包呢:

int netif_receive_skb(struct sk_buff *skb)

{

// 这里设置了一个数据包的分发点,tcpdump 会监听这里的 deliver_skb 事件进行抓包

list_for_each_entry_rcu(ptype, &ptype_all, list) {

if (ptype->dev == null_or_orig || ptype->dev == skb->dev ||

ptype->dev == orig_dev) {

if (pt_prev)

ret = deliver_skb(skb, pt_prev, orig_dev);

pt_prev = ptype;

}

}

// 查找对应协议注册的处理函数,放在 pt_recv 中,在 deliver_skb 中将执行它

type = skb->protocol;

list_for_each_entry_rcu(ptype,

&ptype_base[ntohs(type) & PTYPE_HASH_MASK], list) {

if (ptype->type == type && (ptype->dev == null_or_orig ||

ptype->dev == skb->dev || ptype->dev == orig_dev ||

ptype->dev == null_or_bond)) {

if (pt_prev)

ret = deliver_skb(skb, pt_prev, orig_dev);

pt_prev = ptype;

}

}

}

        netif_receive_skb,协议栈的入口函数中预留了 tcpdump 的抓包点,并跟进 skb 中的协议信息(这里是ipv4/ipv6),在 ptype_bhase 中查找对应的回调方法。随后在 deliver_skb 中,会执行对应的方法。

3.3 网络层处理

        对于 IP 类型的数据包,pt_prev 中的回调方法是 ip_rcv :

int ip_rcv(struct sk_buff *skb, struct net_device *dev, struct packet_type *pt, struct net_device *orig_dev)

{

// 首先做一些包格式校验

if (iph->ihl < 5 || iph->version != 4)

goto inhdr_error;

if (!pskb_may_pull(skb, iph->ihl*4))

goto inhdr_error;

iph = ip_hdr(skb);

if (unlikely(ip_fast_csum((u8 *)iph, iph->ihl)))

goto inhdr_error;

len = ntohs(iph->tot_len);

if (skb->len < len) {

IP_INC_STATS_BH(dev_net(dev), IPSTATS_MIB_INTRUNCATEDPKTS);

goto drop;

} else if (len < (iph->ihl*4))

goto inhdr_error;

...

// 过一下 netfilter 框架的 pre_routing 点

return NF_HOOK(PF_INET, NF_INET_PRE_ROUTING, skb, dev, NULL,

ip_rcv_finish);

}

        ip_rcv 中一进来就会先对数据包做一些格式校验,避免非法数据包引起处理异常。接着,数据包会流经 netfilter 框架的一个 hook 点, 及 PRE_ROUTING, 这是数据包从网络进入主机的第一个 hook 点。在这个 hook 的点中,会执行一些钩子函数,如果数据包被放行,最终会调用 ip_rcv_finish 方法:

// net/ipv4/ip_input.c

static int ip_rcv_finish(struct sk_buff *skb)

{

// 通过查路由表初始化数据包的目的地缓存项

if (skb_dst(skb) == NULL) {

int err = ip_route_input(skb, iph->daddr, iph->saddr, iph->tos,

skb->dev);

...

}

// 获取指向路由表的指针

rt = skb_rtable(skb);

// 如果路由类型是多播或者广播,就更新对应的计数器

if (rt->rt_type == RTN_MULTICAST) {

IP_UPD_PO_STATS_BH(dev_net(rt->u.dst.dev), IPSTATS_MIB_INMCAST,

skb->len);

} else if (rt->rt_type == RTN_BROADCAST)

IP_UPD_PO_STATS_BH(dev_net(rt->u.dst.dev), IPSTATS_MIB_INBCAST,

skb->len);

// 继续处理数据包

return dst_input(skb);

}

        ip_rcv_finish 中涉及另一部分 skb 元数据的初始化以及多播、广播的计数更新,随后继续丢给 dst_input :

// include/net/dst.h

static inline int dst_input(struct sk_buff *skb)

{

return skb_dst(skb)->input(skb);

}

// net/ipv4/ip_input.c

int ip_local_deliver(struct sk_buff *skb)

{

// 重组 ip 分片

if (ip_hdr(skb)->frag_off & htons(IP_MF | IP_OFFSET)) {

if (ip_defrag(skb, IP_DEFRAG_LOCAL_DELIVER))

return 0;

}

// 递交 netfilter 框架 hook 点: local_in

return NF_HOOK(PF_INET, NF_INET_LOCAL_IN, skb, skb->dev, NULL,

ip_local_deliver_finish);

}

        dst_input 执行了 skb_dst 中的回调 input,其实对应的就是查路由表,决定将数据包做转发处理还是给到本机上层处理。这里我们当然看的是本机处理流程,对应的函数是 ip_local_deliver。在 ip_local_deliver 中,会先判断是否需要进行 ip 分片重组。完整的 ip 报文最终又会流经 netfilter 框架的 hook 点: LOCAL_IN。在这个 hook 的点中,会执行一些钩子函数,如果数据包被放行,那么最终会调用 ip_local_deliver_finish 方法。

static int ip_local_deliver_finish(struct sk_buff *skb){

int protocol = ip_hdr(skb)->protocol;

ipprot = rcu_dereference(inet_protos[protocol]);

if (ipprot != NULL) {

ret = ipprot->handler(skb);

}

}

        在这个方法中,会根据上层协议的类型,查找对应的回调函数并执行它。

3.4 传输层处理

        网络层的上层自然就是传输层了,因为 tcp 的处理流程会比较复杂,为了简单理解,我们这里看 udp 的处理流程。对于 udp 来讲,它注册到 ipprot->handler 中的方法是 udp_rcv:

// net/ipv4/udp.c

int udp_rcv(struct sk_buff *skb)

{

return __udp4_lib_rcv(skb, &udp_table, IPPROTO_UDP);

}

int __udp4_lib_rcv(struct sk_buff *skb, struct udp_table *udptable,

int proto)

{

struct sock *sk;

struct udphdr *uh;

// 省略一些合法性校验

// 查找 skb 所属的 struct sock

sk = __udp4_lib_lookup_skb(skb, uh->source, uh->dest, udptable);

if (sk != NULL) {

// 找到了

int ret = udp_queue_rcv_skb(sk, skb);

return 0;

}

// 检查 udp 校验和

if (udp_lib_checksum_complete(skb))

goto csum_error;

// 走到这里说明没找到 sock ,发送 udp 不可达的 icmp 报文

UDP_INC_STATS_BH(net, UDP_MIB_NOPORTS, proto == IPPROTO_UDPLITE);

icmp_send(skb, ICMP_DEST_UNREACH, ICMP_PORT_UNREACH, 0);

...

}

        在 udp_rcv 里面,会根据 skb 查找对应的 struct sock 结构,如果找到了,就交给 udp_queue_rcv_skb 来处理。对于没找到的,还回复一个不可达的报文。接着看 udp_queue_rcv_skb 是如何处理的:

// net/ipv4/udp.c

int udp_queue_rcv_skb(struct sock *sk, struct sk_buff *skb)

{

// 如果 udp 使用了封装,如 ipsec 协议,则调用对应协议的处理方法解封装

if (up->encap_type) {

/* if we're overly short, let UDP handle it */

if (skb->len > sizeof(struct udphdr) &&

up->encap_rcv != NULL) {

int ret;

ret = (*up->encap_rcv)(sk, skb);

}

}

...

// 查看 socket 是否被用户态占用

if (!sock_owned_by_user(sk))

rc = __udp_queue_rcv_skb(sk, skb);

else if (sk_add_backlog(sk, skb)) {

bh_unlock_sock(sk);

goto drop;

}

return rc;

}

        在 udp_queue_rcv_skb 中,主要是检查 socket 是否被用户态占用,即是否用户正在这个 socket 上进行系统调用。如果没有被占用,那么就将 skb 放入 socket 接收队列中;如果 socket 正在被占用,就将 skb 放在 backlog 队列中。当用户不再占用 socket 时,内核会再将 backlog 中的 skb 放到 socket 的接收队列中。总之,这里就是要把包放进 socket 的接收队列中。

4 应用层的处理

        在前一篇文章 《epoll 怎么就高效了》 中写过,对于通过 epoll 监听的 socket,在数据包到达 socket 接收队列的时候,会遍历 socket 等待队列上的回调函数,通过 ep_poll_callback 将就绪事件通知到用户进程。对于没有通过 epoll 监听的事件,如果是那就是通过 read 或者 recvfrom 系统调用来读 socket 数据了。

        recvfrom 对应的系统调用为 sys_recvfrom:

// net/socket.c

SYSCALL_DEFINE6(recvfrom, int, fd, void __user *, ubuf, size_t, size,

unsigned, flags, struct sockaddr __user *, addr,

int __user *, addr_len)

{

...

// 收包

err = sock_recvmsg(sock, &msg, size, flags);

// 将数据拷贝至用户空间

if (err >= 0 && addr != NULL) {

err2 = move_addr_to_user((struct sockaddr *)&address,

msg.msg_namelen, addr, addr_len);

if (err2 < 0)

err = err2;

}

...

}

        这里接着调用封装函数 sock_recvmsg 收包,收到数据后再拷贝给用户空间。

int sock_recvmsg(struct socket *sock, struct msghdr *msg,

size_t size, int flags)

{

ret = __sock_recvmsg(&iocb, sock, msg, size, flags);

...

}

static inline int __sock_recvmsg(struct kiocb *iocb, struct socket *sock,

struct msghdr *msg, size_t size, int flags)

{

return err ?: __sock_recvmsg_nosec(iocb, sock, msg, size, flags);

}

static inline int __sock_recvmsg_nosec(struct kiocb *iocb, struct socket *sock,

struct msghdr *msg, size_t size, int flags)

{

...

return sock->ops->recvmsg(iocb, sock, msg, size, flags);

}

        这里设计一系列的封装调用,最终又是掉了 sock 上的 recvmsg 方法,对于 udp sock 来说,这个方法是 udp_recvmsg:

// net/ipv4/udp.c

int udp_recvmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,

size_t len, int noblock, int flags, int *addr_len)

{

...

skb = __skb_recv_datagram(sk, flags | (noblock ? MSG_DONTWAIT : 0),

&peeked, &err);

// 设置其它出参

...

}

// net/core/datagram.c

struct sk_buff *__skb_recv_datagram(struct sock *sk, unsigned flags,

int *peeked, int *err)

{

// 循环持续尝试从接收队列中取出数据报

do {

// 查看 socket 接收队列中断第一个 skb,不会从队列中移除它

skb = skb_peek(&sk->sk_receive_queue);

if (skb) {

*peeked = skb->peeked;

if (flags & MSG_PEEK) { // peek方式,增加引用计数

skb->peeked = 1;

atomic_inc(&skb->users);

} else // 如果不是 peek,就要从接收队列中移除

__skb_unlink(skb, &sk->sk_receive_queue);

}

// 拿到 skb 返回了

if (skb)

return skb;

} while (!wait_for_packet(sk, err, &timeo));

return NULL;

}

        __skb_recv_datagram 里终于看到了对接收队列的处理,从队列中取出 skb 然后返回。

5 总结

        看了这么多,不免脑子已经有点乱了。有必要总结一下网卡收包大致的过程:

网卡收到数据包,DMA 拷贝至 RingBuf,发出硬中断cpu 执行网卡注册的硬中断处理函数,将数据挂到 softnet_data 的 poll_list 上,发出软中断ksoftirq/x 处理软中断,将数据包从 RingBuf 中取出,交给协议栈协议栈层层处理,经网络层交给传输层,数据包被放到 socket 的接收队列中应用层调用 recvfrom 从接收队列中取数据

        可以看出收一个网络包的处理过程很是繁杂,为了优化性能,这里又涉及硬中断到多个cpu的负载均衡,进协议栈前网卡 gro 特性做的小包聚合,以及文中没有写出来的收到多个包才会聚合发出一个硬中断。革命尚未成功,同志们仍需努力呀!

好文推荐

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。