cpu 排查的几个案例

使用 direct_io 导致 io 持续高位

iowait 很高,且有大量不可中断进程和僵尸进程

TODO

参考电路基础第六版一书 : 负载是接收能量的元件(能量吸收器) , 它与提供能量的发电机(能量源)相反 , 参见 4.9.1 节

不可中断睡眠的意思是该进程在执行系统调用后睡眠期间不能被类似 SIGKILL 之类的信号中断唤醒, 只能在该系统调用完成后被唤醒, 参考Uninterruptible Sleep

正常服务无法响应或超时

服务响应缓慢, 先排除客户端和服务端的问题, 再检查链路 , 造成服务端缓慢的原因 : CPU,内存,磁盘 IO,网络 , 一个个排查
客户端访问其他服务正常
检查服务端
top cpu 占用不高, 也没有 iowait , 平均负载很低
softireq 某个核心很高 , ksoftirqd 进程占最多
查看软终端次数 watch -d cat /proc/softirqs , 网络接收软中断次数变得很快
sar -n DEV 1 查看每秒接收的包 PPS , 和每秒接收的字节数 , 发现都是小包 (664 * 1024) / 12607 = 54 字节
tcpdump -i eth0 -n tcp port 80 检查包 , 发现都是Flag(S ) SYN 包, 确认是 SYN FLOOD 攻击
从交换机 or 硬件防火墙封原 IP
开启 SYN_COOKIE ,增大半连接队列, 不能用 iptable 封,因为同样走软中断 , 导致其他网络包延迟(如 ssh) (参考 linux 内核实战 11, linux 性能优化 43,44)

因为默认情况下网卡都是单队列,绑定某个核心,所以只有一个 CPU 能处理

可以,但是效果不大,因为包已经进入网络协议栈的处理阶段,还是会造成软中断问题,但至少可以缓解 tcp 半连接队列被堆满

TODO

使用ab 压测 web 服务, QPS 只有两位数, 且 cpu 占用已经满了

docker run --name nginx -p 10000:80 -itd feisky/nginx
docker run --name phpfpm -itd --network container:nginx feisky/php-fpm
docker exec nginx ip addr
curl http://[nginx 的 ip]:10000确认服务启动
ab -c 10 -n 10000 http://[nginx 的 ip]:10000
docker cp phpfpm:/app . 将容器中 php 源码拷贝出来
docker rm -f nginx phpfpm
docker run --name nginx -p 10000:80 -itd feisky/nginx:cpu-fix
docker run --name phpfpm -itd --network container:nginx feisky/php-fpm:cpu-fix
再次验证 QPS

cpu 占用高却找不到占用高的进程

top 发现 cpu us占用高, 却没有占用高的进程 ( 短时进程, 很快就退出了 , 或是进程在不断崩溃重启 )
pidstat 1 也是一样看不到占用高的情况
top 的 running 队列有 6 个之多 (双核,竞争激烈) , 且 running 的进程都是 stress 进程, php-fpm 都处于 sleep
pidstat -p 24344 检查其中一个, 找不到 , ps aux|grep 24344 , 也一样
查看启动这些进程的父进程 pstree |grep stress
php-fpm 调用的, 查看 stress 输出, 发现是php 调用外部 stress 命令没有权限创建临时文件
大量的 stress 命令在初始化阶段就失败了,导致 cpu 升高, 但是没有看到大量 stress 进程 , 如何进一步确认
perf record -g 大概 15 秒 / perf report
发现 stress 占了百分之 77
其他工具 , execsnoop , 可以查看系统的所有 exec 调用进程 id,父进程 id,命令, 如果有大量相同命令, 就可以怀疑这里有问题了

TODO