首先,我们先理解下什么是平均负载。
平均负载是指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数,它和 CPU 使用率并没有直接关系。(为什么和 CPU 使用率没直接关系,这个我后面说明)
那么问题来了,可运行状态和不可中断状态又是什么东西呢?
所谓可运行状态的进程,是指正在使用 CPU 或者正在等待 CPU 的进程,也就是我们常用 ps 命令看到的,处于 R 状态(Running 或 Runnable)的进程。
而不可中断状态的进程,则是正处于内核态关键流程中的进程,并且这些流程是不可打断的,比如最常见的是等待硬件设备的 I/O 响应,也就是我们在 ps 命令中看到的 D 状态(Uninterruptible Sleep,也称为 Disk Sleep)的进程。
比如,当一个进程向磁盘读写数据时,为了保证数据的一致性,在得到磁盘回复前,它是不能被其他进程或者中断打断的,这个时候的进程就处于不可中断状态。如果此时的进程被打断了,就容易出现磁盘数据与进程数据不一致的问题。
所以,不可中断状态实际上是系统对进程和硬件设备的一种保护机制。
明白了什么是平均负载后,那么自然就是要知道怎么用了。
2. 如何查看平均负载当我们使用 uptime 命令时,会出现以下结果(这是我本机的结果,每个人的机器情况不一样)
$ uptime
02:34:03 up 2 days, 20:14, 1 user, load average: 0.63, 0.83, 0.88
对应解释:
02:34:03 // 当前时间
up 2 days, 20:14 // 系统运行时间
1 user // 正在登录用户数
最后三个数字呢,依次则是过去 1 分钟、5 分钟、15 分钟的平均负载(Load Average)。
明白了怎么看平均负载后,那么平均负载到底是多少才是合理的呢?
3. 平均负载的合理值当平均负载高于 CPU 数量 70% 的时候。就应该分析排查负载高的问题了。一旦负载过高,就可能导致进程响应变慢,进而影响服务的正常功能。
但 70% 这个数字并不是绝对的,最推荐的方法,还是把系统的平均负载监控起来,然后根据更多的历史数据,判断负载的变化趋势(可从 uptime 得到的三个数字分析)。当发现负载有明显升高趋势时,比如说负载翻倍了,你再去做分析和调查。
平均负载在最理想的情况下,就是每个 CPU 上都刚好运行着一个进程,这样每个 CPU 都得到了充分利用。
比如当平均负载为 2 时,意味着什么呢?
- 在只有 2 个 CPU 的系统上,意味着所有的 CPU 都刚好被完全占用。
- 在 4 个 CPU 的系统上,意味着 CPU 有 50% 的空闲。
- 而在只有 1 个 CPU 的系统中,则意味着有一半的进程竞争不到 CPU。
好了,关于平均负载的基本知识差不多就是这样。现在,我来填下开头的坑 —— 为什么和 CPU 使用率没直接关系呢?
4. 平均负载与 CPU 使用率在文章最开始的时候就有提到,平均负载是指单位时间内,处于可运行状态和不可中断状态的平均进程数。所以,它不仅包括了正在使用 CPU的进程,还包括等待 CPU和等待 IO的进程。
而 CPU 使用率,是单位时间内 CPU 繁忙情况的统计,跟平均负载并不一定完全对应。比如:
- CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的。
- I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高。
- 大量等待 CPU 的进程调度也会导致平均负载升高,此时的 CPU 使用率也会比较高
以上,就是文章的全部内容了,如果觉得有帮助的话,那就点个赞吧
本文整理自极客时间:《Linux性能优化实战》