Linux性能监测:CPU篇
前言接前一篇《Linux性能监测:介绍篇》,性能是一个永恒的话题。我们公司的运维管理员每天都收到各种告警短信,一会这个主机的CPU触发阈值了,一会那个主机的CPU也触发阈值了。当运维管理员收到这种短信的时候,运维管理员就需要形成以下条件反射,或者说,运维管理员就需要具备以下知识储备。
什么是CPU?CPU过高会带来哪些问题?如何检查CPU健康状态?如何定位CPU过高的根源?所以说,只有具备了扎实的基本功,才能从容面对性能难题。对于上面的问题,接下来,我们将一一进行回答和总结。
什么是CPU引用百度百科里的解释:中央处理器(CPU,Central Processing Unit)是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心(Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。CPU主要包括运算器(算术逻辑运算单元,ALU,Arithmetic Logic Unit)和高速缓冲存储器(Cache)及实现它们之间联系的数据(Data)、控制及状态的总线(Bus)。它与内部存储器(Memory)和输入/输出(I/O)设备合称为电子计算机三大核心部件。
CPU的主要功能是解释计算机指令以及处理计算机软件中的数据,并执行指令。说简单点,就是我们编写的程序,经过编译后,最终都会变成一条条的指令,由CPU来进行最终的执行。通常CPU的运算速度、主频、缓存、核心数,这几个参数就决定了CPU的好坏,一般情况下,CPU的主频越高、缓存越大、核心数越多,这样的CPU运转速度就很快,处理图形图像文件起来,速度就越快,这种CPU的价格就比较贵。
除了上面的一些定义和常识外,我们还需要明白一些特殊名词的含义。
物理CPU主板上实际插入的cpu数量;这个是物理存在的设备。打开主板,我们是可以肉眼看到的。在Linux服务器上,我们可以通过以下命令查看物理CPU个数:cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l
CPU核数核数就是指CPU上集中的处理数据的cpu核心个数,单核指cpu核心数一个,双核则指的是两个。通常每个CPU下的核数都是固定的,比如你的计算机有两个物理CPU,每个CPU是双核,那么计算机就是四核的。在Linux服务器上,我们可以通过以下命令查看CPU核数:cat /proc/cpuinfo | grep "cpu cores" | wc -l
逻辑CPU一般情况下,逻辑CPU=物理CPU个数×每颗核数,如果不相等的话,则表示服务器的CPU支持超线程技术(HT:简单来说,它可使处理器中的1颗内核像2颗内核那样在操作系统中发挥作用。这样一来,操作系统可使用的执行资源扩大了一倍,大幅提高了系统的整体性能,此时逻辑CPU=物理CPU个数×每颗核数x2);可以通过以下命令来查看逻辑CPU个数:cat /proc/cpuinfo | grep "processor" | wc -l
CPU过高会带来哪些问题我们收到CPU过高的告警,我们一般都需要紧急对应的。我们都知道,CPU是用来运行各种程序,做各种计算的,一旦CPU处于高负荷状态,容易引起服务响应速度变慢,进而导致整个服务不可用,特别是在业务高峰期可能导致雪崩效应,最终整个系统出现瘫痪。所以,一旦出现CPU过高的告警,我们一定要谨慎、认真对待。
如何检查CPU健康状态我们都知道复制文件通常占用较少CPU,因为大部分工作是由DMA完成,只是在完成复制以后给一个中断让CPU知道复制已经完成;科学计算通常占用较多的CPU,大部分计算工作都需要在CPU上完成,内存、硬盘等子系统只做暂时的数据存储工作。要想监测和理解CPU的性能需要知道一些操作系统的基本知识,比如:中断、进程调度、进程上下文切换、可运行队列等。这里我们用个例子来简单介绍一下这些概念和他们的关系,CPU很无辜,是个任劳任怨的打工仔,每时每刻都有工作在做(进程、线程)并且自己有一张工作清单(可运行队列),由老板(进程调度)来决定他该干什么,他需要和老板沟通以便得到老板的想法并及时调整自己的工作(上下文切换),部分工作做完以后还需要及时向老板汇报(中断),所以打工仔(CPU)除了做自己该做的工作以外,还有大量时间和精力花在沟通和汇报上。
CPU也是一种硬件资源,和任何其他硬件设备一样也需要驱动和管理程序才能使用,我们可以把内核的进程调度看作是CPU的管理程序,用来管理和分配CPU资源,合理安排进程抢占CPU,并决定哪个进程该使用CPU、哪个进程该等待。操作系统内核里的进程调度主要用来调度两类资源:进程(或线程)和中断,进程调度给不同的资源分配了不同的优先级,优先级最高的是硬件中断,其次是内核(系统)进程,最后是用户进程。每个CPU都维护着一个可运行队列,用来存放那些可运行的线程。线程要么在睡眠状态(blocked 正在等待 IO)要么在可运行状态,如果CPU当前负载太高而新的请求不断,就会出现进程调度暂时应付不过来的情况,这个时候就不得不把线程暂时放到可运行队列里。我们在这里要讨论的是性能监测,而上面谈了一堆都没提到性能,那么这些概念和性能监测有什么关系呢?关系重大。如果你是老板,你如何检查打工仔的效率(性能)呢?我们一般会通过以下这些信息来判断打工仔是否偷懒:
打工仔接受和完成多少任务并向老板汇报了(中断);打工仔和老板沟通、协商每项工作的工作进度(上下文切换);打工仔的工作列表是不是都有排满(可运行队列);打工仔工作效率如何,是不是在偷懒(CPU 利用率)。现在把打工仔换成CPU,我们可以通过查看这些重要参数:中断、上下文切换、可运行队列、CPU利用率来监测 CPU的性能。
要监控CPU的性能,那我们就必须先知道每个参数的健康区间,一个评判的标准,这样才能初步判断CPU的健康状况。
CPU利用率;如果CPU有100%利用率,那么应该到达这样一个平衡:65%-70% User Time30%-35% System Time0%-5% Idle Time上下文切换;上下文切换应该和CPU利用率联系起来看,如果能保持上面的CPU利用率平衡,大量的上下文切换是可以接受的;可运行队列;每个可运行队列不应该超过3个线程(每处理器),比如:双处理器系统的可运行队列里不应该超过6个线程。确定了评判标准后,那我们就需要通过工具实时的查看系统的这些重要参数是否在健康标准范围之内。而我这里将重点介绍vmstat和top这两个工具。
《Linux vmstat命令详解》《Linux top命令详解》如何定位CPU过高的根源如果定位CPU过高的根源,这完全是一个技术活和经验活;也就是说,如果你不是一个“老中医”的话,处理这种问题就比较吃劲了。要定位CPU过高的根源,首先我们需要知道这台服务器上跑了写什么应用,这个是最起码的。同时,我们也需要积累一些经验,哪些操作会引起CPU过高。
除了通过上面的工具找到具体导致CPU飙升的进程和线程后,我们要根据部署的应用类型来做具体的分析。比如Java类的应用如何定位CPU飙升的问题。
总结关于CPU篇就总结到此结束。这篇文章完全按照实际的工作要求进行的总结,源于工作,但是内容多余工作,掌握了这篇文章中的内容,能够让你基本能够了解性能中关于CPU的内容,也能够让你在日后的工作中从容的面对CPU性能问题。
果冻想,认真玩技术的地方。
2018年12月23日,于内蒙古呼和浩特。