linux下让进程运行在指定的cpu上

news/2024/7/10 2:59:45 标签: linux, linux内核, 负载均衡, 优化, thread, ibm

最近负责的svr压力比较大,业务逻辑有点复杂,能优化的地方已经全部优化了,

目前每秒3k次,cpu负载还是比较高

top看一下,4核的cpu负载不是太均衡,打算考虑一下将业务进程指定到3个cpu上运行,另外一个cpu专门负责处理网络收发包;打算尝试一下,如果还是不行,再过段时间,访问量再增加的话,就要加机器了,呜呜

补充:今天测试了一下,效果挺好,同样进程数的情况下,进行cpu绑定

每个cpu都利用起来了,负载也比不绑定的情况下好了很多

分析一下有效果的原因:

看了《linux内核设计与实现》的42节,觉得人为控制一下cpu的绑定还是有用处的
1、linux的SMP负载均衡是基于进程数的,每个cpu都有一个可执行进程队列,只有当其中一个cpu的可执行队列里进程数比其他cpu队列进程数多25%时,才会将进程移动到另外空闲cpu上,也就是说cpu0上的进程数应该是比其他cpu上多,但是会在25%以内


2、我们的业务中耗费cpu的分四种类型,(1)网卡中断(2)1个处理网络收发包进程(3)耗费cpu的n个worker进程(4)其他不太耗费cpu的进程

    基于1中的 负载均衡是针对进程数,那么(1)(2)大部分时间会出现在cpu0上,(3)的n个进程会随着调度,平均到其他多个cpu上,(4)里的进程也是随着调度分配到各个cpu上;

当发生网卡中断的时候,cpu被打断了,处理网卡中断,那么分配到cpu0上的worker进程肯定是运行不了的

其他cpu上不是太耗费cpu的进程获得cpu时,就算它的时间片很短,它也是要执行的,那么这个时候,你的worker进程还是被影响到了;按照调度逻辑,一种非常恶劣的情况是:(1)(2)(3)的进程全部分配到cpu0上,其他不太耗费cpu的进程数很多,全部分配到cpu1,cpu2,cpu3上。。那么网卡中断发生的时候,你的业务进程就得不到cpu了

如果从业务的角度来说,worker进程运行越多,肯定业务处理越快,人为的将它捆绑到其他负载低的cpu上,肯定能提高worker进程使用cpu的时间

找了个例子:

现在多CPU的趋势越来越大了. 有时候为了更好地操作机器, 需要将某个进程绑定到具体的CPU上去. 下面给出了一个进程绑定到具体的CPU上去的一个例子.


cpu.c

#include<stdlib.h>
#include<stdio.h>
#include<sys/types.h>
#include<sys/sysinfo.h>
#include<unistd.h>

#define __USE_GNU
#include<sched.h>
#include<ctype.h>
#include<string.h>

int main(int argc, char* argv[])
{
        int num = sysconf(_SC_NPROCESSORS_CONF);
        int created_thread = 0;
        int myid;
        int i;
        int j = 0;

        cpu_set_t mask;
        cpu_set_t get;

        if (argc != 2)
        {
                printf("usage : ./cpu num/n");
                exit(1);
        }

        myid = atoi(argv[1]);

        printf("system has %i processor(s). /n", num);

        CPU_ZERO(&mask);
        CPU_SET(myid, &mask);

        if (sched_setaffinity(0, sizeof(mask), &mask) == -1)
        {
                printf("warning: could not set CPU affinity, continuing.../n");
        }
        while (1)
        {

                CPU_ZERO(&get);
                if (sched_getaffinity(0, sizeof(get), &get) == -1)
                {
                        printf("warning: cound not get cpu affinity, continuing.../n");
                }
                for (i = 0; i < num; i++)
                {
                        if (CPU_ISSET(i, &get))
                        {
                                printf("this process %d is running processor : %d/n",getpid(), i);
                        }
                }
        }
        return 0;
}

下面是在两个终端分别执行了./cpu 0  ./cpu 2 后得到的结果. 效果比较明显.

QUOTE:
Cpu0  :  5.3%us,  5.3%sy,  0.0%ni, 87.4%id,  0.0%wa,  0.0%hi,  2.0%si,  0.0%st
Cpu1  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu2  :  5.0%us, 12.2%sy,  0.0%ni, 82.8%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu3  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu4  :  0.0%us,  0.0%sy,  0.0%ni, 99.7%id,  0.3%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu5  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu6  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu7  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
///
CPU Affinity (CPU亲合力)

CPU亲合力就是指在Linux系统中能够将一个或多个进程绑定到一个或多个处理器上运行.
一个进程的CPU亲合力掩码决定了该进程将在哪个或哪几个CPU上运行.在一个多处理器系统中,设置CPU亲合力的掩码可能会获得更好的性能.
一个CPU的亲合力掩码用一个cpu_set_t结构体来表示一个CPU集合,下面的几个宏分别对这个掩码集进行操作:
CPU_ZERO() 清空一个集合
CPU_SET()与CPU_CLR()分别对将一个给定的CPU号加到一个集合或者从一个集合中去掉.
CPU_ISSET()检查一个CPU号是否在这个集合中.
其实这几个的用法与select()函数那几个调用差不多.
下面两个函数就是最主要的了:
sched_setaffinity(pid_t pid, unsigned int cpusetsize, cpu_set_t *mask)
该函数设置进程为pid的这个进程,让它运行在mask所设定的CPU上.如果pid的值为0,则表示指定的是当前进程,使当前进程运行在mask所设定的那些CPU上.第二个参数cpusetsize是

mask所指定的数的长度.通常设定为sizeof(cpu_set_t).如果当前pid所指定的CPU此时没有运行在mask所指定的任意一个CPU上,则该指定的进程会从其它CPU上迁移到mask的指定的

一个CPU上运行.
sched_getaffinity(pid_t pid, unsigned int cpusetsize, cpu_set_t *mask)
该函数获得pid所指示的进程的CPU位掩码,并将该掩码返回到mask所指向的结构中.即获得指定pid当前可以运行在哪些CPU上.同样,如果pid的值为0.也表示的是当前进程.

这几个宏与函数的具体用法前面已经有讲解.

关于cpu_set_t的定义

# define __CPU_SETSIZE  1024
# define __NCPUBITS     (8 * sizeof (__cpu_mask))

typedef unsigned long int __cpu_mask;

# define __CPUELT(cpu)  ((cpu) / __NCPUBITS)
# define __CPUMASK(cpu) ((__cpu_mask) 1 << ((cpu) % __NCPUBITS))

typedef struct
{
  __cpu_mask __bits[__CPU_SETSIZE / __NCPUBITS];
} cpu_set_t;


# define __CPU_ZERO(cpusetp) /
  do {                                                                        /
    unsigned int __i;                                                         /
    cpu_set_t *__arr = (cpusetp);                                             /
    for (__i = 0; __i < sizeof (cpu_set_t) / sizeof (__cpu_mask); ++__i)      /
      __arr->__bits[__i] = 0;                                                 /
  } while (0)
# define __CPU_SET(cpu, cpusetp) /
  ((cpusetp)->__bits[__CPUELT (cpu)] |= __CPUMASK (cpu))
# define __CPU_CLR(cpu, cpusetp) /
  ((cpusetp)->__bits[__CPUELT (cpu)] &= ~__CPUMASK (cpu))
# define __CPU_ISSET(cpu, cpusetp) /
  (((cpusetp)->__bits[__CPUELT (cpu)] & __CPUMASK (cpu)) != 0)

在我的机器上sizeof(cpu_set_t)的大小为128,即一共有1024位.第一位代表一个CPU号.某一位为1则表示某进程可以运行在该位所代表的cpu上.例如
CPU_SET(1, &mask);
则mask所对应的第2位被设置为1.
此时如果printf("%d/n", mask.__bits[0]);就打印出2.表示第2位被置为1了.


具体我是参考man sched_setaffinity文档中的函数的.
然后再参考了一下IBM的 developerWorks上的一个讲解.
http://www.ibm.com/developerworks/cn/linux/l-affinity.html


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/eroswang/archive/2009/07/09/4336093.aspx


http://www.niftyadmin.cn/n/1737945.html

相关文章

【无标题】Transformer机制

这篇文章写得很详细&#xff0c;记录一下&#xff1a; Transformer是什么&#xff1f;看完这篇你就醍醐灌顶_fs1341825137的博客-CSDN博客前言由谷歌团队提出的预训练语言模型BERT近年来正在各大自然语言处理任务中屠榜&#xff08;话说学者们也挺有意思的&#xff0c;模型名都…

Depthwise Separable Convolution、Depthwise(DW)卷积与Pointwise(PW)卷积

Depthwise(DW)卷积与Pointwise(PW)卷积&#xff0c;合起来被称作Depthwise Separable Convolution(参见Google的Xception)&#xff0c;该结构和常规卷积操作类似&#xff0c;可用来提取特征&#xff0c;但相比于常规卷积操作&#xff0c;其参数量和运算成本较低。所以在一些轻量…

【InfoQ】架构师修炼之道

架构师是一个神秘而又神圣的名词&#xff0c;作为软件开发领域的设计师&#xff0c;架构师承载着太多的责任和挑战。对于一个程序员或者工程师来说&#xff0c;架构师就像是一个目标&#xff0c;一条道路&#xff0c;抑或是一座山峰。如何能够成为一名合格的架构师&#xff1f;…

论文公式编辑

为了更规范对论文公式进行写作&#xff0c;在这里记录下&#xff1a; 论文写作一般要求公式居中&#xff0c;编号有对齐&#xff0c;手动的敲空格对齐并不是真正意义上的对齐。如下是我的一点学习经验。 对齐方式可以有三种方式&#xff0c;其对应学习方式如下&#xff0c;亲…

CBAM、通道注意力、空间注意力学习

各模块简介&#xff1a;CBAM 是一个轻量级的通用模块&#xff0c;其中包含了空间注意力和通道注意力。 通道注意力是先对空间进行全局平均或最大池化后&#xff0c;在通道层面求得注意力。 空间注意力是先对通道进行全局平均或最大池化后&#xff0c;在空间层面求得注意力。 …

origin画ROC曲线

ROC曲线的全称是受试者工作特征&#xff08;Receiver Operating Characteristic&#xff09;曲线&#xff0c;是非常重要和常见的统计分析方法。 如果已经计算好FPR和TPR&#xff0c;可以直接使用最简单的图绘制。本教程使用的是原始数据&#xff0c;需统计计算后给出对应的参数…

EfficientNet学习

学习链接&#xff1a; 图解EfficientNet模型的完整细节 - 云社区 - 腾讯云我在一个Kaggle竞赛中翻阅notebooks&#xff0c;发现几乎每个人都在使用EfficientNet 作为他们的主干&#xff0c;而我之前从未听说过这个。谷歌AI在这篇文章中&#xff1a;...https://cloud.tencent.c…

一种基于代理CGI技术的跨域永久性解决方案

前两天&#xff0c;我的一位同事问我有没有一种办法实现imgcache.qq.com和face.qq.com的cookie互操作&#xff0c;我说有&#xff0c;方案很简单&#xff0c;只要把cookie的domain设置成.qq.com的域名后缀就可以了&#xff0c;这样一来&#xff0c;在face.qq.com域名中设置的co…