首页UC › Linux下设计一个简单的线程池

Linux下设计一个简单的线程池

定义

什么是线程池?简单点说,线程池就是有一堆已经创建好了的线程,初始它们都处于空闲等待状态,当有新的任务需要处理的时候,就从这个池子里面取一个空闲等待的线程来处理该任务,当处理完成了就再次把该线程放回池中,以供后面的任务使用。当池子里的线程全都处理忙碌状态时,线程池中没有可用的空闲等待线程,此时,根据需要选择创建一个新的线程并置入池中,或者通知任务线程池忙,稍后再试。

为什么要用线程池?

我们说,线程的创建和销毁比之进程的创建和销毁是轻量级的,但是当我们的任务需要大量进行大量线程的创建和销毁操作时,这个消耗就会变成的相当大。比如,当你设计一个压力性能测试框架的时候,需要连续产生大量的并发操作,这个是时候,线程池就可以很好的帮上你的忙。线程池的好处就在于线程复用,一个任务处理完成后,当前线程可以直接处理下一个任务,而不是销毁后再创建,非常适用于连续产生大量并发任务的场合。

线程池工作原理

线程池中每一个线程的工作过程如下:
0_1312182796uo1z
图 1: 线程的工作流程

         线程池的任务就在于负责这些线程的创建,销毁和任务处理参数传递、唤醒和等待。

1.      创建若干线程,置入线程池

2.      任务达到时,从线程池取空闲线程

3.      取得了空闲线程,立即进行任务处理

4.      否则新建一个线程,并置入线程池,执行3

5.      如果创建失败或者线程池已满,根据设计策略选择返回错误或将任务置入处理队列,等待处理

6.      销毁线程池

0_1312182799dkjd
图 2:线程池的工作原理

线程池设计

数据结构设计

任务设计

其中,TpWorkDesc是任务参数描述,arg是传递给任务的参数,ret则是任务处理完成后的返回值;

process_job函数是任务处理函数原型,每个任务处理函数都应该这样定义,然后将它作为参数传给线程池处理,线程池将会选择一个空闲线程通过调用该函数来进行任务处理;

线程设计

TpThreadInfo是对一个线程的描述。

thread_id是该线程的ID;

is_busy用于标识该线程是否正处理忙碌状态;

thread_cond用于任务处理时的唤醒和等待;

thread_lock,用于任务加锁,用于条件变量等待加锁;

proc_fun是当前任务的回调函数地址;

th_job是任务的参数信息;

tp_pool是所在线程池的指针;

线程池设计

TpThreadPool是对线程池的描述。

min_th_num是线程池中至少存在的线程数,线程池初始化的过程中会创建min_th_num数量的线程;

cur_th_num是线程池当前存在的线程数量;

max_th_num则是线程池最多可以存在的线程数量;

tp_lock用于线程池管理时的互斥;

manage_thread_id是线程池的管理线程ID;

thread_info则是指向线程池数据,这里使用一个数组来存储线程池中线程的信息,该数组的大小为max_th_num;

idle_q是存储线程池空闲线程指针的队列,用于从线程池快速取得空闲线程;

stop_flag用于线程池的销毁,当stop_flag为FALSE时,表明当前线程池需要销毁,所有忙碌线程在处理完当前任务后会退出;

算法设计

线程池的创建和初始化

线程创建

创建伊始,线程池线程容量大小上限为max_th_num,初始容量为min_th_num;

线程初始化

初始线程池中线程数量为min_th_num,对这些线程一一进行初始化;

将这些初始化的空闲线程一一置入空闲队列;

创建管理线程,用于监控线程池的状态,并适当回收多余的线程资源;

线程池的关闭和销毁

线程池关闭的过程中,可以选择是否对正在处理的任务进行等待,如果是,则会唤醒所有任务,然后等待所有任务执行完成,然后返回;如果不是,则将立即杀死所有线程,然后返回,注意:这可能会导致任务的处理中断而产生错误!

任务处理

当一个新任务到达是,线程池首先会检查是否有可用的空闲线程,如果是,则采用才空闲线程进行任务处理并返回TRUE,如果不是,则尝试新建一个线程,并使用该线程对任务进行处理,如果失败则返回FALSE,说明线程池忙碌或者出错。

上面这个函数是任务处理函数,该函数将始终处理等待唤醒状态,直到新任务到达或者线程销毁时被唤醒,然后调用任务处理回调函数对任务进行处理;当任务处理完成时,则将自己置入空闲队列中,以供下一个任务处理。

上面这个函数用于向线程池中添加新的线程,该函数将会在当线程池没有空闲线程可用时被调用。

函数将会新建一个线程,并设置自己的状态为busy(立即就要被用于执行任务)。

线程池管理

线程池的管理主要是监控线程池的整体忙碌状态,当线程池大部分线程处于空闲状态时,管理线程将适当的销毁一定数量的空闲线程,以便减少线程池对系统资源的消耗。

这里设计认为,当空闲线程的数量超过线程池线程数量的1/2时,线程池总体处理空闲状态,可以适当销毁部分线程池的线程,以减少线程池对系统资源的开销。

线程池状态计算

这里的BUSY_THRESHOLD的值是0.5,也即是当空闲线程数量超过一半时,返回0,说明线程池整体状态为闲,否则返回1,说明为忙。

线程的销毁算法
1.      从空闲队列中dequeue一个空闲线程指针,该指针指向线程信息数组的某项,例如这里是p;
2.      销毁该线程
3.      把线程信息数组的最后一项拷贝至位置p
4.      线程池数量减少一,即cur_th_num–
0_13121828021oU0
图 3:线程销毁

线程池监控

线程池通过一个管理线程来进行监控,管理线程将会每隔一段时间对线程池的状态进行计算,根据线程池的状态适当的销毁部分线程,减少对系统资源的消耗。

程序测试
至此,我们的设计需要使用一个测试程序来进行验证。于是,我们写下这样一段代码。

执行结果:
0_1312182805UiUH

源码下载

地址:https://sourceforge.net/projects/thd-pool-linux/

备注

该线程池设计比较简单,尚存在不少BUG,欢迎各位提出改进意见。

修正:

2011/08/04:

tp_close函数增加队列清空操作,参见源码注释部分。

上述操作将导致段错误,原因是队列在删除元素的时候,对元素进行了free。而我们的元素其实是数组中某个元素的地址,这里将导致段错误的发生。源码中队列部分增加了元素释放函数回调,设置该函数为NULL或者空函数(什么都不做),在删除元素时将不会进行free操作。完整源码请到上面的地址下载。

在线程池初始化时,需要设置元素释放函数为NULL,参见源码注释部分。

这里顺便附上队列头文件部分源码:

发表评论