這段時間一直在做一個爬蟲系統(tǒng),用python和django實現(xiàn),。其中涉及到了多線程的問題,,在后端使用一個全局的字典用來保存和識別已經(jīng)運行的線程。但是覺得這樣的實現(xiàn)不是不太舒服,。于是想找到一個更好的實現(xiàn),,這就想到了線程池這個概念。
線程池的概念是什么,?在IBM文檔庫中這樣的一段描寫:“在面向?qū)ο缶幊讨?,?chuàng)建和銷毀對象是很費時間的,因為創(chuàng)建一個對象要獲取內(nèi)存資源或者其它更多資源,。在Java中更是如此,,虛擬機將試圖跟蹤每一個對象,以便能夠在對象銷毀后進行垃圾回收,。所以提高服務(wù)程序效率的一個手段就是盡可能減少創(chuàng)建和銷毀對象的次數(shù),,特別是一些很耗資源的對象創(chuàng)建和銷毀。如何利用已有對象來服務(wù)就是一個需要解決的關(guān)鍵問題,,其實這就是一些"池化資源"技術(shù)產(chǎn)生的原因,。”
--IBM文檔庫,。
根據(jù)IBM文檔中的描述,,我理解為線程池是一個存放很多線程的單位,同時還有一個對應(yīng)的任務(wù)隊列,。整個執(zhí)行過程其實就是使用線程池中已有有限的線程把任務(wù)隊列中的任務(wù)做完,。這樣做的好處就是你不需要為每個任務(wù)都創(chuàng)建一個線程,因為當(dāng)你創(chuàng)建第100個線程來執(zhí)行第100個任務(wù)的時候,,可能前面已經(jīng)有50個線程結(jié)束工作了,。因此重復(fù)利用線程來執(zhí)行任務(wù),減少系統(tǒng)資源的開銷,。
一個不怎么恰當(dāng)?shù)谋扔骶褪?,?00臺電腦主機箱需要從1樓搬到2樓,,你不需要喊來100人幫忙搬,你只需要叫十個或者二十個人就足以,,每個人分配十個或者五個甚至是誰搬的快誰就多搬知道完成未知,。(這個比喻好像。,。,。。,。)
不管如何吧,,大體上理解了線程池的概念。那么怎么用python實現(xiàn)呢,?我在網(wǎng)上找了一段代碼,,覺得不錯,就收藏下來吧,。貼上來大家瞧瞧,。
# !/usr/bin/env python
# -*- coding:utf-8 -*-
# ref_blog:http://www./home/space-5679-do-blog-id-3247.html
import Queue
import threading
import time
class WorkManager(object):
def __init__(self, work_num=1000,thread_num=2):
self.work_queue = Queue.Queue()
self.threads = []
self.__init_work_queue(work_num)
self.__init_thread_pool(thread_num)
"""
初始化線程
"""
def __init_thread_pool(self,thread_num):
for i in range(thread_num):
self.threads.append(Work(self.work_queue))
"""
初始化工作隊列
"""
def __init_work_queue(self, jobs_num):
for i in range(jobs_num):
self.add_job(do_job, i)
"""
添加一項工作入隊
"""
def add_job(self, func, *args):
self.work_queue.put((func, list(args)))#任務(wù)入隊,Queue內(nèi)部實現(xiàn)了同步機制
"""
檢查剩余隊列任務(wù)
"""
def check_queue(self):
return self.work_queue.qsize()
"""
等待所有線程運行完畢
"""
def wait_allcomplete(self):
for item in self.threads:
if item.isAlive():item.join()
class Work(threading.Thread):
def __init__(self, work_queue):
threading.Thread.__init__(self)
self.work_queue = work_queue
self.start()
def run(self):
#死循環(huán),,從而讓創(chuàng)建的線程在一定條件下關(guān)閉退出
while True:
try:
do, args = self.work_queue.get(block=False)#任務(wù)異步出隊,,Queue內(nèi)部實現(xiàn)了同步機制
do(args)
self.work_queue.task_done()#通知系統(tǒng)任務(wù)完成
except Exception,e:
print str(e)
break
#具體要做的任務(wù)
def do_job(args):
print args
time.sleep(0.1)#模擬處理時間
print threading.current_thread(), list(args)
if __name__ == '__main__':
start = time.time()
work_manager = WorkManager(10, 2)#或者work_manager = WorkManager(10000, 20)
work_manager.wait_allcomplete()
end = time.time()
print "cost all time: %s" % (end-start)
比較網(wǎng)上其他的代碼,我覺得這個代碼還挺清晰易懂,。
整個代碼只有兩個類:WorkManager和Work,,前者確實如命名所示,是一個管理者,,管理線程池和任務(wù)隊列,,而后者就是具體的一個線程。它的整個運行邏輯就是,,給WorkManager分配制定的任務(wù)量和線程數(shù),,然后每個線程都從任務(wù)隊列中獲取任務(wù)來執(zhí)行,直到隊列中沒有任務(wù),。這里面也用到了Queue內(nèi)部的同步機制(至于是啥同步機制目前還沒去研究),。
總結(jié)一下這樣一個線程池的作用,對于我本來的目的其實這個東西是永不上的,,因為我需要在web頁面來控制線程的啟動和停止,,而這個線程池看起來只是用來并發(fā)完任務(wù)的。不過我想雖然在控制線程方面沒有作用,,但是它的并發(fā)執(zhí)行任務(wù)的作用還是蠻不錯,,或許可以用在爬網(wǎng)頁的部分。
在進一步思考,,或許我可以把WorkManager作為一個線程來運行,,不過要怎么按需停止WorkManager內(nèi)部線程池中線程的運行和停止呢,。
----EOF-----
此文對我有價值,小額(無負(fù)擔(dān))贊助下^_^