多进程模型的优势是CPU,适用于CPU密集型。同时,多进程模型也适用于多机分布式场景中,易于多机扩展。
多线程模型主要优势为线程间切换代价较小,因此适用于I/O密集型的工作场景,因此I/O密集型的工作场景经常会由于I/O阻塞导致频繁的切换线程。同时,多线程模型也适用于单机多核分布式场景。
io 操作不占用CPU(从硬盘、从网络、从内存读数据都算io)
计算占用CPU(如1+1计算)
一. 两者区别
- 进程是分配资源的基本单位;线程是系统调度和分派的基本单位。
- 属于同一进程的线程,堆是共享的,栈是私有的。
- 属于同一进程的所有线程都具有相同的地址空间。
- 多进程的优点:
①编程相对容易;通常不需要考虑锁和同步资源的问题。
②更强的容错性:比起多线程的一个好处是一个进程崩溃了不会影响其他进程。
③有内核保证的隔离:数据和错误隔离。 对于使用如C/C++这些语言编写的本地代码,错误隔离是非常有用的:采用多进程架构的程序一般可以做到一定程度的自恢复;(master守护进程监控所有worker进程,发现进程挂掉后将其重启)。 - 多线程的优点:
①创建速度快,方便高效的数据共享
共享数据:多线程间可以共享同一虚拟地址空间;多进程间的数据共享就需要用到共享内存、信号量等IPC技术。
②较轻的上下文切换开销 – 不用切换地址空间,不用更改寄存器,不用刷新TLB。
③提供非均质的服务。如果全都是计算任务,但每个任务的耗时不都为1s,而是1ms-1s之间波动;这样,多线程相比多进程的优势就体现出来,它能有效降低“简单任务被复杂任务压住”的概率。
二. 应用场景
1. 多进程应用场景
- nginx主流的工作模式是多进程模式(也支持多线程模型)
- 几乎所有的web server服务器服务都有多进程的,至少有一个守护进程配合一个worker进程,例如apached,httpd等等以d结尾的进程包括init.d本身就是0级总进程,所有你认知的进程都是它的子进程;
- chrome浏览器也是多进程方式。 (原因:①可能存在一些网页不符合编程规范,容易崩溃,采用多进程一个网页崩溃不会影响其他网页;而采用多线程会。②网页之间互相隔离,保证安全,不必担心某个网页中的恶意代码会取得存放在其他网页中的敏感信息。)
- redis也可以归类到“多进程单线程”模型(平时工作是单个进程,涉及到耗时操作如持久化或aof重写时会用到多个进程)
2. 多线程应用场景
- 线程间有数据共享,并且数据是需要修改的(不同任务间需要大量共享数据或频繁通信时)。
- 提供非均质的服务(有优先级任务处理)事件响应有优先级。
- 单任务并行计算,在非CPU Bound的场景下提高响应速度,降低时延。
- 与人有IO交互的应用,良好的用户体验(键盘鼠标的输入,立刻响应)
- 案例:
桌面软件,响应用户输入的是一个线程,后台程序处理是另外的线程;
memcached
3. 选什么?
①需要频繁创建销毁的优先用线程(进程的创建和销毁开销过大)
这种原则最常见的应用就是Web服务器了,来一个连接建立一个线程,断了就销毁线程,要是用进程,创建和销毁的代价是很难承受的
②需要进行大量计算的优先使用线程(CPU频繁切换)
所谓大量计算,当然就是要耗费很多CPU,切换频繁了,这种情况下线程是最合适的。
这种原则最常见的是图像处理、算法处理。
③强相关的处理用线程,弱相关的处理用进程
什么叫强相关、弱相关?理论上很难定义,给个简单的例子就明白了。
一般的Server需要完成如下任务:消息收发、消息处理。“消息收发”和“消息处理”就是弱相关的任务,而“消息处理”里面可能又分为“消息解码”、“业务处理”,这两个任务相对来说相关性就要强多了。因此“消息收发”和“消息处理”可以分进程设计,“消息解码”、“业务处理”可以分线程设计。
当然这种划分方式不是一成不变的,也可以根据实际情况进行调整。
④可能要扩展到多机分布的用进程,多核分布的用线程
⑤都满足需求的情况下,用你最熟悉、最拿手的方式
至于“数据共享、同步”、“编程、调试”、“可靠性”这几个维度的所谓的“复杂、简单”应该怎么取舍,我只能说:没有明确的选择方法。但我可以告诉你一个选择原则:如果多进程和多线程都能够满足要求,那么选择你最熟悉、最拿手的那个。
虽然我给了这么多的选择原则,但实际应用中基本上都是“进程+线程”的结合方式,千万不要真的陷入一种非此即彼的误区。
——————————————
Python多进程实例
python中的线程是假线程,不同线程之间的切换是需要耗费资源的,因为需要存储线程的上下文,不断的切换就会耗费资源。。
python多线程适合io操作密集型的任务(如socket server 网络并发这一类的);
python多线程不适合cpu密集操作型的任务,主要使用cpu来计算,如大量的数学计算。
那么如果有cpu密集型的任务怎么办,可以通过多进程来操作(不是多线程)。
假如CPU有8核,每核CPU都可以用1个进程,每个进程可以用1个线程来进行计算。
进程之间不需要使用gil锁,因为进程是独立的,不会共享数据。
进程可以起很多个,但是8核CPU同时只能对8个任务进行操作。
多进程
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |
测试多进程 import multiprocessing import time def run(name): time.sleep(2) print ('heelo',name) if __name__ == '__main__': for i in range(10): #起了10个进程 p = multiprocessing.Process(target=run,args=('bob%s' %i,)) p.start() 执行结果: heelo bob1 heelo bob0 heelo bob2 heelo bob3 heelo bob5 heelo bob4 heelo bob6 heelo bob7 heelo bob8 heelo bob9 ##2秒左右就执行完成了,有几核CPU,同时就可以处理几个进程;当然要考虑你的电脑还开启了N多个其他应用程序,不过CPU计算比较快。 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
import multiprocessing import time,threading def thread_run(): print (threading.get_ident()) #get_ident获取当前线程id def run(name): time.sleep(2) print ('heelo',name) t = threading.Thread(target=thread_run,) #在每个进程中又起了1个线程 t.start() if __name__ == '__main__': for i in range(10): #起了10个进程 p = multiprocessing.Process(target=run,args=('bob%s' %i,)) p.start() 执行结果: heelo bob0 16684 heelo bob1 15052 heelo bob2 15260 heelo bob3 6192 heelo bob4 6748 heelo bob7 13980 heelo bob5 6628 heelo bob6 3904 heelo bob9 2328 heelo bob8 17072 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
import os def info(title): print(title) print('module name:', __name__) print('parent process:', os.getppid()) #获取父进程的id print('process id:', os.getpid()) #获取自身的id print("\n\n") def f(name): info('\033[31;1mfunction f\033[0m') print('hello', name) if __name__ == '__main__': info('\033[32;1mmain process line\033[0m') ##直接调用函数 # p = Process(target=f, args=('bob',)) # p.start() # p.join() 执行结果: main process line module name: __main__ parent process: 1136 #父进程ID,这个父进程就是pycharm process id: 16724 #这个子进程就是python的代码程序 ##每个进程都会有一个父进程。 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 |
from multiprocessing import Process import os def info(title): print(title) print('module name:', __name__) print('parent process:', os.getppid()) #获取父进程的id print('process id:', os.getpid()) #获取自身的id print("\n\n") def f(name): info('\033[31;1mcalled from child process function f\033[0m') print('hello', name) if __name__ == '__main__': info('\033[32;1mmain process line\033[0m') p = Process(target=f, args=('bob',)) #设置子进程 p.start() #启动子进程 # p.join() 执行结果: main process line module name: __main__ parent process: 1136 #主进程pycharm process id: 14684 #子进程python代码 called from child process function f module name: __mp_main__ parent process: 14684 #主进程python代码(1136的子进程) process id: 15884 #python代码(主进程14684)中的子进程的子15884 ## 每个进程都有主进程(父进程) hello bob |
进程间通讯
默认进程之间数据是不共享的,如果一定要实现互访可以通过Queue来实现,这个Queue和线程中的Queue使用方法一样,不过线程中的Queue只能在线程之间使用。
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
线程 import queue import threading def f(): q.put([42,None,'heelo']) if __name__ == '__main__': q = queue.Queue() p = threading.Thread(target=f,) p.start() print (q.get()) p.join() 执行结果: [42, None, 'heelo'] ## 通过子线程put进去数据,然后在主线程get出内容,表明线程之间数据是可以共享的。 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
进程 import queue from multiprocessing import Process def f(): q.put([42,None,'heelo']) #这里的q属于主进程 if __name__ == '__main__': q = queue.Queue() #主进程起的q p = Process(target=f,) ## 在主进程中来定义子进程;如果在主进程中启动了子进程,那么主进程和子进程之间内存是独立的。 ## 因为内存独立,子进程p是无法访问主进程def f()中的q的。 p.start() print (q.get()) p.join() 执行结果: Process Process-1: Traceback (most recent call last): File "D:\python3.6.4\lib\multiprocessing\process.py", line 258, in _bootstrap self.run() File "D:\python3.6.4\lib\multiprocessing\process.py", line 93, in run self._target(*self._args, **self._kwargs) File "E:\python\代码练习\A3.py", line 7, in f q.put([42,None,'heelo']) NameError: name 'q' is not defined ##可以看到已经报错,这是因为子进程不能访问主进程的q |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 |
import queue from multiprocessing import Process def f(qq): qq.put([42,None,'heelo']) if __name__ == '__main__': q = queue.Queue() p = Process(target=f,args=(q,)) #将父进程q传给子进程 p.start() print (q.get()) p.join() 执行结果: Traceback (most recent call last): File "E:/python/代码练习/A3.py", line 13, in <module> p.start() File "D:\python3.6.4\lib\multiprocessing\process.py", line 105, in start self._popen = self._Popen(self) File "D:\python3.6.4\lib\multiprocessing\context.py", line 223, in _Popen return _default_context.get_context().Process._Popen(process_obj) File "D:\python3.6.4\lib\multiprocessing\context.py", line 322, in _Popen return Popen(process_obj) File "D:\python3.6.4\lib\multiprocessing\popen_spawn_win32.py", line 65, in __init__ reduction.dump(process_obj, to_child) File "D:\python3.6.4\lib\multiprocessing\reduction.py", line 60, in dump ForkingPickler(file, protocol).dump(obj) TypeError: can't pickle _thread.lock objects ## 这是因为我们将线程的q传给另一个进程,这是不可以的,线程只属于当前进程,不能传给其他进程。 ## 如果想将q传给子进程,那么必须将进程q传进去,而不是线程q。 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
from multiprocessing import Process,Queue ##大写的Queue是进程队列; queue是线程队列 ##大写的Queue需要从multiprocessing导入 def f(qq): qq.put([42,None,'heelo']) if __name__ == '__main__': q = Queue() p = Process(target=f,args=(q,)) #将父进程q传给子进程 p.start() print (q.get()) #父进程去get子进程的内容 p.join() 执行结果: [42, None, 'heelo'] ##父进程可以get子进程put进去的内容了;从表面上看感觉是两个进程共享了数据,其实不然。 ## 现在已经实现了进程间的通讯。父进程将q传给子进程,其实是克隆了一份q给子进程,此时子进程就多了一个q进程队列; 但是父进程又为什么能够get子进程put进去的数据呢,这是因为当前两个进程在内存空间依然是独立的,只不过子进程put的数据 通过pickle序列化放到内存中一个中间的位置,然后父进程从这个中间的位置取到数据(而不是从子进程中取的数据)。 所以进程间的通讯不是共享数据,而是一个数据的传递。 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
进程之间的数据还可以通过管道的方式来通讯 from multiprocessing import Process, Pipe def f(conn): conn.send([42, None, 'hello from child1']) #发送数据给parent_conn conn.close() #发完数据需要关闭 if __name__ == '__main__': parent_conn, child_conn = Pipe() ## 生成管道。 生成时会产生两个返回对象,这两个对象相当于两端的电话,通过管道线路连接。 ## 两个对象分别交给两个变量。 p = Process(target=f, args=(child_conn,)) #child_conn需要传给对端,用于send数据给parent_conn p.start() print(parent_conn.recv()) #parent_conn在这端,用于recv数据 p.join() 执行结果: [42, None, 'hello from child1'] |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
from multiprocessing import Process, Pipe def f(conn): conn.send([42, None, 'hello from child1']) conn.send([42, None, 'hello from child2']) #发送两次数据 conn.close() if __name__ == '__main__': parent_conn, child_conn = Pipe() p = Process(target=f, args=(child_conn,)) p.start() print(parent_conn.recv()) p.join() 执行结果: [42, None, 'hello from child1'] ## 可以看到这端只接收到了一次数据 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
from multiprocessing import Process, Pipe def f(conn): conn.send([42, None, 'hello from child1']) conn.send([42, None, 'hello from child2']) conn.close() if __name__ == '__main__': parent_conn, child_conn = Pipe() p = Process(target=f, args=(child_conn,)) p.start() print(parent_conn.recv()) print(parent_conn.recv()) #第二次接收数据 p.join() 执行结果: [42, None, 'hello from child1'] [42, None, 'hello from child2'] ##对端发送几次,这端就需要接收几次 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
from multiprocessing import Process, Pipe def f(conn): conn.send([42, None, 'hello from child1']) conn.send([42, None, 'hello from child2']) #发送两次数据 conn.close() if __name__ == '__main__': parent_conn, child_conn = Pipe() p = Process(target=f, args=(child_conn,)) p.start() print(parent_conn.recv()) print(parent_conn.recv()) print(parent_conn.recv()) #对端发送两次,本段接收三次 p.join() 执行结果: [42, None, 'hello from child1'] [42, None, 'hello from child2'] ## 程序卡主了,除非对端在发送一次数据。 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
from multiprocessing import Process, Pipe def f(conn): conn.send([42, None, 'hello from child1']) conn.send([42, None, 'hello from child2']) #发送两次数据 print (conn.recv()) #接收数据 conn.close() if __name__ == '__main__': parent_conn, child_conn = Pipe() p = Process(target=f, args=(child_conn,)) p.start() print(parent_conn.recv()) print(parent_conn.recv()) parent_conn.send("data from parent_conn") #发送数据 p.join() 执行结果: [42, None, 'hello from child1'] [42, None, 'hello from child2'] data from parent_conn ##通过管道实现了相互发送接收数据(实现了数据传递) |
进程间数据交互及共享
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 |
from multiprocessing import Process, Manager import os def f(d, l): d[1] = '1' #放入key和value到空字典中 d['2'] = 2 d[0.25] = None l.append(os.getpid()) #将每个进程的id值放入列表中;每个进程的id值都不同。 print(l) if __name__ == '__main__': with Manager() as manager: #做一个别名,此时manager就相当于Manager() d = manager.dict() #生成一个可在多个进程之间传递和共享的字典 l = manager.list(range(5)) #生成一个可在多个进程之间传递和共享的列表;通过range(5)给列表中生成5个数据 p_list = [] for i in range(10): #生成10个进程 p = Process(target=f, args=(d, l)) #将字典和列表传给每个进程,每个进程可以进行修改 p.start() p_list.append(p) # 将每个进程放入空列表中 for res in p_list: res.join() print(d) #所有进程都执行完毕后打印字典 print(l) #所有进程都执行完毕后打印列表 执行结果: [0, 1, 2, 3, 4, 15788] #列表生成的时候自动加入了0-4这5个数字;然后每个进程都将各自的pid加入到列表。 [0, 1, 2, 3, 4, 15788, 1568] [0, 1, 2, 3, 4, 15788, 1568, 7196] [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544] [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544, 9568] [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544, 9568, 16952] [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544, 9568, 16952, 15704] [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544, 9568, 16952, 15704, 14412] [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544, 9568, 16952, 15704, 14412, 5368] [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544, 9568, 16952, 15704, 14412, 5368, 3092] #第10个进程打印的列表中有10个进程的pid {1: '1', '2': 2, 0.25: None} #最后打印的字典 [0, 1, 2, 3, 4, 15788, 1568, 7196, 6544, 9568, 16952, 15704, 14412, 5368, 3092] #最后打印的列表 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
from multiprocessing import Process, Manager import os def f(d, l): d[os.getpid()] = os.getpid() l.append(os.getpid()) print(l) if __name__ == '__main__': with Manager() as manager: d = manager.dict() #对字典做个调整,也将pid加入到字典中 l = manager.list(range(5)) p_list = [] for i in range(10): p = Process(target=f, args=(d, l)) p.start() p_list.append(p) for res in p_list: res.join() print(d) print(l) 执行结果: [0, 1, 2, 3, 4, 2240] [0, 1, 2, 3, 4, 2240, 10152] [0, 1, 2, 3, 4, 2240, 10152, 10408] [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312] [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312, 17156] [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312, 17156, 6184] [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312, 17156, 6184, 16168] [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312, 17156, 6184, 16168, 11384] [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312, 17156, 6184, 16168, 11384, 15976] [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312, 17156, 6184, 16168, 11384, 15976, 16532] {2240: 2240, 10152: 10152, 10408: 10408, 6312: 6312, 17156: 17156, 6184: 6184, 16168: 16168, 11384: 11384, 15976: 15976, 16532: 16532} [0, 1, 2, 3, 4, 2240, 10152, 10408, 6312, 17156, 6184, 16168, 11384, 15976, 16532] ##现在我们看到可以实现进程间的数据共享、修改和传递。 ##Manager()自带锁,会控制进程之间同一时间修改数据; ##字典和列表的数据不是一份,而是因为10个进程,所以有10个字典和10个列表。每个进程修改后,都会copy给其他进程,其他进程可以对最新的数据进行修改,所以数据不会被修改乱。 |
进程同步
在进程里面也有锁
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |
from multiprocessing import Process, Lock #从multiprocessing导入Lock这个锁 def f(l, i): l.acquire() #获取修改数据的锁 print('hello world', i) l.release() #释放锁 if __name__ == '__main__': lock = Lock() #实例锁 for num in range(10): #生成10个进程 Process(target=f, args=(lock, num)).start() #执行子进程并传入参数给子进程 执行结果: hello world 1 hello world 4 hello world 0 hello world 3 hello world 2 hello world 5 hello world 6 hello world 8 hello world 7 hello world 9 ## 可以看到一共10个进程,并不是连续的,说明执行进程的时候说不准先执行哪个进程。 ##进程之间数据是独立的,这里我们为什么又要加锁呢,这是因为所有进程使用同一个屏幕来输出数据;比如 我们现在输出的数据是 hello world x,在输出的过程中很有可能其中一个进程还没输出完(比如只输出了hello wo),另一个进程就执行输出了(可能会在屏幕上看到hello wohello world0201的现象)。 所以需要通过锁来控制同一时间只能有一个进程输出数据到屏幕。 |
进程池
执行多进程,子进程会从主进程复制一份完整数据,1个、10个进程可能还没什么感觉,但是如果有100或1000,甚至更多个进程的时候开销就会特别大,就会明显感觉到多进程执行有卡顿现象。
进程池可以设定同一时间有多少个进程可以在CPU上运行。
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 |
from multiprocessing import Process, Pool #从multiprocessing导入pool import time,os def Foo(i): time.sleep(2) print("in process",os.getpid()) #打印进程id return i + 100 def Bar(arg): print('-->exec done:', arg) if __name__ == '__main__': ##这行代码用途是如果主动执行该代码的.py文件,则该代码下面的代码可以被执行;如果该.py模块被导入到其他模块中,从其他模块执行该.py模块,则该行下面的代码不会被执行。 有些时候可以用这种方式用于测试,在该行代码下面写一些测试代码。。 pool = Pool(5) #同时只能放入5个进程 for i in range(10): #创建10个进程,但是因为pool的限制,只有放入进程池中的5个进程才会被执行(),其他的被挂起了,如果进程池中其中有两个进程执行完了,就会补进2个进程进去。 # pool.apply_async(func=Foo, args=(i,), callback=Bar) pool.apply(func=Foo, args=(i,)) #pool.apply用来将进程放入pool print('end') #执行完毕 pool.close() #允许pool中的进程关闭(close必须在join前面,可以理解close相当于一个开关吧) pool.join() # 进程池中进程执行完毕后再关闭,如果注释,那么程序直接关闭。 执行结果: in process 2240 in process 3828 in process 16396 in process 11848 in process 11636 in process 2240 in process 3828 in process 16396 in process 11848 in process 11636 end ##可以看到通过串行的方式将结果打印出来,这是因为我们使用的是pool.apply。 pool.apply就是通过串行的方式来执行。 |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
from multiprocessing import Process, Pool import time,os def Foo(i): time.sleep(2) print("in process",os.getpid()) return i + 100 def Bar(arg): print('-->exec done:', arg) if __name__ == '__main__': pool = Pool(5) for i in range(10): pool.apply_async(func=Foo, args=(i,)) ## 使用pool.apply_async就可以并行了 print('end') pool.close() # pool.join() 注释掉 执行结果: end ## 只执行了print('end')代码,其他进程的结果没有看到,这是因为其他进程还没有执行完成,主进程pool.close()就执行完了,close以后所有其他进程也不会在执行了。 ## 要想其他进程执行完成后在关闭,必须使用pool.join() |
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
from multiprocessing import Process, Pool import time,os def Foo(i): time.sleep(2) print("in process",os.getpid()) return i + 100 def Bar(arg): print('-->exec done:', arg) if __name__ == '__main__': pool = Pool(5) for i in range(10): pool.apply_async(func=Foo, args=(i,)) print('end') pool.close() pool.join() 执行结果: end in process 13272 in process 14472 in process 3724 in process 9072 in process 15068 in process 13272 in process 14472 in process 3724 in process 9072 in process 15068 ##从执行结果来看,5个 5个的被打印出来。 |
回调
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 |
from multiprocessing import Process, Pool import time,os def Foo(i): time.sleep(2) print("in process",os.getpid()) return i + 100 def Bar(arg): print('-->exec done:', arg,os.getpid()) if __name__ == '__main__': pool = Pool(5) print ("主进程:",os.getpid()) #打印主进程id for i in range(10): pool.apply_async(func=Foo, args=(i,),callback=Bar) ##callback叫做回调,就是当执行完了func=Foo后,才会执行callback=Bar(每个进程执行完了后都会执行回调)。 ## 回调可以用于当执行完代码后做一些后续操作,比如查看完命令后,通过回调进行备份;或者执行完什么动作后,做个日志等。 ## 备份、写日志等在子进程中也可以执行,但是为什么要用回调呢! 这是因为如果用子进程,有10个子进程就得连接数据库十次,而使用回调的话是用主进程连接数据库,所以只连接一次就可以了,这样写能大大提高运行效率。 ##通过主进程建立数据库的连接的话,因为在同一个进程中只能在数据库建立一次连接,所以即使是多次被子进程回调,也不会重复建立连接的,因为数据库会限制同一个进程最大连接数,这都是有数据库设置的。 print('end') pool.close() pool.join() 执行结果: 主进程: 12776 #主进程是12766 end in process 7496 -->exec done: 100 12776 #这里可以看出回调是通过主进程调用的 in process 3324 -->exec done: 101 12776 in process 16812 -->exec done: 102 12776 in process 10876 -->exec done: 103 12776 in process 8200 -->exec done: 104 12776 in process 7496 -->exec done: 105 12776 in process 3324 -->exec done: 106 12776 in process 16812 -->exec done: 107 12776 in process 10876 -->exec done: 108 12776 in process 8200 -->exec done: 109 12776 |