我在一个函数中使用pool.map,该函数在不同数据块块上并行调用一个函数。我在Django API中使用它。
从我的API调用中,调用了parallelize_df函数,该函数创建pool和pool.map。但是我观察到,每当调用pool.map时,都会再次调用API。当数据帧大小较小时,这不是问题。
任何人都可以帮忙
代码:
def parallelize_df(df, function_name):
dataframe_split = np.array_split(df, num_partitions)
pool = Pool(multiprocessing.cpu_count())
df = pd.concat(pool.map(function_name, dataframe_split))
pool.close()
pool.join()
return df
def calculate(df_input):
# do some calculation
return df
[我不好,问题是因为使用Chrome进行了测试。我猜想API请求花了很多时间,然后Chrome重新发送了请求。使用邮递员尝试过,我无法复制该问题