Python - 循环时间性能降低

Question

我有以下代码：

#Create an empty data frame to store item affinity scores for items.
itemAffinity= pd.DataFrame(columns=('item1', 'item2', 'score'))
rowCount=0

for ind1 in itemList:
    item1user = itemuser_dict[ind1]
    for ind2 in itemList:
        if ind1 == ind2:
            continue
        item2user = itemuser_dict[ind2]
        commonUsers = len(item1user.intersection(item2user))
        affinity_score =  commonUsers / len(item1user)

        #Add a score for item 1, item 2
        itemAffinity.loc[rowCount] = [ind1,ind2,affinity_score]
        rowCount +=1

我花了很长时间等待i7-7700的进程（小时），在itemList中只有2000个项目。我想问一下是否有任何方法可以加快代码性能，因为我有大于50k项目的大项目列表？

Answer 1

使用loc添加行是非常低效的（每次添加行时，都会重新创建列的基础数组）。

而是准备所有数据并立即创建整个数据框：

lines = []
for ind1 in itemList:
    item1user = itemuser_dict[ind1]
    for ind2 in itemList:
        if ind1 == ind2:
            continue
        item2user = itemuser_dict[ind2]
        commonUsers = len(item1user.intersection(item2user))
        affinity_score = commonUsers / len(item1user)
        lines.append({'item1': ind1, 'item2': ind2, 'score': affinity_score})


itemAffinity = pd.DataFrame(data=lines, columns=('item1', 'item2', 'score'))

请记住，columns不是必需的，但它确保列将按照您期望的顺序排列。

还要记住，你有一个O（n ^ 2）算法（在同一个列表上嵌套的for循环），并且不清楚(item1user, item2user)是否与(item2user, item1user)相同。如果是这样，您可以使用itertools.combinations大大减少迭代次数：

import itertools   

combinations = itertools.combinations(itemList, r=2)

lines = []
for ind1, ind2 in combinations:
    item1user = itemuser_dict[ind1]    
    item2user = itemuser_dict[ind2]
    commonUsers = len(item1user.intersection(item2user))
    affinity_score = commonUsers / len(item1user)
    lines.append({'item1': ind1, 'item2': ind2, 'score': affinity_score})

itemAffinity = pd.DataFrame(data=lines, columns=('item1', 'item2', 'score'))

Python - 循环时间性能降低

问题描述投票：0回答：1

1个回答

最新问题

Python - 循环时间性能降低

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1