我正在分析大量用户访谈数据集,并使用主题建模和情感分析。为了让它更有用,我按文本回复进行过滤,例如查看与该实体合作时间超过 18 个月和少于 18 个月的个人。
此过滤是通过从采访中获取文本回复来完成的。所有采访回复都记录在 Excel 模板中,以便与 Python 轻松集成。
这就是我目前正在使用的,但我觉得必须有一种更简单的方法来完成这种过滤。当代码在工作表中运行时,计数仅用于错误检查。
#Filtering Based On Departmental PM role
count = 0
df_departmental = pd.DataFrame()
for sheet in sheets:
df = pd.read_excel(excel_file, sheet)
df.rename(columns={'Unnamed: 1': 'Questions', 'INTERVIEW QUESTIONS': 'Question Topics', 'INTERVIEW RESPONSES': 'Interview Responses'}, inplace=True)
df['Interview Responses'] = df['Interview Responses'].astype(str)
check = df['Interview Responses'].loc[1]
if check == 'Departmental PM':
df['Clean_Responses'] = df['Interview Responses'].apply(lambda x: finalpreprocess(x))
df['Clean_Responses'] = df['Clean_Responses'].str.replace('^[0-9]','')
df['Sentiment_Rating'] = df['Clean_Responses'].apply(lambda x: sentiment_score(x))
df_departmental = df_departmental.append(df)
count += 1
print(count)