我有一个临床叙述数据集,我想从中提取癌症诊断。
这是叙述的一个例子(每个字符串都是数据集上的一行(大多数叙述只有一个诊断,而其他的有多个。
['Simple tubular carcinoma and solid carcinoma of the mammary gland', 'Sebaceous adenomas', 'Splenic haemangiosarcoma', 'mammary adenoma and mixed mammary carcinoma' 'Panniculitis']
所以,为了检测每一行的诊断,我使用这样的查找表:
['Solid carcinoma', 'tubular carcinoma' 'adenoma', 'hemangiosarcoma', 'mammary adenoma', 'mixed mammary carcinoma']
所以,我需要做的是在每个叙述中循环查找表,以找出每个临床叙述中查找表的哪些诊断。
这个我试过了
def t(x):
for item in [Tumour_list]:
if item in Narratives_series :
return item
return False
print(Narratives_series)
print(Narratives_series.apply(t))
期待这个:
但到目前为止,已经不可能了。我还是 Python 的新手 :-) 何塞