我有由导演和演员组成的 IMDB 数据 - 然而,由于某种原因,在导演栏中也显示了演员的名字,尽管已经有一个单独的栏。我试图删除董事姓名后面的所有名字,但无法做到。我已经尝试了下面的方程式,但没有得到我想要的结果。
我使用以下方程尝试将列分成两部分:
df4[['director','actors']] = df4['director'].str.split(', ', expand=True)
但是,这会导致错误消息:
ValueError:列的长度必须与键相同
我也尝试过下面的等式,但这会导致删除除董事姓名之外的所有内容:
df4['director'].str.rsplit(', ').str.get(0)
希望我正确解释了一切!
它尝试将每个演员分配到目标中的单独列中,但只有一个
actors
列。
使用
n=2
选项将 split()
分成两部分,这样所有演员都会保持在一起。
df4[['director','actors']] = df4['director'].str.split(', ', n=2, expand=True)