我清理其中包含50000行文字我的csv文件和记号化的每一行。然而在每行中,单词分成单独的列:
202MAY ||击败|| LORDS || PEERS || BACK || NEW || LEVESON
但我想每一行被连接起来,而不是由每个切分词隔开:
202MAY击败议院PEERS回馈新LEVESON
所有在各行中的一列
每一行有不同的话让不同列的量的量,我如何能解决这个问题?
str = "202MAY || DEFEATED || LORDS || PEERS || BACK || NEW || LEVESON"
print str.replace(' ||', '')
你要这样呢?
some_text = "202MAY || DEFEATED || LORDS || PEERS || BACK || NEW || LEVESON".split("||")
print("".join(some_text))
#expected output:
#202MAY DEFEATED LORDS PEERS BACK NEW LEVESON
[gokul@python ~]$ cat sample.csv
a,b,c
dd,gg,f,t,y
x,y
[gokul@python ~]$ sed -i "s/,//g" sample.csv
[gokul@python ~]$ cat sample.csv
abc
ddggfty
xy
[gokul@python ~]$
所以不是读取文件作为结构化内容,只需读取该文件为纯文本文件,并替换为null逗号。
import re
text = "202MAY||DEFEATED||LORDS||PEERS||BACK||NEW||LEVESON"
combined_text = re.sub(r"\|\|", " ", text)
print(combined_text)
有几种方法可以做到这一点。上述代码使用正则表达式来替换“||”用空格(”“)。输出将是:202MAY击败议院PEERS回馈新LEVESON。