我有一个数据框,其中包含一个带有URL链接的列。有人可以告诉我如何在NLP中预处理数据时处理这些链接吗?例如,df列看起来与此类似 -
likes text
11 https://www.facebook.com
12 https://www.facebook.com
13 https://www.facebook.com
14 Good morning
15 How are.....you?
我们是否需要完全删除这些URL链接,还是有其他方法来处理它们?
过滤掉网址,因为它们不是自然语言。编写这样的谓词不应该太难,也许像str(word).startswith('http')
这样简单就足够了。或使用正则表达式:
import re
url_re = re.compile(r'^https?://', re.IGNORECASE)
def is_url(word):
return url_re.search(word) is not None
def keep_row(row):
return not is_url(row['text'])
df = df[df.apply(keep_row, axis=1)]