如何在NLP中预处理数据时处理文本数据中的URL链接

问题描述 投票:1回答:1

我有一个数据框,其中包含一个带有URL链接的列。有人可以告诉我如何在NLP中预处理数据时处理这些链接吗?例如,df列看起来与此类似 -

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

我们是否需要完全删除这些URL链接,还是有其他方法来处理它们?

python pandas dataframe nlp preprocessor
1个回答
1
投票

过滤掉网址,因为它们不是自然语言。编写这样的谓词不应该太难,也许像str(word).startswith('http')这样简单就足够了。或使用正则表达式:

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]
© www.soinside.com 2019 - 2024. All rights reserved.