如何在NLP中预处理数据时处理文本数据中的URL链接

问题描述投票：1回答：1

我有一个数据框，其中包含一个带有URL链接的列。有人可以告诉我如何在NLP中预处理数据时处理这些链接吗？例如，df列看起来与此类似 -

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

我们是否需要完全删除这些URL链接，还是有其他方法来处理它们？

python pandas dataframe nlp preprocessor

1个回答

1
投票

过滤掉网址，因为它们不是自然语言。编写这样的谓词不应该太难，也许像str(word).startswith('http')这样简单就足够了。或使用正则表达式：

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.