我正在尝试使用python库Tweepy来传输Twitter数据。我已经设置了有关这些东西的工作环境但是我没有得到事情的运作方式。我想用python(tweepy)使用spark streaming(DStream - Batch处理)。我至少经历过以下链接:
以下tweepy代码对我来说工作正常:
import tweepy
consumer_key = ''
consumer_secret = ''
access_token = ''
access_secret = ''
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)
api = tweepy.API(auth)
politicsTweets = tweepy.Cursor(api.search, q='#GONAWAZGO').items(100)
for tweet in politicsTweets:
print tweet.created_at, tweet.text, tweet.lang
但它没有使用火花流。我应该如何更新上述代码以使用Spark Streaming?我不知道为什么我需要两个单独的文件?总的来说,我正在努力做到以下几点:
最重要的是,我对何时使用Twitter REST / Streaming API感到困惑。我认为应该使用第一和第二点REST API,因为我们正在处理过去的数据直到日期,并且应该使用剩余的Streaming API。
Twitter搜索API有7天的限制。这意味着您无法获得超过7天的任何数据。这是Twitter搜索API文档的链接。看看“until”参数中提到的描述:
https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets.html
我希望有所帮助!