Spark Streaming使用Tweepy

问题描述 投票:1回答:1

我正在尝试使用python库Tweepy来传输Twitter数据。我已经设置了有关这些东西的工作环境但是我没有得到事情的运作方式。我想用python(tweepy)使用spark streaming(DStream - Batch处理)。我至少经历过以下链接:

以下tweepy代码对我来说工作正常:

import tweepy

consumer_key = ''
consumer_secret = ''
access_token = ''
access_secret = ''

auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)
api = tweepy.API(auth)

politicsTweets = tweepy.Cursor(api.search, q='#GONAWAZGO').items(100)

for tweet in politicsTweets:
    print tweet.created_at, tweet.text, tweet.lang

但它没有使用火花流。我应该如何更新上述代码以使用Spark Streaming?我不知道为什么我需要两个单独的文件?总的来说,我正在努力做到以下几点:

  1. 从2017年5月1日起获得前10个主题标签。(Tweepy搜索功能接受参数'since_id',而不是如何使用它[http://docs.tweepy.org/en/latest/api.html#help-methods]?)
  2. 算上#GONAWAZGO自2013年5月11日以来发现的次数。
  3. 算一下巴基斯坦以外的人做了多少#gonawazgo。 (没有任何日期限制,Tweepy游标方法接受地理编码,但我想要从提供的地理编码以外的位置发送推文。)
  4. 观察Twitter上关于法国选举的趋势。
  5. 查找[https://twitter.com/imrankhanpti] twitter帐户完成的最新推文。 (Tweepy搜索方法接受userID,我怎么能得到它?)

最重要的是,我对何时使用Twitter REST / Streaming API感到困惑。我认为应该使用第一和第二点REST API,因为我们正在处理过去的数据直到日期,并且应该使用剩余的Streaming API。

python-2.7 spark-streaming tweepy twitter-streaming-api twitter-rest-api
1个回答
0
投票

Twitter搜索API有7天的限制。这意味着您无法获得超过7天的任何数据。这是Twitter搜索API文档的链接。看看“until”参数中提到的描述:

https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets.html

我希望有所帮助!

© www.soinside.com 2019 - 2024. All rights reserved.