我正在尝试获取每个时间间隔最长的主题标签。我尝试了多种方法来解决该问题,但始终会发生错误。最常见的错误是:“ TransformedDStream'对象不可迭代”。请帮助解决该问题。
https://i.stack.imgur.com/N5sZi.png
这是我的代码
[您需要先将DStream / RDD collect()
放入列表,然后才能像这样循环访问它。
但是
,通常如果Spark中有一个for循环,则说明您做错了。例如,如果您使用结构化流式传输,则可以使数据框由2列(单词/标签及其长度)组成,然后您可以按长度对所有列进行排序,并仅获得第一行以找到max返回后的任何代码也永远不会运行