如何在Python中合并两个IO Streams?

问题描述 投票:1回答:1

我已经在Spark-Submit命令周围创建了一个Wrapper,以便能够通过解析日志来生成实时事件。目的是创建一个显示Spark作业详细进度的实时界面。

所以包装器看起来像这样:

  submitter = SparkSubmitter()
  submitter.submit('/path/to/spark-code.py')
  for log_event in submitter:
    if log_event:
      print('Event:', log_event)

输出将如下所示:

  Event: StartSparkContextEvent()
  Event: StartWorkEvent()
  Event: FinishWorkEvent()
  Event: StopSparkContextEvent()

在内部,SparkSubmitter类将spark-submit命令作为subprocess.Popen进程启动,然后通过stdout流进行迭代,并通过解析进程生成的日志来返回Events,如下所示:

  class SparkSubmitter():
    def submit(self, path):
        command = self.build_spark_submit_command(path)
      self.process = Popen(command, stdout=PIPE, stderr=PIPE)

    def __iter__(self):
        return self

    def __next__(self):
        # note: this is a IO-Blocking command
        log = self.process.stdout.readline().decode('utf-8') 
      return self.parse_log_and_return_event(log)

此实现适用于Spark Standalone Cluster。但是我在Yarn Cluster上运行时遇到了问题。

在Yarn Cluster中,“Spark相关日志”出现在stderr,而不是stdout。所以我的班级无法解析火花生成的日志,因为它只是试图读取stdout

问题1:是否可以将Popen的stdout和stderr作为单个流读取?

问题2:由于stdout和stderr都是Streams,是否可以合并两个流并将它们作为一个读取?

问题3:是否可以将所有日志重定向到仅stdout?

python stream spark-submit
1个回答
2
投票

你所有3个问题的答案都是肯定的,你可以使用stderr=subprocess.STDOUT作为Popen的参数,将输出从stderr重定向到stdout

self.process = Popen(command, stdout=PIPE, stderr=subprocess.STDOUT)
© www.soinside.com 2019 - 2024. All rights reserved.