Apache Beam DirectRunner 与 FlinkRunner 示例

问题描述 投票:0回答:1

我使用beam yaml(python sdk)构建了最简单的管道,其中读取csv文件并应打印到日志。 使用默认 DirectRunner 运行时:

python -m apache_beam.yaml.main --pipeline_spec_file=pipeline-01.yaml 

一切正常,我确实看到了输出,但是当使用 FlinkRunner 时:

python -m apache_beam.yaml.main --pipeline_spec_file=pipeline-01.yaml --runner=FlinkRunner --flink_version=1.16 --flink_master=localhost:8081 --environment_type=EXTERNAL --environment_config=localhost:50000

没有打印任何日志,即使我可以通过 Flink Dashboard 看到运行成功。

我的管道:

pipeline:
  type: chain
  transforms:
    - type: ReadFromCsv
      config:
        path: data/input2.csv
    - type: LogForTesting

该路径是我计算机本地存储的文件的路径。

有人能澄清一下吗? 谢谢

apache-flink apache-beam
1个回答
0
投票

这个答案很尴尬..

我的管道正在查看本地保存的文件,但我忘记将其复制到 flink 集群中(所以基本上,没有日志,因为使用 FlinkRunner 运行时文件是“空”的。 文件复制后效果很好:)

© www.soinside.com 2019 - 2024. All rights reserved.