将注释放在多行语句之间(带有续行)[重复]

问题描述 投票:0回答:1

当我编写以下 pyspark 命令时:

# comment 1
df = df.withColumn('explosion', explode(col('col1'))).filter(col('explosion')['sub_col1'] == 'some_string') \
    # comment 2
    .withColumn('sub_col2', from_unixtime(col('explosion')['sub_col2'])) \
    # comment 3
    .withColumn('sub_col3', from_unixtime(col('explosion')['sub_col3']))

我收到以下错误:

.withColumn('sub_col2', from_unixtime(col('explosion')['sub_col2']))
^
IndentationError: unexpected indent

pyspark有没有办法在多行命令的行之间写注释?

python pyspark comments
1个回答
16
投票

这不是一个

pyspark
问题,而是违反了Python语法。

考虑以下示例:

a, b, c = range(3)
a +\
# add b
b +\
# add c
c

这会导致:

    a +# add b
              ^
SyntaxError: invalid syntax

\
是一个连续字符,Python将下一行中的任何内容解释为紧随其后发生,从而导致错误。

解决此问题的一种方法是使用括号:

(a +
# add b
b +
# add c
c)

分配给变量时,看起来像这样

# do a sum of 3 numbers
addition = (a +
            # add b
            b +
            # add c
            c)

或者您的情况:

# comment 1
df = (df.withColumn('explosion', explode(col('col1')))
    .filter(col('explosion')['sub_col1'] == 'some_string')
    # comment 2
    .withColumn('sub_col2', from_unixtime(col('explosion')['sub_col2']))
    # comment 3
    .withColumn('sub_col3', from_unixtime(col('explosion')['sub_col3'])))
© www.soinside.com 2019 - 2024. All rights reserved.