HI 我正在尝试使用 Apache spark 作为数据库来计算 txt 文件中的行数,在 Ubuntu 上的 python 笔记本上表示它,我得到一个 Py4JJavaError

问题描述 投票:0回答:0

HI 我正在尝试使用 Apache spark 作为在 Ubuntu 上的 python 笔记本上表示它的数据库来计算 txt 文件中的行数,我得到一个 Py4JJavaError 这是错误``

# Import regex module
import re
from operator import add

# Read input file from hadoop directory
# Copy a file from the local folder to hadoop folder
file_in = sc.textFile('/user1/pg30123.txt')

数线

print('文件中的行数:%s' % file_in.count())


Py4JJavaError Traceback(最后一次调用) /tmp/ipykernel_4437/1427953402.py 中 1 # 计数行 ----> 2 print('文件中的行数:%s' % file_in.count())

/usr/local/spark/python/pyspark/rdd.py 计数(自身) 1235 3 第1236章 -> 1237 return self.mapPartitions(lambda i: [sum(1 for _ in i)]).sum() 1238 1239 def 统计数据(自身):

我尝试并检查了 java home 变量集,但一切似乎都正常,但仍然无法正常工作任何人都可以帮助我吗

java python-3.x apache-spark hadoop hadoop-yarn
© www.soinside.com 2019 - 2024. All rights reserved.