HI 我正在尝试使用 Apache spark 作为在 Ubuntu 上的 python 笔记本上表示它的数据库来计算 txt 文件中的行数,我得到一个 Py4JJavaError 这是错误``
# Import regex module
import re
from operator import add
# Read input file from hadoop directory
# Copy a file from the local folder to hadoop folder
file_in = sc.textFile('/user1/pg30123.txt')
print('文件中的行数:%s' % file_in.count())
Py4JJavaError Traceback(最后一次调用) /tmp/ipykernel_4437/1427953402.py 中 1 # 计数行 ----> 2 print('文件中的行数:%s' % file_in.count())
/usr/local/spark/python/pyspark/rdd.py 计数(自身) 1235 3 第1236章 -> 1237 return self.mapPartitions(lambda i: [sum(1 for _ in i)]).sum() 1238 1239 def 统计数据(自身):
我尝试并检查了 java home 变量集,但一切似乎都正常,但仍然无法正常工作任何人都可以帮助我吗