pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

pyspark在lambda中使用正则表达式拆分字符串

我正在尝试基于lambda函数内的正则表达式拆分字符串,字符串不会被拆分。我确定正则表达式工作正常。检查正则表达式测试链接https:// ...

回答 1 投票 1

Pyspark - 将mmddyy转换为YYYY-MM-DD

我正在处理一个大文件,其中有一个mmddyy格式的字段,其字符串为数据类型,我需要将其转换为YYYY-MM-DD。我确实试过创建UDF并转换为引用其中一个...

回答 2 投票 2

pyspark中的Rdd乘法?

我有两个数据框,如下:数据帧1:(df1)+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2:(df2)+ --- + ---------- + | id | ...

回答 1 投票 -1

如何将pyspark脚本拆分为多个文件

我有一个大的Pyspark程序,它执行以下步骤:常规导入和Spark对象初始化从目录中读取category1的数据。文件采用压缩格式。我正在使用sc ....

回答 1 投票 -1

有没有办法在不使用列表的情况下使用Dataframe的isin()?

有没有办法在不使用列表的情况下使用Dataframe的isin()?我正在查看pyspark文档,看起来它需要字符串或列表。如果字符串或列表绝对庞大会怎么样?...

回答 1 投票 0

nTypeError:无法合并类型 和 \ n”

我正在使用spark 1.6,我正在运行以下代码:def load(self,filename):print“正在加载输入文件”+ filename inputpd = pd.read_csv('input /'+ filename,dtype = str)...

回答 1 投票 0

如何忽略$ sign in value和sum

这就是我的csv数据的样子:TagNumber,DatePaid,TotalPaid ABCD,11/5/2017,$ 101 EFGH,12/5/2017,$ 201 ABCD,15/5/2017,$ 501我正在创建一个数据框,将分组TagNumber的数据,得到Min ...

回答 1 投票 0

使用Pyspark导入数据:数据类型错误

我遇到了Pyspark的问题:当我用Pyspark导入我的数据集时,我的所有列都被认为是一个字符串,即使我的列是数字的。我用...导入数据时没有这个问题

回答 1 投票 0

为什么集群模式比Spark中的客户端模式慢得多?

我有使用GraphFrame创建的15k图形对象。这些图非常小(每个图10-100个节点,10-100个边)。我只需要在每个上应用最短路径和某些其他算法......

回答 1 投票 1

时间戳在Spark中原生缩写日期格式

我正在使用sql.functions.unix_timestamp成功转换为spark中的日期(y-m-d,yyyyMMdd等)的数字格式的时间戳。问题是当日期使用缩写名称...

回答 1 投票 0

Spark中的PCA输出与scikit-learn不匹配

我在Spark ML中尝试PCA(主成分分析)。 data = [(Vectors.dense([1.0,1.0]),),(Vectors.dense([1.0,2.0]),),(Vectors.dense([4.0,4.0]),),(Vectors.dense( [5.0,4.0]),)] ...

回答 1 投票 6

来自HDFS的图像数据帧用于图像分类

我正在尝试使用Python和Spark编写图像分类算法。我遵循本教程,该教程取自官方数据库文档,在运行时运行良好...

回答 1 投票 0

读隐含小数点的固定长度文件?

假设我有一个这样的数据文件:foo12345 bar45612我想将其解析为:+ ---- + ------- + | ID | AMT | + ---- + ------- + | FOO | 123.45 | |酒吧| 456.12 | + ---- + ------- +这就是说,我需要......

回答 1 投票 0

将Jupyter笔记本连接到Spark

我有一台安装了Hadoop和Spark的机器。以下是我目前的环境。 python3.6 spark1.5.2 Hadoop 2.7.1.2.3.6.0-3796我试图连接jupyter笔记本连接到spark ...

回答 3 投票 1

火花作业的外部依赖

我是大数据技术的新手。我必须在EMR上以集群模式运行spark工作。这个工作是用python编写的,它依赖于几个库和一些其他工具。我已经 ...

回答 2 投票 0

我们如何使用从pyspark.ml获得的RandomForestClassifier进行预测

我正在进行文本分类,并使用管道方法构建了一个模型。我创建了RF分类器对象,并设置了我在我的...中获得的features列和标签列。

回答 2 投票 0

如何一次运行多个Spark 2.0实例(在多个Jupyter笔记本中)?

我有一个脚本,方便我在Jupyter笔记本中使用Spark。这很棒,除非我在第二个笔记本中运行spark命令(例如测试一些临时工作)。一世 ...

回答 1 投票 2

Pyspark - 根据语言过滤行

这个问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如,如果......

回答 2 投票 -1

rfModel.toDebugString出错

我正在使用带有Spark 2.2和Python 2.7.11的pyspark,我试图使用.toDebugString方法从随机森林分类器的决策树中提取规则。我成功了但是......

回答 1 投票 1

Spark将pandas日期时间数据类型转换为bigint

我有一个名为pd_df的pandas数据框。以下是数据类型。 pd_df.dtypes id int64 TEST_TIME datetime64 [ns] status object Pkg ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.