bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

biglm - 错误:$ 运算符对于原子向量无效

我正在尝试在非常大的数据集(几百万行)上运行广义线性模型。然而,R 似乎无法处理分析,因为我不断收到内存分配错误(无法...

回答 1 投票 0

多次行动会引发失败

我是 Spark 新手。 我在将 df 保存到 Hive 表的部分遇到了一些问题。 def insert_into_hive_table(df: DataFrame, table_name: str): # 用于调试 - 此操作正在运行...

回答 1 投票 0

处理嵌套Json结构

假设我们有以下 json 结构: { “职位”:{ “节点”:“abc” } “提交内容”:{ “提交偏移量”:[ ...

回答 1 投票 0

使用 pyspark 将数据提取到独立文件中以解决:Spark 缓冲区持有者大小限制问题

问题 我遇到了与此相同的问题:Spark bufferholder size limit issues。 我的代码是这样的: # 计算统计数据 stats = df.groupBy("EventType").agg( 大小(收集集(“

回答 1 投票 0

合并和重塑 3 个大型数据帧、处理重复项时遇到麻烦

我正在寻找合并和重塑 3 个表中的数据。我有 3 个表,大约有 250,000 行和 30 列。需要重塑以适应机器学习模型。 这是原版...

回答 0 投票 0

如何在 pyspark 中使用合并将 null 值替换为某个值

我有两个文件:-orders_renamed.csv,customers.csv 我使用完整的外部连接将它们连接起来,然后删除同一列(customer_id)。 我想将“ord...”中的 null 值替换为“-1”

回答 1 投票 0

Spark 无法删除临时目录

我正在尝试使用下面提到的命令从Windows 10中的cmd提交spark程序: Spark-submit --class abc.Main --master local[2] C:\Users rpitbh\Desktop\AmdocsIDE\workspace\Line_Count_Spark\

回答 2 投票 0

如何在pysparK中定义半结构化文本文件的Schema

1 2013-07-25 11599,已关闭 2 2013-07-25 256,PENDING_PAYMENT 3 2013-07-25 12111,完成 4 2013-07-25 8827,已关闭 5 2013-07-25 11318,完成 6 2013-07-25 7130,完成 7 2013-07-25...

回答 0 投票 0

Python Polars 有效枚举新列中的行

我想在我的 DataFrame 中创建一个新列,枚举其中的行。我的 DataFrame 中有几百万个元素,因此我需要在 Rust 引擎中处理它,所以机智...

回答 0 投票 0

选择合适的数据库用于分析数据

我们需要创建企业产品,需要选择分析数据的存储选项,最初数据将为 tb(10-40tb),但在未来几年可能会达到几个 PB。 要求: 高

回答 1 投票 0

ML/数据挖掘/大数据:编程和社区支持的流行语言

对于机器学习/数据挖掘,我们需要了解数据,这意味着您需要学习 Hadoop,它在 Java 中实现了 MapReduce(如果我错了请纠正我)。 Hadoop 还提供

回答 5 投票 0

将列中的数据和日期修改为行中的数据和日期

我在给定日期有多个包含产品数量的文件,但日期是在单独的列中而不是在行中提供的。 产品 01.01.2021 02.01.2021 产品 1 10 11 产品 2 11 12 这...

回答 1 投票 0

Load_libs already has been called error while installing hue on redhat?

我从github上克隆了hue 我将 python 版本导出到 3.8 并运行 make apps 它运行良好,直到最后,但最后在运行诸如...python /build/env/bin/hue --migration 之类的 hue 命令时,它给出了

回答 0 投票 0

无法使用 C 中的邻接表运行具有超过 100 万个顶点的图形

我想使用邻接表创建一个具有 2-3 百万个顶点的图。输入是随机创建的。当我运行一个只打印出越来越多的边的版本时,它运行得很好......

回答 1 投票 0

忽略 None 类型对象的 numpy 的平均结果

A 有一个包含几个大 numpy 数组的列表。在此列表中,某些条目可能属于 None 类型。 我想计算所有数组的平均值,同时忽略 None 条目。我怎样才能实现

回答 0 投票 0

大数据集的数组索引

我有两个大数据集(A 和 B),每个数据集包含 200000 个图像文件,每个文件的形状为 (44000,44000)。数据类型是 unint16。 因此,如果读取了所有文件,它将是:(200000,44000,...

回答 0 投票 0

当共享主机上的文件节点用完时如何处理图像?

我有一个基本上是数字档案的网站,所以图像的数量在不断增长。我一直在使用共享主机,因为它方便、便宜,而且我没有足够的系统管理员知道……

回答 0 投票 0

PrestoDB 在查询数据方面是否普遍比 Cassandra 或 MongoDB 更快?

我需要通过 REST API 提供数十亿数据,我正在探索数据库选项来实现它。在研究过程中,我遇到了 PrestoDB,这是一种快速可靠的 SQL 数据分析引擎...

回答 0 投票 0

在 pyspark databricks 中显示大数据框

我试图在一个包含 50000 行的表中显示所有值,但出现错误: java.lang.OutOfMemoryError: Java 堆空间 有没有办法增加内存来避免这个问题? (道歉,如果这...

回答 1 投票 0

如何在 neo4j 中为关系添加属性?

我使用此代码使用纬度和经度获取两点之间的距离,我想使用此返回值作为两个节点(酒店和我)之间的关系属性 代码://///// 男...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.