bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

biglm - 错误：$ 运算符对于原子向量无效

我正在尝试在非常大的数据集（几百万行）上运行广义线性模型。然而，R 似乎无法处理分析，因为我不断收到内存分配错误（无法...

r out-of-memory bigdata ff

回答 1 投票 0

多次行动会引发失败

我是 Spark 新手。我在将 df 保存到 Hive 表的部分遇到了一些问题。 def insert_into_hive_table(df: DataFrame, table_name: str): # 用于调试 - 此操作正在运行...

apache-spark pyspark hive bigdata rdd

回答 1 投票 0

处理嵌套Json结构

假设我们有以下 json 结构： { “职位”：{ “节点”：“abc” } “提交内容”：{ “提交偏移量”：[ ...

java scala apache-spark apache-spark-sql bigdata

回答 1 投票 0

使用 pyspark 将数据提取到独立文件中以解决：Spark 缓冲区持有者大小限制问题

问题我遇到了与此相同的问题：Spark bufferholder size limit issues。我的代码是这样的： # 计算统计数据 stats = df.groupBy("EventType").agg( 大小（收集集（“

dataframe apache-spark pyspark apache-spark-sql bigdata

回答 1 投票 0

合并和重塑 3 个大型数据帧、处理重复项时遇到麻烦

我正在寻找合并和重塑 3 个表中的数据。我有 3 个表，大约有 250,000 行和 30 列。需要重塑以适应机器学习模型。这是原版...

python pandas machine-learning bigdata reshape

回答 0 投票 0

如何在 pyspark 中使用合并将 null 值替换为某个值

我有两个文件：-orders_renamed.csv，customers.csv 我使用完整的外部连接将它们连接起来，然后删除同一列（customer_id）。我想将“ord...”中的 null 值替换为“-1”

python pyspark apache-spark-sql bigdata pyspark-schema

回答 1 投票 0

Spark 无法删除临时目录

我正在尝试使用下面提到的命令从Windows 10中的cmd提交spark程序： Spark-submit --class abc.Main --master local[2] C:\Users rpitbh\Desktop\AmdocsIDE\workspace\Line_Count_Spark\

java apache-spark bigdata

回答 2 投票 0

如何在pysparK中定义半结构化文本文件的Schema

1 2013-07-25 11599,已关闭 2 2013-07-25 256,PENDING_PAYMENT 3 2013-07-25 12111，完成 4 2013-07-25 8827,已关闭 5 2013-07-25 11318，完成 6 2013-07-25 7130，完成 7 2013-07-25...

python pyspark apache-spark-sql bigdata pyspark-schema

回答 0 投票 0

Python Polars 有效枚举新列中的行

我想在我的 DataFrame 中创建一个新列，枚举其中的行。我的 DataFrame 中有几百万个元素，因此我需要在 Rust 引擎中处理它，所以机智...

python bigdata python-polars

回答 0 投票 0

选择合适的数据库用于分析数据

我们需要创建企业产品，需要选择分析数据的存储选项，最初数据将为 tb（10-40tb），但在未来几年可能会达到几个 PB。要求：高

database bigdata hbase analytics aggregation

回答 1 投票 0

ML/数据挖掘/大数据：编程和社区支持的流行语言

对于机器学习/数据挖掘，我们需要了解数据，这意味着您需要学习 Hadoop，它在 Java 中实现了 MapReduce（如果我错了请纠正我）。 Hadoop 还提供

java python hadoop machine-learning bigdata

回答 5 投票 0

将列中的数据和日期修改为行中的数据和日期

我在给定日期有多个包含产品数量的文件，但日期是在单独的列中而不是在行中提供的。产品 01.01.2021 02.01.2021 产品 1 10 11 产品 2 11 12 这...

sql-server excel csv pivot bigdata

回答 1 投票 0

Load_libs already has been called error while installing hue on redhat?

我从github上克隆了hue 我将 python 版本导出到 3.8 并运行 make apps 它运行良好，直到最后，但最后在运行诸如...python /build/env/bin/hue --migration 之类的 hue 命令时，它给出了

bigdata cloudera hue

回答 0 投票 0

无法使用 C 中的邻接表运行具有超过 100 万个顶点的图形

我想使用邻接表创建一个具有 2-3 百万个顶点的图。输入是随机创建的。当我运行一个只打印出越来越多的边的版本时，它运行得很好......

c bigdata adjacency-list graph-data-science

回答 1 投票 0

忽略 None 类型对象的 numpy 的平均结果

A 有一个包含几个大 numpy 数组的列表。在此列表中，某些条目可能属于 None 类型。我想计算所有数组的平均值，同时忽略 None 条目。我怎样才能实现

python numpy bigdata

回答 0 投票 0

大数据集的数组索引

我有两个大数据集（A 和 B），每个数据集包含 200000 个图像文件，每个文件的形状为 (44000,44000)。数据类型是 unint16。因此，如果读取了所有文件，它将是：(200000,44000,...

python numpy bigdata dask python-xarray

回答 0 投票 0

当共享主机上的文件节点用完时如何处理图像？

我有一个基本上是数字档案的网站，所以图像的数量在不断增长。我一直在使用共享主机，因为它方便、便宜，而且我没有足够的系统管理员知道……

php image-processing cloud bigdata shared-hosting

回答 0 投票 0

PrestoDB 在查询数据方面是否普遍比 Cassandra 或 MongoDB 更快？

我需要通过 REST API 提供数十亿数据，我正在探索数据库选项来实现它。在研究过程中，我遇到了 PrestoDB，这是一种快速可靠的 SQL 数据分析引擎...

database cassandra bigdata query-optimization presto

回答 0 投票 0

在 pyspark databricks 中显示大数据框

我试图在一个包含 50000 行的表中显示所有值，但出现错误： java.lang.OutOfMemoryError: Java 堆空间有没有办法增加内存来避免这个问题？（道歉，如果这...

pyspark out-of-memory bigdata large-data databricks-community-edition

回答 1 投票 0

如何在 neo4j 中为关系添加属性？

我使用此代码使用纬度和经度获取两点之间的距离，我想使用此返回值作为两个节点（酒店和我）之间的关系属性代码：/////// 男...

python neo4j bigdata spring-data-neo4j

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.