bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何更新 MarkLogic 中非常大的文档的 XML 集合?

我正在 MarkLogic 中处理一个大型 XML 文件——大约 50MB,长 700,000 行。该任务涉及使用 XQuery 模块添加和删除特定集合。以前,我使用 xdmp:invoke-

回答 1 投票 0

如何从Python中具有2000万行的特定列中删除重复项

我想从一个大的 csv 中删除重复项。我有这个 csv 格式的数据 client_id;性别;年龄;专业;addr_cntry;NAZOKRESU;prijem_AVG_6M_pasmo;cont_id;main_prod_id;bal_actl_am_pasmo 第388章...

回答 3 投票 0

在没有 pandas 的情况下连接大型 csv 文件

我想连接400个具有相同列数但列名不同的csv大文件 例如 文件#1 ID 101意思是 a1 2 a2 6 文件#2 ID 202 意思是 a1 3 a2 2 预期结果...

回答 2 投票 0

高效获取滑动窗口序列(大数据集)

我存储的数据集只是DNA序列的坐标。 df: chr 开始停止标签 字符1 9000 9100 1 字符1 8803 8903 1 字符1 8903 9000 0 我的目标是...

回答 1 投票 0

如何通过安全连接在整个 nginx 中运行 NiFi

我有 NiFi,通过 Keycloak 进行 OpenId 身份验证。一切都很好。但又出现了一个额外的任务:通过 Nginx 访问 NiFi。我根据 NiFi 文档配置了一切,...

回答 1 投票 0

PySpark 中的嵌套 if 等效项是什么?

我是 pySpark 的初学者,我正在努力丰富一个数据框,该数据框从其他 2 个数据框执行查找,我想要实现的是: 这是一个例子: 传入路径 传出路径

回答 1 投票 0

按索引范围有效地将大型 CSV 文件拆分为较小的文件,无需将整个文件加载到 RAM 中

我有一个很大的 CSV 文件 (60GB),无法放入 RAM。第一列包含一个从 2000 到 2999 的排序索引,并且可以在行之间重复。我想把60GB的文件分成10个...

回答 1 投票 0

用于 AWS Glue 笔记本设置的 Delta Lake

我想在 AWS Glue 上设置 Delta Lake 格式,并使用 df.write.format("delta").mode("overwrite").save.(s3) 进行简单的 ETL 整理。(s3) 有人可以提供吗我...

回答 2 投票 0

当我导入库时,为什么我的代码给出错误“sklearn not Define”?

我的代码 // 将 numpy 导入为 np 将 pandas 导入为 pd 将 matplotlib.pyplot 导入为 pyplot 导入pickle作为pk 从sklearn导入线性模型 从 sklearn.utils 导入洗牌 从 matplotlib 导入 st...

回答 1 投票 0

如何理解DAG中的min/med/max

我想完全理解min/med/max信息的含义。 例如: 总扫描时间(分钟、中值、最大) 34m(3.1秒、10.8秒、15.1秒) 所有核心的平均扫描时间为 3...

回答 1 投票 0

Ruby + sidekiq - 执行和处理大数据的最佳解决方案

想象我们有 10k 个实体-x。对于每个实体 x,我们应该进行异步 api 调用。每个 api 调用都会返回 100 个实体-y。那么我们总共有 10k * 100 = 1_000_000 个实体-y。对于每个实体 y,我们...

回答 1 投票 0

Ambari 2.0安装失败,“<urlopen error [Errno 111] Connection refused>”

尝试通过Ambari 2.0建立Hadoop集群,但在安装阶段失败。以下是来自其中一个数据节点的故障日志: stderr:/var/lib/ambari-agent/data/errors-416....

回答 2 投票 0

Spark UI:如何理解 DAG 中的最小值/中值/最大值

我想完全理解min/med/max信息的含义。 例如: 总扫描时间(分钟、中值、最大) 34m(3.1秒、10.8秒、15.1秒) 所有核心的平均扫描时间为 3...

回答 1 投票 0

Oracle Golden Gate Cassandra 处理程序

我有这种类型的配置: Oracle GoldenGate 大数据版本 21.9.0.0.3 Cassandra Handler 4.17.0 使用 OGG 直接通过 /DependencyDownloader/ 提供的脚本下载

回答 1 投票 0

Pandas 哈希表给出 key error:0 和 get_item

我试图获取两个 pandas 数据表的相同元素,对数据进行索引并将其合并。我将它用于大量数据(数百万)。第一个表 (df) 是常数,...

回答 1 投票 0

在 Python Pandas 中指定多索引标头时使用 usecols

我有一个基于两个标题的大量数据要读取,但是当我使用多索引方法时,我无法在pandas数据框中使用“usecols”。 当我使用时 df = pd.read_csv(文件, 分隔符=' ', h...

回答 1 投票 0

如何在Flink 1.13.5中构建ActorSystem?

这就是我在 Flink 1.8.5 中构建 ActorSystem 的方式。 公共静态 ActorSystem createNewActorSystem() 抛出异常 { String ip = HostPortUtil.getLocalIp(); 配置配置=新

回答 1 投票 0

在 Spark 中明智地获取上一个值分区

我有一个输入表,其中包含 orderid 、 range 和 value1 、 value2 和 value3 。 我想根据 orderid 和范围创建 3 个新列 previousvalue1、previousvalue2、previousvalue3。这是...

回答 1 投票 0

比较bigQuery中两种类型的数据

我们有一个非常大的数据集。我需要获取从源属性映射到 json 中规范化属性的所有值。归一化和源之间的关系是,如果

回答 1 投票 0

Spark 流式或批处理

我正在尝试构建一个应用程序,我需要偶尔读取另一个应用程序放置的文件,每天一次或两次。我必须创建一个 Spark ETL 来监听这个文件夹。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.