bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

我正在 MarkLogic 中处理一个大型 XML 文件——大约 50MB，长 700,000 行。该任务涉及使用 XQuery 模块添加和删除特定集合。以前，我使用 xdmp:invoke-

xml query-optimization bigdata xquery marklogic

回答 1 投票 0

如何从Python中具有2000万行的特定列中删除重复项

我想从一个大的 csv 中删除重复项。我有这个 csv 格式的数据 client_id;性别;年龄;专业;addr_cntry;NAZOKRESU;prijem_AVG_6M_pasmo;cont_id;main_prod_id;bal_actl_am_pasmo 第388章...

python csv bigdata

回答 3 投票 0

在没有 pandas 的情况下连接大型 csv 文件

我想连接400个具有相同列数但列名不同的csv大文件例如文件#1 ID 101意思是 a1 2 a2 6 文件#2 ID 202 意思是 a1 3 a2 2 预期结果...

python r merge concatenation bigdata

回答 2 投票 0

高效获取滑动窗口序列（大数据集）

我存储的数据集只是DNA序列的坐标。 df： chr 开始停止标签字符1 9000 9100 1 字符1 8803 8903 1 字符1 8903 9000 0 我的目标是...

python pandas dataframe bigdata bioinformatics

回答 1 投票 0

如何通过安全连接在整个 nginx 中运行 NiFi

我有 NiFi，通过 Keycloak 进行 OpenId 身份验证。一切都很好。但又出现了一个额外的任务：通过 Nginx 访问 NiFi。我根据 NiFi 文档配置了一切，...

nginx bigdata apache-nifi

回答 1 投票 0

PySpark 中的嵌套 if 等效项是什么？

我是 pySpark 的初学者，我正在努力丰富一个数据框，该数据框从其他 2 个数据框执行查找，我想要实现的是：这是一个例子：传入路径传出路径

python pyspark bigdata

回答 1 投票 0

按索引范围有效地将大型 CSV 文件拆分为较小的文件，无需将整个文件加载到 RAM 中

我有一个很大的 CSV 文件 (60GB)，无法放入 RAM。第一列包含一个从 2000 到 2999 的排序索引，并且可以在行之间重复。我想把60GB的文件分成10个...

csv bigdata

回答 1 投票 0

用于 AWS Glue 笔记本设置的 Delta Lake

我想在 AWS Glue 上设置 Delta Lake 格式，并使用 df.write.format("delta").mode("overwrite").save.(s3) 进行简单的 ETL 整理。(s3) 有人可以提供吗我...

python amazon-web-services bigdata delta-lake

回答 2 投票 0

当我导入库时，为什么我的代码给出错误“sklearn not Define”？

我的代码 // 将 numpy 导入为 np 将 pandas 导入为 pd 将 matplotlib.pyplot 导入为 pyplot 导入pickle作为pk 从sklearn导入线性模型从 sklearn.utils 导入洗牌从 matplotlib 导入 st...

machine-learning scikit-learn error-handling runtime-error bigdata

回答 1 投票 0

如何理解DAG中的min/med/max

我想完全理解min/med/max信息的含义。例如：总扫描时间（分钟、中值、最大） 34m（3.1秒、10.8秒、15.1秒）所有核心的平均扫描时间为 3...

performance apache-spark apache-spark-sql bigdata spark-ui

回答 1 投票 0

Ruby + sidekiq - 执行和处理大数据的最佳解决方案

想象我们有 10k 个实体-x。对于每个实体 x，我们应该进行异步 api 调用。每个 api 调用都会返回 100 个实体-y。那么我们总共有 10k * 100 = 1_000_000 个实体-y。对于每个实体 y，我们...

ruby-on-rails ruby concurrency bigdata sidekiq

回答 1 投票 0

Ambari 2.0安装失败，“<urlopen error [Errno 111] Connection refused>”

尝试通过Ambari 2.0建立Hadoop集群，但在安装阶段失败。以下是来自其中一个数据节点的故障日志： stderr：/var/lib/ambari-agent/data/errors-416....

hadoop bigdata hortonworks-data-platform ambari

回答 2 投票 0

Spark UI：如何理解 DAG 中的最小值/中值/最大值

我想完全理解min/med/max信息的含义。例如：总扫描时间（分钟、中值、最大） 34m（3.1秒、10.8秒、15.1秒）所有核心的平均扫描时间为 3...

performance apache-spark apache-spark-sql bigdata spark-ui

回答 1 投票 0

Oracle Golden Gate Cassandra 处理程序

我有这种类型的配置： Oracle GoldenGate 大数据版本 21.9.0.0.3 Cassandra Handler 4.17.0 使用 OGG 直接通过 /DependencyDownloader/ 提供的脚本下载

oracle cassandra bigdata cassandra-3.0 oracle-golden-gate

回答 1 投票 0

Pandas 哈希表给出 key error:0 和 get_item

我试图获取两个 pandas 数据表的相同元素，对数据进行索引并将其合并。我将它用于大量数据（数百万）。第一个表 (df) 是常数，...

python pandas twitter bigdata

回答 1 投票 0

在 Python Pandas 中指定多索引标头时使用 usecols

我有一个基于两个标题的大量数据要读取，但是当我使用多索引方法时，我无法在pandas数据框中使用“usecols”。当我使用时 df = pd.read_csv(文件, 分隔符=' ', h...

python pandas dataframe csv bigdata

回答 1 投票 0

如何在Flink 1.13.5中构建ActorSystem？

这就是我在 Flink 1.8.5 中构建 ActorSystem 的方式。公共静态 ActorSystem createNewActorSystem() 抛出异常 { String ip = HostPortUtil.getLocalIp(); 配置配置=新

java bigdata apache-flink

回答 1 投票 0

在 Spark 中明智地获取上一个值分区

我有一个输入表，其中包含 orderid 、 range 和 value1 、 value2 和 value3 。我想根据 orderid 和范围创建 3 个新列 previousvalue1、previousvalue2、previousvalue3。这是...

sql apache-spark hadoop pyspark bigdata

回答 1 投票 0

比较bigQuery中两种类型的数据

我们有一个非常大的数据集。我需要获取从源属性映射到 json 中规范化属性的所有值。归一化和源之间的关系是，如果

google-bigquery comparison bigdata

回答 1 投票 0

Spark 流式或批处理

我正在尝试构建一个应用程序，我需要偶尔读取另一个应用程序放置的文件，每天一次或两次。我必须创建一个 Spark ETL 来监听这个文件夹。 ...

batch-file pyspark bigdata streaming etl

回答 1 投票 0

bigdata 相关问题

最新问题