bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何使用 Apache Sedona 将 parquet 格式数据框中的纬度和经度列转换为点类型(几何)?

我有 100 TB 的 parquet 格式的数据。该数据有很多列,包括纬度和经度列。我想使用 Apache Sedona 将这些列转换为点类型列(

回答 1 投票 0

GeoMesa Accumulo 自定义迭代器

我想创建一个自定义迭代器并使用 GeoTools API 使用它。 目前,我正在使用 DataStore 和 SimpleFeatures 对象检索数据,并尝试找到一种调用自定义迭代器的方法...

回答 1 投票 0

Apache NiFi:在 UI 上默认删除用户名和密码登录

我目前正在设置 NiFi,我注意到作为版本 1.14.0 版本的一部分,默认情况下我们启用了安全功能,需要用户名和密码才能访问 UI....

回答 3 投票 0

如何在大型数据库上优化 whereHas 的性能?

这是我的代码:这个查询太慢了,当我运行它时,我的 MySQL 服务器崩溃了。 ->when($this->search, 函数 ($query) { 返回 $query->where(函数 ($query) { $que...

回答 1 投票 0

如何在循环函数(大数据集)中使用 rowMeans 函数计算项目中的新变量?

我需要你的帮助,因为我有一个关于疾病的大数据集(宽格式)。因此,我有 54 种不同的疾病,每种疾病都有 18 个问题(数据嵌套在疾病和参与者中)。 一个...

回答 1 投票 0

为什么 bigQueryML 的转换子句不支持 ML.NGRAM?

我正在使用以下查询来创建模型,但编辑器抱怨转换子句中不支持 ML.NGRAM。 创建或替换模型 `singular-hub-291814.movie_sentiment.my...

回答 1 投票 0

大数据集如何将宽数据转换为长数据格式?

我正在进行一项关于 54 种疾病的横断面在线研究,并且有 10 个变量/列作为参与者的背景信息,然后参与者被随机分配到一组 9 个不同的...

回答 1 投票 0

Google Big Query:SQL 请求长度限制

我有一个关于 GBQ 以及一次找到大量行的可能性的问题。我的 GBQ 表包含 3 亿行和 50 列(例如品牌、型号、颜色)。另外,我有一个 70K 行的 CSV 文件,其中只有

回答 1 投票 0

MariaDB / MySQL 上的计数(*)极其缓慢

运行 EXPLAIN SELECT COUNT(*) FROM 活动显示它计划使用二级索引,并且只有一列 int 和 keylen 为 5。操作需要 2 分钟到 6 分钟不等,偶尔发生

回答 1 投票 0

将非常大的表包含到代码中的正确方法是什么? С++

我的代码中有非常大的哈希表,它们用于计算。现在这两个表是一个包含 5,000,000 个 float 类型的数组。可能会有更多的桌子,尺寸更大。 当我加入...

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

使用Python在地图上进行交互式大2D点云数据可视化

我有一个2D点云数据时间序列。数据的形状是[N,T]。 N是一个很大的数字(百万),T是2D点云图像的数量,一般小于300。我也有

回答 1 投票 0

从 scala 中的 CSV 文件加载时,我需要从数据框中跳过三行

我正在将 CSV 文件加载到数据框中,我可以做到这一点,但我需要跳过文件中的前三行。 我尝试了 .option() 命令,将 header 设置为 true,但它忽略了唯一的...

回答 4 投票 0

如何将JSON格式的大数据发送给GEMINI请求分析?

导入路径库 导入 json 导入文本换行 将 google.generativeai 导入为 genai 从 IPython.display 导入显示 从 IPython.display 导入 Markdown def to_markdown(文本): 文本 = 文本.repla...

回答 1 投票 0

Python 中检索日志属性的最有效方法 |用逗号分隔

下面,我粘贴了我们不断收到的日志(流式传输)。我需要提取并解析它们。 Log1 =“2024-04-03T09:51:17+0000 logType,xyz=设备1,xyz1=HR,操作=允许,

回答 2 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时,我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

回答 1 投票 0

Rsync 性能 - 同步单个大文件与同步多个小文件

我正在使用 rsync 同步许多小文件(每个 4.5 MB)。我使用的 bwlimit 为 18000。我将执行批量 rsync 命令,以便, rsync -v 目标主机:文件 1 目标主机:文件 2 目标主机:文件 3

回答 1 投票 0

针对大数据的高效 Python 排序

我目前正在开发一个项目,该项目涉及在Python中有效地对大型数据集进行排序。我尝试使用内置的排序()函数,但我注意到它没有执行最佳...

回答 1 投票 0

如何使用 matplotlib 可视化可读的大数据集?

当尝试用Python可视化大数据集时,绘图和日期变得不可读。 如何保证数据始终保持可读? 欢迎所有解决方案,包括使用其他包...

回答 1 投票 0

如何创建presto资源计算器

嗨想要为我组织的不同团队创建一个 presto 资源计算器来计算集群 CPU 核心和内存需求 根据我的理解,以下是德...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.