bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何在 React 中使用大型 json 文件?

在我的 React 项目中,我有一个 350 MB 的 json 文件,在执行过滤操作的表中使用该文件。我应该以什么方式将其从服务器中拉出,或者应该将其静态保持在反应状态?什么...

回答 1 投票 0

数据库结构/文件格式可持久保存 100TB 表并支持在 Spark SQL 中使用谓词进行高效数据跳过

我正在优化 Spark SQL ETL,以频繁地从 S3 上的 1000 亿行、100TB parquet 格式表“event_100B”中选择 0.1% 的数据。 表 event_100B 包含唯一键列 EventId (32...

回答 1 投票 0

Aws Athena SQL 查询在 Apache Spark 中不起作用

我的查询在 Athena 中工作,但在 Spark SQL 中不起作用。 询问- 将 cte 作为 ( 选择年份(日期)作为年份,计数(*)作为总计,计数(col1)作为 col1_not_null,计数(col2)作为 col2_not_null 来自

回答 1 投票 0

如何在 R 中使这个匹配函数更快?目前需要6-7天,这不切实际

我有两个数据文件要开始:一个是暴露个体的队列(100000 行),另一个是跨越 5 年时间段的一般人群队列(约 300 万行)。我正在尝试创建一个

回答 1 投票 0

我如何在 Gathr 中请求连接器

我是 ETL 开发人员,正在寻找 Gathr 中不可用的数据源连接器,并且我不知道如何请求新的连接器。现在,由于

回答 1 投票 0

scala.reflect.internal.MissingRequirementError:编译器镜像中找不到对象 java.lang.Object

我正在尝试使用 sbt 包构建 Spark 流应用程序,我无法发现此错误的原因是什么。 这是错误的一部分 scala.reflect.internal.MissingRequirement...

回答 5 投票 0

在数据库中存储深层目录树

我正在开发一个桌面应用程序,它很像 WinDirStat 或 voidtools 的 Everything - 它映射硬盘驱动器,即从目录树中创建一个深度嵌套的字典。 桌面

回答 1 投票 0

如何从minio正确读取zarr文件?

我想从我的minio(s3)服务器读取一个大zarr文件,但是,在我改变了三种方法后,它们都崩溃了: 将 Hydrodata.configs.config 导入为conf # 方法一 # https://pastebin.com/vkM1M3VV

回答 1 投票 0

启用 kerberos 时是否可以禁用 Hadoop 纱线 PTR 检查?

我们有一个hadoop集群,当前在公共IP上运行。我们想要将集群 IP 更改为私有 IP 地址。所以它不能从互联网路由。但主要问题是当...

回答 1 投票 0

循环遍历列列表并丰富数据集

我有一个数据集,我想迭代列列表并使用两个新列(状态和消息)丰富数据集。 如果任何行、任何列为空,则状态应设置为 F...

回答 1 投票 0

RDD.aggregate() 如何处理分区?

我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示

回答 1 投票 0

PySpark 与 SQLalchemy,哪个更适合处理大数据?

我有一个包含大量数据(200Gb+)的三角洲湖,我需要使用可以在 Python 中运行 SQL 的东西来清除它。我不想直接清除.parquet文件,我想直接工作...

回答 2 投票 0

如何正确优化Spark和Milvus来处理大数据?

我有一个包含 2 列的 Spark 数据框:id 和向量。 向量列是一个包含 20,000 个元素长的浮点数的列表。 Dataframe 本身有 2,500,000 行长。 我使用 Spark-Milvus 连接器插入...

回答 1 投票 0

将数据加载到具有不同分区的新 BigQuery 表中

我一直在尝试将 BigQuery 转储从每日分区表加载到每小时分区表,但遇到以下错误: 我创建了一个每小时分区的新表,因为我们发现

回答 1 投票 0

作为一名大数据工程师如何进步?[已关闭]

作为一名在电信数据公司工作2年的大数据工程师,我有Flink、Spark、Hive SQL、Shell脚本等方面的经验。我希望得到一些建议...

回答 1 投票 0

大数据表的版本控制

我正在数据湖的顶部构建一个冰山表。这些表用于报告工具。我正在尝试找出控制这些表的版本/部署更改的最佳方法......

回答 2 投票 0

SQL WHERE 子句不适用于数组

我目前使用名为 retool 的工具从我的 bigquery 实例查询数据。问题是相当多的字段名称使用数组,而我在使用数组过滤字段名称时遇到了一些问题......

回答 1 投票 0

元数据错误:org.apache.thrift.transport.TTransportException

这个错误是什么意思? “元数据错误:org.apache.thrift.transport.TTransportException?” 在什么情况下会出现此错误? 我在创建表时遇到此错误,为什么...

回答 2 投票 0

是否有测试或函数可以对大数据集进行多重比较?

我有一个包含 2304 个值的大数据集:384 个不同的基因表达值,一式三份,针对 2 个不同的组(即不同的治疗)。我只想比较 2 之间相同的基因

回答 1 投票 0

如何优化laravel上的大数据处理?

我的任务是: “获取交易表,按交易日期对行进行分组并计算状态。此操作将形成统计数据,并将在页面上呈现”。 这是我的方法...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.