bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

Clickhouse SummingMergeTree +大量ORDER BY字段

朋友们,项目中有一个这样的表: 创建表 events_1h ( `round_time` 日期时间, `dt` UInt8, `aa_id` UInt64, `bb_id` UInt64, `cc_id` UInt64, `cpu_architecture` 字符串, `浏览器名称`

回答 1 投票 0

渲染大型数据集的最佳图表库是什么?

我一直在尝试阅读不同的图表库,但我很难找到专注于大型数据集的图表库。我知道有很多不错的选择,但大多数......

回答 1 投票 0

如何在将大型 JSON 文件转换为 JSON 之前使用 AWSglueContext 对其进行拆分/分块?

我正在尝试使用 AWS Glue 将 20GB JSON gzip 文件转换为 parquet。 我已经使用 Pyspark 和下面的代码设置了一个作业。 我收到此日志警告消息: LOG.WARN:正在加载一个大的不可分割文件...

回答 2 投票 0

去年最后四个星期的数据未填充,即 W50,51,52 - SQL

我有一个代码,过去几个月我一直用它来获取数据,但是当新年到来时,我意识到它没有填充任何数据,因为它没有计算周数......

回答 1 投票 0

Scala 中带尾部的匹配案例

我是 Scala 新手,发现下面的代码很难理解。如果你们能用简单的语言向我解释 parseArguments 为“--config-path”做什么,那将会非常有帮助......

回答 1 投票 0

带有分区表的公共bigquery数据集

我正在寻找包含分区表的bigquery公共数据集的示例。 我搜索了 https://cloud.google.com/bigquery/public-data 但没有运气。

回答 1 投票 0

缺失数据的随机森林建模:寻求不需要插补或数据删除的包或方法

我有一个包含多个变量的数据集,其中包含缺失值,并且我不喜欢估算或丢弃它们。我有兴趣在处理错误时将随机森林模型拟合到这些数据......

回答 1 投票 0

flink-cdc 将我的所有数据从数据库流式传输到数据湖后,是否有更好的方法来检查数据丢失和不匹配的数据?

我有一个包含10TB数据的mysql数据库,我已经通过flink-cdc使用iceberg表格式将所有数据流式传输到s3。 我想检查是否有数据丢失,或者是否有不匹配...

回答 1 投票 0

在 R 中连接 Arrow 表,不会溢出内存或超过 Acero 的“关键数据字节”限制

我正在使用 R 和 Apache Arrow 处理大数据。我的数据分为两个数据集,称它们为: vals:一组经过 hive 分区的 parquet,每行包含一个 ID(长字符串)和数百个

回答 1 投票 0

PySpark - 如何对特定列执行操作?

我正在尝试对 df.summary() 数据帧执行舍入函数,不包括摘要列。到目前为止,我已经尝试使用 select() 和理解列表,例如 代码 df2 = df.select(*[圆形(列...

回答 1 投票 0

使用to_datetime转换大型CSV数据库中的混合日期格式时出现转换错误

我有一个大型 csv 合约数据库(2500 万行,大约 7 GB)。我需要过滤掉过期的合同,以减少进一步计算的大小。到期日期数组包含...

回答 1 投票 0

ЕPostgreSQL大表并行读取的高效方法

考虑这样一种情况:有一个非常大的表(高达几个 TB),并且由于某种原因应用程序想要完整扫描该表。应用程序上都有多个 CPU 核心...

回答 1 投票 0

使用 AWS S3 大型公共数据集

AWS 有多个可用的公共“大数据”数据集。有些数据免费托管在 EBS 上,而其他数据(例如 NASA NEX 气候数据)则托管在 S3 上。我发现了更多关于如何使用这些的讨论

回答 2 投票 0

我可以克隆 Gathr 中的现有管道吗?

我正在 Gathr 中创建一个管道,以使用多个处理器将数据从 JDBC 传输到 Kafka。现在我想复制现有的管道并在其间添加更多处理器。聚集吗

回答 1 投票 0

第一个列表中的每个对象根据属性值相等的条件与第二个列表中的对象匹配

想象一下我们的房屋数量有限。每个房子都有一个号码。每栋房子里住着一男一女。 我们为代表人员提供以下类别: 类人: def __init__(s...

回答 1 投票 0

需要比 MMDS 更好的解释 MapReduce 的通信成本模型

我正在浏览 MMDS 书籍,该书有一个同名的在线 MOOC。我无法理解主题 2.5 中提到的通信成本模型和连接操作计算,并且

回答 1 投票 0

从 JQ 输出 JSON 时包含任何对象的路径

我希望能够通过指定通配符查找从巨大(100GB+)JSON 文件中提取特定的 JSON 对象。 (虽然我的最终目标是拥有一个用于查找的路径类型字符串,但我非常乐意

回答 1 投票 0

python pandas df.loc 函数是否受数据帧大小的限制?它适用于小索引,但不适用于大索引

我有一个相当大的 3D 地图作为数据框(rawDF:1392640 行 x 3 列(名为:“X”、“Y”、“Z”))。我想访问 Y 点并分析相应的 X-Z 轮廓。 我正在使用 pandas (pd) df.loc

回答 1 投票 0

使用 pandas to_sql 忽略写入数据库时的错误行

我有一个相当大的数据集需要上传到数据库(在我的例子中是Postgres)。如果我使用块大小为 5000 的标准 to_sql,则会出现一些坏行,因为某些数据已损坏...

回答 1 投票 0

从 AMFI 网站提取每日共同基金资产净值数据并将其存储在 MongoDB 中

我想从AMFI网站下载所有方案的每日NAV(资产净值)并将其全部存储在MongoDB中。但使用我当前的代码,下载和pus花费的时间太长了近5天......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.