amazon-athena 相关问题

Amazon Athena是一种针对存储在Amazon S3上的数据运行SQL查询的服务。 Amazon Athena是Amazon Web Services(AWS)的一部分。

使用 Glue + Delta Lake 在 S3 中创建 Delta 表会创建位置错误的glue 目录表

我正在使用 Delta Lake 框架使用 Glue 创建 ETL 作业。示例演示数据定义为: 数据 = {'访客': ['foo', 'bar', 'baz'], ‘id’:[1,2,3], 'B': [1, 0, 1], ...

回答 1 投票 0

如何在EC2中从AWS Athena获取数据?

我是AWS的初学者。 我的客户允许我访问 EC2 实例,并允许我使用 Athena 访问一些表。 这些表位于 AWSDataCatalog 中。我没有太多关于s的信息...

回答 1 投票 0

Athena/Trino/Presto 代码使用自定义行分隔符解析文本文件

我想使用 Trino/Presto 代码解析纯文本文件中的一些日志文件,其中记录跨越多行。我的数据如下所示:每条记录有多行,每行有一个 va...

回答 2 投票 0

AWS Athena 字符串,带有 ddmmyyyy 日期时间

我的 athena 表中有 2 列,例如 20230501 和 183434 值。每行都有不同的值。我想要一个日期类型列 2023-05-01 或用 / 分隔,只要它...

回答 1 投票 0

如何使用 Lake Formation 与外部帐户共享表

我需要与外部帐户共享在 Glue 中创建的表。 实际上,这看起来很简单,但由于某种原因,共享表没有显示在目标帐户的表列表中。 这里...

回答 2 投票 0

AWS Athena - 有没有办法让 Athena 不更新查询结果以供重用

所以我将 Athena 与 Java 结合使用,并使用查询重用 12 小时。然而,有时我们在 Athena 中获取新数据,我们希望有一种机制强制查询不使用保存的结果,而是使用...

回答 1 投票 0

用于 Athena 查询的 AWS Glue 爬网程序未显示我在 s3 存储桶中拥有的所有记录

我有一个 C# 应用程序,用于将审核记录记录到 Kinesis Firehose,以便将这些记录放入 S3 存储桶中。这是完美的,因为我可以看到 S3 存储桶中的文件。 我正在使用动态部分...

回答 1 投票 0

为什么 Athena 对同一个文件进行 N 次调用?

我正在使用 Athena 查询 S3 存储桶,并使用 Athena 分区投影。 这是我的存储桶结构:bucket-name/node=[A-Z0-9]{4}/date={yyyy}-{MM}-{dd}/{uuid}.parquet 例如:存储桶名称/

回答 1 投票 0

使用 AWS Glue 将 Cloudtrail 日志转换为 Parquet

在大规模情况下,CloudTrail (CT) 日志格式被证明效率低下,每天会产生超过 30 亿条记录。如此庞大的体积与 JSON 格式相结合,阻碍了 Athena 的性能。至

回答 1 投票 0

使用 Amazon Athena 查询常见爬网数据集中的 HTML 内容

我目前正在探索 Amazon S3 上托管的大量 Common Crawl 数据集,并尝试使用 Amazon Athena 查询该数据集。我的目标是在 ...

回答 1 投票 0

从 JSON 值数组创建扁平化数组 Athena

假设我的数据中有以下 json 变量数组: 宠物 --- [{“类型”:“狗”,“名称”:“fido”},{“类型”:“猫”,“名称”:“

回答 1 投票 0

每次新文件替换新文件时,AWS Glue 都会创建一个新的临时表

我们每天都会从第三方系统的 s3 存储桶中收到新文件。从这个 s3 存储桶中,我们将数据复制到另一个 s3 存储桶中。文件名为 results.parquet。我们每天都会进行 Glue Craw...

回答 1 投票 0

从 Dynamodb 增量导出数据(例如:过去 24 小时)

我想进行一个批处理,仅从 Dynamodb 导出过去 24 小时(每晚)的 upserts 数据。它将在午夜正常运行,但会有一些延迟。 我知道这些选项: #1) 扫描...

回答 1 投票 0

从 Amazon DynamoDB 增量导出到 Amazon S3

我们需要对 Amazon DynamoDB 中的数据进行分析。由于由于 DDB 的分析限制,在 DDB 中执行此操作不是一个选择,因此根据我倾向于 DDB 的建议 -?...

回答 3 投票 0

AWS Athena CTAS:压缩镶木地板文件并控制块大小(行分组)

我希望使用 AWS Athena 在我的 S3 数据湖中执行镶木地板压缩。基本上,我有许多小文件(例如每个 5-20 kb),我定期希望将它们组合成更大的文件(例如...

回答 1 投票 0

AWS Athena 分区投影 - 使用整数或日期表示 yyyymmdd

我在 S3 上有一个 Parquet 数据湖,结构如下: s3://bucket/deviceid/table_x/20230102/xyz.parquet 在这里,我使用分区结构 yyyymmdd。 在设置我的桌子时,我想添加 '

回答 1 投票 0

通过 http 标头搜索 Athena AWS WAF 日志

我已将 AWS WAF 日志记录设置到 S3,并按照文档 (https://docs.aws.amazon.com/athena/latest/ug/waf-logs.html) 中所述创建了 Athena 表 但是,http 标头存储为

回答 3 投票 0

用于压缩 parquet 表的 AWS Athena CTAS 会导致查询扫描所有数据

我在 S3 上有一个镶木地板数据湖,我希望从中进行查询。 为了优化性能,我的目标是使用以下脚本定期压缩我的文件: 导入boto3 导入日期时间 导入数学 来自 awsglue....

回答 1 投票 0

AWS Athena 如何处理单行 JSON?

我目前正在使用 Athena 以及 Kinesis Firehose、Glue Crawler。 Kinesis Firehose 正在将 JSON 保存到单行文件,如下所示 {"name": "Jone Doe"}{"name": "Jane Doe"}{"name": "Jack Doe"} 乙...

回答 2 投票 0

如何使用 boto3 创建 apache 冰山表

我正在尝试使用 boto3 的glue API 创建一个 Iceberg 表。简单地告诉 TableType 为“ICEBERG”并不能做到这一点,因为当我尝试运行更新时仍然收到此错误 不_支持...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.