amazon-athena 相关问题

Amazon Athena是一种针对存储在Amazon S3上的数据运行SQL查询的服务。 Amazon Athena是Amazon Web Services（AWS）的一部分。

使用 Glue + Delta Lake 在 S3 中创建 Delta 表会创建位置错误的glue 目录表

我正在使用 Delta Lake 框架使用 Glue 创建 ETL 作业。示例演示数据定义为：数据 = {'访客': ['foo', 'bar', 'baz'], ‘id’：[1,2,3], 'B': [1, 0, 1], ...

amazon-s3 aws-glue amazon-athena delta-lake

回答 1 投票 0

如何在EC2中从AWS Athena获取数据？

我是AWS的初学者。我的客户允许我访问 EC2 实例，并允许我使用 Athena 访问一些表。这些表位于 AWSDataCatalog 中。我没有太多关于s的信息...

amazon-web-services amazon-athena

回答 1 投票 0

Athena/Trino/Presto 代码使用自定义行分隔符解析文本文件

我想使用 Trino/Presto 代码解析纯文本文件中的一些日志文件，其中记录跨越多行。我的数据如下所示：每条记录有多行，每行有一个 va...

amazon-athena presto text-processing trino

回答 2 投票 0

AWS Athena 字符串，带有 ddmmyyyy 日期时间

我的 athena 表中有 2 列，例如 20230501 和 183434 值。每行都有不同的值。我想要一个日期类型列 2023-05-01 或用 / 分隔，只要它...

sql amazon-web-services amazon-athena

回答 1 投票 0

如何使用 Lake Formation 与外部帐户共享表

我需要与外部帐户共享在 Glue 中创建的表。实际上，这看起来很简单，但由于某种原因，共享表没有显示在目标帐户的表列表中。这里...

amazon-web-services amazon-athena

回答 2 投票 0

AWS Athena - 有没有办法让 Athena 不更新查询结果以供重用

所以我将 Athena 与 Java 结合使用，并使用查询重用 12 小时。然而，有时我们在 Athena 中获取新数据，我们希望有一种机制强制查询不使用保存的结果，而是使用...

amazon-web-services amazon-athena

回答 1 投票 0

用于 Athena 查询的 AWS Glue 爬网程序未显示我在 s3 存储桶中拥有的所有记录

我有一个 C# 应用程序，用于将审核记录记录到 Kinesis Firehose，以便将这些记录放入 S3 存储桶中。这是完美的，因为我可以看到 S3 存储桶中的文件。我正在使用动态部分...

aws-glue amazon-athena amazon-kinesis

回答 1 投票 0

为什么 Athena 对同一个文件进行 N 次调用？

我正在使用 Athena 查询 S3 存储桶，并使用 Athena 分区投影。这是我的存储桶结构：bucket-name/node=[A-Z0-9]{4}/date={yyyy}-{MM}-{dd}/{uuid}.parquet 例如：存储桶名称/

amazon-web-services amazon-s3 aws-glue amazon-athena

回答 1 投票 0

使用 AWS Glue 将 Cloudtrail 日志转换为 Parquet

在大规模情况下，CloudTrail (CT) 日志格式被证明效率低下，每天会产生超过 30 亿条记录。如此庞大的体积与 JSON 格式相结合，阻碍了 Athena 的性能。至

aws-glue parquet amazon-athena amazon-cloudtrail aws-cloudtrail

回答 1 投票 0

使用 Amazon Athena 查询常见爬网数据集中的 HTML 内容

我目前正在探索 Amazon S3 上托管的大量 Common Crawl 数据集，并尝试使用 Amazon Athena 查询该数据集。我的目标是在 ...

python amazon-web-services web-crawler amazon-athena common-crawl

回答 1 投票 0

从 JSON 值数组创建扁平化数组 Athena

假设我的数据中有以下 json 变量数组：宠物 --- [{“类型”：“狗”，“名称”：“fido”}，{“类型”：“猫”，“名称”：“

sql amazon-web-services amazon-athena presto trino

回答 1 投票 0

每次新文件替换新文件时，AWS Glue 都会创建一个新的临时表

我们每天都会从第三方系统的 s3 存储桶中收到新文件。从这个 s3 存储桶中，我们将数据复制到另一个 s3 存储桶中。文件名为 results.parquet。我们每天都会进行 Glue Craw...

amazon-web-services aws-glue amazon-athena

回答 1 投票 0

从 Dynamodb 增量导出数据（例如：过去 24 小时）

我想进行一个批处理，仅从 Dynamodb 导出过去 24 小时（每晚）的 upserts 数据。它将在午夜正常运行，但会有一些延迟。我知道这些选项： #1) 扫描...

amazon-web-services amazon-s3 amazon-dynamodb aws-glue amazon-athena

回答 1 投票 0

从 Amazon DynamoDB 增量导出到 Amazon S3

我们需要对 Amazon DynamoDB 中的数据进行分析。由于由于 DDB 的分析限制，在 DDB 中执行此操作不是一个选择，因此根据我倾向于 DDB 的建议 -?...

amazon-web-services amazon-s3 amazon-dynamodb analytics amazon-athena

回答 3 投票 0

AWS Athena CTAS：压缩镶木地板文件并控制块大小（行分组）

我希望使用 AWS Athena 在我的 S3 数据湖中执行镶木地板压缩。基本上，我有许多小文件（例如每个 5-20 kb），我定期希望将它们组合成更大的文件（例如...

amazon-web-services amazon-athena

回答 1 投票 0

AWS Athena 分区投影 - 使用整数或日期表示 yyyymmdd

我在 S3 上有一个 Parquet 数据湖，结构如下： s3://bucket/deviceid/table_x/20230102/xyz.parquet 在这里，我使用分区结构 yyyymmdd。在设置我的桌子时，我想添加 '

amazon-web-services aws-glue amazon-athena

回答 1 投票 0

通过 http 标头搜索 Athena AWS WAF 日志

我已将 AWS WAF 日志记录设置到 S3，并按照文档 (https://docs.aws.amazon.com/athena/latest/ug/waf-logs.html) 中所述创建了 Athena 表但是，http 标头存储为

amazon-web-services amazon-athena amazon-waf

回答 3 投票 0

用于压缩 parquet 表的 AWS Athena CTAS 会导致查询扫描所有数据

我在 S3 上有一个镶木地板数据湖，我希望从中进行查询。为了优化性能，我的目标是使用以下脚本定期压缩我的文件：导入boto3 导入日期时间导入数学来自 awsglue....

amazon-web-services aws-glue amazon-athena

回答 1 投票 0

AWS Athena 如何处理单行 JSON？

我目前正在使用 Athena 以及 Kinesis Firehose、Glue Crawler。 Kinesis Firehose 正在将 JSON 保存到单行文件，如下所示 {"name": "Jone Doe"}{"name": "Jane Doe"}{"name": "Jack Doe"} 乙...

aws-glue amazon-athena amazon-kinesis-firehose

回答 2 投票 0

如何使用 boto3 创建 apache 冰山表

我正在尝试使用 boto3 的glue API 创建一个 Iceberg 表。简单地告诉 TableType 为“ICEBERG”并不能做到这一点，因为当我尝试运行更新时仍然收到此错误不_支持...

boto3 amazon-athena iceberg

回答 1 投票 0

amazon-athena 相关问题

最新问题