SO中文参考
首页
(current)
程序语言
c
java
python
c++
go
javascript
swift
c#
操作系统
linux
ubuntu
centos
unix
数据库
oracle
mysql
mongodb
postgresql
框架
node.js
angular
react-native
avalon
django
twisted
hadoop
.net
移动开发
android
ios
搜索
将 AWS Glue 或 S3 中的数据高效索引到 RDS
问题描述
投票:0
回答:1
我在 AWS Glue 中使用 PySpark 进行了一些大型 ETL 作业,将
.parquet
数据集输出到 S3 存储桶中。
我想将此数据(无论是直接来自 Glue 还是通过使用 S3 中的原始 parquet 文件通过其他方式)索引到 RDS 中。通常,作为一次性导入,这并不太困难,但这需要支持实时索引:
快速同步更改的数据
超低成本(某些数据集有 350MM+ 行,我不想调用 Lambda 函数 350k 次)
理想情况下仅同步新的或更新的行
我一直在考虑在 Glue ETL 作业中结合使用变更数据捕获和 JDBC 连接,但想知道是否有更高效或更快速的方法来做到这一点。
amazon-web-services
amazon-s3
jdbc
amazon-rds
aws-glue
1个回答
0
投票
一种方法可能是围绕代表数据年龄(例如处理日期)的键对镶木地板文件进行分区,并始终附加记录,从不更新或删除过去的记录。
执行此操作,您可以链接更新数据集的作业和仅对 RDS 或 ELK 中的最后更新进行索引的作业。
这样做,您将不会处理 350MM+ 的行,只会处理最后一个增量。
更新或删除将转化为在镶木地板文件中创建新记录。要选择特定记录,您必须选择最新的记录。
最新问题
在 PLSQL 中的文件夹中查找文件
flutter中的RiverPod可以存储图像吗?
如何向 TradingView 图表库添加多个时间分辨率(如 1D、1W、1M、全部)
G日历:搜索所有系列日期
如何在没有网站/隐私政策网址/服务条款网址的情况下使用 TikTok API?
声明一个要在所有函数中使用的变量
jdbc:DatabaseChangeListener 未显示事件更改
检查重复数据
从单词列表中查找所有彼此仅一个字母不同的单词的最快方法
StreamCorruptedException:无效类型代码:AC
向天蓝色地图添加标记
有没有办法用PIL来加速Save方法?
我可以更改此公式以跟踪开始日期和结束日期,而不是列中的日期列表吗?
如何阻止用户发送垃圾邮件?使用php和mysql
Excel:带有波形符的字符串上的 CountIf() 结果不一致
MongoDB 聚合查询与 Node.js 中的 where
材质 UI 列表项文本:主要文本溢出
C# VSTO Excel 2007 - 禁用隐藏/取消隐藏按钮
Ruby 库函数将 Enumerable 转换为 Hash
VBA中BeforeClose事件中调用保护函数
© www.soinside.com 2019 - 2024. All rights reserved.