aws-glue-spark 相关问题


将 AWS Glue 连接到本地 MySQL 时出现问题,是 AWS VPC 吗?

我在 AWS 外部托管的私有 Ubuntu 实例上运行 MySQL。我的 S3 存储桶中有几个 CSV 文件,我想使用 AWS Glue ETL 将其加载到我的 MySQL 数据库中。 我其实在关注...


AWS Glue 错误 ModuleNotFoundError:没有名为“pyodbc”的模块

我想使用 python 脚本连接到 Microsoft SQL Server,该脚本将在 AWS Glue 上执行。我在安全配置->脚本库->作业参数(可选)中添加了作业参数...


Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...


无法在 AWS datalake/glue UI 中查看表

显示已创建表格的图像。 (爬虫快照) 即使爬网程序日志指出 - 已创建 2 个表,也无法在 AWS datalake/glue UI 中的数据库选项卡下查看表。 2020-09-...


如何在 Step Function 中包含 AWS Glue 爬网程序

这是我的要求: 我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。 问题: 如何将 Crawler 添加为第一个状态。参数是什么...


AWS CloudWatch Logs 未创建

我正在尝试使用 AWS Glue 运行 ETL 作业,将数据从 Redshift 获取到 S3。 当我运行爬网程序时,它成功连接到 Redshift 并获取架构信息。相关日志已创建...


Glue 数据库存在,但在数据目录中不可见

我在 AWS Glue 服务中偶然发现了一个奇怪的问题。我手动创建了一个数据库,然后将其删除。现在,当我尝试再次创建具有相同名称的数据库时,我得到以下信息: 然而,有一个...


从 Java 下载和上传 AWS Glue ETL 的 ETL 作业

有人可以告诉我如何使用 Java API 下载或上传作业吗? 我尝试搜索 SDK 或 REST API 来下载作业,但没有找到。 有一个API可以删除作业,...


如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?

我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...


Spark中同规格硬件上本地处理和集群处理有什么区别?

本地模式 vs 集群模式 我是一个刚刚使用EMR的新手。 我正在使用 AWS EMR。 有主节点、核心节点、任务节点。 为什么要使用多核/任务?我不能只用一个吗?难道是……


Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时,我看到以下内容


Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别?每种方法的用例是什么?


kedro ipython,如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。 首先,我按照此处所述配置了 Spark 会话。 然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...


在 Spark 的作业之间移动执行器的开销?

我正在阅读一篇有关 Spark 作业调度的论文,我对他们对 Spark 的概述感到困惑: Spark作业由一个DAG组成,其节点是作业的执行阶段。每个阶段代表...


将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件,所以我首先将excel文件读入pandas数据帧,然后尝试将pandas数据帧转换为spark数据帧,但我得到了...


写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......


如何在intellij中设置和运行scala-spark?

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时,出现以下错误: 线程“main”java.lang 中出现异常。


将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中,以便在写出文件时使用。 (注意:不是当前工作目录,也不是


无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&


通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群(新的或旧的)设置集群日志传送。 我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...


Datadog 中的 AWS Cloudwatch 警报

查看 Datadog AWS 集成文档,我发现提到 AWS 警报可以流式传输到 Datadog 中。据说您可以选择两种不同的方法发送AWS CloudWatch ...


使用 Nodejs18 运行时将 `@aws-sdk/client-bedrock-runtime` 导入 AWS Lambda 函数

我正在尝试使用 NodeJs18 运行时将 @aws-sdk/client-bedrock-runtime 导入到 AWS Lambda 函数中。 该软件包应该可用,因为根据 AWS 文档,“对于 Node.js 版本......


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null,而它应该返回 'a...


在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目,我需要在两个不同的集群上运行作业,两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡


除了 kotlin 中的 AWS cognito 之外,还有其他类似 cognito 的 AWS 方法可以用来登录吗?

我正在使用AWS appsync,我还将使用AWS进行登录。顺便说一下,我对AWS不是很熟悉,如果我用错了术语,请原谅我。有一种用于用户登录和认知的 AWS 认知方法


如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。 默认情况下,当您使用


在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...


使用 @aws-sdk/client-sqs npm 包从 EKS 集群 pod 推送到 AWS SQS 时出错

我在 AWS EKS 集群中使用 @aws/client-sqs npm 包将消息推送到标准 SQS 队列并收到以下错误: CredentialsProviderError:169.254.170.23 不是有效的容器我...


将 localstack 与 Spring Cloud AWS 2.3 一起使用时出现未知主机

“ResourceLoader”与 AWS S3 可以很好地处理这些属性: 云: 亚马逊: s3: 端点:s3.amazonaws.com <-- custom endpoint added in spring cloud aws 2.3 creden...


AWS sts 在一个命令中承担角色

要在 CLI 中承担 AWS 角色,我执行以下命令: aws sts 假设角色 --role-arn arn:aws:iam::123456789123:role/myAwesomeRole --role-session-name test --region eu-central-1 这给...


AWS EMR 集群中元数据的 AWS 粘合数据目录

我们计划使用AWS EMR集群来处理json和parquet文件。我有一个基本问题,我们真的需要 aws 数据目录来处理存储在 S3 中的 json 和 parquet 文件...


将架构从一个 AWS RDS 移动到另一个

我需要将架构及其对象从一个 AWS RDS 移动到另一个 AWS RDS 数据库。 我过去曾使用过 AWS 架构转换工具 (SCT)。 有没有更好的方法或者我正在做的事情...


有 aws dynamodb 的开源替代品吗?

我想从aws迁移到私有IDC。 aws dynamodb 服务应替换为一些数据库。 我希望 dynamodb 替代方案可以与当前代码兼容或者只是做一些...


AWS Lambda 测试时出现关键错误。 API网关POST方法显示未找到消息

我正在尝试使用 AWS Lambda、AWS API Gateway、Amazon SNS 和 AWS Dynamodb 构建无服务器联系表单。我有一个网页,将姓名、电子邮件和电话号码作为表单输入。我是...


从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


Databricks Spark:java.lang.OutOfMemoryError:GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业,它以 15 分钟的间隔执行,因此在成功执行三到四次之后...


无法验证我的 ECR 的 AWS 凭证

我已经安装了最新版本的 aws-cli-2 和 docker,并运行了“aws configure”并输入了我的访问密钥和秘密密钥。我还验证了 aws.config 是正确的并且


如何使用诗歌从 test.pypi.org 安装软件包?

我想在我的项目中使用包的预发布版本(https://test.pypi.org/project/delta-spark/2.1.0rc1/)。 我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢? 换句话说...


我在安装 pyspark 时遇到错误,如何修复它?

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至


JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。 数据集 df = Spark.read().


liip_imagine 使用 aws s3 生成错误的缓存 url(liip_imagine、vich_uploader、flysystem)

我目前在 liip_imagine 的配置上遇到问题。 我的设置: 交响乐6.4 vichuploader 2.3 利匹马嗪 2.12 联赛/飞行系统 aws/aws-sdk-php 我首先用fly安装了vichuploader...


将 Node.js 后端连接到 AWS RDS MySQL 数据库时出现问题

你好吗? 我在将 Node.js 后端连接到 AWS RDS MySQL 数据库时遇到问题。我从 Digital Ocean 迁移到 AWS,它在 Digital Ocean 中运行得很好。然而,mig之后...


将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧,类似于下面的链接: 将 FASTQ 文件读入 Spark 数据帧 我到处搜索,但找不到可行的选择。 电流...


从托管商将子域添加到 AWS Route 53

我的托管商中有一个工作域,我想在 AWS amplify 中部署 React 应用程序,所以我不想将整个域指向 AWS,而是想从托管中指向像 app.domain.com 这样的子域...


将 OpenAI Python 依赖项导入 AWS Lambda 失败

我正在尝试将 OpenAI Python 库添加到我的 AWS Lambda 函数中。我尝试按照本指南中所述通过 AWS Lambda Layers 添加它们。然而,当执行我的代码时,添加了这个l...


使用单个 API 调用检查 aws s3 存储桶中是否存在 10 个对象

我正在使用 javascript AWS SDK 限制条件: 我不需要这 10 个对象的内容,只想知道它们是否存在 我想为 AWS S3 创建一个 API


HttpMediaTypeNotSupportedException:从 AWS Lambda 运行 SpringBoot REST 应用程序时不支持内容类型“application/octet-stream”

我正在尝试在 AWS Lambda 中运行 Spring Boot 应用程序(例如,各种示例使用与 https://www.baeldung.com/spring-boot-aws-lambda 基本相同的方法 - 只需复制代码和...


AWS 证书管理器无法在 godaddy 域中工作

这是一种了解 aws 域如何工作的实验 AWS证书管理器看起来不错,但没有显示https, 请注意,我没有更改 godaddy 中的名称服务器,或者我没有碰过


© www.soinside.com 2019 - 2024. All rights reserved.