databricks 相关问题

有关Databricks统一分析平台的问题

Azure devops Databricks Terraform“无法配置默认凭据”

我正在尝试创建一个版本,它可以对 terraform 发挥一些魔力,但当我尝试应用更改时我陷入困境。 当我从桌面推送它时,它工作正常,但我使用 az 的托管身份来完成它......

回答 1 投票 0

尝试通过 Hashicorp 边界会话连接 Databricks Warehouse 时出错

我正在尝试通过 Hashicorp 边界会话连接 Databricks Warehouse 我已经在 Hashicorp Boundary 上为 Databricks Warehouse Host 创建了主机,并启动了一个会话来连接到它。 当我尝试...

回答 1 投票 0

有没有一种方法可以按数据进行分区/分组,其中每组的列值总和低于限制?

我想对每组大小的行进行分区/分组<= limit for example, if i have: +--------+----------+ | id| size| +--------+----------+ | 1| 3| | 2| ...

回答 1 投票 0

Databricks - 不为空,但它不是 Delta 表

我在 Databricks 上运行查询: 如果存在则删除表 dublicates_hotels; 如果不存在则创建表 dublicates_hotels ... 我试图理解为什么我收到以下错误: SQL 统计错误...

回答 4 投票 0

使用databricks解析csv数据

有一个csv文件,内容如下(分割符为\u0001) 尝试以表格形式读取: 从读取文件中选择*( '{csv_file_path}', 格式=>'csv', 标题=>假, 九月=>“\u0001”...

回答 1 投票 0

动态联合 Pyspark 数据帧

我在湖中的文件被分成2个分区,partition_Continent和partition_Country。 我有一个 df_grouped 告诉我要使用哪个过滤器,例如,假设这给了我 2 条记录: 我已经

回答 1 投票 0

Databricks - 无法创建表关联位置不为空且也不是 Delta 表

我收到错误: 无法创建表('hive_metastore.MY_SCHEMA.MY_TABLE')。这 相关位置 ('dbfs:/user/hive/warehouse/my_schema.db/my_table') 不为空且 也不是 Delta 标签...

回答 1 投票 0

databricks 上的 pyspark 代码永远不会完成执行并挂在中间

我有两个数据框:df_selected和df_filtered_mins_60 df_filtered_mins_60.columns() 输出:[“CSku”,“start_timestamp”,“end_timestamp”] df_selected.columns()

回答 1 投票 0

存储帐户和元存储(Databricks)位于不同的数据中心?同地区

我在美国东部地区的 Azure 中部署了一个旧存储帐户和 databricks 应用程序。一个新的 databricks 应用程序已部署并迁移到 US EAST 2。但是它指向存储帐户...

回答 1 投票 0

使用 dbrx-instruct 估计 Databricks 中的令牌消耗和响应令牌计数

我试图了解如何使用 dbrx-instruct 估计 Databricks 中的令牌消耗和响应令牌计数。我想创建一个可以预测我将获得的代币数量的函数

回答 1 投票 0

需要将s3与DBT管道集成

我正在构建一个 DBT 数据转换管道,它需要从 s3 位置读取 parquet 数据并将输出再次写入另一个 S3 位置。 将会有哪些配置更改

回答 1 投票 0

具有 Google Ads API 身份验证的 Databricks

我想知道是否有人有过通过 Databricks 对 Google Ads API 进行身份验证的经验。 Google Ad Manager 文档指出应使用服务帐户创建 YAML 文件...

回答 1 投票 0

databricks 笔记本小部件重新创建使用缓存值问题

删除并重新创建 databricks 笔记本小部件不起作用。该机制被 btq-sort eval 笔记本 dbutils.widgets.text("widget_param", 'temp') widget_param = dbutils.wid...

回答 1 投票 0

Databricks Spark 抛出 [GC(分配失败)] 消息

我使用此代码来更新 new_df。想法是获取 date_updated 和停止时间之间的所有记录,并为它们分配一个数字,我将在后续步骤中在分组中使用该数字。所以基本上分配 s...

回答 1 投票 0

Python/PySpark - 以编程方式将 json_string 列发送到 REST API

我有一个数据帧,我使用 Spark Structured Streaming .readStream() 进行流式传输: ID json_数据 123 {颜色:“红色”,值:“#f00”} 125 {颜色:“蓝色”,值:“...

回答 1 投票 0

Azure Databricks 语句执行 API:如何克服“Azure 存储请求未授权”错误

我正在尝试通过 C# .NET 应用程序中的语句执行 API 查询 Azure Databricks delta Lake。这是应用程序代码: 使用系统; 使用 System.Net.Http; 使用 System.Text;...

回答 1 投票 0

为什么减少分区数量可以防止由于序列化结果尺寸过大而导致 StageFailure?

我正在尝试在数据块上生成大型数据框的随机排序版本。 我的首选代码是在数据帧上使用 .orderBy(rand()) 。 然而,这似乎会触发 SparkException...

回答 1 投票 0

将 Dataframe 写入 Unity Catalog 外部表

我有一个名为 test.dummy 的统一目录表。我查询并修改数据如下 df=spark.sql("从`test`.dummy中选择*") df=df.where(col("姓氏")=="史密斯")...

回答 1 投票 0

使用databricks-cli在Databricks中创建一个新集群

我正在尝试使用 databricks-cli 在 Azure 上的 Databricks 中创建一个新集群。 我正在使用以下命令: databricks 集群创建 --json '{ "cluster_name": "template2", "spark_version":...

回答 4 投票 0

动态创建并显示ipywidgets,在databricks笔记本中失败

目标:ipywidgets 数组,可以通过单击 UI 上的按钮来扩展。 导入 ipywidgets 作为小部件 从 IPython.display 导入显示 # 跟踪默认和动态添加

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.