有关Databricks统一分析平台的问题
Azure devops Databricks Terraform“无法配置默认凭据”
我正在尝试创建一个版本,它可以对 terraform 发挥一些魔力,但当我尝试应用更改时我陷入困境。 当我从桌面推送它时,它工作正常,但我使用 az 的托管身份来完成它......
尝试通过 Hashicorp 边界会话连接 Databricks Warehouse 时出错
我正在尝试通过 Hashicorp 边界会话连接 Databricks Warehouse 我已经在 Hashicorp Boundary 上为 Databricks Warehouse Host 创建了主机,并启动了一个会话来连接到它。 当我尝试...
有没有一种方法可以按数据进行分区/分组,其中每组的列值总和低于限制?
我想对每组大小的行进行分区/分组<= limit for example, if i have: +--------+----------+ | id| size| +--------+----------+ | 1| 3| | 2| ...
我在 Databricks 上运行查询: 如果存在则删除表 dublicates_hotels; 如果不存在则创建表 dublicates_hotels ... 我试图理解为什么我收到以下错误: SQL 统计错误...
有一个csv文件,内容如下(分割符为\u0001) 尝试以表格形式读取: 从读取文件中选择*( '{csv_file_path}', 格式=>'csv', 标题=>假, 九月=>“\u0001”...
我在湖中的文件被分成2个分区,partition_Continent和partition_Country。 我有一个 df_grouped 告诉我要使用哪个过滤器,例如,假设这给了我 2 条记录: 我已经
Databricks - 无法创建表关联位置不为空且也不是 Delta 表
我收到错误: 无法创建表('hive_metastore.MY_SCHEMA.MY_TABLE')。这 相关位置 ('dbfs:/user/hive/warehouse/my_schema.db/my_table') 不为空且 也不是 Delta 标签...
databricks 上的 pyspark 代码永远不会完成执行并挂在中间
我有两个数据框:df_selected和df_filtered_mins_60 df_filtered_mins_60.columns() 输出:[“CSku”,“start_timestamp”,“end_timestamp”] df_selected.columns()
存储帐户和元存储(Databricks)位于不同的数据中心?同地区
我在美国东部地区的 Azure 中部署了一个旧存储帐户和 databricks 应用程序。一个新的 databricks 应用程序已部署并迁移到 US EAST 2。但是它指向存储帐户...
使用 dbrx-instruct 估计 Databricks 中的令牌消耗和响应令牌计数
我试图了解如何使用 dbrx-instruct 估计 Databricks 中的令牌消耗和响应令牌计数。我想创建一个可以预测我将获得的代币数量的函数
我正在构建一个 DBT 数据转换管道,它需要从 s3 位置读取 parquet 数据并将输出再次写入另一个 S3 位置。 将会有哪些配置更改
具有 Google Ads API 身份验证的 Databricks
我想知道是否有人有过通过 Databricks 对 Google Ads API 进行身份验证的经验。 Google Ad Manager 文档指出应使用服务帐户创建 YAML 文件...
删除并重新创建 databricks 笔记本小部件不起作用。该机制被 btq-sort eval 笔记本 dbutils.widgets.text("widget_param", 'temp') widget_param = dbutils.wid...
Databricks Spark 抛出 [GC(分配失败)] 消息
我使用此代码来更新 new_df。想法是获取 date_updated 和停止时间之间的所有记录,并为它们分配一个数字,我将在后续步骤中在分组中使用该数字。所以基本上分配 s...
Python/PySpark - 以编程方式将 json_string 列发送到 REST API
我有一个数据帧,我使用 Spark Structured Streaming .readStream() 进行流式传输: ID json_数据 123 {颜色:“红色”,值:“#f00”} 125 {颜色:“蓝色”,值:“...
Azure Databricks 语句执行 API:如何克服“Azure 存储请求未授权”错误
我正在尝试通过 C# .NET 应用程序中的语句执行 API 查询 Azure Databricks delta Lake。这是应用程序代码: 使用系统; 使用 System.Net.Http; 使用 System.Text;...
为什么减少分区数量可以防止由于序列化结果尺寸过大而导致 StageFailure?
我正在尝试在数据块上生成大型数据框的随机排序版本。 我的首选代码是在数据帧上使用 .orderBy(rand()) 。 然而,这似乎会触发 SparkException...
将 Dataframe 写入 Unity Catalog 外部表
我有一个名为 test.dummy 的统一目录表。我查询并修改数据如下 df=spark.sql("从`test`.dummy中选择*") df=df.where(col("姓氏")=="史密斯")...
使用databricks-cli在Databricks中创建一个新集群
我正在尝试使用 databricks-cli 在 Azure 上的 Databricks 中创建一个新集群。 我正在使用以下命令: databricks 集群创建 --json '{ "cluster_name": "template2", "spark_version":...
动态创建并显示ipywidgets,在databricks笔记本中失败
目标:ipywidgets 数组,可以通过单击 UI 上的按钮来扩展。 导入 ipywidgets 作为小部件 从 IPython.display 导入显示 # 跟踪默认和动态添加