有关Databricks统一分析平台的问题
Databricks是否具有结果缓存的概念?当我运行SQL查询时,它会将结果集缓存在某处以进行亚秒级访问吗?还是只有Delta Lake缓存?我找不到...
是否可以在spark的SELECT或WHERE语句中使用字符串?
我正在处理一些文本数据,并将它们转换为可解释的命令,这些命令将用作WHERE语句的参数,但是我得到了一个字符串,但我不知道如何使用它。例如...
我正在尝试将数据块中加载的R数据帧转换为Sparklyr数据帧,但是我认为通常使用的copy_to函数无法处理文件大小。我需要转换的文件...
是对z顺序优化进行重新聚类,还是Databricks中的手动过程,或者在后台运行的过程在插入数据后以异步方式对集群索引进行重新排序...
我目前正在探索由databricks开源的三角洲湖泊。我正在读取kafka数据,并使用delta lake格式将其写入流中。 Delta Lake在流式写入过程中创建了许多文件...
我目前正在使用Yelp的数据集,我的目标是找到一周营业的总时间。从数据中,我能够提取每天看起来像“ 9:0-0:0”的时间范围...
直接在Keras中使用Spark DataFrame(数据块)
我有一些文本希望与keras进行分类。我创建了一个接收文本并对其进行一些转换并最终对其进行热编码的管道。现在,我想通过...
Databricks上的Sparklyr-在具有许多NaN值的sparklyr数据帧上,按行平均取多列
我正在尝试为Sparklyr数据框创建最小值,最大值和均值列。我只想在计算中按行使用该大型数据框中的5列。列中有许多NaN值,...
我的Blob存储中有一个CSV文件。我要下载文件。奇怪的是,我实际上看不到文件。 CSV文件由Python作业创建,并转换为Scala数据框。 ...
我做了一个get请求并收到了正确的输出,但是现在尝试从外面提取路径,并且不确定从哪里开始。输出看起来像这样:{'objects':[{'object_type':'...
我有一些Python代码可以遍历文件并创建数据框(DF)。另外,我正在将Python DF转换为Spark DF。这很好。 #将python df转换为spark df并导出...
我在网上阅读过,您可以使用几种不同的方法将数据帧的内容保存到数据湖中的CSV文件中。我的数据框还不错,但是我似乎无法将其保存到CSV文件中。我...
我正在测试这段代码。 dbutils.fs.ls(“ / mnt / rawdata / 2019/01/01 / corp /”)对于一个文件夹来说效果很好,但是如果我尝试下面的代码,它将失败。 dbutils.fs.ls(“ / mnt / rawdata / 2019/01 / * / corp /”)...
我在Scala / Spark中:myDataframe .orderBy(“ date”).write .csv(...)生成的CSV为:part-00000-xxx.csv part-00001-xxx.csv part-00002-xxx .csv问题:您是否知道......>
为什么这个简单的SQL代码在Azure Databricks中不起作用?
我正在尝试使用以下SQL代码更改Azure Databricks中的表。我想向现有表'logdata'中添加一列,但未成功。更改表日志数据添加sli VARCHAR(...] >>
使用databricks-connect在python中连接到数据块时出错
我正在使用pycharm在Mac上使用databricks-connect,但是在完成配置并尝试运行databricks-connect测试后,出现以下错误,不知道是什么问题。我...
[databricks python在数据框中获取星期的结束日期
假设我在以下年份2019年2019年1 2019年的数据框2我想得到第1周的星期日和2年周的周日2019年1 20190106 2019 2 20190113 ...
如何将github项目从本地系统移到Azure Databricks社区?
我在本地计算机上有github项目。请注意,我的代码/数据目录中有很多文件。我想将所有文件移到我的Databricks社区帐户中。我该怎么办...
我正在尝试列出所有文件夹和子文件夹中的所有文件。我正在尝试将所有内容放入RDD或数据帧中(我认为这并不重要,因为它只是文件名和路径的列表)。我...
我正在尝试找到最有效的方法来遍历数据湖中的数千个文件,并合并所有与特定模式匹配的文件。我有成千上万个具有12种不同模式的文件。我是...