有关Databricks统一分析平台的问题
如何根据存储在Cassandra中的结果使用spark为多家公司执行累积平均值?
我需要得到avg并计算给定的数据帧,并且需要从每个公司的Cassandra表值获得先前存储的avg和count。然后需要计算平均值和计数并坚持回来......
数据科学技术的新手。目前正致力于阅读SAS文件(.sas7dbat)。能够使用以下内容读取文件:SAS7BDAT('/ dbfs / mnt / myMntScrum1 / sasFile.sas7bdat')作为f:用于f中的行:...
我有很多结构如下的JSON。 {“p1”:“v1”,“p2”:“v2”,“p3”:“v3”,“modules”:“{\”nest11 \“:\”n1v1 \“,\”nest12 \“:\ “n1v2 \”,\“nest13 \”:{\“nest21 \”:\“n2v1 \”}}“} ...
如何在使用pyspark + databricks时绘制相关热图
我在databricks学习pyspark。我想生成一个相关热图。假设这是我的数据:myGraph = spark.createDataFrame([(1.3,2.1,3.0),(2.5,4.6,3.1),...
使用pyspark,spark + databricks时,如何向数据框添加完全不相关的列
假设我有一个数据框:myGraph = spark.createDataFrame([(1.3,2.1,3.0),(2.5,4.6,3.1),(6.5,7.2,10.0)],...
我正在尝试清理并重新创建databricks delta表以进行集成测试。我想在devops代理上运行测试,所以我使用的是JDBC(Simba驱动程序),但它说声明类型“DELETE”不是......
在databricks中运行时,jupyter notebook不显示地理空间图
我有一个地理空间的情节数据框,并想绘制它。我正在研究由Databricks运行的Jupyter笔记本。我下载了一个shapefile(https://data.london.gov.uk/download/statistical-gis -...
使用Databricks中的Spark群集“发送到群集”问题
我想在Databricks笔记本中运行一个单元格,但我收到消息“发送到集群”没有结束。我之前没有遇到任何问题就跑了我重新启动了群集,我也有同样的...
我正在使用python中的Spark从XML文件创建数据帧。我想要做的是将每行中的值转换为新列并创建虚拟变量。这是一个例子。输入:......
如何在Databricks中安装python包'rpy2'?
我正在尝试在Databricks中安装和使用pymer4包功能,这也需要安装rpy2。在群集中的库我能够安装它们,它甚至说“......
为什么我不能删除databricks中azure blobstorage容器中的所有文件
我想使用以下命令从blobstorage容器中删除所有文件:dbutils.fs.rm指向一个特定的文件,这样工作正常:dbutils.fs.rm(“/ mnt / inbox / InvLog.txt”,True)但我想要...
如何使用Spark in Databricks将JSON文件并行写入已挂载的目录
我有一个RDD为50,000个JSON文件,我需要写入Spark(Databricks)中的已安装目录。安装的路径类似于/ mnt / myblob / mydata(使用Azure)。我试过以下,但......
我有一个处理各种表的Azure Databricks集群,然后作为最后一步,我将这些表推送到Azure SQL Server以供其他一些进程使用。我在数据库中有一个单元格...
需要帮助从Azure数据库执行python脚本。要求是使用python脚本连接到数据库并从表中读取数据并使用表中的内容触发电子邮件。这是我的 ...
如何在Spark中解决“aggregateByKey不是org.apache.spark.sql.Dataset的成员”?
我正在尝试这个例子:https://backtobazics.com/big-data/spark/apache-spark-aggregatebykey-example/但是我使用的是数据帧,而不是RDD。我尝试了以下内容:val aggrRDD = ...
使用Spark DataFrame或RDD API解析具有不同模式的嵌套JSON结构
我有很多jsons结构,如{“parent_id”:“parent_id1”,“devices”:“HERE_IS_STRUCT_SERIALIZED_AS_STRING_SEE BELOW”} {“0x0034”:{“id”:“0x0034”,“p1”:“p1v1”,“p2 “:”......
python代码解压缩databricks中s3服务器中的压缩文件
代码是解压缩s3服务器中存在的压缩文件。代码在databricks中运行,python版本:3和pandas === 0.19.0 zip_ref = zipfile.ZipFile(path,mode ='r')上面的行抛出错误为...
新手火花问题。我正在尝试从REST API读取数据,该API通过分页返回数据。要检索数据,我会拨打相同的API说5次。我想在数据库中保存这些数据......
我想知道它有spark-redshift连接器的任何其他替代品。它似乎不再维护,因为这个库自动包含在Databricks集群中......
使用Databricks将Google Api的结果写入数据湖
我通过Databricks上的Python SDK从Google管理员报告用户使用情况Api中获取用户使用情况数据。数据大小是每天大约100 000条记录,我通过批处理过夜。 ...