databricks 相关问题

有关Databricks统一分析平台的问题

我们可以在Azure Data Factory中打一个URL,然后以作业的形式检查响应吗?

假设我有一个像(https:/hello.world.com)这样的URL。是否可以在 Azure Data Factory 中点击此 URL 并观察响应?

回答 1 投票 0

在Databricks笔记本中使用Python编写的自定义函数。

我创建了一个python文件(.py),其中包括两个不同的函数。例如,def function1(): print("Hello World") def funtion2(a, b): y=a+b if y>=5: print("Correct"...)

回答 1 投票 0

Spark implicits在dbutils对象上不起作用。

为什么我不能做这样的事情? import spark.implicits._ dbutils.fs.ls(folderName).toDF throws an error of value toDF is not a member of Seq[com.databricks.backend.daemon.dbutils.FileInfo] But...。

回答 1 投票 0

计算特定值的百分比?

所以,我有一个表格,一堆人做了多个调查。每个调查都有一个10分的评分。我需要计算每个调查的平均评分和10分的数量(我已经做了)。现在...

回答 1 投票 0

我如何使用python从Azure Data Lake Gen 2读取文件?

我有一个文件躺在Azure Data lake gen 2文件系统中。我想读取文件的内容,并作出一些低级别的改变,即从记录中的几个字段删除几个字符。为了更 ...

回答 1 投票 0

将数据框行(sum(fld))转换为离散值。

我有这样的:df = sqlContext.sql(qry) df2 = df.withColumn("ext", df.lvl * df.cnt) ttl = df2.aggl(F.sum("ext")).collect()返回这个。[Row(sum(ext)=1285430)]如何将其下放到... ...

回答 1 投票 0

在PySpark中计算Lat Long & Lat Long数组之间最小哈弗逊距离的最快方法?

上下文。我在寻找一种方法,在PySpark中有效地计算一对长纬线和一个长纬线数组之间的距离,然后取这些距离的最小值。这将如何...

回答 1 投票 0

将一个具有不同列值的重复唯一id的表转换为单行。

我试图将当前的格式,我有我的数据在1到图像2的格式。正如你所看到的数据目前被分割成两行,每一个cust_id为每个代码,但我想......

回答 1 投票 0

如何使用pyspark从python列表中随机选择一个文本值?

是否有办法从下面的pyspark python列表中随机选择一个文本值:- data_list = ["abc", "xyz", "pqr"]我知道我可以实现一个pyspark UDF,它将返回一个随机文本......

回答 1 投票 0

在pyspark中有效地添加大量数据帧。

我有一个包含大量数据框的字典,我打算把它们全部联合起来存储在dbfs中,我试过以下方法: ***df = sqlContext.createDataFrame([],schema) for i in dict.keys(): df = df.union(...) ***df = sqlContext.createDataFrame([],schema) for i in dict.keys(): df = df.union(...)

回答 1 投票 0

回答 2 投票 0

覆盖数据砖依赖性

在我们的项目中,我们使用的是1.3.4版本的com.typeafe:config。根据最新的发行说明,这个依赖关系已经由集群上的Databricks提供了,但是是在一个非常老的版本(1.2......)。

回答 1 投票 2

如何在Databricks上读取压缩的TSV文件到数据框架?

我试图使用Databricks从SFTP上的压缩TSV文件中读取数据,但是遇到了困难(试图使用pysftp和SQLContext来读取TSV)。有谁有...

回答 1 投票 0

Spark提交作业在databricks UI中无法访问现有的Hive DB。

我在databricks中创建了一个spark提交作业来运行一个.py脚本。我在我的python脚本中创建了一个spark对象。我试图访问现有的Hive表。但我的脚本失败与 "表或视图未找到"......

回答 1 投票 0

如何使用 os.walk() python 计算目录大小?

如何使用 os.walk() python 来计算一个目录的大小?我可以用下面的代码得到所有的根文件--对于路径,子目录,文件在os.walk(root): for name in files: print (os.path......)

回答 1 投票 0

火花读取字符串中的逗号的csv。

536381,22411,JUMBO SHOPPER VINTAGE RED PAISLEY,10,1212010 9:41,1.95,15311,United Kingdom "536381,82567,""AIRLINE LOUNGE,METAL SIGN"",2,1212010 9:41,2.1,15311,United Kingdom" 536381,21672,WHITE ...

回答 1 投票 1

在 azure databrick 中使用 pyodbc 连接 SQL 服务器

import pyodbc pyodbc.connect('Driver={SQL SERVER};' 'Server=server name;' 'Database = database name;' 'UID='my uid;' 'PWD= ' ...

回答 1 投票 0

是否可以在SQL数据块中循环?

从 sii_2014_1 中选择 a.Client, a.Period_Id, a.Business_Name, a.Tax, a.Number_Workers, a.Business_Item, a.Start_Date, a.End_Date, a.Taxpayer 作为内部连接 ( select ....

回答 1 投票 0

在Pyspark中列出保存顺序的数据框架列。

我有一个Spark数据框架,包含2列,"id "和 "timetamp"。我如何将 "id "列转换为一个列表,保留原来的时间戳顺序?当我尝试收集时,顺序不是...

回答 1 投票 0

无法使用Looker API将Looker图表(视图)拉到Databricks中。

我的目标是访问我存储在Looker文件夹中的视图或图表,并将其自动添加到power point幻灯片中。我遵循的教程是这样的:https:/discourse.looker.comt...。

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.