Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。
在我的代码我有,我需要调用SQL火花为每一个数据集的行的要求。现在,火花SQL需要地图功能,这是不可能通过一个内部SparkSession ...
我有以下表DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME指望美国罗马尼亚15美国1克罗地亚美国爱尔兰...
试图强制执行W延伸有一个返回WR的子类的数据集的方法获取类。抽象类WR案例类TGWR(A:字符串B:字符串)...
我正在尝试实现一个返回复杂类型的类型化UDAF。不知何故,Spark无法推断结果列的类型,并使二进制文件将序列化数据放在那里。这是一个最小的例子......
Spark Java edit data in column
我想遍历spark DataFrame中一列的内容,并在满足特定条件的情况下更正单元格中的数据+ ------------- + | column_title | + ------------- + + ----- + ...
我是Spark的新手,正在经历Dataframes和Dataset。我试着理解它们之间的区别,但我很困惑。我从这里开始发现RDD的抽象发生了......
我有一个函数抛出大量数据(数十亿行)并返回元组数据集[(Seq [Data1],Seq [Data2],Seq [Data3])]这个结果数据集包含更多行...
我知道如何实现它,但我想(或者至少我希望)有一种更简单,更少样板的方法来做同样的事情。场景:员工+ ------- + --- + ------------ + |名称| AGE | ...
Java-Spark:如何获取数据集 在循环中迭代时的列值,并在when()中使用它。否则()?
我有一个数据集 具有值“null”的列(空写文本)。我试图将“null”文本替换为text:\ N.为此,我使用一个逻辑,我将添加一个名为的新列...
我有一个Val test = sql(“select * from table1”),它返回一个数据帧。我想将它转换为无效的数据集.test.toDS抛出错误。
我已经在spark用户论坛上发布了这个问题,但没有收到任何回复,所以再次在这里询问。我们有一个用例,我们需要进行笛卡尔连接,由于某种原因我们无法得到它...
嗨我的csv文件结构就像File-1 id col1 col2 a_1 sd fd ds emd sf jhk File-2 id col1 col2 b_2 sd fd ds emd sf jhk现在我想...
使用Spark Connector for CosmosDB时不兼容的Jackson版本
当我尝试使用Scala中的cosmosdb连接器从SparkSql数据集读取时出现异常。我在本地模式下运行Spark。我的sbt依赖关系看起来像:libraryDependencies ++ = Seq(“...
我有一个数据集(ds),看起来像scala> ds.show()+ ---- + --- + ----- + ---- + ----- + ------ -------- + | name | age | field | optr | value |治| + ---- + --- + ----- + ---- + ----- + -------------- + | A | 75 | ...
这可能是一个愚蠢的问题,但我无法理解文件如何跨分区分割。我的要求是从Hdfs位置读取10000个二进制文件(Bloom过滤器持久文件)并...
我有一个scala数据框,如下所示:+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2174,4.246965E ... | | 41345063 | [[2174,0 ...
我有一个像这样的火花数据集:+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2133,red] ... | | 41345063 | [[11353,红色... | | 41346177 | [...
我有一个如下所示的数据框:+ -------- + ----- + -------------------- + | UID | IID |色| + -------- + ----- + -------------------- + | 41344966 | 1305 |红| | ...
我有一个如下所示的数据框:+ -------------------- + ----------------- + |推荐| relevant_products | + -------------------- + ----------------- + | [12949,12499,71 ... | [...
我有一个数据集+ ---------- + -------- + ------------ + | ID |日期|错误| + ---------- + -------- + ------------ + | 1 | 20170319 | ERROR1 | | 1 | 20170319 |误差2 | | 1 ...