spark-shell 相关问题


我在安装 pyspark 时遇到错误,如何修复它?

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至


Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时,我看到以下内容


Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别?每种方法的用例是什么?


kedro ipython,如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。 首先,我按照此处所述配置了 Spark 会话。 然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...


在 Spark 的作业之间移动执行器的开销?

我正在阅读一篇有关 Spark 作业调度的论文,我对他们对 Spark 的概述感到困惑: Spark作业由一个DAG组成,其节点是作业的执行阶段。每个阶段代表...


将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件,所以我首先将excel文件读入pandas数据帧,然后尝试将pandas数据帧转换为spark数据帧,但我得到了...


写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......


如何在intellij中设置和运行scala-spark?

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时,出现以下错误: 线程“main”java.lang 中出现异常。


Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...


将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中,以便在写出文件时使用。 (注意:不是当前工作目录,也不是


无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&


是否可以在 Google Cloud Shell 中使用 Jupyter Notebook?

我尝试过的: 启动 Google Cloud shell 须藤 pip 安装 jupyter jupyter 笔记本 --generate-config 将以下内容添加到 ~/.jupyter/jupyter_notebook_config.py c.NotebookApp.ip = 'localhost' c.


通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群(新的或旧的)设置集群日志传送。 我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null,而它应该返回 'a...


Networkx 中 K-shell 最内核的节点

我想在Python中使用NetworkX获取k-shell算法最内核对应最高度数的节点。我尝试使用以下代码获取节点,但我遇到了...


Netrw 与终端集成

据我所知,使用 netrw 导航目录比在 shell 内部导航要容易得多。 因此,我正在尝试将 netrw 与 shell 集成,到目前为止我所拥有的很简单......


在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目,我需要在两个不同的集群上运行作业,两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡


使用shell中的变量将密码传递给mysql_config_editor

我的密码存储在变量 $db_pwd 中,我想在 shell 脚本中将其传递给 mysql_config_editor。我无法使用配置文件或 db_pwd 环境变量。 我正在做这个


在Shell脚本中获取进程的PID

我正在编写一个shell脚本,我想获取一个名为“ABCD”的进程的PID。我所做的是: process_id=`/bin/ps -fu $USER|grep "ABCD"|awk '{print $2}'` 这获取了两个进程的PID...


无法从 tmux 中的 `run-shell` 创建新会话

我有这个+x脚本 〜/ bin / tmux-test.sh: #!/usr/bin/bash tmux 新w 在我的 .tmux.conf 中: bind -n M-g run-shell `~/bin/tmux-test.sh` 有用... ...但是如果我将 tmux neww 更改为 tmux new (对于 cre...


如何在launch.json中设置VS Code调试时使用的shell?

在我的 VS Code Node.js 项目的 launch.json 配置中,我尝试将 shell 设置为 cmd.exe 而不是默认值。那可能吗? 我知道我可以通过terminal.integrated.defaultPr进行全局设置...


ZSH/Shell变量赋值/使用

我使用 ZSH 作为我的终端 shell,虽然我已经编写了几个函数来自动执行特定任务,但我从未真正尝试过任何需要我目前所追求的功能的东西。 ...


为什么我们不能使用 ${$#} 来获取传递给 shell 脚本的最后一个参数?

我正在阅读 Richard Blum 和 Christine Bresnahan 的《Linux 命令行和 Shell 脚本圣经》。在处理不同特殊变量(如 $# 和 $@)的部分中,他们指出...


如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。 默认情况下,当您使用


在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...


如何从 shell 脚本获取变量并通过管道传输脚本的输出?

我有一个脚本test.sh: #!/bin/bash 导出 VAR1=abc123 回显$VAR1 我希望在运行此脚本的 shell 中设置 test.sh 中设置的变量,因此我使用源: $ 源 test.sh ...


Python 的语音转文本 API v2 问题(权限被拒绝)

只能在 Google Shell 中使用路径设置命令“exports...”。不要在代码中和我的主平台上使用“PATH”的 shell 工作 Python Local 我面临着一个令人困惑的交通问题...


shell脚本字符转义失败

我的JVM参数配置如下: 设置“JSSE_OPTS=-Djdk.tls.ephemeralDHKeySize=2048” 设置“JAVA_OPTS =%JAVA_OPTS%%JSSE_OPTS%” 设置“PATH_OPTS=-Drelaxed-path-chars=^...


识别.NET MAUI 应用程序中用户所在的页面

如何在 .NET MAUI shell 应用程序中识别用户所在的页面? 为了提供更多背景信息,这就是我正在尝试做的事情: 我的 .NET MAUI 应用程序(使用 Shell)有相当多的页面,其中一些...


如何使任何 shell 命令的输出(stdout、stderr)不缓冲?

有没有一种方法可以在没有输出缓冲的情况下运行 shell 命令? 例如,十六进制转储文件 | ./my_script 只会以缓冲块的形式将输入从 hexdump 传递到 my_script,而不是逐行传递。 什么是


从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


Databricks Spark:java.lang.OutOfMemoryError:GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业,它以 15 分钟的间隔执行,因此在成功执行三到四次之后...


Shell 脚本:我如何通过 virtualbox 的 cli 列出虚拟机并删除除“SaveThisOne”之外的所有内容?

Shell 脚本:我如何通过 virtualbox 的 cli 列出虚拟机并删除除“SaveThisOne”之外的所有内容? 注意:以下行将删除所有 virtualbox 虚拟机: VBox管理列表正在运行的虚拟机...


.NET MAUI 中的 Shell 背景渐变

知道如何为 Shell 提供渐变背景吗? 我尝试在 Shell 背景上定义 LinearGradientBrush 但这不起作用。 知道如何为 Shell 提供渐变背景吗? 我尝试在 Shell 背景上定义 LinearGradientBrush,但这不起作用。 <?xml version="1.0" encoding="UTF-8" ?> <Shell xmlns="http://schemas.microsoft.com/dotnet/2021/maui" xmlns:x="http://schemas.microsoft.com/winfx/2009/xaml"> <Shell.Background> <LinearGradientBrush StartPoint="0,0" EndPoint="1,0"> <GradientStop Color="Yellow" Offset="0.0" /> <GradientStop Color="Red" Offset="0.25" /> <GradientStop Color="Blue" Offset="0.75" /> <GradientStop Color="LimeGreen" Offset="1.0" /> </LinearGradientBrush> </Shell.Background> <FlyoutItem FlyoutDisplayOptions="AsMultipleItems"> <!-- FlyoutItem contents here --> </FlyoutItem> </Shell> 我已经确认这是为 Shell.Background 设置渐变时的已知问题,请参阅 Shell.Background - Gradient does not work #10445,您可以按照该线程进行操作。 幸运的是,您可以单独设置渐变背景。如果您有“外壳”弹出窗口,则可以为“外壳”弹出项目设置渐变背景: <Shell.FlyoutBackground> <LinearGradientBrush StartPoint="0,0" EndPoint="1,0"> <GradientStop Color="Yellow" Offset="0.0" /> <GradientStop Color="Red" Offset="0.25" /> <GradientStop Color="Blue" Offset="0.75" /> <GradientStop Color="LimeGreen" Offset="1.0" /> </LinearGradientBrush> </Shell.FlyoutBackground> 另外,如果要将 ShellContent 背景设置为渐变背景,可以将渐变背景添加到 ContentPage 的背景属性中。 <ContentPage.Background> <LinearGradientBrush StartPoint="0,0" EndPoint="1,0"> <GradientStop Color="Yellow" Offset="0.0" /> <GradientStop Color="Red" Offset="0.25" /> <GradientStop Color="Blue" Offset="0.75" /> <GradientStop Color="LimeGreen" Offset="1.0" /> </LinearGradientBrush> </ContentPage.Background> 希望这有帮助!


如何使用诗歌从 test.pypi.org 安装软件包?

我想在我的项目中使用包的预发布版本(https://test.pypi.org/project/delta-spark/2.1.0rc1/)。 我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢? 换句话说...


JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。 数据集 df = Spark.read().


Shell 脚本/VirtualBox:我如何设置将通过 vboxmanage cli 保存以防止删除的虚拟机名称列表? [重复]

Shell 脚本/VirtualBox:我如何设置将通过 vboxmanage cli 保存以防止删除的虚拟机名称列表? 由 @BeatOne 编码的第一个解决方案 警告!该 ShellScript 排除了除一个之外的所有虚拟机,


将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧,类似于下面的链接: 将 FASTQ 文件读入 Spark 数据帧 我到处搜索,但找不到可行的选择。 电流...


火花计数未给出正确结果

我是 Spark 的新手,最近了解到它会在调用某个操作时执行所有转换。在搜索过程中,我找到了一个简单的代码来测试它,结果并不符合预期。 他...


如何在 PySpark 中按条件聚合相邻行进行分组

我在 Spark 数据框中进行条件分组时遇到问题 下面是完整的例子 我有一个数据框,已按用户和时间排序 活动地点用户 0 观看


如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?

我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...


Spark JDBC 写入 Teradata - 如何编写并行查询

我有一个大约 2000 万行和 5 列的数据帧,我想将其写入 Teradata。我面临的问题是它需要一个绝对年龄来加载,因为我们可以使用一个分区,因为表将......


如何使用 Docker 在 Ubuntu 上安装 nvm?

到目前为止我有这个: 来自 --platform=linux/amd64 amd64/ubuntu:noble 环境术语 Linux ENV DEBIAN_FRONTEND 非交互式 SHELL [“/bin/bash”,“-c”] 环境外壳 /bin/bash 运行 apt upd...


.NET MAUI:自定义Shell TitleView并绑定到当前页面标题

我想用我自己的自定义布局替换默认的 Shell 标头,如下所示: 我想用我自己的自定义布局替换默认的 Shell 标头,如下所示: <?xml version="1.0" encoding="UTF-8" ?> <Shell x:Class="MyNamespace.App.AppShell" xmlns="http://schemas.microsoft.com/dotnet/2021/maui" xmlns:x="http://schemas.microsoft.com/winfx/2009/xaml" xmlns:local="clr-namespace:MyNamespace.App" xmlns:pages="clr-namespace:MyNamespace.App.Pages" BindingContext="{x:Static local:MainView.Instance}" Shell.FlyoutBehavior="{Binding ShellFlyoutType}" x:Name="shellMain"> <Shell.TitleView> <Grid ColumnDefinitions="*,200"> <Label BindingContext="{x:Reference shellMain}" Text="{Binding Path=CurrentPage.Title, Mode=OneWay}" FontSize="Large" TextColor="White" /> <ActivityIndicator IsRunning="{Binding IsBusy}" Color="Orange" Grid.Column="1" HorizontalOptions="End" /> </Grid> </Shell.TitleView> <ShellContent Title=" Login" ContentTemplate="{DataTemplate local:MainPage}" Route="login" FlyoutItemIsVisible="False" /> <ShellContent Title="Dashboard" ContentTemplate="{DataTemplate pages:DashboardPage}" Route="dashboard" /> </Shell> 我无法绑定当前页面标题。 我的 AppShell.xaml Shell 声明如下 <Shell ... x:Name="shellMain"> 作为替代方案,您可以在 OnNaviged 方法中设置 titleview : 在 AppShell.xaml 中,定义标签的名称 <Shell.TitleView> <Grid ColumnDefinitions="*,200"> <Label BindingContext="{x:Reference shellMain}" x:Name="mylabel" FontSize="Large" TextColor="White" /> <ActivityIndicator IsRunning="{Binding IsBusy}" Color="Orange" Grid.Column="1" HorizontalOptions="End" /> </Grid> </Shell.TitleView> 在AppShell.xaml.cs中,重写OnNaviged方法,获取当前项目 protected override void OnNavigated(ShellNavigatedEventArgs args) { base.OnNavigated(args); var shellItem = Shell.Current?.CurrentItem; string title = shellItem?.Title; int iterationCount = 0; while (shellItem != null && title == null) { title = shellItem.Title; shellItem = shellItem.CurrentItem; if (iterationCount > 10) break; // max nesting reached iterationCount++; } myLabel.Text = title; } 希望它对你有用。 我正在尝试同样的方法来修改 TitleView 的外观。它可以在 iOS 上运行,尽管那里还有另一个错误。但在 Android 上我遇到了同样的问题。在前进导航中,它会更新标题,但当您按后退按钮时,标题不会更新。我已经打开了一个问题并添加了一个存储库。 https://github.com/dotnet/maui/issues/12416#issuecomment-1372627514 还有其他方法可以修改TitleView的外观吗? 我使用视图模型开发了这个解决方法,主要不是为了提供 MVVM 解决方案,而是因为其他建议的答案对我不起作用。 (我怀疑 Liqun Shen 2 月 15 日针对他自己的问题的评论中的建议会起作用。但我没有注意到这一点,直到我自己修复)。 当前页面的标题保存在可由 shell 的视图模型和每个内容页面的视图模型访问的类中: public class ServiceHelper { private static ServiceHelper? _default; public static ServiceHelper Default => _default ??= new ServiceHelper(); internal string CurrentPageTitle { get; set; } = string.Empty; } shell 中每个内容页面的视图模型提供其页面标题。为了促进这一点,大部分工作都是由基本视图模型完成的,它们都是从该模型派生而来的: public abstract class ViewModelBase(string title) : ObservableObject { private ServiceHelper? _serviceHelper; public string Title { get; } = title; internal ServiceHelper ServiceHelper { get => _serviceHelper ??= ServiceHelper.Default; set => _serviceHelper = value; // For unit testing. } public virtual void OnAppearing() { ServiceHelper.CurrentPageTitle = Title; } } 每个 shell 内容页面视图模型只需要让其基础视图模型知道它的标题: public class LocationsViewModel : ViewModelBase { public LocationsViewModel() : base("Locations") { } } 每个 shell 内容页面都需要在其视图模型中触发所需的事件响应方法: public partial class LocationsPage : ContentPage { private LocationsViewModel? _viewModel; public LocationsPage() { InitializeComponent(); } private LocationsViewModel ViewModel => _viewModel ??= (LocationsViewModel)BindingContext; protected override void OnAppearing() { base.OnAppearing(); ViewModel.OnAppearing(); } } Shell 的视图模型为标题栏提供当前页面的标题: public class AppShellViewModel() : ViewModelBase(Global.ApplicationTitle) { private string _currentPageTitle = string.Empty; public string CurrentPageTitle { get => _currentPageTitle; set { _currentPageTitle = value; OnPropertyChanged(); } } public void OnNavigated() { CurrentPageTitle = ServiceHelper.CurrentPageTitle; } } Shell 需要在其视图模型中触发所需的事件响应方法: public partial class AppShell : Shell { private AppShellViewModel? _viewModel; public AppShell() { InitializeComponent(); } private AppShellViewModel ViewModel => _viewModel ??= (AppShellViewModel)BindingContext; protected override void OnNavigated(ShellNavigatedEventArgs args) { base.OnNavigated(args); ViewModel.OnNavigated(); } } 最后,Shell 的 XAML 在标题栏/导航栏上显示由 Shell 视图模型提供的当前页面的标题: <Shell.TitleView> <HorizontalStackLayout VerticalOptions="Fill"> <Image Source="falcon_svg_repo_com.png" HeightRequest="50"/> <Label x:Name="CurrentPageTitleLabel" Text="{Binding CurrentPageTitle}" FontSize="24" Margin="10,0" VerticalTextAlignment="Center"/> </HorizontalStackLayout> </Shell.TitleView>


在 PySpark 中执行不带 OrderBy 的窗口函数

我有一个数据框,其中数据的顺序已经正确。 现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数,但是根据 Spark,orderBy 是强制性的,它不允许我喜欢 lea...


如何设置 Visual Studio 2022 .Net 7.0 以创建通知侦听器

如何设置 Visual Studio 2022 .Net 7.0 以创建通知侦听器 我正在使用这个文档 https://learn.microsoft.com/en-us/windows/apps/design/shell/tiles-and-notifications/notific...


UnicodeDecodeError:“utf-8”无法解码位置 4024984 中的字节 0x90:无效的起始字节

我正在完全跟踪模式下运行子进程并使用 logger.info() 显示它 > std = subprocess.run(subprocess_cmd, shell=True, > universal_newlines=True, stdout=subprocess.PIPE, > 是...


有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战,这可能会导致大型数据集上的性能问题。具体来说,我需要过滤


© www.soinside.com 2019 - 2024. All rights reserved.