我有一个包含 glob 语法列 (InstallPathRawString) 的数据集,我需要检查它是否与路径列 (AppPath) 匹配。
我看过一些关于 os.path.samefile 的帖子,但不知道如何创建一个 udf 来检查两列是否匹配。
我需要我的解决方案在 databricks 中工作,所以 Pyspark、scala 和 databricks sql 解决方案是我需要的。
样本数据集:
应用路径 | 应用名称 | 安装路径原始字符串 | 匹配 |
---|---|---|---|
C:\Users\用户名\AppData\Local\Discord pp-1.0.9012\Discord.exe | DISCORD.EXE | "?:*\DISCORD\APP*\DISCORD.EXE" | 假 |
C:\Program Files\Google\Chrome\Applicatio |