无论操作系统或路径格式是什么,我可以使用哪个Python库从路径中提取文件名?
例如,我希望所有这些路径都返回给我c
:
a/b/c/
a/b/c
\a\b\c
\a\b\c\
a\b\c
a/b/../../a/b/c/
a/b/../../a/b/c
使用os.path.split
或os.path.basename
作为其他建议将不适用于所有情况:如果您在Linux上运行脚本并尝试处理经典的Windows样式路径,它将失败。
Windows路径可以使用反斜杠或正斜杠作为路径分隔符。因此,ntpath
模块(在Windows上运行时相当于os.path)将适用于所有平台上的所有(1)路径。
import ntpath
ntpath.basename("a/b/c")
当然,如果文件以斜杠结尾,则基本名称将为空,因此请创建自己的函数来处理它:
def path_leaf(path):
head, tail = ntpath.split(path)
return tail or ntpath.basename(head)
验证:
>>> paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
... 'a/b/../../a/b/c/', 'a/b/../../a/b/c']
>>> [path_leaf(path) for path in paths]
['c', 'c', 'c', 'c', 'c', 'c', 'c']
(1)有一点需要注意:Linux文件名可能包含反斜杠。所以在linux上,r'a/b\c'
总是引用b\c
文件夹中的文件a
,而在Windows上,它总是引用c
文件夹的b
子文件夹中的a
文件。因此,当在路径中使用向前和向后斜杠时,您需要知道相关平台才能正确解释它。在实践中,通常可以安全地假设它是一个Windows路径,因为反斜杠在Linux文件名中很少使用,但在编码时请记住这一点,这样就不会产生意外的安全漏洞。
这是一个仅限正则表达式的解决方案,它似乎适用于任何操作系统上的任何操作系统路径。
不需要其他模块,也不需要预处理:
import re
def extract_basename(path):
"""Extracts basename of a given path. Should Work with any OS Path on any OS"""
basename = re.search(r'[^\\/]+(?=[\\/]?$)', path)
if basename:
return basename.group(0)
paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
'a/b/../../a/b/c/', 'a/b/../../a/b/c']
print([extract_basename(path) for path in paths])
# ['c', 'c', 'c', 'c', 'c', 'c', 'c']
extra_paths = ['C:\\', 'alone', '/a/space in filename', 'C:\\multi\nline']
print([extract_basename(path) for path in extra_paths])
# ['C:', 'alone', 'space in filename', 'multi\nline']
更新:
如果你只想要一个潜在的文件名,如果存在(即/a/b/
是dir,c:\windows\
也是如此),请将正则表达式更改为:r'[^\\/]+(?![\\/])$'
。对于“正则表达式挑战”,这会将某种斜线的正向前向变为负向前向前瞻,导致以所述斜杠结束的路径名返回任何内容,而不是路径名中的最后一个子目录。当然,不能保证潜在的文件名实际上是指文件,因为需要使用os.path.is_dir()
或os.path.is_file()
。
这将匹配如下:
/a/b/c/ # nothing, pathname ends with the dir 'c'
c:\windows\ # nothing, pathname ends with the dir 'windows'
c:hello.txt # matches potential filename 'hello.txt'
~it_s_me/.bashrc # matches potential filename '.bashrc'
c:\windows\system32 # matches potential filename 'system32', except
# that is obviously a dir. os.path.is_dir()
# should be used to tell us for sure
正则表达式可以测试here。
我从未见过双背路径,它们是否存在? python模块os
的内置功能失败了。所有其他人的工作,以及你与os.path.normpath()
给出的警告:
paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
... 'a/b/../../a/b/c/', 'a/b/../../a/b/c', 'a/./b/c', 'a\b/c']
for path in paths:
os.path.basename(os.path.normpath(path))
Windows分隔符可以是Unix文件名或Windows路径。 Unix分隔符只能存在于Unix路径中。 Unix分隔符的存在表示非Windows路径。
以下将通过OS特定分隔符剥离(剪切尾随分隔符),然后拆分并返回最右边的值。它很难看,但基于上面的假设很简单。如果假设不正确,请更新,我将更新此响应以匹配更准确的条件。
a.rstrip("\\\\" if a.count("/") == 0 else '/').split("\\\\" if a.count("/") == 0 else '/')[-1]
示例代码:
b = ['a/b/c/','a/b/c','\\a\\b\\c','\\a\\b\\c\\','a\\b\\c','a/b/../../a/b/c/','a/b/../../a/b/c']
for a in b:
print (a, a.rstrip("\\" if a.count("/") == 0 else '/').split("\\" if a.count("/") == 0 else '/')[-1])
import os
file_location = '/srv/volume1/data/eds/eds_report.csv'
file_name = os.path.basename(file_location ) #eds_report.csv
location = os.path.dirname(file_location ) #/srv/volume1/data/eds
也许只是我的所有在一个解决方案中没有重要的一些新的(关于创建临时文件的临时文件:D)
import tempfile
abc = tempfile.NamedTemporaryFile(dir='/tmp/')
abc.name
abc.name.replace("/", " ").split()[-1]
得到abc.name
的值将是这样的字符串:'/tmp/tmpks5oksk7'
所以我可以用空格/
替换.replace("/", " ")
然后调用split()
。这将返回一个列表,我用[-1]
获取列表的最后一个元素
无需导入任何模块。
最好的祝福
4k3nd0
为了完整起见,这里是python 3.2+的pathlib
解决方案:
>>> from pathlib import PureWindowsPath
>>> paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
... 'a/b/../../a/b/c/', 'a/b/../../a/b/c']
>>> [PureWindowsPath(path).name for path in paths]
['c', 'c', 'c', 'c', 'c', 'c', 'c']
这适用于Windows和Linux。
在Python 2和3中,使用模块pathlib2:
import posixpath # to generate unix paths
from pathlib2 import PurePath, PureWindowsPath, PurePosixPath
def path2unix(path, nojoin=True, fromwinpath=False):
"""From a path given in any format, converts to posix path format
fromwinpath=True forces the input path to be recognized as a Windows path (useful on Unix machines to unit test Windows paths)"""
if not path:
return path
if fromwinpath:
pathparts = list(PureWindowsPath(path).parts)
else:
pathparts = list(PurePath(path).parts)
if nojoin:
return pathparts
else:
return posixpath.join(*pathparts)
用法:
In [9]: path2unix('lala/lolo/haha.dat')
Out[9]: ['lala', 'lolo', 'haha.dat']
In [10]: path2unix(r'C:\lala/lolo/haha.dat')
Out[10]: ['C:\\', 'lala', 'lolo', 'haha.dat']
In [11]: path2unix(r'C:\lala/lolo/haha.dat') # works even with malformatted cases mixing both Windows and Linux path separators
Out[11]: ['C:\\', 'lala', 'lolo', 'haha.dat']
使用您的测试用例:
In [12]: testcase = paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
...: ... 'a/b/../../a/b/c/', 'a/b/../../a/b/c']
In [14]: for t in testcase:
...: print(path2unix(t)[-1])
...:
...:
c
c
c
c
c
c
c
这里的想法是将所有路径转换为pathlib2
的统一内部表示,并根据平台使用不同的解码器。幸运的是,pathlib2
包含一个名为PurePath
的通用解码器,可以在任何路径上工作。如果这不起作用,您可以使用fromwinpath=True
强制识别Windows路径。这会将输入字符串分成几部分,最后一个是你要查找的叶子,因此是path2unix(t)[-1]
。
如果参数nojoin=False
,路径将被连接回来,以便输出只是转换为Unix格式的输入字符串,这对于比较跨平台的子路径很有用。
实际上,有一个function可以完全返回你想要的东西
import os
print(os.path.basename(your_path))
os.path.split是您正在寻找的功能
head, tail = os.path.split("/tmp/d/a.dat")
>>> print(tail)
a.dat
>>> print(head)
/tmp/d
在python 3中
>>> from pathlib import Path
>>> Path("/tmp/d/a.dat").name
'a.dat'
import os
head, tail = os.path.split(p)
print tail
假设p是输入字符串,tail就是你想要的。
有关详细信息,请参阅python os module docs
在你的例子中,你还需要从右侧剥去斜线以返回c
:
>>> import os
>>> path = 'a/b/c/'
>>> path = path.rstrip(os.sep) # strip the slash from the right side
>>> os.path.basename(path)
'c'
第二级:
>>> os.path.filename(os.path.dirname(path))
'b'
更新:我认为lazyr
提供了正确的答案。我的代码不适用于unix系统上的类似Windows的路径,也不适用于Windows系统上的类似unix的路径。
fname = str("C:\Windows\paint.exe").split('\\')[-1:][0]
这将返回:paint.exe
更改有关路径或操作系统的拆分功能的sep值。
这适用于linux和windows以及标准库
paths = ['a/b/c/', 'a/b/c', '\\a\\b\\c', '\\a\\b\\c\\', 'a\\b\\c',
'a/b/../../a/b/c/', 'a/b/../../a/b/c']
def path_leaf(path):
return path.strip('/').strip('\\').split('/')[-1].split('\\')[-1]
[path_leaf(path) for path in paths]
结果:
['c', 'c', 'c', 'c', 'c', 'c', 'c']
如果文件路径未以“/”结尾且目录以“/”分隔,则使用以下代码。众所周知,路径不以“/”结尾。
import os
path_str = "/var/www/index.html"
print(os.path.basename(path_str))
但在某些情况下,如URL以“/”结尾,请使用以下代码
import os
path_str = "/home/some_str/last_str/"
split_path = path_str.rsplit("/",1)
print(os.path.basename(split_path[0]))
但是当您的路径以“\”分隔时(通常在Windows路径中找到),则可以使用以下代码
import os
path_str = "c:\\var\www\index.html"
print(os.path.basename(path_str))
import os
path_str = "c:\\home\some_str\last_str\\"
split_path = path_str.rsplit("\\",1)
print(os.path.basename(split_path[0]))
您可以通过检查OS类型将两者合并为一个函数并返回结果。