考虑以下 URL
http://m3u.com/tunein.m3u http://asxsomeurl.com/listen.asx:8024 http://www.plssomeotherurl.com/station.pls?id=111 http://22.198.133.16:8024
确定文件扩展名(.m3u/.asx/.pls)的正确方法是什么?显然最后一个没有文件扩展名。
编辑:我忘了提及 m3u/asx/pls 是音频流的播放列表(文本文件),必须以不同的方式进行解析。目标确定扩展名,然后将 url 发送到正确的解析函数。例如。
url = argv[1]
ext = GetExtension(url)
if ext == "pls":
realurl = ParsePLS(url)
elif ext == "asx":
realurl = ParseASX(url)
(etc.)
else:
realurl = url
Play(realurl)
GetExtension() 应返回文件扩展名(如果有),最好不要连接到 URL。
使用
urlparse
解析 URL 中的路径,然后使用 os.path.splitext
获取扩展名。
import os
try:
import urlparse
except ImportError:
from urllib.parse import urlparse
url = 'http://www.plssomeotherurl.com/station.pls?id=111'
path = urlparse(url).path
ext = os.path.splitext(path)[1]
请注意,扩展名可能无法可靠地指示文件类型。 HTTP
Content-Type
标头可能会更好。
使用
requests
和 mimetypes
最简单:
import requests
import mimetypes
response = requests.get(url)
content_type = response.headers['content-type']
extension = mimetypes.guess_extension(content_type)
扩展名包含一个点前缀。例如,对于内容类型
extension
,'.png'
是 'image/png'
。
import urllib2
def getContentType(pageUrl):
page = urllib2.urlopen(pageUrl)
pageHeaders = page.headers
contentType = pageHeaders.getheader('content-type')
return contentType
def fileExt( url ):
# compile regular expressions
reQuery = re.compile( r'\?.*$', re.IGNORECASE )
rePort = re.compile( r':[0-9]+', re.IGNORECASE )
reExt = re.compile( r'(\.[A-Za-z0-9]+$)', re.IGNORECASE )
# remove query string
url = reQuery.sub( "", url )
# remove port
url = rePort.sub( "", url )
# extract extension
matches = reExt.search( url )
if None != matches:
return matches.group( 1 )
return None
的显式端口的处理
file_ext = "."+ url.split("/")[-1:][0].split(".")[-1:][0]
假设有文件扩展名。