我有一个脚本,我按照学习Python for Forensics一书中的蓝图建立。该脚本将遍历用户指定的目录,并收集目录中每个文件的元数据。结果将保存到sqlite数据库,并写入CSV或HTML文件。
该脚本最初是用Python 2.7.15编写的。我正在尝试更新Python 3.7的代码。但是,摄取目录函数中有一行可以解决问题。
ingestDirectory
函数如下所示:
def ingestDirectory(cur, source, custodian_id):
count = 0
for root, folders, files in os.walk(source):
for file_name in files:
meta_data = dict()
try:
meta_data['file_name'] = file_name
meta_data['file_path'] = os.path.join(root, file_name)
meta_data['extension'] = os.path.splitext(file_name)[-1]
file_stats = os.stat(meta_data['file_path'])
meta_data['mode'] = oct(file_stats.st_mode)
meta_data['inode'] = int(file_stats.st_ino)
meta_data['file_size'] = int(file_stats.st_size)
meta_data['atime'] = formatTimestamp(file_stats.st_atime)
meta_data['mtime'] = formatTimestamp(file_stats.st_mtime)
meta_data['ctime'] = formatTimestamp(file_stats.st_ctime)
except Exception as e:
logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())
meta_data['custodian'] = custodian_id
columns = '","'.join(meta_data.keys())
values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())
sql = 'INSERT INTO Files ("' + columns + '") VALUES ("' + values + '")'
cur.execute(sql)
count += 1
给我错误的那条线是这样的:
values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())
此行用于处理在将数据写入数据库之前在metadata.values
中找到的任何字符串转义字符。
当我尝试在Python 3中运行此代码时,我收到有关无法识别的编解码器的错误。我做了一些关于Stack Overflow的研究,发现string_escape
已经被Python 3中的unicode-escape
取代了。
我是Python 3和Unicode的新手。我的问题是:
如何更新上面的行,以便它使用unicode-escape
而不是string_escape
并产生与Python 2.7代码相同的结果?
任何帮助,将不胜感激!我已经工作了几天了,我尝试的每个解决方案都会导致更多的错误代码或损坏的输出文件。
您正在该代码片段中生成SQL,并且在那里尝试生成有效的SQL。这是一个非常穷人试图避免SQL注入的尝试。它不是很有效,并且不需要,因为数据库驱动程序已经知道如何以更安全的方式处理这个问题!
对于SQL数据库,将值放入SQL参数的正确方法。 SQL参数由两个组件组成:占位符和值分别传递给.execute()
方法,以便数据库可以干净地处理。 sqlite3
图书馆也不例外,请参阅cursor.execute()
method for details。对于您的情况,您可以使用命名占位符:
columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
placeholders = [f':{name}' for name in meta_data]
sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'
cur.execute(sql, meta_data)
请注意,meta_data
作为第二个参数传递;数据库采用每个:name
占位符并从meta_data
字典中获取该占位符的值。
我还正确地格式化了列名,通过在它们周围加上双引号并将名称中的任何"
字符加倍;看到SQLite keyword documentation:
'keyword' A keyword in single quotes is a string literal.
"keyword" A keyword in double-quotes is an identifier.
您的代码已对这些列名进行了硬编码,并且它们都不是保留的SQL关键字,因此它们并不真正需要这种保护,但它仍然是一种很好的做法。
对于你的代码,其中meta_data
有固定数量的键,上面构建了这个sql
字符串:
>>> columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
>>> placeholders = [f':{name}' for name in meta_data]
>>> sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'
>>> from pprint import pprint
>>> pprint(sql)
('INSERT INTO Files ("file_name", "file_path", "extension", "mode", "inode", '
'"file_size", "atime", "mtime", "ctime") VALUES (:file_name, :file_path, '
':extension, :mode, :inode, :file_size, :atime, :mtime, :ctime)')
我也会改变你记录错误的方式,而不是
logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())
我用了
logging.exception('Could not gather data for file: %s', meta_data['file_path'])
并将错误收集留给日志框架。即使您确实包含异常对象,也可以使用str(e)
或%s
占位符。