constants.朋友
import os
BASE_PATH = os.path.abspath(os.path.dirname(__file__))
INPUT_PATH = os.path.join(BASE_PATH, 'input')
FILE_INPUT1_PATH = os.path.join(INPUT_PATH, 'input1.csv')
FILE_INPUT2_PATH = os.path.join(INPUT_PATH, 'input2.csv')
PROCESSED_PATH = os.path.join(BASE_PATH, 'processed')
FILE_PROC1_PATH = os.path.join(PROCESSED_PATH, 'processed1.pkl')
FILE_PROC2_PATH = os.path.join(PROCESSED_PATH, 'processed2.pkl')
结构目录:
root
|__ constant.py
|__ input
|__ input1.csv
|__ input2.csv
|__ process
|__ processed1.pkl
|__ processed2.pkl
data_handling.朋友
from constants import FILE_INPUT1_PATH, FILE_INPUT2_PATH, FILE_PROC1_PATH, FILE_PROC2_PATH
def foo(*args):
file = FILE_INPUT1_PATH
# Here it is doing staff
# Finally I write data into FILE_PROC1_PATH
def bar(*args):
file = FILE_INPUT2_PATH
# Here it is doing staff
# Finally I write data into FILE_PROC2_PATH
目前我正在尝试使用pytest并测试foo()
和bar()
,但我不知道如何继续,因为输入文件和处理过的文件太大而且测试过程不会覆盖已处理的文件。一种方法是将定义bar()
更改为bar(path)
,然后调用bar(FILE_INPUT2_PATH)
但是它在代码中没有意义,因为bar
总是需要读取FILE_INPUT2_PATH
并且它在许多地方被调用。 foo()和bar()的单元测试将测试是否创建了已处理的文件,因为它依赖于*args
。
所以...问题是我该如何解决?这种情况是否存在模式/良好实践?我应该在代码中更改什么?
输入文件和处理过的文件太大,测试过程不会覆盖已处理的文件
是的,测试非常适合这种工作。通用方法是创建测试数据(可以是包含边缘情况的原始数据的子集)并将其放置在测试附近的某个位置,例如:
├───tests
│ │ test_bar.py
│ │ test_foo.py
│ │
│ └───data
│ input_1.dat
│ input_2.dat
│ expected_1.pkl
│ expected_2.pkl
然后,如果测试函数接受输入作为常量而不是参数,则使用unittest.mock.patch
在测试运行中更改常量(有关快速参考,请参阅this excellent answer)。对于存储输出,可以使用常规或临时文件。
import tempfile
from pathlib import Path
from unittest.mock import patch
import foo_module
TEST_DATA_DIR = Path(__file__).resolve().parent / 'data'
@patch('foo_module.FILE_INPUT1_PATH', TEST_DATA_DIR / 'input_1.dat')
@patch('foo_module.FILE_PROC1_PATH', tempfile.mktemp())
def test_foo(tmpdir):
"""Process input and check result."""
foo_module.foo()
result = open(foo_module.FILE_PROC1_PATH, 'rb').read()
expected = open(TEST_DATA_DIR / 'expected_1.pkl', 'rb').read()
assert result == expected
注意:不推荐使用tempfile.mktemp()
,因为文件不是在mktemp()
调用上创建的,因此可以被另一个进程锁定。随意建议替代方法。