维基百科提取器问题 ValueError:找不到“fork”的上下文

问题描述 投票:0回答:0

我的目标是从维基百科 xml 转储中获取纯文本(没有链接、标签、参数和其他垃圾,只有文章文本)(https://dumps.wikimedia.org/backup-index.html)。我在 GitHub 上找到了 WikiExtractor python 脚本(https://github.com/attardi/wikiextractor)。下载并安装它后(我使用 PyCharm IDE,Windows 10),我尝试开始使用

wikiextractor -cb 250K -o extracted D:\Wiki_dumps\ruwiktionary-20211120-pages-articles-multistream.xml.bz2

但是(预处理后)我得到了以下错误

从 None 引发 ValueError('无法找到 %r' % 方法的上下文) ValueError:找不到“fork”的上下文

我尝试将以下函数中的参数从“fork”更改为“spawn”(来自互联网的建议)

Process = get_context("fork").Process

但这只会导致

类型错误:无法腌制“_io.BufferedWriter”对象

我不知道如何修复它或它可能与什么相关

这是完整的堆栈跟踪:

信息:预处理 'D:\Wiki_dumps uwiktionary-20211120-pages-articles-multistream.xml.bz2' 收集模板定义:这可能需要一些时间。

信息:预处理 100000 页

...

信息:已预处理 2300000 页

信息:在 209.9 秒内加载了 36839 个模板

信息:从 D:\Wiki_dumps 开始提取页面 uwiktionary-20211120-pages-articles-multistream.xml.bz2.

回溯(最近一次调用最后一次):

文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib unpy.py”,第 196 行,在 _run_module_as_main 中 返回_run_code(代码,main_globals,无,

文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib unpy.py”,第 86 行,在 _run_code 中 执行(代码,run_globals)

文件“C:\Users\Shurup\PycharmProjects\pythonProject env\Scripts\wikiextractor.exe_main_.py”,第 7 行,位于

文件“c:\users\shurup\pycharmprojects\pythonproject env\lib\site-packages\wikiextractor\WikiExtractor.py”,第 640 行,在 main 中 process_dump(输入文件,args.templates,输出路径,文件大小,

文件“c:\users\shurup\pycharmprojects\pythonproject env\lib\site-packages\wikiextractor\WikiExtractor.py”,第 359 行,在 process_dump 中 进程 = get_context("fork").Process

文件“C:\Users\Shurup\AppData\Local\Programs\Python\Python310\lib\multiprocessin

python multiprocessing fork extractor wikimedia-dumps
© www.soinside.com 2019 - 2024. All rights reserved.