我试图从一个相当大的语料库中随机抽取KWIC示例。对于较小的语料库,我能够使用xtable完整地查看KWIC输出,然后创建随机数列表以识别和复制并粘贴随机示例。但对于较大的语料库,这不起作用,因为KWIC对象中有超过500,000个示例。
有没有办法对此进行编码,所以我可以将KWIC对象限制为只有30或40个点击的随机样本,而不是所有点击的列表?非常感谢您的帮助。我没有在文档中看到任何明显的方法。
好吧,我应该更努力地试图找到我自己的问题的答案。以下代码适用于我希望做的事情:
requirekwic < - kwic(cfrcorpus,pattern =“requir *”,window = 50)
samplerequirekwic < - requirekwic [sample(nrow(requirekwic),15),]