在scribd.com上阅读BOOKS时,未启用下载功能。即使浏览html源代码,我也无法下载实际的书。好东西...但是他们怎么做到的呢?我正在寻找实现类似的方法,以显示pdf(或从pdf转换)的方式,以使访问者无法下载文件
我见过的大多数解决方案都是基于模糊化URL的。 ScribD似乎已经很好地涵盖了这一点。]
任何建议,想法如何实施这种下载保护?
它实际上是根据翻转页面时发出的AJAX请求来动态创建HTML的。它不是基于图像的。因此,您很难下载内容。
但是,目前还不安全。我在下面提供了一个解决方案,用于下载今天(2020年1月27日)有效的图书,而不是教您如何做(这是不合法的),而是向您展示如何预防(或至少使之更加困难)如果您正在构建类似的东西,用户将无法下载内容。
[如果您有付费帐户并打开书页(单击“开始阅读”时打开的书页,则可以通过加载dom-to-image等库来下载每个书页的图像。
例如,您可以使用开发人员工具加载库(下面显示的所有代码都必须在页面控制台中键入:]
if (injectDomToImage == undefined) {
var injectDomToImage = document.createElement('script');
injectDomToImage.src = "https://cdnjs.cloudflare.com/ajax/libs/dom-to-image/2.6.0/dom-to-image.min.js";
document.getElementsByTagName('head')[0].appendChild(injectDomToImage);
}
然后,您可以定义以下功能:
function downloadPage(page, prefix) {
domtoimage.toJpeg(document.getElementsByClassName('reader_and_banner_container')[0], {
quality: 1,
})
.then(function(dataUrl) {
var link = document.createElement('a');
link.download = `${prefix}_page_${page}.jpg`;
link.href = dataUrl;
link.click();
nextPage(page, prefix);
});
}
function checkPageChanged(page, oldPageCounter, prefix) {
let newPageCounter = $('.page_counter').html();
if (oldPageCounter === newPageCounter) {
setTimeout(function() {
checkPageChanged(page, oldPageCounter, prefix);
}, 500);
} else {
setTimeout(function() {
downloadPage(page + 1, prefix);
}, 500);
}
}
function nextPage(page, prefix) {
let oldPageCounter = $('.page_counter').html();
$('.next_btn').trigger('click');
// Wait until page counter has changed (page loading has finished).
checkPageChanged(page + 1, oldPageCounter, prefix);
}
function download(prefix) {
downloadPage(1, prefix);
}
最后,您可以使用以下方式将每个书页下载为JPG图像:
download('test_');
它将下载每个页面作为test_page_.jpg
[例如,为了防止此类“机器人”,他们可以使用Re-CAPTCHA v3,该软件可在后台寻找类似“机器人”的行为。