如何将网页转换为epub?登录到我的网站后,我需要转换带有机密数据的页面(我不必向第三面提供内容)。
您可以将网页导出为pdf。然后使用类似Calibre的格式进行转换。
[您可以使用几个网站进行转换。有EpubPress,epubor.com等。但是,另一个解决方案是使用口径的电子书转换包您使用以下方法获取html文件:
$ wget -r -np -nc -k -c http://...
然后您使用以下命令转换为html:
$ cd dir-with-index
$ ebook-convert index.html name.mobi
$ ebook-convert index.html name.epub
如果您希望多个网页都位于epub中。您可以使用scrapy python库将网页抓取为JSON文件。然后使用ebooklib python库基于该JSON文件创建电子书。
我创建了一个类似的软件。一个轻小说下载器,可以从某些站点抓取小说并制作该小说的epub版本。
示例:创建一个抓抓蜘蛛以从网页抓取所有需要的数据就我而言。本章的网页标题和内容
import scrapy
from scrapy.loader import ItemLoader
from boxnovel_final.items import EveryChapterItem
class EveryChapterSpider(scrapy.Spider):
name = 'download_a_billion_stars_cant_amount_to_you'
def start_requests(self):
urls = ['https://boxnovel.com/novel/a-billion-stars-cant-amount-to-you/chapter-1075-end', ]
for url in urls:
yield scrapy.Request(url=url,callback=self.parse)
def parse(self, response):
for data in response.selector.xpath("//div[@class='c-blog-post']"):
loader = ItemLoader(item=EveryChapterItem(),selector = data,response=response)
loader.add_xpath('chapter',".//div[@class='entry-header']/div/div[@class='select-view']/div/label/select/option[@selected='selected']/text()")
loader.add_xpath('content',".//p")
yield loader.load_item()
-阅读scrapy库以了解如何创建蜘蛛
然后我创建了一个爬虫,以搜寻小说的章节名称和内容,输出将为JSON格式
然后我将使用JSON文件通过python中的ebooklib库创建一个epub。
您可以使用Toepub.com。
允许转换为epub的格式为:
AZW,AZW3,AZW4,CBR,CBZ,CHM,DJV,DJVU,DOC,DOCX,EPUB,FB2,HTM,HTML,HTMLZ,LIT,LRF,MOBI,ODT,PDB,PDF,PML,PRC,RB, RTF,SDW,TCR,TEXT,TEXTILE,TPZ,TXT,TXTZ,UOF,WPD,WPS,XML。
我个人建议将它用于任何格式简单的文件,而不要用于带有精美装饰等的文件。为此,我强烈建议使用Calibre。它几乎支持all各种转换。它具有甚至可以编辑EPUB文件的选项。
我从个人经验中知道,它不是您初次使用时想要的应用程序。但是请相信我(我尝试了许多其他方法,但结果都不尽如人意),一旦掌握了它,它就很好了。
我最近了解到,您可以将口径与其他类型的任务相关联-通过下载应用程序本身提供的Extra Plugins来与Goodreads连接,合并EPUB。
有几种方法,这取决于您的实际用例。我在这里描述的解决方案考虑到您拥有敏感数据-因此仅使用本地工具。
我想您已有HTML网页了。如果没有,您可以通过wget,curl和其他方式获得它。
使用您的HTML页面,看看https://pandoc.org/-这是专门用于标记转换的工具。您在本地安装它,它可以将HTML转换为ePub。诸如pandoc test.html -o test.epub
之类的方法可以解决问题。请查看手册以了解详细信息。
Mobi是另一种野兽。将ePub转换为Mobi的最佳工具似乎是Amazon(https://www.amazon.com/gp/feature.html?ie=UTF8&docId=1000765211)kindlegen,但使用条款规定该软件只能用于为kindle商店创建内容。
希望这会有所帮助:-)