如何将含有大量表格的HTML文档转换为Word文档?

问题描述 投票:0回答:5

我创建了一个包含许多表格的 HTML 文档。如何将文档转换为Word?

问题是,如果我用 Word 打开 HTML 文档,由于某种原因我会得到非标准的双行表格。

<table border="1" color="#000000" cellpadding="0" cellspacing="0" width=100%>
<tr>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
</tr>
<tr>
<td width = 15%>0</td>
<td width = 15%>0</td>
<td width = 40%>0</td>
<td> - </td>
</tr>
</table>
html ms-word html-table
5个回答
7
投票

最简单的解决方案:在浏览器中打开 HTML,选择表格(或整个文档)并复制然后粘贴到 Word 中。首先粘贴到 Excel 中,然后从那里复制并粘贴到 Word 中,您可能会得到更好的结果(感谢 Josiah 的提示)。这通常效果很好,特别是当表格在 IE 中看起来不错/正确时。

还有其他解决方案,但它们要复杂得多:您需要一个 HTML 解析器和一些可以创建 OOXML 文件的东西。如果你想尝试这个,请使用 Python 和 Beautiful Soup 作为 HTML 解析器。这个问题解释了如何编写 OOXML:How can I create a Word document using Python?

请注意,此解决方案的工作量可能需要 1-2 周。


3
投票

解决了使用css样式将大量表格转换为Word文档的问题。用Word打开Generate.html后所有表格正常

文件 CSSTable.css

table.CSSTable {
border-width: 1px;
border-spacing: 0px;
border-style: solid;
border-color: black;
border-collapse: collapse;
background-color: white;
}
table.CSSTable th {
    border-width: 1px;
    padding: 0px;
    border-style: solid;
    border-color: black;
    background-color: white;
    -moz-border-radius: ;
}
table.CSSTable td {
    border-width: 1px;
    padding: 0px;
    border-style: solid;
    border-color: black;
    background-color: white;
    -moz-border-radius: ;
}

生成.html

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf8">
<link rel="stylesheet" href="CSSTable.css" type="text/css">
</head>
<body>
<table class="CSSTable" width=100%>
<tr>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
</tr>
<tr>
<td width = 15%>0</td>
<td width = 15%>0</td>
<td width = 40%>0</td>
<td> - </td>
</tr>
</table>

1
投票

您可以使用

altChunk
,前提是文档要在 Word 中打开。只需要文字才能打开它。

就 Microsoft 的

OpenXML
SDK 类而言: 您需要
AlternativeFormatImportPart
类型
AlternativeFormatImportPartType.Html

参见 thisthis 获取示例


0
投票

出版号 优先权日期 出版日期 受让人 职务 US4536518A * 1979-11-01 1985-08-20 Pfizer Inc. 顺式-4-苯基-1,2,3,4-四氢-1-萘胺的抗抑郁衍生物 US4962128A * 1989-11-02 1990-10-09 Pfizer Inc. 使用舍曲林治疗焦虑相关疾病的方法 US5248699A * 1992-08-13 1993-09-28 Pfizer Inc.舍曲林多晶型物 US5734083A * 1996-05-17 1998-03-31 Torcan Chemical Ltd. 舍曲林多晶型物 US5744501A * 1989-01-06 1998-04-28 诺登; Michael J.治疗晚期黄体期烦躁障碍的方法 US6452054B2 * 1999-12-21 2002-09-17 Teva Pharmaceutical Industries Ltd. 盐酸舍曲林多晶型物、其制备方法、含有其的组合物及其使用方法 US6495721B1 * 1999-08-09 2002-12-17 Teva Pharmaceutical Industries Ltd. 盐酸舍曲林晶型II及其制备方法 US6500987B1 * 1998-11-27 2002-12-31 Teva Pharmaceutical Industries Ltd. 盐酸舍曲林多晶型物 US6897340B2 * 2002-04-29 2005-05-24 Teva Pharmaceutical Industries Ltd. 盐酸舍曲林多晶型II的制备方法 US7067700B2 * 2001-05-31 2006-06-27 Fermion Oy 盐酸舍曲林多晶型II的制备方法


-1
投票

来自 http://www.wordbanter.com/showthread.php?t=105850

“您必须进入表格,选择 “表”,然后表属性,然后选项。在“默认单元格间距”下 取消选择“允许单元格之间有间距”。

© www.soinside.com 2019 - 2024. All rights reserved.