[使用OpenXml读取Word文档以及如何在HTML中显示单词符号

问题描述 投票:0回答:1

我正在使用OPENXML阅读Word文档。在阅读文档时,文本带有一些特殊字符,并且以符号标记的形式出现,如下所示enter image description here

如何使用该字符代码(“ F06D”)在HTML中显示特殊字符。

谢谢。

ms-word openxml word
1个回答
0
投票

    该字符是Unicode F06D字符或
  • F06D是通过将F000添加到实际代码点而创建的(非Unicode)字体内。

  • 在这种情况下,F06D位于Unicode私有区域中,因此可以合理地假定它是通过将F000添加到6D(这是Microsoft的MS Symbol字体中的小写希腊Mu字符的代码点。)而创建的。

    [要将其转换为Unicode,您需要一个表来显示符号字体中每个字形的等效Unicode代码点-例如this one shows "Adobe Symbol", which seems mostly the samethis one shows the MS Symbol font, but in a rather less helpful way

    使用第一个参考,在第3列中查找0x6D,然后从第4列中获取Unicode代码点U+03BC,然后将其转换为合适的HTML实体:μ

    即您需要编写自己的查询表,以便您执行此操作。如果您必须处理许多非Unicode字体(也许是Wingdings等),则也需要找到它们的Unicode等效字体。我没有遇到任何可以做到这一点的库,但是您可以在Python中找到某些东西,或者可以将其转换为正在使用的任何语言的东西。

  • © www.soinside.com 2019 - 2024. All rights reserved.