pdf2htmlEX
项目核心内容总结:
pdf2htmlEX 是一个将 PDF 文件转换为 HTML 的工具,利用现代 Web 技术实现高精度渲染,支持学术论文、杂志等复杂布局文档。
功能与特性:
- 支持原生 HTML 文本,保留精确字体和位置信息;
- 灵活输出模式:可生成单个 HTML 文件或按需加载页面(需 JavaScript);
- 优化文件大小,通常小于 PDF,支持链接、书签、打印、SVG 背景、Type 3 字体等;
- 改进处理遮挡文本(如
--correct-text-visibility参数控制可见性); - 支持 CJK 字符(如中文),适用于多语言文档。
使用方法:
- 推荐参数:
--font-size-multiplier 1 --zoom 25以避免浏览器舍入误差; - 可通过
--covered-text-dpi调整遮挡文本的渲染精度; - 建议修改 FontForge 防止生成时间戳,并通过去重减少 HTML 文件体积。
许可证:
项目整体采用 GPLv3+ 许可证,部分资源文件使用更宽松的许可证。