PDF 转 Word 工具
上传 PDF 文件,一键转换为可编辑的 Word 文档
拖放 PDF 文件到此处,或点击选择文件
支持 .pdf 格式
什么是 PDF 转 Word?
PDF 转 Word 是一款在线文档格式转换工具,能够将 PDF 文件快速转换为可编辑的 Word 文档(.docx)。PDF 文件虽然在跨平台分享时排版一致,但内容无法直接编辑。通过转换为 Word 格式,你可以自由修改文字、调整格式、补充内容,而不用重新排版。
文件会上传到 ToolAct 的转换服务,由服务端解析 PDF 文本层、保留图片、重建表格结构,再返回 .docx 文件。文件在转换完成后立即从服务器删除。
在发布或提交之前,请打开输出文件检查可读性、裁剪、分辨率、顺序及内容是否缺失。
使用方法
使用方法
- 点击上传区域或直接拖拽 PDF 文件到上传区
- 选择输出格式(DOCX 或 DOC),然后点击「转换为 Word」
- 转换完成后点击「下载 Word」将文件保存到本地
- 需要转换更多文件?点击「转换其他文件」重新上传
转换预期
- PDF 转 Word 可能无法完美保留原始排版、字体、表格或扫描文字。
- 编辑或分享前请检查 DOCX 文件,尤其是合同、简历和表单类文档。
使用场景
技术原理
PDF(ISO 32000-1 对应 PDF 1.7,ISO 32000-2 对应 PDF 2.0)是一种固定布局格式,其页面内容是由绘图操作符组成的流(`Tf` 选择字体、`Td` 定位文本光标、`Tj` 显示字形字符串、`Tm` 设置文本矩阵),而非流式文档模型。文件层面没有段落、标题或表格的概念——这些视觉效果都是通过绝对定位的字形排列实现的。因此,将 PDF 转换为 DOCX(Office Open XML,ECMA-376 / ISO/IEC 29500)——一种在 ZIP 容器中包含 `<w:p>` 段落、`<w:tbl>` 表格和 run 属性的流式模型——本质上是一个重建问题,而非翻译问题。文本提取依赖于 PDF 中每个嵌入字体内的 `ToUnicode` CMap:如果 CMap 缺失或将字形 ID 映射到私用区 Unicode 码位(一种常见的防复制手段),即使页面能正常渲染,也无法恢复可见字符,只能回退到 OCR。 上传的 PDF 由 ToolAct 的服务端转换引擎解析:将页面内容流读取为带定位信息的文本 run,并在其上重建文档结构。重建段落需要按 y 坐标对这些 run 进行聚类(大致在一个行高范围内),按 x 坐标排序,从 x 起始位置的直方图中检测列边界,并根据间距推断换行。表格重建更加困难:有边框表格可以通过将页面的线操作符(`re`、`l`、`S`)相交为网格来恢复,并将文本 run 分配到单元格中;无边框表格需要使用类似 Tabula 或 Camelot 的列检测启发式算法,在合并单元格或多行行的情况下精度会急剧下降。图片从页面的 XObject 字典中提取,并重新嵌入到 DOCX 的 `media/` 文件夹中。 DOCX 输出组装为一个 ZIP,包含 `[Content_Types].xml`、`word/document.xml`、`word/styles.xml` 以及媒体文件。往返保真度存在上限:单栏正文的文本型 PDF 可以干净地往返转换;多栏科学版面、无边框表格、数学排版、CMap 缺失的连字以及旋转文本都会导致质量下降。100% 保留任意 PDF 在理论上是不可能的,因为源模型的表达能力严格大于目标模型。文件在转换完成后立即从服务器删除。
- PDF 规范:ISO 32000-1(PDF 1.7)/ ISO 32000-2(PDF 2.0)。页面内容是由操作符(`Tf`、`Td`、`Tj`、`Tm`)组成的流,用于绘制定位字形——文件层面没有段落/标题/表格概念。
- DOCX 规范:Office Open XML,ECMA-376 / ISO/IEC 29500。一个包含 XML 部件(`word/document.xml`、`word/styles.xml`、`[Content_Types].xml`)的 ZIP,具有 `<w:p>` 段落和 `<w:tbl>` 表格——属于流式模型。
- 文本提取依赖字体的 ToUnicode CMap;CMap 缺失或映射到私用区的 PDF 虽能正常渲染,但提取结果为乱码,只能回退到 OCR。
- 文件上传至 ToolAct 的服务端转换引擎处理,转换完成后立即从服务器删除。
- 段落重建:按 y 坐标在约一个行高范围内聚类文本 run,按 x 坐标排序,从 x 起始位置直方图检测列边界,根据 run 间距推断换行。
- 表格重建:有边框表格通过将 `re`/`l`/`S` 线操作符相交为网格获得;无边框表格需要列检测启发式算法(Tabula/Camelot),在合并或多行单元格上精度下降。
- 100% 的 PDF->DOCX 保留在理论上是不可能的——源模型的表达能力严格大于目标模型。多栏科学版面、无边框表格、数学排版及旋转文本质量下降最明显。
示例
合同修改
收到 PDF 合同需要改条款?转成 Word 直接编辑就行。报告复用
把 PDF 报告转成 Word,方便提取里面的数据和图表用到新文档里。论文引用
想引用 PDF 论文里的某段文字?转成 Word 复制粘贴更方便。常见问题
我的 PDF 会保留在本地设备吗?
不会。PDF 会上传到我们的转换服务器解析,然后将 Word 文件作为下载返回。请避免上传含有身份证件、签字合同或机密报告的 PDF——这些请使用本地的桌面转换器处理。
扫描版 PDF 会变成可编辑文本吗?
只有当 PDF 已包含文本层时才会。没有 OCR 的纯图像扫描件会以图片形式嵌入到 Word 页面中;文字既不可搜索也不可编辑。如果需要真实文本,请先对 PDF 执行 OCR 再上传。
可以下载哪些输出格式?
转换器输出 .docx(Word 2007+ XML 格式)。结果可在 Microsoft Word、Google Docs、WPS 或 LibreOffice 中打开。本接口不支持其他 Word 兼容格式——如需其他格式,请在你选择的编辑器中重新另存 .docx。
为什么排版与原 PDF 有差异?
PDF 描述的是页面上定位好的字形;Word 描述的是流式段落。多栏排版、侧边栏、脚注和复杂表格只能尽力还原,往往需要手动整理。单栏正文通常能干净地迁移过来。
表格、列表和公式会被保留吗?
带可见边框的简单表格转换效果尚可。无边框表格、嵌套表格、合并单元格以及通过段落缩进生成的项目符号列表常常会变成纯文本或破碎的表格片段。LaTeX 或 Word 公式编辑器排版的数学公式通常会被压平为图片。
嵌入的字体和颜色会保留吗?
标准字体(Times、Arial、Helvetica、常用 CJK 字体族)会按名称保留。如果 PDF 嵌入了自定义字体子集,在 Word 中可能会用相似字体替代渲染,导致字距和换行轻微偏移。
有页数或大小限制吗?
非常长的 PDF(数百页)或包含数千张高分辨率图片的文件可能会超时。如果转换失败,请尝试将 PDF 拆分成较小的块,或先压缩内嵌图片。