PDF 轉 Word 工具
上傳 PDF 檔案,一鍵轉換為可編輯的 Word 檔案
拖放 PDF 檔案到此處,或點選選擇檔案
支援 .pdf 格式
什麼是 PDF 轉 Word?
PDF 轉 Word 是一款線上檔案格式轉換工具,能夠將 PDF 檔案快速轉換為可編輯的 Word 檔案(.docx)。PDF 檔案雖然在跨平台分享時排版一致,但內容無法直接編輯。通過轉換為 Word 格式,你可以自由修改文字、調整格式、補充內容,而不用重新排版。
檔案會上傳到 ToolAct 的轉換服務,由伺服器端解析 PDF 文字圖層、保留圖片、重建表格結構,再回傳 .docx 檔案。檔案在轉換完成後立即從伺服器刪除。
在發布或提交之前,請開啟輸出檔案檢查可讀性、裁切、解析度、順序及內容是否缺失。
使用方法
使用方法
- 點選上傳區域,或直接將 PDF 檔案拖曳進去
- 選擇輸出格式(DOCX 或 DOC),再點選「轉換為 Word」
- 轉檔完成後,點選「下載 Word」將檔案存到本機
- 需要轉換更多檔案嗎?點選「轉換其他檔案」即可重新上傳
轉換效果說明
- PDF 轉 Word 可能無法完美保留原始版面、字型、表格或掃描文字。
- 編輯或分享前請先檢查 DOCX 內容,尤其是合約、履歷和表單。
使用場景
技術原理
PDF(ISO 32000-1 對應 PDF 1.7,ISO 32000-2 對應 PDF 2.0)是一種固定版面格式,其頁面內容是一連串繪圖運算子(`Tf` 選擇字型、`Td` 定位文字游標、`Tj` 顯示字元字串、`Tm` 設定文字矩陣),而非流動文件模型。在檔案層級沒有段落、標題或表格的概念;這些都是由絕對定位的字元執行產生的視覺效果。因此,將其轉換為 DOCX(Office Open XML,ECMA-376 / ISO/IEC 29500)——這是一種帶有 `<w:p>` 段落、`<w:tbl>` 表格和 ZIP 容器內執行屬性的流動模型——是一個重建問題而非翻譯。文字提取本身依賴每個嵌入字型中的 PDF `ToUnicode` CMap:如果 CMap 缺失或將字元 ID 映射到私用區 Unicode 碼點(一種常見的防拷貝模式),即使頁面正確渲染,可見字元也無法恢復,只能依賴 OCR。 上傳的 PDF 由 ToolAct 的伺服器端轉換引擎解析:將頁面內容串流讀取為帶定位資訊的文字執行,並在其上重建文件結構。重建段落需要按 y 座標(大約一行高內)對這些執行進行聚類、按 x 座標排序、從 x 起始位置的直方圖偵測欄位邊界,並從間距推斷換行。表格重建更為困難:有框線的表格可以透過將頁面的線段運算子(`re`、`l`、`S`)交叉為網格並將文字執行分配到儲存格來恢復;無框線表格需要 Tabula 或 Camelot 中的欄位偵測啟發式方法,且在合併儲存格或多行列時準確度急劇下降。圖片從頁面的 XObject 字典中提取並重新嵌入到 DOCX 的 `media/` 資料夾中。 DOCX 輸出組裝為包含 `[Content_Types].xml`、`word/document.xml`、`word/styles.xml` 和任何媒體的 ZIP。往返保真度有其上限:單欄正文的文字型 PDF 往返效果良好;多欄科學排版、無框線表格、數學排版、CMap 缺失的連字和旋轉文字都會降低品質。100% 保留任意 PDF 是可證明地不可能的,因為來源模型嚴格地比目標更具表達力。檔案在轉換完成後立即從伺服器刪除。
- PDF 規範:ISO 32000-1(PDF 1.7)/ ISO 32000-2(PDF 2.0)。頁面內容是一連串繪製定位字元的運算子(`Tf`、`Td`、`Tj`、`Tm`)——在檔案層級沒有段落/標題/表格。
- DOCX 規範:Office Open XML,ECMA-376 / ISO/IEC 29500。一個包含 XML 部件(`word/document.xml`、`word/styles.xml`、`[Content_Types].xml`)的 ZIP,帶有 `<w:p>` 段落和 `<w:tbl>` 表格——一種流動模型。
- 文字提取依賴字型的 ToUnicode CMap;缺失或 PUA 映射 CMap 的 PDF 能正確渲染但提取結果為亂碼,迫使回退到 OCR。
- 檔案上傳至 ToolAct 的伺服器端轉換引擎處理,轉換完成後立即從伺服器刪除。
- 段落重建:按 y 座標在約 1 行高內對文字執行聚類、按 x 排序、從 x 起始直方圖偵測欄位、從執行間間距推斷換行。
- 表格重建:有框線表格來自將 `re`/`l`/`S` 線段運算子交叉為網格;無框線表格需要欄位偵測啟發式方法(Tabula/Camelot),在合併或多行儲存格上效果下降。
- 100% 的 PDF→DOCX 保留是可證明地不可能的——來源模型嚴格地比目標更具表達力。多欄科學排版、無框線表格、數學排版及旋轉文字降幅最為明顯。
範例
合約編輯
收到 PDF 合約需要修改條款?轉成 Word 即可直接編輯。報告再利用
將 PDF 報告轉成 Word,擷取資料與圖表用於新文件。論文引用
需要引用 PDF 論文中的段落?轉成 Word 後可輕鬆複製貼上。常見問題
我的 PDF 會留在這台裝置上嗎?
不會。PDF 會上傳到我們的轉換伺服器解析後,再以 Word 檔回傳給你下載。請避免上傳含有身分證件、已簽署合約或機密報告的 PDF——這類檔案請改用本機桌面轉換工具處理。
掃描版 PDF 會變成可編輯的文字嗎?
只有當 PDF 已經包含文字圖層時才會。沒有 OCR 的純圖片掃描檔,輸出後是嵌在 Word 頁面裡的圖片,文字無法搜尋也無法編輯。如果需要真正的文字,請在上傳前先對 PDF 執行 OCR。
可以下載哪些輸出格式?
轉換器輸出 .docx(Word 2007+ XML 格式)。結果可在 Microsoft Word、Google Docs、WPS 或 LibreOffice 中開啟。本端點不支援其他 Word 相容格式——如需其他格式,請在你選用的編輯器中重新另存 .docx。
為什麼版面跟原始 PDF 不一樣?
PDF 描述的是頁面上各字元的精確位置;Word 描述的是流動段落。多欄版面、側邊欄、註腳與複雜表格都是盡力重建,通常需要手動整理。單欄正文通常能順利轉換。
表格、清單與公式會被保留嗎?
有可見邊框的簡單表格轉換得相當不錯。沒有邊框的表格、巢狀表格、合併儲存格,以及靠段落縮排做出的項目符號清單,常會變成純文字或損壞的表格碎片。用 LaTeX 或 Word 公式編輯器排版的數學公式,多半會被壓平成圖片。
嵌入的字型與顏色會跟著轉換嗎?
標準字型(Times、Arial、Helvetica,以及常見的中日韓字型家族)會依名稱保留。若 PDF 嵌入的是自訂字型的子集,在 Word 中會以相近字型替代,可能讓字距與斷行略為位移。
頁數或檔案大小有限制嗎?
極長的 PDF(數百頁)或包含上千張高解析圖片的檔案可能會逾時。若轉換失敗,請試著把 PDF 切分為較小區塊,或先壓縮其中的內嵌圖片。