PDF → Word 変換ツール
PDFファイルをアップロードして、編集可能なWord文書にワンクリック変換
PDFファイルをここにドラッグ&ドロップ、またはクリックして選択
.pdf形式に対応
PDF→Word変換とは?
PDF→Word変換は、PDFファイルを編集可能なWord文書(.docx)に素早く変換するオンラインツールです。PDFはプラットフォーム間でレイアウトが保たれますが、内容を直接編集することはできません。Word形式に変換すれば、テキストの修正、フォーマットの調整、内容の追加が自由にできます。
ファイルはToolActの変換サービスにアップロードされ、サーバー側でPDFのテキストレイヤーが解析され、画像が保持され、表構造が再構築されたうえで.docxファイルが返されます。ファイルは変換完了後、直ちにサーバーから削除されます。
公開や提出の前に、出力ファイルを開いて可読性、トリミング、解像度、順序、内容の欠落を確認してください。
使い方
使い方
- アップロードエリアをクリックまたはPDFファイルを直接ドラッグ
- 出力形式を選択(DOCXまたはDOC)し、「Wordに変換」をクリック
- 変換後、「Wordをダウンロード」をクリックしてファイルをローカルに保存
- さらにファイルを変換する場合は「別のファイルを変換」をクリックして再アップロード
変換に関する期待
- PDFからWordへの変換では、レイアウト、フォント、表、スキャンされたテキストが完全に保持されない場合があります
- 編集や共有する前にDOCXを確認してください。特に契約書、履歴書、フォームの場合に重要です
利用シーン
仕組み
PDF(PDF 1.7のISO 32000-1、PDF 2.0のISO 32000-2)は固定レイアウト形式であり、ページコンテンツはフローティングドキュメントモデルではなく描画演算子(フォント選択の`Tf`、テキストカーソル位置指定の`Td`、グリフ文字列表示の`Tj`、テキストマトリックスの`Tm`)のストリームです。ファイルレベルでは段落や見出し、テーブルの概念はなく、絶対配置されたグリフランによって生み出された視覚的アーティファクトです。ZIPコンテナ内の`<w:p>`段落、`<w:tbl>`テーブル、ランプロパティを持つフローティングモデルであるDOCX(Office Open XML、ECMA-376 / ISO/IEC 29500)への変換は、翻訳ではなく再構築の問題となります。テキスト抽出自体は、各埋め込みフォント内のPDFの`ToUnicode` CMapに依存します。CMapが欠落しているか、グリフIDをプライベート使用Unicodeコードポイントにマッピングしている(よくあるコピーガードパターン)場合、ページは正しくレンダリングされてもOCRなしで可視文字を復元することはできません。 アップロードされたPDFはToolActのサーバー側変換エンジンで解析されます。エンジンはページコンテンツストリームを位置付きテキストランとして読み取り、その上に文書構造を再構築します。段落の再構築には、y座標で(おおよそ1行高さの範囲内で)ランをクラスタリングし、x座標でソートし、x開始位置のヒストグラムからカラム境界を検出し、ラン間のギャップから改行を推測する必要があります。テーブルの再構築はより困難です:罫線付きテーブルはページの線演算子(`re`、`l`、`S`)をグリッドに交差させてセルにテキストランを割り当てることで復元できます。罫線なしテーブルはTabulaやCamelotのようなカラム検出ヒューリスティクスを必要とし、結合セルや複数行セルでは精度が急激に低下します。画像はページのXObject辞書から取得され、DOCXの`media/`フォルダに再埋め込みされます。 DOCX出力は`[Content_Types].xml`、`word/document.xml`、`word/styles.xml`とメディアを含むZIPとしてアセンブルされます。ラウンドトリップ忠実度には限界があります:本文が1段組みのテキスト由来PDFはきれいに往返しますが、複数段組みの科学論文レイアウト、罫線なしテーブル、数式組版、CMapが欠落したリガチャ、回転テキストはすべて品質が低下します。任意のPDFの100%保持は、ソースモデルがターゲットより厳密に表現力が高いため、証明可能な不可能です。ファイルは変換完了後、直ちにサーバーから削除されます。
- PDF仕様:ISO 32000-1(PDF 1.7)/ ISO 32000-2(PDF 2.0)。ページコンテンツは配置済みグリフを描画する演算子(`Tf`、`Td`、`Tj`、`Tm`)のストリームであり、ファイルレベルでは段落・見出し・テーブルの概念はありません。
- DOCX仕様:Office Open XML、ECMA-376 / ISO/IEC 29500。XMLパーツ(`word/document.xml`、`word/styles.xml`、`[Content_Types].xml`)のZIPで、`<w:p>`段落と`<w:tbl>`テーブルを持つフローティングモデルです。
- テキスト抽出はフォントのToUnicode CMapに依存。CMapが欠落しているかPUAマッピングされたPDFは正しくレンダリングされますが抽出結果は文字化けとなり、OCRフォールバックが必要になります。
- ファイルはToolActのサーバー側変換エンジンにアップロードされ、変換完了後、直ちにサーバーから削除されます。
- 段落再構築:テキストランをy座標で約1行高さの範囲内でクラスタリングし、x座標でソートし、x開始のヒストグラムからカラムを検出し、ラン間のギャップから改行を推測します。
- テーブル再構築:罫線付きテーブルは`re`/`l`/`S`線演算子をグリッドに交差させて復元。罫線なしテーブルはカラム検出ヒューリスティクス(Tabula/Camelot)を必要とし、結合セルや複数行セルでは品質が低下します。
- PDF→DOCXの100%保持は証明可能な不可能です——ソースモデルがターゲットより厳密に表現力が高いためです。複数段組みの科学論文レイアウト、罫線なしテーブル、数式組版、回転テキストの劣化が最も顕著です。
使用例
契約書の編集
受け取った PDF 契約書の条項を修正したい場合、Word に変換すればそのまま編集できる。レポートの再利用
PDF レポートを Word に変換し、データや図表を抽出して新しいドキュメントに活用する。論文の引用
PDF 論文の一節を引用したいときは、Word に変換すればコピー&ペーストが容易になる。よくある質問
PDFはこのデバイス内に保持されますか?
いいえ。PDFは当社の変換サーバーにアップロードされ、そこで解析され、Wordファイルがダウンロードとして返されます。個人ID、署名済み契約書、機密報告書を含むPDFのアップロードは避け、それらにはローカルでデスクトップ変換ツールを使用してください。
スキャンしたPDFは編集可能なテキストになりますか?
PDFに既にテキストレイヤーが含まれている場合のみです。OCRなしの純粋な画像スキャンは、Wordページに埋め込まれた画像として出力され、単語は検索も編集もできません。実際のテキストが必要な場合は、アップロード前にPDFにOCRを実行してください。
どの出力形式をダウンロードできますか?
変換ツールは.docx(Word 2007以降のXML形式)を生成します。結果はMicrosoft Word、Google Docs、WPS、LibreOfficeで開けます。本エンドポイントでは他のWord互換形式には対応していません——別の形式が必要な場合は、お使いのエディタで.docxを再保存してください。
レイアウトが元のPDFと異なるのはなぜですか?
PDFはページ上の位置決めされたグリフを記述しますが、Wordは流動的な段落を記述します。多段組レイアウト、サイドバー、脚注、複雑な表は最善努力で再構築され、多くの場合手動でのクリーンアップが必要です。1段組の本文は通常きれいに転送されます。
表、リスト、数式は保持されますか?
境界線が見える単純な表はかなりよく変換されます。境界線のない表、ネストされた表、結合セル、段落インデントで生成された箇条書きは、プレーンテキストや壊れた表の断片として返されることがよくあります。LaTeXやWord数式エディタで組まれた数式は通常画像にフラット化されます。
埋め込みフォントと色は引き継がれますか?
標準フォント(Times、Arial、Helvetica、一般的なCJKファミリー)は名前で引き継がれます。カスタムフォントをサブセットとして埋め込んだPDFは、Wordで類似のフォールバックでレンダリングされ、カーニングと改行がわずかにずれる可能性があります。
ページ数やサイズの制限はありますか?
非常に長いPDF(数百ページ)や数千枚の高解像度画像を含むファイルはタイムアウトする可能性があります。変換が失敗した場合は、PDFを小さなチャンクに分割するか、埋め込み画像を先に圧縮してみてください。