ToolActToolAct

PDF to Word 변환 도구

PDF 파일을 업로드하고 원클릭으로 편집 가능한 Word 문서로 변환

문서 업로드

PDF 파일을 여기에 드래그하거나 클릭하여 선택

.pdf 형식 지원

PDF to Word 변환이란?

PDF to Word는 PDF 파일을 편집 가능한 Word 문서(.docx)로 빠르게 변환하는 온라인 도구입니다. PDF는 플랫폼 간 레이아웃이 유지되지만 내용을 직접 편집할 수 없습니다. Word 형식으로 변환하면 텍스트 수정, 서식 조정, 내용 추가가 자유롭게 가능합니다.

파일은 ToolAct의 변환 서비스로 업로드되며, 서버에서 PDF의 텍스트 레이어를 분석하고 이미지를 보존하며 표 구조를 재구성한 후 .docx 파일을 반환합니다. 변환이 완료되면 파일은 즉시 서버에서 삭제됩니다.

게시 또는 제출 전에 출력 파일을 열어 가독성, 잘림, 해상도, 순서 및 누락된 콘텐츠를 확인하세요.

사용 방법

사용 방법

  1. 업로드 영역을 클릭하거나 PDF 파일을 드래그하세요
  2. 출력 형식(DOCX 또는 DOC)을 선택한 후 'Word로 변환'을 클릭하세요
  3. 변환 후 'Word 다운로드'를 클릭하여 파일을 로컬에 저장하세요
  4. 더 많은 파일을 변환하려면 '다른 파일 변환'을 클릭하여 다시 업로드하세요

변환 기대치

  • PDF를 Word로 변환하면 레이아웃, 글꼴, 표 또는 스캔된 텍스트가 완벽하게 유지되지 않을 수 있습니다.
  • 편집이나 공유 전에 DOCX를 검토하세요. 특히 계약서, 이력서, 양식의 경우 더욱 주의하세요.

활용 사례

PDF 파일을 Word 문서로 변환PDF를 대상으로 DOCX 또는 DOC를 선택하고 문서 변환 엔드포인트로 파일을 전송합니다. 작업이 성공하면 변환된 Word 파일을 다운로드하고 소스 및 출력 크기 변환 통계를 확인합니다. DOCX는 스타일, 목록, 표 등 최신 Word 기능을 유지하고, DOC는 주로 Word 97-2003 구버전용 폴백입니다.
검토 워크플로를 위한 편집 가능한 콘텐츠 복구PDF에 댓글, 구조 변경, 번역, 내부 편집이 필요할 때 이 도구가 Word 호환 파일로의 직접적인 경로를 제공합니다. 파일명은 서버가 다운로드 파일명을 반환하지 않는 한 선택한 Word 확장자와 원본 PDF 이름이 기본값이며, 결과 DOCX는 원본 PDF에 없었던 페이지 재구성, 앵커 링크, 접근성 태깅을 위한 가장 깔끔한 기반입니다.
명확한 상태 표시로 일회성 문서 변환 수행페이지가 소스 파일이 PDF인지 검증하고, 선택한 파일 크기를 표시하며, 처리 중 변환을 비활성화하고, 성공 후 다운로드 또는 다른 파일 변환 작업을 노출합니다. 배치 처리가 아닌 집중된 단일 파일 변환 흐름을 위해 설계되었으므로, 매우 큰 매뉴얼의 경우 PDF를 챕터별로 분할한 후 각 조각을 개별적으로 변환하여 서버 타임아웃을 방지하는 것이 가장 좋습니다.
레드라인 전에 오래된 PDF 계약서를 Word에서 편집PDF를 DOCX로 변환하고 Word나 WPS에서 연 후 편집 가능한 복사본에 변경 추적을 적용합니다. 최종 편집 후 다시 PDF로 내보내면 레드라인 버전이 안정적이고 인쇄 가능한 형식으로 상대방에게 전달됩니다. 페이지 번호, 조항 번호, 서명란은 변환 후 수동 정리가 필요한 경우가 많으며, 변환기가 원본의 정확한 줄 바꿈을 항상 보존하지는 않습니다.
스캔 또는 이미지 전용 PDF에서 텍스트 복구원본 PDF에 실제 텍스트 레이어가 이미 포함되어 있다면, 변환 시 단어가 그대로 보존되어 Word에서 직접 편집할 수 있습니다. 순수 이미지 스캔이나 사진 촬영된 문서는 페이지가 임베드된 이미지로 렌더링되어 추출 가능한 텍스트가 없는 상태로 출력될 수 있습니다 — 이 경우 업로드 전에 로컬에서 OCR을 실행하거나 전용 OCR 도구를 사용하세요. 다단 레이아웃이나 테두리 없는 표도 잘못 재배치될 수 있으므로 재발행 전에 DOCX를 확인하세요.

기술 원리

PDF(PDF 1.7용 ISO 32000-1 및 PDF 2.0용 ISO 32000-2)는 고정 레이아웃 형식으로, 페이지 콘텐츠는 유동적 문서 모델이 아닌 그리기 연산자 스트림(`Tf`로 글꼴 선택, `Td`로 텍스트 커서 위치 지정, `Tj`로 글리프 문자열 표시, `Tm`으로 텍스트 행렬)입니다. 파일 수준에서 단락, 제목, 표의 개념은 없으며, 이들은 절대적으로 위치 지정된 글리프 실행에 의해 생성되는 시각적 산출물입니다. ZIP 컨테이너 내 `<w:p>` 단락, `<w:tbl>` 표 및 실행 속성을 가진 유동적 모델인 DOCX(Office Open XML, ECMA-376 / ISO/IEC 29500)로의 변환은 번역이 아닌 재구성 문제입니다. 텍스트 추출 자체는 각 삽입된 글꼴 내 PDF의 `ToUnicode` CMap에 의존합니다: CMap이 없거나 글리프 ID를 사설 사용 유니코드 코드포인트에 매핑하는 경우(일반적인 복사 방지 패턴) 페이지가 올바르게 렌더링되더라도 OCR 없이는 가시 문자를 복구할 수 없습니다. 업로드된 PDF는 ToolAct의 서버 측 변환 엔진에 의해 분석되며, 페이지 콘텐츠 스트림을 위치 지정된 텍스트 실행으로 읽고 그 위에 문서 구조를 재구성합니다. 단락 재구성은 y좌표로 실행을 클러스터링(대략 한 줄 높이 내), x좌표로 정렬, x-시작 히스토그램에서 열 경계 감지, 실행 간 간격에서 줄 바꿈을 추론해야 합니다. 표 재구성은 더 어렵습니다: 테두리가 있는 표는 페이지의 선 연산자(`re`, `l`, `S`)를 격자로 교차시켜 셀에 텍스트 실행을 배정하여 복구할 수 있습니다. 테두리 없는 표는 Tabula나 Camelot의 열 감지 휴리스틱이 필요하며, 병합된 셀이나 다중 행에서 정확도가 급격히 떨어집니다. 이미지는 페이지의 XObject 사전에서 추출되어 DOCX `media/` 폴더에 재삽입됩니다. DOCX 출력은 `[Content_Types].xml`, `word/document.xml`, `word/styles.xml` 및 미디어를 포함하는 ZIP으로 조립됩니다. 왕복 충실도에는 한계가 있습니다: 단일 열 본문 텍스트의 텍스트 기반 PDF는 깔끔하게 왕복됩니다. 다중 열 과학 레이아웃, 테두리 없는 표, 수학 조판, CMap이 없는 합자, 회전된 텍스트 등은 모두 저하됩니다. 임의 PDF의 100% 보존은 증명 가능하게 불가능합니다. 소스 모델이 대상보다 엄격하게 더 표현력이 높기 때문입니다. 변환이 완료되면 파일은 즉시 서버에서 삭제됩니다.

  • PDF 사양: ISO 32000-1(PDF 1.7) / ISO 32000-2(PDF 2.0). 페이지 콘텐츠는 위치 지정된 글리프를 그리는 연산자(`Tf`, `Td`, `Tj`, `Tm`) 스트림입니다—파일 수준에서 단락/제목/표가 없습니다.
  • DOCX 사양: Office Open XML, ECMA-376 / ISO/IEC 29500. `<w:p>` 단락과 `<w:tbl>` 표를 가진 XML 파트(`word/document.xml`, `word/styles.xml`, `[Content_Types].xml`)의 ZIP—유동적 모델입니다.
  • 텍스트 추출은 글꼴의 ToUnicode CMap에 의존합니다. CMap이 없거나 PUA에 매핑된 PDF는 올바르게 렌더링되지만 엉뚱한 문자로 추출되어 OCR 대체를 강제합니다.
  • 파일은 ToolAct의 서버 측 변환 엔진으로 업로드되며 변환이 완료되면 즉시 서버에서 삭제됩니다.
  • 단락 재구성: y좌표로 텍스트 실행을 약 1줄 높이 내에서 클러스터링하고, x로 정렬하고, x-시작 히스토그램에서 열을 감지하고, 실행 간 간격에서 줄 바꿈을 추론합니다.
  • 표 재구성: 테두리가 있는 표는 `re`/`l`/`S` 선 연산자를 격자로 교차시켜 생성됩니다. 테두리 없는 표는 열 감지 휴리스틱(Tabula/Camelot)이 필요하며 병합되거나 다중 행 셀에서 저하됩니다.
  • 100% PDF->DOCX 보존은 증명 가능하게 불가능합니다 — 소스 모델이 대상보다 엄격하게 더 표현력이 높습니다. 다중 열 과학 레이아웃, 테두리 없는 표, 수학 조판, 회전된 텍스트가 가장 많이 저하됩니다.

예시

계약서 편집

PDF로 받은 계약서의 조항을 수정해야 한다면? Word로 변환해 바로 편집하세요.

보고서 재활용

PDF 보고서를 Word로 변환해 데이터와 차트를 추출하고 새 문서에 활용하세요.

논문 인용

PDF 논문에서 한 단락을 인용해야 할 때? Word로 변환해 손쉽게 복사·붙여넣기 하세요.

자주 묻는 질문

PDF가 이 기기에만 저장되나요?

아니요. PDF는 변환 서버로 업로드되어 거기서 분석되며, Word 파일이 다운로드 형태로 반환됩니다. 신분증, 서명된 계약서, 기밀 보고서가 포함된 PDF는 업로드하지 마시고, 그런 자료에는 데스크톱 변환기를 로컬에서 사용하세요.

스캔한 PDF가 편집 가능한 텍스트로 바뀌나요?

PDF에 이미 텍스트 레이어가 있을 때만 가능합니다. OCR이 적용되지 않은 순수 이미지 스캔은 Word 페이지에 이미지로 삽입되어 검색하거나 편집할 수 없습니다. 실제 텍스트가 필요하면 업로드하기 전에 PDF에 OCR을 적용하세요.

어떤 출력 형식을 다운로드할 수 있나요?

변환기는 .docx(Word 2007 이상의 XML 형식)를 생성합니다. 결과물은 Microsoft Word, Google Docs, WPS, LibreOffice에서 열 수 있습니다. 본 엔드포인트는 다른 Word 호환 형식을 지원하지 않습니다 — 다른 형식이 필요하면 사용 중인 편집기에서 .docx를 다시 저장하세요.

원본 PDF와 레이아웃이 다른 이유는 무엇인가요?

PDF는 페이지에 글리프를 위치시키는 방식으로 기술하고, Word는 흐르는 단락으로 기술합니다. 다단 레이아웃, 사이드바, 각주, 복잡한 표는 최선을 다해 재구성되지만 수동 정리가 필요한 경우가 많습니다. 단일 단의 본문 텍스트는 보통 깔끔하게 변환됩니다.

표, 목록, 수식이 보존되나요?

테두리가 보이는 단순한 표는 비교적 잘 변환됩니다. 테두리 없는 표, 중첩된 표, 병합된 셀, 단락 들여쓰기로 만든 글머리 기호 목록은 일반 텍스트나 깨진 표 조각으로 변환되는 경우가 많습니다. LaTeX나 Word 수식 편집기로 조판된 수식은 보통 이미지로 평탄화됩니다.

임베드된 글꼴과 색상은 그대로 옮겨지나요?

표준 글꼴(Times, Arial, Helvetica, 일반적인 CJK 계열)은 이름으로 그대로 옮겨집니다. 사용자 정의 글꼴을 서브셋으로 임베드한 PDF는 Word에서 비슷한 대체 글꼴로 렌더링되어 자간과 줄바꿈이 약간 달라질 수 있습니다.

페이지나 크기에 제한이 있나요?

매우 긴 PDF(수백 페이지)나 고해상도 이미지가 수천 개 들어 있는 파일은 시간 초과될 수 있습니다. 변환에 실패하면 PDF를 더 작은 단위로 분할하거나 임베드된 이미지를 먼저 압축해 보세요.