ToolActToolAct

Convertidor de PDF a Word

Sube un archivo PDF y conviértelo en un documento Word editable con un clic

Subir documento

Arrastra y suelta un archivo PDF aquí, o haz clic para seleccionar

Soporta formato .pdf

¿Qué es la conversión de PDF a Word?

PDF a Word es una herramienta de conversión de documentos en línea que convierte rápidamente archivos PDF en documentos Word editables (.docx). Aunque los PDF conservan el formato entre plataformas, su contenido no se puede editar directamente. Al convertir a formato Word, puedes modificar texto, ajustar formato y agregar contenido libremente.

El archivo se sube al servicio de conversión de ToolAct, donde se analiza la capa de texto del PDF, se preservan las imágenes y se reconstruyen las estructuras de tabla antes de devolver un archivo .docx. Los archivos se eliminan del servidor inmediatamente después de la conversión.

Antes de publicar o enviar, abre el archivo de salida y comprueba la legibilidad, el recorte, la resolución, el orden y si falta contenido.

Cómo usar

Cómo usar

  1. Haz clic en el área de carga o arrastra un archivo PDF directamente
  2. Elige el formato de salida (DOCX o DOC) y haz clic en 'Convertir a Word'
  3. Después de la conversión, haz clic en 'Descargar Word' para guardar el archivo localmente
  4. ¿Necesitas convertir más archivos? Haz clic en 'Convertir otro archivo' para subir de nuevo

Expectativas de conversión

  • La conversión de PDF a Word puede no conservar perfectamente el diseño, las fuentes, las tablas o el texto escaneado.
  • Revisa el DOCX antes de editarlo o compartirlo, especialmente para contratos, currículos y formularios.

Casos de uso

Convertir un archivo PDF en un documento WordParte de un PDF, elige DOCX o DOC como destino y envía el archivo al endpoint de conversión de documentos. Tras una tarea exitosa, descarga el archivo Word convertido y revisa las estadísticas de conversión del tamaño de origen y salida. DOCX preserva funciones modernas de Word como estilos, listas y tablas, mientras que DOC es principalmente un respaldo para instalaciones antiguas de Word 97-2003.
Recuperar contenido editable para flujos de revisiónCuando un PDF necesita comentarios, reestructuración, traducción o edición interna, esta herramienta proporciona una ruta directa de vuelta a un archivo compatible con Word. El nombre de archivo por defecto es el del PDF original con la extensión Word seleccionada a menos que el servidor devuelva un nombre de descarga, y el DOCX resultante es la base más limpia para repaginación, enlaces de anclaje o etiquetado de accesibilidad que el PDF original no tenía.
Ejecutar conversiones de documento puntuales con estado claroLa página valida que el archivo fuente sea un PDF, muestra el tamaño del archivo seleccionado, desactiva la conversión durante el procesamiento y expone acciones de descarga o convertir otro tras el éxito. Está diseñado para un flujo de conversión de un solo archivo enfocado, no para procesamiento por lotes, por lo que para manuales muy grandes la mejor práctica es dividir el PDF en capítulos primero y convertir cada pieza por separado para evitar tiempos de espera del servidor.
Editar un contrato PDF antiguo en Word antes de marcar cambiosConvierte el PDF a DOCX, ábrelo en Word o WPS y luego activa el seguimiento de cambios en la copia editable. Vuelve a exportar a PDF tras las ediciones finales para que la versión con cambios llegue a la contraparte en un formato estable e imprimible. Los números de página, la numeración de cláusulas y los bloques de firma suelen necesitar limpieza manual tras el ida y vuelta, ya que el conversor no siempre preserva los saltos de línea exactos del original.
Recuperar texto de un PDF escaneado o solo imagenSi el PDF de origen ya contiene una capa de texto real, la conversión preserva las palabras y puedes editarlas directamente en Word. Los escaneos de imagen pura o los documentos fotografiados pueden salir con la página renderizada como una imagen incrustada y sin texto extraíble: en ese caso, ejecuta OCR en local antes de subirlo o usa una herramienta de OCR específica. Los diseños de varias columnas y las tablas sin bordes dibujados también pueden reorganizarse incorrectamente, así que revisa el DOCX antes de volver a publicar.

Principio técnico

PDF (ISO 32000-1 para PDF 1.7 e ISO 32000-2 para PDF 2.0) es un formato de diseño fijo cuyo contenido de página es un flujo de operadores de dibujo (`Tf` para seleccionar fuente, `Td` para posicionar el cursor de texto, `Tj` para mostrar una cadena de glifos, `Tm` para la matriz de texto) en lugar de un modelo de documento flujo. No existe el concepto de párrafo, encabezado o tabla a nivel de archivo; estos son artefactos visuales producidos por ejecuciones de glifos posicionados absolutamente. Convertir a DOCX (Office Open XML, ECMA-376 / ISO/IEC 29500), que SÍ es un modelo flujo con párrafos `<w:p>`, tablas `<w:tbl>` y propiedades de ejecución dentro de un contenedor ZIP, es por tanto un problema de reconstrucción y no de traducción. La extracción de texto depende del CMap `ToUnicode` del PDF dentro de cada fuente incrustada: si el CMap falta o asigna IDs de glifos a puntos de código Unicode de uso privado (un patrón común anti-copia), los caracteres visibles no pueden recuperarse sin OCR aunque la página se renderice correctamente. El PDF subido es procesado por el motor de conversión del lado servidor de ToolAct, que lee el flujo de contenido de página como ejecuciones de texto posicionadas y reconstruye la estructura del documento a partir de ellas. Reconstruir párrafos requiere agrupar estas ejecuciones por coordenada y (dentro de aproximadamente una altura de línea), ordenar por x, detectar límites de columna a partir del histograma de inicios en x, e inferir saltos de línea a partir de huecos. La reconstrucción de tablas es más difícil: las tablas con bordes pueden recuperarse intersectando los operadores de línea de la página (`re`, `l`, `S`) en una cuadrícula y asignando ejecuciones de texto a celdas; las tablas sin bordes requieren heurísticas de detección de columnas como las de Tabula o Camelot, y la precisión cae drásticamente con celdas combinadas o filas multilinea. Las imágenes se extraen del diccionario XObject de la página y se re-incrustan en la carpeta `media/` del DOCX. La salida DOCX se ensambla como un ZIP que contiene `[Content_Types].xml`, `word/document.xml`, `word/styles.xml` y cualquier medio. La fidelidad de ida y vuelta tiene límites: los PDFs nacidos en texto con cuerpo de una sola columna hacen la ida y vuelta limpiamente; los diseños científicos multicolumna, las tablas sin bordes, la composición matemática, las ligaduras cuyo CMap falta y el texto rotado se degradan. La preservación al 100% de un PDF arbitrario es demostrablemente imposible porque el modelo fuente es estrictamente más expresivo que el destino. Los archivos se eliminan del servidor inmediatamente después de la conversión.

  • Especificación PDF: ISO 32000-1 (PDF 1.7) / ISO 32000-2 (PDF 2.0). El contenido de página es un flujo de operadores (`Tf`, `Td`, `Tj`, `Tm`) que dibujan glifos posicionados; no hay párrafo/encabezado/tabla a nivel de archivo.
  • Especificación DOCX: Office Open XML, ECMA-376 / ISO/IEC 29500. Un ZIP de partes XML (`word/document.xml`, `word/styles.xml`, `[Content_Types].xml`) con párrafos `<w:p>` y tablas `<w:tbl>`; un modelo flujo.
  • La extracción de texto depende del CMap ToUnicode de la fuente; los PDFs con CMaps faltantes o mapeados a PUA se renderizan correctamente pero se extraen como texto incomprensible, forzando el uso de OCR como respaldo.
  • Los archivos se suben al motor de conversión del lado servidor de ToolAct y se eliminan inmediatamente después de que finaliza la conversión.
  • Reconstrucción de párrafos: agrupar ejecuciones de texto por coordenada y dentro de ~1 altura de línea, ordenar por x, detectar columnas a partir del histograma de inicios en x, inferir saltos de línea a partir de huecos entre ejecuciones.
  • Reconstrucción de tablas: las tablas con bordes provienen de intersectar los operadores de línea `re`/`l`/`S` en una cuadrícula; las tablas sin bordes necesitan heurísticas de detección de columnas (Tabula/Camelot) y se degradan con celdas combinadas o multilinea.
  • La preservación al 100% de PDF->DOCX es demostrablemente imposible: el modelo fuente es estrictamente más expresivo que el destino. Los diseños científicos multicolumna, las tablas sin bordes, la composición matemática y el texto rotado son los que más se degradan.

Ejemplos

Edición de contratos

¿Recibiste un contrato en PDF y necesitas modificar las cláusulas? Conviértelo a Word y edítalo directamente.

Reutilización de informes

Convierte un informe en PDF a Word para extraer datos y gráficos para un nuevo documento.

Citas de artículos

¿Necesitas citar un párrafo de un artículo en PDF? Conviértelo a Word para copiar y pegar fácilmente.

Preguntas frecuentes

¿Mi PDF se queda en este dispositivo?

No. El PDF se sube a nuestro servidor de conversión, se procesa allí y se envía de vuelta un archivo de Word para descargar. Evita subir PDF con documentos de identidad personales, contratos firmados o informes confidenciales: para esos casos, usa un conversor de escritorio en local.

¿Los PDF escaneados se convertirán en texto editable?

Solo si el PDF ya contiene una capa de texto. Los escaneos de imagen pura sin OCR salen como imágenes incrustadas en la página de Word; las palabras no son ni buscables ni editables. Pasa el PDF por OCR antes de subirlo si necesitas texto real.

¿Qué formatos de salida puedo descargar?

El conversor produce .docx (formato XML de Word 2007+). Abre el resultado en Microsoft Word, Google Docs, WPS o LibreOffice. Este endpoint no admite otros formatos compatibles con Word: si necesitas otro formato, vuelve a guardar el .docx en el editor de tu preferencia.

¿Por qué el diseño difiere del PDF original?

PDF describe glifos posicionados sobre una página; Word describe párrafos que fluyen. Los diseños de varias columnas, las barras laterales, las notas al pie y las tablas complejas se reconstruyen lo mejor posible y a menudo necesitan limpieza manual. El cuerpo de texto a una sola columna suele transferirse limpiamente.

¿Se conservan las tablas, las listas y las fórmulas?

Las tablas simples con bordes visibles se convierten razonablemente bien. Las tablas sin bordes, las anidadas, las celdas combinadas y las listas con viñetas generadas por sangrías de párrafo suelen volver como texto plano o fragmentos de tabla rotos. Las fórmulas matemáticas compuestas con LaTeX o el editor de ecuaciones de Word suelen aplanarse en imágenes.

¿Las fuentes y los colores incrustados se mantendrán?

Las fuentes estándar (Times, Arial, Helvetica, familias CJK habituales) se mantienen por su nombre. Los PDF que incrustan una fuente personalizada como subconjunto pueden renderizarse en Word con un sustituto similar, lo que altera ligeramente el kerning y los saltos de línea.

¿Hay un límite de páginas o tamaño?

Los PDF muy largos (cientos de páginas) o los archivos con miles de imágenes de alta resolución pueden agotar el tiempo de espera. Si una conversión falla, prueba a dividir el PDF en trozos más pequeños o a comprimir antes las imágenes incrustadas.

Herramientas relacionadas