—OCR · Gratis
Escaneo → .md
Convertir PDF escaneado a Markdown con OCR
Los PDFs escaneados son imágenes, no texto. No puedes buscar en ellos, ni editarlos, ni pasarlos a tu knowledge base. El OCR soluciona esto: detecta el texto dentro de la imagen y lo convierte en_characters editables. Esta guía te explica cómo hacerlo gratis, paso a paso.
¿Qué es un PDF escaneado?
Un PDF escaneado es un documento donde cada página es una fotografía del papel original, no texto digital. Se crea cuando usas un escáner físico, la cámara del móvil, o una fotocopiadora con salida digital.
El problema: para tu ordenador, ese PDF es una colección de imágenes. No hay texto que copiar, buscar o editar. Si intentas seleccionar texto, no puedes. Si lo pasas por un conversor de PDF sin OCR, el resultado será vacío o ilegible.
- 📄 Contratos firmados escaneados con la impresora
- 📄 Facturas recibidas en papel y escaneadas
- 📄 Libros antiguos digitalizados con escáner
- 📄 Formularios rellenados a mano y escaneados
- 📄 Normativas y circulares oficiales en papel
¿Qué es el OCR y cómo funciona?
OCR (Optical Character Recognition, o Reconocimiento Óptico de Caracteres) es una tecnología que analiza las imágenes de un PDF, detecta las formas de las letras, y las convierte en texto editable.
El proceso funciona así:
- 1. Detección: el OCR identifica regiones de texto dentro de cada imagen/página
- 2. Reconocimiento: analiza los patrones de píxeles y los compara con modelos de caracteres
- 3. Estructuración: reconstruye párrafos, columnas, tablas y encabezados
- 4. Exportación: genera texto (Markdown, TXT, DOCX) con la estructura recuperada
Los motores OCR modernos usan modelos de IA que alcanzan >95% de precisión en texto impreso. MinerU, el motor de FolioMD, usa modelos de visión avanzados que también detectan tablas, fórmulas y estructura del documento.
Conversión paso a paso
Paso 1: Sube el PDF escaneado
Arrastra el PDF a FolioMD. Acepta archivos de hasta 200 MB y 1000 páginas. No necesitas instalar nada, ni configurar ningún parámetro de OCR.
Paso 2: El OCR procesa automáticamente
FolioMD detecta que el PDF está escaneado y activa OCR. El motor MinerU analiza cada página, identifica texto, tablas y figuras, y reconstruye la estructura del documento. No tienes que hacer nada manual.
Paso 3: Descarga el Markdown
En ~30 segundos recibirás un ZIP con:
- 📄 archivo.md — el texto completo en Markdown editable
- 🖼️ images/ — todas las figuras extraídas como PNG/JPG
Abre el .md en Obsidian, VS Code, Typora o cualquier editor. Si usas Obsidian, copia el ZIP entero en tu vault y las imágenes funcionarán directamente.
Factores que afectan la calidad del OCR
No todos los PDFs escaneados_producen el mismo resultado. La precisión del OCR depende de:
- 📷 Resolución: escaneos a 300 DPI o más → excelente. Menos de 150 DPI → errores frecuentes.
- 📑 Tipo de texto: texto impreso (tipografía) → >95% precisión. Manuscritos → 70-85%.
- 🔄 Orientación: páginas rotadas o torcidas → el OCR puede fallar. Algunos motores corrigen la inclinación automáticamente.
- ✨ Limpieza: manchas, subrayados, sellos → pueden generar caracteres fantasmas.
- 🔤 Idioma: la mayoría de OCR funcionan bien en español, inglés y otros idiomas con alfabeto latino.
Consejo: si escaneas documentos con tu móvil, usa Microsoft Lens o Apple Notes en vez de la app de cámara normal. Estas apps corrigen perspectiva, mejoran contraste y generan PDFs con texto OCR incluido.
Herramientas OCR: comparativa 2026
| Herramienta |
OCR |
Tablas |
Instalación |
Precio |
| FolioMD |
Automático |
Markdown nativo |
Ninguna (web) |
Gratis + Prioridad 5 € |
| Mathpix |
Excelente |
Sí |
Ninguna (web) |
De pago / API |
| Tesseract OCR |
Bueno |
No |
Local (Python) |
Gratis (open source) |
| OCR.space |
Básico |
No |
API |
Gratis con límites |
| Adobe Acrobat |
Bueno |
Parcial |
App escritorio |
Suscripción |
| pdf2md / gratuitos |
Sin OCR |
No |
Web |
Gratis |
¿Qué pasa si usas un conversor sin OCR?
Si pasas un PDF escaneado por un conversor que no tiene OCR, el resultado será:
- 🔴 Archivo vacío: el .md está en blanco porque no hay texto digital que extraer.
- 🔴 Imágenes sin texto: cada página se convierte en una referencia a imagen, pero sin texto alguno.
- 🔴 Caracteres ilegibles: algunos conversores intentan extraer texto pero generan símbolos sin sentido.
Siempre verifica que tu conversor tiene OCR antes de subir PDFs escaneados. Con FolioMD no tienes que preocuparte: detecta automáticamente el tipo de PDF y activa OCR cuando es necesario.
Convierte tu PDF escaneado ahora
Gratis, sin registro, sin instalación. OCR automático, tablas en Markdown nativo, imágenes extraídas. Pruébalo con tu próximo PDF escaneado.