PDF/A, OCR y compresión: cómo escanear documentos para archivado legal y búsqueda rápida
Escanear “para guardar” no es lo mismo que escanear “para archivar”. Cuando un documento debe conservarse durante años (contratos, facturas, expedientes, RR. HH., documentación técnica) entran en juego tres piezas clave: PDF/A para preservación, OCR para búsqueda y selección de texto, y compresión para que el archivo sea ligero sin sacrificar legibilidad ni validez. Si lo haces bien, tendrás un repositorio que resiste auditorías y además se encuentra en segundos.
Qué es PDF/A y por qué se usa en archivado legal
PDF/A es un conjunto de normas (ISO) diseñado para que un PDF se mantenga reproducible con el paso del tiempo. En archivado, el problema típico no es “abrir” un archivo hoy, sino poder abrirlo igual dentro de 10 o 20 años, sin depender de recursos externos o de configuraciones particulares.
- Autocontenido: el documento incluye lo necesario para visualizarse (por ejemplo, fuentes incrustadas). No debe depender de contenidos externos.
- Reproducibilidad: se restringen elementos que pueden variar según el visor (ciertas transparencias, multimedia, JavaScript, etc.).
- Metadatos y estructura: favorece una conservación consistente y, según el nivel, puede incluir etiquetado para accesibilidad.
En entornos de oficina, PDF/A se utiliza como formato de salida para escaneos “definitivos”: el documento queda estandarizado para custodia y consulta. No sustituye a requisitos legales específicos (firma electrónica, sellado de tiempo, políticas de retención), pero es una base sólida para preservación.
PDF/A-1, PDF/A-2 y PDF/A-3: cuál elegir
- PDF/A-1: el más conservador. Muy compatible, pero con limitaciones (por ejemplo, no admite ciertas compresiones modernas como JPEG2000). Útil si priorizas compatibilidad máxima con sistemas antiguos.
- PDF/A-2: más flexible, permite tecnologías más actuales y suele ofrecer mejor equilibrio entre tamaño y calidad. Es una opción frecuente en digitalización de oficina.
- PDF/A-3: permite adjuntar archivos dentro del PDF (por ejemplo, un XML o un original). Puede ser útil en flujos concretos, pero exige gobernanza: adjuntar “de todo” puede complicar políticas y auditorías.
Para la mayoría de casos de archivado y consulta, PDF/A-2 suele ser un punto de equilibrio: moderno, eficiente y ampliamente aceptado.
Cómo preparar el escaneo: resolución, color y limpieza
Antes del OCR y la compresión, la calidad del escaneo determina el resultado. Un archivo PDF/A puede ser “válido” técnicamente y aun así ser difícil de leer u ocupar demasiado.
Resolución recomendada (dpi)
- 300 dpi: estándar recomendado para documentos con texto. Ofrece buen OCR y legibilidad de tipografías pequeñas.
- 200 dpi: válido para borradores o documentos de baja exigencia, pero empeora OCR en fuentes pequeñas y sellos.
- 400–600 dpi: útil para planos, microtexto, documentos deteriorados o cuando necesitas capturar detalles finos. Aumenta tamaño y tiempo de proceso.
Regla práctica: si el objetivo es archivo legal y búsqueda fiable, empieza por 300 dpi. Solo sube si tienes motivos (mala impresión, sellos muy finos, papel envejecido).
Blanco y negro, escala de grises o color
- Blanco y negro (bitonal): tamaño muy pequeño, pero sensible a sombras y degradados; puede “romper” firmas, sellos o marcas suaves.
- Escala de grises: excelente para texto y documentos con sellos o firmas. Mantiene matices sin disparar el tamaño como el color.
- Color: recomendable cuando el color es información (subrayados, códigos, gráficos, documentos de identidad). Requiere mayor compresión para controlar el peso.
Si dudas, escala de grises a 300 dpi suele ser el mejor equilibrio para archivado y OCR en oficina.
Ajustes de imagen que mejoran OCR
- Enderezado (deskew): corrige inclinaciones que confunden al motor OCR.
- Recorte y detección de bordes: elimina fondos negros del alimentador y márgenes innecesarios.
- Eliminación de páginas en blanco: reduce tamaño y evita “ruido” en el expediente.
- Reducción de ruido: suaviza granulado y manchas, con cuidado de no borrar puntos de letras.
Muchos escáneres de oficina y su software incluyen estos filtros. Actívalos de forma moderada y valida el resultado con documentos reales (especialmente sellos, firmas y textos pequeños).
OCR: convertir imagen en texto buscable (sin “inventar” contenido)
El OCR (reconocimiento óptico de caracteres) permite buscar dentro del PDF, seleccionar y copiar texto, y mejorar la indexación en gestores documentales. En un flujo de archivado, el objetivo es que el documento sea buscable sin comprometer su fidelidad.
Tipos de salida OCR en PDF
- Texto oculto sobre la imagen: el PDF conserva la imagen escaneada y añade una capa de texto invisible para búsquedas. Es el enfoque más habitual para archivo porque mantiene la “foto” original.
- PDF con texto y reconstrucción: intenta recrear el documento como texto y elementos vectoriales. Puede alterar el aspecto. Se usa menos en archivado legal si se requiere máxima fidelidad visual.
Para expedientes, contratos o facturas, prioriza imagen + texto oculto: buscas rápido y conservas el original tal como se escaneó.
Idiomas, diccionarios y calidad del reconocimiento
Configura el OCR en el idioma correcto (o varios si el documento es bilingüe). Un OCR en idioma equivocado aumenta errores en acentos, nombres propios y términos técnicos.
- Selección de idioma: español (y cooficiales si procede), más inglés si hay códigos o texto mixto.
- Reconocimiento de tablas: clave para facturas y albaranes; mejora la extracción de datos, aunque puede aumentar tiempo de proceso.
- Detección de orientación: útil cuando hay páginas giradas en el alimentador.
Cómo verificar que el OCR sirve para “búsqueda rápida”
- Prueba de búsqueda: busca NIF/CIF, importe, número de factura o apellidos. Si falla, revisa resolución y limpieza.
- Selección de texto: selecciona una línea y pégala en un editor para comprobar errores frecuentes.
- Casos difíciles: sellos, firmas manuscritas, papel térmico, fotocopias múltiples. En estos, 300 dpi en grises suele superar al bitonal.
El OCR no debe “corregir” un documento; debe hacerlo encontrable. Si necesitas datos estructurados, eso ya entra en extracción avanzada y validación, distinta del archivado clásico.
Compresión: reducir tamaño sin perder legibilidad ni validez
La compresión es lo que marca la diferencia entre un repositorio ágil y uno inmanejable. El reto es comprimir sin destruir detalles que afectan a lectura y OCR, y sin usar opciones incompatibles con el perfil PDF/A elegido.
Compresión por tipo de contenido
- Bitonal (blanco y negro): suele usar compresiones muy eficientes. Ideal para texto puro, pero cuidado con sellos y fondos.
- Escala de grises: compresión equilibrada; buena relación tamaño/calidad para documentos de oficina.
- Color: requiere ajustes más finos. Un color “sin control” multiplica el tamaño.
Una técnica habitual es aplicar compresión diferente por página o por tipo de imagen, si el software lo permite. Por ejemplo, páginas con gráficos en color y el resto en grises.
Calidad objetivo: piensa en el uso real
- Consulta en pantalla: prioriza nitidez de texto y sellos. No necesitas detalles fotográficos extremos.
- Impresión ocasional: evita artefactos en bordes de letras; prueba impresión en una impresora láser estándar.
- Auditoría: la legibilidad completa es clave. A veces conviene un archivo algo mayor si evita dudas sobre un sello o una firma.
Como referencia práctica en oficina: un contrato de varias páginas a 300 dpi en grises con OCR y compresión razonable suele quedar en un tamaño manejable sin perder claridad. Si el archivo final “pesa demasiado”, revisa primero si estás escaneando en color sin necesidad o a 600 dpi sin motivo.
Flujo recomendado paso a paso para archivado legal y búsqueda
Este flujo sirve para la mayoría de oficinas, despachos y departamentos administrativos:
- 1) Preparación física: alisa hojas, elimina grapas, ordena por expediente y define separadores si los usarás.
- 2) Escaneo a 300 dpi: modo escala de grises como predeterminado; color solo si aporta información.
- 3) Procesado de imagen: enderezado, recorte, eliminación de páginas en blanco, reducción de ruido moderada.
- 4) OCR: idioma correcto, salida con texto oculto sobre imagen, detectar orientación automática.
- 5) Exportación a PDF/A: elige PDF/A-2 si tu sistema lo admite; si no, PDF/A-1.
- 6) Compresión final: ajusta para legibilidad; verifica sellos, firmas y cuerpos pequeños de letra.
- 7) Control de calidad: revisa un muestreo (por ejemplo, 1 de cada 20 expedientes o todas las páginas críticas).
- 8) Nomenclatura y metadatos: define un patrón consistente (fecha, tipo, número, cliente/proveedor) y campos mínimos para búsqueda.
El punto más importante suele ser el control de calidad: detectar problemas al final (páginas cortadas, borrosas o giradas) es más caro que corregir en el momento.
Errores comunes que rompen la búsqueda o complican auditorías
- Escanear en baja resolución “para que pese poco”: luego el OCR falla y el documento pierde valor operativo.
- Usar blanco y negro agresivo: desaparecen firmas suaves, sellos claros o marcas de agua, y aparecen bordes dentados que confunden al OCR.
- No fijar un estándar: cada persona escanea a su manera y el repositorio queda inconsistente.
- Mezclar documentos sin separar: un solo PDF con distintos expedientes dificulta la trazabilidad y la búsqueda.
- Depender solo del nombre del archivo: sin metadatos mínimos, la búsqueda se vuelve manual y frágil.
- Ignorar la orientación y el recorte: páginas giradas o con márgenes negros aumentan el tamaño y empeoran la lectura.
Qué pedirle a un escáner de oficina para este trabajo
Más allá de la velocidad, en archivado legal con OCR importan funciones muy concretas:
- ADF (alimentador automático) fiable: reduce atascos y dobles alimentaciones; ideal si incluye detección de doble hoja.
- Dúplex real: imprescindible si escaneas contratos y documentación a doble cara.
- Procesado integrado: enderezado, recorte, eliminación de páginas en blanco y perfiles por tipo de documento.
- OCR y perfiles PDF/A: algunos equipos y suites permiten generar PDF/A y OCR de forma directa o mediante el software incluido.
- Gestión de color y modo grises consistente: útil para sellos y firmas, donde un “gris sucio” puede perder detalle.
- Escaneo a red o a carpeta: facilita un flujo centralizado para que el equipo siga el estándar.
Si tu volumen es alto, valora también el mantenimiento (rodillos, kits), la disponibilidad de repuestos y la estabilidad del controlador. En archivado, la consistencia pesa más que una velocidad máxima puntual.
Checklist rápido antes de dar un expediente por archivado
- El PDF se abre y visualiza igual en distintos visores (señal de un exportado consistente).
- El texto es buscable: prueba 2 o 3 términos clave (NIF, número, apellido).
- Firmas y sellos son legibles al 100% de zoom y al 200%.
- No hay páginas cortadas, giradas o en blanco que no correspondan.
- Nombre y metadatos mínimos completos: fecha, tipo documental, referencia.
- Tamaño razonable: si el archivo es inusualmente grande, revisa color y dpi antes de aceptarlo.
Con un estándar simple (300 dpi, grises, OCR con texto oculto, PDF/A-2 cuando sea posible y compresión equilibrada) puedes conseguir un archivo duradero y, a la vez, una biblioteca documental realmente rápida para el día a día.