OCR
OCR (reconocimiento óptico de caracteres)
Una tecnología que analiza imágenes de texto impreso o manuscrito y las convierte en texto digital editable y con capacidad de búsqueda, permitiendo buscar, copiar y editar contenido en documentos escaneados.
Detalle técnico
Los flujos modernos de OCR incluyen preprocesamiento de imagen (corrección de inclinación, binarización, eliminación de ruido), segmentación de texto (detección de líneas y palabras), reconocimiento de caracteres (redes neuronales CNN/LSTM entrenadas con miles de fuentes) y posprocesamiento (corrección de diccionario, verificación gramatical). Los motores líderes incluyen Tesseract (código abierto, más de 100 idiomas) y soluciones comerciales como ABBYY FineReader.
Ejemplo
```javascript
// OCR: PDF manipulation example
import { PDFDocument } from 'pdf-lib';
const pdfDoc = await PDFDocument.load(fileBytes);
const pages = pdfDoc.getPages();
console.log(`Pages: ${pages.length}`);
```