🍋
Menu
PDF

OCR

OCR (оптическое распознавание символов)

Технология анализа изображений печатного или рукописного текста и преобразования их в машиночитаемые, доступные для поиска и редактирования текстовые данные.

Техническая деталь

Современные конвейеры OCR включают предобработку изображений (выравнивание, бинаризацию, удаление шума), анализ макета для определения текстовых областей, сегментацию символов и распознавание образов. Такие движки, как Tesseract, используют нейронные сети LSTM для распознавания. Для PDF OCR создаёт невидимый текстовый слой, наложенный поверх сканированного изображения, что делает документ доступным для поиска при сохранении исходного внешнего вида.

Пример

```javascript
// OCR: PDF manipulation example
import { PDFDocument } from 'pdf-lib';

const pdfDoc = await PDFDocument.load(fileBytes);
const pages = pdfDoc.getPages();
console.log(`Pages: ${pages.length}`);
```

Связанные инструменты

Связанные термины