OCR
OCR(光学字符识别)
一种分析印刷或手写文本图像并将其转换为机器可读、可搜索和可编辑文本的技术。OCR对于使扫描文档可搜索和无障碍访问至关重要。
技术细节
现代OCR流水线包括图像预处理(纠偏、二值化、去噪)、版面分析(检测文本区域、列、表格)、使用CNN或Transformer模型(Tesseract 5使用LSTM)的字符识别、后处理(拼写检查、语言模型校正)。Tesseract支持100多种语言,云服务(Google Vision、AWS Textract)针对手写和复杂布局添加了文档AI功能。
示例
```javascript
// OCR: PDF manipulation example
import { PDFDocument } from 'pdf-lib';
const pdfDoc = await PDFDocument.load(fileBytes);
const pages = pdfDoc.getPages();
console.log(`Pages: ${pages.length}`);
```
相关工具
合
合并 PDF
拆
拆分 PDF
压
压缩 PDF
旋
旋转 PDF
添
添加页码
P
PDF 转 JPG
P
PDF 添加水印
P
PDF 页面重排
扁
扁平化 PDF
编
编辑 PDF 元数据
签
签署 PDF
J
JPG 转 PDF
从
从 PDF 提取文本
D
Delete PDF Pages
R
Reverse PDF
E
Extract PDF Pages
E
Extract Odd/Even Pages
R
Resize PDF Pages
C
Crop PDF
I
Insert Blank Pages
D
Duplicate PDF Pages
P
PDF to PNG
A
Add Header & Footer
A
Add Text to PDF
A
Add Image to PDF