Service de reconnaissance PDF pour les agents IA et les pipelines LLM
Aucun frais d'installation. Seulement $0.003 par page.
Transformez vos documents en donnees structurees en quelques secondes.
console
curl -X POST https://sotaocr.com/v1/extract \ -H "Authorization: Bearer YOUR_API_KEY" \ -F "file=@document.pdf"
Toujours la meilleure qualite
SotaOCR
95%
Google Vision
82%
Azure OCR
79%
Tesseract
61%
100+ languesExcellent support du francais
Ce qui est extrait
Tout ce dont votre LLM a besoin depuis n'importe quel PDF
Texte et mise en page
PDF complexes a plusieurs colonnes -> Markdown propre avec structure preservee
# Annual Report 2024 Revenue grew **23%** year-over-year...
Tableaux
Tableaux complexes avec cellules fusionnees -> tableaux Markdown parfaitement structures
| Metric | Q1 | Q2 | |----------|-------|-------| | Revenue | $12M | $15M |
Images et formules
Notation mathematique -> LaTeX. Images integrees -> fichiers extraits
$$E = mc^2$$
$$\int_0^\infty e^{-x^2} dx$$Bounding boxes
Coordonnees precises pour chaque element detecte sur la page
{"type": "table", "bbox": [42, 180, 520, 340], "confidence": 0.97}Le meilleur service pour les agents LLM
API REST et SDK. Skills pretes a l'emploi pour les meilleurs outils IA.
đ
Claude
Skill MCP Anthropic
đą
Codex
Outil OpenAI
âĄ
Cursor
Integration MCP
Comment nous nous comparons
| Fonction | SotaOCR | Azure | Tesseract | |
|---|---|---|---|---|
| Extraction de texte | Reference | Bon | Bon | Correct |
| Reconnaissance de tableaux | Reference | Correct | Bon | Faible |
| Formules (LaTeX) | ||||
| Bounding boxes | ||||
| Prix par page | $0.003 | $0.015 | $0.01 | Gratuit (OSS) |