Mistral hat sein neues Dokumentenerkennungsmodell OCR 4 veröffentlicht — und die Specs klingen beeindruckend. 170 Sprachen, absatzgenaue Bounding Boxes, 2.000 Seiten pro Minute auf einer einzelnen GPU, und ein Preis von 4 Dollar pro 1.000 Seiten über die API.
Was OCR 4 kann
Das Modell ist ein deutlicher Sprung gegenüber dem Vorgänger. Die wichtigsten Neuerungen: Paragraph-Level Bounding Boxes ermöglichen es, nicht nur Text zu erkennen, sondern auch seine Position auf der Seite präzise zuzuordnen. Das ist entscheidend für strukturierte Dokumente wie Verträge, Rechnungen oder wissenschaftliche Paper.
In Mistrals internen Benchmarks erreicht OCR 4 eine Win Rate von 72 Prozent gegen den Vorgänger. Der Geschwindigkeitszuwachs ist ebenfalls erheblich: 2.000 Seiten pro Minute auf einer einzelnen GPU sind für Enterprise-Anwendungen relevant, bei denen es um große Dokumentenmengen geht.
Warum Self-Hosting wichtig ist
Der spannendste Aspekt ist die Self-Hosting-Option. Viele Unternehmen — gerade in Europa — können oder wollen ihre Dokumente nicht über externe APIs schicken. Verträge, Patente, Personalakten: All das ist zu sensibel für die Cloud. Mistral bietet deshalb an, OCR 4 auf eigenen Servern laufen zu lassen.
Das ist ein cleverer Schachzug. Mistral positioniert sich damit als die europäische Alternative zu Google Document AI und AWS Textract — mit dem Vorteil, dass die Daten das eigene Netzwerk nie verlassen müssen.
Meine Einordnung
OCR klingt nicht sexy, aber es ist eine der wichtigsten Anwendungen für KI in Unternehmen. Die meisten Firmen sitzen auf Bergen von Dokumenten, die digitalisiert, durchsuchbar und analysierbar gemacht werden müssen. Wer das schneller, günstiger und datenschutzkonformer kann, hat einen echten Wettbewerbsvorteil.
4 Dollar pro 1.000 Seiten ist aggressiv bepreist. Zum Vergleich: AWS Textract kostet je nach Feature zwischen 1,50 und 15 Dollar pro 1.000 Seiten. Mistral liegt damit am unteren Ende — mit dem Bonus, dass man das Modell auch einfach selbst betreiben kann.
Quellen: