Choose your language:

OCR, Index und gute Kontakte

OCR

DOCUVISTO ist ein leistungsfähiges System. Es enthält eine präzise OCR-Engine, die Ihre Papierdokumente in Sekundenschnelle wieder in Fließtext verwandelt. Die OCR-Engine läuft auf dem Server im Hintergrund und liefert dem Indexserver die analysierten Daten, der diese sofort umsetzt. Auch die OCR selbst lässt nicht auf sich warten sondern erledigt ihren Job sofort – Sie können also kurz nach dem Hinzufügen eines Dokuments danach im Volltrext suchen.

OCR heißt Optical Character Recognition, also elektronische Texterkennung, die auf einem gescannten Dokument über ein Mustervergleichsverfahren Einzelzeichen erkennen kann. 

Die OCR-Erkennung liefert keine absoluten Ergebnisse sondern ermittelt Wahrscheinlichkeiten für bestimmte Buchstaben. Diese Wahrscheinlichkeiten werden mit weiterführenden Techniken der Texterkennung (ICR) bestärkt oder in Frage gestellt (Intelligent Character Recognition). ICR berücksichtigt den Kontext, in dem sich ein Buchstabe befindet. So kann die ICR aus dem OCR-Ergebnis "8aum" einen "Baum" rekonstruieren. 

Über Bildanalyseverfahren wird zuerst das Schriftgut derart 'zerlegt', dass der OCR-Engine nur diejenigen Einzelteile zur Erkennung weitergeleitet werden, die einen einzelnen Buchstaben darstellen könnten. 

INDEX

Nach der Erkennung wird das Dokument sofort indiziert, das heißt, alle Wörter werden Indizes zugeführt und sind dann sofort wieder zu finden. Unser "Baum" ist also gleich entdeckt und mit ihm bekommen Sie alle Suchergebnisse, die auch das Wort "Baum" enthalten. 

Dass diese Suche auch aus 100.000 Dokumenten in einem Augenblick einen Text findet, der von der Haftung des Konsortialführers handelt, ist eine echte Erleichterung. Da das so schnell ging, könnte man sich mittels der Distanzsuche (proximity operator) eine Verfeinerung gönnen und erhält dann nur die Verträge, in denen die beiden Wörter in einem Abstand zueinander vorkommen, der nahelegt, dass dann auch ein Sinnzusammenhang gegeben ist. Das wird z. B. bei einem Abstand von fünf Wörtern der Fall sein.

ENGINE

Grundlage für solch rasante Performance ist ein leistungsfähiges Datenbanksystem. Dabei passen wir uns gerne der gegebenen IT-Landschaft an. DOCUVISTO läuft auf allen professionellen Datenbanken. Ob Oracle, MySQL oder Sybase, Microsoft SQL, DB2 oder andere – DOCUVISTO paßt sich Ihrer IT an, nicht umgekehrt.  DOCUVISTO kann besipielsweise auch über eine zertifizierte SAP-Schnittstelle (R/3 oder direkt an HR, CRM etc.) an Ihre Unternehmensdaten andocken und Dokumente archivieren.

Sprechen Sie uns auf die Mindestanforderungen eines adäquaten Servers an. Die OCR-Engine wird mit 10 Tsd. Seiten p. m. als  übliche Basis geliefert, aber Kunden mit hohem Dokumentenvolumen können auch höhere Volumina bestellen. Sie bekommen den ganzen DOCUVISTO-Server auch gerne schlüsselfertig von uns.

Die Clients sind beliebige Rechner mit gängiger Ausstattung mit dem Betriebssystem Ihrer Wahl (Windows, Linux, Mac OS X, Solaris).