Dokumentenverwaltung mit ecodms

Daheim habe ich ja schon seit fast 10 Jahren ein papierloses Büro: alle reinkommende Post wird gescannt und digital weiterverarbeitet. Bisher habe ich es mir einfach gemacht und die gescannten Dokumente in einen grossen Ordner geworfen und mich beim Suchen auf Tools wie grep verlassen. Nun ist mir von Bekannten ecodsm als komfortable Alternative für den Hausgebrauch empfohlen worden. Für den Privatanwender kostenlos bringt es neben der obligaten Verschlagwortung auch eine Volltextsuche mit.

Installation und Inbetriebnahme gestalten sich einfach, es gibt ein gutes Handbuch. Das System arbeitet zweistufig: alle neuen Dokumente landen erstmal in einer Inbox, koennen dort verschlagwortet und dann archiviert werden. Ich habe ungefähr 3500 Dokumente, die will ich nicht alle einzeln einlesen. Dafür gibt es Templates: man definiert, welche Eigenschaften wie enthaltenen Text ein Dokument hat, wie es dann verschlagwortet werden soll und schon kann so ein Dokument automatisch archiviert werden. Für den initialen Load habe ich mir also so eine Art wildcard Template angelegt: egal welcher Text, es soll archiviert werden. Ein paar Tests funktionieren, also werfe ich dem ecodsm mal meine gesamten Datenbestand vor die Füsse.

Dass dauert dann doch eine ganze Weile. ecodsm macht selber eine ocr, dass kann schonmal eine gute halbe Stunde pro Dokument dauern. Wie weit er mit dem Import ist, erfährt der Anwender nicht. Irgendwann ist er dann wohl durch und ich bin erstaunt: gut 600 Dokumente sind in der Inbox hängen geblieben. Warum die nicht per Template automatisch archiviert worden sind, sagt ecodsm nicht. Noch spannender wird es, wenn man sich die archivierten Dokumente anschaut: eine Funktion zum zählen habe ich nicht gefunden, aber ecodsm vergibt fortlaufende Nummern und die höchste, die ich finden kann, liegt bei knapp 2500. Satte 1000 Dokumente sind einfach verschwunden. Fehlermeldungen sind keine zu finden. Da ecodms auch keine Duplikate erkennt, verzichte ich auf Wiederholung des Imports.

Die ocr von ecodms basiert auf tesseract. Das hatte ich zum letzten Mal Mitte letzten Jahres getestet, und verworfen. Die Qualität der Ergebnisse war alles andere als überzeugend. Wie macht sich Tesseract mit ecodms? Nicht viel besser, ein paar Volltextsuchen liefern magere Ergebnisse. Das ist vor allem schmerzhaft, da die importierten pdfs schon beim Scannen einer ocr unterzogen worden waren, mit deutlich besseren Ergebnissen.

Also in der Disziplin “Importieren von Altdaten” hat mich ecodms bis jetzt nicht überzeugt. Mal schauen, wie es sich dann im Alltag schlägt. Eine Chance will ihm noch geben.