Archives For scanner

Heute geht es um den eigentlichen Scanvorgang. Wie schon vorher beschrieben, verwende ich einen Fujitsu SnapScan 1500M. Davon gibt es auch einen Version ohne das M für den PC, aber da kenne ich die Software nicht.

Die Software für den Mac ist aber recht gut gemacht und vergleichsweise einfach zu installieren und zu bedienen. Da habe ich von früher noch andere Dinge in Erinnerung (Stichwort TWAIN). Man kann in der Software fast alle Einstellungen, die man früher jedes mal manuell vornehmen musste, einfach in den Automatik-Mode setzen, so dass sie bei jedem Scannvorgang automatisch ermittelt werden.

Wie man oben sehen kann, habe ich sowohl die Auflösung als auch die erkennung des Farbmodus auf Automatik gestellt. Bei Duplex Scan werden leere Seiten automatisch gelöscht, was im Prinzip ja auch einer Automatik entspricht.

Die automatische Erkennung von doppelt eingezogenen Seiten habe ich ebenfalls aktiviert, denn nichts wäre unangenehmer als erst nach dem Schreddern eines Dokuments zu merken, dass eine Seite doppelt eingezogen und damit nicht gescannt wurde.

Als weitere Defaultoption habe ich angegeben, dass alle Dokumente als PDF erstellt und vor dem Abspeichern noch durch die OCR (Optical Character Recognition oder Texterkennung) gejagt werden sollen. Durch ein eingebautes Wörterbuch versucht die Software Erkennungsfehler automatisch zu korrigieren. Deswegen muss man auch die Standardsprache angeben.

Die letzte Einstellung ist dann, was mit dem Dokument passieren soll. Ich lasse es einfach in einem lokalen Ordner des Scanservers ablegen. Die Software erzeugt einen Dateinamen nach dem aktuellen Datum und der aktuellen Zeit. Den Ordner in dem die PDFs am Ende landen habe ich dann über das Netzwerk freigegeben, so dass man sich nach dem Scannen die fertigen Dokumente einfach an die richtige Endposition in meinem Archiv verschieben kann.

Da es in der Software die Möglichkeit gibt Einstellungsprofile zu hinterlegen, kann man sich die wichtigsten zwei oder drei Profile einfach abspeichern und muss dann nicht jedes mal nachdenken. Ich benutze „Default“, „Bilder normal“ und „Bilder HighRes“, die andere Auflösungen verwenden und die Bilder als JPEG, bzw. TIFF ablegen.

Die Software läuft auf meinem Mac Mini Server und wird beim Hochfahren automatisch mutgestartet, so dass ich auch da nichts manuell starten muss. Der Scanvorgang selbst wird gestartet in dem man das Dokument in den Einzug einzig legt und die Start Taste drückt. Sofern man das Standardprofil verwenden will, muss man ja nichts in der Software einstellen. Der Scanner ziegt die Blätter durch, scannt alles ein, macht ein PDF, wendet die Texterkennung an und speichert das PDF dann im Zielordner ab. Bei 10 doppelt bedruckten Seiten dauert das in etwa 90 Sekunden, wobei die meiste Zeit für die OCR drauf geht.

Einziger Wehrmutstropfen ist, dass man solange die OCR noch läuft kein weiteres Dokument einscannen kann. Da man ja normalerweise die Ausgaben der Software auf dem Server nicht sehen kann, weiss man auch nicht, wann das genau fertig ist. Da aber beim Drücken auf den Scan Knopf nichts passiert, ist das auch nicht weiter schlimm und ich drücke halt einfach immer mal wieder drauf.

Paperless: Der Scanner

Julian —  16. Oktober 2012 — 2 Comments

Das wichtigste Teil in meinem Setup ist vermutlich der Scanner, denn durch den geht alles durch, was nicht schon von Haus aus in digitaler Form vorliegt. Und das ist heutzutage leider immer noch das meiste. Ich habe mich da nach einigen Recherchen im Internet für einen Fujitsu SnapScan S1500M (bei Amazon bestellen) entschieden, weil der von den meisten Leuten empfohlen wurde. Das M bezeichnet die die Version für den Mac. Es gibt aber auch einen S1500 ohne das M für den PC, der bis auf die Software baugleich ist. Meiner Meinung nach bietet dieses Gerät ein paar sehr angenehme Vorteile gegenüber allen Scannern die ich so kenne, selbst die um einiges teureren Profiteile von HP oder OKI:

Automatischer Dokumenteneinzug

Das ist eigentlich ein Muss, denn es macht keinen Sinn wie früher auf dem Flachbettscanner jede Seite einzeln einzulegen und dann auch noch umdrehen zu müssen. In den SnapScan kann man bis zu 60 Seiten werfen und die zieht er in der Regel auch recht zuverlässig durch. Nur manchmal, bei sehr dünnem, sehr dicken Papier oder wenn die Seiten aneinanderkleben hat er Probleme, aber das passiert in weniger als einem von 50 Fällen würde ich mal schätzen. Falls es doch einmal passieren sollte erkennt er das und gibt eine Fehlermeldung aus. Das ist immer noch besser, als wenn man es erst dann bemerkt wenn man das Original schon geschreddert hat.

Doppelseitiges scannen inkl. automatischer Erkennung

Der Scanner erkennt von selbst ob die Blätter einseitig oder doppelseitig bedruckt sind und scannt sie entsprechend ein. Das geht in einem Durchzug, d.h. das Blatt wird nur einmal durch den Scanner gezogen und trotzdem werden Vorder- und Rückseite erfasst. Das ist praktisch und bei allen anderen Scannern die ich kenne eine stete Ursache für Fehlbedienungen, da der Scanner vom vorherigen Benutzer immer genau gegensätzlich zum eigenen Dokument eingestellt ist. Hier kann das nicht passieren, da es automatisch erkannt wird. Manchmal, wenn die Tinte sehr durch das Papier durchscheint, scannt er auch eigentlich leere Rückseiten, die kann man aber dann im PDF Reader einfach löschen. Und eine Seite zu viel ist immer noch besser als eine zu wenig.

Automatisches Erkennen des Farbmodus

Auch die Farbe der Dokumente erkennt der Scanner automatisch. Das bedeutet dass er passend zum Dokument den entsprechenden Modus wählt. Klar könnte man immer alles in Farbe einspannen, aber dadurch würde man auch jede Menge Speicherplatz verschwenden. Durch dieses Feature werden eben normale Briefe in schwarzweiss und Bilder in Farbe eingescannt. Im Zweifelsfall nimmt der Scanner lieber den besseren Modus, es kann also schon mal passieren dass einige Seiten eines Briefes in Graustufen sind, während der Rest nur schwarz/weiss ist. Aber auch hier gilt: Besser so als anders herum.

Integrierte Texterkennung

Jetzt kommt ein wirklich spannendes Feature. Die Scannersoftware hat eine eingebaute OCR (Optical Character Recognition) Funktion, die auch recht gut funktioniert. Direkt nach dem Scannvorgang wird das Dokument durch die OCR geschickt und dann als PDF inkl. Text abgespeichert. Das bedeutet, dass das erstellte PDF neben den Bildinformationen auch den Text enthält. Man kann also diese PDFs einer Volltextsuche unterziehen und sogar Text heraus kopieren. Angenehm dabei ist eben, dass man das nicht nach dem Scannen als extra Arbeitsschritt auslösen muss, sondern es automatisch passiert, Wenn ich mich recht erinnere versucht er dabei sogar die Sprache zu erkennen und Erkennungsfehler so weit es geht zu korrigieren. Klar kann man diese Texte nicht ohne noch einmal drüberzulesen in seine Doktorarbeit kopieren, aber beispielsweise für die Volltextsuche ist es perfekt. Eingescannte Amazonrechnungen beispielsweise werden bei einer Suche nach dem Artikelnamen immer zuverlässig gefunden.

Anschluss via USB Interface

Das ist jetzt auf den ersten Blick ein Nachteil, denn leider verfügt der Scanner nur über ein USB Interface und keine Netzwerkschnittstelle. Dadurch muss man ihn entweder lokal an den eigenen Rechner oder einen Server im Netzwerk anschliessen. Bei mir hängt er dazu an einem alten Mac Mini, der sowohl dem Scanner, also auch dem Drucker als Netzwerkserver dient. In Summe kostet das natürlich für den Mac Mini ein bisschen was extra. Man kann aber natürlich ein älteres Model nehmen, weil er ja ausser scannen und drucken nicht viel machen muss.

In dieser Konstellation ist das dann schon recht komfortabel, denn man muss die Scanner Software nicht auf dem  eigenen Rechner installieren, sondern eben nur auf dem Server. Dadurch können mehrere Leute ohne Installation den Scanner gleichzeitig benutzen. Außerdem läuft der OCR Vorgang nicht lokal, sondern auf dem Server ab. Das kann nämlich schon mal 5 Minuten dauern.