scanner

Scanner

Hardware

Der Scanner ist ein Mustek Bearpaw 2338 TA Pro. Ein USB-Scanner eher mäßiger Qualität, für den gelegentlichen Einsatz aber für mich ausreichend. Störend ist, dass er keinen Netzschalter besitzt. Fällt der Strom aus oder Schaltet man ihn extern ein, besitzt er keine Firmware und die Lampe leuchtet mit Dauerlicht, was auf längere Zeit natürlich schädlich ist. Ich schalte ich mit meiner USB-gesteuerten Steckdosenleiste kurz vor Gebrauch ein.

Der Scanner hat teilweise Probleme wenn er mit anderen Geräten am selben Host betrieben wird. Er scannt dann nicht, und ist nicht mehr ansprechbar bis er von der Stromversorgung getrennt wurde.

Benutzung mit SANE

Um einen Scanner mit SANE benutzen zu können, muss der Benutzer in der Gruppe scanner sein.

Suchen des Scanners

# scanimage -L
device `mustek_usb2:libusb:001:004' is a Mustek BearPaw 2448 TA Pro flatbed scanner

Ein von SANE benutzbarer Scanner wird gesucht und das gefundene Gerät angezeigt. Hat man meinen Scanner kurz vorher angeschaltet, wird auch die dann fehlende Firmware in das Gerät geladen und die Lampe geht aus.

Spezifische Optionen des Scanners

# scanimage --help --device-name mustek_usb2
[...]
Options specific to device `mustek_usb2':
  Scan Mode:
    --mode Color48|Color24|Gray16|Gray8|Lineart [Color24]
        Selects the scan mode (e.g., lineart, monochrome, or color).
    --source Reflective|Positive|Negative [Reflective]
        Selects the scan source (such as a document-feeder).
    --resolution 1200|600|300|150|75dpi [300]
        Sets the resolution of the scanned image.
    --preview[=(yes|no)] [no]
        Request a preview-quality scan.
  Debugging Options:
    --auto-warmup[=(yes|no)] [no]
        Warm-up until the lamp's brightness is constant instead of insisting
        on 40 seconds warm-up time.
  Enhancement:
    --threshold 0..255 [inactive]
        Select minimum-brightness to get a white point
    --gamma-value 0.00999451..5 (in steps of 0.00999451) [inactive]
        Sets the gamma value of all channels.
  Geometry:
    -l 0..210.82mm [0]
        Top-left x position of scan area.
    -t 0..294.64mm [0]
        Top-left y position of scan area.
    -x 0..210.82mm [210.82]
        Width of scan-area.
    -y 0..294.64mm [294.64]
        Height of scan-area.
[...]

Scannen über Kommandozeile

Beispiel: Scannen einer A4-Seite mit 24 Bit Farbtiefe im Tiff-Format

scanimage --format tiff > xx.tiff

xsane

xsane ist ein einfaches Scanprogramm für X11. Es wird entweder mit dem Befehl 'xsane' von der Kommandozeile gestartet oder in Gimp über den Menüpunkt Datei→Erstellen→xsane aufgerufen.

Auswahl des Scanbereichs

Am Anfang sollte man 'Fenster→Zeige Vorschau' auswählen und dort anhand eines Vorschauscans den zu scannenden Bereich auswählen.

Fotokopieren

Im Hauptfenster bei der Zielscheibe die Funktion Fotokopie auswählen. Sowie eine Zeile darunter den Drucker bestimmen auf dem es gedruckt werden soll.

Weiterbearbeitung

Texterkennung mit CuneiForm

Installation

CuneiForm ist nicht in der stabilen Distribution (Squezze) von Debian enthalten. Ich habe mir deshalb nach Anleitung des Anwenderhandbuchs einen eigenen Backport mittels dpkg-buildpackage erstellt.

Scannen und Vorbereitung der Vorlagen

Ich erstelle für normale Buchschrift Graustufen-Scans mit 300 DPI. Die Scans werden in Grafikprogramm The Gimp optimiert. Dabei werden eventuell vorhandene Ränder entfernt und die Graustufen mittels der Funktion Schwellwert in reines schwarzweiß umgewandelt. Für einigermaßen gerade aufgelegte Vorlagen ist keine genaue Winkelausrichtung notwendig.

Benutzung von CuneiForm

Die allgemeine Syntax für Cuneiform-Linux auf der Kommandozeile lautet:

cuneiform -l [SPRACHE] -f [FORMAT] -o [AUSGABE-DATEI] ([EXTRAOPTIONEN]) [BILDDATEI] 

Dabei stehen die Optionen für die Sprache des Eingabedokuments (-l), das Ausgabeformat (-f) und den Namen der Ausgabedatei (-o). Außerdem können weitere spezielle Optionen verwendet werden, –dotmatrix zum Erkennen von Vorlagen, die mit Nadeldruckern erstellt wurden, –fax für Faxvorlagen, sowie –singlecolumn für Vorlagen, die nur einspaltig eingelesen werden sollen. Das Kommando wird mit dem Dateinamen der zu verarbeitenden Vorlage abgeschlossen.

Sprachen

Standardmäßig werden Texte in englischer Sprache/Zeichensatz zugrunde gelegt; möglich sind folgende Sprachen/Zeichensätze:

Option Sprache Option Sprache Option Sprache
eng englisch ger deutsch fra französisch
rus russisch swe schwedisch spa spanisch
ita italienisch tur türkisch ukr ukrainisch
srp serbisch hrv kroatisch pol polnisch
dan dänisch por portugiesisch dut niederländisch
cze tschechisch rum rumänisch hun ungarisch
bul bulgarisch slo slowenisch lav lettländisch
lit litauisch est estländisch rusengzweisprachig russisch/englisch

Die Voreinstellung ist die englische Sprache ('eng').

Ausgabeformate
Option Format Kurzbeschreibung
html HTML „webfähige“ Version mit Bildern und ansatzweiser Schriftarten-Erkennung
hocr hOCR wie „`html`“, aber mit zusätzlichen unsichtbaren Informationen, allerdings keine exakte Layout-Wiedergabe; z.B. zum Erstellen von Sandwich-PDFs geeignet
native Cuneiform 2000 Format nicht nutzbar; es entstehen unlesbare .tga-Dateien
rtf RTF-Format einfache Layout-Erkennung; erzeugt formatierte Text-Dateien mit Spaltenerkennung, unterschiedlichen Schriftgrößen und -arten; keine Grafiken, statt dessen Platzhalter-Absätze
smarttext Nur-Text reiner Text mit exakten Zeilenumbrüchen wie in der Vorlage, Absätze bei größeren Zeilenabständen
text Nur-Text reiner Text mit Absatzumbrüchen bei größerem Abstand zwischen den Zeilen/Absätzen; wird verwendet, wenn keine Option angegeben wird

Die Voreinstellung ist 'text'.

scanner.txt · Zuletzt geändert: 2014/09/13 19:12 (Externe Bearbeitung)

Seiten-Werkzeuge