Grundidee von OCR
Was ist Optische Zeichenerkennung – und warum ist ein Bild nicht gleich Text?
Was bedeutet OCR?
OCR steht für Optical Character Recognition – auf Deutsch: Optische Zeichenerkennung.
Ein gescanntes Dokument ist zunächst nichts weiter als ein Bild: eine Matrix aus Pixeln. Der Computer erkennt darin keine Buchstaben, sondern nur Helligkeitswerte. OCR hat die Aufgabe, aus diesen Pixelmustern wieder Zeichen zu rekonstruieren – damit der Text durchsucht, kopiert und weiterverarbeitet werden kann.
Bild vs. Text – der fundamentale Unterschied
| Eigenschaft | Bild (z. B. JPEG) | Textdatei (z. B. TXT) |
|---|---|---|
| Grundeinheit | Pixel (Farbwert) | Zeichen (Unicode-Codepoint) |
| Inhalt | Helligkeits-/Farbmatrix | Symbolfolge |
| Durchsuchbar? | Nein | Ja |
| Kopierbar? | Nur als Grafik | Als Text |
| Dateigröße (Beispiel) | 500 kB für eine Seite | ca. 3–5 kB |
🔍 Pixel-Demo: Was „sieht" der Computer?
Das Bild unten zeigt einen Buchstaben als Pixelraster. Jede Zelle ist ein Pixel. Fahre mit der Maus über die Zellen – du siehst den Grauwert.
Frage Verständnis prüfen
Ablauf einer OCR-Verarbeitung
Von der Kamera bis zum digitalen Text – die fünf Verarbeitungsschritte
Pipeline – klicke auf einen Schritt für Details
• Graustufen-Umwandlung: Farbe ist oft irrelevant, Helligkeit entscheidend.
• Binarisierung (Schwellwert): Jeder Pixel wird schwarz oder weiß (z. B. Otsu-Algorithmus).
• Rauschreduktion: Median-Filter entfernt Störpixel.
• Deskewing: Schiefe Aufnahmen werden begradigt.
Seite → Spalten → Absätze → Zeilen → Wörter → einzelne Zeichen.
Techniken: Projektion auf Zeilen (Zeilenhistogramm), verbundene Komponenten (connected components).
Binarisierungs-Demo: Schwellwert interaktiv
Verschiebe den Regler und beobachte, wie sich die Binarisierung verändert.
Lückentext Ablauf vervollständigen
Im Schritt der Vorverarbeitung wird das Bild zunächst in Graustufen umgewandelt. Dann folgt die , bei der jeder Pixel entweder schwarz oder weiß wird.
Störpixel werden durch einen Median-Filter entfernt – man spricht von -Reduktion.
Schiefe Aufnahmen werden durch begradigt.
Danach zerlegt die das Bild hierarchisch in Zeilen, Wörter und einzelne Zeichen.
Im Post-Processing vergleicht ein -Modul die erkannten Zeichenfolgen mit bekannten Wörtern und korrigiert Fehler.
OCR im EVA-Prinzip
Eingabe – Verarbeitung – Ausgabe als Strukturierungsrahmen
Das EVA-Prinzip
Eingabe
Bild eines Texts (JPEG, TIFF, PNG)
Verarbeitung
Vorverarbeitung
Segmentierung
Mustererkennung
Klassifikation
Kontextanalyse
Ausgabe
Digitaler Text (UTF-8, PDF/A, DOCX)
Aufgabe: Zuordnen per Drag & Drop
Ziehe die Elemente in die richtige EVA-Kategorie.
Eingabe
Verarbeitung
Ausgabe
Frage
Fehlerquellen
Warum OCR scheitert – und wie ähnliche Zeichen Probleme verursachen
Typische Fehlerursachen
Verwechslungsgruppen – Zeichen den richtigen Gruppen zuordnen
OCR-Systeme verwechseln nicht nur Paare, sondern häufig ganze Gruppen visuell ähnlicher Zeichen. Ziehe die Zeichen unten in die passende Verwechslungsgruppe. Jede Gruppe hat eine eigene Farbe. Zeichen, die zu keiner Verwechslungsgruppe gehören, bleiben im Pool.
Frage
Moderne OCR: Convolutional Neural Networks
Wie neuronale Netze Buchstaben „sehen" lernen
CNN-Architektur für Zeichenerkennung
Ein Convolutional Neural Network (CNN) verarbeitet das Bild als Zahlenmatrix durch mehrere spezialisierte Schichten:
(Pixel)
Layer 1
(Kanten)
Layer 2
(Formen)
(Reduktion)
(Klassen)
Jedes Rechteck repräsentiert einen Feature-Map. Je tiefer das Netz, desto abstrakter die erkannten Merkmale.
Wahrscheinlichkeitsverteilung: Was gibt das CNN aus?
Das CNN berechnet für jede mögliche Klasse eine Wahrscheinlichkeit. Das Zeichen mit dem höchsten Wert wird ausgegeben. Klicke auf ein Eingabezeichen:
Faltungsoperation – was macht ein Filter?
Beispiel – Horizontaler Kantenfilter (Sobel):
0 0 0
+1 +2 +1
Ein hoher Ausgabewert bedeutet: an dieser Stelle liegt eine horizontale Kante vor.
Frage
Trainingsdatenproblematik
Ein KI-System ist nur so gut wie seine Trainingsdaten
Warum Trainingsdaten entscheidend sind
Ein neuronales Netz lernt ausschließlich aus Beispielen. Es hat kein implizites Verständnis von Sprache oder Schrift – es optimiert statistische Muster in den Trainingsdaten.
- Fehlende Schriftarten → schlechtere Erkennung dieser Fonts
- Fehlende Sprachen → kaum Erkennung nicht-lateinischer Schriften
- Wenig Handschriften-Samples → Handschrift-OCR fehlerhaft
- Einseitige demografische Auswahl → systematische Verzerrungen
Denk-Aufgabe: Wer fehlt in den Daten?
Ein OCR-System wurde ausschließlich mit gedruckten deutschen Texten (1950–2000) trainiert. Für welche Szenarien ist es wahrscheinlich unzuverlässig?
Frage
Zeichen-, Wort- und Sprachebene
Drei Verarbeitungsebenen – von einzelnen Zeichen bis zum Satzkontext
Die drei Erkennungsebenen
| Ebene | Was wird analysiert? | Methode | Beispiel |
|---|---|---|---|
| Zeichenerkennung | Einzelnes isoliertes Zeichen | CNN, Template Matching | „H" → 94 % wahrscheinlich „H" |
| Worterkennung | Gesamtes Wortbild | CNN + Wörterbuch | „Hnus" → Wörterbuch: „Haus" |
| Sprachmodell | Satzkontext | N-Gramme, Transformer | „im Garen" → „im Garten" |
Zuordnungs-Aufgabe: Welche Ebene hilft hier?
Klicke zuerst auf ein Problem (linke Spalte), dann auf die passende Lösung (rechte Spalte).
Frage
OCR vs. Spracherkennung
Gemeinsamkeiten und Unterschiede zweier KI-Systeme
Vergleichstabelle
| Merkmal | OCR | Spracherkennung (ASR) |
|---|---|---|
| Eingabedaten | 2D-Rasterbild | Zeitreihe (Audiosignal) |
| Signal-Repräsentation | Pixelmatrix | Spektrogramm (MFCC) |
| Segmentierungsproblem | Zeichen sind räumlich getrennt | Laute gehen fließend ineinander über (Koartikulation) |
| Kontextabhängigkeit | Mittel (Zeilenkontext) | Hoch (zeitliche Abhängigkeiten) |
| ML-Ansatz | CNN, CTC | RNN, LSTM, Transformer |
| Gemeinsamkeit | Beide: analoge Signale → digitaler Text, ML, Wahrscheinlichkeitsmodelle, Wörterbuch/Sprachmodell | |
Spektrogramm: So „sieht" Spracherkennung
Ein Audiosignal wird in seine Frequenzanteile zerlegt. Die resultierende Zeit-Frequenz-Darstellung heißt Spektrogramm.
Simuliertes Spektrogramm: X-Achse = Zeit, Y-Achse = Frequenz, Helligkeit = Energie
Frage
Gesellschaftliche Aspekte
Chancen, Risiken und ethische Dimensionen von OCR
Chancen der Digitalisierung durch OCR
- Archive, Bibliotheken und historische Dokumente werden durchsuchbar und zugänglich
- Texte für Menschen mit Sehbehinderung werden per Text-to-Speech nutzbar
- Verwaltungsdigitalisierung (E-Government): automatische Verarbeitung von Formularen
- Wissenschaftliche Erschließung großer Textmengen (Digital Humanities)
Risiken und kritische Perspektiven
- Datenschutz: Massendigitalisierung persönlicher Dokumente, Briefe, medizinischer Unterlagen
- Qualitätssicherung: Fehler in OCR-Ergebnissen sind kaum sichtbar – wer prüft die Richtigkeit?
- Sprachliche Ungleichheit: Gut digitalisiert werden hauptsächlich ressourcenreiche Sprachen
- Urheberrecht: Digitalisierung und Indexierung urheberrechtlich geschützter Texte
Diskussionsaufgabe – Ethik-Fallbeispiele
Klicke auf ein Szenario und überlege: Welche ethischen Fragen stellen sich?
Frage
Abschluss-Quiz
10 Fragen – teste dein gesamtes Wissen über OCR