OCR – Optische Zeichenerkennung | Klasse 11 Informatik

01

Grundidee von OCR

Was ist Optische Zeichenerkennung – und warum ist ein Bild nicht gleich Text?

Was bedeutet OCR?

OCR steht für Optical Character Recognition – auf Deutsch: Optische Zeichenerkennung.

Ein gescanntes Dokument ist zunächst nichts weiter als ein Bild: eine Matrix aus Pixeln. Der Computer erkennt darin keine Buchstaben, sondern nur Helligkeitswerte. OCR hat die Aufgabe, aus diesen Pixelmustern wieder Zeichen zu rekonstruieren – damit der Text durchsucht, kopiert und weiterverarbeitet werden kann.

Kernaussage: OCR übersetzt visuelle Muster in symbolische Zeichen.

Bild vs. Text – der fundamentale Unterschied

Eigenschaft	Bild (z. B. JPEG)	Textdatei (z. B. TXT)
Grundeinheit	Pixel (Farbwert)	Zeichen (Unicode-Codepoint)
Inhalt	Helligkeits-/Farbmatrix	Symbolfolge
Durchsuchbar?	Nein	Ja
Kopierbar?	Nur als Grafik	Als Text
Dateigröße (Beispiel)	500 kB für eine Seite	ca. 3–5 kB

🔍 Pixel-Demo: Was „sieht" der Computer?

Das Bild unten zeigt einen Buchstaben als Pixelraster. Jede Zelle ist ein Pixel. Fahre mit der Maus über die Zellen – du siehst den Grauwert.

Frage Verständnis prüfen

Welche Aussage beschreibt den Unterschied zwischen einem Bild und einer Textdatei am besten?

02

Ablauf einer OCR-Verarbeitung

Von der Kamera bis zum digitalen Text – die fünf Verarbeitungsschritte

Pipeline – klicke auf einen Schritt für Details

1Digitalisierung

2Vorverarbeitung

3Segmentierung

4Zeichenerkennung

5Postprocessing

Digitalisierung: Ein physisches Dokument wird durch einen Scanner oder eine Kamera in ein digitales Rasterbild (z. B. TIFF, PNG, JPEG) überführt. Wichtige Parameter: Auflösung (DPI), Belichtung, Schärfe.

Vorverarbeitung: Das Bild wird optimiert für die Erkennung.
• Graustufen-Umwandlung: Farbe ist oft irrelevant, Helligkeit entscheidend.
• Binarisierung (Schwellwert): Jeder Pixel wird schwarz oder weiß (z. B. Otsu-Algorithmus).
• Rauschreduktion: Median-Filter entfernt Störpixel.
• Deskewing: Schiefe Aufnahmen werden begradigt.

Segmentierung: Das Bild wird hierarchisch in Bereiche zerlegt:
Seite → Spalten → Absätze → Zeilen → Wörter → einzelne Zeichen.
Techniken: Projektion auf Zeilen (Zeilenhistogramm), verbundene Komponenten (connected components).

Zeichenerkennung: Das Herzstück. Für jedes segmentierte Zeichenbild wird entschieden, welches Symbol es darstellt. Klassisch: Template Matching oder Merkmalsextraktion. Modern: Convolutional Neural Networks (CNN).

Post-Processing: Das Ergebnis wird mit Wörterbüchern und Sprachmodellen validiert und korrigiert. Wahrscheinliche Buchstabenfolgen ersetzen unwahrscheinliche. Kontext erhöht die Genauigkeit erheblich.

Binarisierungs-Demo: Schwellwert interaktiv

Verschiebe den Regler und beobachte, wie sich die Binarisierung verändert.

Graustufen-Bild

→

Binarisiert

Schwellwert: 128

Lückentext Ablauf vervollständigen

Fülle die fünf Lücken aus. Die Begriffe stammen alle aus der Pipeline-Erklärung oben.

Begriffe zur Auswahl: Binarisierung · Segmentierung · Deskewing · Wörterbuch · Rauschen

Im Schritt der Vorverarbeitung wird das Bild zunächst in Graustufen umgewandelt. Dann folgt die , bei der jeder Pixel entweder schwarz oder weiß wird.

Störpixel werden durch einen Median-Filter entfernt – man spricht von -Reduktion.

Schiefe Aufnahmen werden durch begradigt.

Danach zerlegt die das Bild hierarchisch in Zeilen, Wörter und einzelne Zeichen.

Im Post-Processing vergleicht ein -Modul die erkannten Zeichenfolgen mit bekannten Wörtern und korrigiert Fehler.

03

OCR im EVA-Prinzip

Eingabe – Verarbeitung – Ausgabe als Strukturierungsrahmen

Das EVA-Prinzip

Eingabe

Bild eines Texts (JPEG, TIFF, PNG)

→

Verarbeitung

Vorverarbeitung
Segmentierung
Mustererkennung
Klassifikation
Kontextanalyse

→

Ausgabe

Digitaler Text (UTF-8, PDF/A, DOCX)

Aufgabe: Zuordnen per Drag & Drop

Ziehe die Elemente in die richtige EVA-Kategorie.

Eingabe

Verarbeitung

Ausgabe

Frage

Welche der folgenden Angaben ist die Ausgabe bei OCR?

04

Fehlerquellen

Warum OCR scheitert – und wie ähnliche Zeichen Probleme verursachen

Typische Fehlerursachen

Niedrige Bildauflösung +

Bei niedriger Auflösung (unter 150 DPI) enthalten Buchstaben nur sehr wenige Pixel. Feine Details wie Serifen oder Bögen gehen verloren. Ähnliche Zeichen wie O, 0, Q oder l, I, 1 werden kaum unterscheidbar. Empfehlung: Mindestens 300 DPI für zuverlässige OCR.

Unscharfe oder schiefe Aufnahmen +

Bewegungsunschärfe, Defokussierung oder ein Winkel von mehr als 5° gegenüber der Horizontalen führen zu Segmentierungsfehlern. Buchstaben überlappen sich, Zeilentrennungen werden falsch erkannt.

Ungewöhnliche Schriftarten und Handschrift +

Wenn eine Schriftart nicht im Training enthalten war, fehlt dem Modell das Wissen über ihre spezifischen Formen. Handschrift variiert von Person zu Person dramatisch – gleiche Buchstaben können völlig unterschiedlich aussehen.

Mathematische Formeln +

Formeln nutzen zweidimensionale Notation: Brüche, Exponenten, Indizes stehen über- und untereinander. Die Segmentierung, die Zeilen horizontal verarbeitet, versagt hier. Spezialisierte Systeme (z. B. MathPix) sind notwendig.

Verwechslungsgruppen – Zeichen den richtigen Gruppen zuordnen

OCR-Systeme verwechseln nicht nur Paare, sondern häufig ganze Gruppen visuell ähnlicher Zeichen. Ziehe die Zeichen unten in die passende Verwechslungsgruppe. Jede Gruppe hat eine eigene Farbe. Zeichen, die zu keiner Verwechslungsgruppe gehören, bleiben im Pool.

Zeichenvorrat – ziehe von hier in die Gruppen:

Frage

Warum sind mathematische Formeln besonders schwierig für Standard-OCR?

05

Moderne OCR: Convolutional Neural Networks

Wie neuronale Netze Buchstaben „sehen" lernen

CNN-Architektur für Zeichenerkennung

Ein Convolutional Neural Network (CNN) verarbeitet das Bild als Zahlenmatrix durch mehrere spezialisierte Schichten:

Input
(Pixel)

→

Conv
Layer 1
(Kanten)

→

Conv
Layer 2
(Formen)

→

Pooling
(Reduktion)

→

Output
(Klassen)

Jedes Rechteck repräsentiert einen Feature-Map. Je tiefer das Netz, desto abstrakter die erkannten Merkmale.

Wahrscheinlichkeitsverteilung: Was gibt das CNN aus?

Das CNN berechnet für jede mögliche Klasse eine Wahrscheinlichkeit. Das Zeichen mit dem höchsten Wert wird ausgegeben. Klicke auf ein Eingabezeichen:

Faltungsoperation – was macht ein Filter?

      Faltung (Convolution): Ein kleiner Filter (z. B. 3×3 Pixel) wird über das Bild geschoben. An jeder Position wird das Skalarprodukt zwischen Filter und Bildausschnitt berechnet. Verschiedene Filter erkennen verschiedene Merkmale: horizontale Kanten, vertikale Linien, Ecken.
    

Beispiel – Horizontaler Kantenfilter (Sobel):

−1 −2 −1
0 0 0
+1 +2 +1

Ein hoher Ausgabewert bedeutet: an dieser Stelle liegt eine horizontale Kante vor.

Frage

Was ist der Zweck der Pooling-Schicht in einem CNN?

06

Trainingsdatenproblematik

Ein KI-System ist nur so gut wie seine Trainingsdaten

Warum Trainingsdaten entscheidend sind

Ein neuronales Netz lernt ausschließlich aus Beispielen. Es hat kein implizites Verständnis von Sprache oder Schrift – es optimiert statistische Muster in den Trainingsdaten.

      Grundsatz: „Garbage in, garbage out." Fehlerhafte, unvollständige oder einseitige Trainingsdaten führen systematisch zu schlechten Ergebnissen.
    

Fehlende Schriftarten → schlechtere Erkennung dieser Fonts
Fehlende Sprachen → kaum Erkennung nicht-lateinischer Schriften
Wenig Handschriften-Samples → Handschrift-OCR fehlerhaft
Einseitige demografische Auswahl → systematische Verzerrungen

Denk-Aufgabe: Wer fehlt in den Daten?

Ein OCR-System wurde ausschließlich mit gedruckten deutschen Texten (1950–2000) trainiert. Für welche Szenarien ist es wahrscheinlich unzuverlässig?

Handgeschriebene Arztrezepte Maschinengetippter Standardbrief in Times New Roman Arabischer Text Gotische Fraktur-Schrift (19. Jh.) Modernes PDF in Arial

Frage

Ein OCR-Modell erkennt lateinische Großbuchstaben mit 98 % Genauigkeit, Handschrift aber nur mit 62 %. Was ist die wahrscheinlichste Ursache?

07

Zeichen-, Wort- und Sprachebene

Drei Verarbeitungsebenen – von einzelnen Zeichen bis zum Satzkontext

Die drei Erkennungsebenen

Ebene	Was wird analysiert?	Methode	Beispiel
Zeichenerkennung	Einzelnes isoliertes Zeichen	CNN, Template Matching	„H" → 94 % wahrscheinlich „H"
Worterkennung	Gesamtes Wortbild	CNN + Wörterbuch	„Hnus" → Wörterbuch: „Haus"
Sprachmodell	Satzkontext	N-Gramme, Transformer	„im Garen" → „im Garten"

      Tendenz: Moderne Systeme (z. B. Tesseract 4+, Google Vision AI) analysieren ganze Textzeilen statt einzelner Zeichen. Die Grenzen zwischen den Ebenen verschwimmen durch End-to-End-Lernen.
    

Zuordnungs-Aufgabe: Welche Ebene hilft hier?

Klicke zuerst auf ein Problem (linke Spalte), dann auf die passende Lösung (rechte Spalte).

"Hnus" wurde erkannt statt "Haus"

"im Garen" statt "im Garten"

"0" statt "O" (einzelner Buchstabe)

Sprachmodell (Satzkontext)

Zeichenerkennung (CNN + Wahrscheinlichkeit)

Wörterbuch-Modul

Frage

„Das Kind spielt im Garen." – Welche Ebene korrigiert diesen Fehler am wahrscheinlichsten?

08

OCR vs. Spracherkennung

Gemeinsamkeiten und Unterschiede zweier KI-Systeme

Vergleichstabelle

Merkmal	OCR	Spracherkennung (ASR)
Eingabedaten	2D-Rasterbild	Zeitreihe (Audiosignal)
Signal-Repräsentation	Pixelmatrix	Spektrogramm (MFCC)
Segmentierungsproblem	Zeichen sind räumlich getrennt	Laute gehen fließend ineinander über (Koartikulation)
Kontextabhängigkeit	Mittel (Zeilenkontext)	Hoch (zeitliche Abhängigkeiten)
ML-Ansatz	CNN, CTC	RNN, LSTM, Transformer
Gemeinsamkeit	Beide: analoge Signale → digitaler Text, ML, Wahrscheinlichkeitsmodelle, Wörterbuch/Sprachmodell

Spektrogramm: So „sieht" Spracherkennung

Ein Audiosignal wird in seine Frequenzanteile zerlegt. Die resultierende Zeit-Frequenz-Darstellung heißt Spektrogramm.

Simuliertes Spektrogramm: X-Achse = Zeit, Y-Achse = Frequenz, Helligkeit = Energie

Frage

Warum ist Spracherkennung typischerweise stärker kontextabhängig als OCR?

09

Gesellschaftliche Aspekte

Chancen, Risiken und ethische Dimensionen von OCR

Chancen der Digitalisierung durch OCR

Archive, Bibliotheken und historische Dokumente werden durchsuchbar und zugänglich
Texte für Menschen mit Sehbehinderung werden per Text-to-Speech nutzbar
Verwaltungsdigitalisierung (E-Government): automatische Verarbeitung von Formularen
Wissenschaftliche Erschließung großer Textmengen (Digital Humanities)

Risiken und kritische Perspektiven

      Wichtig: OCR-Systeme sind statistische Modelle, keine verstehenden Systeme. Sie berechnen Wahrscheinlichkeiten auf Basis von Trainingsdaten – ohne jedes Verständnis.
    

Datenschutz: Massendigitalisierung persönlicher Dokumente, Briefe, medizinischer Unterlagen
Qualitätssicherung: Fehler in OCR-Ergebnissen sind kaum sichtbar – wer prüft die Richtigkeit?
Sprachliche Ungleichheit: Gut digitalisiert werden hauptsächlich ressourcenreiche Sprachen
Urheberrecht: Digitalisierung und Indexierung urheberrechtlich geschützter Texte

Diskussionsaufgabe – Ethik-Fallbeispiele

Klicke auf ein Szenario und überlege: Welche ethischen Fragen stellen sich?

Frage

„OCR versteht den Text, den es erkennt." – Ist diese Aussage richtig?

🎯

Abschluss-Quiz

10 Fragen – teste dein gesamtes Wissen über OCR