Punkte: 0
Informatik Gymnasium · Klasse 11

OCR –
Optische Zeichen­erkennung

90 Minuten
Einheit 07
KI & Mustererkennung
01

Grundidee von OCR

Was ist Optische Zeichenerkennung – und warum ist ein Bild nicht gleich Text?

Was bedeutet OCR?

OCR steht für Optical Character Recognition – auf Deutsch: Optische Zeichenerkennung.

Ein gescanntes Dokument ist zunächst nichts weiter als ein Bild: eine Matrix aus Pixeln. Der Computer erkennt darin keine Buchstaben, sondern nur Helligkeitswerte. OCR hat die Aufgabe, aus diesen Pixelmustern wieder Zeichen zu rekonstruieren – damit der Text durchsucht, kopiert und weiterverarbeitet werden kann.

Kernaussage: OCR übersetzt visuelle Muster in symbolische Zeichen.

Bild vs. Text – der fundamentale Unterschied

EigenschaftBild (z. B. JPEG)Textdatei (z. B. TXT)
GrundeinheitPixel (Farbwert)Zeichen (Unicode-Codepoint)
InhaltHelligkeits-/FarbmatrixSymbolfolge
Durchsuchbar?NeinJa
Kopierbar?Nur als GrafikAls Text
Dateigröße (Beispiel)500 kB für eine Seiteca. 3–5 kB

🔍 Pixel-Demo: Was „sieht" der Computer?

Das Bild unten zeigt einen Buchstaben als Pixelraster. Jede Zelle ist ein Pixel. Fahre mit der Maus über die Zellen – du siehst den Grauwert.

Frage Verständnis prüfen

Welche Aussage beschreibt den Unterschied zwischen einem Bild und einer Textdatei am besten?
02

Ablauf einer OCR-Verarbeitung

Von der Kamera bis zum digitalen Text – die fünf Verarbeitungsschritte

Pipeline – klicke auf einen Schritt für Details

1Digitali­sierung
2Vorver­arbeitung
3Segmen­tierung
4Zeichen­erkennung
5Post­processing
Digitalisierung: Ein physisches Dokument wird durch einen Scanner oder eine Kamera in ein digitales Rasterbild (z. B. TIFF, PNG, JPEG) überführt. Wichtige Parameter: Auflösung (DPI), Belichtung, Schärfe.
Vorverarbeitung: Das Bild wird optimiert für die Erkennung.
Graustufen-Umwandlung: Farbe ist oft irrelevant, Helligkeit entscheidend.
Binarisierung (Schwellwert): Jeder Pixel wird schwarz oder weiß (z. B. Otsu-Algorithmus).
Rauschreduktion: Median-Filter entfernt Störpixel.
Deskewing: Schiefe Aufnahmen werden begradigt.
Segmentierung: Das Bild wird hierarchisch in Bereiche zerlegt:
Seite → Spalten → Absätze → Zeilen → Wörter → einzelne Zeichen.
Techniken: Projektion auf Zeilen (Zeilenhistogramm), verbundene Komponenten (connected components).
Zeichenerkennung: Das Herzstück. Für jedes segmentierte Zeichenbild wird entschieden, welches Symbol es darstellt. Klassisch: Template Matching oder Merkmalsextraktion. Modern: Convolutional Neural Networks (CNN).
Post-Processing: Das Ergebnis wird mit Wörterbüchern und Sprachmodellen validiert und korrigiert. Wahrscheinliche Buchstabenfolgen ersetzen unwahrscheinliche. Kontext erhöht die Genauigkeit erheblich.

Binarisierungs-Demo: Schwellwert interaktiv

Verschiebe den Regler und beobachte, wie sich die Binarisierung verändert.

128

Lückentext Ablauf vervollständigen

Fülle die fünf Lücken aus. Die Begriffe stammen alle aus der Pipeline-Erklärung oben.
Begriffe zur Auswahl: Binarisierung · Segmentierung · Deskewing · Wörterbuch · Rauschen

Im Schritt der Vorverarbeitung wird das Bild zunächst in Graustufen umgewandelt. Dann folgt die , bei der jeder Pixel entweder schwarz oder weiß wird.

Störpixel werden durch einen Median-Filter entfernt – man spricht von -Reduktion.

Schiefe Aufnahmen werden durch begradigt.

Danach zerlegt die das Bild hierarchisch in Zeilen, Wörter und einzelne Zeichen.

Im Post-Processing vergleicht ein -Modul die erkannten Zeichenfolgen mit bekannten Wörtern und korrigiert Fehler.

03

OCR im EVA-Prinzip

Eingabe – Verarbeitung – Ausgabe als Strukturierungsrahmen

Das EVA-Prinzip

Eingabe

Bild eines Texts (JPEG, TIFF, PNG)

Verarbeitung

Vorverarbeitung
Segmentierung
Mustererkennung
Klassifikation
Kontextanalyse

Ausgabe

Digitaler Text (UTF-8, PDF/A, DOCX)

Aufgabe: Zuordnen per Drag & Drop

Ziehe die Elemente in die richtige EVA-Kategorie.

Eingabe

Verarbeitung

Ausgabe

Frage

Welche der folgenden Angaben ist die Ausgabe bei OCR?
04

Fehlerquellen

Warum OCR scheitert – und wie ähnliche Zeichen Probleme verursachen

Typische Fehlerursachen

Niedrige Bildauflösung +
Bei niedriger Auflösung (unter 150 DPI) enthalten Buchstaben nur sehr wenige Pixel. Feine Details wie Serifen oder Bögen gehen verloren. Ähnliche Zeichen wie O, 0, Q oder l, I, 1 werden kaum unterscheidbar. Empfehlung: Mindestens 300 DPI für zuverlässige OCR.
Unscharfe oder schiefe Aufnahmen +
Bewegungsunschärfe, Defokussierung oder ein Winkel von mehr als 5° gegenüber der Horizontalen führen zu Segmentierungsfehlern. Buchstaben überlappen sich, Zeilentrennungen werden falsch erkannt.
Ungewöhnliche Schriftarten und Handschrift +
Wenn eine Schriftart nicht im Training enthalten war, fehlt dem Modell das Wissen über ihre spezifischen Formen. Handschrift variiert von Person zu Person dramatisch – gleiche Buchstaben können völlig unterschiedlich aussehen.
Mathematische Formeln +
Formeln nutzen zweidimensionale Notation: Brüche, Exponenten, Indizes stehen über- und untereinander. Die Segmentierung, die Zeilen horizontal verarbeitet, versagt hier. Spezialisierte Systeme (z. B. MathPix) sind notwendig.

Verwechslungsgruppen – Zeichen den richtigen Gruppen zuordnen

OCR-Systeme verwechseln nicht nur Paare, sondern häufig ganze Gruppen visuell ähnlicher Zeichen. Ziehe die Zeichen unten in die passende Verwechslungsgruppe. Jede Gruppe hat eine eigene Farbe. Zeichen, die zu keiner Verwechslungsgruppe gehören, bleiben im Pool.

Zeichenvorrat – ziehe von hier in die Gruppen:

Frage

Warum sind mathematische Formeln besonders schwierig für Standard-OCR?
05

Moderne OCR: Convolutional Neural Networks

Wie neuronale Netze Buchstaben „sehen" lernen

CNN-Architektur für Zeichenerkennung

Ein Convolutional Neural Network (CNN) verarbeitet das Bild als Zahlenmatrix durch mehrere spezialisierte Schichten:

Input
(Pixel)
Conv
Layer 1
(Kanten)
Conv
Layer 2
(Formen)
Pooling
(Reduktion)
Output
(Klassen)

Jedes Rechteck repräsentiert einen Feature-Map. Je tiefer das Netz, desto abstrakter die erkannten Merkmale.

Wahrscheinlichkeitsverteilung: Was gibt das CNN aus?

Das CNN berechnet für jede mögliche Klasse eine Wahrscheinlichkeit. Das Zeichen mit dem höchsten Wert wird ausgegeben. Klicke auf ein Eingabezeichen:

Faltungsoperation – was macht ein Filter?

Faltung (Convolution): Ein kleiner Filter (z. B. 3×3 Pixel) wird über das Bild geschoben. An jeder Position wird das Skalarprodukt zwischen Filter und Bildausschnitt berechnet. Verschiedene Filter erkennen verschiedene Merkmale: horizontale Kanten, vertikale Linien, Ecken.

Beispiel – Horizontaler Kantenfilter (Sobel):

−1 −2 −1
 0  0  0
+1 +2 +1

Ein hoher Ausgabewert bedeutet: an dieser Stelle liegt eine horizontale Kante vor.

Frage

Was ist der Zweck der Pooling-Schicht in einem CNN?
06

Trainingsdatenproblematik

Ein KI-System ist nur so gut wie seine Trainingsdaten

Warum Trainingsdaten entscheidend sind

Ein neuronales Netz lernt ausschließlich aus Beispielen. Es hat kein implizites Verständnis von Sprache oder Schrift – es optimiert statistische Muster in den Trainingsdaten.

Grundsatz: „Garbage in, garbage out." Fehlerhafte, unvollständige oder einseitige Trainingsdaten führen systematisch zu schlechten Ergebnissen.
  • Fehlende Schriftarten → schlechtere Erkennung dieser Fonts
  • Fehlende Sprachen → kaum Erkennung nicht-lateinischer Schriften
  • Wenig Handschriften-Samples → Handschrift-OCR fehlerhaft
  • Einseitige demografische Auswahl → systematische Verzerrungen

Denk-Aufgabe: Wer fehlt in den Daten?

Ein OCR-System wurde ausschließlich mit gedruckten deutschen Texten (1950–2000) trainiert. Für welche Szenarien ist es wahrscheinlich unzuverlässig?

Frage

Ein OCR-Modell erkennt lateinische Großbuchstaben mit 98 % Genauigkeit, Handschrift aber nur mit 62 %. Was ist die wahrscheinlichste Ursache?
07

Zeichen-, Wort- und Sprachebene

Drei Verarbeitungsebenen – von einzelnen Zeichen bis zum Satzkontext

Die drei Erkennungsebenen

EbeneWas wird analysiert?MethodeBeispiel
Zeichenerkennung Einzelnes isoliertes Zeichen CNN, Template Matching „H" → 94 % wahrscheinlich „H"
Worterkennung Gesamtes Wortbild CNN + Wörterbuch „Hnus" → Wörterbuch: „Haus"
Sprachmodell Satzkontext N-Gramme, Transformer „im Garen" → „im Garten"
Tendenz: Moderne Systeme (z. B. Tesseract 4+, Google Vision AI) analysieren ganze Textzeilen statt einzelner Zeichen. Die Grenzen zwischen den Ebenen verschwimmen durch End-to-End-Lernen.

Zuordnungs-Aufgabe: Welche Ebene hilft hier?

Klicke zuerst auf ein Problem (linke Spalte), dann auf die passende Lösung (rechte Spalte).

"Hnus" wurde erkannt statt "Haus"
"im Garen" statt "im Garten"
"0" statt "O" (einzelner Buchstabe)
Sprachmodell (Satzkontext)
Zeichenerkennung (CNN + Wahrscheinlichkeit)
Wörterbuch-Modul

Frage

„Das Kind spielt im Garen." – Welche Ebene korrigiert diesen Fehler am wahrscheinlichsten?
08

OCR vs. Spracherkennung

Gemeinsamkeiten und Unterschiede zweier KI-Systeme

Vergleichstabelle

MerkmalOCRSpracherkennung (ASR)
Eingabedaten2D-RasterbildZeitreihe (Audiosignal)
Signal-RepräsentationPixelmatrixSpektrogramm (MFCC)
SegmentierungsproblemZeichen sind räumlich getrenntLaute gehen fließend ineinander über (Koartikulation)
KontextabhängigkeitMittel (Zeilenkontext)Hoch (zeitliche Abhängigkeiten)
ML-AnsatzCNN, CTCRNN, LSTM, Transformer
GemeinsamkeitBeide: analoge Signale → digitaler Text, ML, Wahrscheinlichkeitsmodelle, Wörterbuch/Sprachmodell

Spektrogramm: So „sieht" Spracherkennung

Ein Audiosignal wird in seine Frequenzanteile zerlegt. Die resultierende Zeit-Frequenz-Darstellung heißt Spektrogramm.

Simuliertes Spektrogramm: X-Achse = Zeit, Y-Achse = Frequenz, Helligkeit = Energie

Frage

Warum ist Spracherkennung typischerweise stärker kontextabhängig als OCR?
09

Gesellschaftliche Aspekte

Chancen, Risiken und ethische Dimensionen von OCR

Chancen der Digitalisierung durch OCR

  • Archive, Bibliotheken und historische Dokumente werden durchsuchbar und zugänglich
  • Texte für Menschen mit Sehbehinderung werden per Text-to-Speech nutzbar
  • Verwaltungsdigitalisierung (E-Government): automatische Verarbeitung von Formularen
  • Wissenschaftliche Erschließung großer Textmengen (Digital Humanities)

Risiken und kritische Perspektiven

Wichtig: OCR-Systeme sind statistische Modelle, keine verstehenden Systeme. Sie berechnen Wahrscheinlichkeiten auf Basis von Trainingsdaten – ohne jedes Verständnis.
  • Datenschutz: Massendigitalisierung persönlicher Dokumente, Briefe, medizinischer Unterlagen
  • Qualitätssicherung: Fehler in OCR-Ergebnissen sind kaum sichtbar – wer prüft die Richtigkeit?
  • Sprachliche Ungleichheit: Gut digitalisiert werden hauptsächlich ressourcenreiche Sprachen
  • Urheberrecht: Digitalisierung und Indexierung urheberrechtlich geschützter Texte

Diskussionsaufgabe – Ethik-Fallbeispiele

Klicke auf ein Szenario und überlege: Welche ethischen Fragen stellen sich?

Frage

„OCR versteht den Text, den es erkennt." – Ist diese Aussage richtig?
🎯

Abschluss-Quiz

10 Fragen – teste dein gesamtes Wissen über OCR