Zamiana zeskanowanego obrazu na tekst wymaga technologii, która potrafi rozpoznać znaki widoczne na obrazie (litery, cyfry, interpunkcję) i przekształcić je do postaci danych tekstowych. Do tego służy OCR (optyczne rozpoznawanie znaków). W praktyce OCR analizuje obraz rastrowy strony, wykrywa układ wierszy i znaków, a następnie przypisuje im odpowiednie symbole kodowe, tworząc tekst możliwy do kopiowania, wyszukiwania i edycji.
Pozostałe pojęcia są często mylone z OCR, bo również pojawiają się przy pracy z dokumentami, ale oznaczają coś innego:
- DTP odnosi się do składu i przygotowania materiałów do publikacji (layout, typografia, łamanie tekstu). DTP pracuje na treści, która już jest tekstem lub elementami graficznymi, ale samo w sobie nie służy do rozpoznawania znaków z obrazu.
- DPI to miara rozdzielczości (gęstości punktów) przy skanowaniu i druku. Wyższe DPI może poprawić jakość obrazu i pośrednio zwiększyć skuteczność OCR, ale DPI nie jest techniką zamiany obrazu na tekst — to parametr jakości wejścia.
- OMR (rozpoznawanie znaków/znaczników) jest używane głównie do odczytu zaznaczeń w polach formularzy (np. kółka do zamalowania na arkuszach). OMR nie jest przeznaczone do pełnego odczytu tekstu z dokumentu.
W kontekście pracy technika informatyka warto pamiętać o typowym łańcuchu działań: skanowanie (pozyskanie obrazu) → dobór parametrów (np. DPI, kontrast) → OCR (rozpoznanie) → weryfikacja i korekta błędów (np. liter podobnych: O/0, l/1). Na egzaminie kluczowe jest rozróżnienie: OCR = rozpoznawanie tekstu, DPI = jakość/rozdzielczość obrazu, DTP = skład publikacji, OMR = odczyt zaznaczeń.