KWALIFIKACJA PGF4 + PGF5 - STYCZEŃ 2023

PYTANIE NR 9.
Programem do rozpoznawania tekstów w zeskanowanych bitmapach lub plikach PDF jest
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
OCR (Optical Character Recognition) oznacza optyczne rozpoznawanie znaków, czyli zamianę tekstu widocznego na skanie/bitmapie lub w obrazie w PDF na tekst możliwy do wyszukania i edycji. RIP dotyczy przygotowania danych do druku, a RAR i ZIP to formaty archiwizacji/kompresji plików, nie rozpoznawania tekstu.

Pełne wyjaśnienie:

Rozpoznawanie tekstu w zeskanowanych bitmapach lub w plikach PDF opartych o obraz polega na analizie kształtów liter i zamianie ich na znaki tekstowe. Do tego służy OCR (Optical Character Recognition), czyli technologia/proces optycznego rozpoznawania znaków. Wynikiem OCR jest zwykle tekst, który można kopiować, wyszukiwać oraz (w zależności od jakości) edytować w edytorze tekstu lub w programach do pracy z PDF.

Odpowiedź "OCR" jest poprawna, ponieważ bez tej funkcji skan pozostaje jedynie obrazem: wygląda jak tekst, ale komputer nie "rozumie" liter jako znaków. OCR jest powszechnie używane w pracy technika fotografii i multimediów przy digitalizacji dokumentów, archiwizacji, przygotowaniu materiałów do składu oraz tworzeniu przeszukiwalnych PDF.

Pozostałe odpowiedzi nie pasują do definicji zadania:

  • "RIP" (Raster Image Processor) to narzędzie/proces związany z przygotowaniem danych do druku (rastrowanie, separacje, interpretacja PostScript/PDF pod urządzenie drukujące). Nie służy do rozpoznawania liter ze skanu.
  • "RAR" to format archiwum skompresowanego. Służy do pakowania plików, zmniejszania rozmiaru i przenoszenia danych, a nie do analizy obrazu i wydobywania tekstu.
  • "ZIP" pełni analogiczną funkcję jak RAR: kompresja i archiwizacja plików. Może spakować PDF lub skany, ale nie zmieni obrazu w tekst.

Wskazówka egzaminacyjna: jeśli w treści pojawiają się słowa "rozpoznawanie tekstu", "skan", "obraz w PDF" albo "zamiana obrazu na edytowalny tekst", niemal zawsze chodzi o OCR.

Dodatkowe pytania

Dodatkowe pytania (FAQ):
OCR to optyczne rozpoznawanie znaków, czyli zamiana tekstu widocznego na obrazie (skan, zdjęcie, bitmapa) na tekst komputerowy. Dzięki temu dokument w PDF lub grafice staje się przeszukiwalny i można z niego kopiować treść do edytora.
OCR analizuje warstwę obrazu w PDF, wykrywa kształty liter i przypisuje im znaki. Często tworzy dodatkową "warstwę tekstową" w PDF, co umożliwia wyszukiwanie słów i kopiowanie treści, nawet gdy oryginał był tylko skanem.
Po skanowaniu PDF zwykle zawiera obraz stron, a nie znaki tekstowe. Komputer widzi piksele, a nie litery, więc nie da się zaznaczyć słów. Dopiero użycie OCR tworzy tekst (lub warstwę tekstową), którą można zaznaczać i przeszukiwać.
Nie. Skuteczność OCR zależy od jakości skanu, rozdzielczości, kontrastu, czcionki, języka i zniekształceń (np. krzywej kartki). Przy słabym materiale wynik może wymagać korekty, dlatego po OCR warto wykonać szybkie sprawdzenie błędów.
Najczęściej myli się OCR z RIP (druk) albo z ZIP/RAR (kompresja). Pomaga prosta zasada: OCR dotyczy liter i tekstu, RIP dotyczy drukowania i rastra, a ZIP/RAR dotyczy pakowania plików.
RIP to procesor rastrowy używany w poligrafii do przygotowania danych do druku (interpretacja pliku i wygenerowanie rastra dla urządzenia). Nie rozpoznaje znaków z obrazu jako tekstu, więc nie spełnia funkcji zamiany skanu na edytowalną treść.
Nie. ZIP i RAR to formaty archiwów, które kompresują i pakują pliki. Mogą zmniejszyć rozmiar PDF lub skanów, ale nie analizują obrazu i nie tworzą tekstu. Do wydobycia tekstu z obrazu potrzebna jest funkcja OCR.
Pomaga wysoka rozdzielczość, dobry kontrast, równomierne oświetlenie i brak przekoszenia. W praktyce warto też usunąć szum, wyprostować stronę i przyciąć marginesy. Im czytelniejszy obraz liter, tym mniej pomyłek rozpoznawania.
Najczęściej przy digitalizacji dokumentów (umowy, instrukcje, katalogi), tworzeniu przeszukiwalnych archiwów PDF, przepisywaniu materiałów z wydruków oraz przygotowaniu treści do składu. OCR oszczędza czas w porównaniu z ręcznym przepisywaniem.
W PDF tekstowym da się zaznaczać pojedyncze słowa i kopiować je bez "krzaczków". W PDF po skanie zaznaczanie zwykle nie działa, bo to obraz. W PDF po OCR zaznaczanie i wyszukiwanie działa, choć czasem mogą pojawić się błędy liter, jeśli skan był słaby.
info

Około 75% zdających odpowiada poprawnie na to pytanie. średnio łatwe

Według specjalistów z branży: "OCR (Optical Character Recognition) oznacza optyczne rozpoznawanie znaków, czyli zamianę tekstu widocznego na skanie/bitmapie lub w obrazie w PDF na tekst możliwy do wyszukania i edycji."

Źródła:

  • Adobe Acrobat User Guide – Recognize text in scanned documents (OCR), https://helpx.adobe.com/acrobat/using/ocr-text-scanned-documents.html - accessed 2026-03-02
  • Tesseract OCR – GitHub README / overview, https://github.com/tesseract-ocr/tesseract - accessed 2026-03-02
  • Wikipedia (EN) – Optical character recognition (OCR) – definicja i zastosowania, https://en.wikipedia.org/wiki/Optical_character_recognition - accessed 2026-03-02

Materiały:

  • Dokumentacja Adobe Acrobat – funkcje skanowania i OCR
  • Dokumentacja Tesseract OCR – opis działania i zastosowań
  • Materiały o digitalizacji dokumentów i przygotowaniu przeszukiwalnych PDF (DTP/archiwizacja cyfrowa)

Aktualizacja pytania: 31.03.2026



Aktualizacja pytania: 31.03.2026
📡 Brak połączenia internetowego