KWALIFIKACJA PGF4 + PGF5 - STYCZEŃ 2023

PYTANIE NR 9.

Programem do rozpoznawania tekstów w zeskanowanych bitmapach lub plikach PDF jest

A.	ZIP
B.	RIP
C.	RAR
D.	OCR
	Zostaw bez odpowiedzi

Wyjaśnienie poprawnej odpowiedzi:
OCR (Optical Character Recognition) oznacza optyczne rozpoznawanie znaków, czyli zamianę tekstu widocznego na skanie/bitmapie lub w obrazie w PDF na tekst możliwy do wyszukania i edycji. RIP dotyczy przygotowania danych do druku, a RAR i ZIP to formaty archiwizacji/kompresji plików, nie rozpoznawania tekstu.

Pełne wyjaśnienie:

Rozpoznawanie tekstu w zeskanowanych bitmapach lub w plikach PDF opartych o obraz polega na analizie kształtów liter i zamianie ich na znaki tekstowe. Do tego służy OCR (Optical Character Recognition), czyli technologia/proces optycznego rozpoznawania znaków. Wynikiem OCR jest zwykle tekst, który można kopiować, wyszukiwać oraz (w zależności od jakości) edytować w edytorze tekstu lub w programach do pracy z PDF.
Odpowiedź "OCR" jest poprawna, ponieważ bez tej funkcji skan pozostaje jedynie obrazem: wygląda jak tekst, ale komputer nie "rozumie" liter jako znaków. OCR jest powszechnie używane w pracy technika fotografii i multimediów przy digitalizacji dokumentów, archiwizacji, przygotowaniu materiałów do składu oraz tworzeniu przeszukiwalnych PDF.
Pozostałe odpowiedzi nie pasują do definicji zadania:
"RIP" (Raster Image Processor) to narzędzie/proces związany z przygotowaniem danych do druku (rastrowanie, separacje, interpretacja PostScript/PDF pod urządzenie drukujące). Nie służy do rozpoznawania liter ze skanu.
"RAR" to format archiwum skompresowanego. Służy do pakowania plików, zmniejszania rozmiaru i przenoszenia danych, a nie do analizy obrazu i wydobywania tekstu.
"ZIP" pełni analogiczną funkcję jak RAR: kompresja i archiwizacja plików. Może spakować PDF lub skany, ale nie zmieni obrazu w tekst.
Wskazówka egzaminacyjna: jeśli w treści pojawiają się słowa "rozpoznawanie tekstu", "skan", "obraz w PDF" albo "zamiana obrazu na edytowalny tekst", niemal zawsze chodzi o OCR.

Dodatkowe pytania

Dodatkowe pytania (FAQ):

Co to jest OCR i do czego służy?

OCR to optyczne rozpoznawanie znaków, czyli zamiana tekstu widocznego na obrazie (skan, zdjęcie, bitmapa) na tekst komputerowy. Dzięki temu dokument w PDF lub grafice staje się przeszukiwalny i można z niego kopiować treść do edytora.

Jak działa OCR w zeskanowanym PDF?

OCR analizuje warstwę obrazu w PDF, wykrywa kształty liter i przypisuje im znaki. Często tworzy dodatkową "warstwę tekstową" w PDF, co umożliwia wyszukiwanie słów i kopiowanie treści, nawet gdy oryginał był tylko skanem.

Dlaczego PDF po skanowaniu nie daje się zaznaczyć jak tekst?

Po skanowaniu PDF zwykle zawiera obraz stron, a nie znaki tekstowe. Komputer widzi piksele, a nie litery, więc nie da się zaznaczyć słów. Dopiero użycie OCR tworzy tekst (lub warstwę tekstową), którą można zaznaczać i przeszukiwać.

Czy OCR zawsze daje 100% poprawny tekst?

Nie. Skuteczność OCR zależy od jakości skanu, rozdzielczości, kontrastu, czcionki, języka i zniekształceń (np. krzywej kartki). Przy słabym materiale wynik może wymagać korekty, dlatego po OCR warto wykonać szybkie sprawdzenie błędów.

Jakie są najczęstsze błędy przy OCR na egzaminie?

Najczęściej myli się OCR z RIP (druk) albo z ZIP/RAR (kompresja). Pomaga prosta zasada: OCR dotyczy liter i tekstu, RIP dotyczy drukowania i rastra, a ZIP/RAR dotyczy pakowania plików.

Co oznacza skrót RIP i dlaczego to nie jest OCR?

RIP to procesor rastrowy używany w poligrafii do przygotowania danych do druku (interpretacja pliku i wygenerowanie rastra dla urządzenia). Nie rozpoznaje znaków z obrazu jako tekstu, więc nie spełnia funkcji zamiany skanu na edytowalną treść.

Czy ZIP lub RAR mogą "wyciągnąć" tekst z PDF?

Nie. ZIP i RAR to formaty archiwów, które kompresują i pakują pliki. Mogą zmniejszyć rozmiar PDF lub skanów, ale nie analizują obrazu i nie tworzą tekstu. Do wydobycia tekstu z obrazu potrzebna jest funkcja OCR.

Jak przygotować skan, żeby OCR działał lepiej?

Pomaga wysoka rozdzielczość, dobry kontrast, równomierne oświetlenie i brak przekoszenia. W praktyce warto też usunąć szum, wyprostować stronę i przyciąć marginesy. Im czytelniejszy obraz liter, tym mniej pomyłek rozpoznawania.

Kiedy w pracy multimedialnej używa się OCR najczęściej?

Najczęściej przy digitalizacji dokumentów (umowy, instrukcje, katalogi), tworzeniu przeszukiwalnych archiwów PDF, przepisywaniu materiałów z wydruków oraz przygotowaniu treści do składu. OCR oszczędza czas w porównaniu z ręcznym przepisywaniem.

Jak odróżnić PDF tekstowy od PDF po OCR lub po skanie?

W PDF tekstowym da się zaznaczać pojedyncze słowa i kopiować je bez "krzaczków". W PDF po skanie zaznaczanie zwykle nie działa, bo to obraz. W PDF po OCR zaznaczanie i wyszukiwanie działa, choć czasem mogą pojawić się błędy liter, jeśli skan był słaby.

info

Około 75% zdających odpowiada poprawnie na to pytanie. średnio łatwe

Według specjalistów z branży: "OCR (Optical Character Recognition) oznacza optyczne rozpoznawanie znaków, czyli zamianę tekstu widocznego na skanie/bitmapie lub w obrazie w PDF na tekst możliwy do wyszukania i edycji."

Źródła:

Adobe Acrobat User Guide – Recognize text in scanned documents (OCR), https://helpx.adobe.com/acrobat/using/ocr-text-scanned-documents.html - accessed 2026-03-02
Tesseract OCR – GitHub README / overview, https://github.com/tesseract-ocr/tesseract - accessed 2026-03-02
Wikipedia (EN) – Optical character recognition (OCR) – definicja i zastosowania, https://en.wikipedia.org/wiki/Optical_character_recognition - accessed 2026-03-02

Materiały:

Dokumentacja Adobe Acrobat – funkcje skanowania i OCR
Dokumentacja Tesseract OCR – opis działania i zastosowań
Materiały o digitalizacji dokumentów i przygotowaniu przeszukiwalnych PDF (DTP/archiwizacja cyfrowa)

Aktualizacja pytania: 31.03.2026

LOGOWANIE

KWALIFIKACJA PGF4 + PGF5 - STYCZEŃ 2023

Dodatkowe pytania

Dodatkowe pytania (FAQ):