KWALIFIKACJA PGF5 - CZERWIEC 2017

PYTANIE NR 13.
Zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych tekstów na wydrukowanym dokumencie określa się akronimem
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
OCR (Optical Character Recognition) to techniki i oprogramowanie służące do rozpoznawania znaków oraz całych fragmentów tekstu z obrazu dokumentu (np. skanu lub wydruku). Pozostałe skróty oznaczają inne pojęcia: PDF to format pliku, CTP dotyczy naświetlania form, a CMS zarządzania barwą/treścią.

Pełne wyjaśnienie:

Skrót OCR odnosi się do optycznego rozpoznawania znaków, czyli zestawu technik i narzędzi programowych, które potrafią przekształcić obraz tekstu (np. zeskanowaną stronę lub fotografię wydruku) w tekst możliwy do edycji i przeszukiwania. W praktyce poligraficznej i DTP OCR bywa wykorzystywane do odzyskiwania treści z archiwalnych materiałów, przenoszenia tekstów z dokumentów papierowych do składu komputerowego oraz do przygotowania plików, w których tekst ma być wyszukiwalny.

Odpowiedź "OCR" jest poprawna, ponieważ jako jedyna nazywa proces rozpoznawania znaków i całych tekstów z obrazu dokumentu. To nie jest format zapisu ani technologia naświetlania, tylko metoda przetwarzania obrazu na dane tekstowe.

Pozostałe propozycje są błędne, bo dotyczą innych obszarów:

  • "PDF" to przede wszystkim format pliku do przenoszenia i prezentacji dokumentów. Plik PDF może zawierać tekst, a czasem także warstwę tekstową powstałą przez OCR, ale sam skrót PDF nie oznacza technologii rozpoznawania znaków.
  • "CTP" w poligrafii wiąże się z przygotowaniem do druku, najczęściej z bezpośrednim naświetlaniem form drukowych. To etap produkcyjny prepress, niezwiązany z rozpoznawaniem tekstu z obrazu.
  • "CMS" to skrót używany w różnych dziedzinach (np. systemy zarządzania treścią) oraz w kontekście barwy (zarządzanie kolorem). Niezależnie od rozwinięcia, nie jest to nazwa procesu rozpoznawania znaków z wydruku.

Wskazówka egzaminacyjna: jeśli w treści pojawia się "rozpoznawanie znaków/tekstu z obrazu", niemal zawsze chodzi o OCR. Gdy mowa o "formacie dokumentu" – częściej o PDF, a gdy o naświetlaniu form – o CTP.

Dodatkowe pytania

Dodatkowe pytania (FAQ):
OCR to optyczne rozpoznawanie znaków, czyli zamiana obrazu tekstu (skan, zdjęcie, wydruk) na tekst edytowalny i przeszukiwalny. W poligrafii pomaga odzyskać treści do składu, korekty oraz archiwizacji, gdy materiał źródłowy jest tylko w formie papierowej.
Najczęściej przebieg jest taki: skanowanie dokumentu → analiza obrazu (kontrast, odszumianie, prostowanie) → segmentacja (linie, wyrazy, znaki) → rozpoznanie znaków → zapis jako tekst lub PDF z warstwą tekstową. Jakość zależy od jakości wejścia.
PDF to format pliku do zapisu i prezentacji dokumentu. Może zawierać tekst "prawdziwy" albo obraz stron, a czasem także warstwę tekstową utworzoną przez OCR. Jednak sam skrót PDF nie opisuje metody rozpoznawania znaków, tylko sposób zapisu/udostępniania dokumentu.
CTP odnosi się do technologii związanej z przygotowaniem form drukowych (etap prepress), czyli przeniesienia danych z pliku do postaci użytecznej w druku. To pojęcie dotyczy procesu produkcyjnego przed drukowaniem, a nie analizy treści tekstu z obrazu jak w OCR.
Nie. OCR jest wrażliwe na jakość skanu, rozdzielczość, poruszenie, zabrudzenia, krzywiznę kartki, nietypowe fonty i układ wielokolumnowy. Dlatego po OCR zwykle potrzebna jest weryfikacja i korekta. Im lepszy materiał wejściowy, tym mniej pomyłek.
Najczęściej myli się kategorie: wybiera się PDF, bo to "dokument", albo CTP, bo kojarzy się z produkcją poligraficzną. Warto zapamiętać: OCR = rozpoznawanie znaków; PDF = format pliku; CTP = etap przygotowania form; CMS = zarządzanie (treścią lub kolorem) zależnie od kontekstu.
OCR warto zastosować, gdy materiał źródłowy jest tylko w papierze lub jako skan, a trzeba go dalej składać lub poprawiać. Typowe przypadki: archiwalne publikacje, umowy, instrukcje, stare katalogi. OCR przyspiesza przeniesienie treści do edytora tekstu i programu składu.
Pomaga: skan w odpowiedniej rozdzielczości, dobre oświetlenie (przy zdjęciu), wysoki kontrast, wyprostowanie stron, usunięcie tła i szumu, wybór właściwego języka rozpoznawania oraz unikanie kompresji niszczącej detale. Czasem lepiej najpierw poprawić obraz, a dopiero potem uruchomić OCR.
Najprościej spróbować zaznaczyć i skopiować fragment "tekstu" w przeglądarce PDF. Jeśli kopiowanie działa i daje sensowny tekst, dokument ma warstwę tekstową (oryginalną lub z OCR). Jeśli zaznacza się tylko obszary jak obraz albo kopiowanie daje "krzaki", PDF jest prawdopodobnie skanem bez OCR.
Ucz się skrótów razem z ich obszarem zastosowania: rozpoznawanie tekstu (OCR), format dokumentu (PDF), przygotowanie form (CTP), zarządzanie treścią/kolorem (CMS). Dobrą metodą jest robienie fiszek: skrót → rozwinięcie → jedno praktyczne zastosowanie w prepress lub DTP.
info

Około 71% zdających odpowiada poprawnie na to pytanie. średnio łatwe

Według specjalistów z branży: "OCR (Optical Character Recognition) to techniki i oprogramowanie służące do rozpoznawania znaków oraz całych fragmentów tekstu z obrazu dokumentu (np. skanu lub wydruku)."

Źródła:

  • Wikipedia: Optical character recognition (OCR) — https://en.wikipedia.org/wiki/Optical_character_recognition (dostęp: 2026-02-28)
  • Tesseract OCR Documentation (projekt OCR) — https://tesseract-ocr.github.io/ (dostęp: 2026-02-28)
  • Adobe: PDF Reference / PDF specification overview (format PDF jako standard dokumentu) — https://www.adobe.com/devnet/pdf/pdf_reference.html (dostęp: 2026-02-28)

Materiały:

  • Dokumentacja narzędzi OCR (np. Tesseract) – opis działania i ograniczeń
  • Podręczniki DTP/poligrafii: słowniki pojęć i skrótów (PDF, CTP, CMS, OCR)
  • Materiały o workflow prepress: digitalizacja, korekta, skład, przygotowanie do druku

Aktualizacja pytania: 31.03.2026



Aktualizacja pytania: 31.03.2026
📡 Brak połączenia internetowego