KWALIFIKACJA PGF4 + PGF5 - CZERWIEC 2022 (test 2)

PYTANIE NR 7.
Oprogramowanie służące do rozpoznawania tekstu w zeskanowanym dokumencie określa się akronimem
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
OCR to powszechnie stosowany akronim od ang. Optical Character Recognition, czyli technologii rozpoznawania znaków w obrazie (np. skanie). Umożliwia zamianę zdjęcia/obrazu tekstu na tekst edytowalny i przeszukiwalny, co jest kluczowe w digitalizacji dokumentów.

Pełne wyjaśnienie:

Akronim OCR odnosi się do technologii rozpoznawania tekstu z obrazu, najczęściej ze skanu dokumentu lub fotografii zawierającej tekst. W praktyce oprogramowanie OCR analizuje kształty liter (znaków) widoczne na obrazie i próbuje dopasować je do znaków alfabetu, tworząc wynik w postaci tekstu, który można edytować, kopiować i przeszukiwać.

To ważne w pracy technika fotografii i multimediów, ponieważ digitalizacja materiałów często nie kończy się na wykonaniu skanu. Jeśli dokument ma być dalej opracowywany (korekta, skład, archiwizacja, indeksowanie), potrzebny jest tekst "maszynowy", a nie wyłącznie obraz stron.

Dlaczego pozostałe propozycje nie pasują?

  • ACR nie jest standardowym, powszechnie używanym skrótem na określenie rozpoznawania tekstu w skanach; może występować w innych kontekstach technologicznych, ale nie opisuje typowej funkcji OCR w obiegu dokumentów.
  • STL jest kojarzone przede wszystkim z formatami/modelami 3D (zastosowania inżynieryjne i druk 3D), a nie z rozpoznawaniem tekstu w zeskanowanym dokumencie.
  • CMS oznacza system zarządzania treścią (np. stroną WWW lub zasobami), czyli zupełnie inną kategorię narzędzi niż silnik rozpoznawania znaków.

Wskazówka egzaminacyjna: gdy w treści pytania pojawia się "rozpoznawanie tekstu" i "zeskanowany dokument", najczęściej chodzi właśnie o OCR. Pozostałe skróty zwykle dotyczą innych obszarów: zarządzania treścią, formatów danych lub odmiennych technologii.

Dodatkowe pytania

Dodatkowe pytania (FAQ):
OCR to technologia rozpoznawania znaków z obrazu (np. skanu). Jej celem jest zamiana "zdjęcia tekstu" na tekst edytowalny i przeszukiwalny, który można skopiować do edytora, zapisać jako DOCX/TXT lub osadzić w PDF jako warstwę tekstową.
Najczęściej przebieg wygląda tak: skan/zdjęcie → poprawa obrazu (prostowanie, odszumianie, kontrast) → wykrycie bloków tekstu → rozpoznanie znaków → słownikowa korekta błędów → eksport wyniku. Jakość obrazu i czcionki silnie wpływa na skuteczność.
OCR myli znaki, gdy obraz ma niski kontrast, rozmazanie, przekoszenie, artefakty kompresji lub szum. Problemy powodują też nietypowe fonty, mała czcionka i tło z fakturą. Przed OCR warto poprawić skan: wyrównać, zwiększyć kontrast i usunąć tło.
Tak, wiele narzędzi OCR działa na zdjęciach, ale jakość zależy od ostrości, oświetlenia i perspektywy. Najlepsze efekty daje zdjęcie prostopadłe do kartki, w równym świetle i bez cieni. Pomaga też automatyczne "prostowanie" i kadrowanie w aplikacji.
Uczniowie często mylą OCR z innymi skrótami, które znają z informatyki lub WWW (np. CMS) albo z formatami plików (np. STL). Mechanizm błędu to wybór "znanego" skrótu bez sprawdzenia, czy dotyczy rozpoznawania tekstu w obrazie.
Zwykle pomaga skan w odpowiedniej rozdzielczości, dobrym kontraście i bez poruszenia. Ważne jest też równe oświetlenie (przy skanach z aparatu) oraz prosty układ strony. Jeśli dostępne, użyj trybu "dokument/tekst" i unikaj agresywnej kompresji stratnej.
CMS to system zarządzania treścią (np. do stron WWW), służący do tworzenia i publikowania materiałów, a nie do rozpoznawania znaków ze skanu. W pytaniach o skanowanie i wydobycie tekstu kluczowym tropem jest właśnie technologia OCR, nie narzędzie do publikacji treści.
OCR opłaca się szczególnie przy dużej liczbie stron, powtarzalnych dokumentach i archiwach, gdzie liczy się szybkość i możliwość przeszukiwania. Ręczne przepisywanie bywa lepsze przy krótkich, bardzo zniszczonych materiałach lub gdy wymagana jest perfekcyjna korekta.
Najprościej spróbować zaznaczyć tekst w PDF i skopiować go do edytora. Jeśli da się zaznaczać litery/wyrazy, dokument prawdopodobnie ma warstwę tekstową (często z OCR). Gdy zaznacza się tylko cały obraz strony, PDF jest najpewniej skanem bez OCR.
Naucz się rozpoznawać skróty i ich zastosowania: OCR (tekst ze skanu), formaty plików (np. 3D), narzędzia WWW (np. CMS). Ćwicz na przykładach: wykonaj skan, uruchom OCR, porównaj wynik i zidentyfikuj, co w jakości obrazu najbardziej wpływa na błędy.
info

Około 73% zdających odpowiada poprawnie na to pytanie. średnio łatwe

Specjaliści zwracają uwagę: "OCR to powszechnie stosowany akronim od ang. Optical Character Recognition, czyli technologii rozpoznawania znaków w obrazie (np. skanie)."

Źródła:

  • Wikipedia (pl): "Optyczne rozpoznawanie znaków" (OCR) — https://pl.wikipedia.org/wiki/Optyczne_rozpoznawanie_znak%C3%B3w (dostęp: 2026-03-01)
  • Wikipedii (en): "Optical character recognition" — https://en.wikipedia.org/wiki/Optical_character_recognition (accessed 2026-03-01)
  • Tesseract OCR Documentation (GitHub): "tesseract-ocr/tesseract" — https://github.com/tesseract-ocr/tesseract (accessed 2026-03-01)

Materiały:

  • Dokumentacja programów OCR (np. instrukcje użytkownika i słowniczki pojęć)
  • Materiały o digitalizacji i archiwizacji dokumentów w pracy multimedialnej
  • Podstawy DTP i przygotowania materiałów do publikacji (workflow: skan → OCR → redakcja)

Aktualizacja pytania: 31.03.2026



Aktualizacja pytania: 31.03.2026
📡 Brak połączenia internetowego