KWALIFIKACJA EKA6 - TEST WIEDZY NR 3

PYTANIE NR 3.
Jakie jest główne zadanie segmentacji obrazu w procesie optycznego rozpoznawania znaków (OCR)?
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
Segmentacja obrazu w OCR służy do podziału skanu na mniejsze, sensowne części (np. bloki tekstu, linie, słowa lub znaki), aby kolejne etapy mogły je łatwiej analizować i rozpoznawać. Nie jest to to samo co odszumianie, zwiększanie kontrastu ani zmiana formatu pliku.

Pełne wyjaśnienie:

W procesie optycznego rozpoznawania znaków (OCR) system musi przejść od "dużego" obrazu (np. skanu kartki) do obiektów, które da się rozpoznać jako tekst. Temu służy segmentacja obrazu, czyli podział obrazu na mniejsze fragmenty – zależnie od rozwiązania mogą to być np. regiony tekstu na stronie, linie, słowa, a czasem pojedyncze znaki. Taki podział upraszcza analizę, bo algorytm rozpoznawania pracuje na bardziej jednorodnych i mniejszych obszarach.

Dlaczego poprawna jest odpowiedź: "Rozdzielenie obrazu na mniejsze fragmenty, które można łatwiej analizować." Ponieważ opisuje dokładnie ideę segmentacji: wyodrębnienie jednostek (fragmentów) stanowiących wejście dla kolejnych kroków rozpoznania.

  • Usunięcie niepotrzebnych elementów z obrazu – to typowe wstępne przetwarzanie (np. odszumianie, usuwanie tła, artefaktów), które może pomagać OCR, ale nie jest istotą segmentacji. Segmentacja "dzieli", a nie tylko "czyści".
  • Poprawa jakości obrazu poprzez dodanie kontrastu – to również etap poprawy jakości (enhancement). Kontrast może zwiększać czytelność liter, lecz nie odpowiada na pytanie o podział obrazu na elementy do rozpoznania.
  • Zmiana formatu obrazu – to czynność techniczna (plikowa) dotycząca kompatybilności i kompresji. Format może ułatwić wczytanie skanu do programu, ale sam nie rozwiązuje problemu wydzielenia tekstu z obrazu.

W praktyce biurowej warto zapamiętać prostą regułę: segmentacja porządkuje "gdzie jest tekst", a dopiero potem OCR odpowiada na pytanie "jaki to tekst".

Dodatkowe pytania

Dodatkowe pytania (FAQ):
Segmentacja obrazu w OCR to etap, w którym skan dzieli się na mniejsze obszary do analizy, np. bloki tekstu, linie, słowa lub znaki. Dzięki temu algorytm rozpoznawania nie "widzi" całej strony naraz, tylko pracuje na fragmentach, co zwykle zwiększa skuteczność.
Najczęściej segmentuje się obszary zawierające tekst, a dalej: linie tekstu, słowa i czasem pojedyncze znaki. W formularzach dodatkowo wyodrębnia się pola (np. data, kwota, numer), aby OCR rozpoznawał tylko to, co istotne dla danej rubryki.
Segmentacja ogranicza "szum informacyjny" i zmniejsza złożoność zadania: zamiast całej strony analizuje się mniejsze regiony. Łatwiej wtedy dopasować kształty liter, utrzymać poprawną kolejność czytania i uniknąć mieszania tekstu z grafiką lub tłem.
Nie. Odszumianie (usuwanie zakłóceń, plamek, artefaktów) to wstępne przetwarzanie obrazu, które poprawia jakość danych. Segmentacja natomiast polega na podziale obrazu na części do rozpoznania. Oba kroki mogą występować w OCR, ale mają inny cel.
Zwiększenie kontrastu to poprawa jakości obrazu, często wykonywana przed OCR, aby litery były wyraźniejsze. Nie jest to segmentacja, bo nie dzieli obrazu na fragmenty (np. linie czy słowa). To raczej przygotowanie materiału wejściowego do dalszej analizy.
Częsty błąd to utożsamianie segmentacji z "poprawianiem" obrazu (kontrast, odszumianie), bo wszystkie te czynności kojarzą się z przygotowaniem skanu. Warto zapamiętać: segmentacja odpowiada na pytanie "na jakie części podzielić obraz", a nie "jak go upiększyć".
Jest kluczowa przy fakturach, formularzach i pismach urzędowych, gdzie liczą się konkretne pola. Dobra segmentacja pozwala wybrać właściwe obszary do odczytu (np. kwotę, NIP, datę) i ogranicza ryzyko rozpoznania przypadkowych elementów z tła.
Segmentacja na linie wyodrębnia całe wiersze tekstu, co ułatwia zachowanie kolejności czytania. Segmentacja na znaki dzieli dalej na pojedyncze litery, co bywa trudniejsze przy złączonych znakach lub kursywie. W praktyce wybór zależy od metody OCR.
Nie zawsze. Wiele nowoczesnych metod rozpoznaje tekst sekwencyjnie (np. na poziomie linii) i ogranicza potrzebę dzielenia na pojedyncze znaki. Nadal jednak często występuje segmentacja w sensie wyodrębniania obszarów/wierszy, aby wskazać, gdzie znajduje się tekst.
Ucz się etapów procesu: skanowanie, wstępne przetwarzanie (np. odszumianie), segmentacja, rozpoznawanie i kontrola wyniku. Ćwicz rozróżnianie pojęć: segmentacja to "dzielenie", filtracja to "czyszczenie", a zmiana formatu to sprawa pliku, nie rozpoznawania.
info

To pytanie poprawnie rozwiązuje 59% zdających egzamin. średnie

Eksperci podkreślają: "Segmentacja obrazu w OCR służy do podziału skanu na mniejsze, sensowne części (np. bloki tekstu, linie, słowa lub znaki), aby kolejne etapy mogły je łatwiej analizować i rozpoznawać."

Źródła:

  • Ray Smith, "An Overview of the Tesseract OCR Engine", Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), 2007
  • Wikipedia (EN), "Optical character recognition" – sekcje o preprocessing i segmentation, https://en.wikipedia.org/wiki/Optical_character_recognition (dostęp: 2026-02-18)

Materiały:

  • Podstawowe wprowadzenia do OCR i przetwarzania obrazów (materiały dydaktyczne z informatyki biurowej)
  • Dokumentacja silników OCR (np. Tesseract) – opis etapów rozpoznawania
  • Artykuły przeglądowe o etapach OCR i podejściach segmentacyjnych oraz segmentacji-free

Aktualizacja pytania: 31.03.2026



Aktualizacja pytania: 31.03.2026
📡 Brak połączenia internetowego