KWALIFIKACJA INF10 - CZERWIEC 2019

PYTANIE NR 24.
Aby przetworzyć plik tekstowy na plik dźwiękowy, konieczne jest zastosowanie programu typu
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
Technologia Text to Speech (TTS) służy do syntezy mowy, czyli zamiany tekstu na dźwięk (np. nagranie lub odczyt lektorski). OCR działa odwrotnie: rozpoznaje tekst z obrazu/skanu. Edytor tekstu służy do tworzenia i modyfikacji treści, a nie do generowania mowy.

Pełne wyjaśnienie:

Program typu Text to Speech (TTS) realizuje syntezę mowy, czyli przekształca zapisany tekst w mowę syntetyczną. Dzięki temu można np. odczytać dokument na głos albo wygenerować plik dźwiękowy (np. MP3/WAV) z treści tekstowej. W praktyce TTS jest kluczowym komponentem narzędzi wspierających osoby z niepełnosprawnością wzrokową, bo umożliwia dostęp do informacji bez konieczności widzenia ekranu.

Dlaczego pozostałe odpowiedzi nie pasują?

  • OCR (rozpoznawanie znaków) służy do zamiany obrazu na tekst (np. skanu lub zdjęcia dokumentu). Jest przydatne, gdy punktem wyjścia jest grafika, ale samo OCR nie "czyta na głos" i nie tworzy dźwięku bez dodatkowego TTS.
  • Edytor tekstu służy do tworzenia, formatowania i poprawiania treści (np. pisanie dokumentu), ale nie jest narzędziem do syntezy mowy ani konwersji tekstu na nagranie audio.
  • OBR nie jest standardową, powszechnie rozpoznawalną nazwą technologii służącej do konwersji tekstu na mowę; w kontekście pytań o narzędzia asystujące właściwym pojęciem jest TTS.

Wskazówka egzaminacyjna: zapamiętaj kierunek konwersji. OCR = obraz → tekst, a TTS = tekst → mowa/dźwięk. To najczęstszy punkt pomyłek w zadaniach o technologiach wspomagających.

Dodatkowe pytania

Dodatkowe pytania (FAQ):

Text to Speech (TTS) to technologia syntezy mowy, która zamienia tekst na głos komputerowy.

Umożliwia odczyt dokumentów, stron WWW i interfejsu programów osobom z niepełnosprawnością wzrokową oraz może generować pliki audio z treści tekstowej.

Najpierw system analizuje tekst, potem zamienia litery na brzmienia (fonemy) i dobiera prozodię (rytm, intonację).

Następnie silnik TTS syntetyzuje sygnał audio, który można odsłuchać lub zapisać jako plik, np. WAV albo MP3.

OCR rozpoznaje tekst z obrazu (skan/zdjęcie) i tworzy z niego tekst cyfrowy.

TTS robi coś innego: bierze już dostępny tekst i zamienia go na mowę. W praktyce często używa się obu: OCR do pozyskania tekstu i TTS do jego odczytu.

TTS jest używane m.in. w czytnikach ekranu i narzędziach systemowych.

Przykładowo: NVDA, JAWS oraz wbudowany Narrator w Windows korzystają z silników mowy, aby odczytywać treści na głos i wspierać obsługę komputera bez wzroku.

Nie. Wiele rozwiązań TTS działa offline, bo silnik mowy jest zainstalowany lokalnie.

Internet może być potrzebny tylko w wybranych usługach "chmurowych" lub przy pobieraniu nowych głosów. Na egzaminie warto pamiętać, że brak internetu nie wyklucza działania TTS.

Najczęściej źródłem jest tekst z plików TXT/DOC lub treść z PDF (gdy PDF zawiera tekst, a nie sam obraz).

Efektem może być odsłuch na żywo lub zapis do pliku audio, np. WAV lub MP3, zależnie od programu i użytego silnika.

Edytor tekstu służy do pisania i formatowania treści, np. poprawiania błędów i układu dokumentu.

Narzędzie TTS służy do zamiany tekstu na mowę (odczyt lub plik audio). W pytaniach kluczowe jest wymagane wyjście: dźwięk oznacza TTS.

Najczęściej reguluje się prędkość czytania, głośność oraz wysokość głosu.

Istotny jest też wybór głosu i poprawna obsługa języka polskiego (wymowa znaków diakrytycznych). Dobre dopasowanie ustawień zwiększa komfort i efektywność pracy.

Gdy dokument jest skanem lub zdjęciem, komputer "widzi" go jako obraz, a nie tekst.

Wtedy najpierw OCR zamienia obraz na tekst, a dopiero potem TTS może ten tekst odczytać na głos lub zapisać jako nagranie audio. To typowy scenariusz w pracy tyfloinformatyka.

Utrwal kierunki konwersji: OCR = obraz→tekst, TTS = tekst→mowa.

Poćwicz w praktyce: uruchom czytnik ekranu, zmień ustawienia głosu i spróbuj odczytu dokumentu. Na egzaminie pytania często sprawdzają właśnie rozróżnienie tych narzędzi.

info

To pytanie poprawnie rozwiązuje 74% zdających egzamin. średnio łatwe

W praktyce zawodowej kluczowe jest to, że technologia Text to Speech (TTS) służy do syntezy mowy, czyli zamiany tekstu na dźwięk (np. nagranie lub odczyt lektorski).

Źródła:

  • NV Access (NVDA User Guide) – opis syntezatora mowy i funkcji mowy w czytniku ekranu NVDA, https://www.nvaccess.org/documentation/ (dostęp: 2026-03-13)
  • Microsoft Support – Windows Narrator (Narrator) i mowa/voice w systemie Windows, https://support.microsoft.com/windows/use-narrator-to-read-and-write-emails-b6b7a8a3-0b13-4c01-9d7a-3d3a7b0c6d3a (dostęp: 2026-03-13)
  • Freedom Scientific – JAWS Documentation (mowa/speech i ustawienia syntezy), https://www.freedomscientific.com/training/jaws/ (dostęp: 2026-03-13)

Materiały:

  • Dokumentacja i poradniki NVDA dotyczące syntezy mowy i ustawień głosu
  • Materiały producentów czytników ekranu (JAWS, Narrator) opisujące komponent TTS
  • Podstawowe opracowania o OCR i technologiach asystujących w informatyce

Aktualizacja pytania: 03.04.2026



Aktualizacja pytania: 03.04.2026
📡 Brak połączenia internetowego