KWALIFIKACJA INF10 - STYCZEŃ 2015

PYTANIE NR 25.
Do przetworzenia pliku tekstowego na plik dźwiękowy używany jest program typu
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
Konwersja pliku tekstowego na dźwięk w postaci mowy syntetycznej wymaga narzędzia TTS, czyli syntezatora mowy. Edytor tekstu służy do tworzenia/zmiany treści, edytor audio do obróbki nagrań, a biblioteka systemowa jest komponentem, nie typowym programem użytkowym do odczytu tekstu.

Pełne wyjaśnienie:

Zamiana pliku tekstowego na plik dźwiękowy (w sensie wygenerowanej wypowiedzi) jest realizowana przez technologię TTS (Text-To-Speech), czyli syntezę mowy. Program typu syntezator mowy analizuje tekst (znaki, słowa, interpunkcję), a następnie generuje sygnał dźwiękowy odpowiadający mowie. W środowisku osób z niepełnosprawnością wzrokową syntezator mowy jest kluczowym elementem, bo umożliwia odsłuch treści dokumentów, komunikatów systemowych i interfejsu aplikacji.

Dlaczego pozostałe propozycje nie pasują?

  • "edytor tekstu." – edytor służy do tworzenia i modyfikacji tekstu (formatowanie, korekta, zapis), ale sam z siebie nie jest narzędziem do generowania mowy ani do eksportu tekstu jako nagrania lektorskiego. Może współpracować z TTS, lecz nie zastępuje syntezatora.
  • "biblioteka systemowa." – biblioteka to komponent wykorzystywany przez programy (np. moduł lub API). Pytanie dotyczy "programu typu", czyli narzędzia pełniącego funkcję syntezy. Użytkownik zwykle wybiera i konfiguruje syntezator/engine TTS, a nie "bibliotekę" jako samodzielny program.
  • "edytor audio." – edytor audio służy do obróbki istniejących nagrań (cięcie, filtracja, normalizacja, miks). Nie jest to narzędzie, którego podstawową funkcją jest przetwarzanie tekstu na mowę. Można w nim ewentualnie edytować już wygenerowany plik dźwiękowy, ale to inny etap pracy.

Wskazówka egzaminacyjna: jeśli w treści pojawia się "tekst → dźwięk/mowa", szukaj odpowiedzi związanej z syntezą mowy (TTS). Jeśli jest "nagranie → obróbka", wtedy pasuje edycja audio. Rozróżniaj też narzędzia użytkowe od elementów systemu (bibliotek), bo to częsty "haczyk" w testach.

Dodatkowe pytania

Dodatkowe pytania (FAQ):
Syntezator mowy (TTS) to narzędzie, które zamienia tekst na wypowiedź dźwiękową. Jest używany m.in. w czytnikach ekranu, aplikacjach lektorskich i funkcjach dostępności, aby użytkownik mógł odsłuchiwać treść dokumentów, interfejsu programu lub komunikatów systemowych.
Mechanizm TTS analizuje zapis tekstowy (litery, słowa, interpunkcję), dobiera wymowę i intonację, a następnie generuje sygnał audio odpowiadający mowie. Efektem jest odczyt na żywo lub zapis do pliku dźwiękowego, zależnie od programu i ustawień.
Edytor tekstu służy głównie do tworzenia i modyfikacji dokumentów, a nie do generowania mowy. Może współpracować z TTS (np. użytkownik uruchamia odczyt), ale funkcję "tekst → mowa" realizuje syntezator mowy lub aplikacja korzystająca z silnika TTS.
Typowy edytor audio nie zamienia tekstu na mowę, bo jego zadaniem jest obróbka istniejących dźwięków. Może natomiast posłużyć do edycji pliku audio, który został wcześniej wygenerowany przez TTS (np. przycięcie, wyrównanie głośności, zapis w innym formacie).
TTS to Text-To-Speech, czyli synteza mowy: zamiana tekstu na dźwięk w postaci mowy syntetycznej. W dostępności jest to podstawowa technologia wspierająca osoby niewidome i słabowidzące, bo umożliwia odsłuch treści zamiast czytania wzrokiem.
Najczęściej konfiguruje się: język, wybór głosu, szybkość mówienia, głośność i wysokość tonu. Dla komfortu ważna jest też interpunkcja (jak szczegółowo ma być czytana) oraz skróty klawiszowe do pauzy, powtórzenia lub literowania.
Syntezator mowy wybiera się wtedy, gdy potrzebny jest szybki, automatyczny odczyt dynamicznie zmieniających się treści (menu programu, e-mail, WWW). Nagranie lektorskie lepiej sprawdza się w materiałach stałych (np. audiobook), ale jest czasochłonne w produkcji.
Czytnik ekranu zbiera informacje o elementach interfejsu (np. przyciski, pola edycji, komunikaty), a następnie przekazuje tekst do silnika TTS. Syntezator zamienia te dane na mowę, dzięki czemu użytkownik słyszy opis tego, co dzieje się na ekranie.
Nie. Biblioteka systemowa jest komponentem wykorzystywanym przez aplikacje, a "program typu syntezator mowy" to narzędzie realizujące funkcję TTS z punktu widzenia użytkownika (wybór głosu, ustawienia, odczyt). Aplikacja może używać bibliotek, ale nie jest to ta sama kategoria.
Najczęstsze pomyłki to: wybór "edytora audio" przez skojarzenie z dźwiękiem, wybór "edytora tekstu" bo punktem wyjścia jest dokument, oraz mylenie narzędzia użytkowego z komponentem (biblioteka). Pomaga pytanie kontrolne: "czy to generuje mowę z tekstu?"
info

Około 73% zdających odpowiada poprawnie na to pytanie. średnio łatwe

Według specjalistów z branży: "Konwersja pliku tekstowego na dźwięk w postaci mowy syntetycznej wymaga narzędzia TTS, czyli syntezatora mowy."

Źródła:

  • NV Access (NVDA) – User Guide: Speech settings / synthesizers (TTS), https://www.nvaccess.org/files/nvda/documentation/userGuide.html (dostęp: 2026-03-01)
  • Microsoft Learn – Speech synthesis (Text-to-Speech) overview, https://learn.microsoft.com/en-us/azure/ai-services/speech-service/text-to-speech (dostęp: 2026-03-01)
  • Wikipedia (pl) – "Synteza mowy", https://pl.wikipedia.org/wiki/Synteza_mowy (dostęp: 2026-03-01)

Materiały:

  • Podręczniki i materiały szkoleniowe o technologiach asystujących (TTS, czytniki ekranu)
  • Dokumentacje użytkownika czytników ekranu (sekcje o mowie i syntezie)
  • Materiały producentów silników TTS (instrukcje konfiguracji głosów i języków)

Aktualizacja pytania: 31.03.2026



Aktualizacja pytania: 31.03.2026
📡 Brak połączenia internetowego