W systemach TTS (Text-to-Speech) tekst jest zamieniany na mowę przez silnik syntezy. Same znaki tekstu często nie wystarczają, aby uzyskać naturalny i czytelny odczyt (np. przy skrótach, liczbach, nagłówkach czy fragmentach wymagających pauzy). Właśnie do tego służą znaczniki SSML (Speech Synthesis Markup Language): pozwalają opisać sposób wypowiadania wybranych fragmentów, np. dodać pauzę, zmienić tempo czy zaakcentować fragment.
Dlatego poprawna jest odpowiedź: "konfigurację sposobu wypowiadania wybranej części tekstu." – jest to zgodne z rolą SSML jako języka znaczników sterującego parametrami mowy.
Pozostałe odpowiedzi są błędne, bo opisują inne mechanizmy:
- "konfigurację sposobu wyświetlania tekstu w programie." – to domena interfejsu użytkownika (np. ustawień czcionki, kontrastu) lub technologii prezentacji, a nie SSML, które dotyczy dźwięku.
- "poprawę wymowy za pomocą dedykowanych słowników." – słowniki wymowy mogą istnieć w niektórych silnikach TTS, ale są innym narzędziem niż SSML. SSML nie jest "słownikiem", tylko znacznikiem/strukturą sterującą odczytem.
- "określenie formatu pliku wyjściowego." – format audio (np. typ kodowania) zależy od ustawień eksportu/konfiguracji usługi, a nie od znaczników opisujących sposób mówienia.
Na egzaminie warto zapamiętać prostą zasadę: SSML = jak to ma zabrzmieć, a nie "jak to ma wyglądać" ani "w czym to ma być zapisane".