W technologii VoIP ruch związany z rozmową zwykle dzieli się na dwie główne części: sygnalizację (sterowanie połączeniem) oraz media (właściwe próbki audio/wideo). Protokół SIP (Session Initiation Protocol) należy do grupy protokołów sygnalizacyjnych: umożliwia m.in. rejestrację endpointów, inicjowanie połączenia, negocjowanie parametrów sesji (np. kodeków, portów) oraz jej zakończenie.
Odpowiedź RTP jest niepoprawna, ponieważ Real-time Transport Protocol służy do transportu danych multimedialnych w czasie rzeczywistym. To nim najczęściej płyną pakiety z dźwiękiem rozmowy, ale nie służy on do "dogadania się", że rozmowa ma się zacząć.
Odpowiedź RTCP również nie jest sygnalizacją połączenia. RTCP działa obok RTP i przenosi informacje kontrolne, np. statystyki utraty pakietów, jitter czy opóźnienia. Pomaga monitorować jakość transmisji, lecz nie zestawia ani nie kończy sesji.
Odpowiedź RSVP bywa kojarzona z QoS, bo dotyczy rezerwacji zasobów w sieci (tam, gdzie jest to stosowane). Nie jest jednak protokołem typowej sygnalizacji VoIP (w sensie: "zadzwoń", "odbierz", "rozłącz").
W praktyce diagnostycznej warto zapamiętać prosty podział: SIP = sterowanie połączeniem, RTP = głos/wideo, RTCP = kontrola jakości RTP. Taki schemat pomaga szybko rozstrzygnąć, czy problem dotyczy zestawiania rozmowy, czy braku mediów po jej zestawieniu.