Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Calcolo automatico di indici di qualità di flussi audio trasmessi su IP
Calcolo automatico di indici di qualità di flussi audio trasmessi su IP
Calcolo automatico di indici di qualità di flussi audio trasmessi su IP
E-book149 pagine1 ora

Calcolo automatico di indici di qualità di flussi audio trasmessi su IP

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Si fa un gran parlare della telefonia via internet, ma poi molti utenti rimangono delusi dalla non ottima resa acustica delle telefonate su Voip.

La qualità della telefonia su internet dipende da una serie di fattori, alcuni dei quali classificati secondo parametri fissi.

La prima causa di perdita di qualità è dovuta alla ricomposizione del protocollo IP durante la trasmissione dati. Se ci sono problemi sulla rete, congestione o ritardi della trasmissione, si ha un rallentamento del processo con un significativo calo della qualità di conversazione.

Tutto questo dipende dal codec (algoritmo di compressione usato per diminuire il consumo di banda di una telefonata IP) utilizzato.
Un codec vorace di risorse riduce conseguentemente la qualità della telefonata.

Esiste un indice di riferimento che cataloga la qualità audio: il MOS (Mean Opinion Score), al quale successivamente si è aggiunto il PESQ (Perceptual Evaluation of Speech Quality).

In questo testo ricorderemo le caratteristiche di ciascuno ed illustreremo un software in grado di calcolare gli errori e la relativa qualità audio di comunicazioni VoIP.
LinguaItaliano
Data di uscita1 mar 2022
ISBN9791221309607
Calcolo automatico di indici di qualità di flussi audio trasmessi su IP

Correlato a Calcolo automatico di indici di qualità di flussi audio trasmessi su IP

Ebook correlati

Informatica per voi

Visualizza altri

Articoli correlati

Categorie correlate

Recensioni su Calcolo automatico di indici di qualità di flussi audio trasmessi su IP

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Calcolo automatico di indici di qualità di flussi audio trasmessi su IP - Francesco Valle

    CAPITOLO 1

    La qualità audio delle conversazioni su IP (VoIP)

    Si fa un gran parlare della telefonia via internet, ma poi molti utenti rimangono delusi dalla non ottima resa acustica delle telefonate su Voip.

    La qualità della telefonia su internet dipende da una serie di fattori, alcuni dei quali classificati secondo parametri fissi.

    Come spiegato nel primo capitolo di questo lavoro di tesi, la prima causa di perdita di qualità è dovuta alla ricomposizione del protocollo IP durante la trasmissione dati.

    Se ci sono problemi sulla rete, congestione o ritardi della trasmissione questo provoca un rallentamento del processo con un significativo calo della qualità di conversazione.

    Tutto questo procedimento dipende dal codec (algoritmo di compressione usato per diminuire il consumo di banda di una telefonata IP) utilizzato.

    Un codec vorace di risorse riduce conseguentemente la qualità della telefonata.

    Esiste un indice di riferimento che cataloga la qualità audio: il MOS (Mean Opinion Score), al quale successivamente si è aggiunto il PESQ (Perceptual Evaluation of Speech Quality).

    Vediamo nel dettaglio i valori standard del MOS in ordine crescente:

    Scarso (interruzioni continue e conversazione incomprensibile);

    Insufficiente (difficoltà nella comprensione);

    Sufficiente (qualità tipica GSM);

    Buono (telefonata tradizionale a lunga distanza);

    Eccellente (qualità radio AM).

    La domanda da porsi adesso sarebbe: da cosa dipende realmente la qualità delle connessioni internet per la telefonia Voip?

    Questa dipende principalmente da due fattori:

    il tempo di latenza (latency), ovvero il tempo che intercorre dal momento che certe parole sono pronunciate da un lato al momento che queste vengono effettivamente ascoltate dall’altro lato;

    il grado di rispondenza della voce trasmessa rispetto alla voce naturale di chi parla.

    I vari software cercano di compensare queste due variabili adottando delle particolari procedure interpolative, che tuttavia non sono oggetto di questa tesi. Maggiore è l’uso di questa procedura, maggiore sarà la distorsione della telefonata via internet.

    Il Mean Opinion Score (MOS)

    Nelle applicazioni multimediali (audio, telefonia vocale, o video) specialmente quando vengono usati codec per comprimere i requisiti di banda (per esempio, di una connessione vocale digitalizzata dallo standard PCM modulation a 64 kbit/s), il Mean Opinion Score (MOS) restituisce una indicazione numerica della qualità percepita del media ricevuto dopo compressione e/o trasmissione. Il MOS è espresso come un singolo numero nel range da 1 a 5, dove 1 è la qualità percepita più bassa, e 5 è la qualità percepita più alta.

    I test MOS per la voce sono specificati nella ITU-T recommendation P.800

    Il MOS è generato da una media dei risultati di un set di standard, test soggettivi, dove un certo numero di ascoltatori valutano la qualità audio di frasi test lette ad alta voce da uomini e donne nel corso della sperimentazione. Un ascoltatore è tenuto a fornire ad ogni frase, un punteggio medio utilizzando il seguente schema:

    Tabella 2.1 – Classificazione dei valori MOS

    Il MOS è la media aritmetica di tutti i punteggi individuali, e, come detto, può variare da 1 (peggiore) a 5 (migliore).

    Compressori/decompressori (codec) e sistemi di elaborazione di segnale digitale (DSP) sono comunemente usati nella comunicazione vocale, e possono essere configurati in modo da permettere un risparmio della larghezza di banda. Tuttavia, tale risparmio, influisce negativamente sulla qualità vocale del segnale ricevuto. I migliori codec consentono di conservare la maggior larghezza di banda, ma producono anche il maggior degrado della qualità vocale.

    Diversamente dalla larghezza di banda che può essere calcolata analiticamente, la qualità vocale richiede l'interpretazione umana, anche se delle sue stime decisamente affidabili possono essere effettuate tramite sistemi di test automatici.

    Un processo simile può essere utilizzato anche per la valutazione soggettiva della qualità video.

    A titolo di esempio, nella pagina seguente sono mostrati i valori Mean Opinion Score per l'implementazione di diversi codec:

    Tabella 2.2 – Valori MOS riscontrati per i relativi codec

    Per il testing e la determinazione dei valori MOS, vengono solitamente usate delle frasi standard in lingua inglese, come suggerito dalla ITU-T recommendation P.800. Queste frasi sono cinque e sono:

    You will have to be very quiet.

    There was nothing to be seen.

    They worshipped wooden idols.

    I want a minute with the inspector.

    Did he need any money?

    Il Perceptual Speech Quality Measure (PSQM)

    Il problema che si andava riscontrando con il MOS era proprio la sua natura soggettiva. Vi era infatti la necessità di oggettivare quanto più possibile la misurazione della qualità audio. A tale scopo nasce il PSQM (Perceptual Speech Quality Measure), un algoritmo di calcolo e di modellazione definito nella ITU-T recommendation P.861, che valuta oggettivamente i codec vocali e quantifica la qualità audio della banda-vocale (300 – 3400 Hz). Codesto indice può essere utilizzato per classificare il rendimento di questi codec con differenti livelli di input vocali, speaker, bit-rate e codifiche. L'algoritmo intrusivo per calcolare il Perceptual Speech Quality Measure (PSQM) è stato ideato nel 1993 da Beerends. Questo sviluppo rappresenta una versione adattata della più generale misura della qualità audio percettiva (PAQM), ottimizzato per segnali della telefonia vocale. Questo è dovuto alla constatazione che gli effetti psico-acustici noti dagli esperimenti di mascheratura sembrano differire nel significato, quando si confronta la percezione di segnali di parola e di musica. Uno dei motivi potrebbe essere che il cervello umano forse ricorda il suono di riferimento delle voci familiari o più accuratamente delle esperienze di vita quotidiane, rispetto ai suoni musicali. Fino ad oggi, non è stato presentato nessun approccio omogeneo che permetterebbe un'alta correlazione con entrambi, discorso e musica, senza parametri di adattamento dell'algoritmo.

    Perché è usato

    Usare lo standard PSQM permette metodologie di test automatizzate, basate sulla simulazione per valutare oggettivamente sia il tasso di chiarezza, sia la qualità della trasmissione vocale (vari software e/o prodotti sono stati sviluppati per facilitare questo test). Questo si traduce in un notevole risparmio di costi e di tempo, dato che non vi è più bisogno di utilizzare grandi gruppi di persone per valutare soggettivamente segnali e qualità vocale. Inoltre questi produce risultati oggettivi che sono affidabili e riproducibili. Ciò è molto importante per i fornitori di telefonia, che sono obbligati a mantenere elevati gli standard di qualità del servizio.

    L'algoritmo di misurazione del PSQM

    PSQM utilizza un modello matematico psico-acustico (sia percettivo che cognitivo) che analizza i segnali vocali prima e dopo l'invio, ed ottiene un valore PSQM, che è una misura della qualità del segnale di degrado e che varia da 0 (nessuna degradazione) a 6.5 (la più alta degradazione). A sua volta, questo risultato può essere tradotto in un Mean Opinion Score (MOS), che è una misura della qualità percepita del file audio ricevuto su scala numerica da 1 a 5. Un valore di 1 indica inaccettabile, scarsa qualità vocale, mentre un valore di 5 indica un segnale vocale di alta qualità senza rumori percettibili.

    L'algoritmo PSQM converte il segnale dal dominio fisico al dominio psico-acustico attraverso una serie di processi non lineari.

    Il successivo successivo diagramma a blocchi mostra come calcolare il PSQM.

    Figura 2.1 – Diagramma a blocchi rappresentante l'algoritmo di calcolo del PSQM

    Nel primo passo, le rappresentazioni nel dominio del tempo di entrambi i segnali, x e y, vengono trasformate nel dominio della frequenza. Questa trasformazione è effettuata selezionando blocchi dei campioni di ingresso che sono in ingresso ad un FFT. Successivamente viene applicata una finestra di Hann e la scala della frequenza (lineare) viene trasformata in una scala di toni ("frequency warping). L'altezza di modellazione è spesso denominata Bark transformation. Sia il riferimento che il segnale di test, vengono quindi filtrati con le caratteristiche di trasferimento del dispositivo ricevente (ad esempio, telefono, altoparlante o cuffie). Un segnale Hoth noise" viene aggiunto per simulare il

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1