Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Riconoscimento vocale audiovisivo: Progressi, applicazioni e approfondimenti
Riconoscimento vocale audiovisivo: Progressi, applicazioni e approfondimenti
Riconoscimento vocale audiovisivo: Progressi, applicazioni e approfondimenti
E-book142 pagine1 ora

Riconoscimento vocale audiovisivo: Progressi, applicazioni e approfondimenti

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Che cos'è il riconoscimento vocale audiovisivo


Il riconoscimento vocale audiovisivo (AVSR) è una tecnica che utilizza capacità di elaborazione delle immagini nella lettura labiale per aiutare i sistemi di riconoscimento vocale a riconoscere i telefoni non deterministici o dare la preponderanza tra le decisioni quasi probabili.


Come trarrai vantaggio


(I) Approfondimenti e convalide sui seguenti argomenti:


Capitolo 1: Riconoscimento vocale audiovisivo


Capitolo 2: Compressione dei dati


Capitolo 3: Riconoscimento vocale


Capitolo 4: Sintesi vocale


Capitolo 5: Computazione affettiva


Capitolo 6: Spettrogramma


Capitolo 7: Lettura labiale


Capitolo 8: Rilevamento facciale


Capitolo 9: Funzionalità (apprendimento automatico)


Capitolo 10: Classificazione statistica


(II) Rispondere alle principali domande del pubblico sul riconoscimento vocale audiovisivo.


(III ) Esempi reali dell'utilizzo del riconoscimento vocale audiovisivo in molti campi.


A chi è rivolto questo libro


Professionisti, studenti universitari e laureati, appassionati , hobbisti e coloro che vogliono andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di riconoscimento vocale audiovisivo.


 


 

LinguaItaliano
Data di uscita15 mag 2024
Riconoscimento vocale audiovisivo: Progressi, applicazioni e approfondimenti

Leggi altro di Fouad Sabry

Autori correlati

Correlato a Riconoscimento vocale audiovisivo

Titoli di questa serie (100)

Visualizza altri

Ebook correlati

Intelligenza artificiale e semantica per voi

Visualizza altri

Articoli correlati

Recensioni su Riconoscimento vocale audiovisivo

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Riconoscimento vocale audiovisivo - Fouad Sabry

    Capitolo 1: Riconoscimento vocale audiovisivo

    Il riconoscimento vocale audiovisivo (AVSR) è una tecnologia che impiega capacità di elaborazione delle immagini nella lettura labiale per aiutare i sistemi di riconoscimento vocale a riconoscere fonemi non deterministici o fornire una preponderanza tra le decisioni di probabilità vicina.

    Gli output di ciascun sistema di lettura labiale e riconoscimento vocale vengono combinati nella fase di fusione delle caratteristiche. Come suggerisce il nome, si compone di due sezioni. La prima è la parte audio e la seconda è la parte visiva. Nel componente audio, elementi come lo spettrogramma log mel, mfcc, ecc. vengono estratti da campioni audio grezzi e utilizzati per costruire un modello da cui vengono estratti i vettori di funzionalità. Per la parte visiva, in genere utilizziamo una forma di rete neurale convoluzionale per comprimere l'immagine in un vettore di caratteristiche. Concatenamo quindi i vettori audio e visivi e tentiamo di prevedere l'oggetto di destinazione.

    {Fine Capitolo 1}

    Capitolo 2: Compressione dei dati

    Nella teoria dell'informazione, nella compressione dei dati, nella codifica della sorgente e in altri campi correlati: nel linguaggio comune, un dispositivo che si impegna nel processo di compressione dei dati è noto come codificatore, mentre un dispositivo che si impegna nell'inverso del processo, cioè la decompressione, è noto come decodificatore.

    La compressione dei dati è il processo di riduzione delle dimensioni di un file di dati ed è un termine che viene utilizzato piuttosto spesso. La codifica di origine è un processo di codifica che avviene nell'origine dati originale, prima che i dati vengano archiviati o trasferiti. Questo processo viene definito nell'ambito della trasmissione dei dati. È importante non confondere la codifica sorgente con altri tipi di codifica, come la codifica dei canali, che viene utilizzata per il rilevamento e la correzione degli errori, o la codifica a linee, che è un metodo per mappare i dati su un segnale.

    La compressione dei dati è vantaggiosa poiché riduce la quantità di spazio e larghezza di banda necessaria per archiviare e trasferire le informazioni. Le procedure di compressione e decompressione richiedono entrambe una quantità significativa di risorse computazionali. Il compromesso tra complessità spazio-temporale è qualcosa che deve essere considerato quando si comprimono i dati. Ad esempio, un metodo di compressione video potrebbe richiedere hardware costoso per consentire al video di essere decompresso abbastanza rapidamente da poter essere guardato durante la decompressione. Inoltre, l'opzione per decomprimere completamente il video prima di guardarlo potrebbe essere scomoda o richiedere spazio di archiviazione aggiuntivo. Quando si progettano schemi di compressione dei dati, i progettisti devono trovare un compromesso tra una serie di fattori diversi. Questi fattori includono il livello di compressione raggiunto, la quantità di distorsione introdotta (quando si utilizza la compressione dei dati con perdita di dati) e la quantità di risorse computazionali necessarie per comprimere e decomprimere i dati.

    Al fine di rappresentare i dati senza perdere alcuna informazione nel processo, i metodi di compressione dei dati senza perdita di dati spesso utilizzano la ridondanza statistica. In questo modo si garantisce che il processo possa essere invertito. Poiché la stragrande maggioranza dei dati nel mondo reale ha una ridondanza statistica, la compressione senza perdita di dati è fattibile. Ad esempio, un'immagine può includere macchie di colore che non cambiano nel corso di più pixel; In questo caso, i dati possono essere registrati come 279 pixel rossi piuttosto che come la notazione tradizionale di pixel rosso, pixel rosso,... Questo è un esempio fondamentale della codifica run-length; Esistono molti altri metodi per ridurre le dimensioni di un file rimuovendo le informazioni ridondanti.

    Le tecniche di compressione come Lempel-Ziv (LZ) sono oggi tra gli algoritmi più utilizzati per l'archiviazione dei dati senza perdita di dati. Le voci di tabella vengono sostituite per le stringhe ripetute di dati nella tecnica di compressione LZ, che è un modello di compressione basato su tabelle. Questa tabella viene creata dinamicamente per la maggior parte degli algoritmi LZ utilizzando i dati delle fasi precedenti dell'input. Nella maggior parte dei casi, la tabella stessa è codificata da Huffman. I codici basati sulla grammatica come questo sono in grado di comprimere con successo input sostanzialmente ripetitivi, come una raccolta di dati biologici della stessa specie o quasi imparentata, una massiccia raccolta di documenti versionati, archivi Internet e così via. Costruire una grammatica libera dal contesto che derivi una singola stringa è l'impresa fondamentale dei sistemi di codifica basati sulla grammatica. Sequitur e Re-Pair sono altre due tecniche per comprimere la grammatica che hanno applicazioni pratiche.

    I modelli probabilistici, come la predizione per corrispondenza parziale, sono utilizzati nei più potenti compressori lossless sviluppati negli ultimi tempi. La modellazione statistica indiretta è un altro modo di pensare alla trasformata di Burrows-Wheeler, che si può anche prendere in considerazione.

    Più o meno nello stesso periodo in cui le foto digitali si stavano diffondendo alla fine degli anni '80, sono stati sviluppati i primi standard per la compressione delle immagini senza perdita di dati. All'inizio degli anni '90, le tecniche di compressione lossy hanno iniziato a diventare più comuni. Queste distinzioni percettive sono utilizzate da una varietà di formati di compressione ben noti, come la psicoacustica e la psicovisiva, rispettivamente, per la compressione di suoni e immagini e video.

    La codifica delle trasformate è alla base della maggior parte dei metodi di compressione con perdita di dati, in particolare la trasformata del coseno discreto (DCT). È stato ideato per la prima volta da Nasir Ahmed nel 1972 e ha continuato a costruire un algoritmo funzionante con l'assistenza di T. Natarajan e K. R. Rao nel 1973. Nasir Ahmed presentò l'idea per la prima volta nel gennaio 1974. audio e video (in formati come MPEG, AVC e HEVC) (come MP3, AAC e Vorbis).

    Al fine di migliorare le capacità di archiviazione, le fotocamere digitali utilizzano un tipo di compressione dell'immagine nota come lossy. DVD, Blu-ray e video in streaming sono tutti esempi di formati video che utilizzano la codifica video con perdita di dati. La compressione lossy è ampiamente utilizzata nell'industria video.

    Nel processo di compressione audio lossy, vengono utilizzate tecniche nel campo della psicoacustica per rimuovere il segnale audio dai componenti che sono inudibili o udibili in misura minore. La codifica vocale è considerata un campo diverso dalla compressione audio generica poiché la compressione del linguaggio umano spesso richiede l'uso di metodi ancora più specializzati. Ad esempio, la codifica vocale viene utilizzata nella telefonia via Internet. La compressione audio viene utilizzata per il ripping di CD e i lettori audio sono responsabili della decodifica dei file compressi.

    La compressione con perdita di dati può causare la perdita di generazione.

    La teoria dell'informazione e, più specificamente, il teorema della codifica sorgente di Shannon fungono da fondamento teorico per la compressione; Le teorie specifiche del dominio includono la teoria dell'informazione algoritmica per la compressione senza perdita di dati e la teoria della distorsione di velocità per la compressione con perdita di dati. Claude Shannon è per lo più accreditato con l'inizio di questi sottocampi di ricerca quando ha pubblicato una serie di articoli seminali sull'argomento durante la seconda metà degli anni '40 e l'inizio degli anni '50. La teoria della codifica e l'inferenza statistica sono due argomenti correlati ma distinti che riguardano anche la compressione.

    I concetti di apprendimento automatico e compressione sono strettamente correlati tra loro. Al fine di ottenere il più alto livello possibile di compressione dei dati, è ideale un sistema in grado di prevedere la probabilità a posteriori di una sequenza alla luce della sua storia completa (utilizzando la codifica aritmetica sulla distribuzione di output). D'altra parte, un compressore perfetto può essere utilizzato a scopo predittivo (trovando il simbolo che comprime meglio, data la storia precedente). Questa comparabilità è stata usata come argomento per l'utilizzo della compressione dei dati come standard per l'intelligenza universale.

    Secondo la teoria AIXI, che è una relazione che è più chiaramente enunciata in Hutter Prize, il più piccolo software possibile che crea x è la più grande compressione possibile di x che sia concepibile. Ad esempio, secondo tale modello, la dimensione compressa di un file zip tiene conto sia del file zip che del software necessario per decomprimerlo, dato che non è possibile decomprimerlo senza entrambi, anche se può esistere una forma combinata ancora più compatta.

    Software come VP9, NVIDIA Maxine, AIVC e AccMPEG sono tutti esempi di programmi di compressione audio e video guidati dall'intelligenza artificiale.

    Il processo di compressione dei dati può essere considerato come un sottoinsieme del processo di differenziazione dei dati. L'applicazione di patch ai dati è il processo di ricreazione della destinazione in base a un'origine e a una differenza, mentre la differenza dei dati è il processo di creazione di una differenza tra un'origine e una destinazione in base alla differenza. Poiché non esiste un'origine e una destinazione distinte nella compressione dei dati, si può pensare che i dati differiscano dai dati di origine vuoti. Ciò significa che il file compresso equivale a una differenza rispetto al nulla. Questo equivale a considerare l'entropia relativa, che corrisponde alla differenziazione dei dati, come un caso particolare di entropia assoluta, che corrisponde alla compressione dei dati, ma senza dati iniziali.

    La relazione di differenziazione dei dati è enfatizzata

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1