Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Modello Borsa delle Parole: Sbloccare l'intelligenza visiva con il sacchetto di parole
Modello Borsa delle Parole: Sbloccare l'intelligenza visiva con il sacchetto di parole
Modello Borsa delle Parole: Sbloccare l'intelligenza visiva con il sacchetto di parole
E-book113 pagine1 ora

Modello Borsa delle Parole: Sbloccare l'intelligenza visiva con il sacchetto di parole

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Cos'è il modello del sacco di parole


Nella visione artificiale, il modello del sacco di parole, a volte chiamato modello del sacco di parole visive, può essere applicato alla classificazione delle immagini o il recupero, trattando le caratteristiche dell'immagine come parole. Nella classificazione dei documenti, un sacchetto di parole è un vettore sparso di conteggi di occorrenze di parole; cioè un istogramma sparso sul vocabolario. Nella visione artificiale, un insieme di parole visive è un vettore del conteggio delle occorrenze di un vocabolario di caratteristiche dell'immagine locale.


Come trarrai vantaggio


(I ) Approfondimenti e convalide sui seguenti argomenti:


Capitolo 1: Modello del sacco di parole nella visione artificiale


Capitolo 2: Segmentazione delle immagini


Capitolo 3 : Trasformazione di caratteristiche invarianti di scala


Capitolo 4: Scala dello spazio


Capitolo 5: Annotazione automatica delle immagini


Capitolo 6: Struttura dal movimento


Capitolo 7: Risoluzione sub-pixel


Capitolo 8: Spostamento medio


Capitolo 9: Stima della posa del corpo articolato


Capitolo 10: Modelli basati su parti


(II) Rispondere alle principali domande del pubblico sul modello del sacchetto di parole.


(III) Esempi reali dell'utilizzo del modello del sacchetto di parole in molti campi.


A chi è rivolto questo libro


Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che desiderano andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di modello Bag of Words .


 


 

LinguaItaliano
Data di uscita14 mag 2024
Modello Borsa delle Parole: Sbloccare l'intelligenza visiva con il sacchetto di parole

Leggi altro di Fouad Sabry

Autori correlati

Correlato a Modello Borsa delle Parole

Titoli di questa serie (100)

Visualizza altri

Ebook correlati

Intelligenza artificiale e semantica per voi

Visualizza altri

Articoli correlati

Recensioni su Modello Borsa delle Parole

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Modello Borsa delle Parole - Fouad Sabry

    Capitolo 1: Modello di borsa di parole nella visione artificiale

    Il modello bag-of-words (modello BoW), noto anche come modello bag-of-visual-words, è una tecnica utilizzata nella visione artificiale per classificare e recuperare le immagini interpretando le loro caratteristiche come parole. Un contenitore di parole è un vettore sparso di conteggi di occorrenze di parole o un istogramma sparso sul vocabolario, utilizzato per la classificazione dei documenti. Nella visione artificiale, un sacchetto di parole visive è un vocabolario di caratteristiche dell'immagine locale che viene rappresentato come un vettore di conteggi di occorrenze.

    Utilizzando il modello BoW, un'immagine può essere rappresentata allo stesso modo di un documento. Anche le immagini che contengono parole richiedono un chiarimento. A tale scopo, vengono utilizzate tre procedure comuni, ovvero il rilevamento delle funzionalità, la descrizione delle funzionalità e la generazione del codebook. La rappresentazione dell'istogramma basata su caratteristiche indipendenti è un modo per caratterizzare il modello BoW.

    Ogni immagine viene quindi astratta da una serie di patch di vicinato dopo il rilevamento delle caratteristiche. Il modo in cui le patch devono essere rappresentate come vettori numerici è il fulcro delle tecniche di rappresentazione delle caratteristiche. I descrittori di caratteristiche sono i nomi di questi vettori numerici. Un buon descrittore dovrebbe essere sufficientemente flessibile da tenere conto delle variazioni di luminosità, rotazione, scala e trasformazioni affini. La trasformazione delle feature invarianti di scala è uno degli identificatori più noti (SIFT). Ogni patch viene trasformata da SIFT in un vettore a 128 dimensioni. A questo punto, l'ordine dei singoli vettori in un'immagine è irrilevante, in quanto sono tutti della stessa dimensione (128 per SIFT).

    Infine, il modello BoW produce un libro di codici traducendo le patch rappresentate da vettori in parole in codice (come le parole nei documenti di testo) (analogia con un dizionario di parole). Una parola in codice può sostituire un gruppo di patch che sono tutte essenzialmente uguali. Il clustering K-means può essere eseguito su tutti i vettori per una soluzione rapida e semplice. I centri di questi gruppi appena appresi diventano parole in codice. La capacità del codebook è uguale al numero totale di cluster (analogamente alla dimensione del dizionario di parole).

    Come risultato della procedura di clustering, ogni patch di immagine è associata a una parola di codice univoca e l'immagine stessa può essere rappresentata da un istogramma delle parole di codice.

    Diversi metodi di apprendimento sono stati sviluppati dalla comunità di ricerca sulla visione artificiale per sfruttare il modello BoW per attività relative alle immagini come la categorizzazione degli oggetti. I modelli supervisionati e non supervisionati forniscono una categorizzazione approssimativa di queste tecniche. Quando si valutano le soluzioni a un problema che coinvolge più etichette, la matrice di confusione è uno strumento utile.

    Si prega di consultare le note di accompagnamento per questo segmento.

    Si supponga che la dimensione del codebook sia V .

    w : ogni patch w è un vettore V-dimensionale che ha una singola componente uguale a uno e tutte le altre componenti uguali a zero (per l'impostazione del clustering k-means, la singola componente uguale a una indica il cluster a cui w appartiene).

    La v parola di codice th nel codebook può essere rappresentata come w^{v}=1 e w^{u}=0 per u\neq v .

    \mathbf {w} : ogni immagine è rappresentata da \mathbf {w} =[w_{1},w_{2},\cdots ,w_{N}] , tutti i punti che compongono un'immagine

    d_{j} : l' j immagine th in una raccolta di immagini

    c : categoria dell'immagine

    z : tema o argomento della patch

    \pi : proporzione della miscela

    Poiché la sua controparte NLP, il modello BoW, è un'analogia, la visione artificiale può trarre vantaggio dai modelli generativi originariamente creati per il dominio testuale.

    Vengono discussi il modello di Bayes naïve semplice e i modelli bayesiani gerarchici.

    Il più semplice è il classificatore Naïve Bayes.

    Facendo uso della notazione del modello grafico, il classificatore Naïve Bayes è descritto dall'equazione seguente.

    Si presume che ogni classificazione abbia la propria distribuzione univoca tra i vari libri di codici di questo modello e che esista una chiara distinzione tra le distribuzioni dei vari gruppi.

    Considera le categorie di volti e automobili.

    I codici per naso possono essere enfatizzati nella classificazione dei volti, sia occhio che bocca, ruota e finestrino possono essere evidenziati come parole in codice nella sottocategoria automobile.

    Fornita una libreria di dati di training, il classificatore viene addestrato per produrre nuove distribuzioni per ogni categoria.

    La determinazione della classificazione viene effettuata mediante

    c^{*}=\arg \max _{c}p(c|\mathbf {w} )=\arg \max _{c}p(c)p(\mathbf {w} |c)=\arg \max _{c}p(c)\prod _{n=1}^{N}p(w_{n}|c)

    Poiché il classificatore Naïve Bayes è semplice ma efficace, è lo standard in base al quale vengono effettuati tutti gli altri confronti.

    L'assunto di base del modello di Naïve Bayes a volte non regge.

    Ad esempio, più concetti possono essere rappresentati in un'unica fotografia di un ambiente naturale.

    Due modelli tematici ben noti nel dominio testuale che affrontano il problema del tema multiplo correlato sono l'analisi semantica latente probabilistica (pLSA) e la modellazione dell'argomento.

    Per fare un esempio, si consideri l'LDA.

    Modellazione di immagini LDA per scene naturali, confronto con lo studio di documenti:

    C'è una corrispondenza tra le categorie di immagini e documenti; Simile a come un campionamento casuale di argomenti viene mappato a un campionamento casuale di temi; Gli argomenti dell'indice corrispondono a quelli dell'indice tematico; La parola segreta equivale alla parola.

    Su 13 diversi tipi di scene naturali, questo metodo si è dimostrato molto efficace.

    A causa dell'uso del modello BoW nella rappresentazione delle immagini, la classificazione dei documenti di testo può essere tentata con qualsiasi modello discriminativo, gli esempi includono le macchine a vettori di supporto (SVM) Se si utilizza un classificatore basato sul kernel, è comunque possibile utilizzare il trucco del kernel, il sistema SVM.

    Il Pyramid Match Kernel è un'implementazione all'avanguardia dell'algoritmo BoW.

    L'utilizzo di una rappresentazione del modello BoW appresa da classificatori di apprendimento automatico con kernel variabili (ad esempio, un albero decisionale) è un esempio dell'approccio delle funzionalità locali, EMD-kernel e X^{2} kernel) è stato ampiamente testato nell'area del riconoscimento di texture e oggetti.

    Sono emerse segnalazioni di prestazioni molto incoraggianti su vari set di dati.

    Nella PASCAL Visual Object Classes Challenge, questo metodo ha funzionato eccezionalmente bene.

    Nocciolo di fiammifero piramidale

    L'incapacità di BoW di tenere conto delle relazioni spaziali tra le patch è una delle principali lacune perché sono cruciali quando si rappresenta un'immagine. Diversi approcci sono stati proposti dai ricercatori per incorporare i dati spaziali. Le caratteristiche del correlogramma possono migliorare la qualità delle caratteristiche identificando le co-occorrenze spaziali delle caratteristiche. che incorpora i dettagli di localizzazione nel framework BoW.

    Le prestazioni del modello BoW non sono chiare perché non è stato sottoposto a test rigorosi per l'invarianza del punto di vista

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1