Modello Borsa delle Parole: Sbloccare l'intelligenza visiva con il sacchetto di parole
Di Fouad Sabry
()
Info su questo ebook
Cos'è il modello del sacco di parole
Nella visione artificiale, il modello del sacco di parole, a volte chiamato modello del sacco di parole visive, può essere applicato alla classificazione delle immagini o il recupero, trattando le caratteristiche dell'immagine come parole. Nella classificazione dei documenti, un sacchetto di parole è un vettore sparso di conteggi di occorrenze di parole; cioè un istogramma sparso sul vocabolario. Nella visione artificiale, un insieme di parole visive è un vettore del conteggio delle occorrenze di un vocabolario di caratteristiche dell'immagine locale.
Come trarrai vantaggio
(I ) Approfondimenti e convalide sui seguenti argomenti:
Capitolo 1: Modello del sacco di parole nella visione artificiale
Capitolo 2: Segmentazione delle immagini
Capitolo 3 : Trasformazione di caratteristiche invarianti di scala
Capitolo 4: Scala dello spazio
Capitolo 5: Annotazione automatica delle immagini
Capitolo 6: Struttura dal movimento
Capitolo 7: Risoluzione sub-pixel
Capitolo 8: Spostamento medio
Capitolo 9: Stima della posa del corpo articolato
Capitolo 10: Modelli basati su parti
(II) Rispondere alle principali domande del pubblico sul modello del sacchetto di parole.
(III) Esempi reali dell'utilizzo del modello del sacchetto di parole in molti campi.
A chi è rivolto questo libro
Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che desiderano andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di modello Bag of Words .
Leggi altro di Fouad Sabry
Tecnologie Emergenti Nella Scienza Dei Materiali [Italian]
Correlato a Modello Borsa delle Parole
Titoli di questa serie (100)
Gruppo congiunto di esperti fotografici: Sfruttare la potenza dei dati visivi con lo standard JPEG Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale subacquea: Esplorando le profondità della visione artificiale sotto le onde Valutazione: 0 su 5 stelle0 valutazioniModello di aspetto del colore: Comprendere la percezione e la rappresentazione nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione computerizzata: Esplorare le profondità della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di Hough: Svelare la magia della trasformazione di Hough nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformata di Hadamard: Svelare il potere della trasformazione Hadamard nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniIstogramma dell'immagine: Svelare intuizioni visive, esplorare le profondità degli istogrammi delle immagini nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniCompressione delle immagini: Tecniche efficienti per l'ottimizzazione dei dati visivi Valutazione: 0 su 5 stelle0 valutazioniMappatura dei toni: Mappatura dei toni: prospettive illuminanti nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniDiffusione anisotropa: Miglioramento dell'analisi delle immagini attraverso la diffusione anisotropa Valutazione: 0 su 5 stelle0 valutazioniRiduzione del rumore: Miglioramento della chiarezza, tecniche avanzate per la riduzione del rumore nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFiltro adattivo: Migliorare la visione artificiale attraverso il filtraggio adattivo Valutazione: 0 su 5 stelle0 valutazioniTrasformata del radon: Svelare modelli nascosti nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniIstogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniOmografia: Omografia: trasformazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRilevamento dei bordi: Esplorare i confini nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFunzione di corrispondenza dei colori: Comprendere la sensibilità spettrale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniEqualizzazione dell'istogramma: Miglioramento del contrasto dell'immagine per una migliore percezione visiva Valutazione: 0 su 5 stelle0 valutazioniContorno attivo: Avanzamento della visione artificiale con tecniche di contorno attivo Valutazione: 0 su 5 stelle0 valutazioniRetinex: Svelare i segreti della visione computazionale con Retinex Valutazione: 0 su 5 stelle0 valutazioniSistema di gestione del colore: Ottimizzazione della percezione visiva negli ambienti digitali Valutazione: 0 su 5 stelle0 valutazioniRidipintura: Colmare le lacune nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione affine: Sbloccare le prospettive visive: esplorare la trasformazione affine nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniCorrezione gamma: Migliorare la chiarezza visiva nella visione artificiale: la tecnica di correzione gamma Valutazione: 0 su 5 stelle0 valutazioniModello del sistema visivo umano: Comprendere la percezione e l'elaborazione Valutazione: 0 su 5 stelle0 valutazioniModello a colori: Comprendere lo spettro della visione artificiale: esplorare i modelli di colore Valutazione: 0 su 5 stelle0 valutazioniMetodo di impostazione del livello: Avanzamento della visione artificiale, esplorazione del metodo dell'impostazione dei livelli Valutazione: 0 su 5 stelle0 valutazioniBanca filtri: Approfondimenti sulle tecniche del banco di filtri di Computer Vision Valutazione: 0 su 5 stelle0 valutazioniProfilo colore: Esplorare la percezione visiva e l'analisi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioni
Ebook correlati
Parola visiva: Sbloccare il potere della comprensione delle immagini Valutazione: 0 su 5 stelle0 valutazioniScala dello spazio: Esplorare le dimensioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRilevamento delle macchie: Scoprire modelli nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniEigenface: Esplorare le profondità del riconoscimento visivo con Eigenface Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRecupero di immagini basato sul contenuto: Sbloccare i database visivi Valutazione: 0 su 5 stelle0 valutazioniClassificazione delle immagini contestuali: Comprendere i dati visivi per una classificazione efficace Valutazione: 0 su 5 stelle0 valutazioniElaborazione delle immagini piramidali: Esplorare le profondità dell'analisi visiva Valutazione: 0 su 5 stelle0 valutazioniUsare GD library con PHP, funzioni, figure, grafici e gradienti Valutazione: 0 su 5 stelle0 valutazioniVba Se vi Piace 01 Valutazione: 0 su 5 stelle0 valutazioniProgrammare in Visual Basic (VB) Valutazione: 0 su 5 stelle0 valutazioniFisica: cinematica 1 con Scratch: Esperimenti con Scratch sul moto con uso del calcolo numerico Valutazione: 0 su 5 stelle0 valutazioniVba Se vi Piace 02 Valutazione: 0 su 5 stelle0 valutazioniGrafica vettoriale: Padroneggiare la grafica vettoriale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVoxel: Esplorare le profondità della visione artificiale con la tecnologia Voxel Valutazione: 0 su 5 stelle0 valutazioniModellazione e rendering basati su immagini: Esplorare il realismo visivo: tecniche di visione artificiale Valutazione: 0 su 5 stelle0 valutazioniC++: Guida Completa al Linguaggio e alla Programmazione ad Oggetti. Contiene Esempi di Codice ed Esercizi Pratici Valutazione: 0 su 5 stelle0 valutazioniMySQL: Database SQL per Principanti: Programmazione Web, #1 Valutazione: 0 su 5 stelle0 valutazioniMySQL: Guida Completa ai Database SQL per Principianti. Contiene Esempi di Codice ed Esercizi Pratici. Valutazione: 0 su 5 stelle0 valutazioniHTML5 canvas in tempo reale Valutazione: 0 su 5 stelle0 valutazioniSegmentazione delle immagini: Sbloccare insight grazie alla precisione dei pixel Valutazione: 0 su 5 stelle0 valutazioniAnnotazione automatica delle immagini: Migliorare la comprensione visiva attraverso il tagging automatico Valutazione: 0 su 5 stelle0 valutazioniStima del movimento: Progressi e applicazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniProgrammare in C: Introduzione pratica Valutazione: 0 su 5 stelle0 valutazioniTagli del grafico di visione artificiale: Esplorazione dei tagli grafici nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniGuida a JavaScript: Dal Principiante all Esperto: La collezione informatica Valutazione: 0 su 5 stelle0 valutazioniFisica: dinamica 2 con Scratch: Esperimenti con Scratch sui moti oscillatori per mezzo di simulazioni numeriche. Valutazione: 0 su 5 stelle0 valutazioni
Intelligenza artificiale e semantica per voi
ANonniMus: Vecchi rivoluzionari contro giovani robot Valutazione: 0 su 5 stelle0 valutazioniSelf-Publishing del Futuro per Scrittori 2.0: Self-Publishing Facile Valutazione: 0 su 5 stelle0 valutazioniGuida Intelligenza Artificiale Valutazione: 0 su 5 stelle0 valutazioniIl Terzo Like Valutazione: 0 su 5 stelle0 valutazioni
Recensioni su Modello Borsa delle Parole
0 valutazioni0 recensioni
Anteprima del libro
Modello Borsa delle Parole - Fouad Sabry
Capitolo 1: Modello di borsa di parole nella visione artificiale
Il modello bag-of-words (modello BoW), noto anche come modello bag-of-visual-words, è una tecnica utilizzata nella visione artificiale per classificare e recuperare le immagini interpretando le loro caratteristiche come parole. Un contenitore di parole è un vettore sparso di conteggi di occorrenze di parole o un istogramma sparso sul vocabolario, utilizzato per la classificazione dei documenti. Nella visione artificiale, un sacchetto di parole visive
è un vocabolario di caratteristiche dell'immagine locale che viene rappresentato come un vettore di conteggi di occorrenze.
Utilizzando il modello BoW, un'immagine può essere rappresentata allo stesso modo di un documento. Anche le immagini che contengono parole
richiedono un chiarimento. A tale scopo, vengono utilizzate tre procedure comuni, ovvero il rilevamento delle funzionalità, la descrizione delle funzionalità e la generazione del codebook. La rappresentazione dell'istogramma basata su caratteristiche indipendenti
è un modo per caratterizzare il modello BoW.
Ogni immagine viene quindi astratta da una serie di patch di vicinato dopo il rilevamento delle caratteristiche. Il modo in cui le patch devono essere rappresentate come vettori numerici è il fulcro delle tecniche di rappresentazione delle caratteristiche. I descrittori di caratteristiche sono i nomi di questi vettori numerici. Un buon descrittore dovrebbe essere sufficientemente flessibile da tenere conto delle variazioni di luminosità, rotazione, scala e trasformazioni affini. La trasformazione delle feature invarianti di scala è uno degli identificatori più noti (SIFT). Ogni patch viene trasformata da SIFT in un vettore a 128 dimensioni. A questo punto, l'ordine dei singoli vettori in un'immagine è irrilevante, in quanto sono tutti della stessa dimensione (128 per SIFT).
Infine, il modello BoW produce un libro di codici
traducendo le patch rappresentate da vettori in parole in codice
(come le parole nei documenti di testo) (analogia con un dizionario di parole). Una parola in codice può sostituire un gruppo di patch che sono tutte essenzialmente uguali. Il clustering K-means può essere eseguito su tutti i vettori per una soluzione rapida e semplice. I centri di questi gruppi appena appresi diventano parole in codice. La capacità del codebook è uguale al numero totale di cluster (analogamente alla dimensione del dizionario di parole).
Come risultato della procedura di clustering, ogni patch di immagine è associata a una parola di codice univoca e l'immagine stessa può essere rappresentata da un istogramma delle parole di codice.
Diversi metodi di apprendimento sono stati sviluppati dalla comunità di ricerca sulla visione artificiale per sfruttare il modello BoW per attività relative alle immagini come la categorizzazione degli oggetti. I modelli supervisionati e non supervisionati forniscono una categorizzazione approssimativa di queste tecniche. Quando si valutano le soluzioni a un problema che coinvolge più etichette, la matrice di confusione è uno strumento utile.
Si prega di consultare le note di accompagnamento per questo segmento.
Si supponga che la dimensione del codebook sia V .
w : ogni patch w è un vettore V-dimensionale che ha una singola componente uguale a uno e tutte le altre componenti uguali a zero (per l'impostazione del clustering k-means, la singola componente uguale a una indica il cluster a cui w appartiene).
La v parola di codice th nel codebook può essere rappresentata come w^{v}=1 e w^{u}=0 per u\neq v .
\mathbf {w} : ogni immagine è rappresentata da \mathbf {w} =[w_{1},w_{2},\cdots ,w_{N}] , tutti i punti che compongono un'immagine
d_{j} : l' j immagine th in una raccolta di immagini
c : categoria dell'immagine
z : tema o argomento della patch
\pi : proporzione della miscela
Poiché la sua controparte NLP, il modello BoW, è un'analogia, la visione artificiale può trarre vantaggio dai modelli generativi originariamente creati per il dominio testuale.
Vengono discussi il modello di Bayes naïve semplice e i modelli bayesiani gerarchici.
Il più semplice è il classificatore Naïve Bayes.
Facendo uso della notazione del modello grafico, il classificatore Naïve Bayes è descritto dall'equazione seguente.
Si presume che ogni classificazione abbia la propria distribuzione univoca tra i vari libri di codici di questo modello e che esista una chiara distinzione tra le distribuzioni dei vari gruppi.
Considera le categorie di volti e automobili.
I codici per naso
possono essere enfatizzati nella classificazione dei volti, sia occhio
che bocca
, ruota e finestrino possono essere evidenziati come parole in codice nella sottocategoria automobile.
Fornita una libreria di dati di training, il classificatore viene addestrato per produrre nuove distribuzioni per ogni categoria.
La determinazione della classificazione viene effettuata mediante
c^{*}=\arg \max _{c}p(c|\mathbf {w} )=\arg \max _{c}p(c)p(\mathbf {w} |c)=\arg \max _{c}p(c)\prod _{n=1}^{N}p(w_{n}|c)Poiché il classificatore Naïve Bayes è semplice ma efficace, è lo standard in base al quale vengono effettuati tutti gli altri confronti.
L'assunto di base del modello di Naïve Bayes a volte non regge.
Ad esempio, più concetti possono essere rappresentati in un'unica fotografia di un ambiente naturale.
Due modelli tematici ben noti nel dominio testuale che affrontano il problema del tema
multiplo correlato sono l'analisi semantica latente probabilistica (pLSA) e la modellazione dell'argomento.
Per fare un esempio, si consideri l'LDA.
Modellazione di immagini LDA per scene naturali, confronto con lo studio di documenti:
C'è una corrispondenza tra le categorie di immagini e documenti; Simile a come un campionamento casuale di argomenti viene mappato a un campionamento casuale di temi; Gli argomenti dell'indice corrispondono a quelli dell'indice tematico; La parola segreta equivale alla parola.
Su 13 diversi tipi di scene naturali, questo metodo si è dimostrato molto efficace.
A causa dell'uso del modello BoW nella rappresentazione delle immagini, la classificazione dei documenti di testo può essere tentata con qualsiasi modello discriminativo, gli esempi includono le macchine a vettori di supporto (SVM) Se si utilizza un classificatore basato sul kernel, è comunque possibile utilizzare il trucco del kernel, il sistema SVM.
Il Pyramid Match Kernel è un'implementazione all'avanguardia dell'algoritmo BoW.
L'utilizzo di una rappresentazione del modello BoW appresa da classificatori di apprendimento automatico con kernel variabili (ad esempio, un albero decisionale) è un esempio dell'approccio delle funzionalità locali, EMD-kernel e X^{2} kernel) è stato ampiamente testato nell'area del riconoscimento di texture e oggetti.
Sono emerse segnalazioni di prestazioni molto incoraggianti su vari set di dati.
Nella PASCAL Visual Object Classes Challenge, questo metodo ha funzionato eccezionalmente bene.
Nocciolo di fiammifero piramidale
L'incapacità di BoW di tenere conto delle relazioni spaziali tra le patch è una delle principali lacune perché sono cruciali quando si rappresenta un'immagine. Diversi approcci sono stati proposti dai ricercatori per incorporare i dati spaziali. Le caratteristiche del correlogramma possono migliorare la qualità delle caratteristiche identificando le co-occorrenze spaziali delle caratteristiche. che incorpora i dettagli di localizzazione nel framework BoW.
Le prestazioni del modello BoW non sono chiare perché non è stato sottoposto a test rigorosi per l'invarianza del punto di vista