Istogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale
Di Fouad Sabry
()
Info su questo ebook
Che cos'è l'istogramma dei gradienti orientati
Nei campi della visione artificiale e dell'elaborazione delle immagini, l'istogramma dei gradienti orientati (HOG) è un descrittore di caratteristiche utilizzato per lo scopo del rilevamento degli oggetti. Questa tecnica viene utilizzata per contare il numero di istanze di orientamento del gradiente che si verificano in regioni specifiche di un'immagine. Questa tecnica è paragonabile agli istogrammi dell'orientamento dei bordi, ai descrittori di trasformazione delle caratteristiche invarianti di scala e ai contesti di forma; tuttavia, varia da questi metodi in quanto viene calcolato su una fitta griglia di celle equidistanti e utilizza la normalizzazione del contrasto locale sovrapposta con lo scopo di ottenere un livello di precisione più elevato.
Come farai vantaggio
(I) Approfondimenti e convalide sui seguenti argomenti:
Capitolo 1: Istogramma dei gradienti orientati
Capitolo 2: Rilevamento dei bordi
Capitolo 3: Trasformazione di funzionalità invarianti di scala
Capitolo 4: Funzionalità robuste accelerate
Capitolo 5: GLOH
Capitolo 6: Modelli binari locali
Capitolo 7: Orientato FAST e BRIEF ruotato
Capitolo 8: Potenziamento (apprendimento automatico)
Capitolo 9: Segmentazione delle immagini
Capitolo 10: Rilevamento di oggetti
(II) Rispondere alle principali domande del pubblico sull'istogramma dei gradienti orientati.
(III) Esempi reali per l'utilizzo dell'istogramma dei gradienti orientati in molti campi .
A chi è rivolto questo libro
Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che desiderano andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di istogramma dei gradienti orientati.
Correlato a Istogramma dei gradienti orientati
Titoli di questa serie (100)
Equalizzazione dell'istogramma: Miglioramento del contrasto dell'immagine per una migliore percezione visiva Valutazione: 0 su 5 stelle0 valutazioniVisione computerizzata: Esplorare le profondità della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRiduzione del rumore: Miglioramento della chiarezza, tecniche avanzate per la riduzione del rumore nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformata del radon: Svelare modelli nascosti nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniMappatura dei toni: Mappatura dei toni: prospettive illuminanti nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniDiffusione anisotropa: Miglioramento dell'analisi delle immagini attraverso la diffusione anisotropa Valutazione: 0 su 5 stelle0 valutazioniRetinex: Svelare i segreti della visione computazionale con Retinex Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di Hough: Svelare la magia della trasformazione di Hough nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSistema di gestione del colore: Ottimizzazione della percezione visiva negli ambienti digitali Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale subacquea: Esplorando le profondità della visione artificiale sotto le onde Valutazione: 0 su 5 stelle0 valutazioniCorrezione gamma: Migliorare la chiarezza visiva nella visione artificiale: la tecnica di correzione gamma Valutazione: 0 su 5 stelle0 valutazioniModello di aspetto del colore: Comprendere la percezione e la rappresentazione nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniOmografia: Omografia: trasformazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniScala dello spazio: Esplorare le dimensioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniGruppo congiunto di esperti fotografici: Sfruttare la potenza dei dati visivi con lo standard JPEG Valutazione: 0 su 5 stelle0 valutazioniFunzione di corrispondenza dei colori: Comprendere la sensibilità spettrale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRidipintura: Colmare le lacune nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniIstogramma dell'immagine: Svelare intuizioni visive, esplorare le profondità degli istogrammi delle immagini nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniConsenso del campione casuale: Stima robusta nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRilevatore di bordi astuto: Svelare l'arte della percezione visiva Valutazione: 0 su 5 stelle0 valutazioniModello a colori: Comprendere lo spettro della visione artificiale: esplorare i modelli di colore Valutazione: 0 su 5 stelle0 valutazioniSpazio colore: Esplorare lo spettro della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniStima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniMappatura dei colori: Esplorare la percezione visiva e l'analisi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRilevamento delle macchie: Scoprire modelli nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniCompressione delle immagini: Tecniche efficienti per l'ottimizzazione dei dati visivi Valutazione: 0 su 5 stelle0 valutazioniProfilo colore: Esplorare la percezione visiva e l'analisi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione affine: Sbloccare le prospettive visive: esplorare la trasformazione affine nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioni
Ebook correlati
Tagli del grafico di visione artificiale: Esplorazione dei tagli grafici nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniComputer grafica di vertice: Esplorando l'intersezione tra la computer grafica di vertice e la visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniEqualizzazione dell'istogramma: Miglioramento del contrasto dell'immagine per una migliore percezione visiva Valutazione: 0 su 5 stelle0 valutazioniElaborazione delle immagini piramidali: Esplorare le profondità dell'analisi visiva Valutazione: 0 su 5 stelle0 valutazioniRilevamento delle macchie: Scoprire modelli nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniSegmentazione delle immagini: Sbloccare insight grazie alla precisione dei pixel Valutazione: 0 su 5 stelle0 valutazioniRilevatore di bordi astuto: Svelare l'arte della percezione visiva Valutazione: 0 su 5 stelle0 valutazioniMetodo di impostazione del livello: Avanzamento della visione artificiale, esplorazione del metodo dell'impostazione dei livelli Valutazione: 0 su 5 stelle0 valutazioniRegolazione del pacchetto: Ottimizzazione dei dati visivi per una ricostruzione precisa Valutazione: 0 su 5 stelle0 valutazioniRilevamento dei bordi: Esplorare i confini nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniDeterminazione della superficie nascosta: Svelare i segreti della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniStima del movimento: Progressi e applicazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniStima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniMappatura dei colori: Esplorare la percezione visiva e l'analisi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniClassificazione delle immagini contestuali: Comprendere i dati visivi per una classificazione efficace Valutazione: 0 su 5 stelle0 valutazioniCampo di movimento: Esplorando le dinamiche della visione artificiale: svelato il campo del movimento Valutazione: 0 su 5 stelle0 valutazioniVolume limite: Esplorazione della rappresentazione spaziale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniGenerazione di maglie: Progressi e applicazioni nella generazione di mesh per la visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFlusso ottico: Esplorazione di modelli visivi dinamici nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniModello di aspetto attivo: Sbloccare la potenza dei modelli di aspetto attivo nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniMappatura dei rilievi: Bump Mapping: esplorazione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniContorno attivo: Avanzamento della visione artificiale con tecniche di contorno attivo Valutazione: 0 su 5 stelle0 valutazioniVisualizza la sintesi: Esplorare le prospettive nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniApprendimento delle caratteristiche geometriche: Sbloccare le intuizioni visive attraverso l'apprendimento delle caratteristiche geometriche Valutazione: 0 su 5 stelle0 valutazioniGrafica raster digitale: Svelare la potenza della grafica raster digitale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniShader: Esplorare i regni visivi con Shader: un viaggio nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniEditor di grafica raster: Trasformare le realtà visive: padroneggiare gli editor grafici raster nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioni
Intelligenza artificiale e semantica per voi
ANonniMus: Vecchi rivoluzionari contro giovani robot Valutazione: 0 su 5 stelle0 valutazioniIl Terzo Like Valutazione: 0 su 5 stelle0 valutazioniGuida Intelligenza Artificiale Valutazione: 0 su 5 stelle0 valutazioni
Recensioni su Istogramma dei gradienti orientati
0 valutazioni0 recensioni
Anteprima del libro
Istogramma dei gradienti orientati - Fouad Sabry
Capitolo 1: Istogramma dei gradienti orientati
Nella visione artificiale e nell'elaborazione delle immagini, l'istogramma dei gradienti orientati (HOG) è un descrittore di funzionalità utilizzato per il rilevamento degli oggetti. Questo metodo utilizza la direzione dei gradienti in aree discrete di un'immagine per conteggiarne le occorrenze. Rispetto agli istogrammi di orientamento dei bordi, ai descrittori di trasformazione delle caratteristiche invarianti in scala e ai contesti di forma, questa tecnica è più accurata perché viene calcolata su una griglia densa di celle uniformemente distanziate e utilizza la normalizzazione del contrasto locale sovrapposto.
Le idee di HOG sono state delineate per la prima volta nel 1986 da Robert K. McConnell della Wayland Research Inc. senza il moniker HOG. Tuttavia, è stato solo nel 2005, quando i ricercatori Navneet Dalal e Bill Triggs dell'Istituto nazionale francese per la ricerca in informatica e automazione (INRIA) hanno presentato il loro lavoro aggiuntivo sui descrittori HOG alla Conference on Computer Vision and Pattern Recognition, che sono stati ampiamente adottati (CVPR). Inizialmente si sono concentrati sul rilevamento dei pedoni nelle foto, ma hanno successivamente ampliato i loro test per includere il rilevamento di persone nei video e il rilevamento di un'ampia gamma di animali e veicoli comuni nelle fotografie.
L'istogramma del descrittore dei gradienti diretti si basa sull'idea che l'aspetto e la forma degli oggetti a livello locale all'interno di un'immagine possano essere rappresentati dalla distribuzione dei gradienti di intensità o delle direzioni dei bordi. Per ogni pixel dell'immagine viene creato un istogramma delle direzioni del gradiente suddividendolo in piccole sezioni collegate chiamate celle. La combinazione di questi istogrammi in un'unica metrica funge da descrizione. Gli istogrammi locali possono essere normalizzati in base al contrasto per aumentare la precisione calcolando prima una misura di intensità su una porzione più ampia dell'immagine (un blocco) e quindi utilizzando questo valore per normalizzare tutte le celle all'interno del blocco. Il risultato di questa standardizzazione è una maggiore resistenza alle macchie chiare e scure.
Diversi vantaggi significativi distinguono la descrizione HOG dai suoi concorrenti. Poiché colpisce solo le celle vicine, rimane invariato in caso di cambiamenti di scala o di illuminazione, ad eccezione della rotazione. Solo in aree geografiche più grandi potremmo vedere questo tipo di cambiamenti. Inoltre, Dalal e Triggs hanno scoperto che finché i pedoni mantengono i loro corpi in una posizione quasi eretta, il loro movimento può essere ignorato grazie al campionamento spaziale grossolano, al campionamento dell'orientamento fine e alla forte normalizzazione fotometrica locale. Ecco perché il descrittore HOG eccelle nel trovare le persone nelle immagini.
In molti rilevatori di caratteristiche, la normalizzazione dei valori di colore e gamma è la fase iniziale del calcolo nella pre-elaborazione dell'immagine. Nel calcolo del descrittore HOG, tuttavia, Dalal e Triggs sostengono che questo passaggio non è necessario perché la successiva normalizzazione del descrittore raggiunge lo stesso obiettivo. Di conseguenza, la pre-elaborazione delle immagini ha un effetto trascurabile sulle prestazioni. Invece, il calcolo dei valori del gradiente viene prima. L'applicazione della maschera derivata discreta puntiforme centrata 1 dimensionale in direzione orizzontale o verticale è il modo più tipico. Affinché questa tecnica funzioni, i dati di colore o intensità dell'immagine devono essere filtrati utilizzando i seguenti kernel:
{\displaystyle [-1,0,1]{\text{ and }}[-1,0,1]^{\top }.\,}Mentre Dalal e Triggs hanno usato maschere più sofisticate come la maschera Sobel 3x3 e le maschere diagonali, hanno scoperto che erano meno efficaci nell'identificare le persone nelle foto. Hanno anche tentato di utilizzare un levigante gaussiano prima di applicare la maschera derivata, ma hanno scoperto che nessuna levigatura produceva effettivamente risultati migliori.
Gli istogrammi cellulari vengono generati come seconda fase del processo.
Ogni pixel all'interno della cella utilizza i valori della sfumatura per esprimere un voto ponderato per un contenitore nell'istogramma basato sull'orientamento.
Le celle stesse possono assumere una configurazione quadrata o circolare e i canali dell'istogramma si estendono uniformemente da 0 a 180 o da 0 a 360 gradi, a seconda che il gradiente sia senza segno
o con segno
.
I migliori risultati nelle prove di rilevamento umano di Dalal e Triggs sono stati ottenuti quando i gradienti senza segno sono stati combinati con 9 canali dell'istogramma, sottolineando che i gradienti con segno migliorano notevolmente il riconoscimento degli oggetti per altre categorie, allo stesso modo di automobili e motociclette.
In termini di importanza di ogni voto, i pixel possono contribuire sia all'ampiezza del gradiente, sia a una scala o a una funzione della dimensione.
Nei test, i migliori risultati si ottengono in genere concentrandosi solo sull'entità del gradiente.
La radice quadrata o il quadrato della dimensione del gradiente sono altre due potenziali misure del peso del voto, o una misura troncata dello stesso.
Le intensità del gradiente devono essere normalizzate localmente per tenere conto delle variazioni di illuminazione e contrasto, il che richiede il raggruppamento delle celle in blocchi più grandi e geograficamente collegati. Infine, il descrittore HOG è la somma vettoriale delle componenti degli istogrammi cellulari normalizzati per ciascun blocco. Ogni cella spesso contribuisce alla descrizione finale in più di un modo a causa della natura sovrapposta di questi blocchi. Le forme più comuni per i blocchi sono quadrate o rettangolari per i blocchi R-HOG e circolari per i blocchi C-HOG. I blocchi R-HOG sono in genere griglie quadrate, in cui il numero di celle, il numero di pixel e il numero di canali dell'istogramma sono le caratteristiche distintive. Quattro celle di 8x8 pixel per blocco (blocco di 16x16 pixel) con 9 canali di istogramma si sono dimostrate le migliori nell'esperimento di rilevamento umano condotto da Dalal e Triggs. Inoltre, hanno scoperto che le prestazioni possono essere leggermente migliorate utilizzando una cornice spaziale gaussiana all'interno di ciascun blocco prima di contare i voti dell'istogramma per fornire meno peso ai pixel vicino ai bordi del blocco. Sebbene i blocchi R-HOG e i descrittori SIFT (scale-invariant feature transform) possano sembrare simili a prima vista, sono formati in modo diverso. I descrittori SIFT sono tipicamente calcolati in punti chiave dell'immagine sparsi e invarianti in scala e vengono ruotati per allineare l'orientamento, mentre i blocchi R-HOG sono calcolati in griglie dense su una singola scala senza allineamento dell'orientamento. Inoltre, a differenza dei descrittori SIFT, che vengono utilizzati da soli, i blocchi R-HOG sono utilizzati insieme per rappresentare le informazioni sulla forma spaziale.
Esistono due tipi distinti di blocchi HOG circolari (C-HOG): quelli con una singola cella centrale e quelli con celle divise angolarmente. I quattro fattori che caratterizzano questi blocchi C-HOG sono il numero di contenitori angolari e radiali, il raggio del contenitore centrale e il fattore di espansione per il raggio dei contenitori radiali extra. Dalal e Triggs non hanno scoperto alcuna differenza di prestazioni tra le due varianti primarie e che le prestazioni ottimali sono state ottenute utilizzando due contenitori