Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Istogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale
Istogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale
Istogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale
E-book113 pagine1 ora

Istogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Che cos'è l'istogramma dei gradienti orientati


Nei campi della visione artificiale e dell'elaborazione delle immagini, l'istogramma dei gradienti orientati (HOG) è un descrittore di caratteristiche utilizzato per lo scopo del rilevamento degli oggetti. Questa tecnica viene utilizzata per contare il numero di istanze di orientamento del gradiente che si verificano in regioni specifiche di un'immagine. Questa tecnica è paragonabile agli istogrammi dell'orientamento dei bordi, ai descrittori di trasformazione delle caratteristiche invarianti di scala e ai contesti di forma; tuttavia, varia da questi metodi in quanto viene calcolato su una fitta griglia di celle equidistanti e utilizza la normalizzazione del contrasto locale sovrapposta con lo scopo di ottenere un livello di precisione più elevato.


Come farai vantaggio


(I) Approfondimenti e convalide sui seguenti argomenti:


Capitolo 1: Istogramma dei gradienti orientati


Capitolo 2: Rilevamento dei bordi


Capitolo 3: Trasformazione di funzionalità invarianti di scala


Capitolo 4: Funzionalità robuste accelerate


Capitolo 5: GLOH


Capitolo 6: Modelli binari locali


Capitolo 7: Orientato FAST e BRIEF ruotato


Capitolo 8: Potenziamento (apprendimento automatico)


Capitolo 9: Segmentazione delle immagini


Capitolo 10: Rilevamento di oggetti


(II) Rispondere alle principali domande del pubblico sull'istogramma dei gradienti orientati.


(III) Esempi reali per l'utilizzo dell'istogramma dei gradienti orientati in molti campi .


A chi è rivolto questo libro


Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che desiderano andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di istogramma dei gradienti orientati.


 


 

LinguaItaliano
Data di uscita30 apr 2024
Istogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale

Correlato a Istogramma dei gradienti orientati

Titoli di questa serie (100)

Visualizza altri

Ebook correlati

Intelligenza artificiale e semantica per voi

Visualizza altri

Articoli correlati

Recensioni su Istogramma dei gradienti orientati

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Istogramma dei gradienti orientati - Fouad Sabry

    Capitolo 1: Istogramma dei gradienti orientati

    Nella visione artificiale e nell'elaborazione delle immagini, l'istogramma dei gradienti orientati (HOG) è un descrittore di funzionalità utilizzato per il rilevamento degli oggetti. Questo metodo utilizza la direzione dei gradienti in aree discrete di un'immagine per conteggiarne le occorrenze. Rispetto agli istogrammi di orientamento dei bordi, ai descrittori di trasformazione delle caratteristiche invarianti in scala e ai contesti di forma, questa tecnica è più accurata perché viene calcolata su una griglia densa di celle uniformemente distanziate e utilizza la normalizzazione del contrasto locale sovrapposto.

    Le idee di HOG sono state delineate per la prima volta nel 1986 da Robert K. McConnell della Wayland Research Inc. senza il moniker HOG. Tuttavia, è stato solo nel 2005, quando i ricercatori Navneet Dalal e Bill Triggs dell'Istituto nazionale francese per la ricerca in informatica e automazione (INRIA) hanno presentato il loro lavoro aggiuntivo sui descrittori HOG alla Conference on Computer Vision and Pattern Recognition, che sono stati ampiamente adottati (CVPR). Inizialmente si sono concentrati sul rilevamento dei pedoni nelle foto, ma hanno successivamente ampliato i loro test per includere il rilevamento di persone nei video e il rilevamento di un'ampia gamma di animali e veicoli comuni nelle fotografie.

    L'istogramma del descrittore dei gradienti diretti si basa sull'idea che l'aspetto e la forma degli oggetti a livello locale all'interno di un'immagine possano essere rappresentati dalla distribuzione dei gradienti di intensità o delle direzioni dei bordi. Per ogni pixel dell'immagine viene creato un istogramma delle direzioni del gradiente suddividendolo in piccole sezioni collegate chiamate celle. La combinazione di questi istogrammi in un'unica metrica funge da descrizione. Gli istogrammi locali possono essere normalizzati in base al contrasto per aumentare la precisione calcolando prima una misura di intensità su una porzione più ampia dell'immagine (un blocco) e quindi utilizzando questo valore per normalizzare tutte le celle all'interno del blocco. Il risultato di questa standardizzazione è una maggiore resistenza alle macchie chiare e scure.

    Diversi vantaggi significativi distinguono la descrizione HOG dai suoi concorrenti. Poiché colpisce solo le celle vicine, rimane invariato in caso di cambiamenti di scala o di illuminazione, ad eccezione della rotazione. Solo in aree geografiche più grandi potremmo vedere questo tipo di cambiamenti. Inoltre, Dalal e Triggs hanno scoperto che finché i pedoni mantengono i loro corpi in una posizione quasi eretta, il loro movimento può essere ignorato grazie al campionamento spaziale grossolano, al campionamento dell'orientamento fine e alla forte normalizzazione fotometrica locale. Ecco perché il descrittore HOG eccelle nel trovare le persone nelle immagini.

    In molti rilevatori di caratteristiche, la normalizzazione dei valori di colore e gamma è la fase iniziale del calcolo nella pre-elaborazione dell'immagine. Nel calcolo del descrittore HOG, tuttavia, Dalal e Triggs sostengono che questo passaggio non è necessario perché la successiva normalizzazione del descrittore raggiunge lo stesso obiettivo. Di conseguenza, la pre-elaborazione delle immagini ha un effetto trascurabile sulle prestazioni. Invece, il calcolo dei valori del gradiente viene prima. L'applicazione della maschera derivata discreta puntiforme centrata 1 dimensionale in direzione orizzontale o verticale è il modo più tipico. Affinché questa tecnica funzioni, i dati di colore o intensità dell'immagine devono essere filtrati utilizzando i seguenti kernel:

    {\displaystyle [-1,0,1]{\text{ and }}[-1,0,1]^{\top }.\,}

    Mentre Dalal e Triggs hanno usato maschere più sofisticate come la maschera Sobel 3x3 e le maschere diagonali, hanno scoperto che erano meno efficaci nell'identificare le persone nelle foto. Hanno anche tentato di utilizzare un levigante gaussiano prima di applicare la maschera derivata, ma hanno scoperto che nessuna levigatura produceva effettivamente risultati migliori.

    Gli istogrammi cellulari vengono generati come seconda fase del processo.

    Ogni pixel all'interno della cella utilizza i valori della sfumatura per esprimere un voto ponderato per un contenitore nell'istogramma basato sull'orientamento.

    Le celle stesse possono assumere una configurazione quadrata o circolare e i canali dell'istogramma si estendono uniformemente da 0 a 180 o da 0 a 360 gradi, a seconda che il gradiente sia senza segno o con segno.

    I migliori risultati nelle prove di rilevamento umano di Dalal e Triggs sono stati ottenuti quando i gradienti senza segno sono stati combinati con 9 canali dell'istogramma, sottolineando che i gradienti con segno migliorano notevolmente il riconoscimento degli oggetti per altre categorie, allo stesso modo di automobili e motociclette.

    In termini di importanza di ogni voto, i pixel possono contribuire sia all'ampiezza del gradiente, sia a una scala o a una funzione della dimensione.

    Nei test, i migliori risultati si ottengono in genere concentrandosi solo sull'entità del gradiente.

    La radice quadrata o il quadrato della dimensione del gradiente sono altre due potenziali misure del peso del voto, o una misura troncata dello stesso.

    Le intensità del gradiente devono essere normalizzate localmente per tenere conto delle variazioni di illuminazione e contrasto, il che richiede il raggruppamento delle celle in blocchi più grandi e geograficamente collegati. Infine, il descrittore HOG è la somma vettoriale delle componenti degli istogrammi cellulari normalizzati per ciascun blocco. Ogni cella spesso contribuisce alla descrizione finale in più di un modo a causa della natura sovrapposta di questi blocchi. Le forme più comuni per i blocchi sono quadrate o rettangolari per i blocchi R-HOG e circolari per i blocchi C-HOG. I blocchi R-HOG sono in genere griglie quadrate, in cui il numero di celle, il numero di pixel e il numero di canali dell'istogramma sono le caratteristiche distintive. Quattro celle di 8x8 pixel per blocco (blocco di 16x16 pixel) con 9 canali di istogramma si sono dimostrate le migliori nell'esperimento di rilevamento umano condotto da Dalal e Triggs. Inoltre, hanno scoperto che le prestazioni possono essere leggermente migliorate utilizzando una cornice spaziale gaussiana all'interno di ciascun blocco prima di contare i voti dell'istogramma per fornire meno peso ai pixel vicino ai bordi del blocco. Sebbene i blocchi R-HOG e i descrittori SIFT (scale-invariant feature transform) possano sembrare simili a prima vista, sono formati in modo diverso. I descrittori SIFT sono tipicamente calcolati in punti chiave dell'immagine sparsi e invarianti in scala e vengono ruotati per allineare l'orientamento, mentre i blocchi R-HOG sono calcolati in griglie dense su una singola scala senza allineamento dell'orientamento. Inoltre, a differenza dei descrittori SIFT, che vengono utilizzati da soli, i blocchi R-HOG sono utilizzati insieme per rappresentare le informazioni sulla forma spaziale.

    Esistono due tipi distinti di blocchi HOG circolari (C-HOG): quelli con una singola cella centrale e quelli con celle divise angolarmente. I quattro fattori che caratterizzano questi blocchi C-HOG sono il numero di contenitori angolari e radiali, il raggio del contenitore centrale e il fattore di espansione per il raggio dei contenitori radiali extra. Dalal e Triggs non hanno scoperto alcuna differenza di prestazioni tra le due varianti primarie e che le prestazioni ottimali sono state ottenute utilizzando due contenitori

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1