Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Trasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale
Trasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale
Trasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale
E-book126 pagine1 ora

Trasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Che cos'è la trasformazione di caratteristiche invarianti di scala


SIFT, che sta per trasformazione di caratteristiche invarianti di scala, è un metodo per la visione artificiale sviluppato da David Lowe nel 1999. lo scopo è identificare, descrivere e coincidere con le caratteristiche locali nelle immagini. Riconoscimento di oggetti, mappatura e navigazione robotica, unione di immagini, modellazione tridimensionale, riconoscimento di gesti, tracciamento video, identificazione individuale di animali selvatici e spostamento di partite sono alcune delle applicazioni che possono essere utilizzate.


Come trarrai vantaggio


(I) Approfondimenti e convalide sui seguenti argomenti:


Capitolo 1: Trasformazione di funzionalità invarianti di scala


Capitolo 2: Rilevamento dei bordi


Capitolo 3: Scala dello spazio


Capitolo 4: Sfocatura gaussiana


Capitolo 5: Funzionalità (visione computerizzata)


Capitolo 6: Rilevamento degli angoli


Capitolo 7: Adattamento della forma affine


Capitolo 8: Rilevatore di regioni affini dell'Assia


Capitolo 9: Rilevatore di regioni basate sulla curvatura principale


Capitolo 10: Orientato FAST e ruotato BRIEF


(II) Rispondere alle principali domande del pubblico sulla trasformazione delle caratteristiche invarianti di scala.


(III) Esempi reali di utilizzo di trasformazione delle caratteristiche invarianti di scala in molti campi.


A chi è rivolto questo libro


Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che desiderano per andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di trasformazione di caratteristiche invarianti di scala.


 


 

LinguaItaliano
Data di uscita30 apr 2024
Trasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale

Leggi altro di Fouad Sabry

Correlato a Trasformazione di feature invarianti di scala

Titoli di questa serie (100)

Visualizza altri

Ebook correlati

Intelligenza artificiale e semantica per voi

Visualizza altri

Articoli correlati

Recensioni su Trasformazione di feature invarianti di scala

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Trasformazione di feature invarianti di scala - Fouad Sabry

    Capitolo 1: Trasformazione di feature invarianti in scala

    David Lowe ha sviluppato la trasformazione delle caratteristiche invarianti di scala (SIFT) nel 1999 come algoritmo di visione artificiale per localizzare, caratterizzare e abbinare le caratteristiche locali nelle immagini. Il riconoscimento degli oggetti, la mappatura e la navigazione robotica, lo stitching delle immagini, la modellazione tridimensionale, il riconoscimento dei gesti, il tracciamento video, l'identificazione della fauna selvatica individuale e il matchmaking sono solo alcuni dei molti possibili usi di questa tecnologia.

    I punti chiave SIFT dell'oggetto vengono prima estratti da un set di immagini di addestramento.

    È possibile creare una descrizione caratteristica di qualsiasi oggetto in un'immagine isolando i punti chiave di quell'oggetto. Quando si tenta di individuare un oggetto in un'immagine di test con molti altri oggetti, questa descrizione può essere usata perché è stata estratta da un'immagine di training. Le caratteristiche estratte dall'immagine di addestramento devono essere distinguibili nonostante le variazioni nella scala dell'immagine, nel rumore e nell'illuminazione se si vuole ottenere un riconoscimento affidabile. Questi punti risiedono in genere sui bordi dell'immagine o su altre aree ad alto contrasto.

    Inoltre, queste caratteristiche dovrebbero mantenere le stesse posizioni relative da un'immagine all'altra, come nella scena originale. Se solo i quattro angoli di una porta fossero usati come elementi, il riconoscimento avrebbe successo sia che la porta fosse aperta o chiusa. Tuttavia, se si utilizzassero anche i punti nel telaio, il riconoscimento fallirebbe in entrambi i casi. Allo stesso modo, se si verifica un cambiamento nella geometria interna di un oggetto articolato o flessibile tra due immagini nel set in fase di elaborazione, è probabile che le caratteristiche situate in quell'oggetto non funzionino più. Sebbene queste variazioni locali possano avere un impatto significativo sull'errore medio di tutti gli errori di corrispondenza delle funzionalità, SIFT, in pratica, rileva e utilizza un numero molto maggiore di caratteristiche dalle immagini, il che ne riduce l'impatto.

    Questa sezione fornisce una breve panoramica dell'algoritmo SIFT originale e discute brevemente alcuni metodi alternativi per il riconoscimento degli oggetti in ambienti con molto rumore di fondo o viste oscurate.

    Il descrittore SIFT utilizza misurazioni del campo ricettivo per analizzare le immagini.

    Le caratteristiche dell'immagine locale possono aiutare nel riconoscimento degli oggetti se possono essere rilevate e descritte. Le funzioni SIFT non sono influenzate dal ridimensionamento o dalla rotazione dell'immagine perché si basano sull'aspetto dell'oggetto in punti di interesse discreti. Sono in grado di resistere a piccoli cambiamenti di punto di vista, nonché a variazioni di illuminazione e rumore. Consentono inoltre un'identificazione accurata degli oggetti con una piccola possibilità di mancata corrispondenza, e sono altamente unici e facili da estrarre. Tuttavia, l'elevata dimensionalità può essere un problema, quindi in genere vengono utilizzati algoritmi probabilistici come gli alberi k-d con la migliore ricerca del primo contenitore. Sono semplici da confrontare con un (grande) database di funzionalità locali. Sono necessarie solo tre caratteristiche SIFT di un oggetto per calcolarne la posizione e la posa, rendendo le descrizioni degli oggetti basate su insiemi di funzioni SIFT robuste fino all'occlusione parziale. Per database relativamente piccoli e con la potenza di calcolo di oggi, il riconoscimento può essere effettuato quasi istantaneamente.

    Con l'approccio di Lowe, un'immagine viene convertita in un ampio insieme di vettori di caratteristiche che sono robusti alla distorsione geometrica locale, pur essendo invarianti per la traslazione, il ridimensionamento e la rotazione dell'immagine e, in misura minore, per i cambiamenti nell'illuminazione. I neuroni nella corteccia visiva primaria, che codificano la forma, il colore e il movimento di base per il rilevamento degli oggetti nella visione dei primati, hanno proprietà simili a queste caratteristiche. I massimi e i minimi della differenza della funzione di Gaussiana applicata nello spazio di scala a un insieme di immagini levigate e ricampionate vengono utilizzati per definire le posizioni chiave. Vengono eliminati i punti di risposta candidati e di bordo con basso contrasto lungo un bordo. Agli orientamenti vengono assegnati gli orientamenti dominanti in nodi specifici. Seguire queste procedure renderà la corrispondenza e il riconoscimento più accurati. Quindi, tenendo conto dei pixel all'interno di un raggio della posizione chiave, della sfocatura e del ricampionamento dei piani di orientamento dell'immagine locale, possiamo ottenere descrittori SIFT che sono robusti per la distorsione affine locale.

    Durante l'indicizzazione, memorizzerai le chiavi SIFT e utilizzerai la nuova immagine per trovare quelle corrispondenti. Per determinare se un candidato dovesse essere tenuto o buttato fuori, Lowe ha utilizzato una variante dell'algoritmo dell'albero k-d chiamato metodo di ricerca best-bin-first. Questo metodo confronta la distanza tra il vettore di feature del candidato e il vettore di feature del punto chiave più vicino che non appartiene alla stessa classe di oggetti del candidato in questione (vettore di feature candidato / vettore di feature di classe diversa più vicino). Quando il rapporto è maggiore di 0,8, viene automaticamente squalificato. Utilizzando questa tecnica, siamo stati in grado di eliminare il 90% dei falsi positivi e di eliminare il 5% dei riscontri effettivi. L'algoritmo di ricerca best-bin-first è stato ottimizzato fermandosi dopo aver testato i 200 vicini più vicini. Questo metodo è circa due ordini di grandezza più veloce rispetto alla ricerca esatta del vicino più vicino per un database contenente 100.000 punti chiave, con una perdita inferiore al 5% nel numero di corrispondenze corrette.

    Per trovare le chiavi che corrispondono a una specifica posa del modello, la trasformata di Hough viene utilizzata per raggruppare ipotesi credibili sul modello. Facendo in modo che ogni feature esprima un voto per tutte le pose dell'oggetto che sono coerenti con la feature, la trasformata di Hough è in grado di identificare cluster di feature con un'interpretazione coerente. C'è una probabilità molto più alta che l'interpretazione sia corretta quando si scopre che più caratteristiche votano per la stessa posa di un oggetto. In base all'ipotesi di corrispondenza, viene generata una voce della tabella hash che prevede la posizione, l'orientamento e le dimensioni del modello. Tutti i cluster di almeno tre voci in un contenitore vengono cercati nella tabella hash e i contenitori vengono quindi ordinati dal più grande al più piccolo.

    Ogni punto chiave SIFT include informazioni sulla posizione, le dimensioni e l'orientamento 2D e il database tiene traccia di questi parametri per ogni punto chiave che ha un'istanza corrispondente nel set di addestramento. Un oggetto 3D ha 6 gradi di libertà nel suo spazio di posa e la trasformazione di somiglianza implicita in questi 4 parametri tiene conto solo delle trasformazioni rigide. Di conseguenza, sono stati utilizzati contenitori a 30 gradi per l'orientamento, 2x per la scala e 0,25x per la posizione (dimensione massima proiettata dell'immagine di addestramento utilizzando la scala prevista). I campioni di chiavi SIFT generati su scala più grande sono due volte più considerati rispetto a quelli su scala più piccola. Ciò implica che la scala più grande può selezionare i vicini più probabili per ulteriori indagini su scala più piccola. Questo è utile per il riconoscimento perché dà più peso alla bilancia con la minor quantità di rumore. Ogni corrispondenza di punti chiave restringe le 16 ipotesi possibili ai due contenitori più vicini in ogni dimensione, riducendo così l'impatto degli effetti al contorno nell'assegnazione dei contenitori.

    I cluster identificati vengono sottoposti a un processo di

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1