Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Stima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale
Stima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale
Stima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale
E-book123 pagine1 ora

Stima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Cos'è la stima della posa del corpo articolato


Nel campo della visione artificiale, lo studio di tecniche e sistemi che recuperano la posa di un corpo articolato, costituito da articolazioni e parti rigide, attraverso l'uso di osservazioni basate su immagini viene definita stima della posa del corpo articolato. Si tratta di una delle sfide più durature nel campo della visione artificiale a causa della complessità dei modelli che mettono in relazione l'osservazione con la posizione e per la gamma di scenari in cui sarebbe utile.


Come trarrai beneficio


(I) Approfondimenti e convalide sui seguenti argomenti:


Capitolo 1: Stima della posa del corpo articolato


Capitolo 2: Segmentazione delle immagini


Capitolo 3: Localizzazione e mappatura simultanea


Capitolo 4: Riconoscimento dei gesti


Capitolo 5: Tracciamento video


Capitolo 6: Matrice fondamentale (visione artificiale)


Capitolo 7: Struttura dal movimento


Capitolo 8: Modello del sacco di parole nella visione artificiale


Capitolo 9: Punto- registrazione del set


Capitolo 10: Michael J. Black


(II) Rispondere alle principali domande del pubblico sulla stima della posa del corpo articolato.


(III) Esempi del mondo reale per l'utilizzo della stima della posa del corpo articolato in molti campi.


A chi è rivolto questo libro


Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che vogliono andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di stima della posa del corpo articolato.


 


 

LinguaItaliano
Data di uscita30 apr 2024
Stima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale

Leggi altro di Fouad Sabry

Autori correlati

Correlato a Stima della posa del corpo articolato

Titoli di questa serie (100)

Visualizza altri

Ebook correlati

Intelligenza artificiale e semantica per voi

Visualizza altri

Articoli correlati

Recensioni su Stima della posa del corpo articolato

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Stima della posa del corpo articolato - Fouad Sabry

    Capitolo 1: Stima della posizione corporea articolata

    Il campo della visione artificiale, noto come stima della posizione del corpo articolato, si concentra su tecniche e sistemi in grado di determinare la posizione di un oggetto in movimento da una serie di immagini delle sue articolazioni e parti rigide. La difficoltà dei modelli che mettono in relazione l'osservazione con la posizione, così come l'ampia gamma di applicazioni, hanno reso questa una sfida duratura nella visione artificiale.

    I robot devono essere in grado di rilevare e comprendere la presenza di persone nelle loro immediate vicinanze. La macchina interattiva dovrebbe comprendere il contesto del mondo reale dello scenario se un essere umano impiega gesti per indicare un oggetto specifico. A causa della sua importanza e difficoltà, negli ultimi due decenni sono stati sviluppati e implementati diversi metodi per affrontare il problema della stima della posa nella visione artificiale. L'addestramento di modelli complicati con enormi set di dati è un approccio comune.

    A causa dei 244 DOF e delle 230 articolazioni del corpo umano, la stima della posa è un problema impegnativo con lo studio attuale. Il corpo umano ha 10 parti principali e 20 gradi di libertà, tuttavia non tutti i movimenti tra le articolazioni sono visibili. Ci sono molte variazioni nell'aspetto di cui gli algoritmi devono tenere conto, comprese le variazioni nell'abbigliamento, nella forma del corpo, nelle dimensioni e nei tagli di capelli. Inoltre, le occlusioni di auto-articolazione, come una persona che si copre il viso con la mano, o le occlusioni esterne possono rendere i risultati poco chiari. Infine, la maggior parte degli algoritmi calcola la posa dalle immagini monoculari (bidimensionali) della fotocamera standard. Condizioni di illuminazione e della fotocamera incoerenti possono contribuire al problema. Le prestazioni aggiuntive non fanno che aumentare la complessità. Queste immagini hanno molto spazio per gli errori di interpretazione perché mancano delle informazioni di profondità di una postura del corpo reale. I recenti sforzi in questa direzione utilizzano le informazioni sul colore e sulla profondità catturate dalle telecamere RGBD.

    In una tecnica basata su modelli utilizzata dalla maggior parte dei sistemi articolati di stima della posa del corpo, per determinare una posa stimata viene utilizzata la somiglianza/differenza massima/minima tra un'osservazione (input) e un modello modello. Vari sensori, come i seguenti, sono stati presi in considerazione per l'uso nell'osservazione:

    Imaging a lunghezze d'onda visibili, Foto scattate nello spettro infrarosso a onde lunghe, Fotografia a tempo di volo e

    Foto scattate con un telemetro laser.

    Il modello fa uso diretto delle rappresentazioni intermedie prodotte da questi sensori. Queste sono alcune delle raffigurazioni:

    Aspetto dell'immagine, Ricostruzione basata su voxel (elementi di volume), In tre dimensioni, utilizzando un totale di noccioli gaussiani

    Mesh di superficie tridimensionali.

    Lo scheletro umano è il luogo in cui è emerso per la prima volta il concetto di modello basato su parti. Quando un oggetto ha la capacità di articolarsi, può essere smontato in parti componenti che possono essere riorganizzate in una varietà di configurazioni. La scala e l'orientamento dell'oggetto primario sono articolati in base alle scale e agli orientamenti dei pezzi. Le molle servono a collegare i numerosi componenti del modello, permettendone la descrizione matematica. Così chiamato perché assomiglia a una molla, questo modello ha altri nomi. La compressione e l'espansione delle molle tengono conto della relativa vicinanza dei vari componenti. Gli orientamenti delle molle sono limitati dalla geometria. Le gambe, ad esempio, non hanno braccia che possono ruotare in un cerchio completo. Pertanto, i componenti non possono essere orientati in questo modo. Il numero di combinazioni praticabili è quindi ridotto.

    Nel modello di molla, i nodi (V) rappresentano i componenti, mentre gli spigoli (E) rappresentano le molle che li collegano.

    Ogni posizione nell'immagine può essere raggiunta dalle x coordinate e y della posizione del pixel.

    Lascia {\displaystyle \mathbf {p} _{i}(x,\,y)} che sia il punto nella {\displaystyle \mathbf {i} ^{th}} posizione.

    Quindi il costo associato all'unione della molla tra {\displaystyle \mathbf {i} ^{th}} e il {\displaystyle \mathbf {j} ^{th}} punto può essere dato da {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} .

    Quindi il costo totale associato al posizionamento l dei componenti nelle ubicazioni {\displaystyle \mathbf {P} _{l}} è dato da

    {\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}

    L'equazione di cui sopra è una semplificazione del modello a molla comunemente impiegato per descrivere la postura del corpo. La minimizzazione dei costi o delle funzioni energetiche viene utilizzata per stimare la posa dalle fotografie. Ci sono due termini in questa funzione energetica. Il primo prende in considerazione la corrispondenza di ciascuna parte con i dati dell'immagine, mentre il secondo prende in considerazione la corrispondenza tra le parti orientate (deformate), in modo tale da tenere conto dell'articolazione e del rilevamento degli oggetti.

    Una catena gerarchica viene utilizzata per costruire lo scheletro cinematico.

    Ogni segmento di corpo rigido ha il suo sistema di coordinate locali che può essere trasformato nel sistema di coordinate globali tramite una matrice di trasformazione 4×4 {\displaystyle T_{l}} , {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}

    dove {\displaystyle R_{l}} indica la trasformazione locale da segmento di corpo S_{l} a genitore {\displaystyle \operatorname {par} (S_{l})} .

    Ci sono tre gradi di libertà (DoF) di movimento in ogni articolazione umana.

    Data una matrice di trasformazione T_l , la posizione del giunto T-pose può essere tradotta nel sistema di coordinate del mondo.

    In numerosi lavori, la rotazione del giunto 3D si esprime come un quaternione normalizzato {\displaystyle [x,y,z,w]} grazie alla sua continuità che può facilitare l'ottimizzazione basata sul gradiente nella stima dei parametri.

    Al fine di stimare con precisione le pose dei corpi articolati, il deep learning è diventato la tecnica standard dal 2016 circa. L'aspetto delle articolazioni e le relazioni tra le articolazioni del corpo vengono apprese attraverso vasti set di allenamento invece di sviluppare un modello esplicito per le parti come sopra. L'estrazione delle posizioni dei giunti 2D (punti chiave), delle posizioni dei giunti 3D o della forma del corpo 3D da una o più foto è in genere l'enfasi principale dei modelli.

    I modelli iniziali di deep learning sviluppati si occupavano principalmente di determinare le posizioni 2D delle articolazioni umane da una determinata immagine. Al fine di rilevare le articolazioni, questi modelli alimentano un'immagine di input in una rete neurale convoluzionale, che produce una serie di mappe di calore (una per ogni articolazione) con valori elevati in quelle aree.

    Con la proliferazione di set di dati contenenti annotazioni di pose umane da varie angolazioni, oltre alla ricerca di cui sopra, gli scienziati hanno cercato di ricostruire la forma 3D di una persona o di un animale da una raccolta di fotografie 2D. L'obiettivo principale è quello di stimare la posa corretta del modello lineare multi-persona skinned (SMPL). Per ogni animale nell'immagine, vengono spesso rilevati punti chiave e una silhouette; una volta trovati, i parametri di un modello di forma 3D vengono in genere adattati in modo che corrispondano alle loro posizioni.

    Le foto annotate sono essenziali per i suddetti algoritmi, anche se la loro creazione può essere laboriosa. Per risolvere questo problema, i ricercatori nel campo della visione artificiale hanno creato nuovi algoritmi in grado di riconoscere i punti chiave nei film senza alcuna annotazione o di apprendere i punti chiave 3D con solo immagini 2D annotate da una singola vista.

    In

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1