Stima della posa del corpo articolato: Sbloccare il movimento umano nella visione artificiale
Di Fouad Sabry
()
Info su questo ebook
Cos'è la stima della posa del corpo articolato
Nel campo della visione artificiale, lo studio di tecniche e sistemi che recuperano la posa di un corpo articolato, costituito da articolazioni e parti rigide, attraverso l'uso di osservazioni basate su immagini viene definita stima della posa del corpo articolato. Si tratta di una delle sfide più durature nel campo della visione artificiale a causa della complessità dei modelli che mettono in relazione l'osservazione con la posizione e per la gamma di scenari in cui sarebbe utile.
Come trarrai beneficio
(I) Approfondimenti e convalide sui seguenti argomenti:
Capitolo 1: Stima della posa del corpo articolato
Capitolo 2: Segmentazione delle immagini
Capitolo 3: Localizzazione e mappatura simultanea
Capitolo 4: Riconoscimento dei gesti
Capitolo 5: Tracciamento video
Capitolo 6: Matrice fondamentale (visione artificiale)
Capitolo 7: Struttura dal movimento
Capitolo 8: Modello del sacco di parole nella visione artificiale
Capitolo 9: Punto- registrazione del set
Capitolo 10: Michael J. Black
(II) Rispondere alle principali domande del pubblico sulla stima della posa del corpo articolato.
(III) Esempi del mondo reale per l'utilizzo della stima della posa del corpo articolato in molti campi.
A chi è rivolto questo libro
Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che vogliono andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di stima della posa del corpo articolato.
Leggi altro di Fouad Sabry
Tecnologie Emergenti In Finanza [Italian]
Correlato a Stima della posa del corpo articolato
Titoli di questa serie (100)
Istogramma dell'immagine: Svelare intuizioni visive, esplorare le profondità degli istogrammi delle immagini nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniBanca filtri: Approfondimenti sulle tecniche del banco di filtri di Computer Vision Valutazione: 0 su 5 stelle0 valutazioniRidipintura: Colmare le lacune nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFunzione di corrispondenza dei colori: Comprendere la sensibilità spettrale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRetinex: Svelare i segreti della visione computazionale con Retinex Valutazione: 0 su 5 stelle0 valutazioniVisione computerizzata: Esplorare le profondità della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale subacquea: Esplorando le profondità della visione artificiale sotto le onde Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSistema di gestione del colore: Ottimizzazione della percezione visiva negli ambienti digitali Valutazione: 0 su 5 stelle0 valutazioniDiffusione anisotropa: Miglioramento dell'analisi delle immagini attraverso la diffusione anisotropa Valutazione: 0 su 5 stelle0 valutazioniEqualizzazione dell'istogramma: Miglioramento del contrasto dell'immagine per una migliore percezione visiva Valutazione: 0 su 5 stelle0 valutazioniRiduzione del rumore: Miglioramento della chiarezza, tecniche avanzate per la riduzione del rumore nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniGruppo congiunto di esperti fotografici: Sfruttare la potenza dei dati visivi con lo standard JPEG Valutazione: 0 su 5 stelle0 valutazioniMappatura dei toni: Mappatura dei toni: prospettive illuminanti nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniCorrezione gamma: Migliorare la chiarezza visiva nella visione artificiale: la tecnica di correzione gamma Valutazione: 0 su 5 stelle0 valutazioniOmografia: Omografia: trasformazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione affine: Sbloccare le prospettive visive: esplorare la trasformazione affine nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformata del radon: Svelare modelli nascosti nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniMetodo di impostazione del livello: Avanzamento della visione artificiale, esplorazione del metodo dell'impostazione dei livelli Valutazione: 0 su 5 stelle0 valutazioniFiltro adattivo: Migliorare la visione artificiale attraverso il filtraggio adattivo Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di Hough: Svelare la magia della trasformazione di Hough nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniPercezione visiva: Approfondimenti sull'elaborazione visiva computazionale Valutazione: 0 su 5 stelle0 valutazioniModello del sistema visivo umano: Comprendere la percezione e l'elaborazione Valutazione: 0 su 5 stelle0 valutazioniCompressione delle immagini: Tecniche efficienti per l'ottimizzazione dei dati visivi Valutazione: 0 su 5 stelle0 valutazioniSpazio colore: Esplorare lo spettro della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniProfilo colore: Esplorare la percezione visiva e l'analisi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniModello di aspetto del colore: Comprendere la percezione e la rappresentazione nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformata di Hadamard: Svelare il potere della trasformazione Hadamard nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniMinimi quadrati: Tecniche di ottimizzazione per la visione artificiale: metodi dei minimi quadrati Valutazione: 0 su 5 stelle0 valutazioniRegolazione del pacchetto: Ottimizzazione dei dati visivi per una ricostruzione precisa Valutazione: 0 su 5 stelle0 valutazioni
Ebook correlati
Modello di aspetto attivo: Sbloccare la potenza dei modelli di aspetto attivo nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisualizza la sintesi: Esplorare le prospettive nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRilevamento oggetti: Progressi, applicazioni e algoritmi Valutazione: 0 su 5 stelle0 valutazioniRete di sensori visivi: Esplorare la potenza delle reti di sensori visivi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSegmentazione delle immagini: Sbloccare insight grazie alla precisione dei pixel Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFlusso ottico: Esplorazione di modelli visivi dinamici nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione computerizzata: Esplorare le profondità della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRiconoscimento ottico del Braille: Potenziare l'accessibilità attraverso l'intelligenza visiva Valutazione: 0 su 5 stelle0 valutazioniStima del movimento: Progressi e applicazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSistema di riconoscimento facciale: Sbloccare il potere dell'intelligenza visiva Valutazione: 0 su 5 stelle0 valutazioniElaborazione delle immagini piramidali: Esplorare le profondità dell'analisi visiva Valutazione: 0 su 5 stelle0 valutazioniCampo di movimento: Esplorando le dinamiche della visione artificiale: svelato il campo del movimento Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniApprendimento delle caratteristiche geometriche: Sbloccare le intuizioni visive attraverso l'apprendimento delle caratteristiche geometriche Valutazione: 0 su 5 stelle0 valutazioniGrafica di ray-tracing: Esplorazione del rendering fotorealistico nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniEigenface: Esplorare le profondità del riconoscimento visivo con Eigenface Valutazione: 0 su 5 stelle0 valutazioniModello di fotocamera stenopeica: Comprendere la prospettiva attraverso l'ottica computazionale Valutazione: 0 su 5 stelle0 valutazioniRilevamento delle collisioni: Comprendere le intersezioni visive nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale: Approfondimenti sul mondo della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniGeometria Epipolare: Sbloccare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSuperficie procedurale: Esplorazione della generazione e dell'analisi delle texture nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale subacquea: Esplorando le profondità della visione artificiale sotto le onde Valutazione: 0 su 5 stelle0 valutazioniModellazione e rendering basati su immagini: Esplorare il realismo visivo: tecniche di visione artificiale Valutazione: 0 su 5 stelle0 valutazioniIstogramma dei gradienti orientati: Svelare il regno visivo: esplorare l'istogramma dei gradienti orientati nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFotografia digitale con smartphone: Guida per scattare foto migliori in modalità manuale Valutazione: 0 su 5 stelle0 valutazioniTagli del grafico di visione artificiale: Esplorazione dei tagli grafici nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRecupero di immagini basato sul contenuto: Sbloccare i database visivi Valutazione: 0 su 5 stelle0 valutazioni
Intelligenza artificiale e semantica per voi
ANonniMus: Vecchi rivoluzionari contro giovani robot Valutazione: 0 su 5 stelle0 valutazioniGuida Intelligenza Artificiale Valutazione: 0 su 5 stelle0 valutazioniIl Terzo Like Valutazione: 0 su 5 stelle0 valutazioni
Recensioni su Stima della posa del corpo articolato
0 valutazioni0 recensioni
Anteprima del libro
Stima della posa del corpo articolato - Fouad Sabry
Capitolo 1: Stima della posizione corporea articolata
Il campo della visione artificiale, noto come stima della posizione del corpo articolato
, si concentra su tecniche e sistemi in grado di determinare la posizione di un oggetto in movimento da una serie di immagini delle sue articolazioni e parti rigide. La difficoltà dei modelli che mettono in relazione l'osservazione con la posizione, così come l'ampia gamma di applicazioni, hanno reso questa una sfida duratura nella visione artificiale.
I robot devono essere in grado di rilevare e comprendere la presenza di persone nelle loro immediate vicinanze. La macchina interattiva dovrebbe comprendere il contesto del mondo reale dello scenario se un essere umano impiega gesti per indicare un oggetto specifico. A causa della sua importanza e difficoltà, negli ultimi due decenni sono stati sviluppati e implementati diversi metodi per affrontare il problema della stima della posa nella visione artificiale. L'addestramento di modelli complicati con enormi set di dati è un approccio comune.
A causa dei 244 DOF e delle 230 articolazioni del corpo umano, la stima della posa è un problema impegnativo con lo studio attuale. Il corpo umano ha 10 parti principali e 20 gradi di libertà, tuttavia non tutti i movimenti tra le articolazioni sono visibili. Ci sono molte variazioni nell'aspetto di cui gli algoritmi devono tenere conto, comprese le variazioni nell'abbigliamento, nella forma del corpo, nelle dimensioni e nei tagli di capelli. Inoltre, le occlusioni di auto-articolazione, come una persona che si copre il viso con la mano, o le occlusioni esterne possono rendere i risultati poco chiari. Infine, la maggior parte degli algoritmi calcola la posa dalle immagini monoculari (bidimensionali) della fotocamera standard. Condizioni di illuminazione e della fotocamera incoerenti possono contribuire al problema. Le prestazioni aggiuntive non fanno che aumentare la complessità. Queste immagini hanno molto spazio per gli errori di interpretazione perché mancano delle informazioni di profondità di una postura del corpo reale. I recenti sforzi in questa direzione utilizzano le informazioni sul colore e sulla profondità catturate dalle telecamere RGBD.
In una tecnica basata su modelli utilizzata dalla maggior parte dei sistemi articolati di stima della posa del corpo, per determinare una posa stimata viene utilizzata la somiglianza/differenza massima/minima tra un'osservazione (input) e un modello modello. Vari sensori, come i seguenti, sono stati presi in considerazione per l'uso nell'osservazione:
Imaging a lunghezze d'onda visibili, Foto scattate nello spettro infrarosso a onde lunghe, Fotografia a tempo di volo e
Foto scattate con un telemetro laser.
Il modello fa uso diretto delle rappresentazioni intermedie prodotte da questi sensori. Queste sono alcune delle raffigurazioni:
Aspetto dell'immagine, Ricostruzione basata su voxel (elementi di volume), In tre dimensioni, utilizzando un totale di noccioli gaussiani
Mesh di superficie tridimensionali.
Lo scheletro umano è il luogo in cui è emerso per la prima volta il concetto di modello basato su parti
. Quando un oggetto ha la capacità di articolarsi, può essere smontato in parti componenti che possono essere riorganizzate in una varietà di configurazioni. La scala e l'orientamento dell'oggetto primario sono articolati in base alle scale e agli orientamenti dei pezzi. Le molle servono a collegare i numerosi componenti del modello, permettendone la descrizione matematica. Così chiamato perché assomiglia a una molla, questo modello ha altri nomi. La compressione e l'espansione delle molle tengono conto della relativa vicinanza dei vari componenti. Gli orientamenti delle molle sono limitati dalla geometria. Le gambe, ad esempio, non hanno braccia che possono ruotare in un cerchio completo. Pertanto, i componenti non possono essere orientati in questo modo. Il numero di combinazioni praticabili è quindi ridotto.
Nel modello di molla, i nodi (V) rappresentano i componenti, mentre gli spigoli (E) rappresentano le molle che li collegano.
Ogni posizione nell'immagine può essere raggiunta dalle x coordinate e y della posizione del pixel.
Lascia {\displaystyle \mathbf {p} _{i}(x,\,y)} che sia il punto nella {\displaystyle \mathbf {i} ^{th}} posizione.
Quindi il costo associato all'unione della molla tra {\displaystyle \mathbf {i} ^{th}} e il {\displaystyle \mathbf {j} ^{th}} punto può essere dato da {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} .
Quindi il costo totale associato al posizionamento l dei componenti nelle ubicazioni {\displaystyle \mathbf {P} _{l}} è dato da
{\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}L'equazione di cui sopra è una semplificazione del modello a molla comunemente impiegato per descrivere la postura del corpo. La minimizzazione dei costi o delle funzioni energetiche viene utilizzata per stimare la posa dalle fotografie. Ci sono due termini in questa funzione energetica. Il primo prende in considerazione la corrispondenza di ciascuna parte con i dati dell'immagine, mentre il secondo prende in considerazione la corrispondenza tra le parti orientate (deformate), in modo tale da tenere conto dell'articolazione e del rilevamento degli oggetti.
Una catena gerarchica viene utilizzata per costruire lo scheletro cinematico.
Ogni segmento di corpo rigido ha il suo sistema di coordinate locali che può essere trasformato nel sistema di coordinate globali tramite una matrice di trasformazione 4×4 {\displaystyle T_{l}} , {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}
dove {\displaystyle R_{l}} indica la trasformazione locale da segmento di corpo S_{l} a genitore {\displaystyle \operatorname {par} (S_{l})} .
Ci sono tre gradi di libertà (DoF) di movimento in ogni articolazione umana.
Data una matrice di trasformazione T_l , la posizione del giunto T-pose può essere tradotta nel sistema di coordinate del mondo.
In numerosi lavori, la rotazione del giunto 3D si esprime come un quaternione normalizzato {\displaystyle [x,y,z,w]} grazie alla sua continuità che può facilitare l'ottimizzazione basata sul gradiente nella stima dei parametri.
Al fine di stimare con precisione le pose dei corpi articolati, il deep learning è diventato la tecnica standard dal 2016 circa. L'aspetto delle articolazioni e le relazioni tra le articolazioni del corpo vengono apprese attraverso vasti set di allenamento invece di sviluppare un modello esplicito per le parti come sopra. L'estrazione delle posizioni dei giunti 2D (punti chiave), delle posizioni dei giunti 3D o della forma del corpo 3D da una o più foto è in genere l'enfasi principale dei modelli.
I modelli iniziali di deep learning sviluppati si occupavano principalmente di determinare le posizioni 2D delle articolazioni umane da una determinata immagine. Al fine di rilevare le articolazioni, questi modelli alimentano un'immagine di input in una rete neurale convoluzionale, che produce una serie di mappe di calore (una per ogni articolazione) con valori elevati in quelle aree.
Con la proliferazione di set di dati contenenti annotazioni di pose umane da varie angolazioni, oltre alla ricerca di cui sopra, gli scienziati hanno cercato di ricostruire la forma 3D di una persona o di un animale da una raccolta di fotografie 2D. L'obiettivo principale è quello di stimare la posa corretta del modello lineare multi-persona skinned (SMPL). Per ogni animale nell'immagine, vengono spesso rilevati punti chiave e una silhouette; una volta trovati, i parametri di un modello di forma 3D vengono in genere adattati in modo che corrispondano alle loro posizioni.
Le foto annotate sono essenziali per i suddetti algoritmi, anche se la loro creazione può essere laboriosa. Per risolvere questo problema, i ricercatori nel campo della visione artificiale hanno creato nuovi algoritmi in grado di riconoscere i punti chiave nei film senza alcuna annotazione o di apprendere i punti chiave 3D con solo immagini 2D annotate da una singola vista.
In