Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Visione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale
Visione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale
Visione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale
E-book135 pagine1 ora

Visione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Che cos'è la visione stereoscopica del computer


La visione stereoscopica del computer è l'estrazione di informazioni 3D da immagini digitali, come quelle ottenute da una fotocamera CCD. Confrontando le informazioni su una scena da due punti di vista, è possibile estrarre informazioni 3D esaminando le posizioni relative degli oggetti nei due pannelli. Questo è simile al processo biologico della stereopsi.


Come trarrai vantaggio


(I) Approfondimenti e convalide sui seguenti argomenti:


Capitolo 1: Visione stereoscopica del computer


Capitolo 2: ricostruzione 3D


Capitolo 3: Modello di contorno attivo


Capitolo 4: Rilevatore di regioni affini di Harris


Capitolo 5: Rilevamento del primo piano


Capitolo 6: Matrice Chernoff legata


Capitolo 7: Somiglianza


Capitolo 8: Somiglianza strutturale


Capitolo 9: Funzione varianza


Capitolo 10: Distanza iniziale di Fréchet


(II) Rispondere alle principali domande del pubblico sulla visione stereoscopica del computer.


(III) Esempi reali dell'utilizzo della visione stereoscopica del computer in molti campi.


Per chi è questo libro


Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che desiderano andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di Computer Stereo Vision.


 


 

LinguaItaliano
Data di uscita28 apr 2024
Visione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale

Leggi altro di Fouad Sabry

Autori correlati

Correlato a Visione stereoscopica del computer

Titoli di questa serie (100)

Visualizza altri

Ebook correlati

Intelligenza artificiale e semantica per voi

Visualizza altri

Articoli correlati

Recensioni su Visione stereoscopica del computer

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Visione stereoscopica del computer - Fouad Sabry

    Capitolo 1: Visione stereoscopica al computer

    L'obiettivo della visione stereoscopica al computer è quello di recuperare mappe di profondità da immagini digitali catturate da una telecamera CCD, ad esempio. L'estrazione di dati 3D da una scena comporta il confronto dei dati provenienti da due pannelli e l'osservazione delle posizioni relative degli elementi. Il processo biologico della stereopsi è analogo a questo.

    Come la visione binoculare umana, la visione stereoscopica classica impiega due telecamere separate da una distanza orizzontale per catturare due prospettive distinte su una scena. Confrontando le due foto, è possibile generare una mappa di disparità che codifica la differenza nelle posizioni orizzontali dei punti nelle due immagini, e quindi la profondità relativa tra di esse. Questa mappa di disparità contiene valori inversamente proporzionali alla profondità della scena in corrispondenza di ogni singolo pixel.

    Le immagini devono essere sovrapposte in un dispositivo stereoscopico, con l'immagine della fotocamera di destra che viene presentata all'occhio destro dell'osservatore e l'immagine della telecamera di sinistra che viene mostrata all'occhio sinistro dell'osservatore, affinché una persona sia in grado di fare un confronto.

    Diversi processi preliminari sono obbligatori in ogni sistema di visione artificiale.

    Prima di poter fare qualsiasi altra cosa con l'immagine, questa deve essere priva di distorsioni, il che significa che sia la distorsione a barilotto che quella tangenziale sono state rimosse. In questo modo, l'immagine vista è garantita per essere identica a quella che verrebbe proiettata da una perfetta fotocamera stenopeica.

    La rettifica dell'immagine è il processo di restituzione di un'immagine a un piano standard per il confronto fianco a fianco.

    La distanza tra le due foto viene diminuita utilizzando una misura di informazione. Questo genera una mappa di disparità, la migliore stima di dove si trovano le caratteristiche tra le due immagini.

    Una nuvola di punti 3D viene generata dalla mappa di disparità ricevuta. Utilizzando le caratteristiche proiettive delle telecamere, la nuvola di punti può essere calcolata per ottenere misurazioni scalabili.

    Per alleviare la complessità del problema dell'adattamento stereoscopico, la visione stereoscopica attiva utilizza un laser o una luce strutturata. La visione stereoscopica attiva è il contrario.

    Il metodo tradizionale di visione a luce strutturata (SLV) utilizza un laser o una luce strutturata per stabilire le corrispondenze proiettore-telecamera.

    Simile alla visione stereo passiva, la visione stereo attiva tradizionale (ASV) utilizza una luce strutturata o un laser, ma esegue solo la corrispondenza stereo per le corrispondenze fotocamera-telecamera.

    Sia le corrispondenze camera-telecamera che quelle proiettore-telecamera possono essere utilizzate in un metodo ibrido.

    Esiste un'ampia varietà di usi per i display stereo 3D nei media, nell'istruzione e nella produzione. L'estrazione di informazioni sulle relazioni spaziali tra oggetti 3D intorno a sistemi autonomi è un importante caso d'uso per la visione stereoscopica in settori come la robotica. La robotica ha ulteriori potenziali usi, come il riconoscimento degli oggetti, che si basa sulle informazioni di profondità per identificare e isolare oggetti che altrimenti sarebbero oscurati da quelli vicini, come una sedia di fronte a un'altra sedia.

    La visione stereoscopica digitale ha diversi usi scientifici, tra cui l'estrazione di dati da rilievi aerei, il calcolo di mappe di contorno e l'estrazione di geometrie per la mappatura 3D degli edifici e la mappatura satellitare fotogrammetrica.

    I pixel sono piccoli quadrati che vengono utilizzati per registrare i dati di colore. Le coordinate (x, y) in una griglia di pixel e la distanza (z) dal pixel in questione ne definiscono la posizione.

    Due viste della stessa scena, viste da angolazioni leggermente diverse, sono fornite dalla visione stereoscopica. La sorgente luminosa A passa attraverso i punti di ingresso B e D della telecamera stenopeica sulle visualizzazioni dell'immagine E e H nel diagramma seguente.

    La distanza BD = BC + CD nel diagramma allegato è la distanza tra i due obiettivi della fotocamera. Entrambi i triangoli hanno lo stesso aspetto, ACB e BFE

    ACD e DGH

    {\begin{aligned}{\text{Therefore displacement }}d&=EF+GH\\&=BF({\frac {EF}{BF}}+{\frac {GH}{BF}})\\&=BF({\frac {EF}{BF}}+{\frac {GH}{DG}})\\&=BF({\frac {BC+CD}{AC}})\\&=BF{\frac {BD}{AC}}\\&={\frac {k}{z}}{\text{, where}}\\\end{aligned}}

    k = BD BF

    La distanza angolare z = AC misura dal piano della fotocamera al soggetto.

    Lo spostamento dell'asse y tra i pixel identici nelle due foto è, quindi, supponendo che le fotocamere siano in piano e che i piani dell'immagine siano piatti sullo stesso piano, d={\frac {k}{z}}

    In cui k è il prodotto delle lunghezze focali di entrambe le fotocamere e della distanza tra l'obiettivo e l'immagine.

    La componente di profondità nelle due immagini è z_{1} e z_{2} , data da,

    z_{2}(x,y)=\min \left\{v:v=z_{1}(x,y-{\frac {k}{z_{1}(x,y)}})\right\}z_{1}(x,y)=\min \left\{v:v=z_{2}(x,y+{\frac {k}{z_{2}(x,y)}})\right\}

    Queste formule accolgono l'occlusione dei voxel in un'immagine da parte dei voxel nella seconda immagine che sono più vicini alla superficie dell'oggetto.

    Quando i piani di due immagini non sono paralleli l'uno all'altro, è necessaria la rettifica dell'immagine per renderli paralleli. Una trasformazione lineare che potrebbe raggiungere questo obiettivo è.

    Ogni immagine potrebbe richiedere una correzione in modo che sembri che sia stata scattata con una fotocamera stenopeica e proiettata su una superficie piana.

    La somiglianza tra le tonalità può essere quantificata dalla loro levigatezza. È più probabile che i pixel di colore simile appartengano a un singolo oggetto piuttosto che a più oggetti, in base all'idea che un oggetto distinto abbia un piccolo numero di colori.

    Utilizzando la teoria dell'informazione e la premessa che il colore di un voxel influenza il colore dei voxel vicini in base alla distribuzione normale sulla distanza tra i punti, il metodo precedente valuta la levigatezza. Il modello prende come punto di partenza le approssimazioni sul mondo.

    L'autocorrelazione è un'altra tecnica che presuppone che i dati siano uniformi.

    Piuttosto che essere una qualità intrinseca di un'immagine, la morbidezza è una caratteristica del mondo stesso. Non ci sarebbe uniformità in un'immagine composta da punti casuali e trarre conclusioni in base alla loro vicinanza sarebbe inutile.

    La levigatezza, come qualsiasi altra proprietà del mondo, dovrebbe essere appresa concettualmente. Sembra che il sistema visivo umano funzioni in questo modo.

    Noi lo chiamiamo normale o il

    P(x,\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}

    La probabilità P è proporzionale alla quantità di informazioni inviate dalla lunghezza L del messaggio, P(x)=2^{{-L(x)}}

    L(x)=-\log _{2}{P(x)}

    Così

    L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\log _{2}e

    Solo la lunghezza relativa del messaggio

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1