Mosaicazione di documenti: Sbloccare intuizioni visive attraverso il mosaico di documenti
Di Fouad Sabry
()
Info su questo ebook
Che cos'è il mosaico di documenti
Il mosaico di documenti è un processo che unisce più immagini istantanee sovrapposte di un documento per produrre un unico grande composito ad alta risoluzione. Il documento viene fatto scorrere manualmente sotto una telecamera fissa posizionata sopra la scrivania finché tutte le parti del documento non vengono catturate dal campo visivo della telecamera. Mentre il documento scorre sotto la fotocamera, tutti i movimenti del documento vengono tracciati approssimativamente dal sistema di visione. Il documento viene periodicamente fotografato in modo tale che le istantanee successive si sovrappongano di circa il 50%. Il sistema quindi trova le coppie sovrapposte e le unisce insieme ripetutamente finché tutte le coppie non vengono unite insieme come un unico pezzo di documento.
Come trarrai vantaggio
( I) Approfondimenti e convalide sui seguenti argomenti:
Capitolo 1: Mosaicing dei documenti
Capitolo 2: Stitching delle immagini
Capitolo 3: Demosaicing
Capitolo 4: Analisi del layout del documento
Capitolo 5: Tapparella
Capitolo 6: Calibrazione automatica della fotocamera
Capitolo 7: Visione stereo del computer
Capitolo 8: Segmentazione del movimento rigido
Capitolo 9: Texture dell'immagine
Capitolo 10: Rettifica dell'immagine
(II) Rispondere alle domande principali del pubblico sulla creazione di mosaici di documenti.
(III) Esempi reali dell'utilizzo della creazione di mosaici di documenti in molti campi.
A chi è rivolto questo libro
Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che vogliono andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di mosaico di documenti.
Correlato a Mosaicazione di documenti
Titoli di questa serie (100)
Istogramma dell'immagine: Svelare intuizioni visive, esplorare le profondità degli istogrammi delle immagini nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRiduzione del rumore: Miglioramento della chiarezza, tecniche avanzate per la riduzione del rumore nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniCorrezione gamma: Migliorare la chiarezza visiva nella visione artificiale: la tecnica di correzione gamma Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale subacquea: Esplorando le profondità della visione artificiale sotto le onde Valutazione: 0 su 5 stelle0 valutazioniModello del sistema visivo umano: Comprendere la percezione e l'elaborazione Valutazione: 0 su 5 stelle0 valutazioniSpazio colore: Esplorare lo spettro della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRetinex: Svelare i segreti della visione computazionale con Retinex Valutazione: 0 su 5 stelle0 valutazioniOmografia: Omografia: trasformazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRidipintura: Colmare le lacune nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniDiffusione anisotropa: Miglioramento dell'analisi delle immagini attraverso la diffusione anisotropa Valutazione: 0 su 5 stelle0 valutazioniVisione computerizzata: Esplorare le profondità della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniContorno attivo: Avanzamento della visione artificiale con tecniche di contorno attivo Valutazione: 0 su 5 stelle0 valutazioniMappatura dei toni: Mappatura dei toni: prospettive illuminanti nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRilevamento dei contorni: Svelare l'arte della percezione visiva nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniPercezione visiva: Approfondimenti sull'elaborazione visiva computazionale Valutazione: 0 su 5 stelle0 valutazioniFiltro adattivo: Migliorare la visione artificiale attraverso il filtraggio adattivo Valutazione: 0 su 5 stelle0 valutazioniGruppo congiunto di esperti fotografici: Sfruttare la potenza dei dati visivi con lo standard JPEG Valutazione: 0 su 5 stelle0 valutazioniEqualizzazione dell'istogramma: Miglioramento del contrasto dell'immagine per una migliore percezione visiva Valutazione: 0 su 5 stelle0 valutazioniTrasformata del radon: Svelare modelli nascosti nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniTrasformazione affine: Sbloccare le prospettive visive: esplorare la trasformazione affine nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRilevatore di bordi astuto: Svelare l'arte della percezione visiva Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniBanca filtri: Approfondimenti sulle tecniche del banco di filtri di Computer Vision Valutazione: 0 su 5 stelle0 valutazioniModello di aspetto del colore: Comprendere la percezione e la rappresentazione nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di Hough: Svelare la magia della trasformazione di Hough nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFunzione di corrispondenza dei colori: Comprendere la sensibilità spettrale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformata di Hadamard: Svelare il potere della trasformazione Hadamard nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniModello a colori: Comprendere lo spettro della visione artificiale: esplorare i modelli di colore Valutazione: 0 su 5 stelle0 valutazioniConsenso del campione casuale: Stima robusta nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniHashing geometrico: Algoritmi efficienti per il riconoscimento e la corrispondenza delle immagini Valutazione: 0 su 5 stelle0 valutazioni
Ebook correlati
Classificazione delle immagini contestuali: Comprendere i dati visivi per una classificazione efficace Valutazione: 0 su 5 stelle0 valutazioniModellazione e rendering basati su immagini: Esplorare il realismo visivo: tecniche di visione artificiale Valutazione: 0 su 5 stelle0 valutazioniStima del movimento: Progressi e applicazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRegolazione del pacchetto: Ottimizzazione dei dati visivi per una ricostruzione precisa Valutazione: 0 su 5 stelle0 valutazioniAlgoritmo della linea di Bresenham: Rendering delle linee efficiente e pixel perfetto per la visione artificiale Valutazione: 0 su 5 stelle0 valutazioniMetodo di impostazione del livello: Avanzamento della visione artificiale, esplorazione del metodo dell'impostazione dei livelli Valutazione: 0 su 5 stelle0 valutazioniScala dello spazio: Esplorare le dimensioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTagli del grafico di visione artificiale: Esplorazione dei tagli grafici nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniHashing geometrico: Algoritmi efficienti per il riconoscimento e la corrispondenza delle immagini Valutazione: 0 su 5 stelle0 valutazioniSegmentazione delle immagini: Sbloccare insight grazie alla precisione dei pixel Valutazione: 0 su 5 stelle0 valutazioniInterpolazione bilineare: Miglioramento della risoluzione e della chiarezza dell'immagine tramite l'interpolazione bilineare Valutazione: 0 su 5 stelle0 valutazioniGrafica di ray-tracing: Esplorazione del rendering fotorealistico nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFlusso ottico: Esplorazione di modelli visivi dinamici nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniModello di fotocamera stenopeica: Comprendere la prospettiva attraverso l'ottica computazionale Valutazione: 0 su 5 stelle0 valutazioniEditor di grafica raster: Trasformare le realtà visive: padroneggiare gli editor grafici raster nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniAlgoritmo di disegno di linee: Padroneggiare le tecniche per il rendering di immagini di precisione Valutazione: 0 su 5 stelle0 valutazioniGrafica raster: Comprendere i fondamenti della grafica raster nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniComputer grafica poligonale: Esplorando l'intersezione tra la computer grafica poligonale e la visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di feature invarianti di scala: Svelare il potere della trasformazione delle caratteristiche invarianti su scala nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniComputer grafica bidimensionale: Esplorazione del regno visivo: computer grafica bidimensionale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniEqualizzazione dell'istogramma: Miglioramento del contrasto dell'immagine per una migliore percezione visiva Valutazione: 0 su 5 stelle0 valutazioniSuperficie procedurale: Esplorazione della generazione e dell'analisi delle texture nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniPartizionamento binario dello spazio: Esplorazione del partizionamento binario dello spazio: fondamenti e applicazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniModello di aspetto attivo: Sbloccare la potenza dei modelli di aspetto attivo nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniEigenface: Esplorare le profondità del riconoscimento visivo con Eigenface Valutazione: 0 su 5 stelle0 valutazioniGenerazione di maglie: Progressi e applicazioni nella generazione di mesh per la visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRendering della scansione: Esplorare il realismo visivo attraverso le tecniche di rendering della scansione Valutazione: 0 su 5 stelle0 valutazioniVisualizza la sintesi: Esplorare le prospettive nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioni
Intelligenza artificiale e semantica per voi
ANonniMus: Vecchi rivoluzionari contro giovani robot Valutazione: 0 su 5 stelle0 valutazioniGuida Intelligenza Artificiale Valutazione: 0 su 5 stelle0 valutazioniIl Terzo Like Valutazione: 0 su 5 stelle0 valutazioni
Recensioni su Mosaicazione di documenti
0 valutazioni0 recensioni
Anteprima del libro
Mosaicazione di documenti - Fouad Sabry
Capitolo 1: Mosaico di documenti
Il mosaico di documenti è una tecnica che combina molte istantanee sovrapposte di un documento in un'unica, enorme immagine ad alta risoluzione. Il documento viene spinto manualmente sotto una telecamera fissa sopra la scrivania fino a quando l'intera superficie non viene catturata all'interno del campo visivo della fotocamera. Mentre il documento si muoveva sotto la telecamera, il sistema di visione monitorava il movimento del documento in modo grossolano. Periodicamente, le immagini del documento vengono scattate in modo tale che si sovrappongano di circa il 50%. La tecnologia identifica quindi le coppie sovrapposte e le unisce continuamente fino a quando tutte le coppie non vengono combinate in un unico documento.
Il mosaico dei documenti può essere suddiviso in quattro fasi principali.
Inseguimento
Rilevamento delle funzionalità
Corrispondenza che stabilisce
Mosaico di immagini.
Il sistema traccia approssimativamente il movimento del documento mentre scorre sotto la fotocamera durante questa procedura. Per il monitoraggio viene utilizzato un metodo noto come procedura di correlazione semplice. Come mostrato nella Figura 1, una piccola patch viene recuperata dal centro dell'immagine come modello di correlazione nel primo fotogramma delle istantanee. La procedura di correlazione viene eseguita in un'area quattro volte la dimensione della patch del fotogramma successivo. La velocità della carta è rappresentata dal picco della funzione di correlazione. Il picco nella funzione di correlazione rappresenta la velocità della carta. Da questo fotogramma, il modello viene ricampionato e il tracciamento continua fino a quando il modello non raggiunge il bordo del documento. Dopo che il modello raggiunge il bordo del documento, viene acquisita un'altra immagine e la procedura di tracciamento viene ripetuta fino a quando non viene acquisito l'intero documento. Le istantanee vengono salvate in un elenco ordinato per facilitare le operazioni successive che accoppiano le foto sovrapposte.
Trovare la trasformazione che allinea un'immagine con un'altra è il processo di rilevamento delle feature. Esistono due metodi principali per rilevare le feature.
I parametri di movimento vengono calcolati in base alle corrispondenze dei punti utilizzando un metodo basato su feature. Questo metodo è applicabile quando c'è un'abbondanza di caratteristiche stabili e rilevabili.
Quando il movimento tra due immagini è modesto, viene utilizzato il metodo del flusso ottico per stimare i parametri di movimento. Quando il movimento tra due immagini è sostanziale, tuttavia, i parametri di movimento vengono calcolati utilizzando la correlazione incrociata generalizzata. Tuttavia, questo metodo richiede risorse computazionalmente costose.
Ogni immagine è suddivisa in una struttura gerarchica di colonne, linee e parole che corrispondono ai raggruppamenti organizzati di elementi tra le immagini. La stima dell'angolo di inclinazione e l'individuazione di colonne, linee e parole sono esempi di operazioni di rilevamento delle feature.
Innanzitutto, viene stimato l'angolo (angolo di inclinazione) tra le righe di testo e le linee raster dell'immagine.
Si presume che si trovi nell'intervallo di ±20°.
Una piccola porzione di testo nell'immagine viene selezionata in modo casuale e quindi ruotata nell'intervallo di ±20° fino a massimizzare la varianza delle intensità dei pixel della patch sommata lungo le linee raster.
Vedere il diagramma 2.
Per garantire che l'angolo di inclinazione calcolato sia accurato, il sistema di mosaico documentale esegue calcoli su molte patch di immagini e ricava la stima finale calcolando la media dei diversi angoli ponderata per la variazione dell'intensità dei pixel per ogni patch.
Durante questa operazione, il manoscritto infilzato viene intuitivamente suddiviso in colonne, righe e parole. La sensibilità del documento de-inclinato all'illuminazione e al colore della pagina può essere eliminata applicando un operatore Sobel all'immagine de-inclinata e impostando la soglia dell'output per creare l'immagine sfumata binaria, de-inclinata. Vedere il diagramma 3.
La procedura può essere suddivisa in tre fasi: segmentazione delle colonne, segmentazione delle linee e segmentazione delle parole.
La Figura 4 illustra la facilità con cui è possibile distinguere le colonne dalle immagini con gradiente binario e de-asimmetrie aggiungendo pixel verticalmente.
Le linee di base di ogni riga vengono suddivise allo stesso modo delle basi delle colonne, ma orizzontalmente.
Infine, le singole parole vengono segmentate applicando la procedura verticale a ogni riga che è stata segmentata.
Queste segmentazioni sono cruciali perché il mosaico del documento è formato dalla corrispondenza degli angoli in basso a destra delle parole nelle immagini che si sovrappongono. Inoltre, la procedura di segmentazione può organizzare in modo affidabile l'elenco delle foto all'interno di una gerarchia di righe e colonne.
Il processo di segmentazione coinvolge una notevole quantità di sommatoria parziale in