Riconoscimento ottico dei caratteri: Sfruttare la potenza della visione artificiale per il riconoscimento ottico dei caratteri
Di Fouad Sabry
()
Info su questo ebook
Che cos'è il riconoscimento ottico dei caratteri
Il riconoscimento ottico dei caratteri o lettore ottico dei caratteri (OCR) è la conversione elettronica o meccanica di immagini di testo digitato, scritto a mano o stampato in formato automatico testo codificato, sia da un documento scansionato, da una foto di un documento, da una foto di scena o dal testo dei sottotitoli sovrapposto a un'immagine.
Come trarrai vantaggio
(I) Approfondimenti e convalide sui seguenti argomenti:
Capitolo 1: Riconoscimento ottico dei caratteri
Capitolo 2: Carattere tipografico
Capitolo 3: Riconoscimento della grafia
Capitolo 4: Scanner di immagini
Capitolo 5: Riconoscimento ottico dei segni
Capitolo 6: Riconoscimento intelligente dei caratteri
Capitolo 7: Tesseract ( software)
Capitolo 8: OCRopus
Capitolo 9: CuneiForm (software)
Capitolo 10: Confronto tra software di riconoscimento ottico dei caratteri
(II) Rispondere alle principali domande del pubblico sul riconoscimento ottico dei caratteri.
(III) Esempi reali dell'utilizzo del riconoscimento ottico dei caratteri in molti campi.
Chi è questo libro è per
Professionisti, studenti universitari e laureati, appassionati, hobbisti e coloro che desiderano andare oltre le conoscenze o le informazioni di base per qualsiasi tipo di riconoscimento ottico dei caratteri.
Leggi altro di Fouad Sabry
Tecnologie Emergenti In Finanza [Italian]
Correlato a Riconoscimento ottico dei caratteri
Titoli di questa serie (100)
Istogramma dell'immagine: Svelare intuizioni visive, esplorare le profondità degli istogrammi delle immagini nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniBanca filtri: Approfondimenti sulle tecniche del banco di filtri di Computer Vision Valutazione: 0 su 5 stelle0 valutazioniRidipintura: Colmare le lacune nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFunzione di corrispondenza dei colori: Comprendere la sensibilità spettrale nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRetinex: Svelare i segreti della visione computazionale con Retinex Valutazione: 0 su 5 stelle0 valutazioniVisione computerizzata: Esplorare le profondità della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale subacquea: Esplorando le profondità della visione artificiale sotto le onde Valutazione: 0 su 5 stelle0 valutazioniVisione stereoscopica del computer: Esplorare la percezione della profondità nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSistema di gestione del colore: Ottimizzazione della percezione visiva negli ambienti digitali Valutazione: 0 su 5 stelle0 valutazioniDiffusione anisotropa: Miglioramento dell'analisi delle immagini attraverso la diffusione anisotropa Valutazione: 0 su 5 stelle0 valutazioniEqualizzazione dell'istogramma: Miglioramento del contrasto dell'immagine per una migliore percezione visiva Valutazione: 0 su 5 stelle0 valutazioniRiduzione del rumore: Miglioramento della chiarezza, tecniche avanzate per la riduzione del rumore nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniGruppo congiunto di esperti fotografici: Sfruttare la potenza dei dati visivi con lo standard JPEG Valutazione: 0 su 5 stelle0 valutazioniMappatura dei toni: Mappatura dei toni: prospettive illuminanti nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniCorrezione gamma: Migliorare la chiarezza visiva nella visione artificiale: la tecnica di correzione gamma Valutazione: 0 su 5 stelle0 valutazioniOmografia: Omografia: trasformazioni nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformazione affine: Sbloccare le prospettive visive: esplorare la trasformazione affine nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformata del radon: Svelare modelli nascosti nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniMetodo di impostazione del livello: Avanzamento della visione artificiale, esplorazione del metodo dell'impostazione dei livelli Valutazione: 0 su 5 stelle0 valutazioniFiltro adattivo: Migliorare la visione artificiale attraverso il filtraggio adattivo Valutazione: 0 su 5 stelle0 valutazioniTrasformazione di Hough: Svelare la magia della trasformazione di Hough nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniPercezione visiva: Approfondimenti sull'elaborazione visiva computazionale Valutazione: 0 su 5 stelle0 valutazioniModello del sistema visivo umano: Comprendere la percezione e l'elaborazione Valutazione: 0 su 5 stelle0 valutazioniCompressione delle immagini: Tecniche efficienti per l'ottimizzazione dei dati visivi Valutazione: 0 su 5 stelle0 valutazioniSpazio colore: Esplorare lo spettro della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniProfilo colore: Esplorare la percezione visiva e l'analisi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniModello di aspetto del colore: Comprendere la percezione e la rappresentazione nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniTrasformata di Hadamard: Svelare il potere della trasformazione Hadamard nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniMinimi quadrati: Tecniche di ottimizzazione per la visione artificiale: metodi dei minimi quadrati Valutazione: 0 su 5 stelle0 valutazioniRegolazione del pacchetto: Ottimizzazione dei dati visivi per una ricostruzione precisa Valutazione: 0 su 5 stelle0 valutazioni
Ebook correlati
Riconoscimento intelligente dei caratteri: Avanzamento della percezione automatica nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRiconoscimento dei gesti: Sbloccare il linguaggio del movimento Valutazione: 0 su 5 stelle0 valutazioniRiconoscimento automatico della targa: Sbloccare il potenziale della tecnologia di visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFotocamera intelligente: Rivoluzionare la percezione visiva con la visione artificiale Valutazione: 0 su 5 stelle0 valutazioniRiconoscimento ottico del Braille: Potenziare l'accessibilità attraverso l'intelligenza visiva Valutazione: 0 su 5 stelle0 valutazioniVisione artificiale: Approfondimenti sul mondo della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSviluppare applicazioni ibride per dispositivi mobili Valutazione: 5 su 5 stelle5/5Videoimpronta digitale digitale: Migliorare la sicurezza e l'identificazione nei dati visivi Valutazione: 0 su 5 stelle0 valutazioniPacchetto software: Rivoluzionare la visione artificiale con la suite software definitiva Valutazione: 0 su 5 stelle0 valutazioniRiconoscimento vocale audiovisivo: Progressi, applicazioni e approfondimenti Valutazione: 0 su 5 stelle0 valutazioniScorrimento: Sbloccare il mondo visivo della visione artificiale Valutazione: 0 su 5 stelle0 valutazioniEsplorazione della raccolta di immagini: Svelare i paesaggi visivi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniCalcolo fisico: Esplorare la visione artificiale nell'informatica fisica Valutazione: 0 su 5 stelle0 valutazioniRete di sensori visivi: Esplorare la potenza delle reti di sensori visivi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioniFatevi le mappe vostre con Google Maps V3 Valutazione: 0 su 5 stelle0 valutazioniRealtà aumentata: Esplorando le frontiere della visione artificiale nella realtà aumentata Valutazione: 0 su 5 stelle0 valutazioniUsare App Inventor Scrivere e distribuire App per cellulari e tablet Android Valutazione: 0 su 5 stelle0 valutazioniRilevamento oggetti: Progressi, applicazioni e algoritmi Valutazione: 0 su 5 stelle0 valutazioniLa nuova ecdl 2013 in pillole Valutazione: 0 su 5 stelle0 valutazioniGrafica computerizzata: Esplorando l'intersezione tra computer grafica e visione artificiale Valutazione: 0 su 5 stelle0 valutazioniSoftware Afelio: Sbloccare la visione: esplorare le profondità del software Aphelion Valutazione: 0 su 5 stelle0 valutazioniFisica: cinematica 2 con Scratch: Esperimenti con Scratch su moti vari e moti composti con il calcolo numerico Valutazione: 0 su 5 stelle0 valutazioniEditor di grafica vettoriale: Potenziare la creazione visiva con algoritmi avanzati Valutazione: 0 su 5 stelle0 valutazioniLa programmazione VB.NET 2008 Valutazione: 0 su 5 stelle0 valutazioniApp Inventor 2 per esempi Valutazione: 1 su 5 stelle1/5Contapersone: Sbloccare insight attraverso Visual Analytics Valutazione: 0 su 5 stelle0 valutazioniAndroid: Modding Programming & Toolkit Valutazione: 2 su 5 stelle2/5Usare Sigil per scrivere ebook fruibili su qualsiasi lettore Valutazione: 0 su 5 stelle0 valutazionie4job Fondamenti di Cultura Digitale Glossario 3.1 Valutazione: 0 su 5 stelle0 valutazioniProfilo colore: Esplorare la percezione visiva e l'analisi nella visione artificiale Valutazione: 0 su 5 stelle0 valutazioni
Intelligenza artificiale e semantica per voi
ANonniMus: Vecchi rivoluzionari contro giovani robot Valutazione: 0 su 5 stelle0 valutazioniGuida Intelligenza Artificiale Valutazione: 0 su 5 stelle0 valutazioniIl Terzo Like Valutazione: 0 su 5 stelle0 valutazioni
Recensioni su Riconoscimento ottico dei caratteri
0 valutazioni0 recensioni
Anteprima del libro
Riconoscimento ottico dei caratteri - Fouad Sabry
Capitolo 1: Riconoscimento ottico dei caratteri
Da un documento scansionato, da una foto del documento, da una foto di scena (come il testo su cartelli e cartelloni pubblicitari in una foto di un paesaggio) o dal testo dei sottotitoli sovrapposto a un'immagine, il riconoscimento ottico dei caratteri (OCR) è la conversione elettronica o meccanica di immagini di testo digitato, scritto a mano o stampato in testo codificato automaticamente (ad esempio: da una trasmissione televisiva).
È un metodo comune di digitalizzazione di testi stampati per l'editing elettronico, la ricerca, l'archiviazione compatta, la visualizzazione online e l'uso in processi automatici come il cognitive computing, la traduzione automatica, la sintesi vocale (estratta) e altra documentazione adeguata, come documenti di passaporto, fatture, estratti conto bancari, ricevute computerizzate, biglietti da visita, posta, stampe di dati statici e altra documentazione adeguata. Il riconoscimento dei modelli, l'intelligenza artificiale e la visione artificiale contribuiscono tutti all'OCR.
Le versioni precedenti supportavano solo un singolo carattere tipografico e richiedevano una formazione con le foto di ogni carattere. I sistemi moderni spesso gestiscono molti formati di file di immagini digitali e possono fornire un elevato livello di precisione di identificazione per la maggior parte dei caratteri tipografici. Alcune implementazioni possono generare una copia della pagina con tutti i dettagli di formattazione mantenuti, ad esempio grafica, colonne e altri elementi non testuali.
La telegrafia e lo sviluppo di ausili alla lettura per i ciechi sono due possibili antecedenti del moderno riconoscimento ottico dei caratteri.
Per esaminare gli archivi di microfilm utilizzando un sistema di riconoscimento ottico dei codici, Emanuel Goldberg creò quella che chiamò una macchina statistica
negli anni '20 e '30. Nel 1931 ricevette il brevetto statunitense 1.838.389 per la sua creazione. IBM ora possiede il brevetto.
Dopo aver sviluppato l'OCR omni-font, in grado di leggere il testo scritto in quasi tutti i caratteri tipografici, Ray Kurzweil fondò la Kurzweil Computer Products, Inc. nel 1974. (A Kurzweil viene spesso attribuita l'invenzione dell'OCR omni-font, ma era in uso da parte di aziende, tra cui CompuScan, alla fine degli anni '60 e '70). L'uso ottimale di questa tecnologia, ragionava Kurzweil, sarebbe stato quello di sviluppare una macchina di lettura per i non vedenti, che avrebbe permesso ai non vedenti di avere un computer che leggesse ad alta voce qualsiasi testo inserito dall'utente. Affinché questo gadget diventasse realtà, è stato necessario sviluppare due tecnologie chiave, lo scanner piano CCD e il sintetizzatore text-to-speech. Il prodotto finale fu presentato durante una conferenza stampa il 13 gennaio 1976, presieduta da Kurzweil e dalla Federazione Nazionale dei Ciechi. La prima versione commerciale del software di riconoscimento ottico dei caratteri è stata rilasciata da Kurzweil Computer Products nel 1978. In qualità di uno dei primi ad adottarlo, LexisNexis ha acquistato il software per includere articoli di notizie e note legali nei suoi database online alle prime armi. Kurzweil vendette la sua azienda alla Xerox due anni dopo a causa del desiderio di quest'ultima di commercializzare la conversione del testo dalla carta al computer. Scansoft, che era stata scorporata da Xerox, in seguito si fuse con Nuance Communications.
Negli anni 2000, l'OCR è stato reso accessibile nel cloud, sui dispositivi mobili e nella traduzione in tempo reale di segni in lingua straniera utilizzando uno smartphone tramite servizi come WebOCR. Con l'ascesa dei dispositivi mobili connessi a Internet come smartphone e smartwatch, l'OCR viene utilizzato nelle app che estraggono il testo dalle immagini scattate con la fotocamera del dispositivo. Se il dispositivo non dispone di funzionalità OCR integrate nel sistema operativo, verrà utilizzata un'API OCR per leggere il file di immagine ed estrarre il testo. L'API OCR invia il testo estratto al programma sul dispositivo, insieme alle informazioni su dove è stato riconosciuto il testo nell'immagine originale, in modo che l'app possa fare qualcosa con esso (come convertirlo in voce o visualizzarlo).
I caratteri latini, cirillici, arabi, ebraici, indiani, bengalesi (Bangla), devanagari, tamil, cinesi, giapponesi e coreani sono tutti supportati da un'ampia varietà di sistemi OCR commerciali e open source.
L'OCR delle ricevute, l'OCR delle fatture, l'OCR degli assegni e l'OCR del documento di fatturazione legale sono solo alcuni dei numerosi tipi di applicazioni OCR specifiche del dominio che sono state create sui motori OCR.
Puoi usarli in:
Inserimento di informazioni da documenti aziendali come assegni, passaporti, fatture, estratti conto bancari e ricevute
Software per la lettura delle targhe
Negli aeroporti, per la scansione dei passaporti e l'estrazione dei dati
Estrazione automatica dei dati chiave dai documenti assicurativi
La capacità di leggere i segnali stradali
Aggiunta di dettagli di contatto da un biglietto da visita
Accelera il processo di conversione dei materiali stampati in testo, ad esempio scansionando i libri per il Progetto Gutenberg.
Consenti di cercare copie digitali di libri e riviste stampate come Google Libri.
Utilizzo del riconoscimento della scrittura a mano in tempo reale per il funzionamento di un computer (pen computing)
Aggirare i sistemi anti-bot CAPTCHA, anche se hanno lo scopo di fermare l'OCR. Il test di resistenza del sistema anti-bot CAPTCHA è un altro possibile obiettivo.
Apparecchiature progettate per aiutare i non vedenti
Le istruzioni del veicolo vengono scritte individuando le immagini CAD in un database che sono rilevanti per la progettazione del veicolo in continua evoluzione.
Il processo di trasformazione dei documenti scansionati in PDF ricercabili
Il testo dattiloscritto è ciò su cui si concentra il riconoscimento ottico dei caratteri (OCR). Lo fa analizzando ogni singolo glifo o lettera.
La scansione parola per parola del testo stampato è il fulcro del riconoscimento ottico delle parole (per le lingue che utilizzano uno spazio come divisore di parole). (Comunemente abbreviato in OCR
)
La scrittura scritta a mano o corsiva è un altro obiettivo del riconoscimento intelligente dei caratteri (ICR), che si concentra su ogni singolo glifo o lettera.
L'analisi parola per parola della scrittura a mano in caratteri stampati o corsivi è un altro obiettivo del riconoscimento intelligente delle parole (IWR). Ciò è particolarmente utile per le lingue che utilizzano la scrittura corsiva senza separare i glifi.
Il riconoscimento ottico dei caratteri è spesso una procedura offline
che valuta un documento conservato. Le API OCR online sono offerte da alcuni servizi basati su cloud. È possibile fornire dati sui movimenti della mano di uno scrittore in un sistema di riconoscimento della scrittura. Questo metodo è superiore rispetto al basarsi esclusivamente sulle forme dei glifi e delle parole poiché può registrare azioni come l'ordine in cui le parti vengono disegnate, la direzione presa e il ritmo di quando la penna viene posata e presa. Questi dati supplementari hanno il potenziale per migliorare la precisione complessiva