Elaborazione del linguaggio naturale con Python
Di Ajit Singh
()
Info su questo ebook
La PNL è un settore ampio e multidisciplinare, quindi questo libro può fornire solo un'introduzione molto generale. Il primo capitolo ha lo scopo di fornire una panoramica delle principali sottoaree e una brevissima idea delle principali applicazioni e delle metodologie utilizzate. La storia della PNL viene brevemente discussa come un modo per metterla in prospettiva. I tre capitoli successivi descrivono in modo più dettagliato alcune delle principali sottoaree. L'organizzazione si basa su una maggiore "profondità" di elaborazione, a partire da tecniche relativamente orientate alla superficie e passando a considerare il significato delle frasi e il significato delle parole nel contesto. Ogni capitolo prenderà in considerazione la sottoarea nel suo insieme per poi passare a descrivere uno o più algoritmi campione che affrontano problemi particolari. Gli algoritmi sono stati scelti perché sono relativamente semplici da descrivere e perché illustrano una tecnica specifica che si è dimostrata utile, ma l'idea è quella di esemplificare un approccio, non di fornire un'indagine dettagliata (cosa che sarebbe impossibile nel tempo a disposizione). Tuttavia, altri approcci saranno talvolta discussi brevemente. Il capitolo finale riunisce il materiale precedente per descrivere lo stato dell'arte nelle applicazioni campione. Obiettivi: L'obiettivo del mio libro per gli studenti è quello di: 1. essere in grado di descrivere l'architettura e il design di base di un sistema generico di PNLP "shell". 2. essere in grado di discutere le prestazioni attuali e future di diverse applicazioni della PNL, come la traduzione automatica e la risposta via e-mail. 3. essere in grado di descrivere brevemente una tecnica fondamentale per l'elaborazione del linguaggio per diverse sottoattività, come l'analisi morfologica, l'analisi sintattica, la disambiguazione del senso della parola, ecc. ●4. Capire come queste tecniche si ispirano e si relazionano ad altre aree dell'informatica (teorica), come la teoria formale dei linguaggi, la semantica formale dei linguaggi di programmazione, o il teorema di prova.
Ajit Singh
Ajit Singh is equally interested in fiction and non-fiction and has written many books in English, Hindi, and Urdu. He has performed in Haryana, published his prose and verse in India and Pakistan, and participated in an international online poetry symposium organized by Bazm-e-Urdu, Qatar.He lives in a village, teaches science, and comes from a farming family. His father served as a major in the Parachute Regiment of the Indian Army.Ajit plays cricket, football, volleyball, basketball, badminton, and chess. He loves harmonium and flute, sings folk songs, and also enjoys gardening in his spare time. His nickname is "Badal," which means "cloud" in English.
Leggi altro di Ajit Singh
Teoria del Linguaggio Formale e degli Automi Valutazione: 0 su 5 stelle0 valutazioni5G in Modo Semplice e Approfondito Valutazione: 0 su 5 stelle0 valutazioniRealtà Virtuale Valutazione: 0 su 5 stelle0 valutazioniAgile & Scrum Valutazione: 0 su 5 stelle0 valutazioni
Correlato a Elaborazione del linguaggio naturale con Python
Ebook correlati
Traduzione come metafora, traduttore come antropologo: La semiotica ci fa capire Valutazione: 0 su 5 stelle0 valutazioniLa punteggiatura: Regole e contro regole Valutazione: 0 su 5 stelle0 valutazioniTime on a Line. Il verbo inglese in 60 minuti Valutazione: 1 su 5 stelle1/5Manuale di traduzione di Jurij Lotman Valutazione: 0 su 5 stelle0 valutazioniPotenziare la Memoria e il Quoziente Intellettivo Valutazione: 0 su 5 stelle0 valutazioniManuale di traduzione di Roman Jakobson Valutazione: 0 su 5 stelle0 valutazioniVerbi e punteggiatura Valutazione: 0 su 5 stelle0 valutazioniLe chiavi della mente. Linguaggio e pensiero alla luce delle nuove scienze Valutazione: 0 su 5 stelle0 valutazioniManuale di semiotica della traduzione: Osnovy obŝego i mašinnogo perevoda Valutazione: 0 su 5 stelle0 valutazioniTraduzione e qualità: La valutazione in ambito accademico e professionale. Seconda edizione Valutazione: 0 su 5 stelle0 valutazioniRegEx per autori, scrittori e redattori. Guida operativa all'utilizzo delle espressioni regolari nel trattamento di testi digitali. Valutazione: 0 su 5 stelle0 valutazioniCome realizzare una tesi di laurea (senza impazzire, perdere la ragione o cadere preda di istinti omicidi...) Valutazione: 0 su 5 stelle0 valutazioniDisturbo Neurocognitivo dovuto a Trauma o Stroke Valutazione: 0 su 5 stelle0 valutazioniGestire la cadenza dialettale - Per colloqui di lavoro e il personal branding: Acquisire un italiano neutro per colloqui di lavoro e il personal branding Valutazione: 0 su 5 stelle0 valutazioniLinguaggio Del Corpo: Come Leggere Immediatamente Il Linguaggio Del Corpo A Prima Vista Valutazione: 0 su 5 stelle0 valutazioniFiumi di parole. Discorso e grammatica delle conversazioni scritte in Twitter Valutazione: 0 su 5 stelle0 valutazioniLavorare con il russo (in azienda e non solo) Valutazione: 0 su 5 stelle0 valutazioniPillole di Inglese: 1.Avverbi 2.Pronomi Relativi 3.Verbi Modali Valutazione: 5 su 5 stelle5/5Traduzione: aspetti mentali.: Saggi di Peirce, Levý, Mahony, Schreier Rupprecht, Ullmann, Favareau Valutazione: 0 su 5 stelle0 valutazioniCompendio di Storia della Letteratura Italiana Valutazione: 0 su 5 stelle0 valutazioniLezioni Magistrali di Diritto Costituzionale II: Volume II Valutazione: 0 su 5 stelle0 valutazioniScuola 2020: Manuale per il concorso a cattedre: Secondaria di II grado. Latino A-11 Valutazione: 0 su 5 stelle0 valutazioniTutto è nella Rete. La Rete è nel tutto - Web nostrum 1 Valutazione: 0 su 5 stelle0 valutazioniLa retorica Valutazione: 0 su 5 stelle0 valutazioniIl libro dei Prodigi: Prodigiorum Liber Valutazione: 5 su 5 stelle5/5Mondo Haiku: Scrivere bene 2 Valutazione: 0 su 5 stelle0 valutazioniLe tre funzioni del testo Valutazione: 0 su 5 stelle0 valutazioniEsercizi di matematica: vettori e spazi vettoriali Valutazione: 0 su 5 stelle0 valutazioniInter Media: La mediazione interlinguistica negli audiovisivi Valutazione: 0 su 5 stelle0 valutazioniImparando: Potere Assoluto. L'Arte di Imparare Come si Fa Valutazione: 0 su 5 stelle0 valutazioni
Intelligenza artificiale e semantica per voi
Il Terzo Like Valutazione: 0 su 5 stelle0 valutazioniGuida Intelligenza Artificiale Valutazione: 0 su 5 stelle0 valutazioniANonniMus: Vecchi rivoluzionari contro giovani robot Valutazione: 0 su 5 stelle0 valutazioni
Recensioni su Elaborazione del linguaggio naturale con Python
0 valutazioni0 recensioni
Anteprima del libro
Elaborazione del linguaggio naturale con Python - Ajit Singh
Sommario
Questo libro ha lo scopo di introdurre le tecniche fondamentali dell'elaborazione del linguaggio naturale, di sviluppare una comprensione dei limiti di tali tecniche e delle questioni di ricerca attuali, e di valutare alcune applicazioni attuali e potenziali.
––––––––
1. Introduzione. Breve storia della ricerca PNL, applicazioni correnti, architettura di sistemi NLP generici, approcci basati sulla conoscenza e
2. Tecniche a stato finito. Nella morfologia sezionale e derivazionale, Automi a stato finito in NLP, trasduttori a stato finito .
3. Previsione e marcatura Part-Of-Speech. Corpora, corpus fai-da-te, analisi del corpus, semplici N-grammi, predizione di parole, etichettatura stocastica e valutazione delle prestazioni del sistema.
4. Analisi e generazione. Grammatica generativa, grammatiche senza contesto, analisi e generazione di grammatiche, pesi e probabilità senza contesto. Grammatica basata sui vincoli, unificazione, semantica compositiva semplice. Relazioni semantiche
5. PNL con Python
Copyright © Ajit Singh 2019
Tutti i diritti riservati. Nessuna parte di questo lavoro può essere riprodotta in alcuna forma, o con qualsiasi mezzo, senza permesso scritto dall'editore. Faccio ogni sforzo per rispettare il copyright.
––––––––
Premessa
La PNL è un campo ampio e multidisciplinare, quindi questo libro può fornire solo un'introduzione molto generale. Il primo capitolo è progettato per fornire una panoramica delle principali sottoaree e una breve idea delle principali applicazioni e metodologie utilizzate. La storia della PNL è brevemente discussa come un modo per metterlo in prospettiva. I prossimi tre capitoli descrivono alcune delle sottoaree principali in maggior dettaglio. L'organizzazione si basa su una maggiore profondità
di elaborazione, a partire da tecniche relativamente orientate alla superficie e progredisce fino a considerare il significato delle frasi e il significato delle espressioni nel contesto. Ogni capitolo considererà la sottoarea nel suo insieme e poi descriverà uno o più algoritmi di esempio che affrontano problemi particolari. Gli algoritmi sono stati scelti perché sono relativamente semplici da descrivere e perché illustrano una tecnica specifica che si è dimostrata utile, ma l'idea è di esemplificare un approccio, non di fornire un'indagine dettagliata (che sarebbe impossibile nel tempo a disposizione). Tuttavia, altri approcci saranno talvolta discussi brevemente. Il capitolo finale riunisce il materiale precedente per descrivere lo stato dell'arte nelle applicazioni di esempio.
––––––––
Obiettivi:
L'obiettivo del mio libro per gli studenti è di:
1. essere in grado di descrivere l'architettura e la progettazione di base per una `shell 'di sistema NLP generica.
2. essere in grado di discutere le prestazioni attuali e probabilmente future di diverse applicazioni di PNL, come la traduzione automatica e la risposta via email.
3. essere in grado di descrivere brevemente una tecnica fondamentale per l'elaborazione del linguaggio per diversi sotto-aspetti, come l'analisi morfologica, l'analisi sintattica, la disambiguazione del senso della parola, ecc.
4. Capire in che modo queste tecniche attingono e riguardano altre aree dell'informatica (teorica), come la teoria del linguaggio formale, la semantica formale dei linguaggi di programmazione o la dimostrazione del teorema.
Caratteristiche principali:
1. Discussione dei principali problemi coinvolti nell'elaborazione del linguaggio attraverso esempi tratti da applicazioni PNL con distinzioni metodologiche e collocazione delle applicazioni e della metodologia in un contesto storico.
2. Discussione sulla morfologia, concentrandosi principalmente sulla morfologia inglese. Il concetto di un lessico in un sistema di PNL è discusso in relazione all'elaborazione morfologica. Vengono introdotte le regole di ortografia e viene spiegato l'uso di trasduttori a stati finiti per implementare le regole di ortografia.
3. Introduce alcune semplici tecniche statistiche e illustra il loro uso in PNL per la previsione di parole e categorie di parti del discorso. Inizia con una discussione dei corpora e quindi introduce la previsione delle parole. La predizione di parole può essere vista come un modo (rozzamente) di modellare alcune informazioni sintattiche (cioè l'ordine delle parole).
4. PNL con Python
5. Corpus fai da te
Capitolo 1: Introduzione alla PNL
Le persone comunicano in molti modi diversi: parlando e ascoltando, facendo gesti, usando segnali manuali specializzati (come quando si guida o dirigendo il traffico), usando le lingue dei segni per i non udenti o attraverso varie forme di testo.
Per testo si intendono le parole scritte o stampate su una superficie piana (carta, cartoncini, segnali stradali e così via) o visualizzate su uno schermo o dispositivo elettronico per essere lette dal destinatario previsto (o da chi sta passando).
Il corso si concentrerà solo sull'ultimo di questi: ci occuperemo di vari modi in cui i sistemi informatici possono analizzare e interpretare i testi, e assumeremo per comodità che questi testi siano presentati in formato elettronico. Questa è ovviamente un'ipotesi ragionevole, data l'enorme quantità di testo a cui possiamo accedere tramite il World Wide Web e la crescente disponibilità di versioni elettroniche di giornali, romanzi, libri di testo e guide tematiche. Questo capitolo introduce alcuni concetti, tecniche e terminologia essenziali che verranno applicati nel resto del corso. Alcuni materiali in questo capitolo sono un po' tecnici, ma in questa fase non è prevista alcuna programmazione.
Inizieremo considerando i testi come stringhe di caratteri che possono essere suddivisi in sottostringhe e introdurre alcune tecniche per la descrizione informale di modelli di vario tipo che si verificano nei testi. Successivamente inizieremo a motivare l'analisi dei testi in termini di strutture gerarchiche in cui elementi di vario genere possono essere incorporati l'uno nell'altro, in modo comparabile agli elementi che compongono un documento Web HTML. Questa sezione introduce alcuni strumenti tecnici come: macchine a stati finiti (FSM), espressioni regolari, grammatiche regolari e grammatiche senza contesto.
Le nozioni di base
Testo tokenizzato e Pattern matching
Una delle operazioni di base che possono essere applicate a un testo è la tokenizzazione: suddividere un flusso di caratteri in parole, segni di punteggiatura, numeri e altri elementi discreti. Quindi per esempio la stringa di caratteri
Dr. Watson, il signor Sherlock Holmes
, ha detto Stamford, presentandoci.
Può essere tokenizzato come nell'esempio seguente, in cui ogni token è racchiuso tra virgolette singole:
`' `Dr.' `Watson' `,' `Mr.' `Sherlock' `Holmes' `
' `,' `dice' `Stamford' `,' `introducendo' `noi' `.'
A questo livello, le parole non sono state classificate in categorie grammaticali e abbiamo pochissime indicazioni sulla struttura sintattica. Tuttavia, una discreta quantità di informazioni può essere ottenuta da un'analisi relativamente superficiale del testo tokenizzato. Ad esempio, supponiamo di voler sviluppare una procedura per trovare tutti i nomi personali in un determinato testo. Sappiamo che i nomi personali iniziano sempre con lettere maiuscole, ma ciò non è sufficiente per distinguerli dai nomi di paesi, città, aziende, cavalli da corsa e così via, o dalla capitalizzazione all'inizio di una frase. Alcuni modi aggiuntivi per identificare i nomi personali includono:
Uso di un titolo Dr., Sig., Sig.ra, Professore e così via.
Una parola in maiuscolo o parole seguite da una virgola e da un numero, di solito inferiore a 100: è un modo comune di riferirsi alle persone nei notiziari, dove il numero sta per la loro età - per esempio Pierre Vinken, 61, . . .
Una parola in maiuscolo seguita da un verbo che di solito si applica agli esseri umani: detto, riportato, rivendicato, pensato, discusso. . . Questo può sovra-generare nel caso di nomi di paesi o organizzazioni come sostiene la Corona o la Gran Bretagna ha affermato.
Possiamo esprimerli in modo più conciso come segue, dove j è il simbolo di disgiunzione, Word rappresenta una parola in maiuscolo e Int è un numero intero:
(Dr. j Professor j Mr. j Mrs. j Miss j Ms) Word
Parola Parola, Int