Scopri milioni di eBook, audiolibri e tanto altro ancora con una prova gratuita

Solo $11.99/mese al termine del periodo di prova. Cancella quando vuoi.

Coding in R per l'analisi dati - da principiante a esperto
Coding in R per l'analisi dati - da principiante a esperto
Coding in R per l'analisi dati - da principiante a esperto
E-book360 pagine2 ore

Coding in R per l'analisi dati - da principiante a esperto

Valutazione: 0 su 5 stelle

()

Leggi anteprima

Info su questo ebook

Questo testo di base di programmazione con R per aspiranti data analyst nasce per accompagnare un principiante nella programmazione, dalle basi del linguaggio di programmazione (uno dei più conosciuti e utilizzati nel campo dell'analisi dati) fino all'utilizzo della statistica descrittiva.

Al termine di questo libro sarete in grado di creare, importare, manipolare e gestire dei dataset. Impareremo insieme come scaricare, installare e utilizzare alcuni dei più importanti tool per l'utilizzo di R. Passeremo poi alla creazione degli oggetti: R si basa su alcune strutture che è necessario conoscere, come vettori, matrici, liste e dataframe. Una volta che avremo capito come creare e manipolare queste strutture dati, estrarne degli elementi e salvarle in locale sul computer, passeremo all'utilizzo di loop e alla creazione di funzioni. 

Nella sezione successiva vedremo una serie argomenti utili: come impostare una cartella di lavoro, come installare e richiamare un pacchetto, come ottenere delle informazioni sui dati, dove trovare dei dataset per i test e ottenere aiuto su una funzione. Quando si analizzano dei dati ci si imbatte prima o poi nei dataframe cosiddetti casi x variabili. Vedremo quindi come importare un dataframe dal computer, o da internet, su R. Esistono molte funzioni adatte allo scopo e molti pacchetti che ci sono utili per importare dei dati che sono in alcuni formati particolari, come ad esempio i formati per Excel, il .csv, il .txt o il JSON. Vedremo poi come manipolare i dati, creare nuove variabili, aggregare i dati, ordinarli in maniera orizzontale e longitudinale, unire due dataset. Per fare questo utilizzeremo alcuni pacchetti e funzioni specifiche, come dplyr, tidyr o reshape2. Vedremo anche brevemente come interfacciarci a un database e utilizzare altri pacchetti per snellire la gestione di dataset un po' più grandi. 

R è un linguaggio molto importante anche nell'ambito della statistica. Impareremo quindi alcune delle funzioni di base, come calcolo delle medie per riga o per colonna, e le funzioni statistiche più comuni nell'ambito della statistica descrittiva. Quando si parla di analisi dati, ci troveremo spesso a creare dei grafici per spiegare i nostri dati e le nostre analisi. Per questo motivo dedichiamo una parte del libro a vedere come creare dei grafici sia con le funzioni della libreria di base, sia con il pacchetto ggplot2. Negli ultimi paragrafi vedremo come creare e esportare dei report e delle slide, riepilogheremo gli argomenti visti e le funzioni utilizzate, e vedremo il materiale di supporto.
LinguaItaliano
Data di uscita28 lug 2022
ISBN9791221378801
Coding in R per l'analisi dati - da principiante a esperto

Correlato a Coding in R per l'analisi dati - da principiante a esperto

Ebook correlati

Programmazione per voi

Visualizza altri

Articoli correlati

Recensioni su Coding in R per l'analisi dati - da principiante a esperto

Valutazione: 0 su 5 stelle
0 valutazioni

0 valutazioni0 recensioni

Cosa ne pensi?

Tocca per valutare

La recensione deve contenere almeno 10 parole

    Anteprima del libro

    Coding in R per l'analisi dati - da principiante a esperto - Valentina Porcu

    Introduzione

    R è un linguaggio di programmazione nato all’inizio degli anni ’90 da una costola di S, un altro linguaggio sviluppato dai Bell laboratories per l’analisi statistica. Lo sviluppo di R come linguaggio vero e proprio si deve a Robert Gentleman e Ross Idhaka, dell’Università della Nuova Zelanda. Questi due ricercatori sono partiti con l’obiettivo di sviluppare un software per gli studenti, ma incoraggiati dal successo del progetto, nel 1993 hanno deciso di farne un software open source. R è infatti un software libero, distribuito con licenza GNU-GPL, e può essere scaricato e installato dal sito https://www.r-project.org. Per semplificare il nostro lavoro in R, possiamo utilizzare degli ambienti di sviluppo, il più famoso dei quali, sviluppato appositamente per R, è RStudio.

    R, insieme a RStudio, rappresenta una combinazione potente e adatta a vari ambiti di applicazione:

    1. la programmazione: R può essere utilizzato per scrivere script e funzioni volti all’analisi e alla gestione dei dati

    2. è uno dei linguaggi di programmazione più importanti nella data analysis, la statistica, la visualizzazione dati, e la creazione di modelli predittivi

    3. è tra i primi linguaggi creato per l’analisi statistica, ma ha saputo stare al passo con i tempi, ed è uno dei più flessibili e semplici in tutti i passaggi del ciclo di vita dei dati

    4. è open source, quindi può essere scaricato e utilizzato gratuitamente, sia per progetti singoli che in collaborazione con altri analisti

    5. è semplice, in quanto permette con poche righe di codice di cominciare a farsi un’idea, dal momento che molti strumenti di base e dataset sono già precaricati e di facile accesso.

    Questo libro nasce come introduzione alla programmazione in R e vuole essere una guida agile all’apprendimento dei primi passi su R per persone che iniziano a studiare la programmazione e l’analisi dati con questo linguaggio.

    Dopo questa Sezione Introduttiva, in cui vediamo meglio come installare, personalizzare e utilizzare i principali strumenti che ci occorrono per imparare a programmare con R, nel Primo Capitolo cominceremo a parlare delle basi del linguaggio, a partire dalle strutture dati, operatori relazionali, strutture di controllo e funzioni. Vedremo come creare degli oggetti in R e come utilizzare le prime funzioni in R, ad esempio per riordinare un vettore o aggiungere delle colonne a una matrice.

    Nel Secondo Capitolo ci occuperemo di come impostare il nostro ambiente di lavoro su R, come installare e richiamare un pacchetto, come eseguire un file .R e come ottenere aiuto in caso di dubbi e difficoltà.

    Il Terzo Capitolo è dedicato all’importazione dei dati su R, da vari formati, in primis il .csv, ma anche dati in excel, .txt e altri formati.

    Nel Quarto Capitolo cominciamo a parlare di come andare a fondo nella struttura dei nostri dati tramite funzioni e pacchetti specifici, manipolando e riorganizzando i dati, mentre nel Quinto Capitolo approfondiremo gli stessi temi sui database, importabili in R tramite pacchetti specifici.

    Nel Sesto Capitolo vedremo alcuni argomenti di base di statistica applicati con R, impareremo a esplorare e ripulire il nostro dataset, curando la qualità dei dati e nel Settimo Capitolo ci sposteremo sulle basi di creazione grafici, sia tramite le funzioni di base di R, sia tramite pacchetti specifici, in particolare ggplot2.

    Infine nel Capitolo Ottavo impariamo a creare la reportistica su R, tramite Markdown e Knitr, e vedendo i primi rudimenti di Shiny.

    Mi auguro che questo libro possa essere l’introduzione a R più semplice possibile, in particolare per chi non ha precedenti basi di programmazione, e per questo invito il lettore a scrivere il codice ed eseguirlo passaggio dopo passaggio per comprendere al meglio come funziona la programmazione per l’analisi dati con R. Il codice completo può essere scaricato dal seguente link: https://github.com/valentinap/coding_in_r_per_l_analisi_dati

    Capitolo 1

    Primi passi

    Scaricare e installare R

    La prima cosa che dobbiamo fare per cominciare, è scaricare e installare il software che contiene il linguaggio di programmazione. Per sfare questo, andiamo sul sito internet https://www.r-project.org.

    Dal link Download al centro della pagina arriviamo sulla pagina seguente:

    Qui si trovano le versioni di R ospitate su vari server in vari paesi. Scegliamo il paese più vicino a noi e clicchiamo su uno dei link.

    Dalla pagina che si aprirà scegliamo il link relativo al sistema operativo presente nel nostro computer.

    Clicchiamo su uno dei link cerchiati in giallo e attendiamo lo scaricamento del software d’installazione.

    Una volta scaricato l’installer, clicchiamo due volte sul file d’installazione.

    Su questa pagina è presente un’introduzione al software. Clicchiamo su ‘Continue’ in basso a destra.

    Sulla seconda schermata dell’installer sono presenti informazioni sulla versione di R, anche in questo caso, proseguiamo cliccando su Continue.

    Nella terza schermata è presente il contratto di licenza. Clicchiamo su Continue e accettiamo come nella schermata seguente:

    Decidiamo dove installare il software e per quali utenti del nostro computer, poi clicchiamo nuovamente su Continue:

    Procediamo con l’installazione cliccando nuovamente su Continue:

    Attendiamo che l’installazione sia conclusa:

    Una volta installato il software, visualizzeremo l’immagine seguente:

    Possiamo chiudere l’installer. Ora R è installato nel nostro computer. Possiamo aprire la console di R cliccando due volte sul logo del software, e otterremo una finestra simile a questa:

    Da qua possiamo già digitare del codice e effettuare delle operazioni. Possiamo anche aprire il terminale o il prompt comandi del computer e digitare il comando R, come nella prima riga dell’immagine seguente, e premere il comando Enter:

    Questo ci permetterà di aprire e utilizzare R direttamente da terminale.

    Scaricare e installare RStudio

    Come abbiamo visto possiamo utilizzare il linguaggio R già dalla sua console o dal terminale. Come vedremo tra qualche paragrafo, esistono decine di ambienti di programmazione che ci permettono di utilizzare il nostro linguaggio di programmazione preferito. L'ambiente di programmazione preferito da chi comincia a lavorare con R è RStudio. Per scaricarlo andiamo sul sito internet www.rstudio.com.

    Da questa pagina andiamo sul tab Products in alto, e da lì clicchiamo su RStudio nel tab che si apre.

    Facciamo click su RStudio Desktop.

    Dal tab sulla sinistra clicchiamo sul pulsante blu DOWNLOAD RSTUDIO DESKTOP.

    Dalla pagina che si aprirà, clicchiamo su uno dei pulsanti DOWNLOAD sul tab di sinistra, che ci permette di utilizzare la versione open source e gratuita di RStudio.

    Dalla pagina che si aprirà, possiamo scaricare RStudio per il nostro sistema operativo. Una volta scaricato il software, ci clicchiamo sopra due volte per eseguire il programma.

    Personalizzare e utilizzare RStudio

    All’apertura di RStudio possiamo vedere per prima cosa che il software risulta composto da 4 finestre differenti.

    La prima finestra, quella in alto a sinistra definita come finestra degli script o editor è la finestra dove andrò a scrivere del codice che ho interesse ad andare a salvare per utilizzi successivi. Dal comando in alto File ↵ New File possiamo aprire un nuovo script di R, mentre sempre da File ↵ Recent Files possiamo visualizzare gli script su cui abbiamo lavorato recentemente e riaprirli. Una volta creato del codice su uno script, posso eseguirlo con Ctrl + Enter e alla fine della sessione di lavoro, salvarlo con estensione .R per analisi successive.

    Quando eseguo del codice, questo viene eseguito nella finestra 2, quella denominata console. Però non scriviamo il codice sulla console, perché, quando eseguiamo dei comandi da qui, dopo un certo numero di operazioni via via i primi comandi effettuati spariscono dalla visualizzazione, e rischiamo di perdere del lavoro o di confonderci le idee. Quindi possiamo fare dei test dalla console, ma è bene sottolineare che il codice importante e le operazioni più complesse andranno scritte su uno script che poi andrà salvato in un file .R.

    La finestra del workspace contiene tre tab distinti. Nel primo, Environment, vedremo comparire, via via che effettuiamo delle operazioni a codice, gli oggetti che creeremo. Il tab History, invece, conterrà tutte le operazioni che ho effettuato nella mia sessione di lavoro. Posso anche andare a recuperare del codice che magari ho scritto per errore sulla console e reinviarlo a uno script oppure alla console stessa.

    Nel terzo tab dell’Environment, Connections, ho degli strumenti che mi semplificheranno la connessione con Database più complessi, oppure in ambito Big Data, con sessioni di lavoro in Spark, un workframe per determinati tipi di analisi dati.

    L’ultima finestra, la 4, contiene ben 5 tab distinti. Nel primo, Files, posso navigare dal mio computer e anche importare dei dataset tramite un’interfaccia per il caricamento di RStudio. Il tab Plot conterrà i grafici che eventualmente posso creare durante una sessione di lavoro.

    Il terzo tab è riservato alle librerie. R contiene moltissime funzioni già precaricate, ma è possibile estenderlo tramite delle librerie aggiuntive. Possiamo installare le librerie, e ad ogni sessione caricare solo quelle che ci servono per un certo tipo di analisi. Nel tab dell’Help troviamo la documentazione di supporto alle funzioni e alle librerie stesse. Infine, l’ultimo tab, quello del Viewer, è dedicato a visualizzazioni più avanzate, di solito legate alle reti neurali.

    In ultimo, possiamo personalizzare l’aspetto di RStudio andando sul Menu in alto RStudio ↵ Preferences.

    Dal tab Appearance, in particolare, possiamo modificare il font, la sua dimensione, e lo stile di RStudio, mettendo magari un tema scuro.

    Utilizzare altri IDE con R

    RStudio è l’ambiente di sviluppo più famoso e importante per R, e sicuramente molto adatto a chi inizia a programmare dalle basi di questo linguaggio. Ma esistono moltissimi altri ambienti di sviluppo. Gli ambienti di sviluppo sono noti in inglese come IDE, un acronimo che sta per Integrated Development Environment. Si tratta di software per programmatori che contengono, nativamente o grazie alla possibilità di installare dei plugin, una serie di strumenti volti a semplificare il lavoro dei programmatori o dei data analyst. Solitamente gli IDE sono pensati per poter lavorare con molti linguaggi di programmazione. Un’indagine svolta annualmente dal sito Stackoverflow, e visualizzabile a questo link: https://insights.stackoverflow.com/survey/2019 ci restituisce un’idea degli ambienti di sviluppo più utilizzati tra gli sviluppatori.

    Per utilizzare un ambiente di sviluppo di alternativo dovete solitamente installarlo e configurarlo per il vostro linguaggio di programmazione. Ad esempio, SublimeText può essere installato dal sito https://www.sublimetext.com. Si tratta di un IDE a pagamento, ma può essere

    Ti è piaciuta l'anteprima?
    Pagina 1 di 1