La statistica è ogni presente anche nel nostro quotidiano. R è un software libero che consente di effettuare elaborazioni statistiche semplici oppure complesse, a seconda delle esigenze.

Relatrice: Paola Meneghetti

Questo intervento ha fatto parte del Linux Day 2015 e di seguito viene riportata la trascrizione dei contenuti presentati. Le slide sono scaricabili in fondo alla pagina.


La statistica

La statistica

Anche se non ce ne rendiamo conto, siamo circondati da statistiche, nelle pubblicità, sui volantini, al telegiornale. Tuttavia è necessario fare una distinzione tra statistica descrittiva e statistica inferenziale. Ad esempio, se volessi conoscere l’altezza media dei partecipanti al Linux Day in questa stanza, dovrei chiedervi l’altezza e calcolare la media, ottenendo un numero esatto. Questa è statistica descrittiva.

Se invece volessi conoscere l’altezza media di tutti i cittadini italiani, potrei fare lo stesso? No, per motivi di tempo, economici e di raccolta dei dati. In questo caso quindi si misurano le altezze in un gruppo ristretto di persone, chiamato campione. La media viene calcolata su queste persone, ottenendo una stima dell’altezza media. In questo caso si parla di inferenza statistica.

Il linguaggio R

Il linguaggio R

In entrambi i casi, il software libero più utilizzato per l’analisi statistica è R. Il grafico mostra come, negli ultimi anni, l’interesse verso l’uso di R sia aumentato in modo apprezzabile. È infatti il software che viene solitamente insegnato nei corsi universitari di statistica.

R è un ambiente di sviluppo quindi si è aiutati nella scrittura dei programmi in quanto eventuali errori vengono indicati, possibilmente prima dell’esecuzione.

Comandi di esempio

Comandi di esempio

Nei primi comandi vediamo alcuni esempi di assegnamento di valori a delle variabili. Alla variabile x è assegnato un numero, mentre alla variabile kevin viene assegnato il risultato di un’operazione matematica. La stessa cosa si può fare con il simbolo =, ma la freccia <- è più utilizzata perché rende più chiara l’operazione.

Si possono fare direttamente dei calcoli, senza assegnare il risultato a una variabile. In questo caso, il risultato è stampato a video. Nel primo caso c’è una moltiplicazione tra bob e il numero 2, mentre nel secondo caso un confronto tra kevin e pi.

La slide mostra anche un esempio di comando errato: R restituisce un errore che spiega il motivo per cui non può essere eseguito (per esempio, un oggetto non definito). R contiene molte funzioni basilari per la statistica, come la somma sum e la media mean. La funzione rm fa “dimenticare” una variabile, che quindi viene cancellata. È anche possibile definire funzioni personalizzate, usando la sintassi mostrata nell’ultimo esempio.

Un primo grafico

Un primo grafico

Il grafico più semplice si ottiene con il comando plot, a cui vanno passati due vettori: uno per i valori x e l’altro per i valori y. I vettori si possono definire con il comando c. È anche possibile definire un titolo che viene visualizzato sopra al grafico con il parametro main.

Rappresentazioni grafiche

Rappresentazioni grafiche

Questa slide mostra alcuni esempi di rappresentazioni comunemente usate nella statistica. Il primo è un box plot, che si usa per confrontare diversi insiemi di dati osservandone la mediana e i quartili. A destra c’è un diagramma a torta, probabilmente il tipo di grafico più conosciuto.

Il terzo grafico mostra un istogramma, che è molto utile per valutare se i valori seguono una distribuzione normale. L’ultimo grafico è uno scatter plot con una linea di regressione per verificare se i dati seguono un modello lineare. R consente di realizzare tutti questi tipi di grafici.

Attenzione agli errori!

Attenzione agli errori!

Quando si effettuano delle analisi, si possono commettere degli errori durante il lavoro oppure alla fine. Nel primo caso, potrebbero esserci degli errori nei comandi utilizzati. Nel secondo caso, i dati potrebbero essere interpretati in modo sbagliato portando a conclusioni errate.

È importante fare attenzione a queste eventualità.

Errore nel campione

Errore nel campione

Quando si fa inferenza statistica, si possono commettere errori nella fase di raccolta dei dati, per esempio scegliendo un campione che non è rappresentativo della popolazione. Un altro errore può essere causato dagli intervistatori. Ad esempio, nelle interviste per strada le persone che non rispondono alle domande appartengono a un gruppo differente di persone e quindi non risultano adeguatamente rappresentate.

Gli errori possono derivare anche dagli intervistati. Una persona potrebbe mentire o non ricordare, inoltre potrebbe cercare di assecondare l’intervistatore in modo da terminare in fretta il sondaggio.

Un campione troppo piccolo

Un campione troppo piccolo

È importante avere un gruppo adeguatamente numeroso perché le anomalie diventano meno rilevanti in un campione ampio. Le risposte ottenute da un campione piccolo non possono essere considerate rappresentative.

Se lanciamo una moneta, la probabilità di ottenere testa (o croce) è del 50%. Tuttavia, se lanciamo una moneta solo 2 volte, si potrebbero ottenere 2 teste e quindi determinare una probabilità del 100% da questo risultato. Però questo non è corretto e si otterrebbe una stima molto più accurata lanciando la moneta un milione di volte.

Nelle pubblicità di alcuni prodotti, come lo shampoo, sono spesso reclamizzati dei risultati di studi scientifici. Tuttavia, questi studi sono finanziati dagli stessi produttori. È possibile che essi utilizzino dei campioni composti da poche persone, ripetendo il test con gruppi diversi fino a ottenere un risultato conveniente.

Media o moda?

Media o moda?

Negli articoli di giornale, può succedere che vengano confusi i termini “media”, “moda” e “mediana”, come se fossero intercambiabili. In questa slide viene mostrata la differenza tra questi tre concetti.

Un’azienda potrebbe diventare nota perché i lavoratori guadagnano “in media” 38500$, ma questo deriva dallo stipendio altissimo di qualche manager. In realtà, si nota come la mediana (cioè la persona che sta nel mezzo della fila) guadagna 20000$ mentre la moda degli stipendi (cioè il valore più diffuso) è di 15000$.

Grafici incompleti

Grafici incompleti

I dati si possono presentare in modo ingannevole anche omettendo alcuni particolari rilevanti. Per esempio, un grafico senza scala può mostrare una variazione minima come se fosse una forte crescita. Oppure, si può indicare un valore medio senza però chiarire quali sono gli estremi dell’intervallo.

Grafici illusori

Grafici illusori

I tre grafici in alto rappresentano gli stessi dati. Sotto è stata messa un’immagine per far vedere come si possano rappresentare i dati in modo ingannevole cambiando gli intervalli o la scala dei due assi. Nel terzo grafico, un incremento minimo sembra ingente.

Viceversa, nel grafico in basso a sinistra l’incremento è stato reso quasi impercettibile. In quello in basso a destra, è stato tagliato un pezzo delle colonne per far sembrare le variazioni più significative. A volte può succedere che questi grafici vengano mostrati anche in TV, con il rischio di ingannare i telespettatori.

Calcoli sbagliati

Calcoli sbagliati

Le percentuali non si possono sommare! A volte i negozi reclamizzano delle offerte in cui le percentuali di sconto vengono sommate, ma questo è sbagliato. La slide mostra un esempio di calcolo corretto dello sconto: lo sconto del 50% e il successivo 20% ulteriore fanno ottenere al cliente uno sconto del 60%.

Riassumendo...

Riassumendo…

Anche i dati più accurati e ben raccolti possono essere utilizzati per trarre conclusioni sbagliate, per errore oppure volutamente. Bisogna valutare bene le statistiche che vengono presentate da chi ha tutto l’interesse a farlo per vendere un prodotto.

La correlazione

La correlazione

La correlazione è una relazione tra due variabili statistiche, con cui si può calcolare un valore numerico chiamato coefficiente di correlazione. Se due variabili hanno una correlazione alta, significa che ad una corrisponde con una certa regolarità l’altra.

La correlazione tra due vettori X e Y si può calcolare con la formula:

ρXYσXY ∕ (σXσY)

Con R si usa il comando cor(x), dove x è una matrice che contiene i vettori X e Y.

Correlazione non implica causalità

Correlazione non implica causalità

Anche se due variabili sono correlate tra di loro, non significa che una sia la causa dell’altra. Un valore di correlazione altro non implica una relazione di causa-effetto. Molte teorie strampalate o vere e proprie bufale si basano su un’errata credenza di un’implicazione tra correlazione e causalità.

Le prossime slide mostrano alcuni esempi buffi tratti dal sito Spurious correlations. Come potete vedere, si possono mettere in correlazione anche fenomeni completamente estranei tra di loro. Questo tipo di grafici si può generare anche con R.

statistica_R-16

Spesa dedicata alla scienza, allo spazio e alla tecnologia — Suicidi per impiccagione, strangolamento e soffocamento

statistica_R-17

Consumo pro capite di formaggio — Numero di persone morte ingarbugliate nelle lenzuola

statistica_R-18

Tasso di divorzi nel Maine — Consumo pro capite di margarina

Statistiche interessanti e divertenti con R
2.0 MiB
140 Downloads
Dettagli