La media di un pollo grande e di uno piccolo è... Dilemmi esistenziali statistici!

Appunti di statistica meteorologica: medie e dintorni

Patrizia Favaron Introduzione “Media”. Cosa c’è, di più semplice? Ed infatti è cosa semplice: basta prendere i numeri che ci interessano, sommarli tra loro, e dividere per quanti erano. Basta una calcolatrice. Sino a che i numeri sono, diciamo, una decina. Da dieci a cento, un foglio Excel comincia a non fare schifo. Oltre i cento… 🙄 In questo articolo vedremo come si può calcolare una media-monstre di 263089 misure di velocità del vento (quel numero lì di misure, e non un altro, perché vogliamo calcolare la media complessiva delle velocità mediate su 10 minuti). Quanto ai dati, sono le velocità del vento raccolte dalla stazione meteorologica ARPA Lombardia di Bormio Eliporto nel periodo dal 01. 01. 2020 al 01. 01. 2025, per un totale di 5 anni complessivi: non abbastanza per fare della climatologia, ma più che sufficienti per indicarci qualche domanda e, se possibile, ottenere delle risposte. I dati – intanto Acci. Duecentosessantatremilaottantanove numeri… Mica pochi. E tutti corredati da una “marca temporale”, che indica quando sono stati raccolti. Tempo, più dati, uguale “serie temporale”: una raccolta di misure, più o meno lunga, che in linea di principio ci può permettere di capire qualcosa (se c’è qualcosa da capire) sull’andamento del vento a Bormio. Serie temporali come questa sono oggetti concettualmente diversi dagli insiemi di dati che capita spesso di dover comprendere a colpi di statistica. Per vederlo, consideriamo un insieme di dati più “normale”, come ad esempio le lunghezze dei lingotti di acciaio che arrivano al laminatoio. In teoria queste lunghezze dovrebbero essere tutte esattamente uguali, ma nella realtà tra le misure dell’una e dell’altra qualche differenza c’è sempre – o potrebbe esserci. In questo caso, se desideriamo quantificare la produzione giornaliera di lamiera dovremo conoscere qualcosa delle lunghezze (ed anche altezze, spessori, pesi, presenza o no di bolle e cricche, …) dei lingotti che entrano nel processo. E per farlo, uno dei modi migliori è di calcolare la media aritmetica delle lunghezze (altezze, spessori, pesi, …) e, per ogni lingotto, lo scostamento in più od in meno rispetto alle medie. Così, tanto per farsi un’idea: lingotto piccolo, o grande? Pieno di fratture che magari denotano una qualità del materiale sotto standard? E via così. In un certo senso, però, ogni lingotto è un caso a sé. E tutti sono stati prodotti da uno stesso processo, con effetti sperabilmente identici. Ho detto “lingotti”, ma avrei potuto parlare di risultati di misure di un esperimento di laboratorio, o di tempo passato dalle persone in un supermercato, oppure di prezzo di esemplari diversi di uno stesso bene. O di un’infinità di altre cose. Nel caso, la media ci da un’idea piuttosto precisa di cosa potremmo aspettarci, arrivassero nuovi esemplari dell’oggetto, o della misura. E la media del valore assoluto, o del quadrato, degli scostamenti ci direbbe quanto sono “dispersi” i dati. Ma qui siamo in una situazione molto diversa: ogni dato, etichettato da un tempo, è sì diverso dagli altri, ma in un certo senso di più. In una serie temporale, i valori misurati non sono necessariamente il risultato di misure tra loro indipendenti: nel caso delle velocità del vento, per esempio, se in corrispondenza di una certa marca temporale abbiamo una lettura di, facciamo finta, 10 m/s allora sarebbe piuttosto sorprendente scoprire che il dato immediatamente successivo è di 1 m/s o 50 m/s: è molto più facile che troviamo un valore non troppo distante da 10 m/s. Più facile, certo, e non “sicuro”: comunque, siamo di fronte ad un fenomeno caratterizzato da un certo grado di variabilità interna, ed incertezza, ma anche da una qualche struttura di dipendenza tra un valore e quelli che lo seguono nel tempo. Di più: le serie temporali sono, spesso, la manifestazione visibile di processi fisici ben precisi, che in qualche modo ci interessano. Poi, la natura di questo interesse può essere la più varia: scientifica, oppure economica (che so, quanta energia sarebbe estraibile dal vento se piazzassimo una turbina eolica a fianco della stazione), oppure, perché no, di semplice curiosità personale. Anche questo conta, e lo vedremo: ma viene dopo le misure, ed il processo che si nasconde dietro ad esse. Comunque, il fatto che una serie temporale non sia la stessa cosa di un insieme di misure di laboratorio non vuol dire che sui suoi valori non possiamo determinare la media, ed altri indicatori statistici. Popolazione, e campioni Supponiamo, così, di voler determinare il valor medio di tutte le misure che abbiamo a disposizione. Questo insieme, l’insieme su cui desideriamo compiere qualche affermazione “forte” basata sui dati, sarà la nostra popolazione. I dati li ho scaricati dal sito di ARPA Lombardia e, almeno nominalmente, ci sono tutti. Potrei caricarli dentro Excel, e fare tutto lì. Ma personalmente preferisco usare il programma statistico “R”, che da alcuni vantaggi: Se non lo conosci, ti invito a prenderne visione, e magari scaricarlo dal sito ufficiale e provare a usarlo, con l’aiuto di uno dei tanti bellissimi tutorial che si trovano in rete. Se già non conosci “R” questa esplorazione potrebbe comportare un certo sforzo da parte tua. Ma, assicuro, ne vale la pena. Prima di calcolare medie e quant’altro, però, dobbiamo leggere i dati. In R, disponendo dei dati (che puoi scaricare qui – dopo averli scaricati, per poterli adoperare questi vanno “decompressi”), la lettura ed altre operazioni si fanno usando dei “comandi”, cioè delle righe di testo con le istruzioni per il calcolatore, che una volta scritte si possono fare eseguire premendo il tasto “Invio”. Nel caso, per leggere i dati (che ho sistemato in un file di nome “Vel.csv”) il comando da usare è d <- read.csv(“Vel.csv”) Il senso di questo comando è di leggere i dati in formato CSV ( read(“Vel.csv”) ), e riversare il contenuto nella “variabile” ‘d’. A comando eseguito, ‘d’ conterrà tutti i dati presenti nel file. Una volta che i dati sono finiti in ‘d’, possiamo farci tutto quello che vogliamo. Per esempio, con l’altro comando names(d) farci dire come si chiamano le colonne della

Appunti di statistica meteorologica: medie e dintorni Leggi tutto »