statistica

Il cappello dell’Ispettore Clouseau e la temperatura

Patrizia Favaron Un giallo molto oscuro Vero, che gli somiglia? Voglio dire, il grafico con l’istogramma delle temperature, e il cappello dell’Ispettore Clouseau, l’investigatore più sconclusionato e fortunato della serie “La Pantera Rosa”. Ma perché dovrebbe essere proprio così? Insomma: un istogramma bimodale, cioè con due picchi. Accade davvero? È una cosa “normale”? Ebbene sì: provate a prendere una serie temporale lunga un numero intero di anni di dati di temperatura, e vedrete molto spesso degli istogrammi a Cappello di Clouseau. Dunque sì: in termini statistici possiamo dire che sì, è cosa quantomeno frequente. Una spiegazione matematica Che cosa può indicare un istogramma “a Cappello di Clouseau”? I picchi indicano i valori della serie storica delle misure in corrispondenza dei quali questa “passa più tempo”. I valori più bassi, invece, sono quelli nei quali la serie “passa meno tempo”. Ma cosa vuol die “passa più tempo”, o “meno tempo”? Per dare una definizione un po’ più precisa conviene che pensiamo ad una funzione derivabile con continuità almeno una volta. I valori meno rappresentati nell’istogramma saranno quelli che la funzione “percorre”, al variare della sua variabile indipendente, con la pendenza più alta. Cioè, con il valore assoluto della sua derivata prima maggiore. I valori più rappresentati, invece, saranno quelli in corrispondenza dei quali la derivata prima assume valore assoluto vicino a zero. Insomma: una cosa così, più o meno: Volendo, potremmo persino tentare di quantificare: Così, integrando… Ma perché, santa pigrizia, privarvi del piacere della scoperta? 😇 E a me? Importa, importa. Come strumentista meteorologica, importa. Prendiamo ancora il caso della temperatura. E facciamo che questa si possa esprimere come sovrapposizione (somma algebrica) di due oscillazioni, una stagionale, ed una giornaliera. Tutte e due di ampiezza costante. Se questa fantastica variazione ideale si verificasse per davvero, il suo grafico nel dominio del tempo avrebbe questo aspetto: (La spessa banda scura, perché le oscillazioni giornaliere avvengono ad una scala talmente più breve di quella stagionale, che il loro salire e scendere non si riesce nemmeno più a vedere.) E adesso, l’istogramma dei suoi valori: Non vi ricorda qualcosa? Insomma, proprio un Cappello di Clouseau no: ai valori estremi (qui -4 e +4) cade bruscamente a zero. Però, una certa rassomiglianza possiamo già vederla. In Natura, però, l’escursione giornaliera della temperatura mica resta costante: mostrerà delle variazioni di giorno in giorno. Per simulare questo effetto, ipotizziamo che l’ampiezza delle oscillazioni giornaliere varii nel corso della stagione. Magari così. E questo l’istogramma corrispondente: I due bordi laterali adesso sono molto meno “alti”! Siamo sulla buona strada: le falde del Cappello di Clouseau sono dovute alle variazioni giornaliere, che cambiano continuamente. Uso, in meteorologia Quanto abbiamo appena veduto ci dice quale potrebbe essere l’uso degli istogrammi dei valori misurati di temperatura: la forma a Cappello di Clouseau ci mostra l’aderenza dell’andamento delle misure ad un modello concettuale in cui si sovrappongono una variazione stagionale più o meno periodica ad una giornaliera. E se la forma dell’istogramma è molto diversa da quella “a Cappello di Clouseau”? Be’, allora in quel caso, magari in quel singolo anno, è accaduto qualcosa. Magari il termometro non andava benissimo. Oppure le temperature hanno mostrato davvero un andamento poco rappresentabile con il modello a due oscillazioni. Oppure… Certamente, qualcosa di strano si è verificato, tale da meritare un supplemento di indagine. E se invece della temperatura prendiamo un’altra grandezza meteorologica? Che forma avrà l’istogramma delle misure? Lascio lì, in sospeso, la risposta: come invito ad esplorare!

Il cappello dell’Ispettore Clouseau e la temperatura Leggi tutto »

La media di un pollo grande e di uno piccolo è... Dilemmi esistenziali statistici!

Appunti di statistica meteorologica: medie e dintorni

Patrizia Favaron Introduzione “Media”. Cosa c’è, di più semplice? Ed infatti è cosa semplice: basta prendere i numeri che ci interessano, sommarli tra loro, e dividere per quanti erano. Basta una calcolatrice. Sino a che i numeri sono, diciamo, una decina. Da dieci a cento, un foglio Excel comincia a non fare schifo. Oltre i cento… 🙄 In questo articolo vedremo come si può calcolare una media-monstre di 263089 misure di velocità del vento (quel numero lì di misure, e non un altro, perché vogliamo calcolare la media complessiva delle velocità mediate su 10 minuti). Quanto ai dati, sono le velocità del vento raccolte dalla stazione meteorologica ARPA Lombardia di Bormio Eliporto nel periodo dal 01. 01. 2020 al 01. 01. 2025, per un totale di 5 anni complessivi: non abbastanza per fare della climatologia, ma più che sufficienti per indicarci qualche domanda e, se possibile, ottenere delle risposte. I dati – intanto Acci. Duecentosessantatremilaottantanove numeri… Mica pochi. E tutti corredati da una “marca temporale”, che indica quando sono stati raccolti. Tempo, più dati, uguale “serie temporale”: una raccolta di misure, più o meno lunga, che in linea di principio ci può permettere di capire qualcosa (se c’è qualcosa da capire) sull’andamento del vento a Bormio. Serie temporali come questa sono oggetti concettualmente diversi dagli insiemi di dati che capita spesso di dover comprendere a colpi di statistica. Per vederlo, consideriamo un insieme di dati più “normale”, come ad esempio le lunghezze dei lingotti di acciaio che arrivano al laminatoio. In teoria queste lunghezze dovrebbero essere tutte esattamente uguali, ma nella realtà tra le misure dell’una e dell’altra qualche differenza c’è sempre – o potrebbe esserci. In questo caso, se desideriamo quantificare la produzione giornaliera di lamiera dovremo conoscere qualcosa delle lunghezze (ed anche altezze, spessori, pesi, presenza o no di bolle e cricche, …) dei lingotti che entrano nel processo. E per farlo, uno dei modi migliori è di calcolare la media aritmetica delle lunghezze (altezze, spessori, pesi, …) e, per ogni lingotto, lo scostamento in più od in meno rispetto alle medie. Così, tanto per farsi un’idea: lingotto piccolo, o grande? Pieno di fratture che magari denotano una qualità del materiale sotto standard? E via così. In un certo senso, però, ogni lingotto è un caso a sé. E tutti sono stati prodotti da uno stesso processo, con effetti sperabilmente identici. Ho detto “lingotti”, ma avrei potuto parlare di risultati di misure di un esperimento di laboratorio, o di tempo passato dalle persone in un supermercato, oppure di prezzo di esemplari diversi di uno stesso bene. O di un’infinità di altre cose. Nel caso, la media ci da un’idea piuttosto precisa di cosa potremmo aspettarci, arrivassero nuovi esemplari dell’oggetto, o della misura. E la media del valore assoluto, o del quadrato, degli scostamenti ci direbbe quanto sono “dispersi” i dati. Ma qui siamo in una situazione molto diversa: ogni dato, etichettato da un tempo, è sì diverso dagli altri, ma in un certo senso di più. In una serie temporale, i valori misurati non sono necessariamente il risultato di misure tra loro indipendenti: nel caso delle velocità del vento, per esempio, se in corrispondenza di una certa marca temporale abbiamo una lettura di, facciamo finta, 10 m/s allora sarebbe piuttosto sorprendente scoprire che il dato immediatamente successivo è di 1 m/s o 50 m/s: è molto più facile che troviamo un valore non troppo distante da 10 m/s. Più facile, certo, e non “sicuro”: comunque, siamo di fronte ad un fenomeno caratterizzato da un certo grado di variabilità interna, ed incertezza, ma anche da una qualche struttura di dipendenza tra un valore e quelli che lo seguono nel tempo. Di più: le serie temporali sono, spesso, la manifestazione visibile di processi fisici ben precisi, che in qualche modo ci interessano. Poi, la natura di questo interesse può essere la più varia: scientifica, oppure economica (che so, quanta energia sarebbe estraibile dal vento se piazzassimo una turbina eolica a fianco della stazione), oppure, perché no, di semplice curiosità personale. Anche questo conta, e lo vedremo: ma viene dopo le misure, ed il processo che si nasconde dietro ad esse. Comunque, il fatto che una serie temporale non sia la stessa cosa di un insieme di misure di laboratorio non vuol dire che sui suoi valori non possiamo determinare la media, ed altri indicatori statistici. Popolazione, e campioni Supponiamo, così, di voler determinare il valor medio di tutte le misure che abbiamo a disposizione. Questo insieme, l’insieme su cui desideriamo compiere qualche affermazione “forte” basata sui dati, sarà la nostra popolazione. I dati li ho scaricati dal sito di ARPA Lombardia e, almeno nominalmente, ci sono tutti. Potrei caricarli dentro Excel, e fare tutto lì. Ma personalmente preferisco usare il programma statistico “R”, che da alcuni vantaggi: Se non lo conosci, ti invito a prenderne visione, e magari scaricarlo dal sito ufficiale e provare a usarlo, con l’aiuto di uno dei tanti bellissimi tutorial che si trovano in rete. Se già non conosci “R” questa esplorazione potrebbe comportare un certo sforzo da parte tua. Ma, assicuro, ne vale la pena. Prima di calcolare medie e quant’altro, però, dobbiamo leggere i dati. In R, disponendo dei dati (che puoi scaricare qui – dopo averli scaricati, per poterli adoperare questi vanno “decompressi”), la lettura ed altre operazioni si fanno usando dei “comandi”, cioè delle righe di testo con le istruzioni per il calcolatore, che una volta scritte si possono fare eseguire premendo il tasto “Invio”. Nel caso, per leggere i dati (che ho sistemato in un file di nome “Vel.csv”) il comando da usare è d <- read.csv(“Vel.csv”) Il senso di questo comando è di leggere i dati in formato CSV ( read(“Vel.csv”) ), e riversare il contenuto nella “variabile” ‘d’. A comando eseguito, ‘d’ conterrà tutti i dati presenti nel file. Una volta che i dati sono finiti in ‘d’, possiamo farci tutto quello che vogliamo. Per esempio, con l’altro comando names(d) farci dire come si chiamano le colonne della

Appunti di statistica meteorologica: medie e dintorni Leggi tutto »