Seni, dati e … Polinomi

Articolo sexy ?
Certo che no, per “seno” intendo, ovviamente, la funzione trigonometrica. Volevo piuttosto parlare molto terra-terra di come una “messe” di dati sperimentali possa venire interpretata e trattata.
E di come quei dati, oggettivamente obiettivi, possano prestarsi a dar ragione alle più diverse ipotesi.
Studiando e misurando un fenomeno possiamo, a grandi linee, pensare che ci siano due casi :
Ho ipotizzato in qualche modo una regola che governa il fenomeno e voglio verificare se i dati la confermano
Non ho idee teoriche ma voglio cercare di “prevedere” ed analizzare il comportamento del sistema

Cominciamo ?
Prendiamo un caso semplice semplice… La legge puo’ essere schematizzata con una bella retta.
Quindi prendo i miei dati , li piazzo su un grafico cartesiano e vedo se ci passa una retta ….. dati grazzi
Troppo facile ?
Direi di si, e per vari motivi. Intando, essendo dati sperimentali, ben difficilmente saranno perfettamente allineati e quindi avremo una miriade di retta, una per ciascuna coppia di punti presenti sul grafico….
Allora come facciamo ? Be, possiamo utulizzare ( e si utilizzano, nella realtà) parecchi metodi … da quello grafico della “retta di massima e minima pendenza” ,  dove si cerca, proprio con la riga, di tracciare le due rette a massima pendenza e a minima pendenza che “becchino” almeno due punti, facendo poi la media dei coefficenti angolari e degli “offset” (termine costante) , come mostro nella figura a fianco, fino a metodi via via più raffinati dove si cerca, con calcolo numerico, la retta che va a minimizzare le distanze dai vari punti (conosciuto com emetodo dei “minimi quadrati” , perchè in effetti e’ più efficente minimizzare il quadrato della distanza…)  .

Fin qui niente di strano. Ma i dati sperimentali hanno anche delle altre particolarità.

Hanno l’errore.

Occorre dunque immaginare che, attorno ad ogni punto sia presente “un’area di incertezza” , dovuta agli errori di misura,  a quelli di elaborazione dei dati, al fatto che i dati sono una media e quindi ne rappresento la dispersione, al fatto che i dati sono stati misurati in epoche diverse, con diversi metodi etc.  L’area potrebbe avere le forme piu’ strane ma in generale si tende ad evidenziare l’errore sull’asse verticale (le Y)…Cioe’, furbescamente, si mette come asse verticale (o si elaborano i dati in modo che sia) quello dove si ha l’errore piu’ evidente.
I metodi per ritrovere la nostra retta sono abbastanza simili ai precedenti… solo che si dovrà tener conto del fatto che i punti che hannop un errore “piccolo” dovranno essere i più vicini alla curva (Eh si… anche le rette sono “curve”) . Come vedete dal grafico, pur essendo i dati esattamente gli stessi delle immagini precedenti, l’interpretazione e’ molto diversa. I tre punti con il piccolo errore condizionano le rette di massima e minima pendenza facendole  allontanare dalla maggior parte degli altri “punti” (tra virgolette perche’ intesi come “punto senza errore”) . Eppure le rette più  “attendibili” sono quelle.

Da questo deriviamo un primo insegnamento…

Un grafico senza barre di errore… e’ quantomeno sospetto…

Poi esistono dei metodi di analisi dati che permettono di valutare la bontà di una ipotesi :  io ricordo il cosiddetto metodo del chi quadro (chi sarebbe  la lettera greca, non il pronome….) ma penso che ne esistano altri…. Alla fine del “test”  si ha un responso sull’ipotesi : “non rappresenta i dati” , “puo’ rappresentare i dati più o meno bene ” , rappresenta i dati in modo” sopspettosamente buono”…

SOSPETTOSAMENTE BUONO : qui entriamo nella seconda parte dell’articolo….

Infatti se ho una quantità finita di dati (e per essere unamanamente comprensibili i dati saranno sempre “finiti”) posso inventare una quantità di metodi per “fittarli”. Ad esempio e’ possibile usare dei polinomi :  Un polinomio (ricordo dalle scuole medie) e’ una funzione rappresentata da una serie di potenze crescenti ….  a+bx+ cx^2+dx^3 ….. ecc.   Dato un numero N di dati un polinomio di ordine N-1 li “fitta” perfettamente . E fin qui non c’e’ nulla di strano.

Se andiamo un po’ piu’ avanti nella teoria matematica possiamo introdurre le cosiddette “serie di Taylor” : E’ sempre possibile approssiamre una qualunque funzione nei “dintorni” di un determianto punto con una opportuna serie di polinomi. L’errore che si commette nell’approssimazione e’ riducibile a piacere “allungando” la serie di polinomi (Al limite l’errore si annulla se la serie diventa infinita) …. Nella figura : una sinusoide approssimata nello zero con polinomi di ordine crescente (Da Wikipedia) )

E qui vi metto  una pulce nell’orecchio.  Se consideriamo le due affermazioni, possiamo vedere che con un minimo di malafede e’ possibile “far sembrare vera”  una ipotesi qualsiasi (be, quasi…)  “calibrando” bene il numero di polinomi con cui si sviluppa la serie….E’ chiaro che solo gli addetti ai lavori potranno avere sospetti …. E solo con test approfonditi potranno “smentire” le conclusioni…. E lo so perchè …. Mi e’ capitato di doverlo fare… Per ordini “superiori”… (Che vergogna)

Per concludere, Visto che ho citato le serie di Taylor, volevo accennarvi anche alle “serie di Fourier” . Chi pasticcia con le misure di segnali periodici le conosce bene .  Un segnale periodico e’ approssimabile con una opportuna somma di componenti “sinusoidali” di frequenza multipla (chiamate “armoniche”) . Il metodo e’ potentissimo. Tramite un opportuno algoritmo e’ possibile “estrarre” dai dati le “frequanze fondamentali”  e le varie armoniche che lo compongono.  Pero’… Anche in questo caso si possono prendere “abbagli” legati al cosiddettto “aliasing” e che un malfidato come me vede sempre come possibili metodi per ….  … … Diciamo … … … Imbrogliare….

Ma forse ne parlerò in un altro articolo

Luca Nitopi

.

30 pensieri su “Seni, dati e … Polinomi

  1. Spero, da un canto di non essere stato troppo banale, nè, dall’altro, di non avervi tediato troppo…
    Sull’argomento ci sono volumi e volumi di teoria ed altrettanti volumi di pratica 8) … E io non li ho letti 8)

    Ciao
    Luca

      (Quote)  (Reply)

  2. Luca, complimenti…l’articolo l’hai posto in maniera chiara anche per uno zuccone di matematica e fisica come me…

    l’insegnamento che ne deduco, è che con tutte queste funzioni matematiche, se si vuole (e hai ammesso di averlo fatto anche te) si può imbrogliare….

    allora nn so perchè, ma i miei pensieri vanno alla banda bassotti dell’Ipcc e company… 🙂

    Simon

      (Quote)  (Reply)

  3. @nitopi

    Ciao, bell’articolo. Un pò di sane basi non guastano mai.

    Però ho un dubbio: mi sono perso come fittando dei dati presi dalle misurazioni si possa barare. E’ chiaro che facendo diventare “bello” un grafico si induca erroneamente la “perfezione della misura” in chi guarda il grafico, è l’arte del vendere.

    Ciao e grazie

      (Quote)  (Reply)

  4. @nitopi
    Bene, complimenti per l’articolo: adesso attendo la prosecuzione che hai promesso :-). Applicherei questi concetti (che poi sono il presupposto per spiegare il fenomeno dell’over-fitting) ai modelli GCM e alle procedure di V&V utilizzate.

      (Quote)  (Reply)

  5. Molto interessante,trovo che un po di articoli sul trattamento e manipoplazione dei dati non possano che fare del bene. In particolare sarebbe interessante avere un po di nozioni sui metodi utilizzati per creare modelli previsionali.
    Io ci aggiungerei anche la “manipolazione” a livello di impatto visivo dei grafici cambiandone la scala e accentuando le variazioni che interessano ( ex aaumento di CO2) e appiattendo quelle che non fanno comodo. Oltre al fatto di far credere non correlate curve che in realtà lo sono o viceversa.
    Vorrei poi aggiungere un commento “critico” alla tua introduzione:
    “Studiando e misurando un fenomeno possiamo, a grandi linee, pensare che ci siano due casi ”
    in realtà c’è un terzo caso, quello della SEMPLICE OSSERVAZIONE, in questo caso dal grafico con i punti semi allimeati potrà passare una sola “curva” (non retta) che conginuge tutti i punti. Chiaramente l’equazione di questa curva sarà non lineare e più complessa della retta e probabilmente non potrà essere usata per fare previsioni matemaicamente parametrizzate, ma servirà a descrivere con esattezza il fenomeno in se. Questo è un punto fondamentale nell’approccio metodologico di uno studio, aproccio descrittivo ( quello tipico delle scienze naturali e della geologia, pima dell avvento della crociata AGW) e approccio matematico modellistico ( si dice cosi? ora non ricordo) tipico delle scienze “esatte” come la matematica, la fisica o delle non scienze come l’economia

      (Quote)  (Reply)

  6. @fano
    Il “baro” puo’ agire in tanti modi…. es, estrapolando i polinomi oltre l’ultimo punto… rapidamente perdono di significato….. ma si puo’ cercare il polinomio “di grado giusto” per andare a confermare la tua ipotesi 8) . Anche ritoccando e “barando” sulle barre di errore (che difficilmente i profani controllano…) si puo’ ottenere … qullo che si vuole ( o quasi)

    @agrimensore g
    Per colpa dell’aliasing ho passato giorni a grattarmi la zucca per capire il perche’ succedessero certe cose alle mie misure 8) … devo ancora capire come fare a rendere “digeribile” l’argomento….

    @giovanni geologo
    Tu mi dici… la spezzata…. tra due punti una retta….
    E’ il metodo “livello zero” che uso quando mi chiedono di poter tarare uno strumento “per punti”… Poi passo ai polinomi, quando il cliente vuole poter “produrre” la formula che usa per la taratura ( per loro e’ piu’ semplice, io mi devo costruire il polinomio con i punti… ma ammetto di non usare le barre di errore 8) )….

    Ciao
    Luca

      (Quote)  (Reply)

  7. spesso vale l’equazione matematica=latinorum…. vi ricordate vero di don Abbondio quando parla in latino per potersi imporre sui poveri cittadini

      (Quote)  (Reply)

  8. L’aliasing è il fenomeno per cui, i dati (temporalmente o spazialmente) sono troppo pochi per poter ricostruire un andamento continuo senza cadere in errori grossolani che invalidano il tutto.

    Per fare un esempio illustre: nei vecchi film potete a volte notare le ruote dei carri che girano nel verso sbagliato: non è il registra che si prende gioco di voi, ma i fotogrammi (campionature) sono troppo “pochi” per ricostruire il movimento in modo corretto, risultato si ricostruisce grossolanamente con degli errori pazzeschi (la ruota gira al contrario)

    Spero sia chiaro il fenomeno XD

    Esempio: http://www.youtube.com/watch?v=rVSh-au_9aM&feature=related

      (Quote)  (Reply)

  9. Bellissimo articolo come tutti quelli del sito. Vorrei fare un’osservazione per il punto dove parli di ” un’area di incertezza ” dovuti agli errori di misura; messa così sembra che l’incertezza di misura sia un errore mentre in effetti non lo è. L’incertezza, semplificando, altro non è che un parametro associato con il risultato di una misurazione che caratterizza la dispersione dei valori che potrebbero essere ragionevolmente attribuiti al misurando con un certo grado di confidenza. Mi piacerebbe, a questo proposito, sapere se qualcuno di voi è in grado di dirmi se è stata stimata l’incertezza di misura della strumentazione che rileva la temperatura del nostro pianeta.
    Grazie e complimenti a tutti

      (Quote)  (Reply)

  10. @Antares
    Se la memoria non mi inganna ci sono gli “errori massimi” e gli “errori statistici”
    L’errore massimo e’ quello dato dalla sensibilità dello strumento : ad es. se misuro un mobile con il metro a nastro non posso stimare sotto al mm e quindi la mia misura avrà una “barra di errore” di +- 0.5mm.

    L’errore statistico si ha quanto uso uno strumento “troppo sensibile” per le condizioni di misura (non e’ proprio cosi’ ma facciamo finta che…) e, ripetendo piu’ volte la stessa misura, trovo risultati diversi. Allora si fa la media di un bel numero di letture e si plotta il valor medio ed una barra di errore che e’ proporzionale alla varianza dei dati … (se ben ricordo e’ sigma su radice di N…)
    Ciao

    @Andrea B
    Ho scritto “forse” 8)
    Ciao
    Luca

      (Quote)  (Reply)

  11. Sicuramente l’onestà di chi misura e presenta i dati e’ fondamentale ed e’ alla base di tutto.
    Il problema e’ che oggi l’elaborazione dei dati grezzi “ci mette molto di suo” Soprattutto se si tratta di fenomeni molto complessi…..
    Ad es. c’e’ qualcuno che sa come venga calcolato il fantomatico valore tella “temperatura media” terrestre su cui si fanno tanti grafici????
    (e’ una domanda non retorica… io non lo so… e non sapendolo non mi fido 8) )

    Ciao
    Luca

      (Quote)  (Reply)

  12. http://www.molecularlab.it/news/view.asp?n=7046

    Questa ricerca è importante, in pratica hanno trovato un legame (40 milioni di anni fa) tra l’aumento della temperatura (Optimum climatico del Medio Eocene, MECO) con un forte aumento della concentrazione di CO2 in atmosfera (analizzando resti fossili).

    Ora, togliendo l’impronta in stile AGW che ha l’articolo (che sembra voler per forza dar ragione ad Al Gore) questa ricerca è molto importante, perché fa sorgere due domande fondamentali:

    1) Siamo sicuri che è la CO2 a far aumentare la temperatura e non viceversa? La ricerca non prova che la relazione causa effetto vada in quel verso, lo danno per scontato, la ricerca prova soltanto che c’è un collegamento. Se l’aumento della temperatura causasse l’aumento della CO2?

    2) 40 milioni di anni fa…. ragazzi… non credo ci fossero automobili, fabbriche e centrali a carbone… c’è ancora qualcuno che ha dubbi sul fatto che il clima fa quello che vuole? La domanda è quindi la seguente: cosa ha fatto aumentare la CO2 e la temperatura 40 milioni di anni fa????

      (Quote)  (Reply)

  13. O.T. super!
    è tornato il SOHO e c’è l’archivio anche dei giorni passati!
    mancano solo i dati dal 17 al 23 novembre compresi

      (Quote)  (Reply)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Immagine CAPTCHA

*

Aggiungi una immagine

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.