Concludiamo la lista dei problemi più comunemente incontrati, nel continuo confronto quasi quotidiano con i colleghi in ambito formativo.

Nelle “puntate precedenti”:
• Scarsa conoscenza e sottovalutazione della statistica descrittiva.
• Scarsa familiarità con il concetto di statistica non parametrica
Confusione tra il concetto di deviazione standard e quello di errore standard.
Utilizzo “allegro” dei test statistici
Uso sconsiderato dei vari test

Oggi ci occupiamo di…

Troppa fiducia nei risultati “positivi”, legati a un basso valore di p. Meglio gli intervalli di confidenza. E’ ben diverso leggere che “la terapia ha ridotto l’incidenza di ricadute cliniche del 10% (p<0,05)” piuttosto che “la terapia ha ridotto l’incidenza di ricadute cliniche del 10% (IC 95% da 1% a 17%)”. Nel secondo caso il lettore può giudicare direttamente l’insieme dei valori compatibili con i risultati ottenuti, e dunque riflettere sulla rilevanza clinica degli estremi dell’intervallo

Frettolosa archiviazione dei risultati “negativi”. “L’adozione della nuova tecnica operatoria ha ridotto il tasso di complicanze infettive del 25 per cento (RRR= riduzione relativa del rischio pari a 0,25, IC 95% da -0,09 a 0,43)”. In un esempio come questo non è raro leggere nelle conclusioni “la nuova tecnica non presenta vantaggi statisticamente significativi rispetto alla tecnica standard”. Sarebbe più corretto commentare “con il numero di pazienti arruolati lo studio non ha potuto dimostrare la significatività della differenza osservata tra le due tecniche; uno studio con maggiore numerosità e dunque maggiore potenza potrebbe forse chiarire la reale entità di tale differenza”.

• Eccessiva attenzione alla presentazione dei risultati in termini relativi piuttosto che assoluti, o in termini assoluti piuttosto che relativi. Due esempi possono essere illuminanti.

Primo esempio: con una statina somministrata in prevenzione secondaria (dunque in pazienti con alle spalle un evento cardiovascolare maggiore), si è verificata una mortalità in 5 anni dell’8 per cento; mentre nei pazienti trattati con placebo la mortalità è stata pari al 12 per cento. La riduzione relativa del rischio è del 33 per cento circa. Va tuttavia notato come la riduzione assoluta del rischio (la differenza tra 12% e 8%) sia pari a 4%, e il numero di pazienti da trattare per evitare un evento (NNT) sia di 25.
Secondo esempio: dalla revisione della letteratura sullo screening mammografico, si afferma che ogni 2000 donne screenate regolarmente per 10 anni, una sola avrà la vita prolungata grazie allo screening. Al di là della considerazione che per ogni milione di donne in età da screening mammografico, si eviterebbero grazie allo screening 500 morti per Ca mammario, resta anche il fatto che lo screening opera una riduzione del rischio di morte per tale patologia del 15 per cento circa, il che non è comunque cosa di poco conto. La corretta interpretazione dei risultati non può dunque trascurare ne’ l’approccio assoluto (quanti casi?) ne’ quello relativo (quale incremento o riduzione percentuale?).

• Infine (ma l’elenco potrebbe continuare), l’utilizzo sconsiderato di confronti multipli. Non è raro trovare, in taluni lavori, decine di confronti e dunque di test statistici. E’ chiaro che in questo caso la possibilità di un falso positivo (in pratica di giudicare significativa una differenza che in realtà non lo è) è molto superiore alla soglia prefissata del 5%. Con 20 confronti indipendenti, la probabilità di un falso positivo è del 64% circa.

Certamente non si potrà continuare a insegnare la statistica e l’epidemiologia clinica come le ennesime nozioni sovrapposte alle mille e mille nozioni che affollano (o affossano) la mente dei medici. Ma piuttosto va privilegiato il metodo rispetto alle tecniche, partendo dai problemi di ogni giorno e trovando quanto esse possano dare di più e di diverso sulla risoluzione o sull’inquadramento dei problemi: un modo differente di affrontare i quesiti che ogni paziente pone; un supporto alle decisioni cliniche; un tentativo di mitigare o di controllare l’incertezza.

Da questo punto di vista, vi sono concetti di base, disprezzati da chi si pavoneggia con la statistica “sophisticated”. Questi concetti sono, come detto, la distinzione tra variabili qualitative, ordinali, quantitative; il concetto di media, mediana, quantili, deviazione standard; le basi dell’inferenza; gli elementi per leggere criticamente metodi e risultati degli studi. In poche parole, l’umile statistica descrittiva o poco più. Molte riviste snobbano queste basi, e molti ricercatori si lanciano in ardite inferenze, in applicazioni di test statistici spesso in mancanza delle condizioni necessarie a tale applicazione, o talvolta in analisi multivariate con modelli inadeguati, magari presentando stime “adjusted” per 20 o 30 variabili, in presenza di quantità esigue di soggetti, con intervalli di confidenza delle stime impresentabili.

La vita è breve, l’arte è lunga, l’occasione fuggevole, l’esperimento pericoloso, il giudizio difficile (Ippocrate).