Continua la lista dei problemi più comunemente incontrati, nel continuo confronto quasi quotidiano con i colleghi in ambito formativo.

Dopo aver considerato nel post precedente (prima parte),

• Scarsa conoscenza e sottovalutazione della statistica descrittiva.
Scarsa familiarità con il concetto di statistica non parametrica
Confusione tra il concetto di deviazione standard e quello di errore standard

Vediamo altri comuni situazioni di difficoltà.

Utilizzo “allegro” dei test statistici, senza verifica del rispetto degli assunti di base (conditio sine qua non per poter eseguire i test): il test t di student ad esempio viene spesso applicato a campioni non distribuiti in modo gaussiano, o con varianze molto differenti (in questi casi sarebbe molto più appropriato il ricorso a test non parametrici, tipo Mann-Whitney, test della mediana, ecc); il test chi quadrato viene calcolato pur in presenza di piccoli valori, tali per cui le frequenze attese sono inferiori alla classica soglia di 5. In una rara malattia 25 pazienti sono stati trattati con un nuovo farmaco, e di questi 19 (76%) sono migliorati. Soltanto 6 soggetti hanno accettato di far parte del gruppo di controllo, e di questi 2 sono migliorati (33%). Al di là del probabile bias di selezione, volendo limitarsi agli aspetti statistici, un test chi quadrato con 1 grado di libertà mostrerebbe una superiorità del trattamento (p<0,05). Ma in questo caso, verificata la violazione degli assunti di base (numeri troppo piccoli) il ricorso al più appropriato test esatto di Fisher mostrerebbe che le due frequenze non differiscono statisticamente tra loro (p=0,067).

Uso sconsiderato dei vari test su dati non appaiati, quando l’utilizzo corretto sarebbe il test per dati appaiati. Capita spesso di leggere esempi come il seguente, che pare illuminante in proposito. 5 pazienti affetti da emicrania si sono sottoposti a uno studio crossover, durante il quale hanno sperimentato sia il farmaco A che il farmaco B. I risultati, espressi come miglioramento percentuale dell’emicrania valutato su una scala visuale analogica, sono i seguenti:

Soggetto 1: 9,5 (farmaco A) 25 (farmaco B)
Soggetto 2: 11 (farmaco A) 20,1 (farmaco B)
Soggetto 3: 12 (farmaco A) 18 (farmaco B)
Soggetto 4: 14,2 (farmaco A) 15,5 (farmaco B)
Soggetto 5: 18 (farmaco A) 17 (farmaco B)

L’errore che spesso si fa è l’esecuzione di un test t per confrontare le medie dei due campioni. In questo caso la media dei punteggi ottenuti con il farmaco A vale 12,94 (DS 3,30), con il farmaco B 19,12 (DS 3,69) e il test t con 8 gradi di libertà porta a un valore di p pari a 0,023 (p<0,05).

Il test corretto invece è quello eseguito sulla media delle differenze, per rifiutare l’ipotesi nulla che tale media sia pari a zero).
Queste differenze (B – A) sono pari a 15,5; 9,1; 6,0; 1,3; -1,0

Il test t (con soli 4 gradi di libertà!) porta a una p > 0,10

(continua)