Capitolo 6 - Analisi statistiche e interpretazione dei risultati

Una parte di fondamentale rilevanza all’interno della sezione dei metodi di interpretazione di un articolo scientifico originale è sicuramente quella dedicata all’analisi dei dati, ovvero alle analisi statistiche effettuate sul campione di dati raccolto.
In questa sezione sarebbe opportuno che vi fossero descritte tutte le metodologie statistiche utilizzate, a partire dalle statistiche descrittive fino alla enunciazione dei test statistici e dei modelli inferenziali. Bisognerebbe inoltre ritrovare nel testo indicazioni in merito al software utilizzato per le analisi e alla scelta del livello di significatività, che deve essere coerente con le assunzioni considerate per il dimensionamento campionario. 

Di seguito potete esaminare quanto specificato in merito nell’articolo di Tandon et al. in esame:

Quali sono le differenze tra statistica descrittiva e statistica inferenziale?
La statistica descrittiva è una branca della statistica che permette la sintesi dei dati attraverso indici più o meno complessi: 

  • nel caso di variabili qualitative si parla di distribuzione di frequenza che fornisce il numero assoluto (solitamente indicato con ‘N’) e relativo (solitamente indicato con ‘%’) degli individui che possiedono una determinata caratteristica; 
  • nel caso di variabili quantitative si parla di indici di tendenza centrale (o di posizione) e di variabilità (o di dispersione).

 Indici di tendenza centrale (o di posizione)

  • Media aritmetica: è il rapporto tra la somma dei valori ottenuti e il numero delle osservazioni.
  • Media geometrica: è la radice ennesima del prodotto degli n dati (o l’esponenziale della media aritmetica dei logaritmi).
  • Moda: è il valore più frequente di una distribuzione.
  • Mediana: è il valore centrale di una distribuzione, detta anche 50esimo percentile (p50) poiché il 50% dei dati ordinati sta al di sotto della mediana e il 50% al di sopra.

 Se il numero delle osservazioni è dispari, il valore della mediana coincide con il valore del dato alla posizione centrale ovvero (n+1)/2.
 Se il numero delle osservazioni è pari, viene assunto come valore la media aritmetica dei 2 valori centrali, ovvero il dato alla posizione   n/2 e il dato alla posizione (n+2)/2.

 

 Indici di variabilità (o di dispersione)

  • Deviazione standard (SD): è la radice della sommatoria degli scarti quadratici di ogni osservazione dalla media. SD piccole indicano che i valori della variabile sono concentrati intorno alla media e quindi che la sua distribuzione è omogenea e poco dispersa.
  • Range o Intervallo di Variazione (IV): è la distanza fra il valore massimo e il valore minimo della distribuzione (max-min).
  • Range Inter-Quartile (IQR): è la differenza tra il 75esimo percentile e il 25esimo percentile (p75-p25) e rappresenta l’ampiezza della fascia di valori che contiene la metà centrale dei valori osservati.
  • Coefficiente di variazione (CV%): è il rapporto tra la SD e la media aritmetica moltiplicato per 100.

Nella sezione dei risultati di un articolo scientifico, generalmente si trova, nella parte iniziale, l’applicazione delle statistiche descrittive, soprattutto al fine di fornire una panoramica delle caratteristiche demografiche e mediche della popolazione in studio.

Di seguito, a titolo esemplificativo, quanto riportato nell’articolo di Tandon et al.:
 

La statistica inferenziale invece è una branca della statistica che permette di dedurre le proprietà della popolazione generale analizzando le proprietà di un campione di dati (tratto da questa tramite lo studio clinico) utilizzando la teoria della probabilità. 
La statistica inferenziale si basa sul concetto di test di ipotesi o verifica d’ipotesi; i ricercatori, infatti, testano delle ipotesi di interesse per capire se gli esiti dello studio clinico stanno fornendo o meno supporto ad esse.
La verifica d’ipotesi è generalmente formalizzata tramite un’ipotesi nulla, chiamata H0, che rappresenta il fallimento dell’esperimento (assenza di efficacia di un trattamento, assenza di differenza tra gruppi, ecc.), che quindi si desidera rifiutare, ed un’ipotesi alternativa, chiamata H1, che, al contrario, si vuole accettare in quanto rappresenta il successo dell’esperimento.
I test statistici sono delle procedure probabilistiche che permettono di trarre conclusioni circa l’ipotesi nulla analizzando i dati numerici a disposizione raccolti durante lo studio clinico.
Queste procedure di calcolo forniscono un numero, una statistica test, che aiuta a decidere se rifiutare o meno l’ipotesi nulla. 
Considerando che l’ipotesi nulla può essere vera o falsa nella popolazione di riferimento e che i risultati provengono da un campione della popolazione di riferimento, il rifiuto/non rifiuto di H0 nell’esperimento porta alla definizione di 4 possibili scenari a cui generalmente si assegna una probabilità:
 

Dove:

  • il livello di significatività α (o valore critico) rappresenta la probabilità che l’analisi produca risultati statisticamente significativi (rifiutando H0) quando in realtà è vera l’ipotesi nulla 
  • β rappresenta la probabilità che l’analisi produca risultati statisticamente non significativi (accettando H0) quando in realtà è falsa l’ipotesi nulla.

Naturalmente, queste due quantità, α e β, dovrebbero entrambe avere valori il più possibile bassi. Generalmente queste sono fissate rispettivamente al 5% e al 20%.
Negli articoli scientifici, per valutare la significatività di un test statistico, oltre alle quattro probabilità appena descritte, si è soliti calcolare anche il p-value. Il p-value è definito come la probabilità che la statistica test considerata assuma un valore più “estremo” (ovvero molto lontano rispetto a quelli coerenti con H0) rispetto a quello osservato.

Fissando il livello di significatività al 5%, 

  • un p-value < 0.05 porta al rifiuto dell’ipotesi nulla 
  • un p-value ≥ 0.05 porta al non rifiuto dell’ipotesi nulla.

Un altro strumento che accompagna i risultati di uno studio clinico e che viene utilizzato per valutare l’affidabilità di una stima puntuale ottenuta sul campione in studio è l’intervallo di confidenza, anch’esso basato sul livello di significatività α.
L’intervallo di confidenza quantifica l’incertezza e la precisione della stima e rappresenta il range di valori entro il quale possiamo essere sicuri che, ad un determinato valore 1- α (ad es. 95% o 99%), si trovi il vero valore del parametro stimato.

Per poter interpretare correttamente i risultati di una pubblicazione scientifica originale, la prima domanda da porsi riguarda la natura della variabile che gli autori hanno analizzato (qualitativa, continua, tempo all’evento). Successivamente, è necessario capire se il test statistico utilizzato è adeguato, data la natura della variabile, e qual è l’ipotesi nulla testata. Una volta identificati e valutati questi aspetti, si tratterà ‘solo’ di leggere il valore di p-value e/o di interpretare l’intervallo di confidenza.
Di seguito sono presentati alcuni esempi, con specifico riferimento alla tipologia delle variabili analizzate.

VARIABILI QUALITATIVE
In presenza di variabili qualitative, è molto frequente che gli articoli scientifici riportino le cosiddette misure di associazione (si veda l’approfondimento); i test statistici maggiormente utilizzati per questo tipo di variabili sono la differenza tra proporzioni, il test del Chi-Quadrato, gli Odds Ratio (OR), il Rischio Relativo (RR) ed il modello logistico. 
Le ipotesi nulle di questi test riguardano generalmente l’uguaglianza di frequenze, l’assenza di associazione, l’uguaglianza dei rischi nelle popolazioni confrontate.
Ad esempio, volendo verificare l’effetto di un trattamento sperimentale sulla prevenzione di un evento cardiovascolare, si è in presenza di due variabili qualitative: trattamento sì/no ed evento sì/no.
Considerando il rapporto tra proporzioni (come per esempio l’OR o il RR), l’ipotesi nulla testata è che le due proporzioni siano uguali (H0: p1 / p0 = 1); di conseguenza, un p-value < 0.05 porterà a rifiutare l’ipotesi nulla e concludere quindi che le due proporzioni sono statisticamente differenti. 
Considerando invece la lettura della significatività del test statistico dal punto di vista dell’intervallo di confidenza, si rifiuterà l’ipotesi nulla se l’intervallo di confidenza non include il valore 1. Numericamente parlando, infatti, l’ipotesi nulla è vera solo quando il numeratore è “uguale” al denominatore e quindi il rapporto tra essi è circa uguale ad 1.
 

VARIABILI QUANTITATIVE
In presenza di variabili quantitative, i test statistici maggiormente utilizzati sono la differenza tra medie, il t-test, ed il modello ANOVA o ANCOVA. 
Le ipotesi nulle di questi test riguardano generalmente l’uguaglianza tra le medie della variabile di interesse delle popolazioni a confronto. 
 

La eTable4 (materiali supplementari) dello studio di Tandon et al. riassume una serie di risultati utilizzati per valutare gli effetti dell’intervento sugli esiti addizionali dello studio. 
Facendo riferimento alla quartultima riga della tabella, si osserva che la variabile analizzata è il ‘Change in total protein intake’ (variazione nell’assunzione totale di proteine). È stato stimato quindi un delta tra l’assunzione totale di proteine (total protein intake) determinata a fine studio e quella di inizio studio in ciascun braccio di trattamento: la stima della media delle differenze nel gruppo di intervento sperimentale è -10 (Standard Error (SE)=3) grammi/giorno, mentre nel gruppo trattato con la terapia standard la stima della differenza dell’assunzione totale di proteine media è di -8 (SE=3) grammi/giorno. Si tratta quindi di una variabile continua, per la quale si vuole valutare se il cambiamento verificatosi nel tempo è diverso nei due gruppi in studio. Come si legge nella nota in calce, è stato applicato un modello lineare misto; la sua ipotesi nulla è che i cambiamenti medi nei due gruppi siano ‘uguali’. Un p-value di 0.03 porta al rifiuto di H0 e, pertanto, è possibile affermare che il trattamento abbia un effetto differente sula variazione nell’assunzione totale di proteine nel tempo.
Considerando invece la lettura della significatività del test statistico dal punto di vista dell’intervallo di confidenza, poiché l’ipotesi nulla è l’uguaglianza delle medie, si avrà che la differenza tra due medie è statisticamente significativa se l’intervallo di confidenza non include il valore 0. Nell’esempio considerato, l’intervallo di confidenza al 95% della differenza media tra i delta di assunzione totale di proteine tra i due gruppi di trattamento è -4.6;-0.3; non includendo il valore 0, la stima della differenza media, pari a -2.4 grammi/giorno, risulta statisticamente significativa.



 

VARIABILI TEMPO ALL’EVENTO
In presenza di variabili tempo all’evento, i test statistici maggiormente utilizzati sono la curva di Kaplan-Meier, il Log-rank test e il modello di rischio proporzionale di Cox.
Le ipotesi nulle di questi test riguardano generalmente l’uguaglianza di rischi istantanei tra le popolazioni confrontate. 
 

La Figura 3 dello studio di Tandon et al. in esame mostra una curva di Kaplan-Meier e la stima di un Hazard Ratio (HR) con relativi intervalli di confidenza e p-value.
Leggendo le etichette degli assi del grafico, si può osservare che è stato studiato il cambiamento nella classe glicemica (change in glycemic category) dei pazienti in relazione al tempo (mesi di osservazione; follow-up, month). La rappresentazione grafica mostra le curve di sopravvivenza nel gruppo di controllo, in giallo, e nel gruppo di trattamento, in grigio. Dal momento che l’evento in studio è il cambiamento di classe glicemica, i ‘gradini’ della curva rappresentano il passaggio di classe dei pazienti. Dal grafico è possibile dedurre i tempi mediani di cambiamento di classe glicemica nei due gruppi di trattamento: è sufficiente tracciare una linea orizzontale partendo dal 50% di probabilità dell’asse delle y e poi tracciare delle linee verticali quando questa linea incrocia le curve dei due gruppi; in questo modo, all’incrocio delle linee verticali con l’asse delle x, si potranno leggere le stime delle mediane dei tempi di cambiamento nei due gruppi. Nel caso studiato, si osserva una stima del tempo di cambiamento di classe glicemica pari a circa 25 mesi nel gruppo dei controlli e di circa 27 mesi nel gruppo di intervento sperimentale.
L’HR, pur essendo molto correlato alla curva di Kaplan-Meier, è stimato da un modello di Cox che studia il rapporto dei rischi del verificarsi di un evento in funzione del tempo di osservazione nei gruppi. L’ipotesi nulla alla base del modello di Cox è che il rischio del verificarsi dell’evento sia ‘uguale’ nei gruppi confrontati. Un p-value di 0.42 porta all’accettazione di H0 e, pertanto, non è possibile affermare che il trattamento abbia un effetto differente nei due gruppi sul rischio di cambio di classe glicemica in funzione del tempo.
Considerando invece la lettura della significatività del test statistico dal punto di vista dell’intervallo di confidenza, poiché l’ipotesi nulla è l’uguaglianza dei rischi, si rifiuterà l’ipotesi nulla se l’intervallo di confidenza non include il valore 1. Nell’esempio considerato, l’intervallo di confidenza al 95% dell’HR è 0.76-1.12; includendo il valore 1, l’HR non è statisticamente significativo.

Tips - Per poter valutare in modo critico una pubblicazione scientifica originale, è opportuno quindi porsi le seguenti domande:
  • Quale analisi statistica è stata utilizzata?
  • Le stime puntuali sono state riportate insieme ai p-value o agli Intervalli di Confidenza?