Capitolo 4 - Numerosità Campionaria

Un altro aspetto da considerare nella valutazione di una pubblicazione scientifica è il dimensionamento campionario (sample size): l’articolo riporta come è stata calcolata la dimensione del campione? Il dimensionamento effettuato è corretto?

Di seguito potete esaminare quanto specificato nell’articolo di riferimento di Tandon et al.
 

Il calcolo della dimensione campionaria è un aspetto estremamente critico nella pianificazione di uno studio clinico, che può determinarne il successo o il fallimento.
Infatti, se uno studio dovesse arruolare in ultimo troppo pochi soggetti si correrebbe il rischio di non riuscire ad ottenere risultati significativi riguardo al trattamento/intervento in studio, fallendo quindi l’obiettivo dello studio con un risultato impropriamente negativo. Viceversa, l’arruolamento di troppi soggetti, ove non necessario, non solo esporrebbe inutilmente delle persone in più ad un trattamento potenzialmente meno vantaggioso (problema dal punto di vista etico), ma comporterebbe anche uno spreco di risorse preziose ed un ritardo nella raccolta dei dati e, di conseguenza, nell’ottenimento dei risultati dello studio.

Cosa si intende con dimensionamento campionario? 
La dimensione del campione è il numero di individui che devono essere inclusi in uno studio clinico per essere in grado di rilevare un effetto clinicamente rilevante (cioè un risultato del trattamento che generalmente i medici esperti nel campo identificherebbero come importante).

Un rigoroso calcolo del campione deve tenere in considerazione diversi aspetti:

1)    Qual è l’obiettivo primario dello studio? È uno studio di superiorità, di non-inferiorità, o di equivalenza?

Studio di Superiorità

L’obiettivo di uno studio clinico di superiorità è quello di dimostrare che un trattamento sperimentale sia più efficace (appunto superiore) del trattamento di controllo di un determinato valore Δ.

Δ è la minima differenza che desideriamo osservare per poter affermare che il nuovo trattamento è più efficace del controllo, ed è definita quindi come differenza clinicamente significativa (valori più piccoli non sono clinicamente rilevanti).

In uno studio di superiorità si definisce il seguente test di ipotesi:

  • Ipotesi nulla (H0): non c’è differenza tra i due trattamenti in studio
  • Ipotesi alternativa (H1): il trattamento sperimentale è migliore del trattamento di controllo

Con il supporto dei dati dello studio i ricercatori vogliono confutare l’ipotesi nulla: rifiutare H0 significherebbe quindi concludere che il trattamento in studio è superiore al controllo (ovvero rifiutare che non c’è differenza tra i due trattamenti).
 

Studio di Non-Inferiorità

L’obiettivo di uno studio clinico di non-inferiorità è quello di dimostrare che un trattamento sperimentale non è inferiore al trattamento di controllo di un determinato valore - Δ (margine di non inferiorità).
Δ è la massima differenza che siamo disposti ad accettare per affermare che il nuovo trattamento non è inferiore al controllo, ed è definita quindi come differenza clinicamente non significativa (valori più grandi sono clinicamente rilevanti).

In uno studio di non-inferiorità si definisce il seguente test di ipotesi:
•    Ipotesi nulla (H0): l’efficacia del nuovo trattamento è inferiore a quella del controllo
•    Ipotesi alternativa (H1): l’efficacia del nuovo trattamento non è sostanzialmente peggiore di quella del controllo

Con il supporto dei dati dello studio gli sperimentatori vogliono confutare l’ipotesi nulla: rifiutare H0 significherebbe quindi concludere che il trattamento in studio non è inferiore al controllo. Se l’intervallo di confidenza (IC) della differenza osservata, oltre ad essere al di sopra di - Δ,  è anche interamente al di sopra dello 0 (o all’1 in caso di rapporti), si può concludere che il nuovo trattamento non solo è non-inferiore ma è addirittura superiore al trattamento di controllo (per dettagli sul concetto di IC si veda la sezione “Analisi statistiche & Interpretazione dei risultati” del quaderno).
 

Studio di Equivalenza

L’obiettivo di uno studio clinico di equivalenza è quello di dimostrare che un trattamento sperimentale non è né inferiore né superiore al trattamento di controllo di un determinato valore ± Δ (range di equivalenza).
Δ è la massima differenza che siamo disposti ad accettare per affermare che il nuovo trattamento ed il controllo sono uguali, ed è definita quindi come differenza clinicamente non significativa (valori più grandi sono clinicamente rilevanti).

In uno studio di equivalenza si definisce il seguente test di ipotesi:
•    Ipotesi nulla (H0): l’efficacia dei due trattamenti è diversa
•    Ipotesi alternativa (H1): i due trattamenti sono equivalenti

Con il supporto dei dati dello studio i ricercatori vogliono confutare l’ipotesi nulla: rifiutare H0 significherebbe quindi concludere che i due trattamenti in studio sono equivalenti. 
 

Studi di bioequivalenza: la maggior parte degli studi con un obiettivo di equivalenza sono studi di bioequivalenza, ovvero studi clinici il cui scopo è quello di confrontare un farmaco generico con il medicinale di riferimento in commercio in modo da dimostrarne la bioequivalenza, ossia l’esser caratterizzati da un profilo di farmacocinetica paragonabile, tramite confronto della biodisponibilità dei due medicinali, ovvero della quantità di medicinale che passa nella circolazione sanguigna dopo somministrazione, in relazione alla velocità con cui questo avviene. Il margine di equivalenza può essere definito come il valore per il quale il paziente non rileverà alcun cambiamento di effetto quando sostituisce un farmaco con l'altro. 

Tornando all’articolo di riferimento di Tandon et al., questo illustra uno studio di superiorità, in quanto l’obiettivo dello studio è quello di verificare se un intervento sullo stile di vita può prevenire il deterioramento dello stato glicemico nelle donne con una recente diagnosi di diabete gestazionale rispetto alla normale pratica clinica.

2)    Qual è la variabile primaria?
Come brevemente accennato nel paragrafo precedente, l’obiettivo primario è misurato/quantificato da una variabile primaria. A seconda della scala di misurazione della variabile primaria viene utilizzata una diversa formula per il calcolo della dimensione campionaria.

È necessario specificare “a priori” la variabile primaria:
•    Risposta qualitativa:     

  • variabile dicotomica (ad es. successo/insuccesso) → più semplice da capire e più rilevante clinicamente
  • variabile ordinale (più categorie di risposta, ad es. lieve/moderato/severo)

•    Risposta quantitativa:

  • variabile continua (ad es. Pressione Arteriosa (PA), Volume Espiratorio Massimo nel 1º Secondo (VEMS)) → più efficiente (richiede meno soggetti) ed evita cut-off arbitrari

•    Tempo fino all’evento (morte/recidiva):     

  • ‘cosiddetti’ dati di sopravvivenza (ad es. Overall Survival (OS), Progression-Free Survival (PFS))

Nell’articolo di riferimento che stiamo analizzando, la variabile primaria dello studio considerata per il calcolo del sample size è il peggioramento dello stato glicemico (variabile dicotomica): il dimensionamento si è basato su un test χ2 che confrontava le proporzioni a 24 mesi (13% vs 20%). 

3)    Qual è la variabilità della variabile primaria?
Un elemento presente nel calcolo della dimensione del campione è la variabilità della variabile primaria, spesso identificata con la deviazione standard. Questa è una misura della dispersione dei dati in una popolazione specifica. Può essere ottenuta esaminando la letteratura pubblicata o a partire da studi pilota, anche se quest’ultima opzione non è sempre percorribile. Qualora non fosse possibile ricavare la variabilità/dispersione dei risultati, è necessario ipotizzare una stima e ricorrere a simulazioni. 

Ovviamente, dovendo specificare delle assunzioni “a priori”, ci sono forti margini di incertezza riguardo ai valori ipotizzati che dovranno poi essere controllati a fine studio sulla base dei dati realmente osservati. 

Maggiore è la variabilità della variabile primaria, maggiore sarà la dimensione del campione richiesta per lo studio.

Nell’articolo di riferimento di Tandon et al., la variabile primaria dello studio considerata per il calcolo del sample size è il peggioramento dello stato glicemico: essendo una variabile dicotomica non è stata (correttamente) considerata la deviazione standard.

4)    Qual è la minima differenza fra trattamenti clinicamente significativa?
L’elemento più critico, ma anche maggiormente rilevante, nel dimensionamento campionario consiste nel quantificare/ipotizzare l’effetto che ci si attende con il nuovo trattamento sperimentale rispetto all’effetto atteso con il trattamento di controllo.

Questo si traduce nel definire la minima differenza tra trattamenti considerata clinicamente significativa, ovvero la più piccola differenza tra trattamenti considerata clinicamente rilevante nella gestione dei pazienti, oppure la differenza che gli sperimentatori dello studio considerano essere sia biologicamente plausibile sia rilevante da un punto di vista clinico.

La stima di tale differenza tra i due trattamenti in studio può derivare da studi precedenti: per il trattamento sperimentale da studi pilota o dossier registrativi, per il trattamento di controllo da precedenti studi a confronto con placebo (sostanza inerte o trattamento medico senza alcuna proprietà terapeutica) o anche da meta-analisi pubblicate. 

Maggiore è l'effetto di un trattamento sperimentale rispetto ad un trattamento di controllo (cioè, maggiore è la differenza negli esiti dei trattamenti da dimostrare), minore sarà il numero di soggetti necessari per dimostrare tale effetto. Viceversa, più piccolo è l'effetto (ma comunque clinicamente rilevante), maggiore sarà la dimensione del campione richiesta per dimostrare tale differenza. Per questo motivo, gli studi in cui il gruppo di controllo è costituito dal placebo richiedono in genere meno pazienti di quelli in cui il gruppo di controllo è un trattamento attivo, poiché ci si aspetta una differenza maggiore di un farmaco sperimentale vs. placebo (in quanto l’effetto in questo gruppo dovrebbe essere nullo).

Analogamente alla stima della variabilità della variabile primaria, anche per la stima della differenza attesa tra trattamenti (minima differenza clinicamente significativa) esistono dei margini d’incertezza dovendola definire “a priori”.

Nell’articolo di Tandon et al., a questo proposito, è stata ipotizzata una riduzione relativa del 35% del peggioramento dello stato glicemico, assumendo un'incidenza cumulativa del 20% nel gruppo di controllo. Questo si traduce in un'incidenza cumulativa del 13% nel gruppo sperimentale.

5)    Quale rischio di errore siamo disposti a correre nel valutare tale differenza?

Errore di Tipo I (alpha)
L’errore di Tipo I (α), denominato anche livello di significatività, misura la probabilità di rifiutare l'ipotesi nulla quando in realtà questa è vera (ovvero di concludere che la differenza tra due trattamenti è statisticamente significativa quando non lo è). In altre parole, l’errore di Tipo I si riferisce ai risultati falsi positivi. 
Solitamente il livello α è prefissato a 0,05 (o 0,01), il che significa che è tollerabile avere una probabilità del 5% (o 1%) di rifiutare erroneamente l'ipotesi nulla. Minore è l'errore alfa, quindi più bassa è la probabilità di concludere erroneamente, maggiore sarà la dimensione del campione richiesta.

Errore di Tipo II (beta)
L’errore di Tipo II (β) misura la probabilità di accettare l'ipotesi nulla quando in realtà questa è falsa (ovvero di concludere che non c’è differenza tra due trattamenti, o quest’ultima è pari a 0, quando in realtà i due trattamenti sono differenti). In altre parole, l’errore di Tipo II si riferisce ai risultati falsi negativi. 
Solitamente il livello β è prefissato a 0,20 (o 0,10), il che significa che è tollerabile avere una probabilità del 20% (o 10%) di ottenere un falso negativo. 

Potenza
La potenza è il complemento a uno dell’errore di Tipo II (ovvero 1-β) e rappresenta la probabilità desiderata di osservare la differenza attesa tra due trattamenti, se vera, al livello di significatività α (cioè la probabilità di rifiutare correttamente l'ipotesi nulla quando è falsa).
Solitamente la potenza è prefissata pari all’80% (o 90%), il che significa che la probabilità di rifiutare correttamente un'ipotesi nulla è almeno dell'80% (o 90%). Maggiore è la potenza, maggiore sarà la dimensione del campione richiesta.

Tipo I (α) < Tipo II (β): se il controllo è già ampiamente utilizzato ed è noto per essere ragionevolmente sicuro ed efficace, mentre il trattamento sperimentale è nuovo, costoso e potrebbe produrre gravi effetti collaterali.

Tipo I (α) > Tipo II (β): se non esiste un trattamento di controllo comprovato e il trattamento sperimentale è relativamente poco costoso, facile da usare e non è noto per avere effetti collaterali gravi.

Tipo I (α) = Tipo II (β): se entrambi i trattamenti (sperimentale e di controllo) sono nuovi, circa uguali in termini di costi, e ci sono buone ragioni per considerarli entrambi relativamente sicuri.

Nell’articolo di Tandon et al. in esame, l’errore di Tipo I per lo studio in oggetto era stato fissato al 5% e l’errore di Tipo II al 10% (ovvero una potenza del 90%). Durante lo studio gli autori hanno deciso di modificare l’analisi primaria (analisi statistica dell’endpoint primario) per problemi legati al tempo di arruolamento, pertanto hanno ricalcolato la potenza del test usato per l’analisi principale con il numero di soggetti effettivamente arruolati nello studio, concludendo di avere una potenza pari all’80%.

6)    Qual è la percentuale attesa di drop-out?
Un ultimo elemento da tenere in considerazione per la stima della dimensione campionaria è la percentuale attesa di drop-out. Non bisogna dimenticare infatti che il numero che si ottiene dal calcolo della dimensione del campione rappresenta il numero necessario di soggetti validi per l’analisi primaria, e non dei soggetti che iniziano lo studio. Pertanto, la numerosità campionaria deve essere aggiustata per la percentuale attesa di drop-out, ovvero per la percentuale di soggetti che ci si attende che non arrivino a completare lo studio (per diversi motivi).

Nell’articolo in esame, è stato ipotizzato un 20% di dati mancanti per l’analisi primaria: pertanto il numero totale di pazienti da arruolare deve tenere conto di questa percentuale di drop-out in modo tale da avere, a fine studio, il numero sufficiente di pazienti da analizzare per l’endpoint primario. Per fare questo bisogna applicare la formula di Freedman: 1414 è dato quindi da 1131 / 0.8, ovvero da (100*1131) / (100-20) dove 1131 sono i pazienti ottenuti dal calcolo del sample size e 20 è la percentuale attesa di dati mancanti a fine studio. 

Tips - Per poter valutare in modo critico una pubblicazione scientifica originale, è opportuno quindi porsi le seguenti domande:
  • È stato riportato in modo dettagliato il calcolo della dimensione campionaria?
  • Il numero di soggetti analizzabili per l’analisi primaria è coerente con quanto originariamente pianificato?
  • È stata specificata la percentuale attesa di drop-out?