Sull'Estremità del p-Value

Un test statistico è, essenzialmente, una procedura che viene costruita per verificare empiricamente se una data ipotesi, detta ipotesi nulla, è vera oppure falsa.In particolare, la procedura che viene costruita deve avere due probabilità principali:

Deve rifiutare l’ipotesi nulla con una probabilità massima pari ad un valore $\alpha$ scelto a priori, se l’ipotesi nulla è vera.
Se l’ipotesi nulla è falsa, le probabilità di rifiutarla devono essere $\geq\alpha$ .

La seconda proprietà, detta correttezza di un test statistico, nonostante sia poco conosciuta, è quella che dà ad un test statistico la proprietà, in un certo senso metafisica, di poter dirci qualcosa sulla realtà.

Per esempio, immaginate di star giocando con un vostro amico a poker, ed a un certo punto a lui escono 10 scale reali di fila. Un evento di una probabilità infima. Tuttavia, quando, sulla base di questa riflessione, glielo fate notare, lui risponde che ogni possibile mano di poker ha la stessa probabilità di venire estratta, e quindi che questa accusa si potrebbe fare di ogni mano.

Tradotto in termini statistici, il vostro amico starebbe sostenendo che sia impossibile costruire un test statistico per determinare se una persona stia barando a poker, e nonostante questo sia in un certo senso vero, è tuttavia possibile notare che è possibile costruire una procedura che rispetti le proprietà menzionate sopra. Infatti, è sufficiente calcolare le probabilità, data una mano di poker, di ottenere una mano della stessa “efficacia” o di efficacia superiore, il cosiddetto p-value.

Le probabilità di ottenere 5 scale reali sono talmente basse che il p-value in questione sarebbe al di sotto di qualsivoglia soglia di significatività ragionevolmente scelta, e questo dimostra come, nonostante sia vero che ogni mano di poker abbia la stessa possibilità di venire estratta, si è riusciti a costruire una procedura che permetta di comprendere se un giocatore sta barando – più o meno.

Ovviamente la attuale riflessione deve venir fatta al netto dell’inflazione dell’errore di prima specie, però si può tranquillamente sostenere che il p-value dell’esempio è talmente basso da reggere questa inflazione.

Questo pensiero ci fa capire che il p-value è un oggetto estremamente dipendente dal concetto di metrica. Infatti, nella definizione di p-value (“La probabilità di ottenere eventi più estremi o estremi quanto l’evento osservato”) non risulta chiaro “estremi” in che senso, e qui si vuole dare una risposta a questa domanda: estremi nel senso che permettano di massimizzare la potenza del test statistico così da poter rilevare il fenomeno di interesse.

Questo, inoltre, permette di capire come il p-value sia estremamente dipendente dall’esistenza di uno spazio che, se non metrico, permetta almeno la definizione di un ordinamento dei suoi elementi.

Infatti, qualcuno potrebbe sostenere che “l’estremità” del p-value è da intendersi come “probabilità di osservare eventi meno probabili o probabili quanto quello osservato” e, nonostante questa definizione risulti utile operativamente, in quanto permette sempre la costruzione di test corretti, non permetterebbe di risolvere l’esempio mostrato prima.

Nell’esempio di prima, infatti, ogni mano di poker ha in effetti le stesse probabilità di venire estratta, ma ciò nonostante è stato possibile costruire un test (che massimizzasse la potenza) in grado di permetterci di dedurre empiricamente se un giocatore sta barando per vincere.