Alla situazione della
Celeberrima Mole, di cui al post citato, si aggiunge quella della venus del
Partenone, (nono)stante la miglior forbice resti ancora nella regione che diede i natali al
Sommo Poeta. Restiamo a vedere se gli
SHAP values esposti per le sfere L1s delle venus TORINO e NAPOLI sapranno esprimere opportunamente il valore della loro informata inferenza...
Vedi l'allegato 2311338
continua
Ritorniamo sugli SHAP values,
visto che la sfera T29 e' sortita a colpo (cfr. post 5077 e 5078) per chiarire che cio' NON significa, ASSOLUTAMENTE, che le future ipotesi si riprodurranno allo stesso modo in ogni prossima occasione.
Con cio' premesso, I metodi SHAP, come noto agli addetti ai lavori, sono algoritmi che
prendono misure sottostanti della
sensibilita' delle caratteristiche e stimano una ragionevole decomposizione additiva da Statistiche di perturbazione NON additive; facendo attenzione alle situazioni che potrebbero includere la valutazione di modelli mai addestrati prima per le quali e' sempre consigliabile adottare set di input
randomizzati sulle distribuzioni empiriche marginali.
In poche e semplici parole, ho sostituito il modello con "previsione attesa", con tutti i rivoli degli afferenti contributi. E se i contributi di una data caratteristica sono alti (valori assoluti) per molti campioni allora essa e' da ritenere importante. Come esposto, sinteticamente, nei casi in specie esposti sopra, le sfere T28, T29 per la venus TORINO (indicazioni in magenta) e N40, N71 per la venus NAPOLI (indicazioni in arancione).
I valori SHAP sono un modo intelligente per calcolare i contributi delle varie statistiche quantitative raccolte e pesate. Tuttavia, se qualcuno (un laico non addentrato nella Scienza dei dati) obiettasse sul merito dell'affermazione
che piu' e' alto il valore della variabile piu' e' probabile che questa variabile preveda una certa classe in qualche maniera avrebbe ragione, poiche' non e' questo il significato assoluto di cui si e' qui a discettare. Si tratta invece di ottenere (ogni volta) un'Inferenza Spiegabile, Informata, Consapevole e ...Riproducibile. In parole molto semplici, e' questo un modo (arbitrario ma non tanto...) per rendere comprensibili i modelli "Black Box" implementati.
p.s. Le formulazioni di importanza delle caratteristiche secondo la teoria dei giochi sono diventate popolari come modo per "spiegare" i modelli ML (Machine Learning). Questi metodi definiscono un
gioco cooperativo tra le caratteristiche di un modello e distribuiscono l'influenza tra questi elementi di input utilizzando una qualche forma dei valori unici di Shapley del gioco. La giustificazione di questi metodi si basa su due pilastri:
le loro proprietà matematiche desiderabili e la loro applicabilità a motivazioni specifiche per le spiegazioni.
Qui si sta tentando di mostrare che i problemi matematici sorgono quando i valori di Shapley vengono utilizzati per l'importanza delle caratteristiche, e che le soluzioni per mitigarli inducono necessariamente ulteriori complessità , come la necessità di ragionamento causale.
Attingendo allo scopo alle varie letterature disponibili sull'argomento per definire al meglio il valore di Shapley, si producono diversi modi sperimentali applicati al problema
dell'importanza delle caratteristiche rilevate e desunte. E' di questo che si tratta...