ciao lotto_tom75, se posso darti un consiglio, un AI per fare previsioni deve darti un vantaggio sostanziale che non è nella quantità ma nella qualità, il lotto non è solo un gioco ma qualcosa di più poi dipende con quali occhi lo si guarda, se vuoi la qualità devi andare più in profondità, quando si afferma che non ci si può basare solo sul ritardo e la frequenza Spectrum dice una sacrosanta verità il motivo e ovvio, sono due parametri dismogenei, volubili, discontinui, mutevoli nel tempo in poche parole non sono due costanti affermare il contrario equivale a dire che l'acqua e l'aria hanno la stessa densità, significa che un AI non troverà mai pattern in questi due parametri è inevitabilmente andrà in overfitting, non troverà punti di ancoraggio perche mutano sempre nel tempo, se vuoi fare il salto di paradigma ha bisogno di costanti valori solidi che non mutano nel tempo e inevitabilmente troverà punti di ancoraggio, in un mining di 2000 estrazioni comincerà a mappare il caos e li che risiedono i pattern non nei semplici numeri, a lei paradossalmente se ne frega se il numero 8 ha frequenza 15 e il 76 non esce da 100 estrazioni a lei interessa sapere se quella costante in 2000 estrazioni quante volte è stata efficiente indipendentemente dai numeri associati a quella costante, significa che se quella costante è stata mappata 300 volte in 2000 estrazioni e 200 volte ha avuto un efficienza positiva quello è un dato credibile è di qualità.
Scusatemi se mi intrometto nella discussione, ma provo a portare un punto di vista un po’ più analitico e metodologico, senza alcuna polemica.
Il punto centrale è questo: dire che “in 2000 estrazioni si mappa il caos e lì risiedono i pattern” non è di per sé una scoperta, è una proprietà generale di qualunque sequenza casuale sufficientemente lunga.
Un algoritmo di mining troverà sempre pattern, anche in dati generati da un RNG perfetto. Questo però non significa che quei pattern contengano informazione predittiva.
La cosiddetta “costante” di cui parli, in realtà, non è una costante del processo di estrazione, ma una funzione costruita a posteriori sui dati storici. Cambiano i dati, cambia la distribuzione e cambia l’efficienza apparente.
Quindi non stiamo parlando di un punto di ancoraggio stabile, ma di una trasformazione del passato.
Quando dici:
“300 occorrenze, 200 efficienti = dato credibile”
qui manca il passaggio fondamentale che la statistica richiede sempre:
rispetto a cosa?
Senza confrontare quel 200/300 con:
una strategia casuale equivalente
un modello nullo (baseline)
un test out-of-sample
quel numero non misura qualità, misura solo adattamento ai dati osservati.
È esattamente lo stesso meccanismo per cui frequenze, ritardi o qualunque altra metrica “sembra funzionare” se la guardiamo solo a posteriori.
In altre parole: non è vero che l’AI “se ne frega dei numeri”.
I numeri sono l’unica informazione reale del processo. Tutto il resto (costanti, mapping, efficienze) sono rappresentazioni derivate, utili per descrivere il passato, ma matematicamente equivalenti dal punto di vista predittivo agli altri approcci se non superano una verifica indipendente.
Il vero discrimine non è la profondità del linguaggio o del modello, ma una sola domanda molto semplice:
su dati nuovi, non visti, questo metodo batte il caso in modo stabile?
Se la risposta non è dimostrabile numericamente, allora il modello, per quanto sofisticato, non fa nulla di diverso dagli altri: riorganizza il passato in modo più elegante.
Detto questo, il lavoro di analisi e di costruzione resta interessante come esercizio di studio e di esplorazione dei dati, ed è sempre positivo confrontarsi su approcci diversi.
Mattia73