Scikit-learn mi ha mostrato cluster inutili: cosa ho cambiato per vedere correlazioni reali

Esploriamo come gli algoritmi di machine learning stanno rivoluzionando l'analisi dei portafogli finanziari attraverso il clustering intelligente.

Scritto da Dario Venturini

Scikit-learn mi ha mostrato cluster inutili: cosa ho cambiato per vedere correlazioni reali

Analisi Tecnica

1 5 7

Avevo 47 titoli azionari nel mio portfolio e volevo capire quali si muovevano insieme durante le correzioni di mercato. K-means con scikit-learn continuava a raggruppare tutto per settore merceologico, risultato ovvio e inutile.

Il problema stava nel preprocessamento standard

Normalizzare i rendimenti con StandardScaler cancellava proprio le informazioni che cercavo. I titoli volatili venivano appiattiti e perdevo la capacità di identificare comportamenti anomali durante i ribassi. Ho sostituito StandardScaler con RobustScaler che ignora gli outlier e preserva le code della distribuzione.

La metrica euclidea non cattura le correlazioni dinamiche

Passare alla distanza basata su correlazione ha cambiato tutto. Ho usato scipy.spatial.distance con metrica correlation invece della distanza euclidea di default. Questo ha permesso di identificare titoli che si muovevano in sincronia indipendentemente dalla loro volatilità assoluta.

DBSCAN per trovare cluster variabili nel tempo

K-means forza sempre K cluster anche quando non esistono. DBSCAN identifica automaticamente gruppi densi e isola i punti anomali come rumore. Ho applicato DBSCAN su finestre mobili di 60 giorni per vedere come i cluster evolvevano. Parametri: eps tra 0.3 e 0.5, min_samples a 3.

Librerie che hanno fatto la differenza

Oltre a scikit-learn ho integrato tslearn per clustering di serie temporali con Dynamic Time Warping. Per validare i risultati uso silhouette_score e davies_bouldin_score. Per visualizzare i dendrogrammi delle correlazioni uso scipy.cluster.hierarchy che mostra chiaramente le gerarchie tra asset.

Come i dati trasformano le decisioni di investimento

L'analisi dei cluster nel portfolio management combina machine learning e statistica per identificare pattern nascosti tra asset correlati. Gli algoritmi K-means e hierarchical clustering permettono di segmentare migliaia di titoli in gruppi omogenei, riducendo la dimensionalità del problema e migliorando la diversificazione. Questo approccio aiuta fund manager e analisti quantitativi a costruire portafogli più robusti basati su comportamenti di mercato reali piuttosto che su correlazioni lineari tradizionali.

67%

Azioni tecnologiche

Obbligazioni corporate

Commodities

Liquidità

Approfondisci le tecniche quantitative

Scopri altri articoli su machine learning applicato alla finanza e strategie di portfolio optimization.

Leggi altri articoli

Scikit-learn mi ha mostrato cluster inutili: cosa ho cambiato per vedere correlazioni reali

Il problema stava nel preprocessamento standard

La metrica euclidea non cattura le correlazioni dinamiche

DBSCAN per trovare cluster variabili nel tempo

Librerie che hanno fatto la differenza

Come i dati trasformano le decisioni di investimento

Approfondisci le tecniche quantitative

Preferenze Cookie

Cookie Necessari

Cookie Analitici

Cookie Pubblicitari

Cookie di Preferenza