Clustering gerarchico fallito su 80 ETF: perché agglomerative clustering non bastava

Esploriamo come gli algoritmi di machine learning stanno rivoluzionando l'analisi dei portafogli finanziari attraverso il clustering intelligente.

Scritto da Flaminia Castrese

Clustering gerarchico fallito su 80 ETF: perché agglomerative clustering non bastava

Gestione Portafoglio

1 5 7

Gestisco un portfolio con 80 ETF diversificati per area geografica e asset class. Volevo usare il clustering gerarchico per identificare sottogruppi correlati e ridurre la ridondanza. Ogni ribilanciamento settimanale produceva dendrogrammi completamente diversi.

Il linkage method sbagliato distorceva tutto

Partivo con ward linkage che minimizza la varianza intra-cluster. Funziona bene con dati isotropici ma fallisce con correlazioni finanziarie che hanno forme allungate. Ho testato complete linkage che usa la distanza massima tra cluster e average linkage che calcola la media delle distanze. Complete linkage ha prodotto gruppi più stabili nel tempo.

Matrici di covarianza condizionale per stabilizzare i cluster

I rendimenti degli ETF mostrano eteroschedasticità: la volatilità cambia nel tempo. Ho implementato modelli GARCH con la libreria arch per stimare covarianze condizionali invece di usare covarianze storiche statiche. Questo ha ridotto drasticamente le variazioni settimana su settimana dei cluster identificati.

Validazione con Cophenetic Correlation Coefficient

Per capire se il dendrogramma rappresentava bene i dati originali ho calcolato il cophenetic correlation coefficient con scipy. Valori sopra 0.75 indicano buona fedeltà. Ward linkage produceva 0.62, complete linkage arrivava a 0.81. La differenza era misurabile anche nei backtest di portafogli costruiti sui cluster.

Strumenti pratici per implementare questa pipeline

Ho costruito tutto in Python con pandas per gestire i dati, scipy.cluster.hierarchy per il clustering, arch per i modelli GARCH, e matplotlib con seaborn per visualizzare dendrogrammi interattivi. Per automatizzare il ribilanciamento uso APScheduler che esegue l'analisi ogni domenica sera.

Come i dati trasformano le decisioni di investimento

L'analisi dei cluster nel portfolio management combina machine learning e statistica per identificare pattern nascosti tra asset correlati. Gli algoritmi K-means e hierarchical clustering permettono di segmentare migliaia di titoli in gruppi omogenei, riducendo la dimensionalità del problema e migliorando la diversificazione. Questo approccio aiuta fund manager e analisti quantitativi a costruire portafogli più robusti basati su comportamenti di mercato reali piuttosto che su correlazioni lineari tradizionali.

67%

Azioni tecnologiche

Obbligazioni corporate

Commodities

Liquidità

Approfondisci le tecniche quantitative

Scopri altri articoli su machine learning applicato alla finanza e strategie di portfolio optimization.

Leggi altri articoli

Clustering gerarchico fallito su 80 ETF: perché agglomerative clustering non bastava

Il linkage method sbagliato distorceva tutto

Matrici di covarianza condizionale per stabilizzare i cluster

Validazione con Cophenetic Correlation Coefficient

Strumenti pratici per implementare questa pipeline

Come i dati trasformano le decisioni di investimento

Approfondisci le tecniche quantitative

Preferenze Cookie

Cookie Necessari

Cookie Analitici

Cookie Pubblicitari

Cookie di Preferenza