Translate

sabato 13 giugno 2015

GLI ALGORITMI LEGGONO LE NEWS DI MERCATO? SI'. PT.2

Per la prima parte, clicca qui.
Nel post precedente abbiamo avuto modo di appurare se gli algos leggano o meno le news e la risposta è stata affermativa. E' importante comprendere come, in un contesto in cui la distribuzione delle informazioni risulti sempre meno concentrata tra un novero ristretto di agenzie di stampa e data vendors e sempre più disarticolata sugli infiniti nodi del web, lo screeening delle fonti alternative assuma un peso rilevante: l'abbiamo già visto di recente con i risultati aziendali di Twitter, in passato con Google, Genentech e tante altre aziende. Il problema da affrontare con riguardo alle news provenienti da canali alternativi è quello della credibilità, questione particolarmente rilevante laddove il flusso informativo afferisca alle penny stocks o alle micro-cap, tradizionalmente soggette a pratiche di “Pump and Dump”. Non che le large-caps ne siamo totalmente immuni: basterebbe ricordare il caso della Lucent Technologies, vittima nel 2000 di un vero e proprio “bombardamento” di notizie fake sul web, causa di una perdita di capitalizzazione di mercato valutata in 7 miliardi di dollari, in sole 24 ore. Il motivo? Dopo un Earnings Warning emesso dalla società in data 6 Gennaio, in data 22 Marzo un soggetto -poi individuato dalla SEC- disseminò sul web la falsa notizia che la società avesse pubblicato i risultati trimestrali, apparsi profondamente deludenti. Questo aneddoto, ci serve per introdurre il tema successivo inerente le tecniche di gestione computerizzata delle news. In origine, il sistema gestionale appariva abbastanza semplice in quanto ruotante su: categorizzazione e filtraggio; col tempo, la complessità è cresciuta. Il filtering delle news offerte da data vendors specializzati, dal 2000 in poi, ha abbracciato la strada del tagging, dei meta-data, dei codici di categoria, al fine di consentire alle strutture di trading di eseguire -con maggiore facilità- la scrematura informativa di cui necessitano per operare sui mercati, contenendo perdite di tempo e di risorse. Il filtering di quelle provenienti da circuiti non mainstream (siti, blogs, forum, social networks) è passato dal semplice screen scraping, all'utilizzo di tecniche molto più avanzate e complesse, riversate in software commerciali, in grado di sfruttare l'impiego dei meta-dati che, anche in questo settore, hanno imposto la loro utilità. Il raggruppamento delle notizie risultanti all'esito del filtraggio, viene poi realizzato o in maniera semplice evitando la duplicazione di informazioni sugli tessi eventi tramite l'uso di criteri selettivi elementari (tags), oppure in maniera più complessa tramite software che non applicano criteri selettivi singoli, ma processi interpretativi del contenuto, alla luce del fatto che ogni sorgente informativa può usare titoli differenti per il medesimo evento. Ogni news differisce negli effetti che produce; tuttavia, esistono relazioni implicite tra di esse, esprimenti effetti secondari e terziari in aggiunta all'impatto immediato. Ad esempio, le notizie macroeconomiche hanno un impatto immediato su fixed income e Forex, pur non mancando di influenzare il comparto azionario. Non diversamente, le bad news inerenti titoli di aziende leader, oltre ad impattare queste direttamente possono condizionare il prezzo delle azioni dei principali competitors o addirittura i valori dell'intero settore. Si rischia sempre di oscillare tra due estremi: notizie troppo particolari aventi ad oggetto una singola azienda, notizie troppo generiche riguardanti l'intero comparto. L'aspetto importante da considerare e difficile da attuare in pratica è quello del necessario equilibrio tra questi due insiemi informativi opposti per struttura e significatività; equilibrio raggiungibile tramite la creazione di modelli di dipendenza in grado di riflettere tutte le relazioni-chiave esistenti tra operatori. Un esempio di modello di dipendenza è quello che guarda alla supply chain di un prodotto: in un situazione del genere è altamente probabile che, i problemi riscontrati con il/i fornitore/i di un componente siano in grado di condizionare -in un senso piuttosto che in un altro- le relazione commerciali/produttive di tutti gli altri protagonisti del settore.

Ad oggi, la forma più comune di analisi delle informazioni è l'interpretazione del sentiment: una volta stabilito se una specifica news sia positiva o negativa, possiamo iniziare a stimarne l'impatto sul mercato. Il metodo più semplice è quello di cercare e contare alcune parole-chiave come “profitti”, “eccedono”, “previsioni”, “aumentando”. Chiaramente, questo modus operandi ha dei limiti, ben potendo parole “positive” essere inserite in una struttura morfo-sintattica negativa, quale può essere la proposizione “il debito sta aumentando”, “il debito è aumentato” ecc. Ad ogni modo, è opportuno provare a rispondere al seguente quesito: è possibile misurare -o per lo meno inferire, dedurre- il sentiment delle news? Sì e viene normalmente fatto attraverso un modello di progressione logica, volta ad estendere il conteggio (e la ricerca) tipicamente eseguite su singole parole ad ad intere frasi. In uno studio, Young-Woo Seo, Joseph Giampapa e Katia Sycara hanno infatti utilizzato un diagramma duale (bigrams), al fine di rilevare la significatività espressa dalla combinazione di due parole connesse, in termini di sentiment. La loro tecnica, consente di estrarre frasi-chiave previa rimozione delle parole -identità non necessarie: ad esempio, “Le azioni della Compagnia Alfa salgono”, si trasforma nel bigram “Share Rose” per Alfa. Il bigram è poi tradotto o meglio convertito in una scala di misurazione del sentiment, composta da 5 livelli.
  • Good. “Revenue Rose”, “Exceeds Expectation”, “Share Rose”, “Rose Profit”.
  • Good, Uncertain. “Expect Earnings”, “Forecasts Earnings”, “Anticipate Earnings”.
  • Neutral. “Alliance Company”, “Alliance Corporation, “Announces Product”.
  • Bad Uncertain. “Warning Profits”, “Short Expectation”, “Warning Earnings”.
  • Bad. “Share Off”, “Share Down”, “Profit Decrease”, “Fall Percent”, “Sale Decrease”.
Come si deduce dal modello di cui sopra, mentre alcuni bigrams contengono lemmi potenzialmente idonei ad esprimere situazioni definite, altri esprimono incertezza; altri ancora dal contenuto asettico confluiscono nella categoria “Neutral”.
Un'ulteriore complicazione risiede nel fatto che molti articoli giornalistici trattino aspetti differenti della stessa società o di molte società. In casi del genere, al fine delineare in maniera precisa il contesto di riferimento di ciascuna parola-chiave, al fine di elaborare un sentiment scenario coerente, vengono impiegate più complesse tecniche di Natural Processing Language (NPL) e di analisi semantica, scomponenti le frasi in unità grammaticali tali da consentire l'abbinamento di date frasi quali “caduta dei profitti” ad identità ben individuate. Esistono numerosi software commerciali in grado di eseguire la sentiment analysis di oltre 10 articoli al secondo, con approcci ibridi contemplanti dapprima, l'esecuzione di un' analisi linguistica volta ad estrapolare caratteristiche chiave da ogni documento e poi, una loro classificazione basata sul machine learning. La stessa Reuters offre un servizio di analisi del sentiment delle notizie facenti parte dei propri feeds.