Výpočetní náročnost StockPicking Lab
Využití strojového učení v oblasti kvantitativních investic se postupně dostává do popředí a jeho správné použití povzbuzuje mnohé k prozkoumání světa investování. Abychom vytvářeli tržní výhody a mohli tak umožnit našim uživatelům těšit se z procesu výběru těch správných akcií, vybíráme užitečná data, která jsou vhodná k tomu, aby nám poskytla nejen nástroj založený na umělé inteligenci, ale také interpretovatelnost a transparentnost procesů a výsledků. Naše výpočty zahrnují data shromážděná za posledních 30 let, což nám umožňuje získat robustnější a spolehlivější výsledky.
Kolik funkcí naše StockPicking Lab využívá?
Při výpočtu výsledků a přípravě seznamu podhodnocených a nadhodnocených akcií v naší aplikaci StockPicking Lab používáme pro každé aktivum, akcii a ticker 2237 funkcí. Velmi zajímavé číslo, hlavně když vezmeme v potaz, že nejlepší finanční analytici používají pro předpovědi výkonnosti akcií přibližně 100 funkcí.
A odkud pochází všechny využívané funkce?
Z již zmíněných 2237 funkcí je 793 z nich odvozeno z tzv. dat OHLCV (Open, High, Low, Close a Volumes), jež zobrazují 5 nejběžnější datových typů používaných ve finanční analýze. Abychom si tato data mohli přehrát do vizuální podoby, využíváme k tomu svíčkové grafy – ty nám umožňují zvážit obrovské množství situací již odehraných v minulosti.
Zbývajících 1444 funkcí je generováno z fundamentálních dat.
Jak přesně jsme se k tomuto číslu dopracovali?
Používáme 76 fundamentů, z těchto funkcí odvozujeme další funkce na základě dvou „pozic“ – absolutních a relativních. Výsledek pak násobíme devíti časovými horizonty. Tyto funkce pak zahrnují například ukazatel operativního cash flow společností na akciovém trhu a slouží k indikaci, zda společnost dokáže generovat dostatečný kladný peněžní tok k udržení a růstu své činnosti, nebo je možné, že bude vyžadovat externí financování pro další kapitálovou expanzi, což přirozeně ovlivňuje cenu akcií. Mezi tyto funkce patří tedy samotná fundamentální data a také z nich odvozené ukazatele, jako je měření provozního toku za posledních 252 dní (počet obchodních dní za rok na amerických akciových a opčních trzích).
Je třeba poznamenat, že oceňujeme pouze celková data. V případě, že nemáme úplná data pro každou jednotlivou akcii, neimplementujeme danou funkci pro žádnou z akcií. Do budoucna rozhodně plánujeme použít ještě více prediktorů k získání bohaté sady dat, pro kterou je potřeba provádět kontinuální datové inženýrství.
Abychom získali jasný obraz o velikosti dat použitých pro výpočty, dáme vám několik tipů:
Výpočetní paměť obsahuje při každé rebalanci 225937 sloupců. Každý sloupec má přibližně 8500 řádků. Celkem je v datové sadě zahrnuto přibližně 1 920 464 500 čísel.
Když vezmeme v úvahu, že každé číslo zabírá 4 až 8 B paměti, celkem 7,5 GB paměti je potřeba pouze pro 100 akcií (S&P100). Průměrný počítač by ke správě tohoto druhu úkolů potřeboval přibližně 2 dny. Navíc rozšíření akciového portfolia na 500 akcií (S&P 500) by potřebovalo 64 GB, protože datová sada vzrůstá exponenciálně. Kromě toho je také nutné ukládat mezi výpočty.
Všechny tyto informace nám tak dohromady říkají, že využívání velkého množství datových faktorů, které vysoce korelují s tržními výnosy, nám umožňují ve StockPicking Lab generovat více robustní a spolehlivé predikce.