在做量化分析時最常遇到的問題是如何能簡單、快速、正確及穩定的取得歷史資料。網路上是有很多免費的,但這些資料的取得其實並非完全沒有問題。例如 yahoo 在 2019 年初的時侯就因公司政策改變而曾經暫停過數個月的免費資料下載服務。另外這些免費的資料也有資料缺失的問題,可能某段時間的資料就不見了,或者像是一些指標性的資料(例如 SPY, 0050.tw) 在取得時會受到限制。還有在取得資料時的介面也會改變,這也導致你的系統在取得這些資料的介面也需同時修正。簡單來說,你對資料完整性跟穩定性的忍受程度是決定要不要擁有自己的資料庫的因素。
目前已經將美國過去二十年的每天開收盤價,交易量及除權息分割資料匯整進資料庫了,資料量約三千五百萬筆,容量約 7 GB。正式揮別過去在分析資料時,時不常就遇到資料不全,不正確或者連介面都出問題取不到資料的情況,有了統一及完整的資料庫後,分析工作也較為順利。
資料庫模組是 python 開發的,資料庫是 postgresql,下面是應用實例。