AlphaPortfolio: Direct Construction Through Deep Reinforcement Learning and Interpretable AI
Cong, Lin and Tang, Ke and Wang, Jingyuan and Zhang, Yang, AlphaPortfolio: Direct Construction Through Deep Reinforcement Learning and Interpretable AI (August 1, 2021). Available at SSRN: https://ssrn.com/abstract=3554486 or http://dx.doi.org/10.2139/ssrn.3554486
我們通過深度強化學習直接優化投資組合管理的目標——替代傳統的監督學習范式,這些范式通常需要對收益分布或風險前提進行第一步估計。在最近的人工智能突破的基礎上,我們開發了多序列神經網絡模型,專門針對金融數據的顯著特征,如非線性和高維度,同時允許在沒有標簽和與市場環境和狀態變量相互作用的情況下進行訓練。我們的AlphaPortfolio產生了驚人的樣本外表現(例如,夏普比率超過2,每月重新平衡的風險調整阿爾法超過13%),在各種市場條件的經濟限制下(例如,排除小股票和賣空)都很穩健。此外,我們將AlphaPortfolio投射到更簡單的建??臻g(例如,使用多項式-特征敏感度),以揭示投資業績的關鍵驅動因素,包括其旋轉和非線性。更廣泛地說,我們強調了深度強化學習在金融和 "經濟提煉 "模型解釋中的效用。
關鍵詞:人工智能、資產定價、可解釋的人工智能,機器學習、投資組合理論、批量/離線強化學習。
對于傳統的投資組合管理,首先需要最小化定價誤差或從歷史樣本中估計風險溢價,然后組合資產以實現投資目標。這種方法有嚴重的缺點,因為第一步的估計誤差很大,而且兩步的目標不一定一致。提取與投資組合目標并最大化直接相關的信號在直覺上很有吸引力,但卻沒有得到充分的探索。此外,金融或經濟數據往往是高維的、有噪音的和非線性的,具有復雜的交互效應和快速、非平穩的,使得傳統的計量經濟學工具無法發揮作用。最近的研究積極采用機器學習(ML)或神經網絡來解決傳統兩步法下的挑戰。雖然有些取得了重大進展(如Freyberger, Neuhierl, and Weber, 2020; Feng, He, and Polson, 2018),但許多在合理的經濟限制下并不穩健,如Avramov, Cheng, and Metzker(2019)所討論的。
為了克服上述挑戰,我們采取了一種新的和數據驅動的方法來直接優化投資組合,利用深度強化學習(RL)的力量--一類被證明在計算機視覺、互動游戲和自動駕駛等應用中有效的AI模型(例如。Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, and Ostrovski, 2015; Silver, Schrittwieser, Simonyan, Antonoglou, Huang, Guez, Hubert, Baker, Lai, and Bolton, 2017)。我們的關鍵見解是,鑒于金融市場和資產價格動態的復雜性,通過靈活的建??臻g使用試錯法進行搜索,以最大化投資組合構建的性能指標,比試圖估計資產收益分布的某些時刻(如預期收益或方差)或準確定價更有效,而不管它們與構建理想投資組合的相關性。因此,我們開發了一個靈活的深度學習結構來捕捉資產收益的非線性、路徑依賴性和截面聯系,同時讓數據決定在后臺強調SDF的哪些時刻或哪些資產的收益,以便直接最大化投資組合的性能指標。
我們使用RL——一種從多臂強盜問題和大規模馬爾科夫決策過程的近似解決方案中衍生出來的方法,因為歷史上的最佳投資組合沒有被標記,交易可能與市場狀態相互影響。RL需要與環境進行在線互動以產生額外的數據,或者利用隨機梯度下降來進行歷史數據的復雜模型搜索(例如Friedman,2002)。訓練RL模型模仿了實踐者實際開發策略的方式,從龐大的策略空間中嘗試試探性的策略,并根據性能反饋de Prado(2018)逐步優化它們。我們是第一個強調RL相對于廣泛應用的監督學習框架的潛在優勢,并通過方法論創新使RL適應多序列學習。我們的研究還為計算機科學中關于離線深度RL的新興文獻提供了補充,為其在投資組合管理和投資建議中的應用開發了一個框架。
盡管人工智能模型的功效和適用性,先進的人工智能工具的黑箱性質可能會阻礙它們在金融和經濟領域的廣泛使用,因為解釋是不可或缺的。像許多其他模型一樣,我們的深度RL方法受到了關于算法的復雜性質和缺乏透明度的批評。同時,在一個被歧視和不公正分割的世界中,將人工智能中的所有偏見歸咎于訓練數據也是不夠的;理解模型作為改善算法公平性的起點也構成了一個緊迫的問題。然后,我們的第二個目標是了解我們模型中的各種創新是如何促進性能的,并引入 "經濟提煉",通過將復雜的人工智能模型投射到線性建?;蜃匀徽Z言空間,使其具有更大的可解釋性和透明度。我們設計的多項式敏感性和文本因素分析不僅為我們的人工智能模型提供了初步的見解,而且還可以用于社會科學的其他應用中。
具體來說,我們采用了最新的序列表示提取模型(sequence representation extraction models, SREM),如Transformer編碼器(TE)和長短期記憶(LSTM),以便靈活有效地表示和提取來自輸入特征的時間序列的信息,如公司的基本面和市場信號,即環境狀態。我們開發了一個基于深度神經網絡的面板數據分析,加入了我們新穎的跨資產注意力網絡(cross-asset attention networks, CAANs),捕捉跨資產的屬性互動。然后,我們生成一個 "贏家得分",對資產和交易(政策和行動)進行排名,隨后評估投資組合的表現,即考察回報。我們強調的不是模型的任何具體函數形式或調整參數,而是數據驅動的RL方法,它將資產收益的聯合分布作為未知數,觀察交易行動的結果及其與環境的互動(例如,在有或沒有交易影響市場狀態的情況下實現的夏普比率),測試每種狀態下的一系列行動(例如,各種組合權重),然后動態地探索高維參數空間,在沒有噪音或潛在的錯誤指定的中間步驟下實現目標最大化。我們表明,SREM和CAAN的結合(捕捉資產收益中的非線性、截面聯系和路徑依賴),以及通過RL的直接構建都有助于提高性能。我們還討論了AlphaPortfolio如何允許一般管理目標以及包含交易成本、動態預算和依賴經驗的偏好的市場互動。
我們基于深度強化學習的 "直接構建 "(投資組合)極大地改善了樣本外(out-of-sample, OOS)的投資組合表現,在施加各種經濟約束后,結果依然穩健。在對美國股票的說明性研究中,我們使用了12個月歷史窗口中的數百個公司特征和市場信號作為預測變量,類似于Freyberger, Neuhierl, and Weber (2020)。在基線規范中,我們專注于隨后12個月的平均OOS夏普比率作為投資者的目標,并訓練一個投資組合模型(此后稱為 "AlphaPortfolio "或 "AP"),每月重新平衡,在全部測試樣本(1990-2016年)和不包括微型股(基于市值的10%或20%)的子樣本上產生的夏普比率始終高于2。在控制了各種因素(CAPM、Fama-French-Carhart因素、FamaFrench-Carhart加流動性因素、Fama-French五因素、Fama-French六因素、Stambaugh和Yuan因素、Q4因素)后,年化超額阿爾法也一直超過13.5%。AP的一般性能指標(如周轉率和最大跌幅)明顯優于大多數已知的異常值和機器學習策略的指標。
就指定的投資組合管理目標而言,基于RL的AP始終實現了較高的OOS夏普比率(在整個測試樣本的早期達到4.7并高于1.4),比兩步傳統構造下的TE-CAAN的性能高出一倍以上。深度學習(例如TE,一種尖端的人工智能工具,通常用于有監督的機器翻譯,以解決循環神經網絡中的消失和爆炸梯度問題),通過更好地處理金融數據和資產回報動態的高維度、非線性、路徑依賴性等,顯然有助于提高性能,但相對于普通的TE模型,CAAN也大大提高了OOS性能(例如,夏普比率提高0.4)。研究結果是穩健的,因為它們不是由空頭頭寸、特別權衡、高頻交易或特定行業部門驅動的;在替代成交量定義、排除未評級和降級公司以及最近幾年或在不同市場情緒、波動性和流動性的事件中限制測試樣本的情況下,表現仍然優異。因此,AP對施加各種經濟限制是穩健的,Avramov、Cheng和Metzker(2019)認為這些限制會大大阻礙其他機器學習策略的表現。
我們的深度RL方法與早期的研究和常見的行業實踐有根本的不同,因為它結合了靈活的、通過神經網絡的數據驅動建模的力量和使用RL的直接優化。與監督學習不同的是,學習者在訓練中被告知什么是正確的行動,RL通過試錯搜索和利用環境的反饋來發現一些延遲獎勵的最佳行動(Sutton and Barto, 2018, p.1)。在平均OOS月度夏普比率的背景下,獎勵是 "延遲的",因為它是在多個月的窗口中計算的。一旦我們考慮到經理人的投資組合規模和交易成本等因素,一個月的投資組合構建可能會影響未來的市場環境,從而影響未來的投資組合構建。
我們強調,深度RL的應用不一定總是涉及在線互動,離線RL在社會科學中可能特別有用。與科學實驗室不同,社會科學家通常不能通過在線互動產生數據,這是因為數據收集很昂貴(例如,在機器人、交易、教育代理或醫療保健方面)或很危險(例如,在自動駕駛或醫療保健方面)。此外,即使在在線互動可行的領域,我們仍然希望利用以前收集的數據來代替,例如,如果該領域很復雜,有效的歸納需要大型數據集。AlphaPortfolio的訓練是離線RL,但它與環境互動,通過測試樣本中的滾動更新產生新的數據。在這個意義上,我們的RL模型是一個混合模型,AP框架可以方便地被從業者和機器人顧問部署到交易和投資建議中。
除了闡明Deep RL在直接構建投資組合方面的這一理論優勢,我們還旨在更好地解釋AP。我們使用基于梯度的方法和Lasso將模型提煉成具有少量輸入特征的線性模型,同時允許高階項和特征互動。這種新穎的多項式敏感性分析本質上是將復雜的模型 "投射 "到線性模型的空間中。它通過結合代用模型和特征重要性分析的優勢,增加了能夠解釋人工智能的進展。提煉出來的模型告訴我們驅動AP性能的特征。除了一些常見的嫌疑人,如托賓Q值,庫存變化(ivc),流通股變化(delta so)等,也起著主導作用。此外,我們發現高階項(如ivc?2)影響了AP的行為,但沒有互動效應(這對估計資產的回報或定價內核仍然很重要)。最后,我們觀察到短期的逆轉,并確定了在整個過程中占主導地位的重要特征和其他輪流出現的特征。特別是,市場交易信號和企業的基本面和財務狀況輪流占主導地位(相關度為-0.33)。
作為通過投影進行經濟提煉的另一個例子,我們應用了文本因素分析,一種結合了神經網絡語言處理和生成性統計建模優勢的分析方法(Cong, Liang, and Zhang, 2018),來理解基于公司文件文本的AP行為。通過將其投射到自然語言空間,我們發現,AP買入那些10-K和10-Q中談到銷售、盈利、減虧等的公司股票,而賣空那些突出提到房地產、錯誤和企業事件等的公司股票。經濟學提煉不僅提供了對復雜模型的初步解釋,以便我們在市場環境或政策變化時避免人工智能應用的陷阱,而且還提供了對編碼錯誤和模型脆弱性的理智檢查。多項式敏感性分析和文本因素分析都是新的,補充了計算機科學中關于可解釋人工智能和經濟學中關于解釋ML模型的嘗試。
作為最早的將人工智能的最新突破應用于投資組合管理的金融研究之一,我們的論文有三個主要貢獻。
在本節中,我們將重點介紹AlphaPortfolio的設計。圖1展示了整體架構,它由三個部分組成。第一個部分需要使用SREMs,從每項資產的狀態歷史中提取一個表征。接下來,我們引入了一個跨資產注意力網絡(CrossAsset Attention Network,CAAN),它將所有資產的表征作為輸入,以提取捕捉資產之間相互關系的表征。第三部分是投資組合生成器,它從CAAN中獲取每項資產的標量贏家得分,并得出最佳投資組合權重。重要的是,我們將這個AlphaPortfolio策略嵌入到一個強化學習框架中,以訓練模型參數,使評估標準最大化,如OOS夏普比率。我們在Cong, Tang, Wang, and Zhang (2020)中描述了深度序列建模的發展,在附錄A中描述了強化深度學習的基礎知識。
為什么要用RL進行一步式組合優化?正如我們在引言和第2節中所描述的,一步法可能比兩步法間接優化的組合效果更好。此外,RL可以更好地處理復雜的目標和與環境的相互作用,這允許納入預算約束、長期目標等。
一項資產的收益分布與它的歷史狀態有著密切的關系。資產的歷史狀態自然地形成于序列的歷史觀察值。我們用向量 來表示資產i在時間t的狀態歷史,它由資產特征/公司特征組成,例如,在第4.1節中給出的。我們把時間t的最后K個歷史持有期,即從時間t-K到時間t的時期,命名為t的回望窗口。一個例子是當我們構建第13個月的投資組合時,前12個月的特征。一個資產在回望窗口的歷史狀態被表示為一個序列:,其中。
對于每個資產i,SREM從其狀態歷史中學習表征(我們省略時間t)。值得注意的是,SREM可以是任何一種深度序列模型,如RNN、LSTM等。在本文中,我們關注兩個最前沿的深度序列模型之一(Cong, Tang, Wang, and Zhang, 2020),即Transformer編碼器(TE)。我們在第5節和附錄C中討論了另一個,即帶有歷史注意力的LSTM(LSTM-HA)。TE和LSTM-HA都是專門為處理序列信息而設計的,在表示非線性時間序列模塊的復雜信息方面很出色。
循環神經網絡(RNN)的變種和我們提出的基于TE(或基于LSTM)的SREM最近都被用于神經機器翻譯中。與RNN不同,TE通過減少網絡路徑長度使序列中的長距離依賴關系更容易學習,并通過減少對輸入的禁止性順序的依賴,從而允許更多的并行運算。
圖2展示了一個普通TE的結構。這里的編碼器是由幾個相同的層堆疊而成。每層有兩個子層。第一個子層是一個多頭自我關注機制,我們為AlphaPortfolio采用并修改了這個機制,第二個子層是一個簡單的位置全連接前饋網絡。此外,每個子層都采用了殘差連接和層的歸一化。我們在附錄C中詳細介紹了實施細節??偟膩碚f,TE將序列輸入編碼到向量空間中,為
其中。是步驟k的被編碼的隱藏狀態,它考慮到了所有其他步驟。我們把中的所有步驟合并(concat)起來,作為資產的表征:,這其中包含了中所有元素的全局依賴。在我們的模型中,所有資產的表征向量都是由同一個TE提取的,這意味著所有資產的參數是共享的。通過這種方式,TE提取的表征是相對穩定的,一般適用于所有可用的資產,而不是某個特定的資產。
如前所述,學習長程依賴是使用基于遞歸的序列模型(即RNN和LSTM)時的一個關鍵挑戰。在我們設計的序列表示提取模塊中,LSTM-HA通過引入歷史注意力機制來解決這個問題,Transformer架構連接了序列中的所有位置,可以有效地提取短期和長期依賴關系。接下來我們分別使用LSTM-HA和TE作為第五步SREM,并比較它們的性能。對于時間t的第i只股票,由SREM提取的表征被稱為。它包含了股票i從時間t - K + 1到時間t的歷史狀態的順序和全局依賴。
之前在計算機科學中應用基于RL的模型的嘗試通常止于具有softmax歸一化的資產表示(Jin和El-Saawy,2016;Deng、Bao、Kong、Ren和Dai,2017;Ding、Liu、Bian、Zhang和Liu,2018)。我們提出一個CAAN來描述資產之間的相互關系。請注意,我們對CAAN模塊的設計部分受到機器翻譯中自注意機制的啟發(Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin, 2017)。
圖3說明了CAAN的結構。具體來說,給定資產表征(我們省略時間t,但不失一般性),我們計算出資產i的查詢向量、密鑰向量和價值向量,(反正就是qkv)具體如下:
其中,、和是與資產無關的待學習參數矩陣。資產j與資產i的相互關系被建模為使用資產i的 來查詢資產j的密鑰,即與之間的內積(但被調整大?。?。
然后,我們用歸一化的相互關系作為權重,將其他資產的值向量加起來,成為一個衰減分數。
請注意,贏家得分是根據所有其他資產的注意力來計算的。這樣,CAAN就說明了所有資產之間的相互關系。
我們使用全連接層將注意力向量轉化為贏家得分,即,其中和是連接權重和學習偏差。贏家得分表示資產i在第t個持有期被選為多頭的可能性。到目前為止,該模型嵌入的經濟意義不大,因為贏家得分較高的資產不一定對投資組合的業績有積極的貢獻。它只是一個靈活的結構(具有高維參數),用于生成投資組合,以后用RL進行訓練。
給定個資產的贏家得分為。 接下來,AP構建了一個多空組合,在贏家得分高的資產中持有多頭,在贏家得分低的資產中持有空頭。具體來說,我們首先按照勝者得分從高到低的順序對資產進行排序,并獲得每個資產i的序列號。讓表示投資組合的多頭和空頭部分的分界線,將組合分為和。即如果,資產i進入組合,每個資產的權重計算為;如果,則。
其余的資產沒有明確的買/賣信號,因此不包括在投資組合中。為了簡單起見,我們用一個向量來記錄兩個組合的所有信息。我們設置了一個長度為向量,值為的拼接。
請注意,在我們充分訓練模型之前,由于TE和CAAN的參數都是隨機啟動的,AlphaPortfolio在開始時可能表現得很糟糕。在適當的訓練之前,高的贏家得分并不意味著它是更好的投資資產。經過訓練后,根據贏家得分構建投資組合可以產生導致高績效指標的投資組合。我們接下來介紹一下訓練過程。
我們將AP嵌入到一個具有連續代理行動的RL游戲中來訓練模型。其中一個情節 - 代理在RL中與環境互動的一個完整回合(在我們的背景下為T期投資)被建模為一個RL代理的“狀態-行動-獎勵”軌跡。即:
在歷史時間的市場歷史狀態,被表達為一個張量。被指定為AP給出的組合向量,其中元素表示代理在t時刻投資于資產i的組合權重。然后,就是的回報。
讓表示投資組合經理的目標,以獎勵的軌跡作為輸入。例如,可以是一個投資組合的構建和交易,是持有該投資組合的回報,而可以是使用12個月窗口的回報計算的夏普比率。構建投資組合的目標可以非常普遍,包括交易成本(將回報率定義為回報率減去交易成本)或預算約束(將預算作為狀態的一個變量)或投資組合經理的失?。ɡ?,如果軌跡中的某個回報率太負,為零)。我們在實證分析中探討了的各種版本。
一般來講,平均獎勵可以表示為?;仡櫼幌?,對應的是擬議的AP的參數。第五個部分來自SREM(序列再現提取模塊)。對于基于TE的SREM,參數包括多頭轉換矩陣、注意力轉換矩陣和Ward網絡的權重矩陣。第二部分來自CAAN模塊,為此我們有一個查詢轉換矩陣、一個關鍵轉換矩陣和一個值轉換矩陣。這些矩陣中的條目都是需要估計的參數。此外,還包括權重矩陣和偏置,這些都是用來將注意力向量轉化為贏家得分的。
強化學習模型的優化目標是找到一組參數。我們用梯度提升的方法來迭代優化模型參數:,其中為學習率。在實證檢驗部分,一個事件被定義為一年的投資,包含12個交易期,是使用我們采用的深度學習框架自動計算的。
我們現在將AlphaPortfolio模型應用于美國的公共股票。我們的基線樣本期是1965年7月至2016年6月,有176萬個月度資產觀測值。月度股票回報數據來自證券價格研究中心(CRSP)。我們遵循文獻的標準,關注在美國注冊并在Amex、Nasdaq或NYSE交易的公司的普通股。公司的資產負債表數據來自標準普爾的Compustat數據庫。為了減少由于回填造成的生存偏差,我們還要求一個公司在數據集中至少出現兩年來訓練模型。對于OOS測試,我們只要求一個公司在數據集中出現一年。
與Freyberger, Neuhierl, and Weber (2020)類似,我們將公司特征和市場信號作為原始輸入特征來構建,這些特征分為六類:價格信號,如月度回報率;投資相關特征,如庫存占總資產的變化;盈利能力相關特征,如經營性資產回報率;無形資產,如經營性應計費用;價值相關特征,如賬面市值比;交易摩擦,如日平均買賣價差。我們考慮了投資組合構建月份之前12個月的滯后特征。每個輸入變量都被視為只在其公開后的一個月內可用,這個日期滯后于報告日期開始。如果一個變量沒有以月度頻率報告,我們將其視為與前一個月沒有變化??偟膩碚f,我們在任何時候對每項資產都有51次12個輸入特征。附錄B描述了輸入特征的構建。AP框架允許納入宏觀經濟變量和其他替代數據,這可能會改善其性能,我們把它留給未來的研究。
我們為AP指定的基線目標是OOS夏普比率,這是很自然的,而且被學術界和從業人員廣泛使用。為了訓練模型,我們使用了從1965年7月到1989年底的數據,并遵循第3節中概述的投資組合的構建,選擇G,使多頭和空頭各占所有可用股票的10%。雖然已知RL允許行動(在我們的環境中的交易)和環境(如市場狀態變量,價格影響等)之間的相互作用,但在基線中,我們關閉了相互作用,專注于RL帶來的試錯搜索好處。正如我們在第4.4節中所說明的那樣,與市場環境相互作用的其他目標可以很容易地被接納。請注意,RL并不區分訓練集和驗證集。我們用歷史數據來代表環境,用獎勵來判斷訓練的質量并調整AP的超參數。在這個意義上,模型的選擇被嵌入到訓練期間的探索步驟中。OOS測試確保在評估AP性能時不會出現過度擬合和模型選擇偏差。
開始時,我們隨機初始化參數(在參數空間的大范圍內),從訓練集中隨機抽出一個月,不做替換,并使用前12個月的輸入(包括抽出的月份),然后評估隨后12個月的表現(例如,基于12個月的回報觀察計算的夏普比率)作為更新參數的獎勵。我們并不假設這些月份是即期的,而是在本質上繪制一個24個月的窗口,而不重復使用任何窗口。我們對訓練集的剩余月份重復這一步驟,直到我們用盡訓練集的所有月份。我們把這個多步驟的過程稱為epoch。在我們的實施中,我們使用了30個epochs,這足以讓參數收斂。
訓練結束后,我們對從1990年開始的樣本進行AP測試,每月進行一次再平衡。我們所有的結果都是在樣本外獲得的,而不是依靠傳統統計測試中采用的樣本內預測性。這對于防止低信噪比金融數據的過度擬合至關重要。請注意,AP模型在我們的測試樣本中每年都會進行微調(滾動更新),這使得我們的模型一旦被部署為實戰策略,就會成為離線和在線RL的混合。換言之,在看到一年的表現后,我們使用額外的數據來更新模型參數。在這里,我們使用6個 epochs,每個包含12個步驟。學習率同樣設置為1e-4,然后在2個epochs后為5e-5,4個epochs后為1e-5。即使人們可以在更高的頻率下對模型進行微調,比如每月一次,我們使用年度頻率來避免對每月變化的過度擬合和在高頻率下更新深度學習模型的高計算成本——這一點在Gu, Kelly, and Xiu (2020)中也有討論。由于信息陳舊,以較低的頻率更新往往會降低OOS性能,這不利于獲得卓越的性能。
表1報告了主要結果。第(1)-(3)欄顯示了AP收益的各個時刻以及換手率等指標。在完整的測試數據集中,AP達到了2.0的OOS夏普比率,當我們將訓練和測試限制在大型和流動的股票上時,甚至更高(在第(2)和(3)欄中,我們要求股票在市值的前90或80百分位)。顯然,AP的表現不是由微型股票驅動的,可以在沒有流動性問題的情況下實施。如果我們把注意力限制在市值前90個百分點的股票上,1990年初AP投資的一千美元到2016年底將變成91,140美元。
請注意,AP并沒有像許多其他模型一樣,根據回測結果挑選小型和非流動性的股票--這個結果有些令人驚訝。我們將此歸因于這樣一個事實,即,即使小型和非流動性的股票傾向于高預期收益,它們也會大大增加投資組合的波動性。我們采用夏普比率的直接優化,而不是特征排序,有效地避免了小型和非流動性股票。
表2進一步證明了RL和AI在投資方面的功效。A組將AP與Freyberger, Neuhierl和Weber(2020)的 "非參數"(NP)模型和投資組合策略進行了比較。AP的表現優于文獻中大多數其他基于機器學習的策略。我們選擇NP作為基準,除了因為我們使用了與他們論文中類似的公司特征作為投入外,NP很可能是資產定價領域表現最好的3-5個機器學習模型之一。1991-2014年,NP在其測試樣本上取得了更高的夏普比率。一旦我們排除了非流通股和小股票,AP就明顯優于NP,這與Avramov、Cheng和Metzker(2019)的研究結果一致,即最近的機器學習策略的表現往往來自小盤股和非流通股。這里的優越性能并沒有使NP等其他模型失效,因為它們的重點是最小化定價誤差或估計定價內核,而不是直接優化投資組合性能。
值得一提的是,贏家得分并不只是另一個預期收益的估算器。RL同時考慮到了預期收益和其他可用資產的時刻。為了了解RL如何增加AP的性能,表2的B組顯示了當我們按照傳統的兩步法,首先使用監督學習下的TE來預測股票收益,然后形成預期收益排序的投資組合時的OOS性能。我們注意到,OOS的夏普比率在經過市值調整的權重下可以達到0.8,在同等權重(組合等權)下接近2。一方面,這表明傳統的兩步投資組合構建下的TE仍然優于許多其他策略(基于機器學習或基于異常/排序,因為TE作為一個靈活的深度神經網絡更好地捕捉了非線性和路徑依賴信息)。另一方面,傳統模型與基于RL的AP模型相比,其性能相形見絀,突出了我們一步到位的RL的效用。例如,在實踐中比等權重更可行的全樣本上的價值加權投資組合,其OOS夏普比率為0.36,而AP的夏普比率為2。換句話說,如果我們使用贏家得分作為預期收益的估計,并使用等權重或價值加權,該投資組合將大大低于AP的表現。
最后,表2中的C組顯示了我們對CAAN的創新是如何進一步促進AP性能的。僅僅使用TE,RL仍然取得了比其他ML模型(在小組A中通常表現不如NP開始)和兩步法(如小組B所示)更高的OOS回報和夏普比率,以及更低的換手率和最大回撤。然而,CAAN在RL的基礎上大大改善了OOS的表現,在三個測試樣本中平均增加了0.33的夏普比率和近4%的年化收益,同時降低了40%的換手率。雖然這里沒有報告,但當我們使用LSTM實現AP時,CAAN對性能的影響甚至更大(附錄C2)。
太多了,感興趣看原文吧,反正就是很顯著。
我們必須認識到,與遺傳學和物理規律不同,商業環境和金融市場是不斷發展的。政策和消費者的偏好一直在變化。我們不能總是把機器學習包和大數據分析從貨架上拿下來,盲目地應用于經濟和金融領域的問題,只因為它在回測中似乎預測得很好。此外,大數據和人工智能的使用可能會出現對個人群體的偏見。由于社會科學中的快速和非平穩動態,這些危險尤其令人擔憂。解決這個問題的一個必要步驟是了解復雜的人工智能和機器學習模型。
為此,我們引入了一個 "經濟提煉 "程序。在這一部分,我們描述了多項式特征敏感性分析。其主要思想是將AP投射到一個更簡單、更透明的建??臻g。蒸餾后的模型 "代表 "或模仿復雜的人工智能模型,因此可以揭示原始模型的重要屬性,并有助于對其進行經濟解釋。
為了說明問題,我們使用算法1將AP投射到線性回歸的建??臻g。我們首先表達了一只股票的歷史特征對其在TE-CAAN系統中的得分的功能。然后,我們檢查每個特征的邊際貢獻,并在其他特征發生變化時檢查其比較靜態。該程序使我們能夠確定模型中最重要的變量(或其高階項或交互項)。接下來,我們使用這些變量及其高階項和交互項作為輸入變量來估計Lasso回歸模型。我們設置懲罰參數,使50-60個輸入被選中,這與AP中輸入時間序列的數量相當。
為了補充分析,在附錄D中,我們還將AP的贏家得分回歸到每個公司在公司文件中討論的各種主題的相應文本負荷。使用文本因素將模型投射到自然語言空間(Cong, Liang, and Zhang, 2018; Cong, Liang, Yang, and Zhang, 2019)有助于增強我們對AlphaPortfolio行為方式的理解。
對于經濟提煉,我們采用基于梯度的特征重要性方法來確定AP主要取決于哪些特征。我們用來表示TE和CAAN的組合網絡,它將資產的狀態歷史X映射到其贏家得分s。被用于表示的元素,為特征的值。給定資產狀態歷史數據,網絡s對特征的敏感性可以被計算為:
其中表示中除去特征的其他元素。
在我們使用PyTorch實現AP的過程中,梯度來自深度學習包中的autograd模塊。對于一個市場中所有可能的股票狀態,股票狀態特征xq對贏家得分s的平均影響是:
其中代表隨機變量的概率密度函數;是一個遍歷所有的積分。根據大數定律,給定一個包含I個股票和N個持有期歷史狀態的數據集,可近似的表示為:
其中是第i個股票第n個持有期的歷史狀態;表示與第i只股票的歷史狀態同時存在的其他股票的歷史狀態。
我們使用來衡量單資產特征的對整體贏家得分的影響。
然后我們生成具有最重要特征的多項式的項。對于OOS時期的每個月,我們可以通過使用Lasso將贏家的分數與選定的項進行回歸來提煉AP模型。表12中的結果顯示,即使是提煉出來的線性模型在OOS測試中也取得了顯著的性能。這里poly = 1基本上是一個線性回歸。人們可以在蒸餾練習中包括更高等級的多項式項,為了簡潔起見,我們停止在2度(2階)。請注意,提煉利用了訓練有素的AlphaPortfolio模型的知識,并在原始模型中表現不佳。因此,我們不應該或不可能有效地使用提煉出來的模型,來代替AlphaPortfolio進行交易。
我們發現,一小部分特征決定了我們算法的性能。例如,庫存變化(ivc)在我們的算法中起著關鍵作用,在1度和2度多項式中都有超過80%的概率被列入最高貢獻因素。Thomas和Zhang(2002)首次記錄了ivc可以負向預測股票的未來收益,這與企業的盈利管理是一致的。鑒于2002年后ivc仍然發揮著重要的作用,該反?,F象并沒有被交易掉。短期以前的回報率(ret 11和ret 10)是強烈的負值,特別是對于有大型股票的投資組合,意味著短期逆轉,這與Avramov、Cheng和Metzker(2019)一致。請注意,某些公司特征的符號在不同的滯后期是不同的,這可能反映了AP的路徑依賴性質。
其他因素包括托賓Q值、稅前利潤率(ipm)、現金和短期投資與總資產的比率(C)、特異性波動率(Idol vol)等也很突出。其中,特異性波動率(Idol vol)、一個月內每日最大收益率(Ret max)等是與交易有關的套利約束和市場信號;外部融資增長(fcf)、折舊和稅收前營業收入(ipm)等是與公司基本面有關的財務信號。交易信號通過錯誤定價渠道影響股票收益,而金融信號則可能通過風險渠道影響股票收益(Livdan, Sapriza, and Zhang, 2009)。這些模式不僅意味著未來的研究可以專注于一小部分經濟機制和變量的時變相關性,而且還告訴研究人員要考慮哪些特征的非線性效應。
我們提出了基于深度強化學習(RL)的投資組合管理,這是一種比傳統的間接投資組合構建框架更好的選擇。我們開發了一個建立在最新人工智能創新基礎上的多序列學習模型,以有效捕捉經濟數據和市場環境的高維、非線性、噪音、互動和動態性質,然后使用RL對其進行優化。由此產生的AlphaPortfolio在各種經濟和交易限制以及管理目標下產生了極好的OOS性能,使該框架可被從業者部署到交易和投資建議中。
我們的框架和經驗發現對RL在社會科學中的效用和經濟上可解釋的人工智能的重要性有更廣泛的影響。與需要通過理想行為的例子來了解環境的監督學習不同,RL代表了一種在復雜環境或行動空間中進行目標導向學習的新方法。深度RL經常被用于語音識別、自然語言處理、計算機視覺、互動游戲等方面的應用,并取得了巨大的商業成功。(亞馬遜Alexa、蘋果Siri、AlphaGo和谷歌Android是領先的例子)。此外,大多數使用回歸、SVM和神經網絡的模型都有基于RL的實現方式。投資組合管理只是RL處理復雜社會科學問題的潛在應用之一,這些問題具有明確的目標,但用于得出完整解決方案的預先存在的知識或標記數據有限。
此外,我們的 "經濟提煉 "不僅揭示了驅動AlphaPortfolio業績的關鍵公司特征(包括其旋轉和非線性),而且還為解釋機器學習和人工智能在商業實踐和社會科學中的應用提供了具體的支柱和增量步驟。我們的多項式敏感性分析對計算機科學的現行做法進行了創新,并允許極大的靈活性。例如,如果人們認為一個特征的三階和四階項很重要,就可以把它們放進去。文本因素分析源于主題建模和詞嵌入,構成了使用自然語言來更好地解釋模型行為的許多可能性之一。這兩個程序都是將復雜的模型投射到透明和可解釋的空間中。我們的經濟提煉方法的其他應用構成了有趣的未來研究。
Method for converting gravity force, spring force and force of permanent magnets in a rotary motion.