1. <dd id="ekrqy"><nav id="ekrqy"></nav></dd>

       登錄系統    賬號注冊      
          
        


      News Message

      強化學習在期貨風險控制



      強化學習在期貨風險控制



      Dynamic Replication and Hedging: A Reinforcement Learning Approach. 


      One-Page Review

      Summary: Key idea in a sentence or two.

      The paper proposed a Reinforcement Learning approach to hedge options in the frictional market(discrete time, trading cost ), providing a trade-off between the trading cost and the replication error.

      All it needs is a good simulator of the market (including stock price dynamics, option prices and trading costs). No assumption was made in the stock price model and trading costs.

      Learning from critical reading: any problems?

      - Poor data efficiency. It is difficult to have a good simulator, especially a good option pricing model.

      - Why not just set solid frequency of hedging?No experiment was done to show the result.


      Learning from creative reading: idea for next year's conference?

      1. Can we use meta reinforcement learning to improve the data efficiency?

      2. Consider distributional RL methods.

      3. A more complex model. Refer to QLBS.

      opinion: Do you recommend this paper?

      - Recommend.


      以上是我的review,如有不足之處大家可以在評論區補充和討論。

      問題

      BSM(Black-Scholes model)中期權的連續復制是不現實的,也會帶來無限的交易手續費?,F實情況下的期權策略應該是離散的時間和有摩擦的市場。這樣的話,期權的對沖策略就取決于它在replication error和trading cost之間的平衡上。(復制的太頻繁會比較精確但是會引起比較高的手續費)也就是agent選擇的hedging策略取決于它的風險厭惡程度(risk aversion)。

      投資組合的再平衡策略必須在離散時間和存在摩擦的市場中完成。在有摩擦的市場中,流動性得不到保證,如果管理不當,對沖的市場影響可能相當大。單只股票的大額交易執行是一個多周期規劃問題,可以通過均值-方差優化來解決。期權對沖問題與此類似,但更為復雜。在大多數情況下,對沖本身不是靜態的,而是需要不斷調整的。盡管如此,這兩個問題在某種意義上是相關的,即人們希望最小化(1)交易成本(2)與最優對沖的偏差。

      本文提出了一個用強化學習方法來進行對沖的策略。該方法需要有一個很好的市場模擬器來用作環境,能夠模擬股價的變化,期權價格,以及市場手續費。但是這些信息是不需要直接給agent的,而是生成環境讓agent與之交互。注意這篇文章主要是給出已經持有期權的時候的對沖策略,而不是給期權定價。相反,訓練算法需要的模擬器需要有一個比較可靠的期權定價模型。核心想法就是其RL目標函數是一個均值-方差形式,用以權衡對沖頻率和對沖精確度。

      文章說他們給出的方法有以下貢獻:

      首先,該方法很general。只要我們知道如何定價衍生證券(即使這個定價是由蒙特卡羅完成的),我們的方法將很快產生一個代理給出如何最優地平衡交易成本和該證券的對沖方差。成本與方差的相對重要性由代理的風險規避參數決定。(也就是說模擬器要很好的模擬期權價格,所以這篇文章不是為了定價,而是為了解決對沖問題。)

      第二,方法基于強化學習(RL)。雖然強化學習本身是眾所周知的,但這種機器學習技術以前還沒有應用于受非線性交易成本影響的離散復制和對沖。值得注意的是,由于本文中提供的技術的靈活性,可以直接加一些feature和一些約束(如循環和倉位約束)來擴展模型。雖然QLBS(halperin2017)將強化學習應用于期權,但是其中的方法對于BSM模型要求的非常具體且不考慮交易成本,而本文方法允許用戶“插入”任何期權定價和仿真庫,然后無需進一步修改就可以訓練系統。文章也與buehler2018deep有關,他們評估基于神經網絡的hedging在凸風險度量下的比例交易成本。

      第三,該方法是基于一個連續的狀態空間,訓練既不使用有限狀態空間方法,也不要求選擇基函數。相反,文章將介紹一種以前從未應用于衍生品對沖問題的訓練方法。我們的訓練方法依賴于“sarsa target”,并應用一些非線性回歸技術。

      第四,該方法以一種直接的方式擴展到任意衍生證券投資組合。例如,設想一名交易員繼承了一種衍生證券,由于某種外部約束,他們必須持有該證券直至到期。交易員對衍生品或其基礎產品沒有方向性看法。根據本文提出的方法,交易員實際上可以“按下按鈕”來訓練一種算法來對沖頭寸。然后,該算法可以處理對沖交易,直到到期,不再需要人工干預。

      下面我們具體講一下他們的方法。

      用模擬數據和批處理訓練

      這一節先說一下他們使用的算法框架和實現方式,后面再講問題的建模。

      算法就是使用普通的RL方法sarsa,其中behavior policy是 ??greedy .

      Sarsa:

      訓練過程:

      首先我們定義一個 (Xt,Yt) 對的collection batch,其中 Xt=(st,at) 是一對state-action pair, Yt 是相應的更新目標(6)。

      假設我們要運行B個不同的batch b=1,....,B,我們假設使用每個batch的所有樣本,可以用一個非線性回歸learner可學習到函數 Y=q^(b)(X) 。合適的非線性回歸learner是統計學習文獻中經常研究的,它們包括隨機森林、高斯過程回歸、支持向量回歸和人工神經網絡。

      學到的 q^(b)(X) 再取均值來提高模型的q^ 函數的精度。然后生成第b + 1個batch,使用更新后的 q^ 計算 Yt并重復,直到我們有B個batch, q^ 已經更新B次。在用 q^ 生成batch和擬合 q^ 之間不斷交替,直到達到某種收斂準則。本文的模擬使用了B = 5個批,每個批包含75萬個 (X,Y) 對。


      自動對沖

      這一節我們介紹問題的理論模型,給出優化目標和reward function。也是文章比較關鍵的部分。

      我們將 automatic hedging定義為使用訓練的RL代理來處理特定衍生品頭寸的hedging。代理擁有不能交易的多頭期權頭寸,代理只允許交易用于復制的任何其他非期權頭寸。在一個沒有交易摩擦的世界里,在一個可以持續交易的世界里,可能存在一個動態復制的投資組合,它可以完美地對沖期權頭寸;這意味著整個投資組合(期權減去復制組合)的方差為零。在本文中,我們將考慮摩擦和只有離散交易可能的情況。這里的目標是最小化方差和成本。

      假設我們的代理具有二次效用(quadratic utility),我們將推導出獎勵函數的精確形式。代理的最佳投資組合是由解決均值-方差最優化問題,風險厭惡系數K:

      這里final wealth wT 是指最后的財富值,可以看做是每時每刻財富值變化δwt的和,即

      這樣再來看公式(8)的均指項,我們有 E(wT)=w0+tE(δwt) 。而方差項中,有cross variance cov(δws,δwt),st 。

      但是如果我們假設 wt 隨時間增長的獨立性,也就是說,

      在完全市場中,期權是多余的工具(redundant)。它們可以被連續時間動態交易策略精確復制(方差為零),該策略以無窮小的增量無限頻繁地進行交易。在現實世界中,期權的損益方差減去其抵消復制投資組合不為零。參考文獻almgren2001optimal,我們的對沖代理想要解決(8)的一個簡化版本,即

      最小值是在所有允許的交易策略中計算出來的。與almgren2001optimal相比,這里的不同之處在于,機器將通過模擬金融市場并將RL應用于模擬結果來學習最優策略。

      如果每日價格過程是一個隨機游走,那么 wt 的增量可以分解為(請大家思考為什么可以這么分解?期權價減去股價是隨機游走嗎?)

      其中 qt 為隨機游走, ct 為t期支付的交易總成本(包括傭金、買賣價差成本、市場影響成本及其他滑脫來源)。隨機游走的情況下,期望財富增量是期望cost的- 1倍。

      換句話說,在這種情況下,問題(9)變成了成本與方差之間的權衡。代理可以更頻繁地進行對沖,以減少被套期頭寸的方差,但增加了交易成本。

      如ritter2017machine所示,通過選擇適當的獎勵函數,可以將 E[u(wT)] (期望效用)最大化問題轉化為一個RL問題。對應于(9)的每個時段的reward約為

      通過將每個單周期報酬代入累積報酬(1),我們得到了均值-方差目標的近似值。因此,用這種獎勵函數訓練強化型學習者相當于訓練期望效用最大化者。在期權對沖的背景下,它相當于訓練自動對沖,使他們能夠在成本與對沖方差之間進行最優權衡。


      實驗結果

      我們來看一個可能的最簡單例子:執行價格為K、到期日為T的非派息股票的歐式看漲期權。我們認為strike和到期日是固定的常數。為簡單起見,我們假設無風險利率為零。我們訓練的agent將學會用這種罷工和到期來對沖這個特定的選擇。它沒有被訓練來對沖任何可能的罷工/到期的期權。

      代理以L個合同的固定期權頭寸進入當期。為了簡單起見,我們假設這個期權頭寸將保持不變,直到期權被行使或到期——我們正在訓練一個代理成為一個給定合約的最對沖者,而不是一個可以決定不持有合約的代理。

      每個時刻,代理觀察一個新的狀態,可以決定一個動作。

      Action Space

      可用的操作總是包括交易基礎股票,其界限由問題的經濟狀況決定。 例如,對于每100股的L合約,人們不希望交易超過100·L股。如果期權是美式,那么還有一個額外的操作,即行使期權,從而以執行價格K買進或賣出股票。、

      State Space

      在任何成功的RL應用中,狀態必須包含與做出最優決策相關的所有信息。不需要包括與任務無關的信息,或者可以直接從狀態的其他變量導出的信息。歐式期權中,狀態必須至少包含潛在的當前價格St和剩余到期時間τ:= T?t>0,以及我們目前持有股票頭寸n。因此,狀態:

      如果是美式期權,那么在除息日期之前提前行使可能是最佳選擇。在這種情況下,狀態必須增加一個額外的變量,即t + 1期的預期股息大小。

      從業人員通常使用BSM公式計算期權頭寸的增量,以達到對沖的目的

      但 σ 用隱含波動率取而代之。這被稱為delta。注意K和 σ2 等參數不提供給代理,盡管它們用于構建代理的模擬訓練。如前面第2節所述,agent將通過對隨機世界的大量模擬來了解它所在的隨機世界的特性。如(11)中給出的?(S)這樣的非線性函數,只要它們影響到最優策略,就會成為agent學習值函數(2)的一部分。

      無摩擦市場實驗結果

      我們模擬了一個BSM世界,但是經過了修改以反映交易的現實: 離散時間和空間。我們考慮一個股票的價格過程是一個幾何布朗運動(GBM),初始價格 S0 ,日常對數正態波動率 σ /天。我們考慮一個初始金額為歐洲看漲期權( K=S0 ),到期日為 T 天。我們每天用 D 個離散時間,因此每個“episode”有 T·D 個時刻。我們要求交易量(因此也包括持股量)是股票的整數。我們假設我們的代理的工作是對沖該期權的一份合同。在下面的例子中,參數 σ=0.01,  S0=100,  T=10,  D=5 。此外,我們設置了風險規避, κ=0.1 。

      我們首先考慮一個沒有交易成本的“無摩擦”世界,然后回答這樣一個問題:算法是否可能學習動態復制投資組合策略?算法只能通過觀察和與模擬互動來學習。結果如圖1所示。

      最初,RL代理處于不利地位?;叵胍幌?它不知道任何相關的信息如下:

      (1)執行價K,(2)股票價格過程是一個GBM,(3)價格運動的波動性,(4)BSM公式,(5)到期日的回報函數(S?K) +,(6)任何Greeks。

      它必須通過與模擬環境的交互,從這些變量中推斷出相關信息,只要這些信息影響了值函數。

      GBM的每一個樣本外模擬都是不同的,但是我們在圖1中展示了訓練后的一個典型例子。

      圖1。訓練后的代理的樣本外模擬。我們描述累計股票、期權和總損益(P&amp;amp;amp;amp;L:profit and loss);RL代理在股票中的倉位(stock.pos.shares),以及?100·?(delta.hedge.shares)。觀察到(a)累計股票和期權損益粗略地相互抵消,以給出(相對較低的方差)總損益;(b)即使沒有提供delta,RL代理的頭寸也會跟蹤delta頭寸

      如圖1的例子是在無摩擦的模擬中產生的,為什么總損益不完全為零?這是由于離散化誤差造成的。時間是離散的(每天五個時間段),所以連續的對沖是不可能的。此外,該模擬要求交易的股票數量為整數,這又引入了進一步的離散化誤差。

      Baseline

      任何復雜的模型都應該以更簡單的模型為基準進行測試。為了證明其額外的復雜性,更復雜的模型應該能夠做一些簡單的模型不能做的事情。我們定義一個簡單的策略, πDH 作為RL所學到的更復雜的策略的baseline。

      在公式11中令 Δ(pt,τ) 記作剩余到期 τ=T?t 價格為 pt 時的delta,狀態為 st=(pt,τ,nt) , nt 為當前對沖持有的股票。我們的簡單baseline策略必須輸出一個動作,即給定這個狀態向量要交易的股票數量。定義

      其中,round函數返回與參數最接近的整數。

      有摩擦市場的實驗結果

      我們假設有如下的成本函數,自變量是交易股數n。

      取TickSize = 0.1,在乘數multiplier = 1的情況下,TickSize×|n|這一項表示相對于中間點的成本,即跨越兩個tick寬的買賣價差的成本。(13)中的二次項是市場影響的一個簡單模型。圖1的乘數為0。

      RL方法的一個關鍵優點是它沒有對成本函數的形式(13)做任何假設; 它將學會優化預期效用,無論你提供什么成本函數。在圖1中,我們取無摩擦的函數代價中的乘數= 0。我們現在讓乘數等于5,代表高度的摩擦。

      high-trading-cost環境中我們的直覺是,(如果被對沖的倉位相對于市場的典型的交易量是一個非常大的倉位,這將永遠是這樣),簡單的策略 πDH 會交易得太多次了。我們也許可以節省大量的成本,代價是對沖誤差的輕微增加。

      給定(9)中的均值-方差效用函數,我們期望RL學習方差和成本之間的權衡。換句話說,我們期望它比πDH實現更低的成本,可能未來為代價更高的方差,當平均數量足夠大的樣本外模擬(即沒有以任何方式在訓練階段使用的仿真模擬)。

      我們對agent進行了5批訓練,每批15000個episode,每個episode有D·T = 50個時間步。這意味著每次對非線性回歸學習器的調用都涉及75萬對 (Xt,Yt) 。訓練過程在一個CPU上花了一個小時。在訓練之后,我們運行了 N=10,000 個樣本模擬。利用樣本外模擬,我們在baseline代理和RL代理之間進行了一場比賽,baseline代理只使用delta對沖而忽略成本,而RL代理則用一些成本來換取實現的波動性。

      圖2顯示了baseline代理的一個有代表性的樣本外路徑。我們看到它過度交易,付出了太多的代價。

      圖2,樣本外的模擬一個baseline策略πDH。 我們顯示累積的股票損益表和期權損益,兩者大致相互抵消,從而給出(相對較低的方差)總損益表。 我們用股票表示代理的倉位(stock.pos.shares)。 代理進行交易,使下一個周期的倉位為數量- 100·?,四舍五入為股份。

      圖3顯示了同一路徑上的RL代理。我們看到,在保持對沖的同時,RL代理以一種成本意識的方式進行交易。圖3中的曲線代表了代理的倉位(stock.pos.shares),比?100·?(delta.hedge)的值平滑得多,隨著GBM進程自然波動。

      圖3。 我們訓練的RL代理的樣本外模擬。 代表對沖倉位(stock.pos.shares)的曲線控制著交易成本,因此比?100·?(稱為delta.hedge.shares)的值要平滑得多,后者自然會隨著GBM的進程而波動。

      圖3只包含一個從樣本外的N = 10,000路徑集合運行的代表。為了總結所有運行的結果,我們計算了每條路徑的總成本和總損益的標準估計。圖4顯示了所有路徑的總成本和總損益的波動率的核密度估計(基本上是平滑直方圖)。在每一種情況下,我們執行Welch雙樣本t檢驗,看看是否有顯著的差異。

      平均成本的差異具有高度統計學意義,t統計量為?143.22。另一方面,vols的差異在99%的水平(.ge.shares)上沒有統計學上的顯著性,這個水平隨著GBM的進程自然波動。

      圖4。 核密度估計總成本(左面板)和總損益波動率(右面板)從N = 10,000個樣本外模擬。 “reinf”政策的成本要低得多(t-statistic =?143.22),且總損益的波動性沒有顯著差異。

      我們還可以通過總損益(包括對沖和所有成本)顯著小于零的頻率來衡量自動對沖模型的有效性。對于這兩種策略(“delta”和“reinf”),我們計算了每次樣本外模擬運行的總損益的t統計值,并構建了內核密度估計,見圖5?!皉einf”方法被認為表現更好,因為它的t統計量更經常接近于零且不顯著。

      展示5。 對每次樣本外模擬運行的總損益的t統計量的內核密度估計,以及對上述兩種策略(“delta”和“reinf”)的估計。 “reinf”方法被認為比t統計量更接近于零和無關緊要。

      結論

      本文的主要貢獻是說明使用強化學習(RL)可以訓練一個機器學習算法來在現實條件下對沖期權。

      有些值得注意的是,它沒有來實現用戶提供下列信息:(1)執行價K,(2)股票價格過程,日股日經指數不算在內(3)價格的過程,(4)Black-Scholes-Merton (BSM)公式(5)回報函數(S?K) +到期,和(6)的greeks。

      RL方法的一個關鍵優點是它不對交易成本的形式做任何假設。根據交易成本函數,RL學習最小方差的對沖。它所需要的只是一個好的模擬器,在這個模擬器中,交易成本和期權價格可以被精確地模擬出來。

      這有一個有趣的含義,即任何可以定價的期權也可以對沖,不管定價是否通過明確地構造一個復制投資組合來完成——不管復制投資組合是否存在于可交易資產類別中。

      我們的方法不依賴于完美動態復制的存在。它將學會最優地權衡方差和成本,盡可能最好地使用被賦予作為對沖投資組合中潛在候選資產的任何資產。換句話說,它將找到最小方差動態對沖策略,無論最小方差是否實際上為零(在衍生品定價中通常是這樣的,在衍生品定價中,為了獲得無套利價格,需要完全復制)。這一點很重要,因為在許多現實情況下,市場是不完整的,因此完美復制所需的一些資產可能不存在。

      這種方法的另一個優點是它可以自動處理倉位約束。它是任何RL問題的結構的一部分,對于環境的每個可能狀態,代理都有一個(可能依賴于狀態的)可能的操作列表。在上面的示例中,可能采取的操作列表是購買或出售最多100股股票(以整數股的數量計算)。我們注意到,其他貿易或頭寸限制可以以一種直接的方式納入,只需修改依賴狀態的可用action列表。

      在本文中,我們為進一步的研究留下了一些空白。一個明顯的興趣點是在更復雜的硬件上訓練像我們這樣的代理,從而利用更多的模擬和更精細的時間離散化。silver2017精通描述各種各樣的圍棋玩家,他們在多達176個gpu和/或48個TPUs的集群上進行訓練,訓練時間從3天到40天不等。作為參考,本文中的所有示例都是在單個CPU上進行訓練的,允許的最長訓練時間為1小時。

      交易成本不是靜態的。交易量的日內結構有一個眾所周知的“微笑”形狀(由chan1995記錄),美國股票交易量的一個重要部分出現在收盤和收盤拍賣中。我們的RL系統應該能很好地處理這類復雜情況。例如,可以用一個微妙的成本函數來擴展模擬器,該函數依賴于每天的時間,并向狀態向量添加一個離散的時間指示器。

      另一個有趣的研究方向是研究存在交易成本的期權投資組合的最優對沖策略。顯然,對于低gamma的投資組合,不需要如此頻繁的delta對沖,自然會降低交易成本。一般來說,降低方差的最經濟有效的方法可能是使用其他選項,而不是復制投資組合。

      文章內容的分享就到這里了,歡迎大家在評論區交流看法。


      Reference

      [1] Dynamic Replication and Hedging:A Reinforcement Learning Approach. Petter N. Kolm , Gordon Ritter. The Journal of Financial Data Science Jan 2019, 1 (1) 159-171




      Share Http URL:  http://www.tiara-e.com/get_news_message.do?new_id=1042














      請輸入評論





























      青草免费视频,97 碰,山东老熟妇乱子视频,亚洲精品美女视频_河北新闻网