發布時間:2021-07-31所屬分類:工程師職稱論文瀏覽:1次
摘 要: 摘要: 隨著城市軌道交通的迅猛發展,為保證列車安全行駛,對列車速度異常檢測方法研究十分必要。為此提出一種將極端梯度提升( XGboost) 和異常檢驗方法結合的列車速度異常檢測方法。首先利用現場采樣的列車速度數據,對 XGboost 模型進行訓練,然后利用交叉
摘要: 隨著城市軌道交通的迅猛發展,為保證列車安全行駛,對列車速度異常檢測方法研究十分必要。為此提出一種將極端梯度提升( XGboost) 和異常檢驗方法結合的列車速度異常檢測方法。首先利用現場采樣的列車速度數據,對 XGboost 模型進行訓練,然后利用交叉驗證和網格搜索方法確定 XGboost 模型最優參數,最后利用極大似然估計和格拉布斯檢驗,對預測結果進行異常判定。實驗結果表明: 與另外 4 種常用模型的測試集對比,F1 值分別提高 7.08%、12.9%、16.9%和 2.9%,該方法在時間效率上滿足列車運行實時檢測要求。
關 鍵 詞: 交通運輸工程; 列車速度異常檢測; 極端梯度提升; 交叉驗證; 網格搜索; 格拉布斯檢驗
0 引 言
截至 2018 年底,中國內地共 34 個城市開通城市軌道交通運營服務,開通城軌交通線路 171 條,線路總長度為 5 295.1 km,同比增長 15.53%。2012— 2018 年,中國城市軌道交通運營線路總長度年復合增長率高達 17.06%。隨著城市軌道交通的迅猛發展,人們越發重視行車安全。對列車運行速度的監控是掌握列車運行是否安全的一個重要方面,因此對列車運行過程的速度異常檢測十分重要。
國內外針對城軌列車運行速度異常檢測研究較少。一般異常檢測主要方法有基于距離、密度、聚類和深度學習的異常檢測算法。竇珊等[1]提出基于 LSTM 長短期記憶的檢測模型,首先引入一層 LSTM 對時間序列數據進行向量表示,再采用另一層 LSTM 對時間序列逆序重構,將重構值與實際值對比并通過極大似然估計得出異常概率,最終通過學習異常報警閾值判斷異常; 曾惟如等[2]提出了一種學習時間序列內在模式關系的層級實時記憶網絡,首先離散表征原數據相關性,然后輸入層級記憶模型網絡預測下一時刻數值,最終通過和實際值比較判斷異常; 陳興蜀等[3]對網絡流量異常檢測進行了研究,首先對實際網絡流量長期觀測提取正常網絡行為多維特征,然后引入時間序列偏離度概念,并且根據網絡環境變化對更新偏離度,最后利用支持向量機分類來結合各維度信息對異常做綜合判斷; 閆偉等[4]也對網絡流量時間序列異常檢測進行研究,首先提取網絡流量時間序列數據并進行小波降噪消除干擾因素影響,然后建立狀態回聲流量網絡模型檢測異常; 余宇峰等[5]以窗口來進行子序列分割,用分割后的子序列來預測,并根據窗口大小及用戶期望動態設定異常判定閾值; 陳乾等[6]提出基于距離和自回歸的聯合檢測方法,計算待檢測矢量和訓練集中各歷史矢量距離,只要小于閾值,則判斷為異常,在考慮算法通用性和復雜性上,該研究采用的是線性回歸; 孫梅玉[7]首先在時間序列 GMBR 表示的基礎上提出異常模式定義,再將基于距離和基于密度的方法結合來檢測異常; 徐永紅等[8]以滑動窗口為基礎,將協方差矩陣作為時間序列的描述算子,用黎曼距離作為相似性度量標準,以統計過程控制圖作為評價對多元時間序列做異常檢測; 李海林等[9]針對增量式時間序列效率低的問題,提出基于頻繁模式異常檢測方法,首先將時間序列符號化,再利用符號化的特征找出頻繁模式,最后度量頻繁模式和新增時間序列之間的相似度來做異常判斷; 曹丹陽等[10]基于密度的方法,首先將陰極壓降時間序列分割成不重疊的子序列,再基于子序列的局部密度判斷異常子序列; 朱煒玉等[11]首先基于 AR 自回歸對水質時間序列預測,然后采用孤立森林算法去做異常檢測,得到了較滿意結果。
以上是將各種時間序列異常檢測技術和方法運用于不同領域的研究成果,但是并沒有針對城市軌道交通運行速度異常檢測的研究,因此筆者主要提出一種針對城市軌道交通列車運行速度異常檢測算法。
1 列車運行速度實時異常檢測原理
列車運行速度異常檢測的本質均為利用歷史數據信息來做預測,通過比較預測值和實際值來判斷異常。其難點在于以下 3 點: ①如何充分挖掘歷史數據信息; ②如何設定預測值和實際值的異常判斷閾值; ③實時檢測對模型算法計算時間效率要求較高。筆者實際研究場景為城市軌道交通列車運行的時間-速度數據異常檢測。首先采用可變滑動窗口分割子序列,將得到的子序列作為樣例訓練 XGboost 預測模型 ,然后用 XGboost 的預測值區間作為列車速度真實值可疑判定標準,最后用 Grubbs 檢驗判斷異常。
列車運行指除去停站時間外的行駛過程。全過程由若干站間運行子過程組成。每個子過程從數據上可表示為時間-速度值的時間序列,因此列車運行異常檢測問題就是一個時間序列異常點檢測問題。
4 實例分析
4.1 實驗環境和數據集
實驗在 windows10 系統、2.7 GHz Inter Core i7 處理器、Python 3.6.4 環境下進行,以重慶地鐵 6 號線 15 個車一個月行車數據為基礎數據集,抽樣得到 151 771條樣例。測試集數據采用人工標注過異常點的時間序列 72 條共 110 232 個數據點,其中標記異常點總數 3 012 個。
4.2 最優參數選擇
在樣例集上運用五折交叉驗證和網格搜索計算得到樣例集總誤差隨窗口長度參數變化情況如圖 3。
從圖 3 可以看出,不同 r 取值會影響 XGboost 預測模型的預測精度。實驗結果表明,當 r = 90 時,預測總誤差最小值為 18.554 4,因此筆者選擇 r = 90 所對應的 XGboost 模型作為最終預測模型,其最優參數取值為: max_depth = 8,min_child_weight = 1,gamma = 0.0, colsample_bytree = 0.8,subsample = 0.8,eta = 0.05,r = 90。其中,eta 為學習率; min_child_weight 為最小葉子節點樣本權重和; max_depth 為單棵樹最大深度; gamma 為節點分裂所需的最小損失函數下降值; colsample_bytree 為特征的隨機采樣比例; subsample 為生成樹的隨機采樣比例。
相關知識推薦:交通工程sci期刊難投稿嗎
上述得到 XGboost 預測模型在樣例集上的誤差,結合式( 10) ~ 式( 12) 計算得到 μe = -0.000 002, σe = 0.009 395 和 PI =[-0.028 187,0.028 183]。
4.3 實驗結果對比
基于上述計算參數將得到的異常檢測模型同 ARIMA 模型、高斯混合模型、3-sigma 模型和孤立森林模型進行對比,在查準率( P) 、召回率( R) 和 F1 值 3 個指標上的對比結果如下表 1。
從表 1 可以看出,在查準率上 5 種模型都有很高準確率,最低的 3-sigma 模型為 0.916 46,說明模型的誤報率都很低。但是通過分析可知,樣例集中正常點和異常點的比例為 35.597 6,說明樣例占比極不均衡,因此在樣本不均衡情況下即使查準率接近 100%也并不能作為模型整體檢測性能的關鍵指標。再從召回率來看,R 值分別為 0. 941 39、0. 873 06、0. 823 75、 0.810 08和 0.920 16,這說明在漏報率方面筆者模型性能優于其他模型。F1 值是一個綜合 P 值和 R 值考慮的模型性能評估指標,從其結果來看筆者模型在整體檢測性能上也要優于其他模型。
4.4 時間效率分析
在實際異常檢測過程中必須要考慮模型的計算時間效率,否則不滿足實時檢測的要求。重慶行車數據的采集時間間隔為 0.2 s,這要求模型從當前時刻算起,預測下一時刻數據和異常點判定時間總和小于 0.2 s。5 種模型在測試集上計算時間如圖 4。
從圖 4 可以看出,5 種模型在測試集所有數據點上的計算時間均小于 0.2 s,說明它們均滿足實時檢測要求。經統計各模型計算時間的均值和標準差如表 2。
從表 2 可以看出,從均值來看,時間效率平均水平從高到低分別是高斯混合、3-sigma、ARIMA、筆者模型和孤立森林,說明高斯混合和 3-sigma 模型 計算時間是最快的。從標準差來看,從低到高分別是高斯混合、3-sigma、筆者模型、ARIMA 和孤立森林,說明高斯混合和 3-sigma 模型計算時間也最穩定。分析可知,高斯混合和 3-sigma 模型都是基于概率密度的判斷模型,其時間開銷主要在數據點異常概率計算上,而在異常判定時只需與閾值比較,幾乎不需要時間開銷。相比而言,其它 3 種模型都是基于預測值的判斷模型,除了在預測值生成上的時間開銷高于概率密度計算外,還在異常判定時有檢驗計算時間開銷,因此總的時間效率水平和穩定性低于高斯混合和 3-sigma 模型。
5 結 論
列車運行速度實施異常檢測對于城市軌道交通正常運營起安全監控作用。筆者針對城軌列車運行速度異常檢測提出基于 XGboost 模型和 Grubbs 檢驗的方法,可有效解決其他方法中召回率不高的不足。實驗結果表明,筆者提出模型在測試集上整體性能表現優于其他對比模型,而且在 F1 值上超過 90%,說明在誤報率和漏報率兩個方面都有較好表現,滿足城市軌道交通列車運行速度實時異常檢測的時間要求,模型的計算效率在實際測試中是有效的。鑒于異常檢測預測模型在訓練上計算開銷巨大,特別在模型調參優化上非常耗時,如何加快模型訓練速度是進一步研究方向。——論文作者:劉 杰
SCISSCIAHCI