久久成年人电影,国产伦子一区二区三区,伊人国产在线观看

基于依存句法分析的資金賬戶交易畫像

時間：2019-01-15
來源：遠光軟件

本文作者：丁德智，李玫，李國棟（遠光軟件股份有限公司）

摘要：為了提升電網企業資金安全管控能力，有效防范資金安全風險，保障資金高效運轉，文章利用企業海量的銀行交易流水數據，應用自然語言處理技術，基于依存句法分析的結果設計摘要標簽化的提取規則，得到與交易記錄有關的交易標簽與業務標簽。進一步構建出動態完整、實時反映的資金賬戶交易畫像，幫助企業管理人員全面了解賬戶的歷史交易行為，及時發現異常交易風險，輔助管理決策。使用某電網公司6個月的資金交易數據對模型的效果進行測試和評估，獲得了平均96%以上的F1值，結果證實了模型具有很好的實用性,能夠在電網企業進行推廣應用。

關鍵詞：賬戶畫像；資金管理；依存句法分析；交易摘要

0　引言

電網企業資金流動大，交易頻繁，屬于典型的資金密集型企業。目前電網企業在資金安全管理方面普遍存在資金監控信息化程度低和監督監控不完善等問題。改變現有監控系統低效、信息孤島的現狀，需要構建基于大數據的集安全監控、信息共享、數據分析、決策支撐為一體的資金智能安全防控平臺，實現信息化的資金安全管理模式。這一管理模式的實現需要使用自然語言處理（Natural Language Processing, NLP）及機器學習等技術。目前NLP技術的研究主要集中于情感分析方面，多應用于互聯網行業。在電力行業，尤其是資金安全管理領域應用存在較多空白。

傳統的資金賬戶畫像主要是基于賬戶的靜態屬性進行標簽分類，存在更新不及時、信息滯后的缺點。本文通過對企業海量的銀行資金交易流水摘要進行句法關系解析，智能提取交易標簽和業務標簽，構建動態、完整、全面的資金賬戶交易畫像，幫助管理人員實時了解賬戶的歷史交易行為，及時洞察賬戶異常動作，精準定位交易風險，為資金賬戶的全面監控和安全使用提供高精準度的風險防控手段。

1　資金賬戶交易畫像提取框架

1.1　整體提取框架

標簽提取流程如圖1所示，提取流程包括數據預處理、自然語言處理、詞庫構建及標簽提取4個步驟。實現思路是先對交易摘要進行預處理，過濾掉噪聲數據，然后進行自然語言處理，解析得到句法關系樹，根據標簽提取規則，從句法關系樹中提取交易標簽和業務標簽。對于提取不成功的摘要，先用交易標簽和業務標簽相互填補，如果仍然存在摘要提取失敗，則將其歸為“未知交易”。

1.2　核心步驟說明

1.2.1　數據預處理

本步驟主要是去重和剔除摘要中的噪聲數據，例如日期、數字、英文及收款單位名稱等，清洗后的摘要只保留了關鍵信息。

示例：“aHYX_付5月購電費（３００１）”→“付購電費”。

1.2.2自然語言處理

本步驟利用哈爾濱工業大學的LTP（Language Technology Platform）開源中文NLP系統對預處理后的交易摘要進行分詞、詞性標注、命名實體識別、及依存句法分析，最終生成句法關系樹。

根據摘要的特點，本模型主要用到的句法關系有核心詞（HED）、主謂關系（SBV）、動賓關系（VOB）、并列關系（COO）及狀中關系（ATT）。詳細的語義關系說明請參考語言云簡介。

1.2.3　詞庫構建

本模型應用到的詞庫有業務同義詞庫、業務動詞庫及業務關鍵詞庫。其中業務同義詞庫用于合并語義相同的交易業務，例如

上述詞庫需要資深業務專家參與構建，本模型詞庫的部分樣例見表1所列。

1.2.4　標簽提取

標簽提取是本模型的核心步驟，包括交易標簽提取、業務標簽提取及未提取標簽填充3部分。

1）交易標簽

根據句法依賴關系樹，按規則提取交易標簽，例如差旅費、購電費等，主要用到了業務同義詞庫，詳細的提取規則見2.1節。

2）業務標簽

根據句法依賴關系樹，按規則提取業務標簽，例如報銷差旅費、預付購電費等，主要用到了業務動詞庫和業務關鍵詞庫，詳細的提取規則見2.2節。

3）未提取標簽填充

對于未能提取交易標簽但提取了業務標簽的摘要，將業務標簽去除與業務動詞庫相匹配的詞，即可獲得交易標簽，例如：

2　基于句法模式的標簽提取規則

2.1　交易標簽提取規則

清洗后的交易摘要基本是短文本，句法關系相對簡單，HED的詞性主要為動詞和名詞，因此交易規則將圍繞HED的詞性進行設計，具體如下。

2.1.1規則1

若HED詞性是名詞（n表示），將HED與業務同義詞庫進行模糊匹配：

1）若匹配出零個標簽，則不能提取交易標簽；

2）若匹配出1個標簽，則此標簽的核心詞為交易標簽；

3）若匹配出多個標簽：若多個標簽對應的核心詞是1個，則此核心詞為交易標簽；若多個標簽對應的核心詞是多個，則利用HED的ATT詞進行過濾：若無ATT，將HED切換為精準匹配，如果能精準匹配出1個，則此標簽的核心詞為交易標簽，否則不能提取標簽；若有多個ATT，根據ATT的順序，依次進行模糊匹配過濾，如果最終核心詞是1個，則此核心詞為交易標簽，否則不能提取標簽。

提取規則1示例如圖2所示，示例為提取交易標簽

2.1.2規則2

若HED詞性是動詞（v表示），HED存在VOB詞且詞性是名詞，將VOB詞與業務同義詞庫進行匹配，匹配邏輯與“規則1”一致（如果有多個VOB，則依次按本規則匹配）。

提取規則2示例如圖3所示，示例為提取交易標簽

2.1.3規則3

若HED詞性是動詞，且不存在VOB詞或VOB詞的詞性不是名詞：

1）若HED有COO關系的詞。若該詞的詞性是動詞，則將該詞當作HED，按“規則2”邏輯進行匹配；若該詞的詞性不是動詞，則按“HED無COO關系的詞”的規則處理（如果有多個COO關系，則依次按本規則執行，由于是短文本，基本不存在這種情況）。

2）若HED無COO關系的詞。若HED有ATT關系的詞，將該詞與業務同義詞庫進行匹配，匹配邏輯與“規則1”一致（如果有多個ATT關系的詞，則按句法順序，依次按本規則執行）；若HED無ATT關系的詞，但有SBV關系的詞，則將該詞與業務同義詞庫進行匹配，匹配邏輯與“規則1”一致，否則不能提取標簽。

提取規則3示例如圖4所示，示例為提取交易標簽

2.1.4規則4

若HED詞性既不是名詞也不是動詞：

1）若句中只有HED一個詞，將HED與業務同義詞庫進行匹配，匹配邏輯與“規則1”一致；

2）若句中還有其他詞，則不能提取出標簽。

提取規則4示例如圖5所示，示例為提取交易標簽

2.2　業務標簽提取規則

由于交易業務往往會帶有明顯的關鍵詞，比如費、款、金等，因此業務標簽提取規則將圍繞這些關鍵字展開設計，思路是先定位業務詞，再識別業務動詞，具體如下。

2.2.1規則1

如果分詞結果中的詞能與關鍵詞庫中的詞完全匹配，則將該詞標記為H，根據句法分析結果找到與H有ATT關系的詞，記為ATTH。如果沒有ATT，則不能提取標簽。

然后從分詞結果中查找是否有詞包含業務動詞庫中的詞。

1）若沒有，則業務動詞默認為‘付’，記為V；

2）若只有1個，則該詞為業務動詞，將該詞記為V；

3）若有多個，則優先級最高的詞為業務動詞，若優先級相同，則按句法關系順序合并為1個業務動詞，記為V；如果V是ATTH+H的子字符串，業務標簽為+H；否則業務標簽為V++H。

規則1部分示例如表2所列。

2.2.2規則2

如果分詞結果中的詞包含關鍵詞庫中的詞（非完全匹配），則將該詞標記為H。

1）若H只有1個，業務動詞的查找規則與“規則1”一致。如果V是H的子字符串，則業務標簽為H，否則業務標簽為V+H；

2）若H有多個，則依次檢查與H詞語法關系為VOB的動詞：若能找到，且該動詞在業務動詞庫中，則該詞為業務動詞，否則默認業務動詞為“付”，記為V，業務標簽結果為V+H；若找不到，查找H中是否包含業務動詞庫中的詞，如果包含，則業務動詞為空，業務標簽為H，否則業務動詞默認為‘付’，記為V，業務標簽結果為V+H。

規則2部分示例見表3所列。

2.2.3規則3

如果分詞結果中的詞不包含關鍵詞庫中的詞，則不能提取業務標簽。

3　實證分析

3.1　數據來源

實證分析所用數據來自某電網公司2018年1月至6月的銀行交易流水數據（見表4）。

3.2　評價指標

本文使用精確率和召回率以及F-Measure對實證分析結果進行評估，同時將人工提取的標簽作為準確標簽結果。精確率是指算法提取結果中的正確標簽數占提取出的總標簽數的比例，召回率是指算法提取結果中正確標簽數與交易摘要中實際可提取標簽總數的比例。F-Measure則是綜合了精確率和召回率的評價指標。計算公式分別如下。

式中，P表示精確率，A表示可提取并且提取正確的標簽個數，B表示原本不可以提取標簽但提取的標簽個數以及提取錯誤的標簽個數之和。

式中，R表示召回率，C表示未能正確提取標簽的個數。

式中，α是用來衡量精確率和召回率的相對重要性的參數，本文將精確率和召回率視為同等重要，即α取值為1，故F-Measure故為F1：

3.3　結果分析

表5展示的是2018年6月銀行交易摘要提取標簽的部分結果。

3.3.1　模型精確率與召回率分析

考慮到每月提取標簽的數量級大約在10萬條，數量較多，人工識別成本高，因此，本文將采取隨機抽樣方式，每次隨機抽取1000條交易摘要，將提取的標簽與基于人工提取標簽相比，計算模型的精確率、召回率和F1值。同時為了保證評價指標的可靠性，重復3次有放回抽樣，并用3次結果的均值作為模型最后的評價指標，標簽提取結果分析見表6所列。