發(fā)布時間:2021-07-16所屬分類:科技論文瀏覽:1次
摘 要: 摘 要電信詐騙給社會帶來巨大利益損失,運營商需要從網(wǎng)絡(luò)側(cè)研究如何有效地進(jìn)行反詐工作,而反詐工作的核心任務(wù)是發(fā)現(xiàn)網(wǎng)絡(luò)中偽造身份的通信行為。本文提出了一套通用的反詐流程,能夠有效發(fā)現(xiàn)網(wǎng)絡(luò)中存在的偽造身份通信行為,針對流程中的每一個環(huán)節(jié),介紹了相
摘 要電信詐騙給社會帶來巨大利益損失,運營商需要從網(wǎng)絡(luò)側(cè)研究如何有效地進(jìn)行反詐工作,而反詐工作的核心任務(wù)是發(fā)現(xiàn)網(wǎng)絡(luò)中偽造身份的通信行為。本文提出了一套通用的反詐流程,能夠有效發(fā)現(xiàn)網(wǎng)絡(luò)中存在的偽造身份通信行為,針對流程中的每一個環(huán)節(jié),介紹了相關(guān)技術(shù)手段和算法。最后,本文介紹了如何結(jié)合多種技術(shù)手段發(fā)現(xiàn)網(wǎng)絡(luò)中的詐騙事件。
關(guān)鍵詞反電信詐騙;機器學(xué)習(xí);數(shù)據(jù)挖掘
電信詐騙極大損害用戶利益,給運營商帶來了聲譽損失。運營商如何利用技術(shù)手段進(jìn)行反詐一直以來都是研究重點。起初電信詐騙特征并不復(fù)雜,通過一些簡單的行為分析與內(nèi)容檢測就可以達(dá)到不錯的反詐效果。隨著詐騙分子與反詐人員技術(shù)對抗不斷升級,電信詐騙在網(wǎng)絡(luò)側(cè)的行蹤已經(jīng)越來越隱蔽。具體表現(xiàn)在詐騙分子開始進(jìn)行精準(zhǔn)詐騙,針對不同用戶群量身定制詐騙腳本;詐騙分子同時用多個號碼實施詐騙,避免反詐行為分析;詐騙分子采用多種渠道實施詐騙,運營商無法獲得完整詐騙劇本。在新的反詐形勢下,為了能夠有效發(fā)現(xiàn)網(wǎng)絡(luò)中發(fā)生的電信詐騙事件,需要對新的反詐技術(shù)手段進(jìn)行研究。
1電信詐騙的本質(zhì)
電信詐騙的本質(zhì)是通過偽裝身份來騙取對方的信任從而牟取不法利益。由此可以看出,發(fā)現(xiàn)電信詐騙最根本手段是發(fā)現(xiàn)通信者是否在偽造自己的身份進(jìn)行通信。比如消息發(fā)送者聲稱自己是10086的客服,但如果可以通過技術(shù)手段發(fā)現(xiàn)其不是,則該消息發(fā)送者較大概率是電信詐騙分子。詐騙分子的詐騙手段總是不斷翻新,但這一本質(zhì)特征是永久不變的。所以,如何通過技術(shù)手段發(fā)現(xiàn)詐騙分子的偽裝身份是反電信詐騙的核心工作。
2反電信詐騙的優(yōu)劣勢分析
電信詐騙分子能夠讓受害者受騙,證明其傳遞的信息從語義上很難辨識真?zhèn)巍5\營商具有受害者所沒有的全網(wǎng)視角,可以全面分析詐騙號碼與不同受害者的通信行為,這是運營商反詐的有力條件。
相比于互聯(lián)網(wǎng)即時消息公司的反詐條件,運營商存在如下不利條件。
(1)互聯(lián)網(wǎng)即時消息服務(wù)通常是一個熟人網(wǎng)絡(luò),用戶必須彼此添加好友后才可以進(jìn)行通信。而電信運營商的網(wǎng)絡(luò)是一個陌生人網(wǎng)絡(luò),任何人可以在得知對方手機號碼的情況下與對方進(jìn)行通信。這無疑降低了詐騙分子聯(lián)系到受害者的門檻。
(2)互聯(lián)網(wǎng)即時消息服務(wù)安裝在用戶終端處,消息既可以在網(wǎng)絡(luò)側(cè)攔截,也可以在終端側(cè)攔截。在終端側(cè)攔截的好處是用戶可以恢復(fù)誤攔截的消息。另外,在終端側(cè)可以結(jié)合更多用戶信息(如手機通訊錄)進(jìn)行反詐。而運營商唯一的治理手段是在網(wǎng)絡(luò)側(cè)攔截,存在誤攔截風(fēng)險,且用戶感知度差。
(3)互聯(lián)網(wǎng)即時消息服務(wù)會留存用戶一段時間內(nèi)的全量消息記錄,包括文字、圖片和語音消息等,反詐數(shù)據(jù)基礎(chǔ)比較完備。運營商則默認(rèn)不保存用戶正常通信內(nèi)容,僅保留用戶的通信行為數(shù)據(jù)。此外,運營商僅會對網(wǎng)絡(luò)中傳播的不良信息(垃圾短信、垃圾彩信、騷擾電話語音和違規(guī)圖片信息等)進(jìn)行實時監(jiān)控并保存留證,其規(guī)模遠(yuǎn)遠(yuǎn)小于全量的通信內(nèi)容。
綜上所述,電信網(wǎng)是陌生人網(wǎng)絡(luò),無法直接獲得熟人關(guān)系。運營商只能進(jìn)行網(wǎng)絡(luò)側(cè)治理,要結(jié)合多方數(shù)據(jù)進(jìn)行精準(zhǔn)判定才能進(jìn)行實施消息攔截。運營商反詐數(shù)據(jù)基礎(chǔ)不足,需要最大化利用現(xiàn)有信息與外部安全廠商實現(xiàn)數(shù)據(jù)共享。
3反詐技術(shù)框架
如圖1所示,整個電信詐騙流程可分為數(shù)據(jù)源選擇、無關(guān)數(shù)據(jù)過濾、詐騙腳本粗篩、身份屬性挖掘、身份屬性檢查和詐騙分析識別幾個階段。
3.1數(shù)據(jù)源選擇
反詐的第一步是要選擇好數(shù)據(jù)源。數(shù)據(jù)源包含內(nèi)部數(shù)據(jù)源和外部數(shù)據(jù)源。其中內(nèi)部數(shù)據(jù)源可以有很多種,比如垃圾短信數(shù)據(jù)、垃圾彩信數(shù)據(jù)、騷擾電話數(shù)據(jù)和電話話單等。外部數(shù)據(jù)源包括外部公司或組織共享的投訴舉報數(shù)據(jù)、號碼標(biāo)記數(shù)據(jù)和外部提供的其它安全服務(wù)能力等。
數(shù)據(jù)源的選擇一般遵循兩個標(biāo)準(zhǔn)。第一,數(shù)據(jù)源便于身份屬性挖掘。比如在國際詐騙電話數(shù)據(jù)中,詐騙分子通常會將號碼改成公安局的號碼來實施公檢法類的詐騙。所以國際詐騙電話中的主叫號碼信息就體現(xiàn)了詐騙分子身份屬性。又如詐騙分子發(fā)送的消息、語音類數(shù)據(jù)中往往會包含姓名、手機號和網(wǎng)站等身份屬性信息。第二,數(shù)據(jù)源便于檢查身份屬性。比如通過分析用戶之間的通信行為可推斷二者是否為熟人關(guān)系,通過安全公司共享的號碼標(biāo)記數(shù)據(jù)可檢查手機號碼是否為詐騙電話等。
3.2無關(guān)數(shù)據(jù)過濾技術(shù)
在數(shù)據(jù)源確定以后,可以對數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理主要是對無關(guān)數(shù)據(jù)進(jìn)行過濾。方法大體可以分為對結(jié)構(gòu)化數(shù)據(jù)(如通話話單)過濾和對非結(jié)構(gòu)化數(shù)據(jù)(如短消息)過濾。結(jié)構(gòu)化數(shù)據(jù)過濾主要是篩選或限定字段的取值,非結(jié)構(gòu)化數(shù)據(jù)過濾主要依靠人工智能分類模型進(jìn)行處理。比較常用的有樸素貝葉斯分類、卷積神經(jīng)網(wǎng)絡(luò)分類和循環(huán)神經(jīng)網(wǎng)絡(luò)分類。
3.3詐騙腳本粗篩
詐騙分子通過各種黑、灰產(chǎn)業(yè)購買潛在受害者隱私信息,并將潛在受害者分類,編制不同的詐騙腳本。詐騙分子在與同類潛在受害者接觸時,會使用相同的腳本。因此網(wǎng)絡(luò)上會產(chǎn)生大量內(nèi)容相似的通信數(shù)據(jù)。如相似措辭的短消息數(shù)據(jù)、相似開場白的語音數(shù)據(jù)和相似內(nèi)容的圖片數(shù)據(jù)等。故對過濾后的數(shù)據(jù)進(jìn)行相似內(nèi)容聚類可粗略定位網(wǎng)絡(luò)中的詐騙腳本。
隨著大量深度學(xué)習(xí)預(yù)訓(xùn)練模型的涌現(xiàn),將任意類型的信息特征化為特征向量變得容易實現(xiàn)。如word2vec和bert等模型可將任意詞語或短消息轉(zhuǎn)為特征向量;vgg16和resnet50等模型可將任意圖片轉(zhuǎn)為特征向量;lstm和transformer可將任意語音轉(zhuǎn)為特征向量。將信息向量化后就可以方便地使用K-means等聚類算法對信息進(jìn)行聚類。在數(shù)據(jù)聚類完成后,就可以以聚類為單位,按聚類的大小降序分析每個聚類中的信息內(nèi)容,挖掘聚類中的身份屬性信息。
3.4身份屬性挖掘
偽造身份信息是詐騙腳本的核心,所有的詐騙套路都是圍繞偽造身份展開的。詐騙分子會使用各種偽造身份取信于受害者。同時,詐騙分子通常會準(zhǔn)確地說出受害者的姓名和身份證號等隱私信息來強化自身身份。因此,身份屬性信息在詐騙消息中是無法避開的內(nèi)容。可以通過分析聚類中是否包含身份屬性信息來進(jìn)一步定位潛在的詐騙信息聚類。
最常見身份屬性信息就是姓名、地名、組織機構(gòu)名、手機號、QQ號和微信號等。所有這些信息在自然語言處理領(lǐng)域統(tǒng)稱為命名實體。從自然語言中提取出這些信息的任務(wù)稱為命名實體識別。目前命名實體識別技術(shù)僅適用于文本類數(shù)據(jù)。針對語音類信息,可以首先將語音轉(zhuǎn)化為文本后再進(jìn)行處理。針對包含文字較多的圖片類信息,可以考慮使用光學(xué)字符識別(OCR)功能將圖片轉(zhuǎn)文本后進(jìn)行處理。
對于一些遵循特定格式要求的命名實體(如手機號、網(wǎng)址和郵箱等)可以使用正則表達(dá)式實現(xiàn)精確提取。對于其它命名實體,需要使用命名實體識別算法進(jìn)行抽取。命名實體識別算法有很多,比較著名的是CRF模型和深度神經(jīng)網(wǎng)絡(luò)模型。
3.5身份屬性檢查
在提取出身份屬性信息后,需要對提取出的身份屬性信息進(jìn)行檢查,以確定身份屬性是否是已知具有詐騙性質(zhì)的屬性。比如號碼是否為已知詐騙號碼,網(wǎng)址是否是釣魚網(wǎng)站。屬性檢查方法可以利用內(nèi)部數(shù)據(jù)自行檢查,也可借助外部安全服務(wù)進(jìn)行檢查。在利用內(nèi)部數(shù)據(jù)的檢查手段中,針對手機號碼檢查,本文介紹兩種檢查方法,一種是檢查號碼通信雙方是否為熟人關(guān)系,另一種是通過號碼的行為判斷是否具有詐騙電話特征。針對網(wǎng)址類屬性檢查,本文重點介紹釣魚網(wǎng)站識別技術(shù)。
3.5.1熟人關(guān)系挖掘技術(shù)
通過信息內(nèi)容來判定信息的發(fā)送者與接收者是否為熟人存在技術(shù)困難。一些詐騙分子會冒充熟人身份進(jìn)行詐騙,比如在詐騙語音中說“猜猜我是誰”。又比如在短消息中說自己是領(lǐng)導(dǎo)。隨著深度偽造技術(shù)的應(yīng)用,詐騙分子甚至可以生成任何人的語音和人臉信息,從而快速得到受害者信任。
電信網(wǎng)是一個陌生人網(wǎng)絡(luò),運營商無法直接獲取到網(wǎng)絡(luò)中存在的熟人關(guān)系網(wǎng),必須通過算法挖掘才能夠?qū)崿F(xiàn)。一種能夠獲取熟人關(guān)系的方法是分析通信雙方的話單記錄。當(dāng)通信雙方在較長的時間內(nèi)形成了比較穩(wěn)定的呼叫關(guān)系,則可以認(rèn)為雙方是熟人關(guān)系。熟人關(guān)系是具有方向性的。即當(dāng)號碼A呼叫號碼B比較穩(wěn)定時,則熟人關(guān)系將從號碼A指向號碼B。按照如上思路分析全網(wǎng)所有通信記錄得到描述全網(wǎng)熟人關(guān)系的有向圖。網(wǎng)絡(luò)中每個節(jié)點代表一個手機號碼,每條邊代表一個熟人關(guān)系,邊的方向代表呼叫的方向。可以通過pagerank方法對這個有向圖中每個節(jié)點的權(quán)重進(jìn)行打分。
如圖2所示,給定任意號碼X,可以找到其指向的節(jié)點A、B、C,在其中選擇打分最高的節(jié)點A作為第一熟人關(guān)系圈中心,則所有指向節(jié)點A的節(jié)點構(gòu)成了X的第一熟人關(guān)系圈(所有紫色節(jié)點)。同理可以得到X所在的第二熟人關(guān)系圈(所有藍(lán)色節(jié)點)。這些關(guān)系圈可以用來檢查任意號碼是否在指定號碼的熟人關(guān)系圈中,進(jìn)而輔助系統(tǒng)分析號碼是否是冒充熟人號碼。
3.5.2詐騙行為分析技術(shù)
一些詐騙電話在行為上符合騷擾電話的特征。即呼叫頻次較高、平均通話時長較短、號碼被掛斷次數(shù)較高、不同被叫較多等。可定期對一段時間的話單記錄中的每個主叫號碼計算如上行為統(tǒng)計指標(biāo),并通過機器學(xué)習(xí)方法(如使用決策樹、隨機森林或梯度提升機等)對詐騙電話與正常電話的差異進(jìn)行研究。
詐騙行為分析僅能以較粗的粒度篩選出潛在的詐騙電話。因為一些電話與詐騙電話行為非常接近,比如快遞和送餐類電話呼叫頻次、不同被叫數(shù)量等指標(biāo)與詐騙電話類似。因此,詐騙電話行為分析的結(jié)果需要結(jié)合其它手段進(jìn)行更精確的識別。
3.5.3釣魚網(wǎng)站識別技術(shù)
運營商可以使用技術(shù)手段對提取的網(wǎng)站類身份屬性信息進(jìn)行釣魚網(wǎng)站檢測。如圖3所示,釣魚網(wǎng)站的檢測可劃分為域名角度和網(wǎng)站內(nèi)容角度。
從域名角度檢測是檢查網(wǎng)站域名是否和知名網(wǎng)站域名相似。比如詐騙分子通常會使用10086c.org等與10086.cn類似的域名作為模仿中國移動官網(wǎng)的釣魚網(wǎng)站。域名比較方法可以使用編輯距離或最長公共子序列等。為了規(guī)避域名分析,詐騙分子通常使用短鏈接服務(wù)隱藏域名。直接對短鏈接域名進(jìn)行分析沒有意義。需要將短鏈接還原后再進(jìn)行釣魚域名檢測。
本文來源于:《電信工程技術(shù)與標(biāo)準(zhǔn)化》本刊宣傳信息產(chǎn)業(yè)的方針、政策,報道電信工程建設(shè)和網(wǎng)絡(luò)運行方面的成就與發(fā)展趨勢;介紹新的通信理論和技術(shù)知識,技術(shù)標(biāo)準(zhǔn)規(guī)范。交流科研、設(shè)計、規(guī)劃、施工維護(hù)方面的技術(shù)與經(jīng)驗,突出實用性、指導(dǎo)性。為海內(nèi)外信息工程建設(shè)和網(wǎng)絡(luò)運行部門提供技術(shù)支撐與標(biāo)準(zhǔn)服務(wù)。
從圖3中可看出,網(wǎng)頁內(nèi)容角度檢測可從4個方面入手。
(1)需要檢查網(wǎng)站中引用的圖片元素,尤其是logo是不是已知知名網(wǎng)站的logo。
(2)檢查網(wǎng)頁文字內(nèi)容是否與知名網(wǎng)站相似。
(3)檢查網(wǎng)頁中是否存在提示用戶輸入敏感信息的表單元素。
(4)檢查網(wǎng)頁源代碼是否經(jīng)過加密,如使用類似凱撒加密方法進(jìn)行加密,并使用javascript在客戶端運行時進(jìn)行解密。
3.5.4借助外部安全服務(wù)
針對號碼類屬性信息,運營商可以利用自身和外部提供的垃圾信息舉報平臺和反詐平臺獲取用戶舉報數(shù)據(jù),幫助發(fā)現(xiàn)詐騙分子的手機號。但更多情況下,用戶更喜歡使用終端安全軟件來標(biāo)記接收到的詐騙電話或舉報垃圾信息,因此可以考慮與終端安全廠商進(jìn)行合作,共享號碼標(biāo)記數(shù)據(jù),從而提高反詐的治理精準(zhǔn)度。
針對網(wǎng)址類屬性信息,運營商可以考慮使用安全廠商提供的釣魚網(wǎng)站檢測功能,對信息中包含的釣魚網(wǎng)站進(jìn)行識別,從而發(fā)現(xiàn)詐騙分子。類似來確定合法網(wǎng)站的手段還有域名備案網(wǎng)站和域名流量排名網(wǎng)站等。
3.6詐騙分析識別
在完成了數(shù)據(jù)聚類和身份屬性提取后,結(jié)合屬性檢查能力,可采用多種方法發(fā)現(xiàn)網(wǎng)絡(luò)中的詐騙事件。本文列出了比較常用的4種手段。
(1)直接借助外部服務(wù)發(fā)現(xiàn)詐騙號碼。比如跟蹤被安全公司標(biāo)記為詐騙電話的號碼在網(wǎng)絡(luò)中發(fā)送的信息或撥打的電話,在取證無誤后就可以對號碼進(jìn)行處理。另外,可以使用安全公司的釣魚網(wǎng)站識別服務(wù)檢查垃圾信息中附帶的鏈接信息,若出現(xiàn)釣魚網(wǎng)站,且發(fā)送量較大,則則發(fā)送信息的號碼可判定為詐騙號碼。
(2)使用身份屬性之間的矛盾來發(fā)現(xiàn)詐騙號碼。詐騙分子在同時聯(lián)系多個受害者實施詐騙時,會出現(xiàn)身份屬性自相矛盾的情況。比如在相同詐騙腳本中,同一個手機號碼給多個不同的手機號發(fā)送冒充子女類短信,明顯不符合邏輯。又比如在相同詐騙腳本中,同一個手機號碼聲稱自己的姓名不一致,甚至出現(xiàn)數(shù)十個不同的名字,也屬于身份屬性自相矛盾。
(3)結(jié)合身份屬性與熟人關(guān)系圈發(fā)現(xiàn)詐騙號碼。當(dāng)手機號碼的通信行為同時影響到多個不同的熟人關(guān)系圈,且這些熟人關(guān)系圈在之前彼此沒有交集時,則這個手機號碼很可能是詐騙號碼。
(4)結(jié)合行為分析與外部服務(wù)發(fā)現(xiàn)詐騙號碼。單純依靠行為分析很難確定號碼是否是詐騙號碼。可以用安全公司提供的標(biāo)記信息從疑似詐騙號碼中踢除非詐騙電話號碼(快遞和網(wǎng)約車等),從而大幅提升識別精確度,減少對疑似號碼的人工撥測驗證工作量。——論文作者:杜剛,朱艷云,張晨,杜雪濤