亚洲h色精品,亚洲精品久久久久,欧美激情一二三区,成人影院入口

學術咨詢服務,正當時......期刊天空網是可靠的職稱工作業績成果學術咨詢服務平臺!!!

醫學知識圖譜構建技術與研究進展

發布時間:2019-08-02所屬分類:醫學論文瀏覽:1

摘 要: 摘 要: 現有知識圖譜構建技術在醫學領域中普遍存在效率低、限制多、拓展性差等問題。針對醫療數據跨語種、專業性強、結構復雜等特點,對構建醫學知識圖譜的關鍵技術進行了自底向上的全面解析,涵蓋了醫學知識表示、抽

  摘 要: 現有知識圖譜構建技術在醫學領域中普遍存在效率低、限制多、拓展性差等問題。針對醫療數據跨語種、專業性強、結構復雜等特點,對構建醫學知識圖譜的關鍵技術進行了自底向上的全面解析,涵蓋了醫學知識表示、抽取、融合和推理以及質量評估五部分內容; 此外,還介紹了醫學知識圖譜在信息檢索、知識問答、智能診斷等醫療服務中的應用現狀。最后,結合當前醫學知識圖譜構建技術面臨的重大挑戰和關鍵問題,對其發展前景進行了展望。

醫學知識圖譜構建技術與研究進展

  關鍵詞: 知識圖譜; 知識獲取; 知識融合; 知識推理; 自然語言處理

  自 1998 年萬維網之父 Berners-Lee 提出語義網,人們不斷在網絡等電子載體上表達和修正對客觀世界的理解,形成了一個概念標準化的過程;同時隨著鏈接開放數據( linked open data)的規模激增,互聯網上散落了越來越多的知識元數據。知識圖譜就是在這樣的大數據背景下產生的一種知識表示和管理的方式,強調語義檢索能力。近年來,在人工智能的蓬勃發展下,知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務領域的一個新熱點,受到國內外學者和工業界廣泛關注。

  知識圖譜的前身是語義網,它吸收了語義網、本體在知識組織和表達方面的理念,使得知識更易于在計算機之間和計算機與人之間交換、流通和加工。具體來說,一個知識圖譜由模式圖、數據圖及兩者之間的關系組成,模式圖對人類知識領域的概念層面進行描述,強調概念及概念關系的形式化表達,模式圖中節點是概念實體,邊是概念間的語義關系,如 part-of;數據圖對物理世界層面進行描述,強調一系列客觀事實,數據圖中的節點有模式圖中的概念實體和描述性字符串兩類,數據圖中的邊是具體事實的語義描述;模式圖和數據圖之間的關系是指數據圖的實例與模式圖的概念之間的對應,或者說模式圖是數據圖的模具。著名的通用知識圖譜中有谷歌的 Knowledge Graph [1]、搜 狗 知 立 方 ( https: / /www. sogou. com/)、YAGO[2]、 DBpedia [3]等,它們具有規模大、領域寬、包含大量常識等特點。目前,醫學是知識圖譜應用最廣的垂直領域之一,如上海曙光醫院構建的中醫藥知識圖譜[4]、本體醫療知識庫 SNOMED-CT (http: / /www. snomed. org /)、IBM Watson Health ( http: / /www- 935. ibm. com/industries/hea lthcare /index. html) 等應用近兩年也開始進入人們視線。

  知識圖譜是智能大數據的前沿研究問題,它以獨有的技術優勢順應了信息化時代的發展,比如漸增式的數據模式設計,良好的數據集成,現有 RDF、OWL 等標準支持,語義搜索和知識推理能力等。在醫學領域,隨著區域衛生信息化及醫療信息系統的發展,積累了海量的醫學數據,如何從這些數據中提煉信息并加以管理、共享及應用,是推進醫學智能化的關鍵問題,是醫學知識檢索、臨床診斷、醫療質量管理、電子病歷及健康檔案智能化處理的基礎。

  1 醫學知識圖譜構建

  本文將醫學知識圖譜構建技術歸納為五部分,即醫學知識的表示、抽取、融合、推理以及質量評估。通過從大量的結構化或非結構化的醫學數據中提取出實體、關系、屬性等知識圖譜的組成元素,選擇合理高效的方式存入知識庫。醫學知識融合對醫學知識庫內容進行消歧和鏈接,增強知識庫內部的邏輯性和表達能力,并通過人工或自動的方式為醫學知識圖譜更新舊知識或補充新知識;借助知識推理,推斷出缺失事實,自動完成疾病診斷與治療;質量評估則是保障數據的重要手段,提高醫學知識圖譜的可信度和準確度。

  1. 1 醫學知識表示知識表示

  是為描述世界所做的一組約定,是知識符號化、形式化、模式化的過程[5],主要研究計算機存儲知識的方法,其表示方式影響系統的知識獲取、存儲及運用的效率。然而醫學數據種類繁雜、存儲方式不一、電子病歷格式和標準不同、經常涉及交叉領域等特點,導致醫學領域與其他領域在知識表示方面有所差異,同時也給醫學領域的知識表示帶來極大的挑戰。

  早期醫療知識庫運用的知識表示方法有謂詞邏輯表示法、產生式表示法、框架表示法、語義網表示法等,比如 SNOMEDCT、早期的 MYCIN 系統[6]、大腸桿菌數據庫 EcoCyc [7]等。隨著知識圖譜中知識增長、關系復雜化,這些方法由于表示能力有限且缺乏靈活性,不再作為主要的知識表示方法,更多是作為醫學知識表示的輔助或補充。

  本體表示法以網絡的形式表示知識,即以(實體 1,關系,實體 2)三元組來表示相關聯的兩個節點(實體),在知識圖譜提出之后逐漸得到認可。它借鑒了語義網表示法但又有所區別,本體關注的是實體固有特征,比后者更聚焦、更深入,因而也具有更大的發展潛力。而本體的描述語言也多種多樣,主要有 RDF 和 RDF-S、DAML、OWL 等。使用本體表示醫學術語可以提升數據整合能力,建立強大、可互操作的醫療信息系統;滿足重用共享傳輸醫療數據的需求;提供基于不同語義標準的統計聚合。醫學領域本體的構建需要深入分析醫學術語的結構和概念,才能將晦澀甚至是跨語言的醫學知識有效地表達出來。目前的醫學知識本體庫有醫學概念知識庫 LinkBase [8]、 TAMBIS 本體庫 (TaO) [9]等。

  知識圖譜的節點個數影響著網絡的結構復雜度及推理的效率和難度。知識表示學習借助機器學習,將研究對象的語義信息表示為稠密低維向量,有效解決數據稀疏問題,從而提升知識融合和推理性能[10]。低維向量表示是一種分布式表示 (distributed representation) [11],它模仿人腦中使用多個神經元存儲對象的工作機制,使用多維度向量表示對象的語義信息。

  知識表示學習中的代表模型有結構化表示法( structure embedding,SE) [12]、單層神經網絡模型 ( single layer model, SLM) [13]、隱 變 量 模 型 ( latent factor model,LFM) [14]、基 于 TransE[15]的翻譯模型等。這些模型考慮實體間的協同性和計算開銷,用向量表示實體,再對表示實體的向量或關系進行相應的矩陣變換,提出評價函數來衡量實體間的相關性,并為之后的知識補全和推理提供重要參考。Kleyko 等人[16]證明了分布式表示方法表示醫學圖像進行分類,精度能夠與最佳經典方法相同;Henriksson 等人[17] 對比使用多種知識表示方法表示 EHR 中四類記錄:診斷記錄、藥物使用記錄、治療方法和病程記錄。顯然,知識表示學習無疑為醫學知識圖譜的知識表示開辟了新思路。

  1. 2 醫學知識抽取

  醫學知識圖譜的構建主要是從非結構化數據中人工或自動地提取實體、關系和屬性。人工提取是通過專家依據一定規則收集并整理相關信息提取知識,目前通過人工構建的醫學知識庫包括臨床醫學知識庫[18]、SNOMED-CT、ICD-10 等;自動提取則是利用機器學習、人工智能、數據挖掘等信息抽取技術,從數據源中自動提取出知識圖譜的基本組成元素,自動構建醫學知識庫的典型例子有一體化醫學語言系統 UMLS [19]。人工提取的代價太大,知識的自動提取是目前重點的研究方向,也是將來構建知識圖譜的趨勢。本節主要介紹如何自動從數據源中抽取知識和信息,包括實體、關系和屬性抽取。

  1. 2. 1 實體抽取

  識別文本中的生物醫學實體,其目的在于通過識別關鍵概念進一步提取關系和其他信息,并將識別的概念以標準化的形式表示出來。醫學領域的實體抽取是從醫學數據源中提取出特定類型的命名實體,將醫學實體的抽取方法歸納為三類。

  1)基于醫學詞典及規則的方法

  該方法通過人工定義規則和模式匹配生成詞典或使用現有醫學詞典從語料中抽取醫學實體,它是具有挑戰性的。首先,目前沒有完整的字典囊括所有類型的生物命名實體,所以簡單的文本匹配算法是不足以應對實體識別的;其次,相同的單詞或短語其意義可根據上下文的改變而指代不同的物體 (如鐵蛋白可以是生物物質或實驗室測試方法);再次,許多生物或藥物實體同時擁有多個名稱(如 PTEN 和 MMAC1 指代相同的基因)。因此,基于醫學詞典及規則只在最早期被廣泛使用。Friedman 等人[20]通過自定義語義模式和語法來識別電子病歷中的醫學信息。Wu 等人[21]使用了 CHV[22]和 SNOMEDCT 兩個醫學詞典得到了不錯的實驗結果,雖然該方法能達到很高的準確度,但無法徹底解決上述問題,也過分依賴專家編寫的詞典和規則,無法適應醫學領域詞匯不斷涌現的現實情況。

  2)基于醫學數據源和數學模型的機器學習方法

  該方法通過使用統計學和機器學習方法,結合醫學數據源的特點訓練模型,進行實體識別。在英文醫學實體抽取方面,最具代表性的標注語料是 i2b2 2010 [23] 發布的英文電子病歷標注語料,另外還有 SemEval( http: / /www. senseval. org /)、NTCIR( http: / /research. nii. ac. jp /ntcir) 等評測,以及 NCBI [24] 語料庫等,都提供了英文醫學實體標注數據。

  目前常用方法有隱馬爾可夫模型(HMM)、條件隨機場模型(CRF)、支持向量機模型( SVM) 等。Kazama 等人[25] 使用 SVM 模型進行生物醫學命名實體識別,引入了 POS、詞緩存、無監督訓練得到的 HMM 狀態等特征,該方法在 GENIA 語料庫中準確率高于最大熵標記方法,并能較高效地應用于大規模語料集。Zhou 等人[26]通過一系列特征訓練 HMM 模型,包括詞的構成特征、形態特征、POS、語義觸發、文獻內名稱別名等,其識別 準 確 率 達 66. 5% ,在 GENIA 語料庫中的召回率達 66. 6% 。綜合以上方法,Chen 等人[27]利用 MedLEE 系統來識別與生物醫學文本中與表型信息相對應的短語,該系統使用自然語言技術來識別期刊文章摘要中存在的表型短語。生物醫學的實體識別常常可使用較小的表型相關術語的知識庫。文獻[28]自動導入與語義類別相關的數千個 UMLS 術語,如細胞體功能和細胞功能障礙以及哺乳動物本體中的幾百個術語,并手動添加了幾百個術語,實驗結果表明,其實體識別準確率達 64. 0% ,召回率達 77. 1% 。雖然結果不高,但為之后的研究人員提供了一條可行的思路。

  在醫學領域,命名實體識別的痛點在于數據質量的良莠不齊以及人工標注的專業性要求高。目前有專門針對如何降低對于數據標注依賴的研究,其原理主要是利用海量未標注數據持續提升模型性能,從小樣本中進行學習,自我探索逐步學習新知識,形成一個交互學習過程。

  3)深度學習方法

  深度學習近年來開始被廣泛應用于命名實體識別,最具代表性的模型是 2011 年 Collobert 等人[29]提出的一個深層神經網絡模型,其效果和性能超過了傳統算法。Sahu 等人[30]所提出的 CNN 與 RNN 級聯的方法生成詞嵌入特征,其結果優于目前最好的算法且不需要過多的特征工程。

  在醫學領域,Wei 等人[31] 基于 CRF 和雙向 RNN 生成特征,再使用 SVM 進行疾病命名實體識別。目前醫學信息命名實體識別任務中最主流的深度學習模型是 BiLSTM-CRF 模型, Jagannatha 等人[32] 對比了 CRF、BiLSTM、BiLSTM-CRF 三種模型以及一些它們的改進模型在英文電子病歷命名實體識別的效果,實驗結果表明所有基于 LSTM 的模型都比 CRF 效果更好,并且 BiLSTM 結 合 CRF 模型能夠進一步提高評測結果 2% ~ 5% 的準確率。

  1. 2. 2 實體抽取

  本文將醫學實體關系抽取歸結為兩類:同類型醫學實體層級關系抽取,如疾病的腸胃病—慢性胃炎等;不同類型關系抽取,如疾病—癥狀等。

  1)同類型醫學實體層級關系抽取

  同類型醫學實體層級關系相對較為單一,主要是 is-a 和part-of 關系。由于醫學有其嚴謹的學科體系和行業規范,此類關系往往在醫學詞典、百科、信息標準中進行。

  ICD-10 [33]、SNOMED 等醫療詞典或醫療數據庫重點關注醫學專業術語、受限詞匯的分類和概念標準化工作,權威且涵蓋范圍廣,在數量和質量上都有所保障,被醫療行業廣泛認可,是抽取層級間實體關系的首選來源。針對具體的醫療詞典、知識庫提供的數據格式和開放 API 接口,可通過爬蟲、正則表達式、D2R 映射等技術從中抽取分層結構,抽取三元組來匹配、添加上下位關系。

  2)不同類型醫學實體關系抽取

  不同類型醫學實體間的語義關系識別大致基于兩大不同數據源而實現,一是百科或其他結構化數據源,如 MEDLINE、 UMLS 等;二是半結構化的電子病歷。醫學實體類型相對有限 (主要是疾病、癥狀、治療、藥品等),目前通常在兩個實體間預定義好要抽取的關系類型,再將抽取任務轉換為分類問題來處理。如何預定義實體關系目前尚未有統一的標準,這取決于醫學知識圖譜構建過程中模式圖的設置、實體識別情況、語料來源、構建目的及應用場景等,如在 i2b2 2010 評測中,將電子病歷中的實體關系分成了醫療問題與醫療問題、醫療問題與治療、醫療問題與檢查三類。

  Uzuner 等人[34]在句子層面抽取了六類醫療實體關系,使用實體順序和距離、鏈接語法和詞匯特征來訓練六個 SVM 分類器,通過對比實驗,指出詞匯特征在實體關系識別中的重要作用。在此基礎上,基于 MEDLINE 摘要,Frunza 等人[35] 抽取了疾病、治療間的三種關系,并引入 UMLS 生物和醫療實體特征,取得了不錯的實驗結果。而 Abacha 等人[36]在同樣的任務中使用人工模板和 SVM 的混合模型,取得了 94. 07% 的平均 F 值。該研究指出,在樣本數較少時,模板匹配方法起主要作用,而面向海量樣本時則 SVM 起主要作用。

  此外,在關系識別的分類方法對比研究中,De Bruijn 等人[37]在 i2b2 2010 評測中對比研究了有監督分類和基于 selftraining 的半監督分類的表現,表明 UMLS、依存句法分析結果和未標記數據對關系識別有著顯著影響。除了預定義關系然后轉換為分類任務來處理的方法,還有少量研究采用了模板匹配、統計共現等方法來抽取關系,如在 MEDLINE 摘要中通過統計基因名的共現來提取關系,并根據共現矩陣生成了關系圖[38],或在 MEDLINE 摘要中通過語法依賴樹進行圖的模式匹配,進而抽取因果關系[39]。

  醫學相關知識推薦閱讀:醫療技術方面論文有哪些征稿期刊

  從事醫學領域工作的技術人員,無論是研究項目還是晉升職稱都會要求發表論文的,而且這一領域比其他行業要求更為嚴格,為此很多想要發表醫療技術論文的作者,對于期刊的選擇了解的并不多,哪類期刊能征收這方面的論文,大家是比較困惑的,為此,小編在這里給大家推薦了幾本合適的刊物,希望對于需要發表論文的作者提供幫助。

2023最新分區查詢入口

SCISSCIAHCI

主站蜘蛛池模板: 仁寿县| 天镇县| 怀柔区| 邵东县| 沽源县| 深水埗区| 河东区| 祁东县| 沁阳市| 砚山县| 淮阳县| 大姚县| 巨鹿县| 盖州市| 仪征市| 冷水江市| 台中市| 玉田县| 邢台县| 平远县| 宁国市| 铜鼓县| 治县。| 福海县| 固原市| 固镇县| 元阳县| 电白县| 林西县| 遂昌县| 德阳市| 阳江市| 黄大仙区| 那坡县| 平乐县| 金门县| 安平县| 莲花县| 杭锦后旗| 城步| 十堰市|