發布時間:2015-09-15所屬分類:醫學職稱論文瀏覽:1次
摘 要: 正確認識醫學發展中的蛋白質管理應用措施,對于現在的醫學上的新醫學應用發展有何意義呢?有關當先的一些新技巧又該怎么利用呢?本文選自:《生物技術通訊》,《生物技術通訊》是中國科技論文統計源期刊(中國科技核心期刊),被中國科技論文與引文數據庫、中國學
正確認識醫學發展中的蛋白質管理應用措施,對于現在的醫學上的新醫學應用發展有何意義呢?有關當先的一些新技巧又該怎么利用呢?本文選自:《生物技術通訊》,《生物技術通訊》是中國科技論文統計源期刊(中國科技核心期刊),被中國科技論文與引文數據庫、中國學術期刊綜合評價數據庫、中國期刊全文數據庫、中國學術期刊(光盤版)、中國期刊網、中國數字化期刊群、中國生物學文獻數據庫、《中國生物學文摘》、中文科技期刊數據庫等收錄。
摘要:在對生物醫學領域的文本挖掘中,實體識別的目的是對文本中的專業詞匯,包括基因、蛋白質、DNA和RNA等加以確認和分類。對蛋白質的知識發現,第一步就是進行蛋白質實體的識別。實驗采用了一種基于條件隨機域的生物實體識別方法,該方法以Mallet工具為基礎,并增加了單詞的數字、字母、以及距離依賴特性。
關鍵詞:生物醫學,蛋白質,醫學職稱論文發表
1引言
分子生物學研究的飛速發展,使生物醫學文獻呈指數級增長。如此多的文獻資源,為科研人員運用數據挖掘和文本挖掘技術,發現隱含的、有價值的知識提供了有利的條件。
由于大多數的生物信息都保存在文本中。因此對生物醫學的研究一般采用文本挖掘技術。文本挖掘是一個交叉的研究領域,它涉及了數據挖掘、信息檢索、自然語言處理等多個研究領域的內容。利用文本挖掘技術,可以發現許多有用的信息。一些科研人員利用文本挖掘工具,發現了許多對人類有用的知識,例如:魚肝油可治療雷諾式癥、蛋白質之間的相互作用等。另外,從生物醫學文獻中抽取蛋白質基因1相互作用關系對蛋白質知識網絡的建立、蛋白質關系預測以及輔助新藥的研制等都具有重要的意義。
2相關研究
生物醫學的知識發現,一般針對文獻進行研究。基于文獻的知識發現,主要有基于統計、關聯規則、信息測度和基于語義的方法。華盛頓大學的Swanson教授提出了基于單詞的詞頻統計方法。首先統計出共出現的單詞的頻率,然后對文獻集進行分析。通過這種方法,Swanson發現了許多對人類有益的知識。例如,魚肝油對于雷諾氏癥的治療作用,鎂的缺失會引起偏頭痛,某些病毒可以成為潛在的生化武器等等,這些發現都得到了臨床上的證實。
Hristovski日將關聯規則挖掘引入了基于文獻的知識發現。他將生物文獻看作數據庫中的事務,而用來代表文獻內容的詞則看作是規則中的項,通過設置支持度閾值和置信度閾值來產生關聯的詞匯。Wren為詞匯間具有信息的關聯。他使用互信息方法來計算詞的關聯度,通過互信息值的大小來表示關聯的強度。他的方法具有領域無關的特性,可以用來推廣到很多的研究領域。
WeebeIlq等人設計了一個文本挖掘工具DAD系統。它利用自然語言處理系統MetaMap將文獻中的語句映射為UMLS本體中的生物概念。用概念來取代詞匯作為知識發現的基礎。該方法實現了語義層次上的知識發現。他們利用DAD系統找出了生姜潛在的醫療作用。在關聯規則挖掘中,有效閾值的設定很困難。如果閾值設置的過低,會產生大量的候選規則,而設置的過高,則有可能過濾掉許多有意義的規則。另外,基于語義的方法,需要構建領域本體,這需要許多專業人士的共同參與。因此,本文在Swanson的理論基礎提出了一種基于命名實體的詞頻統計方法,該方法通過實體提取、句子分析等過程發現蛋白質之間潛在的關系。該方法閾值的設定對實驗結果影響不大,而且不需要領域專家的參與。
3方法描述
系統首先對語料進行蛋白質實體識別,形成蛋白質實體列表,然后對句中的每個蛋白質實體對進行共出現頻率統計,進而生成候選實體對,最后找出最高出現頻率的實體對,從而發現最可能的實體關聯。該系統的框架如圖1所示。
文獻挖掘有不同層次的分析單元,如單詞、短語、句子、摘要或者全文。對于實體共出現頻率而言,以句子為最大分析單元式最合理的選擇。如果兩個實體對象同時出現在一個句子中,那么就稱為實體共出現,而這兩個實體稱為共出現實體。通過文本挖掘方法處理大批的文獻,提取得到共出現實體,統計它們的總數并計算出實體共出現頻率。如果兩個實體對象的共出現頻率很高,表明這兩個實體對象經常被同時提及,這暗示著這兩個實體對象之間存在關聯的可能性較高。相反,如果實體對象的功出現頻率很低那么這兩個實體對象之間存在關聯的可能性就較低。實驗主要針對蛋白質實體.因此只討論蛋白質一蛋白質實體的共出現頻率。
3.3關系挖掘
通過計算共出現實體在所有句子中的出現頻率,提取關聯實體。根據設定不同的最低共出現頻率閾值,得到不同可靠程度的存在關聯的實體數據,從而發現最有可能存在關聯的蛋白質一蛋白質實體對象。
4實驗
4.1實驗數據集
本實驗以從MEDLINE中隨機新選的2000篇摘要為語料,實驗數據統計見表1。
4.2實驗結果
實驗采用條件隨機域模型進行實體識別,通過計算共出現頻率形成候選實體對。實驗結果詳見表2。其中,“過濾”指忽略低于指定頻率的共出現實體.在這里,指定頻率為5。
5結束語
隨著數據挖掘和文本挖掘技術的進步,生物醫學文獻挖掘在生物信息中的應用越來越廣泛。以知識發現為目的的文獻挖掘以分為提取知識、整合知識以及推導知識。文獻挖掘在尋找蛋白質相互作用、發現疾病相關的基因以及注釋基因功能等方面得到廣泛應用。本文首先識別出蛋白質實體,形成實體列表,然后統計共出現頻率,形成候選實體對,從而發現最有可能的實體關聯。
實驗采用基于實體識別的共出現頻率統計模型,該方法過程簡單,不需要領域專家的直接參與。由于實體在句中具有特定的義,因此,如果模型能夠融合部分語義特征,進行實體關聯動詞統計,進而進行共出現頻率與關聯動詞相結合的分析。這是我們今的研究方向。
SCISSCIAHCI