發布時間:2020-01-14所屬分類:管理論文瀏覽:1次
摘 要: 摘 要: 文章以中國知網的中文學術文獻數據庫為基礎,利用詞頻統計,結合時間參數,對中文科技新詞做了探討。文章認為,高被引論文的關鍵詞包含了專業領域的重要中文科技名詞。統計結果表明,大部分高被引論文為基金論文。由于基金論文在全部論文中所占比例較
摘 要: 文章以中國知網的中文學術文獻數據庫為基礎,利用詞頻統計,結合時間參數,對中文科技新詞做了探討。文章認為,高被引論文的關鍵詞包含了專業領域的重要中文科技名詞。統計結果表明,大部分高被引論文為基金論文。由于基金論文在全部論文中所占比例較低,因此,不需要考慮全部新論文,只要對其中基金論文的關鍵詞做詞頻統計,就有助于發現大部分重要中文科技新詞。這樣,既減少了工作量,也減少了盲目性。此項工作對科研工作者和術語工作者有一定幫助。
關鍵詞: 大數據; 文獻計量學; 基金論文; 詞頻統計; 中文科技新詞
引 言
首先說明,本文所指的科技新詞,是指在所考察時段才出現,而在該時段之前沒有出現過的科技名詞。科技新詞發現越早,越可以及早規范定名,就可以盡量避免因定名過晚,多名并存導致的混亂。
從中國知網( CNKI) 來看,關于這方面的文獻,主要有 3 篇: 才磊的《科技新詞工作初探》[1],張暉的《科技新詞工作實踐探索》[2]和余恒、崔辰州、張暉的《天文學英語新詞自動提取系統》[3]。《科技新詞工作初探》主要就科技新詞的概念、科技新詞的界定、科技新詞的來源及其構成著手,探討了如何開展科技新詞的命名及審定工作,但未討論具體如何操作。《科技新詞工作實踐探索》在操作層面做了探討,提出自動抽取與專家推薦相結合的辦法,但實際效果與期望有一定差距,未能持續開展工作。在中文名出現之前就及早發現英文科技新詞并為之確定中文名是最理想的。因此,《天文學英語新詞自動提取系統》就提出了一套全新的天文學英語新詞自動提取系統。該系統綜合使用腳本過濾、術語識別、正則表達匹配等多種方法,能夠自動追蹤 Ar Xiv 論文數據庫的更新,分析天文學論文的內容,生成推薦術語列表。但一個問題是 Ar Xiv 論文數據庫雖然可以免費獲取,但覆蓋的學科及論文數量都太少,大部分學科都缺乏可免費獲取的系統、全面的論文資源,因此作用有限; 另一個問題是該系統雖然按照詞頻統計生成了新詞列表,但并不是每個科技新詞都值得為之定名———很多科技新詞沒什么價值,往往過段時間就會被淘汰或很少使用。所以,如果對每個科技新詞都要關注,都要定名,就會做很多無用功。對科技新詞而言,更重要的是確定其重要性,只有重要的科技新詞才需要及早定名。
術語學工作者或不熟悉某專業領域的科研工作者,雖然對相關專業也有一定了解,但畢竟不了解該領域發展的前沿,所以能首先認識到一個科技新詞 ( 包括中文或英文新詞) 重要性的,更多的可能還是一線專家。一個科技新詞的定名,需由相關領域的眾多專家經過一定時間的討論,按照一定的程序才能審定公布。而了解一個科技新詞的重要性,并在該領域從事科研工作的專家,出于學術競爭及創新性的考慮,往往會盡快使用該詞發表論文,而不會等到許多專家都知道,再經過較長時間討論并給出規范名稱再使用該詞。他使用該科技新詞時,要么自己為該詞命名,要么沿用別人用過的名稱。所以,大多數科技新詞,在規范的中文名稱審定公布之前,就已經有其他中文名稱存在了。因此,要想由術語學工作者、名詞審定工作者,在其他人命名之前就首先為一個重要的科技新詞確定中文名,是一項比較困難的工作。更可行、更容易的是及早發現一個重要的已有中文名的科技新詞。
鑒于英文科技期刊的國際影響力,目前大家對英文科技新詞及其中文譯名都比較重視。但實際上,除了英文科技新詞之外,探討原創的中文科技新詞也很重要: 首先,中國已成為具有重要影響的科技大國,有很多重要科技成果是首先用中文發表的,因此,中文科技論文里有很多原創的重要的科技新詞。其次,在世界歷史的長河中,中國曾經在很長一段時間里遙遙領先西方,目前中國正處于民族偉大復興的征途中。許多有識之士認為,按照目前的發展趨勢,中國將來有望再度領先世界。中國的科技、文化、中文也將有望像現在的美國的科技、文化和英文一樣,成為世界的主流,越來越多的重要的科技新詞也將首先在中文科技論文里出現。因此,不管是立足現實,還是面向長遠,探討中文科技新詞都具有重要意義。所以,筆者在此主要探討及早發現重要中文科技新詞的問題。
關于發現中文科技新詞,要考慮兩個問題,一是來源,二是如何篩選。
關于來源,筆者認為,科技名詞畢竟屬于專業領域,要從專業文獻數據庫中篩選,否則選用良莠不齊的非專業文獻,從數量上求多求全,會做很多無用功。考慮到科技新詞反映了科技發展動態,筆者以中國知網的期刊論文數據庫為數據源,選擇論文的關鍵詞篩選科技新詞。選擇論文關鍵詞的原因在于方便中文分詞。對選擇論文的關鍵詞篩選科技新詞,有人提出異議,認為在實踐中存在科技新詞可能首先不在論文的關鍵詞中出現,而在正文中出現的情況。但筆者認為,一個重要的科技新詞,不可能在該領域所有時段、所有論文的關鍵詞中都不出現,它總會在某些時段、某些論文的關鍵詞中出現,否則該詞就無足輕重。因此,即使在出現該新詞的時段的論文的關鍵詞中沒有發現該詞———這意味著該詞在該時段雖然是新詞,但并未得到大家關注; 也能在其后的某些時段、某些論文的關鍵詞中發現該詞———這意味著該詞的重要性在這些時段才逐漸得到了大家的認可,該詞也成為這些時段的重要科技名詞。所以對關鍵詞做詞頻統計,在原則上可以發現所有重要的科技新詞。
相關期刊推薦:《中國科技術語》致力于建設有中國特色的術語學理論、促進全球華語圈科技術語的規范和統一。是由科技專家和語言專家合力打造的集科技與人文于一體的綜合性刊物。主要介紹國內外術語理論研究成果,公布規范科技名詞,發布試用科技新詞,組織重點、難點科技名詞的定名討論,探究科技術語的歷史文化內涵,報道科技名詞規范工作動態,是促進術語學在我國發展的權威雜志,是及時發布規范漢語科技名詞的媒體,是集中展現我國科技名詞術語審定工作情況的窗口。
關于篩選方式,利用大數據做詞頻統計是發展方向,但需要改進。實際上,現代科技發展越來越快,各學科越來越趨向縱深與融合,專家精通的領域也越來越狹窄,很難對所在領域的最新進展有全面系統的了解,所以僅依靠少數專家提供科技名詞的傳統模式已經難以適應現代科技快速發展的需求,需與時俱進,探索新的模式。利用大數據統計選詞就可以從宏觀量化上彌補這個不足。改進的思路是建立一個可盡早判斷科技名詞是否重要的大概原則,以便盡量縮小篩選范圍,當然還要保證是新詞,不是以前出現過的舊詞。
一 重要名詞與重要論文
科技新詞的定名不能等太久,否則其使用就會越來越混亂。而新詞剛出現的時候,其所代表的概念的內涵和外延都不太穩定,與所在領域的其他科技名詞的關系也不太清晰,因此,即使該領域專家也需要等一段時間才能發現其是否重要,不可能一蹴而就。這就是一對矛盾。這里所說的判斷科技新詞重要性的原則,不是從科技新詞的科學意義上來判斷的,而是從術語學的角度,為了減少工作量,縮小篩選范圍而發現的形式特征。但這些形式特征足以保證大多數具有重要科學意義的科技新詞,在設定的較小的范圍內,在其出現的早期就被發現,因而可以盡量減小這個矛盾。
對術語學工作者或不熟悉某領域的科研工作者來說,從一個科技名詞的名稱上來判斷該詞是否重要并不容易。但如果有很多論文和不同的作者研究、使用的名詞,即高頻詞應該很重要。顯然,這種判斷對舊詞來說是成立的。但對新論文、新名詞來說,這樣判斷就行不通了,因為研究、使用新詞的論文和作者都很少,該詞詞頻不可能很高。所以,不能從詞頻角度來判斷新詞是否重要。
另一方面,如果一篇重要論文把該詞作為關鍵詞,就能判斷出這個科技名詞可能很重要,即重要論文的關鍵詞就包含重要名詞。這就把判斷科技名詞重要性的問題轉化為判斷論文重要性的問題。對舊論文舊名詞來說,判斷其重要性還是很容易的: 一篇論文是否重要,一般來說,目前的判斷標準還是以被引頻次為主,即高被引論文就是重要論文。高被引論文的關鍵詞就包含重要科技名詞。所以,可以用高被引論文關鍵詞詞頻統計的方法來發現重要名詞。但對新論文新名詞來說,從論文被引頻次判斷就行不通了。因為新論文剛出現不久,人們不能立刻判斷出其是否重要,還需要有一過程,因而被引頻次可能不高。所以,對于新論文新名詞,就需要尋找其他特征。如果找到了與高被引論文有關的其他特征,就可以根據這些特征預判新論文、科技新詞的重要性。
二 與重要論文有關的特征
中國知網的檢索條件有: 支持基金、來源類別、來源期刊 3 個選項,另外檢索結果的分類瀏覽還有研究層次,這幾項與論文的重要性有關,需要仔細分析。
1.基金論文
一篇論文是作者一個研究項目的成果,是否重要是從結果來判斷的,但這個研究項目還是一個過程,我們還可以從整個研究過程來看。可以認為,一篇重要的論文來自于一個重要的研究項目。而一個重要的研究項目在源頭上一般是需要有資金資助的,而有資金資助的研究成果當然就是基金論文了。所以,是否有基金資助有可能作為論文重要性預判的一個重要依據,基金論文很可能會成為重要論文,或者說大部分基金論文比非基金論文重要。
由此可以想到: 基金論文的被引頻次一般比非基金論文的被引頻次要高。實際上,已經有多篇文獻發現了這個規律,如董建軍通過對中國知網中國學術文獻出版總庫中收錄的各類基金論文的文獻量和篇均被引頻次的研究,發現基金論文從整體上來看能夠獲得比一般論文較高的被引用[4]; 戚爾鵬,葉鷹用 Web of Science 數據庫收錄的 2010— 2012 年基礎學科論文數據進行實證研究,結果揭示除邏輯學外所有基礎學科的基金資助引用優勢為正,表明基金論文的被引頻次和影響力普遍高于非基金論文。討論分析了基金論文獲得較高引用的原因,揭示基金論文更易獲得引用是因其具有相對較高的品質[5]。
以上是從文獻的質量來比較,從數量來看,又是如何呢? 即高被引論文中的基金論文能占多大比例呢? 關于這方面的統計數據,目前還沒有查到相關文獻。為此,筆者分別以數學、物理學、化學、力學和生物學為文獻檢索目錄,檢索了中國知網 2010— 2012 年歷年的期刊論文、高被引期刊論文( 這里指被引頻次≥5,檢索時間為 2018 年 8 月中下旬) ,并篩選出高被引論文中的基金論文。統計結果見表 1。
從表 1 可見,這些學科的大部分高被引論文是基金論文。除數學略高于 64%以外,其他 4 個學科的高被引論文中的基金論文所占比例都高達 70% 以上,有些甚至超過 80%。顯然,數學研究主要依靠研究人員自身的理論思維,而其他學科則還與客觀世界的實踐、實驗有關,需要具備一定的物質條件,沒有資金支持,研究工作很難開展,而有更多資金支持就可能做出更好的研究成果,這是科技領域大部分高被引論文是基金論文的重要原因。
既然統計數據表明大部分高被引論文是基金論文,而高被引基金論文又只是全部基金論文的子集,那么某時段期刊論文中的全部基金論文就包含了該時段大部分高被引論文,即重要論文。這些論文之間的集合關系可用圖 1 表示。其中,A 代表期刊論文,B 代表高被引論文,C 代表基金論文,B∩C 代表高被引基金論文,B∩C 占了 B 的大部分。
顯然,從宏觀比例上看,論文越多,其所包含的關鍵詞也越多。因此,對該時段全部基金論文( C) 的關鍵詞做詞頻統計,就可以發現該時段大部分高被引論文( B∩C) 的關鍵詞,這些關鍵詞就包含了該時段大部分重要論文( B) 的關鍵詞,即該時段大部分重要的關鍵詞。實際上,科研工作者在申請科研基金的時候,需對所在領域文獻有充分了解,因此基金論文會引用之前的高被引論文,所以,基金論文的關鍵詞會包含所在學科的一些重要科技名詞。對新時段而言,對該時段全部基金論文的關鍵詞做詞頻統計,就可能提前找到將來被發現具有重要意義的大部分科技名詞。
2.來源類別與來源
期刊對來源類別來說,顯然,SCI 來源期刊、EI 來源期刊、核心期刊、CSSCI、CSCD 都是比較重要的期刊,在這些期刊上發表的論文一般來講比其他期刊論文重要。檢索時,文獻分類目錄選擇對應的學科,來源類別可以選擇以上那些重要的分類,當然也可以是全部期刊。選擇來源類別主要是為了包含綜合性期刊里的專業論文。
對來源期刊來說,檢索每個學科的專業期刊時,如果文獻分類目錄選擇對應的學科,則檢索出的文獻就會比不選擇學科的檢索結果少很多。如檢索《力學進展》2010—2012 年的文獻時,文獻分類目錄選擇“力學”時,找到 135 條結果; 但不做任何選擇時,找到 240 條結果。這是因為,現在各學科都是互相交叉、融合發展,而不僅僅局限于本學科本專業。所以,在檢索某學科的專業期刊時,不能選擇文獻分類目錄中的學科選項,而是要不做任何選擇,就包含了專業期刊里的全部論文。
以上選擇期刊來源類別并對應學科目錄的檢索結果,和選擇全部專業期刊并不對應學科目錄的結果有重復,需要查重并刪除重復的內容。
3.研究層次
檢索結果的分組瀏覽下有個“研究層次”選項,顯然,重要的科技新詞與“研究層次”下的“基礎與應用基礎研究( 自科) ”及“工程技術( 自科) ” 關系密切,其他層次可不用考慮。
三 如何查新
檢索到了需要的重要論文之后,要對這些論文的關鍵詞做詞頻統計,才能發現重要的科技名詞。但詞頻統計發現的不同名詞很多,而且大部分都是之前很早就出現過的舊名詞,新名詞很少。如果一一檢驗,既費時又費力,會做很多無用功。那么怎樣才能盡快發現新名詞呢? 為行文方便,以下舉例說明。
前文曾說過本文所指的新名詞,是指在所考察時段才出現,而在該時段之前沒有出現的名詞。例如,在 t1—t2期間才出現的新名詞,在 t1之前( 包括 t0—t1期間) 就沒有出現。我們可以考察延拓的時段 t0—t2。知網的文獻檢索結果有“PubTime-發表時間”這一項。顯然,如果在做詞頻統計的時候,同時統計關鍵詞在 t0—t2期間最早出現的時間,就會發現在 t1—t2 期間出現過的很多關鍵詞,最早在 t0—t1期間就已出現,這些關鍵詞就肯定不是 t1—t2 期間才出現的新名詞,這就可以篩掉很多舊名詞,只剩下少數最早出現時間在 t1—t2之間的術語才需要檢驗是否新名詞,這就可以減少很多工作量。
顯然,時段 t0—t1越長,篩掉的舊名詞就越多,需要人工一一檢驗 t1—t2 之間的新詞就越少。當 t0—t1足夠長之后,就會篩掉該專業發展歷史上幾乎所有的舊名詞,這時候基本上只需要統計關鍵詞的詞頻和最早出現的時間,不用人工一一檢驗,就可發現 t1—t2之間的新詞。而時段 t0—t1足夠長的情況,實際上相當于一個包含該專業發展歷史上所有常用和重要術語的語料庫和術語庫,由此也可見建設完備的語料庫和術語庫對發現科技新詞的重要性。另外,如果所考察的時段較長或該時段距離現在時間較早,就不能以基金論文為考察對象,而應以該時段的高被引論文做時段延拓和詞頻統計。
SCISSCIAHCI