發布時間:2021-03-04所屬分類:文史論文瀏覽:1次
摘 要: 摘要:地名凝結了區域文化及歷史過程,蘊涵豐富的文化信息。如何挖掘地名文化信息是一個有趣又重要的問題。結合文本知識、專業知識、先驗知識、專家知識與第二次全國地名普查成果數據,通過建立知識庫及提取規則,采用數據制圖、模型制圖、知識制圖等制圖方
摘要:地名凝結了區域文化及歷史過程,蘊涵豐富的文化信息。如何挖掘地名文化信息是一個有趣又重要的問題。結合文本知識、專業知識、先驗知識、專家知識與第二次全國地名普查成果數據,通過建立知識庫及提取規則,采用數據制圖、模型制圖、知識制圖等制圖方法實現中國大陸方言地名、地名通名制圖。結果表明,制圖結果可以得到相關地名的空間分布范圍,揭示區域地名通名的高頻詞匯特征,可以為區域地名管理、規劃、保護與利用提供知識支撐。
關鍵詞:地名;地名普查;數據制圖;模型制圖;知識制圖
地名是人們賦予某一特定空間位置上自然或人文地理實體的專有名稱。它記載著民族興衰、社會變遷、經濟生產、軍事活動和地理環境變化等多維度信息[1,2],具有承載、積淀和傳播文化信息的功能,是歷史的見證者和“活化石”[3]。人們可以從地名中分析和挖掘諸多直接或間接的豐富的自然和文化知識[4,5]。地名的基本屬性包含“音、形、意、位、類”,分別指地名的讀音、字形、含義、位置及類型[6,7]。地名既具有個體屬性,也具有群體屬性。地名的形成和發展與語言、地理、社會、政治、歷史、經濟、軍事、交通、民族、文化和風俗等要素有著密切關聯。因此,長期以來,國內外地名個體的含義及文化價值研究較為活躍,主要包括地名的來歷、內涵、演變、通名考證、區域特征等。例如,Mailhammer[8]以歐洲和澳大利亞為例,通過地名中保存的語言元素痕跡對特定地區的語言進行歷史推斷;Buharova[9]探究了地方方言在研究區域地名形成和演變過程中所起的重要作用。然而,地名作為蘊含類別的知識集合體,其群體屬性(如空間聚集特征和空間分布特征)的研究較為沉寂。盡管近年來陸續出現了相關研究,如壯語地名空間分布[10,11]、區域地名分布等[12,13],但受限于數據與方法,中國全國范圍內的相關研究較少。
地圖是地理學的第二語言,具有感知功能、載體功能和認知功能[14]。隨著科技進步和社會需求變化,地圖的功能也發生漂移,最重要的是地圖的空間分析功能[15]。基于地圖認知,目前地圖制圖方法主要包含意念制圖、經驗制圖、數據制圖、模型制圖和知識制圖等[16-18]。其中,數據制圖是指根據所得數據(測繪數據或統計數據)直接編制地圖;模型制圖是指針對專題,利用專業數學模型計算得到專題圖;知識制圖是指將通過知識推理或數據分析得到的新的結論、空間格局、地理界線等反映到地圖上。借助地圖的功能和對地名的認知,人們可以利用地圖制圖方法和技術深入挖掘和分析地名的群體屬性特征,及其所蘊含的自然和人文地理實體的時空演化特征和規律。比如,開展地名數據制圖(統計制圖和空間統計制圖)、地名模型制圖和地名知識制圖等的研究和應用。近年來,相關學者基于地學信息圖譜理論開展了系列地名信息圖譜方面的研究和應用[7,19]。Frajer等[20]使用地名地理信息系統制圖探索了地名的空間分布和相互關系,并將其應用于退化水體的識別。
第二次全國地名普查共獲得1300萬余條數據,內容不僅包括地名含義、來歷、位置、讀音等文本信息,還包含聲音、圖像等多媒體信息,這些信息構成了內涵豐富的地名大數據。本文以第二次全國地名普查成果數據庫為基礎,構建地名知識庫與關聯規則,提取專題地名集合,開展了地名數據制圖、地名模型制圖和地名知識制圖的應用研究,進一步揭示了隱含在地名背后的規律與知識,挖掘地名數據并進行地名制圖,為地名學研究提供了新方法。其成果既可以為歷史地理學、社會學、政治學等研究提供知識支撐,也可以為地名保護、規劃與利用提供決策支持,對促進區域地方認同、增進民族文化自信具有重要意義。
1地名制圖的流程和方法
1.1地名制圖流程
地名制圖技術流程如圖1所示。地名數據層主要包含原始的地名數據庫、文獻典籍、專家知識、先驗知識等。其中地名數據庫包含地名、歷史沿革、來歷含義等幾十個字段;專家知識是地名專家對地名知識的總結;先驗知識為已經發布的各類與地名相關的知識。對地名數據按規則抽取,實現地名數據到地名信息的轉換。對地名大數據進行統計,得到通名、專名高頻詞;從相關先驗知識、專家知識中提取地名文化特征字詞,形成地名文化特征庫,并建立簡易提取規則,開發提取工具,結合配置文件,實現專題地名信息數據集抽取。然后,將得到的地名信息集合進行關聯規則驗證,進一步更新地名基礎信息庫或進行地名制圖。
地名制圖主要包括數據制圖、模型制圖與知識制圖。地名數據制圖直接提取地名數據,按統計單元進行統計,將相應結果進行制圖,如通名、專名統計頻次圖和地名詞云圖等。地名模型制圖是對相應數據進行空間分布分析及數學建模后實現制圖。地名知識制圖是通過知識推理,或基于空間統計分析模型(如空間聚集分析)的地名知識發現,將所獲得的地名空間分布的新知識繪制于地圖上。
1.2地名知識庫的構建
地名知識庫包含了某類地名知識的關鍵特征字詞;谥R庫,結合提取規則,可以提取能夠表達特定知識的地名數據集合。例如,以“厝”結尾的地名在閩方言區大量存在,通過考察含有該關鍵字的地名分布特征,同時結合方言地理分區知識,綜合推斷得到閩方言分布的大致范圍。閩方言地名部分特征字見表1。
本文依據專家知識、先驗知識等,先后建立了6種方言(客家方言、閩方言、粵方言、吳方言、湘方言、贛方言)和4種少數民族語(壯語、藏語、維吾爾語、蒙古語)地名知識庫,限于篇幅,其他地名知識庫不再一一列出。
1.3提取規則和關聯規則驗證
1)提取規則。提取特定類別的地名信息需要遵循一定的規則。地名所反映的文化知識不僅局限于地名自身,也同地名背后的歷史沿革、來歷、含義及重大事件等屬性信息密切相關?梢酝ㄟ^地名提取文化信息,也可以通過挖掘地名屬性獲得隱含文化信息[21]。例如,紅色地名是指與革命事件相關的地名,此類地名信息大部分只能在地名相關的歷史沿革、重大事件等地名屬性中提取。因此,需要依賴提取規則才能自動化獲取完整專題地名。
規則通常根據先驗知識、專家知識進行制定。常見提取規則包括“前置匹配”“后置匹配”“包含”3種。“前置匹配”是指將地名特征字進行前置匹配,“后置匹配”是指將地名特征字進行后置匹配,“包含”則表示特征字包含在地名或地名來歷、地名含義等字段中。例如,壯侗語系地名一般含有“那”“羅”“老”等特征字,如“那溝”“那谷”“羅浮山”“老唐”等,特征字位置一般位于地名的頭部,屬于“前置匹配”。此外,有些特征字詞要與其他字詞組合才能表達某類信息,如姓氏地名要考慮姓氏同某些特征詞的結合情況,如“李家”“李家莊”“李家村”等,以及來歷含義中是否有相關姓氏。設置提取規則后,還需要進一步經過關聯規則驗證,通過置信度檢驗,才能進行下一步分析并進行制圖。
2)關聯規則驗證。關聯規則的目的是發現數據項集之間的關聯關系或相關關系[22]。地名特征詞關聯規則挖掘,就是挖掘出某類“地名特征字詞”與相應“地名知識”之間的關聯,如前文所述的“厝”字同閩方言的關聯,這種關聯規則源自地名基礎知識庫中引入的先驗知識及專家知識,在驗證時只需考察置信度即可。例如,考察含有“王”字的居民點有多少與姓氏相關時,通過隨機抽樣人工檢驗發現提取的含有“王”字的居民點地名中有95%與王姓相關,即認為通過該方法提取的數據的置信度為95%。本文設定的置信度為90%。相關地名數據置信度通過檢驗后,可進一步豐富地名基礎知識庫。
2地名制圖案例
2.1地名高效數據制圖地名數據制圖是根據提取到的地名數據直接進行地圖制圖或進行簡單統計后再進行制圖。地名數據制圖能夠反映地名群體的空間分布及結構特征。受數據獲取限制,本文暫不包含香港特別行政區、澳門特別行政區和臺灣省。
詞云圖主要用于文本大數據的高效視覺表達,它是由豐富的字詞組成的彩色圖形,能充分突出文本中的高頻詞和關鍵信息。本文將詞云圖與行政邊界結合起來,表示行政區域內某類地名中某字詞的使用頻次。圖2為全國人文地理實體地名通名詞云圖。從圖2中可以看出,地名中“橋”“路”“水庫”“站”“街”等居前列,反映了中國經濟社會發展的建設成就。圖3為全國自然地理實體通名詞云圖。“山”“嶺”“溝”“河”“坡”等居前列,反映了中國山區分布廣、地形地貌復雜多樣的特點。
相關知識推薦:現代測繪期刊投稿怎么樣
比例圖通過計算某類地名在統計單元上的使用比例來反映該類地名的分布范圍、優勢區域。通過比例圖可以直觀看出該類地名在相關區域的比例優勢。圖4為按普查單元統計的閩方言地名比例圖。通過圖4可以看出閩方言地名的空間分布范圍、優勢區域。
密度圖通過計算提取的某類地名數量與統計區域面積之比來反映某類地名在統計區域的密度特征。圖5為閩方言地名密度圖,可以看出閩方言的分布范圍及相關界線,且在閩北存在明顯的方言島。
2.2地名模型制圖
地名模型制圖可以針對某專題構建數學模型來解析成因,得到相應的專題圖。以全國熱點地名通名分布影響因素探究為例進行說明。
本文將在全國地名通名中使用頻次排名前十位的10個通名作為全國熱點地名通名。對全國熱點通名進行分析,得到全國層面上的通名使用的主要特征。本文在對全國熱點地名通名空間格局分析的基礎上,進一步構建數學模型,探究其空間分布格局的影響因素。以全國熱點地名通名使用頻次排名第一的“橋”字為例,圖6和圖7分別為對“橋”進行地名通名密度空間分布制圖和影響因素建模分析的結果。
由圖6可知,地名中“橋”在中國東部、南部地區的密度較高。由此推測,此分布格局的形成原因可能是這些地區人口密度大、河流相對較多、經濟發達、交通便利等。
本文選擇人口密度和公路橋梁密度這兩個影響因素,通過構建數學模型,探究了“橋”密度與兩者的定量關系,擬合結果如圖7所示。由圖7可知,“橋”密度與人口密度呈指數關系,擬合程度R2為0.9031;“橋”密度與公路橋梁密度呈二項式關系,擬合程度R2達0.9663。這說明“橋”的使用與人口密度和公路橋梁密度密切相關,且所選擇的數學模型可以較準確地表達出“橋”密度與影響因素之間的函數關系。
2.3地名知識制圖
地名知識制圖是將經過知識推理和知識發現獲得的地名空間分布的新知識和新結論展示在地圖上的一種地名研究方法。本文以自然地理實體類和人文地理實體類地名通名知識制圖為例,研究全國各省(自治區、直轄市)首位通名的空間分布規律。首位通名是指各省(自治區、直轄市)地名通名排行榜中使用頻次最多的通名,高度濃縮了各地區通名使用特征的知識。繪制首位通名知識地圖,有助于地名研究和管理部門理解通名使用區域差異規律。
圖8和圖9直觀展示了自然地理實體類和人文地理實體類首位通名空間分布知識。對于自然地理實體類首位地名,全國主要有兩個聚集區,分別位于“胡煥庸線”東西兩側。位于“胡煥庸線”西側的聚集區主要以“溝”為自然地理實體類首位通名,主要包括內蒙古自治區、山西省、陜西省、寧夏回族自治區、甘肅省、青海省、新疆維吾爾自治區及吉林省;位于“胡煥庸線”東側的聚集區主要以“山”為自然地理實體類首位通名,主要包括遼寧省、北京市、河北省、山東省、河南省、安徽省、浙江省、福建省、江西省、湖北省、湖南省、重慶市、四川省、貴州省、云南省、廣西壯族自治區、廣東省?傮w來看,全國共有9個省級行政區以“溝”為自然地理實體類首位通名,18個省級行政區以“山”為自然地理實體類首位通名。
人文地理實體類首位通名的空間分布格局比自然地理實體類首位通名的復雜,總體可分為兩個聚集區和若干個單獨的首位通名省級行政區。第一個聚集區以“橋”為人文地理實體類首位通名,主要包括黑龍江省、吉林省、遼寧省、山東省、河南省、陜西省、湖北省、安徽省、江蘇省、浙江省、福建省、江西省、貴州省、廣西壯族自治區;第二個聚集區以“路”為人文地理實體類首位通名,主要包括北京市、天津市、河北省、重慶市、四川省、云南省。總體來看,全國共有16個省級行政區以“橋”為人文地理實體類首位通名,10個省級行政區以“路”為人文地理實體類首位通名。
3結束語
本文對地名制圖進行應用研究,具體總結如下。
1)結合先驗知識、專家知識及地名大數據挖掘的知識等,建立地名知識庫及提取規則,能夠有效提取具有某類群體特征的專題地名數據集。
2)地名數據制圖能夠有效表達地名群體的分布特征、密度、分布邊界等。對地名群體數據集按統計單元進行統計分析,以地名詞云圖、比例圖、密度圖等方式表達地名的高頻信息,識別方言地名的分布范圍、比例、密度等,能夠為方言地名的保護及利用提供決策支持。
3)地名模型制圖能夠表達地名同其他影響因素之間的定量關系,如“橋”的使用與人口密度和公路橋梁密度的關系。它還能進一步挖掘地名同其他自然、人文因子之間的定量關系。
4)地名知識制圖可從不同視角(如語言、民族、歷史等)對某地名群體進行知識推理與知識發現。
由于地名蘊涵了豐富的地理、歷史、政治、經濟、交通等信息,地名制圖研究還有待進一步挖掘。下一步可以結合歷史沿革、地名啟用時間等動態表達地名的時空過程,也可以將地名數據集作為一種基礎數據集,耦合其他人文地理、自然地理數據集進行分析,揭示地名群體隱含的文化密碼,增強地名文化認同與文化自信,更好地服務于地名保護、管理和規劃。——論文作者:葛詠1滿旺2任周鵬1張夕寧1周令泉1
SCISSCIAHCI