發布時間:2020-05-09所屬分類:科技論文瀏覽:1次
摘 要: 摘要:互聯網環境下的地理信息服務聚合是當前的研究熱點之一。本文研究了網絡爬蟲、數據挖掘、行業信息空間定位以及服務聚合技術,智能解析了多個行業的數據資源,并將空間化后的行業地理信息數據進行了注冊與發布,實現了行業數據與基礎地理信息數據的服務聚
摘要:互聯網環境下的地理信息服務聚合是當前的研究熱點之一。本文研究了網絡爬蟲、數據挖掘、行業信息空間定位以及服務聚合技術,智能解析了多個行業的數據資源,并將空間化后的行業地理信息數據進行了注冊與發布,實現了行業數據與基礎地理信息數據的服務聚合。最后,開發原型信息系統,驗證了該方法的可行性與有效性。
關鍵詞:服務聚合;網絡爬蟲;數據挖掘
0引言
基礎地理信息提供了電子地圖、遙感影像、地名搜索等服務,滿足了地圖瀏覽、路線查找等基本需求,它是構建地理信息應用必不可少的基礎服務資源。在我國,隨著電子政務、數字城市、智慧城市建設的逐步推進,政府各職能部門對基礎地理信息服務的需求越來越迫切[1]。然而,基礎地理信息服務在面對不同類型用戶的需求時卻是單一、有限的,不能很好地滿足實際應用的需求。一方面,公眾服務、行業應用已普遍使用互聯網,用戶對于信息的感知度更加敏銳;另一方面,Web2.0時代的到來,使得網絡信息資源急劇膨脹,它蘊含了大量、非空間化的地理信息,此類信息是一種巨大的信息戰略資源,急需采集和利用[2]。因此,如何在海量的網頁中快速、準確地抓取與地理信息相關的行業信息,如何使非空間化的行業信息空間可視化,并能夠與已有的基礎地理信息服務聚合,支持聯合查詢與協同分析,還有待研究[3]。
鑒于以上問題,本文設計了一種基于數據挖掘的地理信息服務聚合方法,實現了非空間化的、異構的行業信息網絡化采集、凈化與空間化,并與現有的基礎地理信息服務進行了服務聚合,更好地挖掘了網絡地理信息資源,以滿足數字廣西地理空間框架所倡導的更全面、更準確、更詳細、更完整的地理信息服務目標。
1總體思路
總體思路如圖1所示。①借鑒搜索引擎的網絡爬蟲[3],在異構的網絡環境中,對非空間化的行業地理信息進行自動采集;②使用數據挖掘的方法對行業數據進行清洗和整理;③使用地名地址匹配技術,將數據中包含的地名地址信息與現有的地名地址信息進行匹配,實現空間定位;④根據行業應用需求,對業務流程穩固、數據和功能優化后的服務進行聚合,并將這類服務注冊與發布,形成新的地理信息服務,提供唯一的統一資源定位符(UniversalResourceLocator:URL),方便用戶發現和使用。
2關鍵技術
2.1數據爬取
網絡爬蟲(WebCrawler)在互聯網上漫游,可以對網絡上幾億甚至于上百億的網頁進行爬取,是當今主流搜索引擎的信息采集利器。其工作過程是通過URL不斷地從一個網頁調到另一個網頁爬取信息:①人工選定一些URL作為起始點,以這些URL作為種子,根據HTTP協議向Web服務器進行網頁的請求,開始對相關頁面進行訪問;②對每一個被訪問的頁面,根據一定的爬行策略進行過濾,待頁面正確獲取后保存到本地;③對被保存到本地的網頁,進行網頁文本分析處理,并提取出目標URL加入URL種子隊列;④繼續從URL種子隊列中選出一個URL,重復①—③過程,直到滿足網絡爬蟲停止的條件時結束。其工作原理如圖2所示。
在搜索應用中,爬行策略至關重要?紤]到地名地址匹配,本文使用了最佳優先的、與主題相關的爬行策略[4],目標網頁中包含的地名地址與基礎地理信息的POI點具有一定的相似度,可以分別計算基礎地理信息中的地名地址與URL網頁文本解析得到的地名地址之間的相似度,取二者之間的均值作為當前文本的主題相關度,以URL隊列中相關度最大者作為最優匹配結果,最優匹配的網頁文本保存于本地數據庫中。
2.2數據挖掘
“當多元空間數據匯集一處時,就有可能存在高維數據、不同數據結構、不同的投影體系或度量單位等,以及噪聲、誤差的影像,勢必需對空間數據清理。[5]”已抓取的網頁文本,其數據內容是繁雜的,部分數據是冗余的,甚至是完全無關的,它們的存在影響到有價值的信息發現。例如,有些文本中包含的數據信息是非線性的、粗粒度圖2網絡爬蟲工作原理圖Fig.2Webcrawlerworkingprinciplediagram的,并不能直接使用,需要進行數據清洗,降低數據維度。而不同的行業數據,有著不同的特性,應通過數據挖掘歸納出行業數據的特征信息,發現行業數據的信息規律。
在數據挖掘方法的選擇上,本文使用了支持向量機的監督分類方法。該方法建立在統計學習和經驗風險最小的理論基礎上,能夠很好地解決小樣本、非線性及高維模式識別方面的問題。利用支持向量機中核函數構建的超平面以區分不同行業的數據信息。在具體操作過程中,首先,從每個行業的數據中隨機抽取10000條以上的數據記錄進行樣本訓練,統計各行業關鍵詞出現的頻率;然后,構建訓練樣本的特征空間分詞庫;最后,使用支持向量機的分類方法對未知文本進行篩選和分類。值得注意的是,對于中文網頁文本的處理,使用中文分詞方法[6]將文本區分為名詞、動詞、介詞、連詞、數詞、標點符號、地名地址等(見表1)。
其中,介詞、連詞、標點符號等詞類是與數據信息無關的噪聲詞類,予以去除;地名地址是空間定位的基礎,存儲于數據庫中;數詞是各行業數據的重要屬性信息,與相應的名詞、動詞建立關鍵字聯系。按照樸素貝葉斯統計方法以所有名詞、動詞為基底,統計各樣本空間的動詞、名詞出現頻率,以頻率較高者作為該樣本空間的特征向量,例如:廣西發改委網頁文本的特征詞頻率統計情況,如圖3所示。
2.3地名地址匹配
無論從主題中還是從文本中抽取的地名地址都是非結構化的地理信息,均未含有空間地理坐標,需要進行空間定位。由于數字廣西地理空間框架的基礎地理信息數據已含有600000條以上的地名地址數據,它存儲了地理實體名稱、地名地址名稱及相應的空間坐標信息,可以使用該數據作為空間參考庫,與網頁文本的地理信息進行地名地址匹配,掛接各行業數據的屬性信息,實現空間定位。
地名地址匹配包括精確匹配和模糊匹配。精確匹配用以對網頁文本中具有詳盡描述的地理信息進行空間定位,模糊匹配用以對網頁文本中描述粗略或者不全的地理信息進行空間定位。在地名地址匹配過程中,網頁文本中的地名地址描述與標準化的地名地址描述常常不一致(如:在網頁文本中描述為“鵬程駕校”,而在標準化的地名地址描述為“廣西壯族自治區南寧市江南區那洪街道金凱路鵬程駕校”),給地名地址匹配帶來了一定的困難,需要將網頁文本中的地名地址進行標準化處理。參考lCH/Z9002—2007數字城市地理空間信息公共平臺地名/地址分類、描述及編碼規則,標準化的地名地址描述表現為一種樹狀的層次結構模型(如圖4所示)。因此,在程序中將地名地址描述設計成一種可擴展的樹狀模型,對網絡文本中的地名地址進行切分,對照樹狀模型由上而下依次匹配,當上級節點匹配成功時,搜索下級節點,再進行匹配,直到在地址參考庫中找不到匹配的地名地址描述,最后根據權重情況確定該地名地址描述,將此時地名地址參考庫中的坐標信息和行業數據的屬性信息進行掛接,實現空間坐標定位。
2.4服務聚合
地理信息服務聚合通過地理信息服務之間的通信與協作,將分散、相對簡單的細粒度服務組合成復雜的具有新功能的粗粒度服務,提高服務的利用率和可重用性,構建全新的應用,實現信息服務的增值[7]。經過網頁文本中挖掘的行業數據,具有較高的時效性,它不僅是行業部門高度關注的事件,而且也是一種低成本、高效率獲取的地理信息,將此類地理信息與基礎地理信息服務聚合,可進一步地豐富地理信息的內容,體現行業數據的價值。
地理信息服務聚合需經過單一的地理信息服務到多種服務聚合的過程。遵循OGC/ISO的地理信息規范,使用數字廣西地理空間框架服務引擎注冊、發布空間化后的行業地理信息,并對服務描述的內容、功能、接口和訪問方式等進行闡釋,提供唯一的URL地址,方便用戶搜索、發現和使用。
地理信息服務聚合包含服務端聚合與客戶端聚合。服務端聚合在服務端完成,旨在疊加多源、異構的地理信息服務,作為一個整體返回給用戶。目前,數字廣西地理空間框架的“天地圖·廣西”已在服務端縱向實現了國家、自治區、市、縣四級節點的信息服務聚合,并結合高分辨率對地觀測系統廣西數據與應用中心的需求,聚合了高分系列、資源系列和北京二號影像服務,提供影像查詢、檢索等功能聚合服務?蛻舳司酆显诳蛻舳送瓿,旨在聚合用戶本身的業務服務和第三方地理信息服務,屬于一種輕量級的聚合服務應用。為滿足用戶多樣化的業務需求,將原先組件式的處理方法細化為原子級的處理方法,提供細粒度的服務調用、在線工具和開發工具等方法,按需組裝業務功能。同時,在行業部門數據基礎上,將非空間化的業務數據空間化,關聯相應的地理對象,提供空間信息、圖文信息及關聯信息的查詢,滿足行業部門專業信息融合、業務功能定制與基礎地理信息服務的集成。如圖5所示的河池市精準脫貧攻堅指揮系統,其地理信息服務調用了數字廣西地理空間框架與數字河池地理空間框架的第三方服務,專題信息通過采集和空間化處理,在客戶端發布并調用,功能服務則使用原子級的處理方法進行多樣化的組裝,完成了戰區分布、戰場研判、戰果監督、戰果展示等功能的集成。
3實驗結果
在JavaScript語言環境下,本文使用以上方法開發了一套原型信息系統。該系統將各行業門戶網站爬取的數據(廣西發改委、統計局、旅發委、公安廳、林業廳、住建廳等)以REST服務方式進行了注冊、發布,以富客戶端的方式實現了與數字廣西地理空間框架基礎地理信息服務的服務聚合。系統調用了天地圖·廣西的矢量地圖服務,將各行業門戶網站獲取的數據在前端進行直觀展示,并提供空間查詢、統計等功能服務。實驗結果表明,本文方法是可行的。
4結束語
在互聯網環境下,本文利用數據爬取、數據挖掘、行業信息空間定位以及服務聚合技術,通過挖掘與行業息息相關的地理信息,將行業數據進行空間可視化處理,并進行了注冊與發布,完成行業數據與基礎地理信息數據的服務聚合,以滿足各種行業對地理信息個性化的需求。該種方法采集的行業地理信息數據,具有時效性、準確性和空間分布特征,同時也能夠將行業數據和基礎地理信息數據有效融合,可進一步豐富數字廣西地理空間框架的數據資源,為用戶提供更為翔實、便捷、有價值的信息服務。
相關期刊推薦:《測繪與空間地理信息》是黑龍江測繪局主管、黑龍江省測繪學會主辦的反映測繪學科及地理空間信息科學前沿理論和技術并指導地理信息工作者從事科研、開發、生產的技術性、知識性刊物,主要刊載測繪高新技術、地球空間信息和地理信息系統的前沿理論與技術;地理信息系統工程建設的技術總結與經驗交流;測繪行業管理與改革的先進經驗;測繪生產技術交流、科研成果推廣及教學經驗介紹等;測繪學和地理信息學中的理論探討;國內外地理信息學術動態及測繪科技報道與介紹;測繪科普知識;測繪儀器最新發展等。
SCISSCIAHCI