發布時間:2019-12-20所屬分類:園林工程師瀏覽:1次
摘 要: 摘要 面向地理對象影像分析技術(GEOBIA)是影像分辨率越來越高的背景下的產物.如何提高高分辨率影像分類精度和分類效率是影像處理的重要議題之一.本研究對QuickBird影像多尺度分割后的對象進行分類,分析了C5.0、C4.5、CART決策樹算法在林區面向對象分類中的
摘要 面向地理對象影像分析技術(GEOBIA)是影像分辨率越來越高的背景下的產物.如何提高高分辨率影像分類精度和分類效率是影像處理的重要議題之一.本研究對QuickBird影像多尺度分割后的對象進行分類,分析了C5.0、C4.5、CART決策樹算法在林區面向對象分類中的效率,并與kNN算法的分類精度進行比較.利用eCognition軟件對遙感影像進行多尺度分割,分析得到最佳尺度為90和40.在90尺度下分離出植被和非植被后,在40尺度下提取不同類別植被的光譜、紋理、形狀等共21個特征,并利用C5.0、C4.5、CART決策樹算法分別對其進行知識挖掘,自動建立分類規則.最后利用建立的分類規則分別對植被區域進行分類,并比較分析其精度.結果表明:基于決策樹的分類精度均高于傳統的kNN法.其中,C5.0方法的精度最高,其總體分類精度為90.0%,Kappa系數0.87.決策樹算法能有效提高林區樹種分類精度,且C5.0決策樹的Boosting算法對該分類效果具有最明顯的提升.
關鍵詞 遙感;決策樹;分類;C5.0決策樹
森林分類對于理解森林生態系統結構和功能具有重要意義,明確不同森林類型的分布情況是對森林生態系統研究的第一步[1].目前,基于遙感數據的土地利用分類是較為普遍的方法.在低、中低分辨率影像時代,影像分類均基于影像像素,其基本理論是基于各地類像元統計值,判斷每個像元與相應地類統計值之間的距離對象元進行分類.然而,中低分辨率的遙感數據在應用中通常存在混合像元問題,導致同譜異物,降低分類精度,對森林參數、生物量等估算產生影響[2].
高分辨率影像出現后,目標對象在影像中通常需要多個像元組合表達,分類由中低光譜分辨率的同譜異物現象轉變成為同物異譜問題,同時分類結果容易存在椒鹽噪聲的問題,僅依靠基于像元光譜特征分類不足以達到目的[3].因此,學者提出了面向地理對象影像分析技術(geographicobject-basedimageanalysis,GEOBIA),并得到廣泛應用[4-7].面向對象分類以影像分割后的對象作為分類的基本單元,影像分割的質量直接影響最終分類結果的準確性,對不同地物需要有不同的尺度,因此涉及到多尺度分割問題[8-10].目前,被應用到遙感影像多尺度分割的算法主要有6種[11]:分形網絡演化方法(fractalnetevolutionapproach,FNEA)[12]、分水嶺算法[13-14]、均值漂移算法(meanshift)[15]、小波域HMT模型[16]、統計區域合并算法[17]、基于圖的分割算法[18].其中,FNEA方法被嵌入到eCognition軟件中,得到更為廣泛的應用,經分割參數設置,對影像進行分割,實現了聚類,成為多個對象.通過對影像對象光譜、紋理、形狀等特征的分析可提取不同對象對應的地物特征,以實現分類[19-20].
常見的面向對象的方法主要分為3類:基于機器學習的方法、統計方法、結構方法[4,21-24].機器學習范疇的決策樹算法是一種常用的分類方法.根據不同的構建原理和剪枝方法,常用的決策樹主要有ID3、C4.5、C5.0、CART、CHAID和QUEST等[25-28].在影像分類和地類提取中,各類決策樹模型均得到了廣泛應用.Sun等[29]基于多時相Landsat數據,利用C5.0算法提取西雙版納橡膠的分布;曹洪濤等[30]利用多源遙感影像數據,結合C4.5算法對錢塘江流域土地覆被類型進行分類研究;陳云等[31]運用遙感數據的紋理等多種特征,基于CART算法建立決策樹提取了揚州市建筑區和圍網養殖區.在面向對象分類方面,一些作者分別基于不同的影像數據,使用不同的決策樹實現了影像分類[7,25,32],但針對不同決策樹方法在面向對象的林區樹種分類中效果的研究則鮮見.
本研究以將樂國有林場明頭山工區為研究對象,基于研究區的QuickBird數據,經輻射校正、大氣校正、幾何校正和地形校正等預處理后,對影像進行多尺度分割,提取影像對象多種特征,分別使用C5.0、C4.5和CART決策樹及最近鄰法(kNN)對研究區的土地利用類型進行劃分,評價不同決策樹模型在面向對象影像分類中的優劣,旨在比較不同決策樹算法在面向對象樹種分類中的效率.
1研究地區與研究方法
1.1研究區概況
研究區位于福建省三明市將樂國有林場明頭山工區,將樂縣地理坐標為26°26'—27°04'N,117°05'—117°40'E.研究區受亞熱帶季風氣候影響,具有海洋性和大陸性氣候特點.近5年,研究區年平均氣溫18.7℃,年均降水量為1669mm,降水主要分布在5—9月.夏季時間長,冬季時間短,霜凍少,植物生長期長.研究區土壤類型多樣,其中多為紅壤,土層深厚,土壤肥沃.杉木(Cunninghamialanceolata)作為速生用材樹種,是研究區主要經營樹種.此外,喬木層還包含馬尾松(Pinusmassoniana)、火力楠(Micheliamacclurei)、木荷(Schimasuperba)、福建柏(Fokieniahodginsii)、油桐(Verniciafordii)、毛竹(Phyllostachysheterocycla)等;林下植被豐富,灌木層主要包含粗葉榕(Ficushirta)、冬青(Ilexchinensis)、黃瑞木(Adinandramillettii)、油茶(Camelliaoleifera)、茶葉(Camelliasinensis)等;草本層以蕨類為主.
1.2數據收集
本研究數據主要有樣地調查數據和遙感影像數據兩類.研究區所在地為國有林場,主要植被類型為杉木人工林.根據林場經營記錄,2010—2017年間研究區植被類型變化較小.樣地調查數據收集時間為2016年7月—2017年7月,共35塊杉木人工林樣地,均做每木檢尺,其中,幼齡林、中齡林、近熟林、成熟林、過熟林分別有3、8、7、9、8塊.遙感數據為研究區2012年7月2日的QuickBird數據,包含6653行×5650列數據.數據包含4個與全色波段融合后的波段(0.485~0.830μm),其中3個可見光波段和1個近紅外波段,分辨率均為0.61m.此外,研究區1∶5萬地形圖數據、將樂縣2013年小班調查數據、GoogleEarth數據均作為輔助數據.圖像預處理所用的投影坐標系統為UTMWGS1984(50N).
1.3研究方法
本研究基于多尺度分割算法,實現自下而上的影像分割,并通過分析得到適合研究區的最優分割尺度.基于最優分割尺度結果,首先在較大尺度上區分植被與非植被區域,然后在較小尺度上選擇不同植被樣本,結合C5.0、C4.5和CART決策樹對植被類型進行分類,同時基于kNN方法實現分類作為參照.最后對分類結果進行精度驗證和比較分析.1.3.1多尺度分割和最優尺度選擇本研究基于eCognition軟件實現多尺度分割,其算法核心是分形網絡演化.該方法是一種自下而上的迭代合并算法,將像素歸并到當前對象后,判斷新對象同質性是否超過給定閾值;若小于閾值,則歸并形成新的對象,反之則不能.多尺度分割要求小尺度的對象處于上一級尺度對象的邊界內,以保證對象間的完整性.影像分割時需要設定5個參數:尺度、顏色權重、形狀權重、平滑度權重和緊致度權重.其中,顏色與形狀之和為1,平滑度與緊致度之和為1.
分割尺度是影響面向對象分類的關鍵步驟之一.研究表明,在單一尺度下,小尺度地物存在欠分割而大尺度地物則被過分割[11].因此,需根據地物大小選擇不同尺度,即最優尺度選擇.當前,國內外最優尺度選擇方法主要分為3種:經驗選擇法、模型計算法和鑒別指標法.本研究選用模型計算法中的GS分割評價準則進行最優尺度選擇[33-36].GS分割評價準則是一種非監督的多尺度最優分割結果的選擇方法,由基于對象面積加權的方差和全局Moran指數分別歸一化后相加得到.其中,對象面積加權方差用于評價對象的內部同質性,值越小則對象內部的同質性越大;全局Moran指數用來評價影像對象間的異質性,Moran指數值越小則區域對象間相關性越小,影像對象間的可分性好,整體分割效果好.基于該準則得到的最優分割結果具有區域間異質性大、區域內一致性強的特點.GS值的計算公式參見文獻[35].
多尺度分割后,將不同尺度的分割結果分別導出其對象標準差、方差、面積和光譜等信息,使用ArcGIS計算每個尺度的Moran值及其相應的加權方差,分別將歸一化結果相加后得到相應的GS值,最后判斷得出最佳結果.
1.3.2特征構建影像對象特征是影像分類的關鍵因素,面向對象的分類除了可以使用常規的光譜特征以外,還可以將影像對象的形狀特征、地形特征相結合,以提高效率和精度.本研究根據實際情況構建了光譜和形狀兩類特征值用于分類.其中,光譜特征值包括對象反射率均值、標準差、光譜均值、歸一化植被指數、土壤修正植被指數[37-38]、歸一化水體指數、各波段紋理特征等;形狀特征包括形狀指數、長寬比、面積(以像素pixels表示)、緊致度、矩形匹配度等.本研究樣本特征的描述和計算公式見表1.
1.3.3決策樹模型本研究基于C5.0、C4.5和CART方法分別構建決策樹模型,實現研究區樹種分類,并比較分析了不同決策樹方法在分類中的優劣.決策樹模型構建過程主要包括決策樹生成和剪枝,剪枝能防止過擬合,同時保證一定的精度.
CART算法的基本原理是通過對由測試變量和目標變量構成的訓練數據集的循環分析,形成二叉樹形式的決策樹結構[7,31].C4.5算法基于信息增益率來選擇屬性,選取信息增益率最大的但又不低于所有屬性平均值的屬性作為樹的一個分支節點,并確定其分裂閾值[30,32].C5.0算法是在研究分析C4.5決策樹基礎上形成的算法.它繼承了C4.5算法的所有性能,通過代價矩陣實現決策樹剪枝,并添加了一系列新功能,其中重要的功能之一是Boosting技術.Boosting技術會按順序建立一系列決策樹,其中,后建立的決策樹重點考慮先前被錯分或漏分的數據,最后得到更加精確的決策樹模型[25].
相關知識推薦:林業工程師從中級升高級需要滿足什么條件
林業方向中級晉升高級職稱要求是比較嚴格的,當然各個省要求也是不同的,下面文章就以江蘇省的職稱文件為材料,給大家講解林業工程師從中級升高級要滿足的條件,主要分享的是學歷資歷,工作業績,論文、論著等要求,林業從業人員可以作為參考。有想了解更多有關林業評職方面的內容,可咨詢期刊天空在線編輯。
1.4樣本采集與特征提取
參照《土地利用現狀分類》(GBT21010—2017)[39],結合研究區現狀,將研究區土地利用類型分為非植被(含水域、建筑用地、交通運輸用地等)、耕地(含水田、水澆地、旱地)、杉木、馬尾松、闊葉樹、未成林地造林地共6大類.為分析不同地類的特征,分別選取訓練樣本進行統計分析,訓練樣本數量與類型面積呈正比且大于30個.研究區第一層分類為植被和非植被;在第一層分類的基礎上,僅針對植被區域將其細分為耕地、未成林造林地、杉木、馬尾松和闊葉樹.不同地類的各特征值見表
2.2結果與分析
2.1最優尺度確定和類層次構建
參考前人關于多尺度分割參數設置的經驗[40],在不同的形狀和緊致度參數條件下,以10為尺度間隔,從尺度30~200對影像進行多尺度分割,并計算不同尺度下對象的同質性指數、異質性指數和GS值.根據多次試驗和分析,最終確定了90和40兩個尺度.兩尺度下形狀與緊致度參數的設置分別為:0.2與0.5、0.6與0.3.第一層,用于區分植被和非植被區域,尺度參數為90;第二層,用于區分耕地、未成林造林地、馬尾松、杉木和闊葉林等,尺度參數為40.利用軟件關于類的繼承功能建立了類的層次結構,并設定好子對象與父對象在類層次之間的距離.在90尺度下,建筑和水體得到充分的分割,能與植被很好地區分;而在40尺度下,水體和建筑均被過分割,整體更加破碎;對于森林和農田等對象特征比較復雜的地物,90尺度下存在欠分割,難以更好地表達地物的實際情況(圖2).因此,通過多尺度分割,分層次分類可實現更好的分類.
2.2決策樹建立
本研究針對植被區域對決策樹分類效果進行比較.在植被區域選擇和提取出訓練樣本共176個,基于R軟件下的C5.0和rpart包,實現C4.5和C5.0決策樹建模,將得到的模型利用eCognition軟件的if和else功能建立相應決策樹實現分類.同時,基于eCognition軟件自帶的CART模型建立決策樹.本研究將提取的訓練樣本共計21個特征屬性值作為測試變量,杉木、馬尾松、闊葉樹、未成林造林地和耕地作為目標變量.將數據整理后,用不同模型分別進行數據挖掘,建立決策樹(圖3).建立不同決策樹用到的變量主要有亮度、藍綠紅3波段標準差、近紅外波段均值、密度、面積、同質性、形狀指數、SAVI等10多種變量.其中,對象亮度值是最重要的變量之一,在C5.0和CART決策樹中均為首個分割特征;而后,根據不同算法,選取不同特征值實現類別的劃分.
SCISSCIAHCI