原創(chuàng) 黃 健等 南京林業(yè)大學學報
專題報道
基于多源數(shù)據(jù)及三層模型的區(qū)域優(yōu)勢林種識別
黃 健,吳達勝,方陸明
浙江農(nóng)林大學 數(shù)學與計算機科學學院,林業(yè)感知技術(shù)與智能裝備國家林業(yè)和草原局重點實驗室
傳統(tǒng)的森林資源調(diào)查以實地調(diào)查為主,不僅需要大量的人力、物力、財力,而且調(diào)查周期長,難以滿足森林資源動態(tài)監(jiān)測的需求。當然,傳統(tǒng)的地面調(diào)查可為森林資源調(diào)查提供客觀可靠的數(shù)據(jù),再結(jié)合遙感影像和機器學習方法,可以提高森林資源監(jiān)測的時效性、降低監(jiān)測成本。近年來,光學遙感影像數(shù)據(jù)在林業(yè)資源監(jiān)測中備受關(guān)注。
李煜等、張悅楠等、蔡林菲等使用遙感影像結(jié)合機器學習的方式對樹種進行了識別,均得到了可觀的總體識別精度,3個研究結(jié)果均表明光譜信息是決定樹種識別精度的主要特征變量。隨著遙感技術(shù)的迅速發(fā)展,將光學遙感影像與雷達遙感影像相結(jié)合的方法在森林資源監(jiān)測中的使用也越來越廣泛,且在樹種識別方面取得了較好的效果。王瑞瑞等使用機載多光譜數(shù)據(jù)與雷達點云數(shù)據(jù),結(jié)合RF,SVM與ANN進行樹種識別,總體精度達到了86.19% ;徐逸等采用XGBoost算法,以機載高光譜數(shù)據(jù)與雷達數(shù)據(jù)對紅樹林樹種進行了分類,總體精度達到了96.74%;皋廈等結(jié)合LiDAR與高光譜數(shù)據(jù),使用RF算法構(gòu)建樹種識別模型,總體精度達到了91.30%。Persson等使用Sentinel-2影像數(shù)據(jù),結(jié)合RF對瑞典常見樹種進行分類,總體精度達到了86.30% ,研究表明近紅外波段對樹種的識別有重要的作用;Ginaelle等使用高光譜與多光譜數(shù)據(jù)融合激光雷達數(shù)據(jù)對南阿爾卑斯山區(qū)域特蘭托的部分區(qū)域進行樹種識別,經(jīng)對比實驗發(fā)現(xiàn),高光譜數(shù)據(jù)結(jié)合激光雷達數(shù)據(jù)與多光譜數(shù)據(jù)結(jié)合雷達數(shù)據(jù)在對“森林”“非森林”和"闊葉林”“針葉林”“非森林”這兩種宏觀分類上沒有明顯差距,但在對樹種進行精細分類時,高光譜數(shù)據(jù)結(jié)合激光雷達數(shù)據(jù)的效果更優(yōu)。
淳安縣中的主要樹種結(jié)構(gòu)為闊葉林與針葉林,其中闊葉林中包含闊葉混交林、其他硬闊林、山核桃林(Carya cathayensis) ,針葉林中包括杉木(Cunninghamia lancelata)與馬尾松( Pinus massoniana ) ,這些樹種起到了保持水土、調(diào)控天氣以及維持生物多樣性等作用,同時也為人類生產(chǎn)生活提供了豐富的原材料,為可持續(xù)發(fā)展提供了堅實的物質(zhì)基礎(chǔ)。毛竹(Phyllosstachys heterocycle)與茶葉林(Camellia sinensis)是研究區(qū)中經(jīng)濟林的重要組成部分,并帶來了較可觀的經(jīng)濟效益。通過對經(jīng)濟林的分布識別可以更方便地進行資源規(guī)劃,對研究區(qū)域的經(jīng)濟發(fā)展具有重要意義,故本研究將經(jīng)濟林作為樹種結(jié)構(gòu)識別目標之一。
綜上所述,關(guān)于優(yōu)勢樹種識別的研究區(qū)域主要集中在林場或森林且都獲取了較高的識別精度,但對于大范圍內(nèi)的優(yōu)勢樹種識別研究較少,模型的泛化能力不夠,為了進一步提高區(qū)域森林小班優(yōu)勢樹種識別結(jié)果的可靠性與模型的泛化能力,并獲取較高的識別精度,本研究集成Sentinel-2和 Senti-nel-1遙感影像、數(shù)字高程模型(DEM)和森林資源二類調(diào)查數(shù)據(jù),將模型分為3層:首先使用RF建立林地識別模型,再使用RF、XCBoost 、LightGBM建立樹種結(jié)構(gòu)識別模型,最后一層根據(jù)樹種結(jié)構(gòu)識別模型的識別結(jié)果,使用LightGBM進行優(yōu)勢樹種識別,這是一個逐步求精的過程。本期論文推薦的作者采用3層模型結(jié)構(gòu)對大范圍內(nèi)的優(yōu)勢樹種進行識別,以期獲取相較于傳統(tǒng)的單層模型更高的精度。
下面跟學報君一探究竟!
作者簡介
通訊作者
吳達勝,男,1972年11月生,浙江省優(yōu)秀科技特派員,高級程序員、數(shù)據(jù)庫高級管理工程師。
第一作者
黃健,男,1997年10月出生,浙江農(nóng)林大學農(nóng)業(yè)工程與信息技術(shù)研究生。
關(guān)鍵詞:林種識別;光學遙感;雷達遙感;數(shù)字高程模型;模型分層
基金項目:浙江省科技重點研發(fā)計劃資助項目( 2018CO2013)。
引文格式:黃健,吳達勝,方陸明.基于多源數(shù)據(jù)及三層模型的區(qū)域優(yōu)勢林種識別[J].南京林業(yè)大學學報(自然科學版),2022,46(1):77-87.HUANG J,WU D S,FANG L M.ldentification of regional dominant tree species based on muli-source data andthree-tier models[J].Journal of Nanjing Forestry University (Natural Sciences Edition), 2022,46(1):77-87.DOI:10.12302/j.issn.1000-2006.202109037.
1目的
目前關(guān)于林種識別的研究區(qū)域主要為小范圍森林區(qū)域和林場,為了探究較大范圍內(nèi)樹種的識別方法,本研究使用Sentinel-2光學遙感影像、森林資源二類調(diào)查數(shù)據(jù)﹑數(shù)字高程模型(DEM)和Sentinel-1雷達遙感影像數(shù)據(jù)建立樹種識別模型。
2方法
以淳安縣作為研究區(qū)域,針對淳安縣的7類優(yōu)勢林種:毛竹(Phyllosstachys heterocycle)林、茶樹林、山核桃(Carya cathayensis )林、杉木(Cunninghamia lanceolata)林、馬尾松(Pinus massoniana)林、闊葉混交林(Camellia sinensis) 、其他硬闊林進行識別。研究采用分層的方法對優(yōu)勢樹種進行識別,整體分為3層。第Ⅰ層使用RF算法建立林地與非林地識別模型;第⒉層對林地數(shù)據(jù)進行樹種結(jié)構(gòu)識別,分別使用隨機森林(random forest,RF),極端梯度提升(eX(treme gradient boosting,XGBoost)和輕量級梯度提升機(light gradient boostig machine, LightCBM)方法建立不同模型并對比分析實驗結(jié)果;第3層將林種結(jié)構(gòu)的細分為優(yōu)勢林種類型。
2.1 試驗材料
研究區(qū)域為浙江省淳安縣(118°20'~119°20'E,29°11'~30°02'N)(表1),位于浙江省西部、杭州市西南部丘陵山區(qū),白際山脈和千里崗山脈之間,新安江和千島湖交匯之處,四面多山,中為丘陵,略呈盆地狀,屬北亞熱帶季風氣候區(qū)。陸域面積4 417.48k㎡,是浙江省陸域面積最大的縣。淳安縣中部是千島湖區(qū),生態(tài)環(huán)境較好,擁有33.332萬h㎡的森林面積,覆蓋率高達75.27%。其中,包括了闊葉混交林、其他硬闊林、山核桃林、馬尾松林、杉木林、毛竹林、茶樹林這7類勢林種。
▼表1 樹種結(jié)構(gòu)分類及樣本數(shù)量
2.1.1 自變量提取
2.1.1.1 光學遙感因子
光學遙感因子包括了光譜特征因子和紋理特征因子。
光譜特征因子:在 Sen2Cor 插件與SNAP軟件中經(jīng)過預(yù)處理將影像轉(zhuǎn)為ENVI格式,去除Sentinel-2遙感影像中分辨率較低且與實驗關(guān)系不大的3個波段(Band1 為海岸/氣溶膠波段, Band9為水蒸氣波段,這兩個波段對于本研究的意義不大,而Band10為卷云波段,獲取的是大氣頂部的反射率,并不是地表的反射率,在Sen2Cor插件中的大氣校正步驟中自動刪除),剩余10個波段,外加計算得到的4個植被指數(shù):比值植被指數(shù)(RVI)、增強型植被指數(shù)(EVI)、差值環(huán)境植被指數(shù)(DVI)、歸一化植被指數(shù)( NDVI)[5,4]以及6個光學波段組合因子,共計20個光譜特征因子作為自變量(表2)。
▼表2 光譜特征因子
紋理特征因子:基于Sentinel-2光學遙感影像中空間分辨率最高(10 m)的 Band2 、 Band3 、 Band4和 Band8進行主成分分析,并選取第1主成分進行計算紋理特征值。在遙感影像的研究中,使用的滑動窗口大小一般不大于51×51像素,所以本研究共使用了13個大小為3×3像素至51×51像素之間,方向為135°,且移動步長為1像素的滑動窗口進行對比。各個窗口提取均值(mean)、同質(zhì)性(homogeneity)、嫡(entropy)、非相似性(dissimilari-ty)、對比度(contrast)、相關(guān)性(correlation)、方差(variance)和二階矩(second moment)8個紋理特征值參與后續(xù)實驗。
2.1.1.2 雷達遙感數(shù)據(jù)提取特征
使用SNAP軟件對Sentinel-1雷達遙感影像數(shù)據(jù)進行軌道校正、消除邊界噪聲、去除熱噪聲、抑制相干斑噪聲、輻射定標、分貝化等操作,得到VV(垂直發(fā)射,垂直接收,同向極化)和VH(垂直發(fā)射,水平接收,交叉極化)兩種極化方式的后向散射系數(shù),并將VV和VH進行相減和相除,共得到4個雷達遙感因子。
2.1.1.3 地形特征提取
將獲取的4景DEM 在ArcGIS中進行坐標系轉(zhuǎn)換、拼接和裁剪后,提取研究區(qū)域的海拔、坡度、坡向這3個地形因子。
2.1.1.4 森林資源二類調(diào)查數(shù)據(jù)
從森林資源二類調(diào)查數(shù)據(jù)中提取各個小班的土層厚度、腐殖質(zhì)厚度作為特征因子,并將其所對應(yīng)的樹種結(jié)構(gòu)與優(yōu)勢樹種作為模型標簽,用于模型精度的驗證指標。
腐殖質(zhì)厚度二類數(shù)據(jù)中的表示為:薄、中、厚。由于這兩個特征因子并沒有詳細的數(shù)值且相互之間存在遞進的數(shù)學關(guān)系,本研究采用了標簽編碼的方式(薄編碼為0;中為1;厚為2)。土層厚度在二類數(shù)據(jù)中有具體的數(shù)值表示,故不需要進行編碼。
綜上所述,本研究共使用到37個特征因子,其中光譜特征因子20個,紋理特征因子8個,雷達遙感因子4個,地形因子3個,森林資源二類調(diào)查因子2個。
2.1.2 總體路線
以小班為研究單元,集成Sentinel-2 , Sentinel-1、DEM及森林資源二類調(diào)查數(shù)據(jù),提取自變量因子數(shù)據(jù),并將各個因子使用不同的組合方式進行建模。第1層模型使用RF模型識別林地與非林地;第⒉層使用RF、XGBoost 、 LightGBM模型識別林地的類型;第3層使用上層中的最優(yōu)方法結(jié)合雷達遙感數(shù)據(jù)識別優(yōu)勢樹種。
具體流程如圖1所示。
▲圖1 實驗流程圖
2.2 研究方法
1)隨機森林(RF)。使用Boostrap重采樣算法對原始數(shù)據(jù)集進行有放回的橫向欠采樣與縱向欠采樣,得到若干份數(shù)據(jù)集。使用每一份訓練集訓練一棵決策樹,所有的決策數(shù)據(jù)集成后稱為隨機森林,最終的分類結(jié)果由各子樹投票進行決定,得票數(shù)最多的識別結(jié)果作為隨機森林的最終結(jié)果。本研究設(shè)置了最大特征數(shù)為總特征數(shù)量的平方根,子樹的數(shù)量設(shè)置為250棵。
2)極端梯度提升(XGBoost )。該算法的基礎(chǔ)學習器之間存在線性的相關(guān)性,通過特征預(yù)排序機制,減少了迭代過程中的計算量,每次迭代對殘差進行擬合。基學習器采用了與RF相似的特征降采樣,降低過擬合的風險。XGBoost模型采用決策樹作為基學習器,子樹數(shù)量設(shè)為250棵,最大深度為6,每棵決策樹使用80%的訓練集樣本與80%的特征進行構(gòu)建,學習率默認為0.3。
3結(jié)果
第Ⅰ層RF林地與非林地識別模型總體精度為98.08%;第2層林種結(jié)構(gòu)識別模型中對比了3個模型不同特征組合下的性能,其中LightCBM模型總體精度最高,達到了81.43% ;第3層模型對優(yōu)勢林種進行識別,基于所有特征結(jié)合雷達遙感因子建模的情況下, LightCBM模型精度為84.51% ,經(jīng)遞歸特征消除法(recursive feature elimination,RFE)選擇特征后,最優(yōu)精度為83.21%。
3.1 林地與非林地識別
林地與非林地識別模型的分類結(jié)果如表3所示。從分類結(jié)果上看,SMOTE過采樣可以使第一層模型的總體精度達到最高,其中測試集識別結(jié)果混淆矩陣如圖2所示。
▼表3 不同過采樣算法下的RF模型精度
▲圖2 林地識別結(jié)果混淆矩陣
3.2 樹種結(jié)構(gòu)識別
將第1層模型中識別結(jié)果為林地的數(shù)據(jù)進行篩選后,利用RF、XGBoost、LightGBM這3種算法,使用如下4個自變量組合方案進行建模。方案1為光譜特征因子;方案2為光譜特征因子、森林資源二類調(diào)查因子;方案3為光譜特征因子、森林資源二類調(diào)查因子、地形因子;方案4為光譜特征因子、森林資源二類調(diào)查因子、地形因子、紋理特征因子,其中前3種方案得到9種建模結(jié)果。測試數(shù)據(jù)在9個模型上的精度表現(xiàn),如表5所示。
▼表4 基于3種自變量組合方案及3種分類模型的精度比較
對比表4中的9個實驗方案的總體精度,可以發(fā)現(xiàn), LightGBM模型方案3的結(jié)果最優(yōu),其總體精度達到了80.76% ,且計算所需的時間也遠少于RF和XGBoost模型,表現(xiàn)最佳。
基于LightGBM模型方案3,再加入13個不同大小的窗口獲取的紋理特征(方案4),進一步評價LightGBM模型的精度(如表5所示)。由表5可知:在窗口大小為7×7時, LightGBM-4樹種結(jié)構(gòu)的總體識別精度最高,達到了81.43%。
▼表5 LightGBM方案4的模型識別精度
▲圖3 基于RFE和LightGBM方案4的樹種結(jié)構(gòu)識別結(jié)果混淆矩陣
基于RFE和 LightGBM-4樹種結(jié)構(gòu)識別模型中的特征重要性如圖4所示,光譜特征中 Band3、Band4 、Band6、 Band11 、 Band12波段和B8A_B7、B6_B5、B7_B6光學波段組合因子在模型中貢獻度較高。紋理特征中的mean , second moment 和地形因子中的坡度(slope)、海拔(elevation)的貢獻度也較高。
▲圖4 基于RFE和LightGBM方案4的樹種結(jié)構(gòu)識別模型的各特征重要性排序
3.3 優(yōu)勢樹種識別
本研究涉及的優(yōu)勢林種主要有7類:闊葉混交林、其他硬闊林、山核桃林、杉木林、馬尾松林、毛竹林、茶樹。
構(gòu)建優(yōu)勢林種識別模型時,特征組合方式使用構(gòu)建林種結(jié)構(gòu)識別的方案4結(jié)合上雷達遙感因子。對于紋理特征處理,采用與樹種結(jié)構(gòu)識別模型一樣的窗口數(shù)量及大小(見表5)評價紋理特征對模型精度的影響,結(jié)果見圖5。由圖5可知,精度較高的窗口大小為23×23、31×31、35×35、39×39、51×51,其中51×51窗口獲取的紋理特征使模型精度最高,識別結(jié)果混淆矩陣如圖7所示。
▲圖5 不同大小滑動窗口對應(yīng)的模型精度
由圖6可知:毛竹、茶葉和山核桃林的識別精度較高,闊葉混交林和其他硬闊林的識別精度都比較低,從混淆矩陣中看來,這兩類優(yōu)勢樹種有比較大的概率被識別成同一類,難以準確地將它們區(qū)分開,從而導致總體識別精度下降。針葉林中的識別結(jié)果來看,杉木林的識別效果優(yōu)于馬尾松。
▲圖6 基于LightGBM-4及雷達遙感因子建模識別結(jié)果混淆矩陣
為了進一步研究雷達遙感數(shù)據(jù)對優(yōu)勢樹種識別的影響及分析各自變量因子的重要性,基于表4的第4種自變量因子組合方案,分別使用了3中雷達遙感因子及特征選擇方案:方案A為未加入雷達遙感因子進行特征選擇;方案B為加入雷達遙感因子進行特征選擇;方案C為特征選擇后加入雷達遙感因子,利用LightGBM模型識別優(yōu)勢樹種,結(jié)果見表6。
由表6可知:雷達遙感因子對優(yōu)勢樹種識別精度影響不明顯。方案B和方案C的特征重要性如圖7所示。由圖7可知來自光學遙感和DEM的自變量因子比雷達遙感數(shù)據(jù)獲取的自變量因子對模型的精度影響更大。
▼表6 基于LightGBM-4及3種雷達遙感因子及特征選擇方案的建模精度對比
▲圖7 基于LightGBM的優(yōu)勢樹種識別的特征重要性排序
本研究所使用的林地數(shù)據(jù)為經(jīng)過拉依達準則篩選后的50 565條數(shù)據(jù),在區(qū)分了林地與非林地的基礎(chǔ)上,對所有林地數(shù)據(jù)進行了林種結(jié)構(gòu)識別,識別結(jié)果如圖8( a)所示。所有林地的林種結(jié)構(gòu)識別完成后,將林種結(jié)構(gòu)細分為更精細的優(yōu)勢林種,識別結(jié)果如圖8(b)所示。
▲圖8 淳安縣樹種結(jié)構(gòu)與優(yōu)勢樹種識別結(jié)果
由圖8可知,本研究采用的方法對于淳安縣優(yōu)勢林種有較好的識別效果,整體精度較高。
本研究同時基于LightGBM模型方案4(表4)及雷達遙感因子,構(gòu)建一層模型直接對優(yōu)勢樹種進行識別,識別結(jié)果如下所示:一層模型使用所有特征進行建模的總體精度為70.99% , RFE后特征建模精度為68.13% ,模型訓練時間為3.72s;三層模型使用所有特征進行建模的總體精度為84.51%,RFE后特征建模精度為68.13% ,模型訓練時間為36.68 s。由模型對比結(jié)果可知:一層模型的優(yōu)勢樹種識別結(jié)果相較于3層模型(RF-LightGBM-LightG-BM)而言精度下降非常明顯。這表明,3層模型逐步求精的識別方式比一層模型直接識別有更高的精度。
此外,從實驗結(jié)果中發(fā)現(xiàn),在優(yōu)勢林種識別模型中,闊葉混交林與其他硬闊林兩種優(yōu)勢樹種區(qū)分難度較大,識別精度較低,根據(jù)3個光譜特征距離對其進行分析,如圖9所示。
林海軍等計算了數(shù)據(jù)間的協(xié)方差(馬氏距離),獲取林種光譜特征之間的相似度,用于確定樹種之間差異顯著的波段,并剔除差異不顯著的波段。在本研究中,通過圖9中的3個光譜特征距離的對比可發(fā)現(xiàn),山核桃、毛竹、茶樹林的特征距離比其他優(yōu)勢林種的都比較大,說明了這3種優(yōu)勢林種與其他優(yōu)勢林種的光譜特征差異較明顯,容易與其他樹種區(qū)分開,從而獲得了較高的識別精度。由于闊葉混交林與其他硬闊林都屬于混合優(yōu)勢林種,其中多種樹種交混著生長,且研究區(qū)域?qū)儆谇鹆甑貐^(qū),地表有起伏變化較為明顯,可能導致了“異物同譜”現(xiàn)象的發(fā)生,使模型對其識別難度增大。這2種優(yōu)勢樹種的切比雪夫距離僅為15.5,說明兩者之間的光譜特征差異非常小,無法找到2個優(yōu)勢林種之間差異顯著的波段,這可能是導致兩種優(yōu)勢林種識別精度較低的主要原因。
▲圖9 各優(yōu)勢林種之間的光譜特征距離
4結(jié)論
通過各個模型的特征重要性圖發(fā)現(xiàn),光學遙感中的綠光、紅光、近紅外波段和紅邊波段,以及DEM提取的地形因子對研究區(qū)域小班優(yōu)勢樹種識別有比較好的效果,而Sentinel-1雷達中提取的自變量對優(yōu)勢林種的識別沒有特別明顯的幫助。
關(guān)注我們,更多精彩
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/64022.html