帳號:guest(3.22.241.15)          離開系統
字體大小: 字級放大   字級縮小   預設字形  

詳目顯示

以作者查詢圖書館館藏以作者查詢臺灣博碩士論文系統以作者查詢全國書目
作者(中文):黃文顥
作者(外文):HUANG, WEN-HAO
論文名稱(中文):使用隨機配置方法處理大數據中不完整地址資料 - 以新北市為例
論文名稱(外文):Imputing incomplete geocoding in the New Taipei City based on random allocation
指導教授(中文):黃禮珊
指導教授(外文):HUANG, LI-SHAN
口試委員(中文):江金倉
楊承道
口試委員(外文):Yang, Cheng-Tao
學位類別:碩士
校院名稱:國立清華大學
系所名稱:統計學研究所
學號:110024519
出版年(民國):112
畢業學年度:111
語文別:中文
論文頁數:31
中文關鍵詞:隨機配置方法不完整地址資料核密度估計
外文關鍵詞:KDE
相關次數:
  • 推薦推薦:0
  • 點閱點閱:44
  • 評分評分:*****
  • 下載下載:0
  • 收藏收藏:0
新北市房屋地址受到地名路名更新、填寫錯誤等原因,有10.5%的房屋地址不完整,造成無法透過地址資訊找到其對應的所在座標,稱其為房屋座標缺失。我們在論文中嘗試五種不同的座標配置方法,透過模擬並搭配Accuracy、Total distance和MISE三個衡量指標,其中隨機抽取完整資料的座標作為不完整資料的座標填補值,取得最佳的結果。另外,我們在五種配置方法中也嘗試了唯一一種連續型的方法,即Kernel Density Estimation(KDE),但表現並不佳。我們推測可能是KDE在處理不連續的地理資料所造成的偏差問題,故我們推導了一維和二維的密度函數存在不連續點的情況下,KDE的漸進偏差,旨在了解連續與不連續之間偏差的差異。
Due to factors such as updates in place and street names, as well as incorrect entries, approximately 10.5% of housing addresses in the New Taipei City are incomplete. This leads to the absence of corresponding coordinates for these addresses, which we refer to as ``housing coordinate missing." In this thesis, we explore five imputing methods for coordinate allocation in a simulation study. Based on three criteria, Accuracy, Total Distance, and MISE (Mean Integrated Squared Error), the best results are achieved by randomly sampling coordinates from complete data to fill in the missing values in incomplete data. Additionally, among the five methods, the only continuous method, Kernel Density Estimation (KDE), does not perform well. We conjecture that it may be due to the bias problem of KDE for discontinuous geographical data. We further derive the asymptotic bias of 1- and 2-dimensional KDE where there is a discontinuous point in the underlying density, aiming to understand differences in bias between continuous and discontinuous cases.
1 引言1
1.1 定義「房屋座標缺失」. . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 房屋稅籍資料庫與門牌地址定位資料庫. . . . . . . . . . . . . . . . 1
1.3 新北市各行政區與里內部的重要特徵. . . . . . . . . . . . . . . . . 3
2 背景介紹6
2.1 文獻中現存的填補方法. . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Kernel Density Estimation(KDE) 簡介. . . . . . . . . . . . . . . . 7
3 填補方法8
3.1 基本假設. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 方法介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4 模擬10
4.1 定義衡量指標. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 模擬結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2.2 Total distance . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2.3 Integrated Square Error(ISE) . . . . . . . . . . . . . . . . . 15
4.3 Confidence Interval . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 理論證明17
5.1 Bias property in R . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Bias property in R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6 結論與後續研究27
6.1 方法比較. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2 現有方法與優化方向. . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.3 總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.4 後續研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
參考文獻31
[1] Chacón, J.E., & Duong, T. (2018). Multivariate Kernel Smoothing and Its
Applications (1st ed.). Chapman and Hall/CRC. 28,91,94,97.
[2] Sheather, S. J. (2004). Density Estimation. Statistical Science, 19(4), 588–
597. 588,589.
[3] van Eeden, C. (1985). Mean integrated squared error of kernel estimators
when the density and its derivative are not necessarily continuous. Ann Inst
Stat Math 37, 461–472. 466
[4] Bert van Es. (1997). A note on the integrated squared error of a kernel density
estimator in non-smooth cases, 241-250.
[5] Scott R. Walter, Nectarios Rose. (2013). Random property allocation: A novel
geographic imputation procedure based on a complete geocoded address file,
7-16.
[6] Tarn Duong. (2022). ks: Kernel density estimation for bivariate data.
[7] Tarn Duong. (2022). Statistical visualisation for tidy and geospatial data in
R via kernel smoothing methods in the eks package.
[8] Tarn Duong, and Martin L. Hazelton. (2005). Cross-Validation Bandwidth
Matrices for Multivariate Kernel Density Estimation. Scandinavian Journal
of Statistics, vol. 32, no. 3, pp. 485–506.
[9] Henry KA, Boscoe FP. (2008). Estimating the accuracy of geographical im-
putation. Int J Health Geogr. Jan 23;7:3.
(此全文20280722後開放外部瀏覽)
電子全文
摘要
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
* *