帳號:guest(18.119.138.202)          離開系統
字體大小: 字級放大   字級縮小   預設字形  

詳目顯示

以作者查詢圖書館館藏以作者查詢臺灣博碩士論文系統以作者查詢全國書目
作者(中文):張廷漢
論文名稱(中文):以區域敏感雜湊函數進行哼唱選歌
論文名稱(外文):Query By Singing/Humming using Locality Sensitive Hashing
指導教授(中文):張智星
張俊盛
口試委員(中文):張智星
張俊盛
陳煥宗
徐嘉連
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系
學號:100062649
出版年(民國):102
畢業學年度:101
語文別:中文
論文頁數:51
中文關鍵詞:區域敏感雜湊函數哼唱選歌
外文關鍵詞:LSHQBSH
相關次數:
  • 推薦推薦:0
  • 點閱點閱:430
  • 評分評分:*****
  • 下載下載:13
  • 收藏收藏:0
摘要
在本論文中,我們使用區域敏感雜湊函數(LSH, locality sensitive hashing)來實作哼唱選歌(QBSH, query by singing/humming)系統,此系統可提供使用者哼或唱一首曲子,接著會將此使用者唱的曲子與資料庫當中的歌曲進行比對,最後回傳最相似的歌曲給使用者。
我們首先為了讓LSH能夠篩選出盡可能正確的結果,我們會對哼唱輸入的歌曲以及資料庫的歌曲使用線性伸縮來做前處理以及切成片段,接下來再使用LSH來找出與哼唱輸入的小片段較相似的資料庫片段,並將這些片段對應的歌曲列為候選歌曲,最後將相對應的哼唱輸入片段與資料庫片段延伸並做一對一的計算距離,最後從中選出距離最近的前十名來回傳給使用者。
在我們的實驗中,我們所使用的哼唱輸入總共有454首wav檔案,資料庫歌曲則是2048首midi檔案,Top1的正確率是61.23%,Top10的正確率是76.87%,平均一首哼唱輸入所花費的計算時間是3.87秒。
關鍵字: 哼唱選歌、線性伸縮、區域敏感雜湊函數

Abstract
This paper proposes a query by singing/humming (QBSH) method based on locality sensitive hashing (LSH).The QBSH system allows a user to sing or hum a song, and the system compares this song with the songs in the database and returns the most similar song to the user.
First, we perform linear scaling to the segmented pitch vector of the user-sung or hummed tune in order to maximize the performance of LSH. LSH is then used to efficiently find relatively similar song segments in the database, and the corresponding songs of these song segments are labelled as candidate songs. Lastly the input pitch vector is compared with the candidate song segments to obtain the top-10 list.
In our experiments, we use a dataset with 454 input queries and 2048 MIDI songs in the database. Our method achieves a 61.23% top-1 accuracy, 76.87% top-10 accuracy. The average computation time is 3.87 second per query.
Keywords: QBSH、Linear Scaling、LSH
摘要 I
Abstract II
謝誌 III
目錄 IV
表目次 VI
圖目次 VII
第一章 緒論 10
1.1 研究主題 10
1.2 相關研究簡介 10
1.3 本論文的研究方向及主要成果 11
1.4 章節概要 12
第二章 哼唱選歌系統(QBSH)的改進 13
2.1 哼唱選歌系統(QBSH)簡介 13
2.2 LSH (Locality Sensitive Hashing)簡介 13
2.3 線性伸縮 (Linear Scaling) 18
2.4 哼唱選歌於LSH上的實作 20
2.4.1 資料庫歌曲的前處理 21
2.4.2 哼唱輸入的前處理 23
2.4.3 執行LSH來產生初步結果 27
2.4.4 使用初步結果來產生最後的排名 28
第三章 實驗結果與分析討論 32
3.1 實驗使用的測試語料及資料庫 32
3.2 實驗環境設定 33
3.3 以區域敏感雜湊函數來進行哼唱選歌的實驗結果 33
3.3.1 模擬Klapuri[5]等人方法產生的實驗結果 34
3.3.2 錯誤分析1-片段擷取過短而無法表現出歌曲旋律 35
3.3.3 錯誤分析2-前後靜音部分的處理 37
3.3.4 錯誤分析3-伸縮方式的不同而產生的時間花費 38
3.3.5 錯誤分析4-使用者哼唱不準確而產生錯誤 42
3.3.6 錯誤分析5-調整LSH回傳數量 44
3.3.7 實驗結果總結 45
第四章 結論與未來工作 47
4.1 結論 47
4.2 未來工作 48
參考文獻 50
[1]Alexandr Andoni and Piotr Indyk "Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions". Communications of the ACM, vol. 51, no. 1, 2008, pp. 117-122.
[2]M. Datar, N. Immorlica, P. Indyk, and V. Mirrokni. Locality-Sensitive Hashing Scheme Based on p-Stable Distributions. In Symposium on Computational Geometry (SOCG), 2004.
[3]M. Ryynänen and A. Klapuri, “Transcription of the singing melody in polyphonic music,” in Proc. 7th International Conference on Music Information Retrieval, 2006.
[4]Zhiyuan Guo, Qiang Wang, Gang Liu, Jun Guo, “Query By Humming By Using Locality Sensitive Hashing Based On Combination Of Pitch And Note” in Proc. Signal Processing, 2012.
[5]Zhiyuan Guo, Qiang Wang, Gang Liu, Jun Guo, “A Query By Humming System Based On Locality Sensitive Hashing Indexes” in Proc. 2012 IEEE, ICMEW.2012.58
[6]Yi Yu, Michel Crucianu, Vincent Oria, Ernesto Damiani, “Combining Multi-Probe Histogram and Order-Statistics Based LSH For Scalable Audio Content Retrieval” in Proc. 2010 ACM.
[7]J.-S. R. Jang, H.-R. Lee, and M.-Y. Kao, “Content-based Music Retrieval Using Linear Scaling and Branch-and-Bound Tree search,” in Proc. of IEEE International Conference on Multimedia and Expo, August 2001.
[8]M. Ryynänen and A. Klapuri, "Query by Humming of MIDI and Audio Using Locality Sensitive Hashing," in Proc. 2008 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'08), Las Vegas, Nevada, USA, April 2008.
[9]X. Wu,M. Li,J. Yang, and Y. Yan, “A top-down approach to melody match in pitch contour for query by humming,” in Proc. International Conference of Chinese Spoken Language Processing, 2006.
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
* *