帳號:guest(18.118.19.189)          離開系統
字體大小: 字級放大   字級縮小   預設字形  

詳目顯示

以作者查詢圖書館館藏以作者查詢臺灣博碩士論文系統以作者查詢全國書目
作者(中文):鄧愷
作者(外文):Deng, Kai
論文名稱(中文):用於單音人聲和複音音樂的抖音偵測
論文名稱(外文):Vibrato Detection for Monophonic Vocals And Polyphonic Music
指導教授(中文):張智星
張俊盛
口試委員(中文):陳煥宗
徐嘉連
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系
學號:100062466
出版年(民國):102
畢業學年度:101
語文別:中文
論文頁數:43
中文關鍵詞:抖音偵測隱藏式馬可夫模型正弦擬合低階描述子曲線下面積
相關次數:
  • 推薦推薦:0
  • 點閱點閱:1092
  • 評分評分:*****
  • 下載下載:4
  • 收藏收藏:0
抖音是指音高上出現規律性的波動變化,是一種音樂效果,它包括音高變化的數量和音高變化的速度,在民歌和歌劇等音樂形式當中頻繁出現。本論文需要探尋可行的特徵參數擷取,實驗各種可行的分類方法,期許建立一套合理的抖音偵測方法。
論文主體包括「單音人聲的抖音辨識」和「複音音樂的抖音辨識」,兩種情況下的辨識方法,各不相同,需要分別找尋合適的特徵擷取和分類方法,期望達到較高的辨識效果。
首先在「單音人聲的抖音辨識」中,根據定義,對音高和音量提取特徵。獲取正弦擬合所得到的振幅、頻率及擬合誤差作為特徵參數。並通過特徵選取等相關實驗,從以上的特徵中選取合適的特徵。並比較靜態分類器和隱藏式馬可夫模型(HMM)的辨識率以及曲線下面積(area under curve, AUC)的高低,尋找合適的分類方法。
而在對「複音音樂的抖音辨識」的實驗中,複音音樂下音高追踪的結果無法做到準確,需要找尋新的特徵擷取方法。這裡就用到低階描述子(low level descriptor, LLD)及差量回歸係數(delta regression coefficients)。並且從中獲取包括關於臨界(extremes)、慣量(moments)、離散餘弦變換、離散傅立葉變換等的特徵。通過實驗挑選合適的特徵與分類方法。
Vibrato is a musical effect consisting of a regular, pulsating change of pitch. It includes the extent of vibrato and the rate of vibrato. Vibrato always appears in folk and opera. This thesis is to explore the feasible method for feature extraction, and experiment some kinds of classifier, then build an reliable solution of vibrato detection.
The research thesis includes "vibrato detection for monophonic vocals" and "vibrato detection for polyphonic music". Hoped to get the better recognition rate, we try the different case of feature extraction and classifier in the two cases.
At first in "vibrato detection for monophonic vocals", we do feature selection with pitch and volume. By sine fit, get the amplitude, frequency and error of the pulsating change. Do experiments such as feature selection and so on, then get the better feature. Get the recognition rates and area under curve (AUC) of static classifier, compare the result with hidden Markov model (HMM), try to get the appropriate classifier.
Then in "vibrato detection for polyphonic music", pitch tracking cannot be accurate. It needs to found new method for feature extraction. Low level descriptor (LLD) and delta regression coefficients is used to extract some feature about extreme, moments, Discrete Cosine Transform, Discrete Fournier Transform and so on. Do some experiment to select appropriate features and find the appropriate classifier.
第1章 緒論 1
1.1 研究主題 1
1.2 抖音辨識簡介 2
1.3本論文研究方向和主要成果 2
1.4 章節概要 2
第2章 相關工作 4
2.1 抖音簡介 4
2.2 複音音樂的特徵擷取 5
2.2.1 低階描述子 5
2.2.2差量迴歸係數 5
2.2.3 對LLD的特徵擷取 6
2.3 連續隱式馬爾可夫模型 7
2.4 帶通濾波器 8
2.5 曲線下面積 9
第3章 抖音偵測方法 12
3.1 抖音偵測系統 12
3.2 前處理 13
3.3單音人聲音樂特徵參數擷取 14
3.3.1 分析音高規律波動 14
3.3.2 分析音量的波動 15
3.3.3 從音高和音量的正弦擬合擷取特徵 16
3.4 複音音樂下LLD的特徵擷取方法 17
3.5 實驗方法 18
第4章 抖音辨識實驗 21
4.1 單音人聲抖音辨識實驗 21
4.1.1 實驗資料 21
4.1.2 線性識別分析 21
4.1.3 特徵選取 22
4.1.4 靜態分類器實驗 24
4.1.5 HMM分類實驗 26
4.1.6 比較HMM和SVM的辨識結果 28
4.1.7 錯誤分析 30
4.2 複音音樂的抖音辨識實驗 31
4.2.1 實驗資料 31
4.2.2 前處理 31
4.2.3 PCA+LDA實驗 32
4.2.4 特徵選取 35
4.2.5 靜態分類器實驗 36
4.2.6 HMM分類實驗 38
4.2.7 錯誤分析 38
第5章 結論與展望 41
參考文獻 42
【1】 Felix Weninger, Noam Amir, Ofer Amir, Irit Ronen, Florian Eyben, and Bjorn Schuller, Robust feature extraction for automatic recognition of vibrato singing in recorded polyphonic music, ICASSP , 2012.
【2】 S. J. Young, G. Evermann, M. J. F. Gales, D. Kershaw, G. Moore, J. J. Odell, D. G. Ollason, D. Povey, V. Valtchev, and P. C. Woodland, The HTK book version 3.4, Cambridge University Engineering Department, Cambridge, UK, 2006.
【3】 Sundberg, Johan, Acoustic and psychoacoustic aspects of vocal vibrato, 2010.
【4】 D. J. Hermes, Measurement of pitch by subharmonic summation, Journal of the Acoustical Society of America, vol. 83, no. 1, pp. 257–264, 1988.
【5】 Fredrick Jelinek, Design of a Linguistic Statistical Decoder for the Recognition of Continuous Speech, IEEE Transactions on Information Theory, VOL. IT-21, NO. 3, May 1975.
【6】 Jyh-Shing Roger Jang, Data Clustering and Pattern Recognition (資料群聚與樣式辨認) 9-3 Continuous HMM.
【7】 Ren Gang, Justin Lundberg, Gregory Bocko, Dave Headlam, and Mark F. Bocko, What makes music musical? A framework for extracting performance expression and emotion in musical sound, DSP/SPE, 2011.
【8】 Bradley, A.P. The Use of the Area Under the ROC Curve in the Evaluation of Machine Learning Algorithms. Pattern Recognition, 30. 1145-1159, 1997.
【9】 Swets, John A.Signal detection theory and ROC analysis in psychology and diagnostics: collected papers Lawrence Erlbaum Associates, Mahwah, NJ, 1996.
【10】 Chao-Ling Hsu, DeLiang Wang, and Jyh-Shing Roger Jang, A trend estimation algorithm for singing pitch detection in musical recordings, ICASSP, 2011.
【11】 Belle A. Shenoi, Introduction to digital signal processing and filter design, John Wiley and Sons. p. 120. 2006.
(此全文限內部瀏覽)
電子全文
摘要
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
* *