作者(外文):Chen, Kuan-Dar
論文名稱(外文):Unsupervised Anomaly Sound Detection through Composite Audio Features and their Clustering
指導教授(外文):Liu, Yi-Wen
外文關鍵詞:anomaly sound detectionunsupervised learningclustering
異常聲音檢測(anomaly sound detection)為產線上根據風扇馬達等作動元件發出的聲音判斷是否具有瑕疵的檢測過程,因為瑕疵樣本具有稀缺且難以蒐集的特性,在過去的研究中多以頻譜圖(spectrogram)搭配自動編碼器(autoencoder)進行非監督式學習。本研究以台達風扇聲音資料集為檢測目標,以卷積自動編碼器(convolutional autoencoder)作為模型架構搭配複小波結構相似性(CW-SSIM)作為損失函數,實驗比較不同音訊特徵轉化方式及其組合對於檢測效果之影響,提出以複合音訊特徵改善檢測效能。此外,於實驗過程中發現,資料集中的正常樣本具有隨著時間產生變異性進而致使模型欠擬合的特性,遂提出以叢集分群演算法(clustering algorithm)將正常樣本分群、各群訓練模型、後將模型結合的作法,改善系統檢測效能。同時,本研究提出以非監督方式訂定叢集分群數及瑕疵判斷閾值,從樣本蒐集至最終判定皆不需人工介入,構建完整的非監督式異音檢測解決方案。經前述操作,檢測系統於台達風扇聲音資料集之AUC(Area Under Curve)可達到95.95%,較基線系統提升34.96%,證實本研究所提出之方法能夠有效改善檢測效能。
Anomaly sound detection is the procedure to determine whether electric components such as fans or motors are normal or anomaly by detecting defective sounds. Due to the rarity and difficulty of collecting defective samples, previous research has mostly employed spectrograms with autoencoder for unsupervised learning. In this thesis, we focused on the Delta fan sound dataset as the main task, using convolutional autoencoder as the model architecture, combined with Complex Wavelet Structural Similarity (CW-SSIM) as the loss function. We compared different feature transformations and their combinations to investigate their effects, thereby proposing a composite audio feature method to enhance detection performance. Furthermore, we observed that normal samples in the dataset exhibit temporal variations that led to model under-fitting during the experimentation. To address this phenomenon, we proposed the method of clustering normal samples into groups, trained models for each cluster separately, and then combined the models to improve detection performance. Additionally, we developed a method of choosing the number of clusters and determining the threshold for anomaly detection in an unsupervised manner, which eliminated the need for manual collection of data and threshold determination and established a completely unsupervised anomaly detection solution. Through the proposed method, the anomaly detection system achieves an AUC (Area Under Curve) of 95.95% on the Delta fan sound dataset, resulting a 34.96% improvement over the baseline system. This demonstrates the effectiveness of the proposed method in enhancing the performance of defect detection.
1 緒論 1
1.1 問題描述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 目標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 文獻回顧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1 音訊特徵提取 . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.2 叢集分群及整體學習 . . . . . . . . . . . . . . . . . . . . 4
1.3.3 非監督式異音檢測 . . . . . . . . . . . . . . . . . . . . . 4
1.4 本論文貢獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 章節編排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 系統設計與訓練 6
2.1 台達風扇聲音資料集 . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 音訊預處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 資料分群 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 特徵提取 . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.2 決定分群數 . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.3 叢集分群 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.4 訓練-驗證集分割 . . . . . . . . . . . . . . . . . . . . . . 16
2.4 模型訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 模型架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 瑕疵指數 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.3 訓練過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 模型測試 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5.1 測試瑕疵指數校正 . . . . . . . . . . . . . . . . . . . . . 21
2.5.2 子模型結合 . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.3 判定閾值 . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.4 衡量指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 實驗結果與討論 25
3.1 實驗環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 基線系統 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 實驗一:不分群時的系統 . . . . . . . . . . . . . . . . . . . . . . 26
3.4 實驗二:最佳分群數分析 . . . . . . . . . . . . . . . . . . . . . . 27
3.5 實驗三:分群時的系統 . . . . . . . . . . . . . . . . . . . . . . . 28
3.6 實驗四:閾值對召回率影響 . . . . . . . . . . . . . . . . . . . . 32
3.7 最佳配置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 結論與未來展望 35
References 37
Appendix 41
A.1 各配置下之 t-SNE 分析 . . . . . . . . . . . . . . . . . . . . . . . 41
A.2 口委的建議 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
