作者(外文):Chen, Po Hsuan
論文名稱(外文):Automating Behavior Coding for Distressed Couple Interactions Based on Stacked Sparse Autoencoder Framework using Speech-acoustic Features
指導教授(外文):Lee, Chi Chun
口試委員(外文):Liu, Yi Wen
Tsao, Yu
Lee, Hung Yi
外文關鍵詞:Deep LearningStacked AutoencodersCouple therapyHuman behavior analysisEmotion recognition
在過去人類行為分析是透過傳統人為觀察方式來記錄,再對記錄下的行為 進行分析和診斷,最後做行為的決策,獲取相關行為訊息,但是這樣分析的過 程非常耗時和成本,如果把這樣的過程進行自動化處理,將會節省非常多的時間,2013年被提出的人類行為訊號處理 (Behavioral Signal Processing, BSP),把記錄下來的資訊擷取相關特徵值,如動作訊號、語句特徵或是聲音特徵等等,藉由這些取出來特徵,再利用機器學習和分析結果進行分類,最後得知相關行 為的資訊,利用這樣自動化處理不僅節省時間,在未來結合傳統醫療也能做更前端的決策應用,現在應用中的領域有: 心理層面(FMRI, 情感計算)、精神醫療(自閉症治療, 婚姻治療) 和教育研究方面。像婚姻治療方面,評分者利用觀 看錄影的方式來對一整段夫妻對話中所展現的行為作評分。藉由這樣取得各種 行為表達程度的量化,針對此量化分數來更進一步研究夫妻婚姻治療成效,但這種做法非常耗時且會因為評分者的各種主觀因素影響最後的準確性。如果能透過機器學習的方式來自動化處理辨識,將會節省非常多的人工時間和提 升客觀性。深度學習 (Deep Learning) 在目前機器學習上是很熱門的話題。本論文提出以堆疊稀疏自編碼器 (Stacked Sparse Autoencoder,SSAE)方式對聲音訊號特徵進行降維,並找出相對關鍵的高階特徵,最後再利用邏輯迴歸分析(Logistic Regression,LR) 來辨識。此方法的整體準確率為75%(丈夫行為平均辨識準確率為74.9%、太太為75%)。相對於過去研究的74.1% (丈夫行為平均準確率75%,太太為73.2%)[1],提升 0.9% 。我們提出的方法在使用更低維度的聲音特徵值中可有效的提升行為辨識準確率。
Traditional way of conducting analyses of human behaviors is through manual observation. For example in couple therapy studies, human raters observe sessions of interaction between distressed couples and manually annotate the behaviors of each spouse using established coding manuals. Clinicians then analyze these annotated behaviors to understand the effectiveness of treatment that each couple receives. However, this manual observation approach is very time consuming, and the subjective nature of the annotation process can result in unreliable annotation. Our work aims at using machine learning approach to automate this process, and by using signal processing technique, we can bring in quantitative evidence of human behavior. Deep learning is the current state-of-art machine learning technique. This paper proposes to use stacked sparse autoencoder(SSAE) to reduce the dimensionality of the acoustic-prosodic features used in order to identify the key higher-level features. Finally, we use logistic regression (LR) to perform classification on recognition of high and low rating of six different codes. The method achieves an overall accuracy of 75% over 6 codes (husband’s average accuracy of 74.9%, wife’s average accuracy of 75%), compared to the previously-published study of 74.1% (husband’s average accuracy of 75%, wife’s average accuracy of 73.2%) [1], a total improvement of 0.9%. Our proposed method achieves a higher classification rate by using much fewer number of features (10 times less than the previous work )
誌謝 i
中文摘要 ii
Abstract iii
目錄 iv
表目錄 vi
圖目錄 vii
第一章 緒論 1
1.1 研究簡介 1
1.2 研究動機與目的 5
1.3 相關研究 5
1.4 論文架構 5
第二章 夫妻婚姻治療資料庫 6
第三章 研究方法 9
3.1 問題之定義 9
3.2 類神經網路 10
3.3 深度學習 11
3.3.1 自編碼器 13
3.3.2 堆疊稀疏自編碼器 15
3.4 其它研究方法 18
3.4.1 K-平均演算法 18
3.4.2 主成分分析法 19
第四章 實驗與分析 20
4.1 特徵值 20
4.2 資料 22
4.3 系統架構 23
4.4 實驗數據與參數分析 27
4.4.1 實驗設定 27
4.4.2 實驗結果 31
第五章 結論和未來展望 32
5.1 結論 32
5.2 未來展望 32
參考文獻 33
