帳號:guest(3.142.42.32)          離開系統
字體大小: 字級放大   字級縮小   預設字形  

詳目顯示

以作者查詢圖書館館藏以作者查詢臺灣博碩士論文系統以作者查詢全國書目
作者(中文):黃品霖
作者(外文):Huang, Pin-Lin
論文名稱(中文):自動電子郵件分類並生成日曆事件之實作
論文名稱(外文):Implementation of an Automated Email Classification and Calendar Event Generating System
指導教授(中文):李端興
指導教授(外文):Lee, Duan-Shin.
口試委員(中文):李哲榮
周志遠
口試委員(外文):Lee, Che-Rung.
Chou, Jerry.
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系所
學號:105062587
出版年(民國):107
畢業學年度:106
語文別:中文
論文頁數:32
中文關鍵詞:郵件分類郵件分群文檔詞頻
外文關鍵詞:Email classificationK-meansTF-IDF
相關次數:
  • 推薦推薦:0
  • 點閱點閱:221
  • 評分評分:*****
  • 下載下載:15
  • 收藏收藏:0
近年來紙本作業電子化,過往必要透過紙本通知的訊息慢慢轉向電子郵件發展,但在排山倒海而來的電子郵件中,包含推銷、社群網站、會議演講等等類型的郵件,主流的電子郵件提供商雖然有自動分類的功能,但該類型也僅限於比較通用的幾個大類,無法依照每個人的需求類型作調整,使用者還是需要一封封的查看每封郵件,如遇到會議通知想要排入日曆中,則需手動的開啟另一個日曆軟體來做新增,對於使用者來說非常耗時。
對於上述動機,我們提出一個基於K-means的郵件分類並生成日曆事件的架構,可依照使用者需要的郵件類型,萃取出其中關於日期的訊息,自動地將郵件摘要與時間訊息插入到日曆當中,在活動快到期前可以提醒使用者,同時減輕使用者的負擔,減少繁複的動作;在自動分類並插入日曆後,系統會詢問使用者是否分類正確,並依照使用者的回饋來做為下次分類的依據,使分類的組別愈來愈接近使用者所需要的特性。
In recent years, email has become one of the most efficient way of communication. The important notice must be sent by snail mail is not necessary, and people are willing to receive emails rather than snail mails. However, users have to spend lots of time to handle dozens of types of email such as the notification from social network, advertisement, meeting notice and so on. Although most of email services provides the function of classifying the mails automatically, users still have to check the emails one by one to determine which emails in the different classifications should be add to calendar manually. In order to solve this problem, we design and implement an architecture base on K-means to help users to classify emails into the classifications defined by users’ needs, and extract date information and content from emails to generate calendar event and insert it to users’ calendar automatically. After classifying the new email, users can rate the classification result, and the system will gather the ratings to make the next classification more precise.
圖表目錄 1
圖目錄 3
表目錄 5
1.前言 6
2.演算法應用說明 7
2.1 Jieba中文詞語斷句演算法 7
2.2 TF-IDF 郵件詞頻演算 8
2.3 K-means 郵件分群 9
2.4 Cosine similarity 郵件相似度 10
2.5 透過User評分來更新郵件群的權重與樣本 10
3.系統架構 11
3.1 應用層程式層 11
3.1.1 網頁使用者畫面 12
3.1.2 郵件處理與日曆插入服務 12
3.2 運算服務層 12
3.2.1 HTTP 應用程式接口 12
3.2.2 K-means分群、TF-IDF與Jieba斷詞服務 13
4.應用程式實作 14
4.1 歷史郵件初始化事件(下載、過濾、斷詞) 15
4.2 歷史郵件分群事件(TF-IDF詞頻計算與K-means分群) 16
4.3 新郵件事件(監聽、分類、生成日曆事件、插入日曆) 19
4.4 使用者反饋事件 20
5.應用程式介面與流程 21
5.1 登入與授權Google Account 21
5.2 透過歷史郵件初始化基本類別 23
5.3 使用者反饋與自動插入日曆 24
6.應用與實驗 25
6.1 郵件數據與基本資料 25
6.2 實驗結果 26
7.研究結果與討論 30
7.1 結論 30
7.2 未來展望 30
7.3 討論 31

參考文獻 32
[1] J. A. Hartigan and M. A. Wong, “A K-Means Clustering Algorithm”, Journal of the Royal Statistical Society. Series C (Applied Statistics), Vol. 28, No. 1 (1979), pp. 100-108

[2] Izzat Alsmadi, Ikdam Alhami, “Clustering and classification of email contents”, Journal of King Saud University - Computer and Information Sciences, Volume 27, Issue 1, 2015

[3] jstedfast, “MailKit API reference”, from
https://github.com/jstedfast/MailKit.

[4] fxsjy, “Jieba API reference”, from
https://github.com/ldkrsi/jieba-zh_TW.

[5] scikit-learn, “scikit-learn API reference”, from
http://scikit-learn.org/stable/.

[6] scikit-learn , “TF-IDF API reference”, from http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html.

[7] scikit-learn, “K-means API reference”, from http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html.

[8] Anthony Dm. (12, 2017). How I used machine learning to classify emails and turn them into insights, from https://towardsdatascience.com/how-i-used-machine-learning-to-classify-emails-and-turn-them-into-insights-efed37c1e66.
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
* *