機器學習算法之貝葉斯算法介紹(一)
*圖片來源于網絡
近些年來很多化學化工類文獻會在其里面提到貝葉斯算法(或貝葉斯優化算法),讓人有種感覺,這個貝葉斯算法是很高級非常有用,而又帶有一些神秘感。
隨便上網一搜索,會出現大量文章介紹貝葉斯定理、貝葉斯算法,條件概率、先驗概率、后驗概率、樸素貝葉斯、高斯貝葉斯等等名詞,讓非這個專業的人感覺到頭大。例如在搜索引擎里面輸入“貝葉斯定理”會查到關于貝葉斯定理的歷史來源,計算公式介紹等。
貝葉斯算法
比如百度百科中關于“貝葉斯公式”的介紹:貝葉斯定理由英國數學家貝葉斯 ( Thomas Bayes 1702-1761年) 發展,用來描述兩個條件概率之間的關系,比如 P(A|B) 和 P(B|A)。按照乘法法則,可以立刻導出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可變形為:P(A|B)=P(B|A)*P(A)/P(B)
*圖片來源于網絡it.sohu.com/a/577883879_99977650
本文為了非專業背景的讀者了解“貝葉斯算法”原理,采用輕松的方式為您介紹貝葉斯算法的思路邏輯。
在開始前,我們先來看看平時下結論的步驟:
為了方便理解,舉一個不嚴謹的例子:
住在南方海邊城市的人在夏季,天氣悶熱而且感覺到胸悶,會做出大概率海上會有臺風的判斷。
這里的夏季天氣悶熱胸悶是證據(Evidence,E),臺風是輸出(Outcome,Y),根據這個證據得出這個臺風的判斷的概率,使用數學表達為P(Y|E)。當然這個輸出也可以為疾病(Y2,使用Y2區分臺風),畢竟有胸悶現象,但判斷者為什么選擇是臺風的判斷而不是身體疾病的判斷?
P(Y)即先驗概率 P(Y|E)為后驗概率
因為判斷者其中一個理由是認為自己身體很棒有病的概率很低,也就是P(Y2)概率比出現臺風的概率P(Y)小多了(注,這里的P(Y)即先驗概率,P(Y|E)為后驗概率)。
歷史經驗 P(E|Y)概率
再進一步分析,為什么判斷者根據這個證據做出臺風判斷,是因為他在南方海邊城市住有“歷史經驗”,我們看看他是如何得到這個歷史經驗的。
小時候,第一次發現有臺風很好奇,第二次發現有臺風,好像都是在夏季及其悶熱而且胸悶。漸漸地他發現,在夏天有臺風前感覺非常悶熱和胸悶的概率很高,也就是P(E|Y)概率很高,而且他所住的城市出現臺風的概率比較高P(Y)。另外他身體健康出現胸悶的機會不大,即P(Y2)比較小。在他腦海中做出P(Y|E)=P(E|Y)*P(Y)/P(E)計算,因而有了出現這個證據做出有臺風的判斷。
比如給出一個水果的特征為“長”、“甜”、“黃色”,電腦如何通過已有的數據來“學習”,并預測出現這三個特征的水果是什么。
首先電腦具有以下數據:
*該數據引用自網絡參考資料:樸素貝葉斯算法是如何工作的?
電腦是根據比較在出現“長”、“甜”、“黃色”這三個特征下為香蕉、橙子或其它水果的概率大小做出判斷的。即比較概率P(香蕉|長甜黃色)、P(橙子|長甜黃色)、P(其它|長甜黃色),哪個概率大就預測為哪一種水果。
第一步:我們先計算出證據概率P(E)即P(長甜黃色),我們需要知道這些特征(長、甜、黃色)在給定樣本中出現的頻率。由于這些特征是相互獨立的,我們可以分別計算每個特征的邊緣概率,然后將它們相乘得到聯合概率P(E)。
第二步,P(香蕉)、P(橙子)、P(其它)的先驗概率分別為P(香蕉)=500/1000=0.5、P(橙子)=300/1000=0.3、P(其它)=200/1000=0.2。
第三步,計算P(長|香蕉)=400/500=0.8、P(甜|香蕉)=350/500=0.7、P(黃色|香蕉)=450/500=0.9。這樣P(香蕉|長甜黃色)= P(長|香蕉)* P(甜|香蕉)* P(黃色|香蕉)* P(香蕉)/ P(長甜黃色)=0.969。
然后再分別計算出:
P(橙子|長甜黃色)=0,
P(其它|長甜黃色)=0.072。
因而電腦根據特征為“長”、“甜”、“黃色”預測該水果為香蕉。
參考內容:How Naive Bayes Algorithm Works? (with example and full code) | ML+ (machinelearningplus.com)
下篇預告
下一篇我們即將進入貝葉斯優化算法的原理介紹。
推薦閱讀
關于機器學習的那點事兒-PCA算法大討論
機器學習與連續流連載系列丨機器學習:人工智能的驅動力
【名家案例】連續流工藝優化中的機器學習和人工智能
機器學習與連續流連載系列丨使用康寧反應器集成在線光譜,通過半監督機器學習識別化學反應式計量和動力學模型
歡迎關注康寧AFR公眾號
全部評論(0條)
推薦閱讀
-
- 機器學習算法之貝葉斯算法介紹(一)
- 貝葉斯算法是很高級非常有用,而又帶有一些神秘感
-
- 精準農業 | 機載高光譜成像系統結合XGBoost機器學習算法助力水稻產量估算
- 關鍵詞:高光譜成像技術;無人機;XGBoost;遙感檢測;水稻產量分類
-
- 精準農業 | 小麥監測再升級:機載高光譜成像系統與機器學習算法結合實踐
- 應用方向:植被覆蓋度、K均值算法、歸一化植被指數(NDVI)、植被指數、小麥
-
- 中國藥典專欄(一):四參數回歸計算法分析模板
- 中國藥典專欄(一):四參數回歸計算法分析模板
-
- 實驗分享|自研局部DIC-GPU算法與開源GPU算法對比實驗
- 千眼狼研發工程師們,自主研發局部DIC-GPU算法,針對自研的DIC軟硬件生態深度優化。研發人員通過開展幾組經典實驗,并與開源GPU算法進行橫向對比。
-
- 新增Turbiscan算法—非稀釋粒度分布
- 介紹粒度分布(PSD)是乳液和懸浮液等液體分散體的關鍵參數。粒度分布在樣品的最終用途性能(如穩定性和保質期、
-
- 檢測算法 | Raythink燧石熱像儀Ray Falcon D檢測算法打破感知邊界,洞見無限可能!
- 檢測算法 | Raythink燧石熱像儀Ray Falcon D檢測算法打破感知邊界,洞見無限可能!
-
- 檢測算法 | Raythink燧石熱像儀Ray Falcon D檢測算法打破感知邊界,洞見無限可能!
- 檢測算法 | Raythink燧石熱像儀Ray Falcon D檢測算法打破感知邊界,洞見無限可能!
-
- 算法魔盒 | Raythink燧石熱像儀全面搭載Ray Lumos圖像檢測算法,重塑紅外熱成像高清標準!
- 算法魔盒 | Raythink燧石熱像儀全面搭載Ray Lumos圖像檢測算法,重塑紅外熱成像高清標準!
-
- 高速攝像機小百科 | 基于自適應色溫估計算法的自動白平衡
- 高速攝像機圖像處理的重要功能-自動白平衡
-
- 大型高低溫循環交變試驗箱溫濕度控制系統的 PID 控制算法詳解
- 本文詳細解釋了大型高低溫循環交變試驗箱溫濕度控制系統的 PID 控制算法。介紹了 PID 基本原理,包括比例控制依據誤差產生作用但可能有過沖問題、積分控制消除穩態誤差但參數不當可能致不穩定
①本文由儀器網入駐的作者或注冊的會員撰寫并發布,觀點僅代表作者本人,不代表儀器網立場。若內容侵犯到您的合法權益,請及時告訴,我們立即通知作者,并馬上刪除。
②凡本網注明"來源:儀器網"的所有作品,版權均屬于儀器網,轉載時須經本網同意,并請注明儀器網(www.189-cn.com)。
③本網轉載并注明來源的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或證實其內容的真實性,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品來源,并自負版權等法律責任。
④若本站內容侵犯到您的合法權益,請及時告訴,我們馬上修改或刪除。郵箱:hezou_yiqi
參與評論
登錄后參與評論