23.2K
8509
在線學習算法
順序地根據歷史數據和可用信息做出預測或者決策的過程。它是人工智能和機器學習的一個重要分支領域。
傳統機器學習(統計學習)通常的工作方式是先獲得批量的訓練數據并且離線地學習數據的有意義的模式,最后將學習到的模型固定不變地應用于測試數據中。與之不同,在線學習過程中的數據是順序地提供的。在線學習的工作模式是循環往復地根據歷史數據和當前可用信息做出預測或者決策,收集反饋數據(可能只有部分信息)以改善系統自身性能,并且獲得相應獎勵或者承受相應懲罰。簡而言之,傳統機器學習采取的是“先學習后使用”的工作模式,而在線學習則是采用“邊學習邊使用”的工作模式。
除了工作場景和模式不同外,它們的理論假設和學習目標也有區別。統計學習一般假定數據是獨立同分布的,其目標是使得學習到的模型與真實模型在該數據分布下的性能差距盡可能地小。但是在線學習一般并不對數據的分布做出假設,數據序列可以是確定性的、隨機的、甚至是對抗性的。最大化學習過程中的累積收益或者最小化累積懲罰是在線學習的一個自然目標。為了便于評價和分析在線學習算法的性能,人們提出了一個稱為悔(regret)的評價指標。它被定義為在線學習算法的累積收益(或者累積懲罰)與一直選取一個最優的模型(在某個假設空間中)所取得的累積收益(或者累積懲罰)之差。一個好的在線學習算法應該是具有次線性的悔界,即隨著交互次數的增加,算法的性能逼近最優模型的性能。
8509
免責聲明:本站詞條系由網友創建、編輯和維護,內容僅供參考。
以上內容均為商業內容展示,僅供參考,不具備專業問題解決服務,
如果您需要解決具體問題(尤其在法律、醫學等領域),建議您咨詢相關領域的專業人士。
如您發現詞條內容涉嫌侵權,請通過 948026894@qq.com 與我們聯系進行刪除處理!
上一篇:智慧城市大數據智能檢索
下一篇:貝葉斯學習