深度學習或強化學習在組合優化方面有哪些應用

1樓：芋丸崽

深度學習和機器學習的區別是，深度學習是機器學習研究中的一個新的領域，其動機在於建立、模擬人腦進行分析學習的神經網路，它模仿人腦的機制來解釋資料，例如影象，聲音和文字。

深度學習或強化學習在組合優化方面有哪些應用

2樓：

強化學習其實也是機器學習的一個分支，但是它與我們常見的機器學習（比如監督學習supervised

learning）不太一樣。它講究在一系列的情景之下，通過多步恰當的決策來達到一個目標，是一種序列多步決策的問題。強化學習是一種標記延遲的監督學習。

強化學習實際上是一套很通用的解決人工智慧問題的框架，很值得大家去研究。另一方面，深度學習不僅能夠為強化學習帶來端到端優化的便利，而且使得強化學習不再受限於低維的空間中，極大地拓展了強化學習的使用範圍。

深度學習和深度強化學習有什麼區別？

3樓：潞寶妳不懂

強化學習和深度學習是兩

種技術，只不過深度學習技術可以用到強化學習上，這個就叫深度強化學習.

1.強化學習其實也是機器學習的一個分支，但是它與我們常見的機器學習不太一樣。它講究在一系列的情景之下，通過多步恰當的決策來達到一個目標，是一種序列多步決策的問題。

強化學習是一種標記延遲的監督學習。

2.強化學習實際上是一套很通用的解決人工智慧問題的框架，很值得大家去研究。另一方面，深度學習不僅能夠為強化學習帶來端到端優化的便利，而且使得強化學習不再受限於低維的空間中，極大地拓展了強化學習的使用範圍。

深度學習和深度強化學習的區別

4樓：潞寶妳不懂

強化學習

和深度學習是兩種技術，只不過深度學習技術可以用到強化學習上，這個就叫深度強化學習.

強化學習是一種標記延遲的監督學習。

5樓：flash勝龍

強化學習要求agent去探索環境，然後對狀態進行evaluate，在每一個狀態下agent可以選擇多種action，每次選擇的依據可以是貪婪或者softmax等，但是得到的reward是無法表明當前的選擇是正確的還是錯誤的，得到的只是一個score，監督學習的labels可以給agent簡潔明瞭的correct or wrong，並且在agent 在對環境充分的探索前即在每一種狀態下選擇的每個action的次數不夠多時，無法充分求expect，並且在action之間也無法進行對比擇優。但是當監督學習的label資訊有噪聲干擾或者是利用一些active learning 獲得到的labels的時候，強化學習的agent與環境直接互動獲取到的資訊是更加可靠。

強化學習也是使用未標記的資料，但是可以通過某種方法知道你是離正確答案越來越近還是越來越遠（即獎懲函式）。傳統的「冷熱遊戲」（hotter or colder，是美版捉迷藏遊戲 huckle buckle beanstalk 的一個變種）很生動的解釋了這個概念。你的朋友會事先藏好一個東西，當你離這個東西越來越近的時候，你朋友就說熱，越來越遠的時候，你朋友會說冷。

冷或者熱就是一個獎懲函式。半監督學習演算法就是最大化獎懲函式。可以把獎懲函式想象成正確答案的一個延遲的、稀疏的形式。

在監督學習中，能直接得到每個輸入的對應的輸出。強化學習中，訓練一段時間後，你才能得到一個延遲的反饋，並且只有一點提示說明你是離答案越來越遠還是越來越近。

deepmind 在自然雜誌上發表了一篇** ，介紹了他們把強化學習和深度學習結合起來，讓神經網路學著玩各種雅達利(atari)遊戲（就是各種街機遊戲），一些遊戲如打磚塊（breakout）非常成功，但是另一些遊戲比如蒙特祖瑪的復仇，就表現的很糟糕。

6樓：匿名使用者

強化學習其實也是機器學習的

一個分支，但是它與我們常見的機器學習（比如監督學習supervised

7樓：匿名使用者

深度強化學習就是在傳統強化學習的基礎上增加了神經網路，如q-learning上加了網路變成dqn就是深度強化學習了，通過深度網路來擬合函式獲得q值，解決q-table面對連續狀態和高維動作空間時很吃力的問題。

深度學習或強化學習在組合優化方面有哪些應用

開拓學習的深度和廣度是什麼意思,小組合作學習的深度，廣度是什麼意思

孩子學習是在不好去讀職高或技校或大專好不好

如何讓小組合作學習在高效課堂建設中煥發光彩

相關推薦