इस लेख में, हम ऑन-पॉलिसी लर्निंग और ऑफ-पॉलिसी लर्निंग के बीच के अंतर को समझने की कोशिश करेंगे, जो रीइन्फोर्समेंट लर्निंग में नए लोगों के लिए थोड़ा भ्रमित करने वाला हो सकता है। और ऑफ-पॉलिसी लर्निंग के लिए महत्वपूर्ण सैंपलिंग की अवधारणा में गोता लगाएंगे। आइए आगे बढ़ने से पहले दो शब्दों पर एक नजर डालते हैं।
- लक्ष्य नीति पीआई (ए | एस): यह वह नीति है जिसे एक एजेंट सीखने की कोशिश कर रहा है यानी एजेंट इस नीति के लिए मूल्य कार्य सीख रहा है।
- व्यवहार नीति b(a|s): यह वह नीति है जिसका उपयोग एजेंट द्वारा कार्रवाई के लिए किया जा रहा है अर्थात एजेंट पर्यावरण के साथ बातचीत करने के लिए इस नीति का पालन करता है।
व्यवहार और लक्ष्य नीति का उदाहरण, द्वारा बनाई गई छवि
ऑन-पॉलिसी लर्निंग:
ऑन-पॉलिसी लर्निंग एल्गोरिदम वे एल्गोरिदम हैं जो उसी नीति का मूल्यांकन और सुधार करते हैं जिसका उपयोग क्रियाओं का चयन करने के लिए किया जा रहा है। इसका मतलब है कि हम उसी नीति का मूल्यांकन और सुधार करने का प्रयास करेंगे जिसका उपयोग एजेंट पहले से ही कार्रवाई चयन के लिए कर रहा है। संक्षेप में, [लक्ष्य नीति == व्यवहार नीति]। ऑन-पॉलिसी एल्गोरिदम के कुछ उदाहरण पॉलिसी इटरेशन, वैल्यू इटरेशन, ऑन-पॉलिसी के लिए मोंटे कार्लो, सरसा आदि हैं।
ऑफ-पॉलिसी लर्निंग:
ऑफ-पॉलिसी लर्निंग एल्गोरिदम एक ऐसी नीति का मूल्यांकन और सुधार करता है जो नीति से भिन्न होती है जिसका उपयोग कार्रवाई चयन के लिए किया जाता है। संक्षेप में, [लक्ष्य नीति!= व्यवहार नीति]। ऑफ-पॉलिसी लर्निंग एल्गोरिदम के कुछ उदाहरण हैं क्यू लर्निंग, अपेक्षित सरसा (दोनों तरीकों से कार्य कर सकते हैं), आदि।
नोट: व्यवहार नीति में लक्ष्य नीति अर्थात pi(a|s) > 0 जहाँ b(a|s) > 0 शामिल होनी चाहिए।
ऑफ-पॉलिसी का उपयोग क्यों करें?
ऑफ-पॉलिसी विधियों के कुछ लाभ इस प्रकार हैं:
- निरंतर अन्वेषण: एक एजेंट के रूप में अन्य नीति सीख रहा है तो इसका उपयोग इष्टतम नीति सीखने के दौरान निरंतर अन्वेषण के लिए किया जा सकता है। जबकि ऑन-पॉलिसी सबऑप्टिमल पॉलिसी सीखती है।
- प्रदर्शन से सीखना: एजेंट प्रदर्शन से सीख सकता है।
- समानांतर शिक्षा: यह अभिसरण को गति देता है अर्थात सीखना तेज हो सकता है।
अब तक, हम ऑफ-पॉलिसी और ऑन-पॉलिसी में अंतर जानते हैं। तो सवाल यह उठता है कि हम एक नीति के तहत दूसरी नीति का पालन करते हुए राज्य मूल्यों की अपेक्षा कैसे प्राप्त कर सकते हैं। यह वह जगह है जहाँ महत्वपूर्ण नमूनाकरण काम आता है। आइए मोंटे कार्लो अपडेट नियम से समझते हैं।
सुदृढीकरण सीखने के माध्यम से छवि: एक परिचय
रिचर्ड एस. सटन और एंड्रयू जी. बार्टो
जैसा कि आप देख सकते हैं, अपडेट नियम में राज्य के सभी सैंपल किए गए पुरस्कारों का औसत शामिल है। इन पुरस्कारों को निम्नलिखित व्यवहार नीति b(a|s) द्वारा नमूना किया जाता है, लेकिन हम लक्ष्य नीति pi(a|s) के लिए मूल्यों का अनुमान लगाना चाहते हैं और लक्ष्य नीति pi(a|s) से नमूने लिए गए पुरस्कारों की आवश्यकता है। हम व्यवहार नीति से लिए गए प्रत्येक पुरस्कार के साथ केवल 'ρ' को गुणा करके ऐसा कर सकते हैं। 'ρ' का मान लक्ष्य नीति pi(a|s) के तहत प्रक्षेपवक्र की संभावना के बराबर है, व्यवहार नीति b(a|s) के तहत प्रक्षेपवक्र की संभावना से विभाजित है। . प्रक्षेपवक्र की इन संभावनाओं को राज्य सेंट में एक एजेंट द्वारा 'एट' कार्रवाई करने की संभावना के रूप में परिभाषित किया जाता है और राज्य 'सेंट + 1' में जाता है और फिर 'एट + 1' पर कार्रवाई करता है और इसी तरह समय तक टी। यह संभावना हो सकती है दो भागों में विभाजित किया जा सकता है अर्थात कुछ राज्य 'सेंट' में 'एट' कार्रवाई करने की संभावना और राज्य 'एस' में 'एट' कार्रवाई करके कुछ राज्य 'सेंट + 1' में समाप्त होने की संभावना। लघु स्टोकेस्टिक नीति और स्टोकेस्टिक वातावरण में।
#एल्गोरिदम
ओरडाटासाइंस.कॉम
ऑन-पॉलिसी बनाम ऑफ-पॉलिसी लर्निंग
इस लेख में, हम ऑन-पॉलिसी लर्निंग और ऑफ-पॉलिसी लर्निंग के बीच के अंतर को समझने की कोशिश करेंगे, जो रीइन्फोर्समेंट लर्निंग में नए लोगों के लिए थोड़ा भ्रमित करने वाला हो सकता है।