सुपरवाइज्ड मशीन लर्निंग क्या है?
सुपरवाइज़्ड लर्निंग में, आप मशीन को डेटा का उपयोग करके प्रशिक्षित करते हैं जो अच्छी तरह से "लेबल" है । इसका मतलब है कि कुछ डेटा पहले से ही सही उत्तर के साथ टैग किए गए हैं। इसकी तुलना सीखने से की जा सकती है जो पर्यवेक्षक या शिक्षक की उपस्थिति में होता है।
एक पर्यवेक्षित शिक्षण एल्गोरिथ्म लेबल प्रशिक्षण डेटा से सीखता है, आपको अप्रत्याशित डेटा के परिणामों की भविष्यवाणी करने में मदद करता है।
सफलतापूर्वक निर्माण, स्केलिंग, और सटीक पर्यवेक्षण मशीन सीखने के मॉडल को तैनात करने में अत्यधिक कुशल डेटा वैज्ञानिकों की टीम से समय और तकनीकी विशेषज्ञता प्राप्त होती है। इसके अलावा, डेटा वैज्ञानिक को यह सुनिश्चित करने के लिए मॉडल को फिर से बनाना होगा कि दी गई अंतर्दृष्टि तब तक सही रहती है जब तक उसका डेटा नहीं बदल जाता।
इस ट्यूटोरियल में, आप सीखेंगे:
- सुपरवाइज्ड मशीन लर्निंग क्या है?
- कैसे सुपरवाइज्ड लर्निंग वर्क्स काम करता है
- सुपरवाइज्ड मशीन लर्निंग एल्गोरिदम के प्रकार
- सुपरवाइज्ड बनाम अनसुप्रवाइज्ड मशीन लर्निंग तकनीक
- पर्यवेक्षित मशीन सीखने में चुनौतियां
- पर्यवेक्षित अध्ययन के लाभ:
- सुपरवाइज्ड लर्निंग के नुकसान
- सुपरवाइज्ड लर्निंग के लिए सर्वश्रेष्ठ अभ्यास
कैसे सुपरवाइज्ड लर्निंग वर्क्स काम करता है
उदाहरण के लिए, आप एक मशीन को प्रशिक्षित करने में मदद करना चाहते हैं ताकि आप यह अनुमान लगा सकें कि आपको अपने कार्यस्थल से घर चलाने में कितना समय लगेगा। यहां, आप लेबल किए गए डेटा का एक सेट बनाकर शुरू करते हैं। इस डेटा में शामिल हैं
- मौसम की स्थिति
- दिन के समय
- छुट्टियां
ये सभी विवरण आपके इनपुट हैं। आउटपुट उस विशिष्ट दिन पर घर वापस आने में लगने वाले समय की मात्रा है।
आप सहज रूप से जानते हैं कि अगर बाहर बारिश हो रही है, तो आपको घर चलाने में अधिक समय लगेगा। लेकिन मशीन को डेटा और आंकड़े चाहिए।
आइए अब देखें कि आप इस उदाहरण के पर्यवेक्षित शिक्षण मॉडल को कैसे विकसित कर सकते हैं जो उपयोगकर्ता को कम्यूट समय निर्धारित करने में मदद करता है। पहली चीज जो आपको बनाने की आवश्यकता है वह एक प्रशिक्षण सेट है। इस प्रशिक्षण सेट में कुल हंगामा समय और इसी तरह के कारक जैसे मौसम, समय आदि शामिल होंगे। इस प्रशिक्षण सेट के आधार पर, आपकी मशीन देख सकती है कि बारिश और घर पहुंचने में लगने वाले समय के बीच सीधा संबंध है।
तो, यह पता चलता है कि जितना अधिक बारिश होगी, उतनी देर आप अपने घर वापस आने के लिए ड्राइविंग करेंगे। यह आपके द्वारा काम छोड़ने के समय और आपके द्वारा सड़क पर आने के समय के बीच संबंध को भी देख सकता है।
आप शाम 6 बजे के करीब हो जाते हैं और आपके घर आने में अधिक समय लगता है। आपके मशीन को आपके लेबल किए गए डेटा के साथ कुछ रिश्ते मिल सकते हैं।
यह आपके डेटा मॉडल की शुरुआत है। यह प्रभावित करना शुरू कर देता है कि बारिश लोगों के ड्राइव करने के तरीके को प्रभावित करती है। यह भी देखने को मिलता है कि दिन के किसी विशेष समय में अधिक लोग यात्रा करते हैं।
सुपरवाइज्ड मशीन लर्निंग एल्गोरिदम के प्रकार
प्रतिगमन:
प्रतिगमन तकनीक प्रशिक्षण डेटा का उपयोग करके एक एकल आउटपुट मूल्य की भविष्यवाणी करता है।
उदाहरण : आप प्रशिक्षण डेटा से घर की कीमत का अनुमान लगाने के लिए प्रतिगमन का उपयोग कर सकते हैं। इनपुट चर स्थानीयता, एक घर का आकार आदि होंगे।
ताकत : आउटपुट में हमेशा एक संभावित व्याख्या होती है, और ओवरफिटिंग से बचने के लिए एल्गोरिदम को नियमित किया जा सकता है।
कमजोरियाँ : जब कई या गैर-रेखीय निर्णय सीमाएँ होती हैं तो लॉजिस्टिक रिग्रेशन कम हो सकता है। यह विधि लचीली नहीं है, इसलिए यह अधिक जटिल संबंधों पर कब्जा नहीं करती है।
संभार तन्त्र परावर्तन:
लॉजिस्टिक रिग्रेशन विधि स्वतंत्र चर का एक सेट के आधार पर असतत मूल्यों का अनुमान लगाने के लिए उपयोग की जाती है। यह आपको किसी लॉग फ़ंक्शन के लिए डेटा फिटिंग करके किसी ईवेंट की घटना की संभावना की भविष्यवाणी करने में मदद करता है। इसलिए, इसे लॉजिस्टिक रिग्रेशन के रूप में भी जाना जाता है। चूंकि यह संभाव्यता की भविष्यवाणी करता है, इसलिए इसका आउटपुट मान 0 और 1 के बीच है।
यहाँ कुछ प्रकार के प्रतिगमन एल्गोरिदम दिए गए हैं
वर्गीकरण:
वर्गीकरण का अर्थ है उत्पादन को एक वर्ग के अंदर समूहित करना। यदि एल्गोरिथ्म इनपुट को दो अलग-अलग वर्गों में लेबल करने की कोशिश करता है, तो इसे बाइनरी वर्गीकरण कहा जाता है। दो से अधिक वर्गों के बीच चयन को मल्टीलैसल वर्गीकरण कहा जाता है।
उदाहरण : यह निर्धारित करना कि कोई ऋण का डिफाल्टर होगा या नहीं।
ताकत : वर्गीकरण पेड़ व्यवहार में बहुत अच्छा प्रदर्शन करते हैं
कमजोरियाँ : असंसाधित, अलग-अलग वृक्षों के अधिक उगने की संभावना होती है।
यहाँ कुछ प्रकार के वर्गीकरण एल्गोरिदम दिए गए हैं
नाओवे बेयस क्लासीफायर
Nave Bayesian मॉडल (NBN) का निर्माण करना आसान है और बड़े डेटासेट के लिए बहुत उपयोगी है। यह विधि एक माता-पिता और कई बच्चों के साथ प्रत्यक्ष चक्रीय रेखांकन से बनी है। यह अपने माता-पिता से अलग किए गए बच्चे के नोड्स के बीच स्वतंत्रता को मानता है।
निर्णय के पेड़
निर्णय पेड़ फीचर वैल्यू के आधार पर छँटाई करके उदाहरण को वर्गीकृत करते हैं। इस विधि में, प्रत्येक मोड एक उदाहरण की विशेषता है। इसे वर्गीकृत किया जाना चाहिए, और प्रत्येक शाखा एक मान का प्रतिनिधित्व करती है जिसे नोड मान सकता है। यह वर्गीकरण के लिए व्यापक रूप से इस्तेमाल की जाने वाली तकनीक है। इस विधि में, वर्गीकरण एक वृक्ष है जिसे निर्णय वृक्ष के रूप में जाना जाता है।
यह आपको वास्तविक मूल्यों (कार खरीदने की लागत, कॉल की संख्या, कुल मासिक बिक्री, आदि) का अनुमान लगाने में मदद करता है।
समर्थन वेक्टर यंत्र
सपोर्ट वेक्टर मशीन (SVM) 1990 में विकसित एक प्रकार का लर्निंग अल्गोरिथम है। यह विधि बाप निक द्वारा शुरू किए गए सांख्यिकीय शिक्षण सिद्धांत के परिणामों पर आधारित है।
SVM मशीनें भी कर्नेल फ़ंक्शंस से निकटता से जुड़ी होती हैं जो अधिकांश शिक्षण कार्यों के लिए एक केंद्रीय अवधारणा है। कर्नेल फ्रेमवर्क और SVM का उपयोग विभिन्न क्षेत्रों में किया जाता है। इसमें मल्टीमीडिया जानकारी पुनर्प्राप्ति, जैव सूचना विज्ञान और पैटर्न मान्यता शामिल है।
सुपरवाइज्ड बनाम अनसुप्रवाइज्ड मशीन लर्निंग तकनीक
पर आधारित | सुपरवाइज्ड मशीन लर्निंग तकनीक | Unsupervised मशीन सीखने की तकनीक |
इनपुट डेटा | एल्गोरिदम को लेबल किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है। | एल्गोरिदम का उपयोग उन डेटा के खिलाफ किया जाता है जो लेबल नहीं है |
अभिकलनात्मक जटिलता | सुपरवाइज्ड लर्निंग एक सरल विधि है। | अनसुचित शिक्षा कम्प्यूटेशनल रूप से जटिल है |
शुद्धता | बेहद सटीक और भरोसेमंद तरीका। | कम सटीक और भरोसेमंद तरीका। |
पर्यवेक्षित मशीन सीखने में चुनौतियां
यहाँ, पर्यवेक्षित मशीन सीखने में आने वाली चुनौतियाँ हैं:
- अप्रासंगिक इनपुट सुविधा मौजूद प्रशिक्षण डेटा गलत परिणाम दे सकता है
- डेटा तैयार करना और पूर्व-प्रसंस्करण हमेशा एक चुनौती है।
- सटीकता, असंभव, और अपूर्ण मानों को प्रशिक्षण डेटा के रूप में इनपुट किए जाने पर सटीकता ग्रस्त है
- यदि संबंधित विशेषज्ञ उपलब्ध नहीं है, तो अन्य दृष्टिकोण "जानवर-बल" है। इसका मतलब है कि आपको यह सोचने की ज़रूरत है कि मशीन को प्रशिक्षित करने के लिए सही सुविधाएँ (इनपुट चर)। यह गलत हो सकता है।
पर्यवेक्षित अध्ययन के लाभ:
- पर्यवेक्षित शिक्षण आपको पिछले अनुभव से डेटा एकत्र करने या डेटा आउटपुट बनाने की अनुमति देता है
- अनुभव का उपयोग करके प्रदर्शन मानदंड को अनुकूलित करने में आपकी सहायता करता है
- सुपरवाइज्ड मशीन लर्निंग आपको विभिन्न प्रकार की वास्तविक-विश्व संगणना समस्याओं को हल करने में मदद करती है।
सुपरवाइज्ड लर्निंग के नुकसान
- यदि आपके प्रशिक्षण सेट में ऐसे उदाहरण नहीं हैं जो आप कक्षा में रखना चाहते हैं, तो निर्णय सीमा को आगे बढ़ाया जा सकता है
- क्लासीफायर का प्रशिक्षण लेते समय आपको प्रत्येक कक्षा से बहुत सारे अच्छे उदाहरणों का चयन करना होगा।
- बड़े डेटा को वर्गीकृत करना एक वास्तविक चुनौती हो सकती है।
- पर्यवेक्षित शिक्षण के लिए प्रशिक्षण के लिए अभिकलन समय की बहुत आवश्यकता होती है।
सुपरवाइज्ड लर्निंग के लिए सर्वश्रेष्ठ अभ्यास
- कुछ और करने से पहले, आपको यह तय करने की आवश्यकता है कि प्रशिक्षण सेट के रूप में किस तरह के डेटा का उपयोग किया जाना है
- आपको सीखा फ़ंक्शन और लर्निंग एल्गोरिदम की संरचना तय करने की आवश्यकता है।
- गैथेर इसी आउटपुट को मानव विशेषज्ञों से या माप से प्राप्त करता है
सारांश
- सुपरवाइज़्ड लर्निंग में, आप मशीन को डेटा का उपयोग करके प्रशिक्षित करते हैं जो "लेबल" है।
- आप एक मशीन को प्रशिक्षित करना चाहते हैं जो आपको यह अनुमान लगाने में मदद करती है कि आपको अपने कार्यस्थल से घर चलाने में कितना समय लगेगा, यह पर्यवेक्षित शिक्षण का एक उदाहरण है
- प्रतिगमन और वर्गीकरण दो प्रकार की पर्यवेक्षित मशीन सीखने की तकनीक है।
- सुपरवाइज्ड लर्निंग एक सरल विधि है जबकि अनसुप्रोस्ड लर्निंग एक जटिल विधि है।
- पर्यवेक्षित शिक्षण में सबसे बड़ी चुनौती यह है कि अप्रासंगिक इनपुट सुविधा मौजूद प्रशिक्षण डेटा गलत परिणाम दे सकता है।
- पर्यवेक्षित शिक्षण का मुख्य लाभ यह है कि यह आपको पिछले अनुभव से डेटा एकत्र करने या डेटा आउटपुट बनाने की अनुमति देता है।
- इस मॉडल का दोष यह है कि यदि आपके प्रशिक्षण सेट में ऐसे उदाहरण हैं जो आप कक्षा में रखना चाहते हैं, तो निर्णय सीमा ओवरस्ट्रेन हो सकती है।
- पर्यवेक्षण सीखने के सर्वोत्तम अभ्यास के रूप में, आपको सबसे पहले यह तय करना होगा कि प्रशिक्षण सेट के रूप में किस तरह के डेटा का उपयोग किया जाना चाहिए।