Unsupervised Machine Learning: What is, Algorithms, उदाहरण

विषय - सूची:

Anonim

अनसुचित शिक्षा

Unsupervised Learning एक मशीन सीखने की तकनीक है जिसमें उपयोगकर्ताओं को मॉडल की निगरानी करने की आवश्यकता नहीं होती है। इसके बजाय, यह मॉडल को उन पैटर्न और सूचनाओं की खोज करने के लिए अपने दम पर काम करने की अनुमति देता है जो पहले अनिर्धारित थे। यह मुख्य रूप से अनलिस्टेड डेटा से संबंधित है।

अनउपलब्ध शिक्षण एल्गोरिदम

अनअस्पुअलाइज्ड लर्निंग एल्गोरिदम उपयोगकर्ताओं को पर्यवेक्षित शिक्षण की तुलना में अधिक जटिल प्रसंस्करण कार्य करने की अनुमति देता है। हालांकि, अन्य प्राकृतिक सीखने के तरीकों की तुलना में अप्रशिक्षित शिक्षा अधिक अप्रत्याशित हो सकती है। अनअस्पुअलाइज्ड लर्निंग एल्गोरिदम में क्लस्टरिंग, विसंगति का पता लगाना, तंत्रिका नेटवर्क आदि शामिल हैं।

इस ट्यूटोरियल में, आप सीखेंगे:

  • Unsupervised मशीन लर्निंग का उदाहरण
  • क्यों अनसुनी सीख दी?
  • अनसुप्राइज़्ड लर्निंग के प्रकार
  • क्लस्टरिंग
  • क्लस्टरिंग प्रकार
  • संगति
  • सुपरवाइज्ड बनाम अनसुप्रवाइज्ड मशीन लर्निंग
  • अप्रयुक्त मशीन सीखने के अनुप्रयोग
  • अनिर्धारित शिक्षण के नुकसान

Unsupervised मशीन लर्निंग का उदाहरण

चलो, एक बच्चे और उसके परिवार के कुत्ते का मामला लें।

वह इस कुत्ते को जानती और पहचानती है। कुछ हफ्तों बाद एक पारिवारिक मित्र कुत्ते के साथ आता है और बच्चे के साथ खेलने की कोशिश करता है।

बेबी ने पहले इस कुत्ते को नहीं देखा है। लेकिन यह कई विशेषताओं को पहचानता है (2 कान, आंखें, 4 पैरों पर चलना) उसके पालतू कुत्ते की तरह हैं। वह एक कुत्ते के रूप में नए जानवर की पहचान करता है। यह बिना पढ़ी हुई सीख है, जहाँ आपको पढ़ाया नहीं जाता है, लेकिन आप डेटा से सीखते हैं (इस मामले में कुत्ते के बारे में डेटा।) यदि यह सीखने की निगरानी होती, तो पारिवारिक मित्र ने बच्चे को बताया होता कि यह एक कुत्ता है।

क्यों अनसुनी सीख दी?

यहाँ, Unsupervised Learning का उपयोग करने के प्रमुख कारण हैं:

  • Unsupervised मशीन लर्निंग से डेटा में सभी प्रकार के अज्ञात पैटर्न मिलते हैं।
  • Unsupervised तरीके आपको उन विशेषताओं को खोजने में मदद करते हैं जो वर्गीकरण के लिए उपयोगी हो सकते हैं।
  • यह वास्तविक समय में होता है, इसलिए शिक्षार्थियों की उपस्थिति में सभी इनपुट डेटा का विश्लेषण और लेबल किया जाना है।
  • लेबल किए गए डेटा की तुलना में कंप्यूटर से अनलिस्टेड डेटा प्राप्त करना आसान है, जिसे मैन्युअल हस्तक्षेप की आवश्यकता होती है।

अनसुप्राइज़्ड लर्निंग के प्रकार

अव्यवस्थित सीखने की समस्याएं आगे चलकर क्लस्टरिंग और एसोसिएशन की समस्याओं में शामिल हो गईं।

क्लस्टरिंग

अव्यवस्थित सीखने के लिए क्लस्टरिंग एक महत्वपूर्ण अवधारणा है। यह मुख्य रूप से अनियंत्रित डेटा के संग्रह में एक संरचना या पैटर्न खोजने से संबंधित है। क्लस्टरिंग एल्गोरिदम आपके डेटा को संसाधित करेगा और यदि वे डेटा में मौजूद हैं तो प्राकृतिक समूह (समूह) ढूंढेंगे। आप यह भी संशोधित कर सकते हैं कि आपके एल्गोरिदम को कितने समूहों को पहचानना चाहिए। यह आपको इन समूहों की ग्रैन्युलैरिटी को समायोजित करने की अनुमति देता है।

क्लस्टरिंग के विभिन्न प्रकार हैं जिनका आप उपयोग कर सकते हैं:

अनन्य (विभाजन)

इस क्लस्टरिंग विधि में, डेटा को इस तरह से समूहीकृत किया जाता है कि एक डेटा केवल एक क्लस्टर से संबंधित हो सकता है।

उदाहरण: K- साधन

एग्लोमेरेटिव

इस क्लस्टरिंग तकनीक में, प्रत्येक डेटा एक क्लस्टर है। दो निकटतम समूहों के बीच चलने वाले संघों में समूहों की संख्या कम हो जाती है।

उदाहरण: श्रेणीबद्ध क्लस्टरिंग

ओवरलैपिंग

इस तकनीक में, डेटा को क्लस्टर करने के लिए फ़ज़ी सेट का उपयोग किया जाता है। प्रत्येक बिंदु सदस्यता की अलग-अलग डिग्री के साथ दो या अधिक समूहों से संबंधित हो सकता है।

यहां, डेटा एक उचित सदस्यता मूल्य के साथ जुड़ा होगा। उदाहरण: फज़ी सी-मीन्स

संभाव्य

यह तकनीक क्लस्टर बनाने के लिए प्रायिकता वितरण का उपयोग करती है

उदाहरण: निम्नलिखित कीवर्ड

  • "आदमी का जूता।"
  • "महिलाओं का जूता।"
  • "महिलाओं का दस्ताना।"
  • "आदमी का दस्ताना।"

दो श्रेणियों "जूता" और "दस्ताने" या "पुरुष" और "महिलाओं" में जोड़ा जा सकता है।

क्लस्टरिंग प्रकार

  • पदानुक्रमित क्लस्टरिंग
  • K- मतलब क्लस्टरिंग
  • के-एनएन (निकटतम पड़ोसी)
  • प्रमुख कंपोनेंट विश्लेषण
  • विलक्षण मान अपघटन
  • स्वतंत्र घटक विश्लेषण

पदानुक्रमित क्लस्टरिंग:

पदानुक्रमित क्लस्टरिंग एक एल्गोरिथ्म है जो क्लस्टर के पदानुक्रम का निर्माण करता है। यह उन सभी डेटा से शुरू होता है, जो अपने स्वयं के क्लस्टर के लिए असाइन किए जाते हैं। यहां एक ही क्लस्टर में दो क्लोजर होने वाले हैं। यह एल्गोरिथ्म तब समाप्त होता है जब केवल एक क्लस्टर शेष होता है।

K- मतलब क्लस्टरिंग

K का मतलब है कि यह एक पुनरावृत्त क्लस्टरिंग एल्गोरिथ्म है जो आपको हर पुनरावृत्ति के लिए उच्चतम मूल्य खोजने में मदद करता है। प्रारंभ में, वांछित संख्या में समूहों का चयन किया जाता है। इस क्लस्टरिंग विधि में, आपको डेटा बिंदुओं को k समूहों में क्लस्टर करना होगा। एक बड़े k का अर्थ है छोटे समूहों में समान ग्रैन्युलैरिटी के साथ। कम k का अर्थ है कम ग्रेन्युलैरिटी वाले बड़े समूह।

एल्गोरिथ्म का आउटपुट "लेबल" का एक समूह है। यह k समूहों में से एक को डेटा बिंदु प्रदान करता है। K- साधन क्लस्टरिंग में, प्रत्येक समूह को प्रत्येक समूह के लिए एक केन्द्रक बनाकर परिभाषित किया जाता है। केन्द्रक समूह के हृदय के समान होते हैं, जो उनके निकटतम बिंदुओं को पकड़ता है और उन्हें क्लस्टर में जोड़ता है।

K-mean क्लस्टरिंग आगे दो उपसमूहों को परिभाषित करता है:

  • एग्लोमेरेटिव क्लस्टरिंग
  • डेंड्रोग्राम

एग्लोमेरेटिव क्लस्टरिंग:

इस प्रकार का K- साधन क्लस्टर की निश्चित संख्या के साथ शुरू होता है। यह सभी डेटा को क्लस्टर की सटीक संख्या में आवंटित करता है। इस क्लस्टरिंग विधि में इनपुट के रूप में क्लस्टर K की संख्या की आवश्यकता नहीं होती है। एक क्लस्टर के रूप में प्रत्येक डेटा बनाने के द्वारा समूह प्रक्रिया शुरू होती है।

यह विधि कुछ दूरी माप का उपयोग करती है, विलय प्रक्रिया द्वारा समूहों की संख्या (प्रत्येक पुनरावृत्ति में एक) को कम करती है। अंत में, हमारे पास एक बड़ा क्लस्टर है जिसमें सभी ऑब्जेक्ट हैं।

डेंड्रोग्राम:

डेंड्रोग्राम क्लस्टरिंग विधि में, प्रत्येक स्तर एक संभावित क्लस्टर का प्रतिनिधित्व करेगा। डेंड्रोग्राम की ऊंचाई दो जुड़ने वाले समूहों के बीच समानता के स्तर को दर्शाती है। प्रक्रिया के नीचे के करीब वे अधिक समान क्लस्टर हैं जो डेंड्रोग्राम से समूह की खोज कर रहे हैं जो प्राकृतिक और ज्यादातर व्यक्तिपरक नहीं है।

K- निकटतम पड़ोसी

K- निकटतम पड़ोसी सभी मशीन लर्निंग क्लासिफायर का सबसे सरल है। यह अन्य मशीन लर्निंग तकनीकों से भिन्न है, जिसमें यह एक मॉडल का उत्पादन नहीं करता है। यह एक सरल एल्गोरिथ्म है जो सभी उपलब्ध मामलों को संग्रहीत करता है और एक समानता माप के आधार पर नए उदाहरणों को वर्गीकृत करता है।

उदाहरणों के बीच दूरी होने पर यह बहुत अच्छी तरह से काम करता है। जब प्रशिक्षण सेट बड़ा होता है, तो सीखने की गति धीमी होती है, और दूरी की गणना nontrivial होती है।

प्रमुख घटक विश्लेषण:

मामले में आप एक उच्च आयामी स्थान चाहते हैं। आपको उस स्थान के लिए एक आधार का चयन करने की आवश्यकता है और उस आधार के केवल 200 सबसे महत्वपूर्ण स्कोर। इस आधार को एक प्रमुख घटक के रूप में जाना जाता है। आपके द्वारा गठित उपसमुच्चय एक नया स्थान है जो मूल स्थान की तुलना में आकार में छोटा है। यह यथासंभव डेटा की जटिलता को बनाए रखता है।

संगति

एसोसिएशन के नियम आपको बड़े डेटाबेस के अंदर डेटा ऑब्जेक्ट्स के बीच जुड़ाव स्थापित करने की अनुमति देते हैं। यह अनुपयोगी तकनीक बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज करने के बारे में है। उदाहरण के लिए, जो लोग एक नया घर खरीदते हैं, वे नए फर्नीचर खरीदने की सबसे अधिक संभावना रखते हैं।

अन्य उदाहरण:

  • कैंसर रोगियों का एक उपसमूह उनके जीन अभिव्यक्ति माप द्वारा समूहीकृत
  • उनके ब्राउज़िंग और क्रय इतिहास के आधार पर दुकानदार के समूह
  • मूवी दर्शकों द्वारा दी गई रेटिंग द्वारा मूवी समूह

सुपरवाइज्ड बनाम अनसुप्रवाइज्ड मशीन लर्निंग

मापदंडों सुपरवाइज्ड मशीन लर्निंग तकनीक Unsupervised मशीन सीखने की तकनीक
इनपुट डेटा एल्गोरिदम को लेबल किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है। एल्गोरिदम का उपयोग उन डेटा के खिलाफ किया जाता है जो लेबल नहीं है
अभिकलनात्मक जटिलता सुपरवाइज्ड लर्निंग एक सरल विधि है। अनसुचित शिक्षा कम्प्यूटेशनल रूप से जटिल है
शुद्धता बेहद सटीक और भरोसेमंद तरीका। कम सटीक और भरोसेमंद तरीका।

अप्रयुक्त मशीन सीखने के अनुप्रयोग

अप्रयुक्त मशीन सीखने की तकनीक के कुछ अनुप्रयोग हैं:

  • क्लस्टरिंग स्वचालित रूप से डेटासेट को समूहों में उनकी समानता के आधार पर विभाजित करती है
  • विसंगति का पता लगाने आपके डेटासेट में असामान्य डेटा बिंदुओं की खोज कर सकते हैं। यह फर्जी लेनदेन खोजने के लिए उपयोगी है
  • एसोसिएशन माइनिंग उन आइटम्स के सेट की पहचान करता है जो अक्सर आपके डेटासेट में एक साथ होते हैं
  • अव्यक्त चर मॉडल व्यापक रूप से डेटा प्रीप्रोसेसिंग के लिए उपयोग किया जाता है। जैसे किसी डाटासेट में सुविधाओं की संख्या को कम करने या कई घटकों में डेटासेट को विघटित करना

अनिर्धारित शिक्षण के नुकसान

  • आपको डेटा सॉर्टिंग के बारे में सटीक जानकारी नहीं मिल सकती है, और आउटपुट के रूप में अप्रशिक्षित शिक्षण में उपयोग किए गए डेटा को लेबल किया गया है और ज्ञात नहीं है
  • परिणामों की कम सटीकता है क्योंकि इनपुट डेटा ज्ञात नहीं है और पहले से लोगों द्वारा लेबल नहीं किया गया है। इसका मतलब है कि मशीन को स्वयं ऐसा करने की आवश्यकता है।
  • वर्णक्रमीय कक्षाएं हमेशा सूचनात्मक कक्षाओं के अनुरूप नहीं होती हैं।
  • उपयोगकर्ता को उस वर्गीकरण की व्याख्या करने और लेबल करने में समय बिताने की आवश्यकता होती है जो उस वर्गीकरण का पालन करते हैं।
  • कक्षाओं के वर्णक्रमीय गुण समय के साथ बदल भी सकते हैं, इसलिए एक छवि से दूसरी छवि में जाते समय आपके पास समान श्रेणी की जानकारी नहीं हो सकती है।

सारांश

  • Unsupervised Learning एक मशीन सीखने की तकनीक है, जहाँ आपको मॉडल की देखरेख करने की आवश्यकता नहीं है।
  • Unsupervised मशीन लर्निंग आपको डेटा में सभी प्रकार के अज्ञात पैटर्न खोजने में मदद करती है।
  • क्लस्टरिंग एंड एसोसिएशन दो प्रकार के अनसुप्रोस्ड लर्निंग हैं।
  • क्लस्टरिंग विधियों के चार प्रकार हैं 1) अनन्य 2) एग्लोमेरेटिव 3) ओवरलैपिंग 4) प्रोबायलिस्टिक।
  • महत्वपूर्ण क्लस्टरिंग प्रकार हैं: 1) पदानुक्रमित क्लस्टरिंग 2) K- साधन क्लस्टर 3) K-NN 4) प्रधान घटक विश्लेषण 5) एकवचन मूल्य विघटन 6) स्वतंत्र घटक विश्लेषण।
  • एसोसिएशन के नियम आपको बड़े डेटाबेस के अंदर डेटा ऑब्जेक्ट्स के बीच जुड़ाव स्थापित करने की अनुमति देते हैं।
  • सुपरवाइज्ड लर्निंग में, एल्गोरिदम को लेबल किए गए डेटा का उपयोग करते हुए प्रशिक्षित किया जाता है जबकि अनसुप्राइज़्ड लर्निंग में एल्गोरिदम का उपयोग उन डेटा के विरुद्ध किया जाता है जो लेबल नहीं हैं।
  • विसंगति का पता लगाने से आपके डेटासेट में महत्वपूर्ण डेटा बिंदुओं की खोज हो सकती है जो धोखाधड़ी लेनदेन को खोजने के लिए उपयोगी है।
  • Unsupervised Learning की सबसे बड़ी कमी यह है कि आपको डेटा छँटाई के बारे में सटीक जानकारी नहीं मिल सकती है।