उलझन के साथ मशीन लर्निंग में उलझन मैट्रिक्स

विषय - सूची:

Anonim

कन्फ्यूजन मैट्रिक्स क्या है?

एक भ्रम मैट्रिक्स मशीन सीखने के वर्गीकरण के लिए एक प्रदर्शन माप तकनीक है। यह एक प्रकार की तालिका है जो आपको परीक्षण डेटा के एक सेट पर वर्गीकरण मॉडल के प्रदर्शन को जानने में मदद करती है, इसके लिए सही मान ज्ञात हैं। कन्फ्यूजन मैट्रिक्स शब्द ही बहुत सरल है, लेकिन इसकी संबंधित शब्दावली थोड़ी भ्रमित करने वाली हो सकती है। यहाँ, इस तकनीक के लिए कुछ सरल विवरण दिए गए हैं।

इस ट्यूटोरियल में आप सीखेंगे,

  • कंफ्यूजन मैट्रिक्स क्या है?
  • भ्रम मैट्रिक्स के चार परिणाम
  • भ्रम मैट्रिक्स का उदाहरण:
  • एक भ्रम मैट्रिक्स की गणना कैसे करें
  • कन्फ़्यूज़न मैट्रिक्स का उपयोग करते हुए अन्य महत्वपूर्ण शर्तें
  • आपको कंफ्यूजन मैट्रिक्स की आवश्यकता क्यों है?

भ्रम मैट्रिक्स के चार परिणाम

भ्रम मैट्रिक्स वास्तविक और अनुमानित कक्षाओं की तुलना करके एक क्लासिफायर की सटीकता का अनुमान लगाता है। द्विआधारी भ्रम मैट्रिक्स वर्गों से बना है:

भ्रम की मेज
  • टीपी: ट्रू पॉजिटिव: पूर्व निर्धारित मानों को वास्तविक पॉजिटिव बताया
  • एफपी: अनुमानित मूल्यों ने गलत तरीके से वास्तविक सकारात्मक की भविष्यवाणी की। अर्थात, नकारात्मक मानों का सकारात्मक रूप से अनुमान लगाया जाता है
  • एफएन: गलत नकारात्मक: सकारात्मक मूल्यों को नकारात्मक के रूप में भविष्यवाणी की जाती है
  • TN: सच्चा नकारात्मक: पूर्व निर्धारित मानों को एक वास्तविक नकारात्मक के रूप में सही रूप से अनुमानित किया गया है

आप भ्रम मैट्रिक्स से सटीकता परीक्षण की गणना कर सकते हैं :

भ्रम मैट्रिक्स का उदाहरण:

कन्फ्यूजन मैट्रिक्स एक उपयोगी मशीन लर्निंग विधि है जो आपको रिकॉल, प्रिसिजन, एक्यूरेसी, और एयूसी-आरओसी कर्व को मापने की अनुमति देती है। नीचे दिया गया उदाहरण ट्रू पॉजिटिव, ट्रू निगेटिव, गलत निगेटिव और ट्रू निगेटिव को जानने के लिए एक उदाहरण है।

सही सकारात्मक:

आपने सकारात्मक का अनुमान लगाया है और इसका सच निकला है। उदाहरण के लिए, आपने भविष्यवाणी की थी कि फ्रांस विश्व कप जीत जाएगा, और यह जीत गया।

सच्चा नकारात्मक:

जब आप नकारात्मक की भविष्यवाणी करते हैं, और यह सच है। आपने भविष्यवाणी की थी कि इंग्लैंड नहीं जीतेगा और वह हार गया।

सकारात्मक झूठी:

आपकी भविष्यवाणी सकारात्मक है, और यह गलत है।

आपने भविष्यवाणी की थी कि इंग्लैंड जीत जाएगा, लेकिन वह हार गया।

मिथ्या नकारात्मक:

आपकी भविष्यवाणी नकारात्मक है, और इसका परिणाम भी गलत है।

आपने भविष्यवाणी की थी कि फ्रांस नहीं जीतेगा, लेकिन वह जीत गया।

आपको याद रखना चाहिए कि हम पूर्वानुमानित मूल्यों को सत्य या गलत या सकारात्मक और नकारात्मक के रूप में वर्णित करते हैं।

एक भ्रम मैट्रिक्स की गणना कैसे करें

यहाँ, डाटा माइनिंग में एक भ्रम मैट्रिक्स की गणना के लिए चरणबद्ध प्रक्रिया है

  • चरण 1) सबसे पहले, आपको इसके अपेक्षित परिणाम मूल्यों के साथ डेटासेट का परीक्षण करने की आवश्यकता है।
  • चरण 2) परीक्षण डाटासेट में सभी पंक्तियों की भविष्यवाणी करें।
  • चरण 3) अपेक्षित पूर्वानुमान और परिणामों की गणना करें:
  1. प्रत्येक वर्ग की सही भविष्यवाणी।
  2. प्रत्येक वर्ग की गलत भविष्यवाणी की कुल।

उसके बाद, ये नंबर नीचे दिए गए तरीकों से आयोजित किए जाते हैं:

  • मैट्रिक्स की हर पंक्ति एक पूर्वानुमानित वर्ग से जुड़ती है।
  • मैट्रिक्स का हर कॉलम वास्तविक वर्ग से मेल खाता है।
  • सही और गलत वर्गीकरण की कुल संख्या तालिका में दर्ज की गई है।
  • किसी वर्ग के लिए सही भविष्यवाणियों का योग उस वर्ग मान के लिए अनुमानित कॉलम और अपेक्षित पंक्ति में जाता है।
  • किसी वर्ग के लिए गलत भविष्यवाणियों का योग उस वर्ग मान के लिए अपेक्षित पंक्ति और उस विशिष्ट वर्ग मान के लिए अनुमानित कॉलम में जाता है।

कन्फ़्यूज़न मैट्रिक्स का उपयोग करते हुए अन्य महत्वपूर्ण शर्तें

  • पॉजिटिव प्रेडिक्टिव वैल्यू (PVV): यह बहुत सटीक के पास है। दो-अवधि के बीच एक महत्वपूर्ण अंतर यह है कि पीवीवी व्यापकता पर विचार करता है। उस स्थिति में जहां कक्षाएं पूरी तरह से संतुलित होती हैं, सकारात्मक भविष्य कहनेवाला मूल्य परिशुद्धता के समान है।
  • अशक्त त्रुटि दर: इस शब्द का उपयोग यह परिभाषित करने के लिए किया जाता है कि यदि आप बहुसंख्यक वर्ग की भविष्यवाणी कर सकते हैं तो आपकी भविष्यवाणी कितनी बार गलत होगी। अपने वर्गीकरण की तुलना करने के लिए आप इसे आधारभूत मीट्रिक मान सकते हैं।
  • एफ स्कोर: एफ 1 स्कोर असली सकारात्मक (याद) और सटीक का एक भारित औसत स्कोर है।
  • Roc Curve: Roc वक्र विभिन्न कट बिंदुओं पर झूठी सकारात्मक दर के विरुद्ध सही सकारात्मक दर दिखाता है। यह संवेदनशीलता (याद और विशिष्टता या वास्तविक नकारात्मक दर) के बीच एक व्यापार बंद का प्रदर्शन करता है।
  • परिशुद्धता: सटीक मीट्रिक सकारात्मक वर्ग की सटीकता को दर्शाता है। यह मापता है कि सकारात्मक वर्ग की भविष्यवाणी कितनी सही है।

अधिकतम अंक 1 है जब क्लासिफायर सभी सकारात्मक मूल्यों को पूरी तरह से वर्गीकृत करता है। अकेले परिशुद्धता बहुत उपयोगी नहीं है क्योंकि यह नकारात्मक वर्ग की उपेक्षा करता है। मीट्रिक को आमतौर पर रिकॉल मीट्रिक के साथ जोड़ा जाता है। रिकॉल को संवेदनशीलता या सच्ची सकारात्मक दर भी कहा जाता है।

  • संवेदनशीलता : संवेदनशीलता सकारात्मक रूप से ज्ञात सकारात्मक वर्गों के अनुपात की गणना करती है। यह मीट्रिक एक सकारात्मक वर्ग को पहचानने के लिए कितना अच्छा मॉडल देता है।

आपको कंफ्यूजन मैट्रिक्स की आवश्यकता क्यों है?

यहाँ एक उलझन मैट्रिक्स का उपयोग करने के लाभ / लाभ हैं।

  • यह दर्शाता है कि कोई भी वर्गीकरण मॉडल कब भ्रमित होता है जब वह भविष्यवाणियां करता है।
  • कन्फ्यूजन मैट्रिक्स आपको न केवल आपके क्लासिफायरियर द्वारा की जा रही त्रुटियों के बारे में अंतर्दृष्टि प्रदान करता है, बल्कि उस प्रकार की त्रुटियां भी हैं जो की जा रही हैं।
  • यह ब्रेकडाउन आपको अकेले वर्गीकरण सटीकता का उपयोग करने की सीमा को पार करने में मदद करता है।
  • भ्रम मैट्रिक्स का प्रत्येक स्तंभ उस अनुमानित वर्ग के उदाहरणों का प्रतिनिधित्व करता है।
  • भ्रम मैट्रिक्स की प्रत्येक पंक्ति वास्तविक वर्ग के उदाहरणों का प्रतिनिधित्व करती है।
  • यह न केवल त्रुटियों को प्रदान करता है, जो एक क्लासिफायरियर द्वारा की जाती है, बल्कि ऐसी त्रुटियां भी होती हैं जो की जा रही हैं।