डेटा सुलह क्या है?
डेटा माइग्रेशन के दौरान डेटा के सत्यापन की प्रक्रिया के रूप में डेटा सुलह (DR) को परिभाषित किया गया है। इस प्रक्रिया में लक्ष्य डेटा की तुलना स्रोत डेटा से की जाती है ताकि यह सुनिश्चित हो सके कि माइग्रेशन आर्किटेक्चर डेटा ट्रांसफर कर रहा है। डेटा सत्यापन और सामंजस्य (डीवीआर) का मतलब एक ऐसी तकनीक है जो सूचना को संसाधित करने के लिए गणितीय मॉडल का उपयोग करती है।
इस ट्यूटोरियल में आप सीखेंगे,
- डेटा सुलह क्या है?
- डेटा रिकॉन्लेशन महत्वपूर्ण क्यों है?
- डेटा रिकंसीलेशन से जुड़ी शब्दावली
- डेटा रिकंस्ट्रक्शन का इतिहास
- डेटा सुलह प्रक्रिया
- डेटा रिकॉन्चिएशन का उपयोग करने का सबसे अच्छा अभ्यास
- डेटा रिकंस्ट्रक्शन टूल
डेटा रिकॉन्लेशन महत्वपूर्ण क्यों है?
डेटा माइग्रेशन प्रक्रिया में, मैपिंग और ट्रांसफ़ॉर्मेशन लॉजिक में गलतियाँ होना संभव है। नेटवर्क ड्रॉपआउट या टूटे हुए लेनदेन जैसे रन टाइम विफलताओं जैसे मुद्दे डेटा को दूषित कर सकते हैं।
इस तरह की त्रुटियों से डेटा अमान्य स्थिति में छोड़ा जा सकता है। ये मुद्दों की एक श्रृंखला बना सकते हैं जैसे:
- रिकॉर्ड गायब है
- लापता मूल्य
- गलत मान
- डुप्लिकेट किए गए रिकॉर्ड
- बुरी तरह से स्वरूपित मूल्यों
- तालिकाओं या प्रणालियों में टूटे हुए रिश्ते
डेटा रिकंसीलेशन प्रक्रिया का उपयोग करने के लिए यहाँ महत्वपूर्ण कारण हैं:
- डेटा रिकंसीलेशन का उपयोग आपको कच्चे माप डेटा से उद्योग प्रक्रिया की स्थिति के बारे में सटीक और विश्वसनीय जानकारी निकालने में मदद करता है।
- यह आपको सबसे अधिक संभावित प्रक्रिया संचालन का प्रतिनिधित्व करने वाले डेटा के एक एकल सेट का उत्पादन करने में भी मदद करता है।
- यह ग्राहक सेवा के साथ गलत अंतर्दृष्टि और मुद्दों की ओर भी जाता है।
- एंटरप्राइज़-नियंत्रण एकीकरण के लिए डेटा की पुन: प्राप्ति भी महत्वपूर्ण है।
उपरोक्त के अलावा डेटा सामंजस्य के कई लाभ / लाभ हैं।
डेटा रिकंसीलेशन से जुड़ी शब्दावली
सकल त्रुटि | माप में सकल त्रुटियां। यह केवल पूर्वाग्रह त्रुटियों, साधन विफलताओं, या असामान्य शोर स्पाइक्स को दर्शाता है यदि आप औसत अवधि के केवल कम समय का उपयोग कर रहे हैं। |
observability | अवलोकन विश्लेषण आपको इस बात की जानकारी दे सकता है कि दिए गए अवरोधों और मापों के समूह के लिए चर क्या निर्धारित किए जा सकते हैं। |
झगड़ा | विविधता एक सेंसर की परिवर्तनशीलता का एक उपाय है। |
फालतूपन | यह आपको यह निर्धारित करने में मदद करता है कि कसौटी समीकरणों का उपयोग करके अन्य चर से कौन से मापों का अनुमान लगाया जाना चाहिए। |
डेटा रिकंस्ट्रक्शन का इतिहास
यहां, डेटा रिकॉन्लेशन के इतिहास से आवश्यक स्थल हैं।
- DVR (डेटा सत्यापन और सुलह) 1960 के दशक की शुरुआत में शुरू हुआ। इसका उद्देश्य उत्पादन में सामग्री संतुलन को बंद करना था जहां सभी चर के लिए कच्चे माप उपलब्ध थे।
- 1960 के दशक के उत्तरार्ध में, सभी सुलझे हुए चर को डेटा सुलह प्रक्रिया में माना गया।
- समय के साथ फ़िल्टरिंग और समानांतर पैरामीटर अनुमान के लिए अर्ध-स्थिर राज्य की गतिशीलता 1977 में स्टेनली और मह द्वारा पेश की गई थी।
- डायनामिक डीवीआर को एक नॉनलाइनियर ऑप्टिमाइज़ेशन मॉडल के रूप में विकसित किया गया था, जिसे लिबमैन ने वर्ष 1992 में जारी किया था
डेटा सुलह प्रक्रिया
डेटा सुलह के तरीके हैं:
मास्टर डेटा सुलह
मास्टर डेटा सामंजस्य केवल स्रोत और लक्ष्य के बीच मास्टर डेटा को समेटने की एक तकनीक है। मास्टर डेटा ज्यादातर अपरिवर्तित है या धीरे-धीरे प्रकृति में बदल रहा है, और डेटासेट पर कोई एकत्रीकरण ऑपरेशन नहीं किया जाता है।
मास्टर डेटा सुलह के कुछ सामान्य उदाहरण हैं:
- पंक्तियों की कुल संख्या
- स्रोत और लक्ष्य में कुल ग्राहक
- स्रोत और लक्ष्य में कुल आइटम
- दी गई स्थिति के आधार पर पंक्तियों की कुल गणना
- सक्रिय उपयोगकर्ताओं की संख्या
- निष्क्रिय उपयोगकर्ताओं की संख्या आदि।
गतिविधि की सटीकता
- आपको यह सुनिश्चित करने की आवश्यकता है कि लेनदेन वैध हैं और उद्देश्य में सही हैं।
- यह जांचने की आवश्यकता है कि क्या लेनदेन ठीक से अधिकृत है या नहीं।
ट्रांसेक्शनल डेटा रिकंसीलेशन
लेनदेन डेटा बीआई रिपोर्ट का आधार बनाते हैं। इसलिए, लेनदेन डेटा में कोई भी बेमेल सीधे रिपोर्ट की विश्वसनीयता और पूरे बीआई सिस्टम को सामान्य रूप से प्रभावित कर सकता है।
कुल राशि के संदर्भ में लेन-देन डेटा सामंजस्य विधि का उपयोग किया जाता है जो योग्यता आयामों की बारीकियों को बदलने के कारण किसी भी बेमेल को रोकता है।
लेन-देन डेटा सामंजस्य के लिए उपयोग किए जाने वाले उपायों के उदाहरण निम्न होने चाहिए:
- स्रोत और लक्ष्य से गणना की गई कुल आय का योग
- बेचे गए पूरे आइटम का योग, स्रोत और लक्ष्य से गणना, आदि।
स्वचालित डेटा सुलह:
बड़े डेटा गोदाम प्रबंधन प्रणाली में, डेटा लोडिंग का एक अभिन्न अंग के रूप में बनाकर डेटा सामंजस्य प्रक्रिया को स्वचालित करना सुविधाजनक है। यह आपको अलग लोडिंग मेटाडेटा तालिकाओं को बनाए रखने की अनुमति देता है। इसके अलावा, स्वचालित सुलह सभी हितधारकों को रिपोर्टों की वैधता के बारे में सूचित रखेगी।
डेटा रिकॉन्चिएशन का उपयोग करने का सबसे अच्छा अभ्यास
- सही माप त्रुटियों पर डेटा सुलह प्रक्रिया का लक्ष्य होना चाहिए।
- डेटा सामंजस्य प्रक्रिया को कुशल बनाने के लिए सकल त्रुटियां शून्य होनी चाहिए।
- डेटा रिकॉनिलेशन के मानक दृष्टिकोण ने सरल रिकॉर्ड की गणना पर भरोसा किया है कि रिकॉर्ड की लक्षित संख्या माइग्रेट हुई है या नहीं, इसका ट्रैक रखना है।
- डेटा माइग्रेशन समाधान समान सामंजस्य क्षमताओं और डेटा प्रोटोटाइप कार्यक्षमता को बचाता है जो पूर्ण मात्रा डेटा सामंजस्य परीक्षण प्रदान करता है।
डेटा रिकंस्ट्रक्शन टूल
1) OpenRefine
OpenRefine जिसे पहले एक Google Refine के नाम से जाना जाता है, एक उपयोगी डेटाबेस रीकॉन्च्युलेशन फ्रेमवर्क है। यह आपको गंदे डेटा को साफ करने और स्थानांतरित करने की अनुमति देता है।
डाउनलोड लिंक: https://openrefine.org/
2) टिस्को क्लैरिटी
यह डेटा सामंजस्य उपकरण वेब से सॉफ़्टवेयर-ए-ए-सेवा के रूप में ऑन-डिमांड सॉफ़्टवेयर सेवाएँ प्रदान करता है। यह उपयोगकर्ताओं को डेटा को मान्य करने और डेटा को साफ़ करने की अनुमति देता है। यह पूर्ण सामंजस्य परीक्षण सुविधाएँ प्रदान करता है। ETL प्रक्रिया में व्यापक रूप से उपयोग किया जाता है।
डाउनलोड लिंक: https://clarity.cloud.tibco.com/landing/index.html
3) जीतना
Winpure एक सस्ती और सटीक डेटा सफाई सॉफ्टवेयर है। यह आपको डेटा की एक बड़ी मात्रा को साफ करने, डुप्लिकेट को हटाने, अंतिम डेटा सेट को सही करने और मानकीकृत करने की अनुमति देता है।
डाउनलोड लिंक: https://winpure.com/
सारांश
- डेटा सत्यापन और सामंजस्य (डीवीआर) एक ऐसी तकनीक है जो सूचना को संसाधित करने के लिए गणितीय मॉडल का उपयोग करती है।
- डेटा सामंजस्य का उपयोग आपको कच्चे माप डेटा से उद्योग प्रक्रिया की स्थिति के बारे में सटीक और विश्वसनीय जानकारी निकालने में मदद करता है।
- डेटा रिकंसीलेशन प्रक्रिया में उपयोग की जाने वाली सकल त्रुटि, अवलोकनशीलता, भिन्नता, अतिरेक महत्वपूर्ण हैं
- डेटा सत्यापन और सुलह 1960 के दशक की शुरुआत में शुरू हुआ।
- तीन प्रकार के डेटा सुलह के तरीके हैं 1) मास्टर डेटा सुलह 2) लेन-देन डेटा सुलह 3) स्वचालित डेटा सुलह
- डेटा सामंजस्य प्रक्रिया को कुशल बनाने के लिए सकल त्रुटियां शून्य होनी चाहिए।
- कुछ महत्वपूर्ण डेटा सुलह उपकरण हैं: 1) OpenRefine 2) TIBCO 3) Winpure
- तेल शोधन / परमाणु / रासायनिक उद्योग में प्रदर्शन और प्रक्रिया की निगरानी में इस पद्धति का व्यापक रूप से उपयोग किया जाता है