डेटा वेयरहाउस में ईटीएल (एक्सट्रैक्ट, ट्रांसफॉर्म और लोड) प्रक्रिया

विषय - सूची:

Anonim

ETL क्या है?

ईटीएल एक ऐसी प्रक्रिया है जो विभिन्न स्रोत प्रणालियों से डेटा को निकालती है, फिर डेटा को परिवर्तित करती है (जैसे गणना, निष्कर्ष, आदि को लागू करना) और अंत में डेटा को डेटा वेयरहाउस सिस्टम में लोड करती है। ETL का फुल फॉर्म एक्सट्रैक्ट, ट्रांसफॉर्म और लोड है।

यह सोचने के लिए मोहक है कि डेटा वेयरहाउस बनाना केवल कई स्रोतों से डेटा निकालना और डेटा वेयरहाउस के डेटाबेस में लोड करना है। यह सच्चाई से बहुत दूर है और एक जटिल ईटीएल प्रक्रिया की आवश्यकता है। ETL प्रक्रिया में विभिन्न हितधारकों से डेवलपर्स, विश्लेषकों, परीक्षकों, शीर्ष अधिकारियों सहित सक्रिय इनपुट की आवश्यकता होती है और यह तकनीकी रूप से चुनौतीपूर्ण है।

निर्णय-निर्माताओं के लिए एक उपकरण के रूप में इसके मूल्य को बनाए रखने के लिए, डेटा वेयरहाउस सिस्टम को व्यावसायिक परिवर्तनों के साथ बदलना होगा। ETL एक डेटा वेयरहाउस सिस्टम की आवर्ती गतिविधि (दैनिक, साप्ताहिक, मासिक) है और इसे चुस्त, स्वचालित, और अच्छी तरह से प्रलेखित किया जाना चाहिए।

इस ETL ट्यूटोरियल में, आप सीखेंगे-

  • ETL क्या है?
  • आपको ईटीएल की आवश्यकता क्यों है?
  • डेटा वेयरहाउस में ईटीएल प्रक्रिया
  • चरण 1) निष्कर्षण
  • चरण 2) परिवर्तन
  • चरण 3) लोड हो रहा है
  • ETL उपकरण
  • सर्वश्रेष्ठ प्रथाओं ETL प्रक्रिया

आपको ईटीएल की आवश्यकता क्यों है?

संगठन में ETL को अपनाने के कई कारण हैं:

  • यह महत्वपूर्ण व्यावसायिक निर्णय लेने के लिए कंपनियों को अपने व्यापार डेटा का विश्लेषण करने में मदद करता है।
  • लेन-देन डेटाबेस जटिल व्यावसायिक प्रश्नों का उत्तर नहीं दे सकता है जिनका उत्तर ईटीएल उदाहरण द्वारा दिया जा सकता है।
  • डेटा वेयरहाउस एक सामान्य डेटा रिपॉजिटरी प्रदान करता है
  • ETL विभिन्न स्रोतों से डेटा को डेटा वेयरहाउस में ले जाने का एक तरीका प्रदान करता है।
  • जैसे ही डेटा स्रोत बदलते हैं, डेटा वेयरहाउस स्वचालित रूप से अपडेट हो जाएगा।
  • डेटा वेयरहाउस परियोजना की सफलता के लिए अच्छी तरह से डिजाइन और प्रलेखित ETL प्रणाली लगभग आवश्यक है।
  • डेटा परिवर्तन, एकत्रीकरण और गणना नियमों के सत्यापन की अनुमति दें।
  • ईटीएल प्रक्रिया स्रोत और लक्ष्य प्रणाली के बीच नमूना डेटा तुलना की अनुमति देती है।
  • ईटीएल प्रक्रिया जटिल परिवर्तन कर सकती है और डेटा को स्टोर करने के लिए अतिरिक्त क्षेत्र की आवश्यकता होती है।
  • ETL डेटा वेयरहाउस में डेटा को माइग्रेट करने में मदद करता है। एक सुसंगत प्रणाली का पालन करने के लिए विभिन्न स्वरूपों और प्रकारों में परिवर्तित करें।
  • ETL लक्ष्य डेटाबेस में स्रोत डेटा तक पहुंचने और हेरफेर करने के लिए एक पूर्वनिर्धारित प्रक्रिया है।
  • डेटा वेयरहाउस में ETL व्यवसाय के लिए गहन ऐतिहासिक संदर्भ प्रदान करता है।
  • यह उत्पादकता में सुधार करने में मदद करता है क्योंकि यह तकनीकी कौशल की आवश्यकता के बिना कोड करता है और पुन: उपयोग करता है।

डेटा वेयरहाउस में ईटीएल प्रक्रिया

ETL एक 3-चरण प्रक्रिया है

ईटीएल प्रक्रिया

चरण 1) निष्कर्षण

ईटीएल आर्किटेक्चर के इस चरण में, डेटा को स्रोत प्रणाली से मचान क्षेत्र में निकाला जाता है। यदि कोई स्टेजिंग क्षेत्र में किया जाता है तो ट्रांसफ़ॉर्मेशन ताकि स्रोत प्रणाली का प्रदर्शन खराब न हो। साथ ही, यदि दूषित डेटा स्रोत से सीधे डेटा वेयरहाउस डेटाबेस में कॉपी किया जाता है, तो रोलबैक एक चुनौती होगी। स्टेजिंग क्षेत्र डेटा वेयरहाउस में जाने से पहले निकाले गए डेटा को मान्य करने का अवसर देता है।

डेटा वेयरहाउस को उन प्रणालियों को एकीकृत करना होगा जो अलग-अलग हैं

DBMS, हार्डवेयर, ऑपरेटिंग सिस्टम और संचार प्रोटोकॉल। सूत्रों में मेनफ्रेम, कस्टमाइज्ड एप्लिकेशन, एटीएम, कॉल स्विच, टेक्स्ट फाइल, स्प्रेडशीट, ईआरपी, वेंडरों के डेटा, अन्य लोगों के पार्टनर जैसे कॉन्टैक्ट डिवाइसेस जैसे लीगेसी एप्लिकेशन शामिल हो सकते हैं।

इसलिए किसी को डेटा निकालने और भौतिक रूप से लोड करने से पहले तार्किक डेटा मैप की आवश्यकता होती है। यह डेटा मैप स्रोतों और लक्ष्य डेटा के बीच संबंध का वर्णन करता है।

तीन डेटा निष्कर्षण तरीके:

  1. पूर्ण निष्कर्षण
  2. आंशिक निष्कर्षण- अद्यतन अधिसूचना के बिना।
  3. आंशिक निष्कर्षण- अद्यतन अधिसूचना के साथ

उपयोग की गई विधि के बावजूद, निष्कर्षण को स्रोत प्रणालियों के प्रदर्शन और प्रतिक्रिया समय को प्रभावित नहीं करना चाहिए। ये स्रोत सिस्टम लाइव प्रोडक्शन डेटाबेस हैं। कोई भी धीमा या लॉकिंग कंपनी की निचली रेखा को प्रभावित कर सकता है।

कुछ मान्यताएं निष्कर्षण के दौरान की जाती हैं:

  • स्रोत डेटा के साथ रिकॉर्ड रिकॉर्ड करें
  • सुनिश्चित करें कि कोई स्पैम / अवांछित डेटा लोड नहीं किया गया है
  • डेटा प्रकार की जाँच
  • सभी प्रकार के डुप्लिकेट / खंडित डेटा को निकालें
  • जांचें कि सभी कुंजियाँ जगह में हैं या नहीं

चरण 2) परिवर्तन

स्रोत सर्वर से निकाला गया डेटा कच्चा है और अपने मूल रूप में उपयोग करने योग्य नहीं है। इसलिए इसे साफ करने, मैप करने और बदलने की जरूरत है। वास्तव में, यह महत्वपूर्ण कदम है जहां ईटीएल प्रक्रिया मूल्य को जोड़ती है और डेटा को बदल देती है जिससे कि इनवेसिव बीआई रिपोर्ट उत्पन्न की जा सकती है।

यह महत्वपूर्ण ईटीएल अवधारणाओं में से एक है जहां आप निकाले गए डेटा पर फ़ंक्शन का एक सेट लागू करते हैं। डेटा जिसे किसी भी परिवर्तन की आवश्यकता नहीं होती है उसे डायरेक्ट मूव कहा जाता है या डेटा से होकर गुजरता है

परिवर्तन चरण में, आप डेटा पर अनुकूलित संचालन कर सकते हैं। उदाहरण के लिए, यदि उपयोगकर्ता सम-बिक्री राजस्व चाहता है जो डेटाबेस में नहीं है। या यदि तालिका में पहला नाम और अंतिम नाम अलग-अलग कॉलम में है। लोड करने से पहले उन्हें समतल करना संभव है।

डेटा एकीकरण मुद्दे

निम्नलिखित डेटा अखंडता समस्याएं हैं:

  1. एक ही व्यक्ति की विभिन्न वर्तनी जैसे जॉन, जॉन इत्यादि।
  2. Google, Google Inc. जैसे कंपनी के नाम को दर्शाने के कई तरीके हैं।
  3. क्लीवलैंड, क्लीवलैंड जैसे विभिन्न नामों का उपयोग।
  4. ऐसा मामला हो सकता है कि एक ही ग्राहक के लिए विभिन्न एप्लिकेशन द्वारा अलग-अलग खाता संख्या उत्पन्न की जाती हैं।
  5. कुछ डेटा में आवश्यक फाइलें खाली रहती हैं
  6. मैन्युअल प्रविष्टि के रूप में POS पर एकत्रित अमान्य उत्पाद गलतियों का कारण बन सकते हैं।

इस अवस्था के दौरान मान्यताएँ होती हैं

  • फ़िल्टरिंग - लोड करने के लिए केवल कुछ कॉलम चुनें
  • डेटा मानकीकरण के लिए नियमों और लुकअप टेबल का उपयोग करना
  • चरित्र सेट रूपांतरण और एन्कोडिंग हैंडलिंग
  • मापों की इकाइयों का रूपांतरण जैसे दिनांक समय रूपांतरण, मुद्रा रूपांतरण, संख्यात्मक रूपांतरण आदि।
  • डेटा सीमा सत्यापन जाँच। उदाहरण के लिए, आयु दो अंकों से अधिक नहीं हो सकती।
  • मंचन क्षेत्र से मध्यवर्ती तालिकाओं तक डेटा प्रवाह सत्यापन।
  • आवश्यक फ़ील्ड को खाली नहीं छोड़ा जाना चाहिए।
  • सफाई (उदाहरण के लिए, NULL को 0 या लिंग पुरुष को "M" और महिला को "F" आदि से मैप करना)
  • एक कॉलम को कई गुना में विभाजित करें और एक कॉलम में कई कॉलम को मर्ज करें।
  • पंक्तियों और स्तंभों को स्थानांतरित करना,
  • डेटा को मर्ज करने के लिए लुकअप का उपयोग करें
  • किसी भी जटिल डेटा सत्यापन का उपयोग करना (उदाहरण के लिए, यदि पंक्ति में पहले दो कॉलम खाली हैं तो यह स्वचालित रूप से प्रसंस्करण से पंक्ति को अस्वीकार कर देता है)

चरण 3) लोड हो रहा है

डेटा को लक्ष्य डेटावेयरहाउस डेटाबेस में लोड करना ETL प्रक्रिया का अंतिम चरण है। एक विशिष्ट डेटा गोदाम में, डेटा की बड़ी मात्रा को अपेक्षाकृत कम अवधि (रात) में लोड करने की आवश्यकता होती है। इसलिए, प्रदर्शन के लिए लोड प्रक्रिया को अनुकूलित किया जाना चाहिए।

लोड विफलता के मामले में, पुनर्प्राप्ति तंत्र को डेटा अखंडता हानि के बिना विफलता के बिंदु से पुनरारंभ करने के लिए कॉन्फ़िगर किया जाना चाहिए। डेटा वेयरहाउस व्यवस्थापक को प्रचलित सर्वर प्रदर्शन के अनुसार लोड को मॉनिटर करने, फिर से शुरू करने, रद्द करने की आवश्यकता होती है।

लोडिंग के प्रकार:

  • प्रारंभिक भार - सभी डेटा वेयरहाउस तालिकाओं को आबाद करना
  • वृद्धिशील भार - समय-समय पर आवश्यकतानुसार परिवर्तन जारी रखना।
  • पूर्ण ताज़ा एक या अधिक तालिकाओं की सामग्री -erasing और ताजा आंकड़ों के साथ पुन: लोड।

लोड सत्यापन

  • सुनिश्चित करें कि कुंजी फ़ील्ड डेटा न तो गायब है और न ही अशक्त है।
  • लक्ष्य तालिका के आधार पर परीक्षण मॉडलिंग के विचार।
  • संयुक्त मूल्यों और गणना उपायों की जाँच करें।
  • आयाम तालिका के साथ-साथ इतिहास तालिका में डेटा की जांच।
  • लोड किए गए तथ्य और आयाम तालिका पर बीआई रिपोर्ट की जांच करें।

ETL उपकरण

बाजार में कई डेटा वेयरहाउसिंग उपकरण उपलब्ध हैं। यहाँ, कुछ सबसे प्रमुख हैं:

1. मार्कलोगिक:

MarkLogic एक डेटा वेयरहाउसिंग समाधान है जो एंटरप्राइज़ सुविधाओं की एक सरणी का उपयोग करके डेटा एकीकरण को आसान और तेज़ बनाता है। यह विभिन्न प्रकार के डेटा जैसे दस्तावेज़, रिश्ते और मेटाडेटा को क्वेरी कर सकता है।

https://www.marklogic.com/product/getting-started/


2. ओरेकल:

ओरेकल उद्योग की अग्रणी डेटाबेस है। यह ऑन-प्रिमाइसेस और क्लाउड में दोनों के लिए डेटा वेयरहाउस समाधानों की एक विस्तृत श्रृंखला प्रदान करता है। यह परिचालन क्षमता को बढ़ाकर ग्राहकों के अनुभवों को अनुकूलित करने में मदद करता है।

https://www.oracle.com/index.html


3. अमेज़न रेडशिफ्ट:

Amazon Redshift डाटवेयरहाउस टूल है। यह मानक एसक्यूएल और मौजूदा बीआई उपकरण का उपयोग कर सभी प्रकार के डेटा का विश्लेषण करने के लिए एक सरल और लागत प्रभावी उपकरण है। यह संरचित डेटा के पेटाबाइट्स के खिलाफ जटिल प्रश्नों को चलाने की अनुमति देता है।

https://aws.amazon.com/redshift/?nc2=h_m1

यहां उपयोगी डेटा वेयरहाउस टूल्स की पूरी सूची दी गई है।

सर्वश्रेष्ठ प्रथाओं ETL प्रक्रिया

ETL प्रक्रिया चरणों के लिए सर्वोत्तम अभ्यास निम्नलिखित हैं:

कभी भी सभी डेटा को साफ़ करने का प्रयास न करें:

हर संगठन चाहेगा कि सभी डेटा साफ हों, लेकिन उनमें से अधिकांश इंतजार करने के लिए तैयार नहीं हैं या इंतजार करने के लिए तैयार नहीं हैं। इसे साफ करने के लिए बस बहुत लंबा समय लगेगा, इसलिए बेहतर होगा कि सभी डेटा को साफ करने की कोशिश न करें।

कभी भी शुद्ध न करें:

हमेशा कुछ साफ करने की योजना बनाएं क्योंकि डेटा वेयरहाउस के निर्माण का सबसे बड़ा कारण क्लीनर और अधिक विश्वसनीय डेटा की पेशकश करना है।

डेटा को साफ़ करने की लागत निर्धारित करें:

सभी गंदे डेटा को साफ करने से पहले, आपके लिए यह आवश्यक है कि आप हर गंदे डेटा तत्व के लिए सफाई लागत निर्धारित करें।

क्वेरी प्रसंस्करण को गति देने के लिए, सहायक दृश्य और सूचकांक हैं:

भंडारण लागत को कम करने के लिए, संक्षेपित डेटा को डिस्क टेप में संग्रहीत करें। इसके अलावा, संग्रहित किए जाने वाले डेटा की मात्रा और इसके विस्तृत उपयोग के बीच व्यापार-बंद की आवश्यकता होती है। भंडारण लागत को कम करने के लिए डेटा की ग्रेन्युलैरिटी के स्तर पर व्यापार बंद।

सारांश:

  • ETLstands for Extract, Transform और Load।
  • ETL विभिन्न स्रोतों से डेटा को डेटा वेयरहाउस में ले जाने का एक तरीका प्रदान करता है।
  • पहले चरण के निष्कर्षण में, डेटा को स्रोत प्रणाली से मचान क्षेत्र में निकाला जाता है।
  • परिवर्तन कदम में, स्रोत से निकाले गए डेटा को साफ और बदल दिया जाता है।
  • डेटा को लक्ष्य डेटावेयर में लोड करना ईटीएल प्रक्रिया का अंतिम चरण है।