डेटा लेक क्या है? यह आर्किटेक्चर है

विषय - सूची:

Anonim

डेटा लेक क्या है?

डेटा लेक एक स्टोरेज रिपॉजिटरी है जो बड़ी मात्रा में स्ट्रक्चर्ड, सेमी-स्ट्रक्चर्ड और अनस्ट्रक्चर्ड डेटा को स्टोर कर सकती है। यह अपने मूल प्रारूप में हर प्रकार के डेटा को स्टोर करने के लिए एक जगह है जहां खाता आकार या फ़ाइल पर कोई निश्चित सीमा नहीं है। यह विश्लेषणात्मक प्रदर्शन और देशी एकीकरण को बढ़ाने के लिए उच्च डेटा मात्रा प्रदान करता है।

डेटा झील एक बड़े कंटेनर की तरह है जो वास्तविक झील और नदियों के समान है। जैसे एक झील में आपके पास कई सहायक नदियाँ आती हैं, एक डेटा झील में संरचित डेटा, असंरचित डेटा, मशीन से मशीन, लॉग वास्तविक समय में बहते हैं।

डेटा लेक डेटा को लोकतांत्रित करता है और बाद के प्रसंस्करण के लिए एक संगठन के सभी डेटा को स्टोर करने का एक लागत प्रभावी तरीका है। रिसर्च एनालिस्ट डेटा में अर्थ पैटर्न खोजने पर ध्यान केंद्रित कर सकते हैं न कि खुद डेटा।

एक पदानुक्रम डेटावेयर घर के विपरीत, जहाँ डेटा को फ़ाइलें और फ़ोल्डर में संग्रहीत किया जाता है, डेटा झील में एक सपाट वास्तुकला है। डेटा लेक के प्रत्येक डेटा तत्वों को एक विशिष्ट पहचानकर्ता दिया जाता है और मेटाडेटा जानकारी के एक सेट के साथ टैग किया जाता है।

इस ट्यूटोरियल में, आप सीखेंगे-

  • डेटा लेक क्या है?
  • डेटा लेक क्यों?
  • डेटा लेक आर्किटेक्चर
  • प्रमुख डेटा झील अवधारणाओं
  • डेटा लेक की परिपक्वता अवस्था
  • डेटा लेक कार्यान्वयन के लिए सर्वोत्तम अभ्यास:
  • डेटा झीलों और डेटा वेयरहाउस के बीच अंतर
  • डेटा झील का उपयोग करने के लाभ और जोखिम:

डेटा लेक क्यों?

डेटा झील बनाने का मुख्य उद्देश्य डेटा वैज्ञानिकों को डेटा के एक अपरिष्कृत दृश्य की पेशकश करना है।

डेटा झील का उपयोग करने के कारण हैं:

  • Hadoop की तरह भंडारण इंजन की शुरुआत के साथ असमान जानकारी संग्रहीत करना आसान हो गया है। डेटा लेक के साथ एंटरप्राइज-वाइड स्कीमा में डेटा को मॉडल करने की आवश्यकता नहीं है।
  • डेटा की मात्रा, डेटा गुणवत्ता और मेटाडेटा में वृद्धि के साथ, विश्लेषण की गुणवत्ता भी बढ़ जाती है।
  • डेटा लेक व्यापार में चपलता प्रदान करता है
  • लाभदायक पूर्वानुमान बनाने के लिए मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस का उपयोग किया जा सकता है।
  • यह कार्यान्वयन संगठन को एक प्रतिस्पर्धात्मक लाभ प्रदान करता है।
  • कोई डेटा साइलो संरचना नहीं है। डेटा लेक ग्राहकों को 360 डिग्री दृश्य देता है और विश्लेषण को अधिक मजबूत बनाता है।

डेटा लेक आर्किटेक्चर

आंकड़ा एक बिजनेस डेटा लेक की वास्तुकला को दर्शाता है। निचले स्तर डेटा का प्रतिनिधित्व करते हैं जो कि ज्यादातर आराम पर होता है जबकि ऊपरी स्तर वास्तविक समय के ट्रांजेक्शनल डेटा दिखाते हैं। यह डेटा सिस्टम के माध्यम से नहीं या थोड़ा विलंबता के साथ प्रवाह करता है। डेटा लेक आर्किटेक्चर में महत्वपूर्ण स्तर निम्नलिखित हैं:

  1. अंतर्ग्रहण टीयर : बाईं ओर के स्तर डेटा स्रोतों को दर्शाते हैं। डेटा को बल्क में या वास्तविक समय में डेटा लेक में लोड किया जा सकता है
  2. इनसाइट्स टीयर: दाईं ओर के टीयर उस शोध पक्ष का प्रतिनिधित्व करते हैं जहां सिस्टम से अंतर्दृष्टि का उपयोग किया जाता है। डेटा विश्लेषण के लिए SQL, NoSQL क्वेरी या एक्सेल का भी उपयोग किया जा सकता है।
  3. HDFS संरचित और असंरचित डेटा दोनों के लिए एक लागत प्रभावी समाधान है। यह सभी डेटा के लिए एक लैंडिंग ज़ोन है जो सिस्टम में बाकी है।
  4. आसवन टायर भंडारण टायर से डेटा लेता है और इसे आसान विश्लेषण के लिए संरचित डेटा में परिवर्तित करता है।
  5. आसान विश्लेषण के लिए संरचित डेटा उत्पन्न करने के लिए वास्तविक समय, इंटरैक्टिव, बैच के साथ प्रसंस्करण टियर विश्लेषणात्मक एल्गोरिदम और उपयोगकर्ता प्रश्नों को चलाता है।
  6. एकीकृत संचालन टियर सिस्टम प्रबंधन और निगरानी को नियंत्रित करता है। इसमें ऑडिटिंग और प्रवीणता प्रबंधन, डेटा प्रबंधन, वर्कफ़्लो प्रबंधन शामिल हैं।

प्रमुख डेटा झील अवधारणाओं

निम्नलिखित प्रमुख डेटा झील अवधारणाएं हैं जिन्हें किसी को डेटा लेक आर्किटेक्चर को पूरी तरह से समझने के लिए समझने की आवश्यकता है

डेटा अंतर्ग्रहण

डेटा अंतर्ग्रहण कनेक्टर्स को एक अलग डेटा स्रोतों से डेटा प्राप्त करने और डेटा झील में लोड करने की अनुमति देता है।

डेटा अंतर्ग्रहण का समर्थन करता है:

  • सभी प्रकार के संरचित, अर्ध-संरचित और असंरचित डेटा।
  • बैच, रियल-टाइम, वन-टाइम लोड जैसे कई अंतर्ग्रहण।
  • डेटाबेस, वेबसर्वर, ईमेल, IoT और FTP जैसे कई प्रकार के डेटा स्रोत।

आधार सामग्री भंडारण

डेटा भंडारण स्केलेबल होना चाहिए, लागत प्रभावी भंडारण प्रदान करता है और डेटा की खोज में तेजी से प्रवेश की अनुमति देता है। यह विभिन्न डेटा स्वरूपों का समर्थन करना चाहिए।

सामग्री संचालन

डेटा शासन एक संगठन में उपयोग किए जाने वाले डेटा की उपलब्धता, प्रयोज्य, सुरक्षा और अखंडता के प्रबंधन की एक प्रक्रिया है।

सुरक्षा

डेटा लेक की हर परत में सुरक्षा को लागू करने की आवश्यकता है। यह स्टोरेज, अनरथिंग और कंजम्पशन से शुरू होता है। मूल आवश्यकता अनधिकृत उपयोगकर्ताओं के लिए पहुँच को रोकना है। जीयूआई और डैशबोर्ड को नेविगेट करने में आसान डेटा के साथ विभिन्न उपकरणों का समर्थन करना चाहिए।

प्रमाणीकरण, लेखा, प्राधिकरण और डेटा संरक्षण डेटा झील सुरक्षा की कुछ महत्वपूर्ण विशेषताएं हैं।

आँकड़े की गुणवत्ता:

डेटा की गुणवत्ता डेटा लेक आर्किटेक्चर का एक अनिवार्य घटक है। डेटा का उपयोग सटीक व्यावसायिक मूल्य के लिए किया जाता है। खराब गुणवत्ता के डेटा से अंतर्दृष्टि निकालने से गुणवत्ता खराब हो जाएगी।

डेटा डिस्कवरी

डेटा डिस्कवरी डेटा या विश्लेषण शुरू करने से पहले एक और महत्वपूर्ण चरण है। इस चरण में, डेटा झील को सम्मिलित डेटा को व्यवस्थित और व्याख्या करके, डेटा समझ को व्यक्त करने के लिए टैगिंग तकनीक का उपयोग किया जाता है।

डेटा ऑडिटिंग

दो प्रमुख डेटा ऑडिटिंग कार्य मुख्य डेटासेट में परिवर्तन पर नज़र रख रहे हैं।

  1. महत्वपूर्ण डेटासेट तत्वों में परिवर्तन ट्रैकिंग
  2. कैप्चर करता है कि कैसे / कब / / और कौन इन तत्वों में बदलता है।

डेटा ऑडिटिंग जोखिम और अनुपालन का मूल्यांकन करने में मदद करता है।

डेटा वंश

यह घटक डेटा की उत्पत्ति से संबंधित है। यह मुख्य रूप से व्यवहार करता है कि यह समय के साथ कहां बढ़ता है और इसका क्या होता है। यह डेटा एनालिटिक्स प्रक्रिया में उत्पत्ति से गंतव्य तक त्रुटियों को कम करता है।

डेटा की खोज

यह डेटा विश्लेषण का प्रारंभिक चरण है। यह डेटा एक्सप्लोरेशन शुरू करने से पहले सही डेटासेट की पहचान करने में मदद करता है।

सभी दिए गए घटकों को डेटा लेक बिल्डिंग में एक महत्वपूर्ण भूमिका निभाने के लिए एक साथ काम करने की आवश्यकता है जो आसानी से विकसित होते हैं और पर्यावरण का पता लगाते हैं।

डेटा लेक की परिपक्वता अवस्था

डेटा लेक परिपक्वता चरणों की परिभाषा पाठ्यपुस्तक से दूसरे में भिन्न होती है। हालांकि क्रूक्स वही रहता है। परिपक्वता के बाद, मंच की परिभाषा आम आदमी के दृष्टिकोण से है।

स्टेज 1: पैमाने पर डेटा और निगलना

डेटा परिपक्वता का यह पहला चरण डेटा को बदलने और विश्लेषण करने की क्षमता में सुधार करता है। यहां, व्यापार मालिकों को अधिक डेटा प्राप्त करने और विश्लेषणात्मक अनुप्रयोगों के निर्माण के लिए अपने कौशल के अनुसार उपकरण खोजने की आवश्यकता है।

स्टेज 2: विश्लेषणात्मक मांसपेशियों का निर्माण

यह एक दूसरा चरण है जिसमें डेटा को बदलने और विश्लेषण करने की क्षमता में सुधार करना शामिल है। इस चरण में, कंपनियां उस टूल का उपयोग करती हैं जो उनके कौशल के लिए सबसे उपयुक्त है। वे अधिक डेटा प्राप्त करना शुरू करते हैं और अनुप्रयोगों का निर्माण करते हैं। यहां, एंटरप्राइज़ डेटा वेयरहाउस और डेटा लेक की क्षमताओं का एक साथ उपयोग किया जाता है।

स्टेज 3: ईडीडब्ल्यू और डेटा लेक एक साथ काम करते हैं

इस कदम में अधिक से अधिक लोगों के हाथों में डेटा और एनालिटिक्स प्राप्त करना शामिल है। इस चरण में, डेटा झील और उद्यम डेटा वेयरहाउस एक संघ में काम करना शुरू करते हैं। दोनों एनालिटिक्स में अपनी भूमिका निभा रहे हैं

चरण 4: झील में उद्यम क्षमता

डेटा लेक के इस परिपक्वता चरण में, डेटा लेक में एंटरप्राइज़ क्षमताओं को जोड़ा जाता है। सूचना शासन, सूचना जीवनचक्र प्रबंधन क्षमताओं और मेटाडेटा प्रबंधन को अपनाना। हालांकि, बहुत कम संगठन परिपक्वता के इस स्तर तक पहुंच सकते हैं, लेकिन भविष्य में यह वृद्धि बढ़ेगी।

डेटा लेक कार्यान्वयन के लिए सर्वोत्तम अभ्यास:

  • वास्तुशिल्प घटकों, उनकी बातचीत और पहचाने गए उत्पादों को मूल डेटा प्रकारों का समर्थन करना चाहिए
  • डेटा लेक का डिज़ाइन आवश्यक होने के बजाय जो उपलब्ध है उससे प्रेरित होना चाहिए। स्कीमा और डेटा की आवश्यकता को तब तक परिभाषित नहीं किया जाता है जब तक कि इसे नियंत्रित नहीं किया जाता है
  • डिज़ाइन को सेवा एपीआई के साथ एकीकृत डिस्पोजेबल घटकों द्वारा निर्देशित किया जाना चाहिए।
  • डेटा की खोज, अंतर्ग्रहण, भंडारण, प्रशासन, गुणवत्ता, परिवर्तन और विज़ुअलाइज़ेशन को स्वतंत्र रूप से प्रबंधित किया जाना चाहिए।
  • डेटा लेक आर्किटेक्चर को एक विशिष्ट उद्योग के अनुरूप होना चाहिए। यह सुनिश्चित करना चाहिए कि उस डोमेन के लिए आवश्यक क्षमताएं डिजाइन का एक अंतर्निहित हिस्सा हैं
  • नए खोजे गए डेटा स्रोतों में तेजी से बोर्डिंग महत्वपूर्ण है
  • डेटा लेक अधिकतम मूल्य निकालने के लिए अनुकूलित प्रबंधन में मदद करता है
  • डेटा लेक को मौजूदा उद्यम डेटा प्रबंधन तकनीकों और तरीकों का समर्थन करना चाहिए

डेटा लेक बनाने की चुनौतियाँ:

  • डाटा लेक में, डेटा की मात्रा अधिक होती है, इसलिए प्रक्रिया को प्रोग्रामेटिक प्रशासन पर अधिक निर्भर होना चाहिए
  • विरल, अपूर्ण, अस्थिर डेटा से निपटना मुश्किल है
  • डेटासेट और स्रोत के व्यापक दायरे के लिए बड़े डेटा प्रशासन और समर्थन की आवश्यकता होती है

डेटा झीलों और डेटा वेयरहाउस के बीच अंतर

मापदंडों डेटा झीलों डेटा वेयरहाउस
डेटा डेटा झीलों सब कुछ स्टोर। डेटा वेयरहाउस केवल व्यावसायिक प्रक्रियाओं पर केंद्रित है।
प्रसंस्करण डेटा मुख्य रूप से असंसाधित हैं अत्यधिक संसाधित डेटा।
डेटा का प्रकार यह अनस्ट्रक्चर्ड, सेमी-स्ट्रक्चर्ड और स्ट्रक्चर्ड हो सकता है। यह ज्यादातर सारणीबद्ध रूप और संरचना में है।
टास्क शेयर डेटा स्टीवर्डशिप डेटा पुनर्प्राप्ति के लिए अनुकूलित
चपलता अत्यधिक चुस्त, कॉन्फ़िगर करें और आवश्यकतानुसार पुन: कॉन्फ़िगर करें। डेटा लेक की तुलना में यह कम चुस्त है और इसमें निश्चित कॉन्फ़िगरेशन है।
उपयोगकर्ताओं डेटा लेक का इस्तेमाल ज्यादातर डेटा साइंटिस्ट करते हैं व्यवसाय पेशेवर व्यापक रूप से डेटा वेयरहाउस का उपयोग करते हैं
भंडारण डेटा कम लागत के भंडारण के लिए डिजाइन करता है। तेजी से प्रतिक्रिया समय देने वाले महंगे भंडारण का उपयोग किया जाता है
सुरक्षा कम नियंत्रण प्रदान करता है। डेटा के बेहतर नियंत्रण की अनुमति देता है।
EDW का प्रतिस्थापन डेटा झील EDW के लिए स्रोत हो सकती है EDW के लिए पूरक (प्रतिस्थापन नहीं)
योजना पढ़ने पर स्कीमा (कोई पूर्वनिर्धारित स्कीमा नहीं) स्कीमा ऑन राइट (पूर्वनिर्धारित स्कीमा)
डाटा प्रासेसिंग नए डेटा के तेजी से अंतर्ग्रहण के लिए मदद करता है। नई सामग्री को पेश करने में समय लगता है।
डाटा ग्रैन्युलैरिटी विस्तार या ग्रैन्युलैरिटी के निम्न स्तर पर डेटा। विस्तार के सारांश या कुल स्तर पर डेटा।
उपकरण Hadoop / Map Reduce जैसे ओपन सोर्स / टूल्स का उपयोग कर सकते हैं अधिकतर व्यावसायिक उपकरण।

डेटा झील का उपयोग करने के लाभ और जोखिम:

डेटा झील का उपयोग करने के कुछ प्रमुख लाभ इस प्रकार हैं:

  • उत्पाद आयनीकरण और उन्नत विश्लेषण के साथ पूरी तरह से मदद करता है
  • लागत प्रभावी मापनीयता और लचीलापन प्रदान करता है
  • असीमित डेटा प्रकारों से मूल्य प्रदान करता है
  • स्वामित्व की दीर्घकालिक लागत को कम करता है
  • फाइलों के आर्थिक भंडारण की अनुमति देता है
  • परिवर्तनों के लिए जल्दी अनुकूलनीय
  • डेटा झील का मुख्य लाभ विभिन्न सामग्री स्रोतों का केंद्रीकरण है
  • उपयोगकर्ताओं, विभिन्न विभागों से, दुनिया भर में बिखरे हुए हो सकते हैं डेटा के लिए लचीला उपयोग हो सकता है

डेटा झील का उपयोग करने का जोखिम:

  • कुछ समय बाद, डेटा झील प्रासंगिकता और गति खो सकती है
  • डेटा लेक को डिजाइन करते समय बड़ी मात्रा में जोखिम शामिल है
  • असंरचित डेटा से अनचाहे चाओ, असंगत डेटा, असमान और जटिल उपकरण, एंटरप्राइज़-वाइड सहयोग, एकीकृत, संगत और सामान्य हो सकते हैं
  • यह भंडारण को भी बढ़ाता है और लागत की गणना करता है
  • अन्य विश्लेषकों से जानकारी प्राप्त करने का कोई तरीका नहीं है, जिन्होंने डेटा के साथ काम किया है क्योंकि पिछले विश्लेषकों द्वारा निष्कर्षों के वंश का कोई हिसाब नहीं है
  • डेटा झीलों का सबसे बड़ा जोखिम सुरक्षा और अभिगम नियंत्रण है। कभी-कभी डेटा को बिना किसी निरीक्षण के झील में रखा जा सकता है, क्योंकि कुछ डेटा में गोपनीयता और नियामक आवश्यकता हो सकती है

सारांश:

  • डेटा लेक एक स्टोरेज रिपॉजिटरी है जो बड़ी मात्रा में स्ट्रक्चर्ड, सेमी-स्ट्रक्चर्ड और अनस्ट्रक्चर्ड डेटा को स्टोर कर सकती है।
  • डेटा झील बनाने का मुख्य उद्देश्य डेटा वैज्ञानिकों को डेटा के एक अपरिष्कृत दृश्य की पेशकश करना है।
  • यूनिफाइड ऑपरेशंस टियर, प्रोसेसिंग टियर, डिस्टिलेशन टियर और एचडीएफएस डेटा लेक आर्किटेक्चर की महत्वपूर्ण परतें हैं
  • डेटा अंतर्ग्रहण, डेटा संग्रहण, डेटा गुणवत्ता, डेटा ऑडिटिंग, डेटा अन्वेषण, डेटा खोज डेटा लेक आर्किटेक्चर के कुछ महत्वपूर्ण घटक हैं
  • डेटा लेक का डिज़ाइन आवश्यक होने के बजाय जो उपलब्ध है उससे प्रेरित होना चाहिए।
  • डेटा झील स्वामित्व की दीर्घकालिक लागत को कम करती है और फाइलों के आर्थिक भंडारण की अनुमति देती है
  • डेटा झीलों का सबसे बड़ा जोखिम सुरक्षा और अभिगम नियंत्रण है। कभी-कभी डेटा को बिना किसी निरीक्षण के झील में रखा जा सकता है, क्योंकि कुछ डेटा में गोपनीयता और नियामक आवश्यकता हो सकती है।