Hadoop क्या है? परिचय, वास्तुकला, पारिस्थितिकी तंत्र, घटक

Hadoop क्या है?

Apache Hadoop एक ओपन सोर्स सॉफ्टवेयर फ्रेमवर्क है, जिसका उपयोग डेटा प्रोसेसिंग एप्लिकेशन को विकसित करने के लिए किया जाता है, जो एक वितरित कंप्यूटिंग वातावरण में निष्पादित होते हैं।

HADOOP का उपयोग कर बनाए गए एप्लिकेशन कमोडिटी कंप्यूटर के समूहों में वितरित बड़े डेटा सेट पर चलाए जाते हैं। कमोडिटी कंप्यूटर सस्ते और व्यापक रूप से उपलब्ध हैं। कम लागत पर अधिक कम्प्यूटेशनल शक्ति प्राप्त करने के लिए ये मुख्य रूप से उपयोगी हैं।

एक पर्सनल कंप्यूटर सिस्टम के स्थानीय फाइल सिस्टम में रहने वाले डेटा के समान, Hadoop में, डेटा एक वितरित फाइल सिस्टम में रहता है जिसे Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम कहा जाता है । प्रोसेसिंग मॉडल 'डेटा लोकलिटी' अवधारणा पर आधारित है जिसमें कम्प्यूटेशनल लॉजिक को क्लस्टर नोड्स (सर्वर) में भेजा जाता है जिसमें डेटा होता है। यह कम्प्यूटेशनल तर्क कुछ भी नहीं है, लेकिन एक उच्च-स्तरीय भाषा में लिखे गए प्रोग्राम का संकलित संस्करण है जैसे कि जावा। इस तरह के एक कार्यक्रम, Hadoop HDFS में संग्रहीत डेटा को संसाधित करता है।

जानती हो? कंप्यूटर क्लस्टर में कई प्रोसेसिंग यूनिट (स्टोरेज डिस्क + प्रोसेसर) का एक सेट होता है जो एक दूसरे से जुड़े होते हैं और एकल सिस्टम के रूप में कार्य करते हैं।

इस ट्यूटोरियल में आप सीखेंगे,

Hadoop EcoSystem और Components
Hadoop Architecture
'Hadoop' की विशेषताएं
Hadoop में नेटवर्क टोपोलॉजी

Hadoop EcoSystem और Components

नीचे चित्र Hadoop पारिस्थितिकी तंत्र में विभिन्न घटकों को दर्शाता है-

Apache Hadoop में दो उप-परियोजनाएँ शामिल हैं -

Hadoop MapReduce: MapReduce एक कम्प्यूटेशनल मॉडल और सॉफ्टवेयर फ्रेमवर्क है जो एप्लिकेशन लिखने के लिए है जो Hadoop पर चलाए जाते हैं। ये MapReduce प्रोग्राम गणना नोड्स के बड़े समूहों पर समानांतर में विशाल डेटा को संसाधित करने में सक्षम हैं।
HDFS ( Hadoop वितरित फ़ाइल सिस्टम ): HDFS Hadoop अनुप्रयोगों के भंडारण भाग का ख्याल रखता है। MapReduce एप्लिकेशन HDFS से डेटा की खपत करते हैं। HDFS डेटा ब्लॉक की कई प्रतिकृतियां बनाता है और उन्हें एक क्लस्टर में कंप्यूट नोड्स पर वितरित करता है। यह वितरण विश्वसनीय और बहुत तेजी से गणना करने में सक्षम बनाता है।

हालाँकि Hadoop को MapReduce और उसके वितरित फ़ाइल सिस्टम- HDFS के लिए सबसे अच्छी तरह से जाना जाता है, इस शब्द का उपयोग संबंधित परियोजनाओं के परिवार के लिए भी किया जाता है जो वितरित कंप्यूटिंग और बड़े पैमाने पर डेटा प्रसंस्करण की छतरी के नीचे आते हैं। अपाचे की अन्य हडोप -संबंधी परियोजनाओं में हाइव, एचबीएस, महौत, सकोप, फ्लूम और ज़ूकीपर शामिल हैं ।

Hadoop Architecture

Hadoop में डाटा स्टोरेज के लिए मास्टर-स्लेव आर्किटेक्चर है और MapReduce और HDFS विधियों का उपयोग करके डेटा प्रोसेसिंग वितरित की गई है।

NameNode:

NameNode प्रत्येक फ़ाइलों और निर्देशिका का प्रतिनिधित्व करता है जो नाम स्थान में उपयोग की जाती है

DataNode:

DataNode आपको HDFS नोड की स्थिति का प्रबंधन करने में मदद करता है और आपको ब्लॉक के साथ सहभागिता करने की अनुमति देता है

मास्टरकोड:

मास्टर नोड आपको Hadoop MapReduce का उपयोग करके डेटा के समानांतर प्रसंस्करण का संचालन करने की अनुमति देता है।

दास नोड:

दास नोड्स Hadoop क्लस्टर में अतिरिक्त मशीनें हैं जो आपको जटिल गणना करने के लिए डेटा संग्रहीत करने की अनुमति देती हैं। इसके अलावा, सभी दास नोड टास्क ट्रैकर और एक डेटानेट के साथ आते हैं। यह आपको क्रमशः NameNode और Job Tracker के साथ प्रक्रियाओं को सिंक्रनाइज़ करने की अनुमति देता है।

Hadoop में, मास्टर या स्लेव सिस्टम को क्लाउड या ऑन-प्रिमाइसेस में सेट किया जा सकता है

'Hadoop' की विशेषताएं

• बिग डेटा विश्लेषण के लिए उपयुक्त

जैसा कि बिग डेटा वितरित और प्रकृति में असंरचित है, HADOOP क्लस्टर बिग डेटा के विश्लेषण के लिए सबसे उपयुक्त हैं। चूंकि यह प्रोसेसिंग लॉजिक है (वास्तविक डेटा नहीं) जो कंप्यूटिंग नोड्स में प्रवाहित होता है, कम नेटवर्क बैंडविड्थ की खपत होती है। इस अवधारणा को डेटा स्थानीयता अवधारणा कहा जाता है जो Hadoop आधारित अनुप्रयोगों की दक्षता बढ़ाने में मदद करता है।

• स्केलेबिलिटी

HADOOP क्लस्टर आसानी से अतिरिक्त क्लस्टर नोड्स जोड़कर किसी भी हद तक बढ़ाया जा सकता है और इस प्रकार बिग डेटा की वृद्धि के लिए अनुमति देता है। इसके अलावा, स्केलिंग के लिए आवेदन तर्क में संशोधन की आवश्यकता नहीं होती है।

• दोष सहिष्णुता

HADOOP पारिस्थितिकी तंत्र में अन्य क्लस्टर नोड्स पर इनपुट डेटा को दोहराने का प्रावधान है। इस तरह, क्लस्टर नोड विफलता की स्थिति में, डेटा प्रोसेसिंग किसी अन्य क्लस्टर नोड पर संग्रहीत डेटा का उपयोग करके अभी भी आगे बढ़ सकता है।

Hadoop में नेटवर्क टोपोलॉजी

नेटवर्क का टोपोलॉजी (अर्रान्यूलेशन), Hadoop क्लस्टर के आकार को बढ़ने पर Hadoop क्लस्टर के प्रदर्शन को प्रभावित करता है। प्रदर्शन के अलावा, किसी को उच्च उपलब्धता और असफलताओं से निपटने के बारे में भी ध्यान रखना होगा। इस Hadoop को प्राप्त करने के लिए, क्लस्टर गठन नेटवर्क टोपोलॉजी का उपयोग करता है।

आमतौर पर, किसी भी नेटवर्क को बनाते समय नेटवर्क बैंडविड्थ एक महत्वपूर्ण कारक है। हालांकि, जैसा कि बैंडविड्थ को मापना मुश्किल हो सकता है, Hadoop में, एक नेटवर्क को एक पेड़ के रूप में दर्शाया जाता है और इस पेड़ के नोड्स (हॉप्स की संख्या) के बीच की दूरी को Hadoop क्लस्टर के निर्माण में एक महत्वपूर्ण कारक माना जाता है। यहां, दो नोड्स के बीच की दूरी उनके निकटतम सामान्य पूर्वज से उनकी दूरी के योग के बराबर है।

Hadoop क्लस्टर में डेटा सेंटर, रैक और नोड होते हैं जो वास्तव में नौकरियों को निष्पादित करते हैं। यहां, डेटा सेंटर में रैक होते हैं और रैक में नोड होते हैं। प्रक्रियाओं के लिए उपलब्ध नेटवर्क बैंडविड्थ प्रक्रियाओं के स्थान पर निर्भर करता है। अर्थात, उपलब्ध बैंडविड्थ कम हो जाता है क्योंकि हम दूर जाते हैं-