बिग डेटा टेस्टिंग ट्यूटोरियल: क्या है, रणनीति, हडोप का परीक्षण कैसे करें

विषय - सूची:

Anonim

बिग डेटा परीक्षण

बिग डेटा परीक्षण एक बड़े डेटा अनुप्रयोग की एक परीक्षण प्रक्रिया है, ताकि यह सुनिश्चित किया जा सके कि एक बड़े डेटा अनुप्रयोग की सभी कार्यक्षमताएँ अपेक्षा के अनुरूप काम करती हैं। बड़े डेटा परीक्षण का लक्ष्य यह सुनिश्चित करना है कि प्रदर्शन और सुरक्षा को बनाए रखते हुए बड़ी डेटा प्रणाली सुचारू रूप से और त्रुटि मुक्त हो।

बिग डेटा बड़े डेटासेट का एक संग्रह है जिसे पारंपरिक कंप्यूटिंग तकनीकों का उपयोग करके संसाधित नहीं किया जा सकता है। इन डेटासेटों के परीक्षण में प्रक्रिया करने के लिए विभिन्न उपकरण, तकनीक और रूपरेखा शामिल हैं। बड़ा डेटा डेटा निर्माण, भंडारण, पुनर्प्राप्ति और विश्लेषण से संबंधित है जो वॉल्यूम, विविधता और वेग के संदर्भ में उल्लेखनीय है। आप यहां बिग डेटा, हडोप और मैपरेड के बारे में अधिक जान सकते हैं

इस बिग डाटा टेस्टिंग ट्यूटोरियल में, आप सीखेंगे-

  • बिग डेटा परीक्षण रणनीति क्या है?
  • Hadoop Applications कैसे टेस्ट करें
  • वास्तुकला परीक्षण
  • प्रदर्शन का परीक्षण
  • प्रदर्शन परीक्षण दृष्टिकोण
  • प्रदर्शन परीक्षण के लिए पैरामीटर
  • टेस्ट एनवायरनमेंट नीड्स
  • बड़ा डेटा परीक्षण बनाम। पारंपरिक डेटाबेस परीक्षण
  • बिग डेटा परिदृश्य में प्रयुक्त उपकरण
  • बिग डाटा टेस्टिंग में चुनौतियां

बिग डेटा परीक्षण रणनीति क्या है?

बिग डेटा एप्लिकेशन का परीक्षण सॉफ़्टवेयर उत्पाद की व्यक्तिगत विशेषताओं का परीक्षण करने के बजाय इसकी डेटा प्रोसेसिंग का अधिक सत्यापन है। जब बिग डेटा परीक्षण की बात आती है, तो प्रदर्शन और कार्यात्मक परीक्षण कुंजी हैं।

बिग डेटा परीक्षण रणनीति में, क्यूए इंजीनियर कमोडिटी क्लस्टर और अन्य सहायक घटकों का उपयोग करके डेटा के टेराबाइट्स के सफल प्रसंस्करण को सत्यापित करते हैं। यह उच्च स्तर के परीक्षण कौशल की मांग करता है क्योंकि प्रसंस्करण बहुत तेज है। प्रोसेसिंग तीन प्रकार की हो सकती है

इसके साथ ही, Hadoop टेस्टिंग में डेटा की गुणवत्ता भी एक महत्वपूर्ण कारक है। एप्लिकेशन का परीक्षण करने से पहले, डेटा की गुणवत्ता की जांच करना आवश्यक है और इसे डेटाबेस परीक्षण के एक भाग के रूप में माना जाना चाहिए। इसमें विभिन्न विशेषताओं जैसे अनुरूपता, सटीकता, दोहराव, स्थिरता, वैधता, डेटा पूर्णता आदि की जांच करना शामिल है। इस Hadoop टेस्टिंग ट्यूटोरियल में, हम सीखेंगे कि Hadoop एप्लिकेशन का परीक्षण कैसे करें।

Hadoop Applications कैसे टेस्ट करें

निम्नलिखित आंकड़ा बिग डेटा अनुप्रयोगों के परीक्षण में चरणों का एक उच्च-स्तरीय अवलोकन देता है

बिग डेटा टेस्टिंग या हडोप टेस्टिंग को मोटे तौर पर तीन चरणों में विभाजित किया जा सकता है

चरण 1: डेटा स्टेजिंग वैलिडेशन

इस बड़े डेटा परीक्षण ट्यूटोरियल में पहले चरण को पूर्व-हडोप चरण के रूप में संदर्भित किया जाता है, जिसमें प्रक्रिया सत्यापन शामिल है।

  • RDBMS, वेबलॉग, सोशल मीडिया आदि जैसे विभिन्न स्रोतों से डेटा को यह सुनिश्चित करने के लिए मान्य किया जाना चाहिए कि सही डेटा सिस्टम में खींच लिया गया है
  • Hadoop प्रणाली में धकेल दिए गए डेटा के साथ स्रोत डेटा की तुलना करना सुनिश्चित करें कि वे मेल खाते हैं
  • सत्यापित करें कि सही डेटा निकाला गया है और सही HDFS स्थान में लोड किया गया है

डेटा स्टेजिंग वैलिडेशन के लिए टैलेंड , डेटामेकर जैसे टूल का इस्तेमाल किया जा सकता है

चरण 2: "MapReduce" सत्यापन

दूसरा चरण "MapReduce" का सत्यापन है। इस चरण में, बिग डेटा परीक्षक प्रत्येक नोड पर व्यावसायिक तर्क सत्यापन को सत्यापित करता है और फिर यह सुनिश्चित करता है कि कई नोड्स के खिलाफ चलने के बाद,

  • मैप कम करने की प्रक्रिया सही ढंग से काम करती है
  • डेटा एकत्रीकरण या अलगाव नियम डेटा पर लागू होते हैं
  • मुख्य मूल्य जोड़े उत्पन्न होते हैं
  • मैप-रिड्यूस प्रक्रिया के बाद डेटा को मान्य करना

चरण 3: आउटपुट सत्यापन चरण

Hadoop परीक्षण का अंतिम या तीसरा चरण आउटपुट सत्यापन प्रक्रिया है। आउटपुट डेटा फाइलें उत्पन्न होती हैं और उन्हें EDW (एंटरप्राइज डेटा वेयरहाउस) या आवश्यकता के आधार पर किसी भी अन्य सिस्टम में ले जाने के लिए तैयार किया जाता है।

तीसरे चरण में गतिविधियों में शामिल हैं

  • परिवर्तन की जाँच करने के लिए नियमों को सही तरीके से लागू किया गया है
  • लक्ष्य प्रणाली में डेटा अखंडता और सफल डेटा लोड की जांच करने के लिए
  • यह जांचने के लिए कि एचडीएफएस फाइल सिस्टम डेटा के साथ लक्ष्य डेटा की तुलना करके कोई डेटा भ्रष्टाचार नहीं है

वास्तुकला परीक्षण

Hadoop डेटा की बहुत बड़ी मात्रा को संसाधित करता है और अत्यधिक संसाधन गहन है। इसलिए, आपके बिग डेटा प्रोजेक्ट की सफलता सुनिश्चित करने के लिए वास्तु परीक्षण महत्वपूर्ण है। खराब या अनुचित तरीके से डिजाइन की गई प्रणाली प्रदर्शन में गिरावट ला सकती है, और सिस्टम आवश्यकता को पूरा करने में विफल हो सकता है। कम से कम, प्रदर्शन और विफलता परीक्षण सेवाओं को एक Hadoop वातावरण में किया जाना चाहिए।

प्रदर्शन परीक्षण में नौकरी पूरा करने का समय, स्मृति उपयोग, डेटा थ्रूपुट और इसी तरह की प्रणाली मैट्रिक्स का परीक्षण शामिल है। जबकि फ़ेलओवर परीक्षण सेवा का उद्देश्य यह सत्यापित करना है कि डेटा नोड्स की विफलता के मामले में डेटा प्रोसेसिंग मूल रूप से होता है

प्रदर्शन का परीक्षण

बिग डेटा के लिए प्रदर्शन परीक्षण में दो मुख्य कार्रवाई शामिल हैं

  • डेटा अंतर्ग्रहण और पूरे : इस चरण में, बिग डेटा परीक्षक सत्यापित करता है कि कैसे तेजी से सिस्टम विभिन्न डेटा स्रोत से डेटा का उपभोग कर सकता है। परीक्षण में एक अलग संदेश की पहचान करना शामिल है जो कतार एक निश्चित समय सीमा में प्रक्रिया कर सकती है। इसमें यह भी शामिल है कि कैसे मंगाओ और कैसंड्रा डेटाबेस में इंसर्शन रेट के लिए डेटा को अंतर्निहित डेटा स्टोर में कितनी जल्दी डाला जा सकता है।
  • डेटा प्रोसेसिंग : इसमें उस गति को सत्यापित करना शामिल है जिसके साथ प्रश्नों या मानचित्र को कम करने वाली नौकरियों को निष्पादित किया जाता है। इसमें डेटा प्रोसेसिंग का परीक्षण भी शामिल है जब डेटा सेट के भीतर अंतर्निहित डेटा स्टोर पॉप्युलेट होता है। उदाहरण के लिए, अंतर्निहित HDFS पर मैप कम करना नौकरियों को चलाना
  • उप-घटक प्रदर्शन : ये सिस्टम कई घटकों से बने होते हैं, और इन घटकों में से प्रत्येक का अलगाव में परीक्षण करना आवश्यक होता है। उदाहरण के लिए, संदेश कितनी जल्दी अनुक्रमित और भस्म हो जाता है, MapReduce jobs, query performance, search, आदि।

प्रदर्शन परीक्षण दृष्टिकोण

बड़े डेटा एप्लिकेशन के लिए प्रदर्शन परीक्षण में संरचित और असंरचित डेटा के विशाल संस्करणों का परीक्षण शामिल है, और इस तरह के बड़े डेटा का परीक्षण करने के लिए एक विशिष्ट परीक्षण दृष्टिकोण की आवश्यकता होती है।

इस क्रम में निष्पादन परीक्षण निष्पादित किया जाता है

  1. प्रक्रिया बिग डेटा क्लस्टर की सेटिंग से शुरू होती है जिसे प्रदर्शन के लिए परीक्षण किया जाना है
  2. इसी वर्कलोड को पहचानें और डिज़ाइन करें
  3. व्यक्तिगत ग्राहक तैयार करें (कस्टम लिपियों का निर्माण किया जाता है)
  4. परीक्षण निष्पादित करें और परिणाम का विश्लेषण करें (यदि उद्देश्य पूरा नहीं हुआ है तो घटक को ट्यून करें और फिर से निष्पादित करें)
  5. इष्टतम कॉन्फ़िगरेशन

प्रदर्शन परीक्षण के लिए पैरामीटर

प्रदर्शन परीक्षण के लिए सत्यापित किए जाने वाले विभिन्न पैरामीटर हैं

  • डेटा स्टोरेज: डेटा को विभिन्न नोड्स में कैसे संग्रहीत किया जाता है
  • प्रतिबद्ध लॉग: बड़े लॉग को बढ़ने की अनुमति कितनी है
  • Concurrency: लिखने और पढ़ने के लिए कितने सूत्र कार्य कर सकते हैं
  • कैशिंग: कैश को "पंक्ति कैश" और "कुंजी कैश" सेट करें।
  • टाइमआउट: कनेक्शन टाइमआउट, क्वेरी टाइमआउट, आदि के लिए मान
  • जेवीएम पैरामीटर: ढेर का आकार, जीसी संग्रह एल्गोरिदम, आदि।
  • नक्शा प्रदर्शन कम करें: शॉर्ट्स, मर्ज, आदि।
  • संदेश की कतार: संदेश की दर, आकार, आदि।

टेस्ट एनवायरनमेंट नीड्स

परीक्षण पर्यावरण को आपके द्वारा परीक्षण किए जा रहे अनुप्रयोग के प्रकार पर निर्भर होना चाहिए। बिग डेटा सॉफ़्टवेयर परीक्षण के लिए, परीक्षण वातावरण को शामिल करना चाहिए

  • इसमें भंडारण के लिए पर्याप्त स्थान होना चाहिए और बड़ी मात्रा में डेटा को संसाधित करना चाहिए
  • इसमें वितरित नोड्स और डेटा के साथ एक क्लस्टर होना चाहिए
  • बिग डेटा प्रदर्शन का परीक्षण करने के लिए प्रदर्शन को उच्च रखने के लिए इसमें न्यूनतम CPU और मेमोरी का उपयोग होना चाहिए

बड़ा डेटा परीक्षण बनाम। पारंपरिक डेटाबेस परीक्षण

गुण

पारंपरिक डेटाबेस परीक्षण

बड़ा डेटा परीक्षण

डेटा

  • परीक्षक संरचित डेटा के साथ काम करते हैं
  • परीक्षक संरचित और साथ ही असंरचित डेटा दोनों के साथ काम करता है

परीक्षण दृष्टिकोण

  • परीक्षण दृष्टिकोण अच्छी तरह से परिभाषित और समय-परीक्षण किया गया है
  • परीक्षण दृष्टिकोण को केंद्रित अनुसंधान एवं विकास प्रयासों की आवश्यकता है

परीक्षण की रणनीति

  • Tester के पास ऑटोमैटिक टूल द्वारा "सैम्पलिंग" रणनीति को मैन्युअल रूप से या "एग्जॉस्ट वेरिफिकेशन" रणनीति का विकल्प है
  • बिग डेटा में "नमूनाकरण" रणनीति एक चुनौती है

भूमिकारूप व्यवस्था

  • यह एक विशेष परीक्षण वातावरण की आवश्यकता नहीं है क्योंकि फ़ाइल का आकार सीमित है
  • बड़े डेटा आकार और फ़ाइलों (HDFS) के कारण इसे एक विशेष परीक्षण वातावरण की आवश्यकता होती है

सत्यापन उपकरण

परीक्षक एक्सेल-आधारित मैक्रोज़ या यूआई आधारित स्वचालन उपकरण का उपयोग करता है

कोई परिभाषित उपकरण नहीं, रेंज प्रोग्रामिंग टूल्स जैसे MapReduce से HIVEQL तक विशाल है

परीक्षण उपकरण

परीक्षण उपकरण का उपयोग बुनियादी ऑपरेटिंग ज्ञान और कम प्रशिक्षण के साथ किया जा सकता है।

परीक्षण उपकरण को संचालित करने के लिए कौशल और प्रशिक्षण के एक विशिष्ट सेट की आवश्यकता होती है। इसके अलावा, उपकरण अपने नवजात चरण में हैं और समय के साथ यह नई सुविधाओं के साथ आ सकता है।

बिग डेटा परिदृश्य में प्रयुक्त उपकरण

बिग डेटा क्लस्टर

बिग डेटा टूल्स

NoSQL:

  • CouchDB, डेटाबेस MongoDB, Cassandra, Redis, ZooKeeper, HBase

मानचित्र छोटा करना:

  • Hadoop, Hive, Pig, Cascading, Oozie, Kafka, S4, MapR, Flume

भंडारण:

  • S3, HDFS (Hadoop वितरित फ़ाइल सिस्टम)

सर्वर:

  • इलास्टिक, हरोकू, इलास्टिक, गूगल ऐप इंजन, EC2

प्रसंस्करण

  • आर, याहू! पाइप्स, मैकेनिकल तुर्क, बिगशीट्स, डेटामेयर

बिग डाटा टेस्टिंग में चुनौतियां

  • स्वचालन

    बिग डेटा के लिए स्वचालन परीक्षण के लिए तकनीकी विशेषज्ञता वाले किसी व्यक्ति की आवश्यकता होती है। साथ ही, परीक्षण के दौरान उत्पन्न होने वाली अप्रत्याशित समस्याओं से निपटने के लिए स्वचालित उपकरण सुसज्जित नहीं हैं

  • वर्चुअलाइजेशन

    यह परीक्षण के अभिन्न चरणों में से एक है। वर्चुअल मशीन विलंबता वास्तविक समय बड़े डेटा प्रदर्शन परीक्षण में समय की समस्याएं पैदा करती है। बिग डेटा में छवियों का प्रबंधन भी एक परेशानी है।

  • बड़ा डेटासेट
    • अधिक डेटा को सत्यापित करने और इसे तेज़ी से करने की आवश्यकता है
    • परीक्षण प्रयास को स्वचालित करने की आवश्यकता है
    • विभिन्न प्लेटफ़ॉर्म पर परीक्षण करने में सक्षम होने की आवश्यकता है

प्रदर्शन परीक्षण चुनौतियां

  • प्रौद्योगिकियों का विविध सेट : प्रत्येक उप-घटक अलग-अलग प्रौद्योगिकी से संबंधित है और अलगाव में परीक्षण की आवश्यकता होती है
  • विशिष्ट उपकरणों की अनुपलब्धता : कोई भी उपकरण अंतिम-से-अंत परीक्षण नहीं कर सकता है। उदाहरण के लिए, NoSQL संदेश कतारों के लिए फिट नहीं हो सकता है
  • टेस्ट स्क्रिप्टिंग : टेस्ट परिदृश्यों और परीक्षण मामलों को डिजाइन करने के लिए एक उच्च स्तर की स्क्रिप्टिंग की आवश्यकता होती है
  • परीक्षण वातावरण : बड़े डेटा आकार के कारण इसे एक विशेष परीक्षण वातावरण की आवश्यकता होती है
  • निगरानी समाधान : सीमित समाधान मौजूद हैं जो पूरे वातावरण की निगरानी कर सकते हैं
  • डायग्नोस्टिक समाधान : प्रदर्शन अड़चन क्षेत्रों को कम करने के लिए विकसित करने के लिए एक कस्टम समाधान की आवश्यकता होती है

सारांश

  • चूंकि डेटा इंजीनियरिंग और डेटा एनालिटिक्स अगले स्तर तक आगे बढ़ते हैं, बिग डेटा परीक्षण अपरिहार्य है।
  • बड़ा डेटा प्रोसेसिंग बैच, रियल-टाइम या इंटरएक्टिव हो सकता है
  • बिग डेटा अनुप्रयोगों के परीक्षण के 3 चरण हैं
    • डेटा स्टेजिंग सत्यापन
    • "MapReduce" सत्यापन
    • आउटपुट सत्यापन चरण
  • आर्किटेक्चर टेस्टिंग बिग डेटा परीक्षण का महत्वपूर्ण चरण है, क्योंकि खराब तरीके से डिज़ाइन की गई प्रणाली से अभूतपूर्व त्रुटियां और प्रदर्शन का ह्रास हो सकता है
  • बिग डेटा के लिए प्रदर्शन परीक्षण में सत्यापन शामिल है
    • डेटा थ्रूपुट
    • डाटा प्रासेसिंग
    • उप-घटक प्रदर्शन
  • बिग डेटा परीक्षण डेटा, इन्फ्रास्ट्रक्चर और मान्यता उपकरण के संदर्भ में पारंपरिक डेटा परीक्षण से बहुत अलग है
  • बिग डेटा टेस्टिंग चुनौतियों में वर्चुअलाइजेशन, टेस्ट ऑटोमेशन और बड़े डेटासेट के साथ काम करना शामिल है। बिग डेटा अनुप्रयोगों का प्रदर्शन परीक्षण भी एक मुद्दा है।