इससे पहले कि हम बिग डेटा का परिचय दें, आपको पहले पता होना चाहिए
डेटा क्या है?
मात्राएं, वर्ण, या प्रतीक जिस पर संचालन एक कंप्यूटर द्वारा किया जाता है, जिसे विद्युत संकेतों के रूप में संग्रहीत और प्रेषित किया जा सकता है और चुंबकीय, ऑप्टिकल या मैकेनिकल रिकॉर्डिंग मीडिया पर रिकॉर्ड किया जा सकता है।
अब, बिग डेटा परिचय जानें
बिग डेटा क्या है?
बिग डेटा , डेटा का एक संग्रह है जो वॉल्यूम में बहुत बड़ा है, फिर भी समय के साथ तेजी से बढ़ रहा है। यह इतने बड़े आकार और जटिलता वाला डेटा है कि कोई भी पारंपरिक डेटा प्रबंधन उपकरण इसे संग्रहीत नहीं कर सकता है या इसे कुशलतापूर्वक संसाधित नहीं कर सकता है। बिग डेटा भी एक डेटा है लेकिन विशाल आकार के साथ।
इस ट्यूटोरियल में आप सीखेंगे,
- डेटा क्या है?
- बिग डेटा क्या है?
- बिग डेटा के उदाहरण
- बिग डेटा के प्रकार
- बिग डेटा के लक्षण
- बिग डाटा प्रोसेसिंग के लाभ
बिग डेटा के उदाहरण
बिग डेटा के कुछ उदाहरण निम्नलिखित हैं-
न्यूयॉर्क स्टॉक एक्सचेंज के बारे में उत्पन्न करता है एक टेराबाइट प्रति दिन नए व्यापार डेटा की।
सामाजिक मीडिया
आंकड़े बताते हैं कि 500 + टेराबाइट्स नए डेटा सोशल मीडिया साइट फेसबुक के डेटाबेस में हर दिन आते हैं। यह डेटा मुख्य रूप से फोटो और वीडियो अपलोड, मैसेज एक्सचेंज, कमेंट डालने आदि के संदर्भ में उत्पन्न होता है।
एक सिंगल जेट इंजन 30 मिनट की उड़ान के समय में 10 + टेराबाइट डेटा उत्पन्न कर सकता है। प्रति दिन कई हजार उड़ानों के साथ, डेटा की पीढ़ी कई पेटाबाइट्स तक पहुंचती है ।
बिग डेटा के प्रकार
बिग डेटा के प्रकार निम्नलिखित हैं:
- स्ट्रक्चर्ड
- असंरचित
- अर्द्ध संरचित
स्ट्रक्चर्ड
किसी भी डेटा को निश्चित प्रारूप के रूप में संग्रहीत, एक्सेस और संसाधित किया जा सकता है, जिसे 'संरचित' डेटा कहा जाता है। समय के साथ, कंप्यूटर विज्ञान में प्रतिभा ने इस तरह के डेटा (जहां प्रारूप पहले से अच्छी तरह से जाना जाता है) के साथ काम करने के लिए तकनीक विकसित करने में अधिक से अधिक सफलता हासिल की है और इसके बाहर मूल्य भी प्राप्त कर रहा है। हालांकि, आजकल, हम ऐसे मुद्दों का पूर्वाभास कर रहे हैं, जब इस तरह के डेटा का आकार काफी हद तक बढ़ता है, कई ज़ेटाबाइट्स के क्रोध में विशिष्ट आकार हो रहे हैं।
जानती हो? 10 21 बाइट्स 1 zettabyte के बराबर या एक बिलियन टेराबाइट्स zettabyte बनाता है ।
इन आंकड़ों को देखकर कोई भी आसानी से समझ सकता है कि बिग डेटा नाम क्यों दिया गया है और इसके भंडारण और प्रसंस्करण में शामिल चुनौतियों की कल्पना करें।
जानती हो? संबंधपरक डेटाबेस प्रबंधन प्रणाली में संग्रहीत डेटा 'संरचित' डेटा का एक उदाहरण है ।
संरचित डेटा के उदाहरण
डेटाबेस में एक 'कर्मचारी' तालिका संरचित डेटा का एक उदाहरण है
कर्मचारी आयडी | कर्मचारी का नाम | लिंग | विभाग | सैलरी_इन_लैक्स |
---|---|---|---|---|
2365 | राजेश कुलकर्णी | पुरुष | वित्त | 650000 |
3398 | प्रतिभा जोशी | महिला | व्यवस्थापक | 650000 |
7465 | शुशील रॉय | पुरुष | व्यवस्थापक | 500000 |
7500 | शुभजीत दास | पुरुष | वित्त | 500000 |
7699 है | प्रिया साने | महिला | वित्त | 550000 |
असंरचित
अज्ञात रूप या संरचना वाले किसी भी डेटा को असंरचित डेटा के रूप में वर्गीकृत किया गया है। आकार बड़ा होने के अलावा, अन-स्ट्रक्चर्ड डेटा इसके बाहर प्राप्त मूल्य प्राप्त करने के लिए इसके प्रसंस्करण के संदर्भ में कई चुनौतियां पैदा करता है। असंरचित डेटा का एक विशिष्ट उदाहरण एक विषम डेटा स्रोत है जिसमें सरल पाठ फ़ाइलों, छवियों, वीडियो आदि का एक संयोजन होता है। अब दिन संगठनों के पास उनके साथ उपलब्ध डेटा का खजाना है, लेकिन दुर्भाग्य से, वे नहीं जानते कि इसके बाद से मूल्य कैसे प्राप्त करें। यह डेटा अपने कच्चे रूप या असंरचित प्रारूप में है।
अन-संरचित डेटा के उदाहरण
'Google खोज' द्वारा लौटाया गया आउटपुट
अर्द्ध संरचित
अर्ध-संरचित डेटा में डेटा के दोनों रूप हो सकते हैं। हम सेमी-स्ट्रक्चर्ड डेटा को संरचित के रूप में देख सकते हैं लेकिन यह वास्तव में उदाहरण के लिए रिलेशनल DBMS में एक टेबल परिभाषा के साथ परिभाषित नहीं है। सेमी-स्ट्रक्चर्ड डेटा का उदाहरण XML फ़ाइल में दर्शाया गया डेटा है।
अर्ध-संरचित डेटा के उदाहरण
एक XML फ़ाइल में संग्रहीत व्यक्तिगत डेटा-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
वर्षों में डेटा ग्रोथ
कृपया ध्यान दें कि वेब एप्लिकेशन डेटा, जो असंरचित है, जिसमें लॉग फाइल, ट्रांजेक्शन हिस्ट्री फाइलें आदि शामिल हैं। ओएलटीपी सिस्टम को संरचित डेटा के साथ काम करने के लिए बनाया गया है, जिसमें डेटा को संबंधों (तालिकाओं) में संग्रहीत किया जाता है।
बिग डेटा के लक्षण
बिग डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:
- आयतन
- वैराइटी
- वेग
- परिवर्तनशीलता
(i) वॉल्यूम - बिग डेटा नाम अपने आप में एक आकार से संबंधित है जो बहुत बड़ा है। डेटा से बाहर मूल्य निर्धारित करने में डेटा का आकार बहुत महत्वपूर्ण भूमिका निभाता है। इसके अलावा, क्या किसी विशेष डेटा को वास्तव में बिग डेटा माना जा सकता है या नहीं, यह डेटा की मात्रा पर निर्भर करता है। इसलिए, 'वॉल्यूम' एक विशेषता है जिसे बिग डेटा से निपटने के दौरान विचार करने की आवश्यकता है।
(ii) विविधता - बिग डेटा का अगला पहलू इसकी विविधता है ।
विविधता विषम स्रोतों और डेटा की प्रकृति को संदर्भित करती है, दोनों संरचित और असंरचित। पहले के दिनों में, स्प्रेडशीट और डेटाबेस अधिकांश अनुप्रयोगों द्वारा विचार किए गए डेटा के एकमात्र स्रोत थे। आजकल, डेटा, ईमेल, फोटो, वीडियो, मॉनिटरिंग डिवाइस, पीडीएफ, ऑडियो आदि के रूप में डेटा भी विश्लेषण अनुप्रयोगों में माना जा रहा है। असंरचित डेटा की यह विविधता भंडारण, खनन और डेटा के विश्लेषण के लिए कुछ मुद्दों को प्रस्तुत करती है।
(iii) वेग - अवधि 'वेग' डेटा की पीढ़ी की गति को दर्शाता है। मांगों को पूरा करने के लिए डेटा कितनी तेजी से उत्पन्न और संसाधित किया जाता है, यह डेटा में वास्तविक क्षमता निर्धारित करता है।
बिग डेटा वेलोसिटी उस गति से संबंधित है जिस गति से डेटा व्यापार प्रक्रियाओं, एप्लिकेशन लॉग, नेटवर्क और सोशल मीडिया साइटों, सेंसर, मोबाइल उपकरणों, आदि से प्रवाहित होता है। डेटा का प्रवाह बड़े पैमाने पर और निरंतर है।
(iv) परिवर्तनशीलता - यह उस असंगतता को संदर्भित करता है जिसे कई बार डेटा द्वारा दिखाया जा सकता है, इस प्रकार डेटा को प्रभावी ढंग से संभालने और प्रबंधित करने में सक्षम होने की प्रक्रिया में बाधा उत्पन्न होती है।
बिग डाटा प्रोसेसिंग के लाभ
बिग डेटा को संसाधित करने की क्षमता कई लाभों में लाती है, जैसे-
- व्यवसाय निर्णय लेते समय बाहर की बुद्धि का उपयोग कर सकते हैं
खोज इंजन और फेसबुक, ट्विटर जैसी साइटों से सामाजिक डेटा तक पहुंच संगठनों को अपनी व्यावसायिक रणनीतियों को ठीक करने में सक्षम बनाता है।
- बेहतर ग्राहक सेवा
पारंपरिक ग्राहक फीडबैक सिस्टम को बिग डेटा प्रौद्योगिकियों के साथ डिज़ाइन किए गए नए सिस्टम द्वारा प्रतिस्थापित किया जा रहा है। इन नई प्रणालियों में, बिग डेटा और प्राकृतिक भाषा प्रसंस्करण प्रौद्योगिकियों का उपयोग उपभोक्ता प्रतिक्रियाओं को पढ़ने और मूल्यांकन करने के लिए किया जा रहा है।
- उत्पाद / सेवाओं के लिए जोखिम की प्रारंभिक पहचान, यदि कोई हो
- बेहतर परिचालन क्षमता
बिग डेटा तकनीकों का उपयोग नए डेटा के लिए एक स्टेजिंग क्षेत्र या लैंडिंग ज़ोन बनाने के लिए किया जा सकता है, यह पहचानने से पहले कि डेटा को डेटा वेयरहाउस में कैसे स्थानांतरित किया जाना चाहिए। इसके अलावा, बिग डेटा प्रौद्योगिकियों और डेटा वेयरहाउस के इस तरह के एकीकरण से एक संगठन को अनैतिक रूप से एक्सेस किए गए डेटा को लोड करने में मदद मिलती है।
सारांश
- बिग डेटा परिभाषा: बिग डेटा को डेटा के रूप में परिभाषित किया जाता है जो आकार में विशाल होता है। बिगडाटा एक शब्द है जिसका उपयोग डेटा के संग्रह का वर्णन करने के लिए किया जाता है जो आकार में विशाल है और समय के साथ तेजी से बढ़ रहा है।
- बिग डेटा एनालिटिक्स के उदाहरणों में स्टॉक एक्सचेंज, सोशल मीडिया साइट्स, जेट इंजन आदि शामिल हैं।
- बड़ा डेटा 1) संरचित हो सकता है, 2) असंरचित, 3) अर्ध-संरचित
- वॉल्यूम, विविधता, वेग और भिन्नता कुछ बड़ी डेटा विशेषताएँ हैं
- बेहतर ग्राहक सेवा, बेहतर परिचालन क्षमता, बेहतर निर्णय लेना बिगडाटा के कुछ फायदे हैं