R Software क्या है?
आर एक प्रोग्रामिंग भाषा और मुफ्त सॉफ्टवेयर है जो रॉस इहाका और रॉबर्ट जेंटलमैन द्वारा 1993 में विकसित किया गया था। आर के पास सांख्यिकीय और चित्रमय विधियों की एक व्यापक सूची है। इसमें मशीन लर्निंग एल्गोरिदम, लीनियर रिग्रेशन, टाइम सीरीज़, कुछ के नाम के लिए सांख्यिकीय निष्कर्ष शामिल हैं। अधिकांश आर पुस्तकालयों को आर में लिखा जाता है, लेकिन भारी कम्प्यूटेशनल कार्यों के लिए, सी, सी ++ और फोरट्रान कोड पसंद किए जाते हैं।
आर न केवल अकादमिक द्वारा सौंपा गया है, बल्कि कई बड़ी कंपनियां भी आर प्रोग्रामिंग भाषा का उपयोग करती हैं, जिसमें उबर, गूगल, एयरबीएनबी, फेसबुक और इतने पर शामिल हैं।
आर के साथ डेटा विश्लेषण चरणों की एक श्रृंखला में किया जाता है; प्रोग्रामिंग, रूपांतरण, खोज, मॉडलिंग और परिणामों का संचार
- कार्यक्रम : आर एक स्पष्ट और सुलभ प्रोग्रामिंग उपकरण है
- ट्रांसफॉर्म : R विशेष रूप से डेटा विज्ञान के लिए डिज़ाइन किए गए पुस्तकालयों के संग्रह से बना है
- डिस्कवर : डेटा की जांच करें, अपनी परिकल्पना को परिष्कृत करें और उनका विश्लेषण करें
- मॉडल : आर आपके डेटा के लिए सही मॉडल पर कब्जा करने के लिए उपकरणों की एक विस्तृत सरणी प्रदान करता है
- संवाद करें : R मार्काडाउन के साथ एक रिपोर्ट के कोड, ग्राफ़ और आउटपुट को एकीकृत करें या दुनिया के साथ साझा करने के लिए चमकदार एप्लिकेशन बनाएं
इस परिचय ट्यूटोरियल में आप आर सीखेंगे
- R का उपयोग किसके लिए किया जाता है?
- उद्योग द्वारा आर
- आर पैकेज
- आर के साथ संवाद
- आर का उपयोग क्यों करें?
- क्या आपको R चुनना चाहिए?
- क्या R मुश्किल है?
R का उपयोग किसके लिए किया जाता है?
- सांख्यिकीय निष्कर्ष
- डेटा विश्लेषण
- मशीन लर्निंग एल्गोरिदम
उद्योग द्वारा आर
यदि हम उद्योग द्वारा आर के उपयोग को तोड़ते हैं, तो हम देखते हैं कि शिक्षाविद पहले आते हैं। R स्टेटिस्टिक करने के लिए एक भाषा है। आर स्वास्थ्य सेवा उद्योग में पहली पसंद है, सरकार और परामर्श के बाद।
आर पैकेज
R का प्राथमिक उपयोग है और हमेशा रहेगा, स्टैटिस्टिक, विज़ुअलाइज़ेशन और मशीन लर्निंग। नीचे दी गई तस्वीर से पता चलता है कि स्टैक ओवरफ्लो में किस आर पैकेज में सबसे अधिक प्रश्न आए। शीर्ष 10 में, उनमें से अधिकांश एक डेटा वैज्ञानिक के वर्कफ़्लो से संबंधित हैं: डेटा तैयार करना और परिणामों को संवाद करना।
R के सभी पुस्तकालय, लगभग 12k, CRAN में संग्रहीत हैं। CRAN एक स्वतंत्र और खुला स्रोत है। मशीन लर्निंग या टाइम सीरीज़ विश्लेषण करने के लिए आप कई पुस्तकालयों को डाउनलोड और उपयोग कर सकते हैं।
आर के साथ संवाद
R के पास काम करने और साझा करने के कई तरीके हैं, या तो मार्कशीट दस्तावेज़ या चमकदार ऐप के माध्यम से। सब कुछ Rpub, GitHub या व्यवसाय की वेबसाइट में होस्ट किया जा सकता है।
नीचे Rpub पर होस्ट की गई प्रस्तुति का एक उदाहरण है
Rstudio दस्तावेज़ लिखने के लिए मार्कडाउन स्वीकार करता है। आप दस्तावेजों को विभिन्न प्रारूपों में निर्यात कर सकते हैं:
- दस्तावेज़:
- एचटीएमएल
- पीडीएफ / लेटेक्स
- शब्द
- प्रस्तुतीकरण
- एचटीएमएल
- पीडीएफ बीमर
Rstudio में आसानी से ऐप बनाने के लिए एक बढ़िया टूल है। नीचे विश्व बैंक डेटा के साथ ऐप का एक उदाहरण है।
आर का उपयोग क्यों करें?
डेटा साइंस कंपनियां अपने कारोबार चलाने के तरीके को आकार दे रही हैं। एक शक के बिना, आर्टिफिशियल इंटेलिजेंस और मशीन से दूर रहना कंपनी को विफल कर देगा। बड़ा सवाल यह है कि आपको किस टूल / भाषा का उपयोग करना चाहिए?
डेटा विश्लेषण करने के लिए वे बाजार में बहुत सारे उपकरण उपलब्ध हैं। एक नई भाषा सीखने के लिए कुछ समय के निवेश की आवश्यकता होती है। नीचे दी गई तस्वीर एक व्यावसायिक पेशकश की व्यावसायिक क्षमता की तुलना में सीखने की अवस्था को दर्शाती है। नकारात्मक संबंध का तात्पर्य है कि कोई मुफ्त भोजन नहीं है। यदि आप डेटा से सर्वश्रेष्ठ अंतर्दृष्टि देना चाहते हैं, तो आपको उपयुक्त उपकरण सीखने में कुछ समय बिताने की आवश्यकता है, जो कि आर।
ग्राफ़ के शीर्ष बाईं ओर, आप एक्सेल और पावरबीआई देख सकते हैं। ये दोनों उपकरण सीखने में सरल हैं, लेकिन विशेष रूप से मॉडलिंग की अवधि में उत्कृष्ट व्यावसायिक क्षमता प्रदान नहीं करते हैं। बीच में, आप पायथन और एसएएस देख सकते हैं। एसएएस व्यापार के लिए सांख्यिकीय विश्लेषण चलाने के लिए एक समर्पित उपकरण है, लेकिन यह मुफ़्त नहीं है। एसएएस एक क्लिक और रन सॉफ्टवेयर है। हालाँकि, पायथन एक नीरस सीखने की अवस्था वाली भाषा है। पायथन मशीन लर्निंग और एआई को तैनात करने के लिए एक शानदार उपकरण है, लेकिन संचार सुविधाओं का अभाव है। एक समान सीखने की अवस्था के साथ, आर कार्यान्वयन और डेटा विश्लेषण के बीच एक अच्छा व्यापार है।
जब यह डेटा विज़ुअलाइज़ेशन (DataViz) की बात आती है, तो आपने शायद झांकी के बारे में सुना होगा। झांकी, एक शक के बिना, रेखांकन और चार्ट के माध्यम से पैटर्न खोजने के लिए एक महान उपकरण है। इसके अलावा, झांकी सीखना समय लेने वाली नहीं है। डेटा विज़ुअलाइज़ेशन के साथ एक बड़ी समस्या यह है कि आप कभी भी एक पैटर्न नहीं पा सकते हैं या बहुत सारे बेकार चार्ट बना सकते हैं। झांकी डेटा या बिजनेस इंटेलिजेंस के त्वरित दृश्य के लिए एक अच्छा उपकरण है। जब आंकड़ों और निर्णय लेने के उपकरण की बात आती है, तो आर अधिक उपयुक्त है।
स्टैक ओवरफ्लो प्रोग्रामिंग भाषाओं के लिए एक बड़ा समुदाय है। यदि आपके पास एक कोडिंग मुद्दा है या किसी मॉडल को समझने की आवश्यकता है, तो स्टैक ओवरफ्लो मदद करने के लिए यहां है। अन्य भाषाओं की तुलना में आर के लिए प्रश्न-विचारों का प्रतिशत तेजी से बढ़ा है। यह प्रवृत्ति निश्चित रूप से डेटा विज्ञान की बढ़ती उम्र के साथ अत्यधिक संबद्ध है, लेकिन यह डेटा विज्ञान के लिए आर भाषा की मांग को दर्शाता है।
डेटा साइंस में, दो उपकरण एक-दूसरे के साथ प्रतिस्पर्धा करते हैं। आर और पायथन संभवतः प्रोग्रामिंग भाषा है जो डेटा विज्ञान को परिभाषित करती है।
क्या आपको R चुनना चाहिए?
डेटा वैज्ञानिक दो उत्कृष्ट उपकरणों का उपयोग कर सकते हैं: आर और पायथन। आपके पास उन दोनों को सीखने का समय नहीं हो सकता है, खासकर यदि आप डेटा विज्ञान सीखना शुरू करते हैं। सांख्यिकीय मॉडलिंग और एल्गोरिथ्म सीखनाएक प्रोग्रामिंग भाषा सीखने की तुलना में कहीं अधिक महत्वपूर्ण है। एक प्रोग्रामिंग भाषा आपकी खोज की गणना और संवाद करने का एक उपकरण है। डेटा विज्ञान में सबसे महत्वपूर्ण कार्य वह तरीका है जिससे आप डेटा का सामना करते हैं: आयात, स्वच्छ, प्रस्तुतिकरण, फीचर इंजीनियरिंग, सुविधा चयन। यह आपका प्राथमिक ध्यान होना चाहिए। यदि आप आंकड़ों में एक ठोस पृष्ठभूमि के बिना एक ही समय में आर और पायथन सीखने की कोशिश कर रहे हैं, तो इसका सादा बेवकूफ। डेटा वैज्ञानिक प्रोग्रामर नहीं हैं। उनका काम डेटा को समझना, उसमें हेरफेर करना और सर्वश्रेष्ठ दृष्टिकोण को उजागर करना है। अगर आप सोच रहे हैं कि किस भाषा को सीखना है, तो आइए देखें कि आपके लिए कौन सी भाषा सबसे उपयुक्त है।
डेटा विज्ञान के लिए प्रमुख दर्शक व्यावसायिक है। व्यापार में, एक बड़ा निहितार्थ संचार है। संवाद करने के कई तरीके हैं: रिपोर्ट, वेब ऐप, डैशबोर्ड। आपको एक उपकरण की आवश्यकता है जो यह सब एक साथ करता है।
क्या R मुश्किल है?
वर्षों पहले, R एक कठिन भाषा थी जिसे मास्टर करना था। भाषा भ्रमित थी और अन्य प्रोग्रामिंग टूल की तरह संरचित नहीं थी। इस प्रमुख मुद्दे को दूर करने के लिए, हेडली विकम ने संकुल का एक संग्रह विकसित किया, जिसे टिड्वर्स कहा जाता है। खेल का नियम सर्वश्रेष्ठ के लिए बदल गया। डेटा हेरफेर तुच्छ और सहज हो जाते हैं। ग्राफ बनाना अब इतना मुश्किल नहीं था।
मशीन लर्निंग के लिए सबसे अच्छा एल्गोरिदम आर। संकुल के साथ कार्यान्वित किया जा सकता है जैसे केरस और टेंसोरफ्लो उच्च अंत मशीन सीखने की तकनीक बनाने की अनुमति देते हैं। आर में एक्सगबॉस्ट प्रदर्शन करने के लिए एक पैकेज भी है, जो कागल प्रतियोगिता के लिए सबसे अच्छा एल्गोरिदम है।
R अन्य भाषा के साथ संवाद कर सकता है। आर में पायथन, जावा, सी ++ को कॉल करना संभव है। बड़े डेटा की दुनिया भी आर के लिए सुलभ है। आप स्पार्क या हडोप जैसे विभिन्न डेटाबेसों के साथ आर कनेक्ट कर सकते हैं।
अंत में, आर विकसित हुआ है और गणना को तेज करने के लिए समानांतर संचालन की अनुमति दी है। वास्तव में, एक समय में केवल एक सीपीयू का उपयोग करने के लिए आर की आलोचना की गई थी। समानांतर पैकेज आपको मशीन के विभिन्न कोर में कार्य करने देता है।
सारांश
संक्षेप में, आर डेटा का पता लगाने और उसकी जांच करने के लिए एक महान उपकरण है। क्लस्टरिंग, सहसंबंध और डेटा में कमी जैसे विस्तृत विश्लेषण आर के साथ किए गए हैं। यह सबसे महत्वपूर्ण हिस्सा है, एक अच्छी सुविधा इंजीनियरिंग और मॉडल के बिना, मशीन लर्निंग की तैनाती सार्थक परिणाम नहीं देगी।