डेटा विभिन्न स्वरूपों में मौजूद हो सकता है। प्रत्येक प्रारूप के लिए R का एक विशिष्ट कार्य और तर्क है। यह ट्यूटोरियल बताता है कि आर को डेटा कैसे आयात किया जाए।
इस ट्यूटोरियल में, आप सीखेंगे
- सीएसवी पढ़ें
- एक्सेल फाइल पढ़ें
- readxl_example ()
- read_excel ()
- excel_sheets ()
- अन्य सांख्यिकीय सॉफ्टवेयर से डेटा आयात करें
- पढ़ें सास
- STATA पढ़ें
- SPSS पढ़ें
- डेटा आयात के लिए सर्वोत्तम अभ्यास
सीएसवी पढ़ें
सबसे व्यापक रूप से डेटा स्टोर में से एक .csv (अल्पविराम से अलग किए गए मान) फ़ाइल स्वरूप हैं। स्टार्ट-अप के दौरान पुस्तकालयों की एक सरणी लोड करता है, जिसमें बर्तन पैकेज भी शामिल है। यह पैकेज read.csv () फ़ंक्शन के साथ संयुक्त csv फ़ाइलों को खोलने के लिए सुविधाजनक है। यहाँ read.csv के लिए वाक्य रचना है
read.csv(file, header = TRUE, sep = ",")
तर्क :
- फ़ाइल : पथ जहाँ फ़ाइल संग्रहीत है
- शीर्षलेख : पुष्टि करें कि क्या फ़ाइल में हेडर है या नहीं, डिफ़ॉल्ट रूप से, शीर्षक TRUE पर सेट है
- sep : वैरिएबल को विभाजित करने के लिए प्रयुक्त प्रतीक। डिफ़ॉल्ट रूप से, `,`।
हम डेटा फ़ाइल नाम mtcats पढ़ेंगे। सीएसवी फ़ाइल ऑनलाइन संग्रहीत की जाती है। यदि आपकी .csv फ़ाइल स्थानीय रूप से संग्रहीत है, तो आप PATH को कोड स्निपेट के अंदर बदल सकते हैं। इसे '' के अंदर लपेटना न भूलें। पथ को एक स्ट्रिंग मान होना चाहिए।
मैक उपयोगकर्ता के लिए, डाउनलोड फ़ोल्डर के लिए पथ है:
"/Users/USERNAME/Downloads/FILENAME.csv"
विंडोज़ उपयोगकर्ता के लिए:
"C:\Users\USERNAME\Downloads\FILENAME.csv"
ध्यान दें, हमें हमेशा फ़ाइल नाम का विस्तार निर्दिष्ट करना चाहिए।
- .csv
- .xlsx
- ।टेक्स्ट
- …
PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'df <- read.csv(PATH, header = TRUE, sep = ',')length(df)
आउटपुट:
## [1] 12
class(df$X)
आउटपुट:
## [1] "factor"
R, डिफ़ॉल्ट रूप से, चरित्र मानों को Factor के रूप में लौटाता है। हम स्ट्रिंग्सएफ़एक्टर्स = FALSE जोड़कर इस सेटिंग को बंद कर सकते हैं।
PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'df <-read.csv(PATH, header =TRUE, sep = ',', stringsAsFactors =FALSE)class(df$X)
आउटपुट:
## [1] "character"
चर X के लिए वर्ग अब एक वर्ण है।
एक्सेल फाइल पढ़ें
एक्सेल फाइलें डेटा विश्लेषकों के बीच बहुत लोकप्रिय हैं। स्प्रैडशीट के साथ काम करना आसान और लचीला है। एक्सेल स्प्रेडशीट आयात करने के लिए आर एक लाइब्रेरी रीडक्स से लैस है।
इस कोड का उपयोग करें
require(readxl)
यह जांचने के लिए कि क्या आपकी मशीन में रीडक्सल स्थापित है। यदि आप r-cond-Essential के साथ r स्थापित करते हैं, तो लाइब्रेरी पहले से ही स्थापित है। आपको कमांड विंडो में देखना चाहिए:
आउटपुट:
Loading required package: readxl.
यदि पैकेज से बाहर नहीं निकलता है, तो आप इसे कोंडा लाइब्रेरी या टर्मिनल के साथ स्थापित कर सकते हैं, कोंडा इंस्टाल -c मितर आर-रीडएक्सएल का उपयोग करें।
एक्सेल फ़ाइलों को आयात करने के लिए लाइब्रेरी को लोड करने के लिए निम्न कमांड का उपयोग करें।
library(readxl)
readxl_example ()
हम इस ट्यूटोरियल के दौरान पैकेज रीडक्सल में शामिल उदाहरणों का उपयोग करते हैं।
कोड का उपयोग करें
readxl_example()
पुस्तकालय में सभी उपलब्ध स्प्रैडशीट देखना।
क्लिपपी.एक्सएल नामक स्प्रेडशीट के स्थान की जांच करने के लिए, सरल उपयोग करें
readxl_example("geometry.xls")
यदि आप R को कोंडा के साथ स्थापित करते हैं, तो स्प्रेडशीट Anaconda3 / lib / R / Library / readxl / extdata / filename.xls में स्थित हैं
read_excel ()
जब xls और xlsx extention को खोलने की बात आती है, तो read_excel () का बहुत उपयोग होता है।
वाक्य रचना है:
read_excel(PATH, sheet = NULL, range= NULL, col_names = TRUE)arguments:-PATH: Path where the excel is located-sheet: Select the sheet to import. By default, all-range: Select the range to import. By default, all non-null cells-col_names: Select the columns to import. By default, all non-null columns
हम रीडक्सल लाइब्रेरी से स्प्रैडशीट आयात कर सकते हैं और पहली शीट में कॉलम की संख्या गिन सकते हैं।
# Store the path of `datasets.xlsx`example <- readxl_example("datasets.xlsx")# Import the spreadsheetdf <- read_excel(example)# Count the number of columnslength(df)
आउटपुट:
## [1] 5
excel_sheets ()
फ़ाइल datasets.xlsx 4 शीट से बना है। हम यह पता लगा सकते हैं कि कौन सी शीट वर्कबुक में excel_sheets () फ़ंक्शन का उपयोग करके उपलब्ध हैं
example <- readxl_example("datasets.xlsx")excel_sheets(example)
आउटपुट:
[1] "iris" "mtcars" "chickwts" "quakes"
यदि एक वर्कशीट में कई शीट शामिल हैं, तो शीट तर्कों का उपयोग करके किसी विशेष शीट का चयन करना आसान है। हम शीट या शीट इंडेक्स का नाम निर्दिष्ट कर सकते हैं। यदि दोनों फ़ंक्शन समान आउटपुट को समान () के साथ लौटाते हैं तो हम सत्यापित कर सकते हैं।
example <- readxl_example("datasets.xlsx")quake <- read_excel(example, sheet = "quakes")quake_1 <-read_excel(example, sheet = 4)identical(quake, quake_1)
आउटपुट:
## [1] TRUE
हम नियंत्रित कर सकते हैं कि कौन सी कोशिकाएं 2 तरीकों से पढ़ें
- N पंक्तियों को वापस करने के लिए n_max तर्क का उपयोग करें
- Cell_rows या cell_cols के साथ संयुक्त श्रेणी तर्क का उपयोग करें
उदाहरण के लिए, हमने पहली पांच पंक्तियों को आयात करने के लिए n_max को 5 के बराबर सेट किया।
# Read the first five row: with headeriris <-read_excel(example, n_max =5, col_names =TRUE)
यदि हम Col_names को FALSE में बदलते हैं, तो R हेडर को स्वचालित रूप से बनाता है।
# Read the first five row: without headeriris_no_header <-read_excel(example, n_max =5, col_names =FALSE)
iris_no_header
डेटा फ्रेम iris_no_header में, R ने X__1, X__2, X__3, X__4 और X__5 नामक पांच नए चर बनाए
हम स्प्रेडशीट में पंक्तियों और स्तंभों का चयन करने के लिए तर्क श्रेणी का भी उपयोग कर सकते हैं। नीचे दिए गए कोड में, हम ए 1 से बी 5 तक का चयन करने के लिए एक्सेल शैली का उपयोग करते हैं।
# Read rows A1 to B5example_1 <-read_excel(example, range = "A1:B5", col_names =TRUE)dim(example_1)
आउटपुट:
## [1] 4 2
हम देख सकते हैं कि example_1 2 कॉलम के साथ 4 पंक्तियाँ लौटाता है। डेटासेट में हेडर होता है, इसका कारण आयाम 4x2 है।
दूसरे उदाहरण में, हम फ़ंक्शन सेल_रो () का उपयोग करते हैं जो वापस लौटने के लिए पंक्तियों की सीमा को नियंत्रित करता है। यदि हम 1 से 5 पंक्तियों को आयात करना चाहते हैं, तो हम cell_rows (1: 5) सेट कर सकते हैं। ध्यान दें कि, cell_rows (1: 5) cell_rows (5: 1) के समान आउटपुट देता है।
# Read rows 1 to 5example_2 <-read_excel(example, range =cell_rows(1:5),col_names =TRUE)dim(example_2)
आउटपुट:
## [1] 4 5
Example_2 हालांकि 4x5 मैट्रिक्स है। आईरिस डेटासेट में हेडर के साथ 5 कॉलम हैं। हम सभी स्तंभों के शीर्ष लेख के साथ पहली चार पंक्तियाँ लौटाते हैं
यदि हम उन पंक्तियों को आयात करना चाहते हैं जो पहली पंक्ति में शुरू नहीं होती हैं, तो हमें col_names = FALSE को शामिल करना होगा। अगर हम रेंज = सेल_रो (2: 5) का उपयोग करते हैं, तो यह स्पष्ट हो जाता है कि हमारे डेटा फ्रेम में हेडर नहीं है।
iris_row_with_header <-read_excel(example, range =cell_rows(2:3), col_names=TRUE)iris_row_no_header <-read_excel(example, range =cell_rows(2:3),col_names =FALSE)
We can select the columns with the letter, like in Excel.# Select columns A and Bcol <-read_excel(example, range =cell_cols("A:B"))dim(col)
आउटपुट:
## [1] 150 2
नोट: रेंज = cell_cols ("A: B"), सभी कोशिकाओं को गैर-शून्य मान के साथ आउटपुट देता है। डेटासेट में 150 पंक्तियाँ होती हैं, इसलिए, read_excel () 150 तक की पंक्तियाँ देता है। यह मंद () फ़ंक्शन से सत्यापित होता है।
read_excel () NA तब लौटता है जब संख्यात्मक मान बिना सेल में दिखाई देता है। हम दो कार्यों के संयोजन के साथ लापता मूल्यों की संख्या की गणना कर सकते हैं
- योग
- is.na
यहाँ कोड है
iris_na <-read_excel(example, na ="setosa")sum(is.na(iris_na))
आउटपुट:
## [1] 50
हमारे पास 50 मान गायब हैं, जो सेटोसा प्रजातियों से संबंधित पंक्तियाँ हैं।
अन्य सांख्यिकीय सॉफ्टवेयर से डेटा आयात करें
हम स्वर्ग पैकेज के साथ विभिन्न फाइलों के प्रारूप को आयात करेंगे। यह पैकेज SAS, STATA और SPSS सॉफ्टवेयर्स को सपोर्ट करता है। हम फ़ाइल के विस्तार के अनुसार, विभिन्न प्रकार के डेटासेट खोलने के लिए निम्न फ़ंक्शन का उपयोग कर सकते हैं:
- SAS: read_sas ()
- STATA: read_dta () (या read_stata (), जो समान हैं)
- SPSS: read_sav () या read_por ()। हमें विस्तार की जांच करने की आवश्यकता है
इन फ़ंक्शन के भीतर केवल एक तर्क आवश्यक है। हमें पता होना चाहिए कि फ़ाइल कहाँ संग्रहीत है। यही है, हम SAS, STATA और SPSS की सभी फाइलें खोलने के लिए तैयार हैं। ये तीन फ़ंक्शन URL को भी स्वीकार करते हैं।
library(haven)
हेराफेरी के साथ कॉन्डा आर-एसेंशियल आता है अन्यथा लिंक पर जाएं या टर्मिनल कोंडा में स्थापित करें -c कोंडा-फोर्ज आर-हेवन
पढ़ें सास
हमारे उदाहरण के लिए, हम IDRE से प्रवेश डेटासेट का उपयोग करने जा रहे हैं।
PATH_sas <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sas7bdat?raw=true'df <- read_sas(PATH_sas)head(df)
आउटपुट:
## # A tibble: 6 x 4## ADMIT GRE GPA RANK#### 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2
STATA पढ़ें
STATA डेटा फ़ाइलों के लिए आप read_dta () का उपयोग कर सकते हैं। हम समान डेटासेट का उपयोग करते हैं, लेकिन .dta फ़ाइल में संग्रहीत करते हैं।
PATH_stata <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.dta?raw=true'df <- read_dta(PATH_stata)head(df)
आउटपुट:
## # A tibble: 6 x 4## admit gre gpa rank#### 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2
SPSS पढ़ें
हम SPSS फ़ाइल खोलने के लिए read_sav () फ़ंक्शन का उपयोग करते हैं। फ़ाइल एक्सटेंशन ".sav"
PATH_spss <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sav?raw=true'df <- read_sav(PATH_spss)head(df)
आउटपुट:
## # A tibble: 6 x 4## admit gre gpa rank#### 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2
डेटा आयात के लिए सर्वोत्तम अभ्यास
जब हम आर में डेटा आयात करना चाहते हैं, तो निम्नलिखित चेकलिस्ट को लागू करना उपयोगी है। आर में डेटा को सही तरीके से आयात करना आसान बना देगा:
- स्प्रेडशीट के लिए विशिष्ट प्रारूप हेडर के रूप में पहली पंक्तियों (आमतौर पर चर नाम) का उपयोग करना है।
- रिक्त स्थान वाले डेटासेट को नाम देने से बचें; यह एक अलग चर के रूप में व्याख्या करने के लिए नेतृत्व कर सकता है। वैकल्पिक रूप से, '_' या '-' का उपयोग करना पसंद करते हैं।
- संक्षिप्त नाम पसंद किए जाते हैं
- प्रतीक को नाम में शामिल न करें: यानी: exchange_rate _ $ _ € सही नहीं है। इसे नाम देना पसंद करें: exchange_rate_dollar_euro
- लापता मानों के लिए NA का उपयोग करें अन्यथा; हमें बाद में प्रारूप को साफ करने की आवश्यकता है।
सारांश
निम्न तालिका आर में विभिन्न प्रकार की फ़ाइल आयात करने के लिए फ़ंक्शन का उपयोग करने के लिए सारांशित करती है। स्तंभ एक फ़ंक्शन से संबंधित लाइब्रेरी को बताता है। अंतिम कॉलम डिफ़ॉल्ट तर्क को संदर्भित करता है।
पुस्तकालय |
उद्देश्य |
समारोह |
डिफ़ॉल्ट तर्क |
---|---|---|---|
बर्तन |
CSV फ़ाइल पढ़ें |
read.csv () |
फ़ाइल, हेडर =, TRUE, sep = "," |
रीडक्सल |
EXCEL फ़ाइल पढ़ें |
read_excel () |
पाथ, रेंज = NULL, col_names = TRUE |
हेवन |
SAS फ़ाइल पढ़ें |
read_sas () |
पथ |
हेवन |
STATA फ़ाइल पढ़ें |
read_stata () |
पथ |
हेवन |
SPSS फ़ाइल पढ़ें |
read_sav () |
पथ |
निम्न तालिका read_excel () फ़ंक्शन के साथ चयन को आयात करने के विभिन्न तरीकों को दिखाती है।
समारोह |
उद्देश्यों |
बहस |
---|---|---|
read_excel () |
पंक्तियों की संख्या पढ़ें |
n_max = 10 |
एक्सेल में पंक्तियों और स्तंभों का चयन करें |
रेंज = "A1: D10" |
|
अनुक्रमित के साथ पंक्तियों का चयन करें |
रेंज = सेल_रो (1: 3) |
|
अक्षरों के साथ कॉलम चुनें |
रेंज = सेल_ रंग ("ए: सी") |