डेटा फ़्रेम: कैसे बनाएँ, जोड़ें, चयन करें & सबसेट

विषय - सूची:

Anonim

डेटा फ़्रेम क्या है?

एक डेटा फ्रेम वैक्टर की एक सूची है जो समान लंबाई के हैं। एक मैट्रिक्स में केवल एक प्रकार का डेटा होता है, जबकि एक डेटा फ्रेम विभिन्न डेटा प्रकारों (संख्यात्मक, चरित्र, कारक, आदि) को स्वीकार करता है।

इस ट्यूटोरियल में, आप सीखेंगे-

  • डेटा फ़्रेम क्या है?
  • डाटा फ्रेम कैसे बनाएं
  • डेटा फ़्रेम में एक कॉलम जोड़ें
  • डेटा फ़्रेम का एक कॉलम चुनें
  • एक डेटा फ़्रेम को सबसेट करें

डाटा फ्रेम कैसे बनाएं

हम एक a, b, c, d को data.frame () फंक्शन में पास करके R में एक डेटाफ्रेम बना सकते हैं। हम डेटाफ्रेम बना सकते हैं और नाम के साथ कॉलम को नाम दे सकते हैं () और बस चर का नाम निर्दिष्ट करें।

data.frame(df, stringsAsFactors = TRUE)

तर्क :

  • df : इसमें शामिल होने के लिए डेटा फ्रेम या चर के संग्रह के रूप में परिवर्तित करने के लिए एक मैट्रिक्स हो सकता है
  • stringsAsFactors : डिफ़ॉल्ट रूप से स्ट्रिंग को कारक में बदलें

हम एक ही लंबाई के चार चरों को मिलाकर हमारे पहले डेटा सेट के लिए R में एक डेटाफ्रेम बना सकते हैं।

# Create a, b, c, d variablesa <- c(10,20,30,40)b <- c('book', 'pen', 'textbook', 'pencil_case')c <- c(TRUE,FALSE,TRUE,FALSE)d <- c(2.5, 8, 10, 7)# Join the variables to create a data framedf <- data.frame(a,b,c,d)df

आउटपुट:

## a b c d## 1 1 book TRUE 2.5## 2 2 pen TRUE 8.0## 3 3 textbook TRUE 10.0## 4 4 pencil_case FALSE 7.0

हम देख सकते हैं कि कॉलम हेडर का वैरिएबल के समान नाम है। हम फ़ंक्शन नामों () के साथ R में कॉलम का नाम बदल सकते हैं। नीचे दिए गए डेटा बनाएँ उदाहरण R की जाँच करें:

# Name the data framenames(df) <- c('ID', 'items', 'store', 'price')df

आउटपुट:

## ID items store price## 1 10 book TRUE 2.5## 2 20 pen FALSE 8.0## 3 30 textbook TRUE 10.0## 4 40 pencil_case FALSE 7.0
# Print the structurestr(df)

आउटपुट:

## 'data.frame': 4 obs. of 4 variables:## $ ID : num 10 20 30 40## $ items: Factor w/ 4 levels "book","pen","pencil_case",… : 1 2 4 3## $ store: logi TRUE FALSE TRUE FALSE## $ price: num 2.5 8 10 7

डिफ़ॉल्ट रूप से, डेटा फ़्रेम एक कारक के रूप में स्ट्रिंग चर देता है।

स्लाइस डेटा फ़्रेम

डेटा फ्रेम के मूल्यों को कम करना संभव है। हम डेटा फ़्रेम के नाम से पूर्ववर्ती ब्रैकेट में लौटने के लिए पंक्तियों और स्तंभों का चयन करते हैं।

डेटा फ्रेम पंक्तियों और स्तंभों से बना होता है, df [A, B]। A पंक्तियों और B स्तंभों का प्रतिनिधित्व करता है। हम पंक्तियों और / या स्तंभों को निर्दिष्ट करके स्लाइस कर सकते हैं।

चित्र 1 से, बाएं भाग पंक्तियों का प्रतिनिधित्व करता है , और दाहिना भाग कॉलम है । ध्यान दें कि प्रतीक: का अर्थ है । उदाहरण के लिए, 1: 3 का इरादा 1 से 3 तक के मूल्यों का चयन करना है ।

नीचे दिए गए आरेख में हम प्रदर्शित करते हैं कि डेटा फ्रेम के विभिन्न चयन तक कैसे पहुंचा जाए:

  • पीला तीर कॉलम 2 में पंक्ति 1 का चयन करता है
  • हरा तीर 1 से 2 पंक्तियों का चयन करता है
  • लाल तीर कॉलम 1 का चयन करता है
  • नीला तीर 1 से 3 पंक्तियों और कॉलम 3 से 4 का चयन करता है

ध्यान दें, यदि हम बाएं भाग को खाली करते हैं, R सभी पंक्तियों का चयन करेगा । सादृश्य से, यदि हम दाहिने भाग को खाली करते हैं, R सभी कॉलमों का चयन करेगा ।

हम कोड को कंसोल में चला सकते हैं:

## Select row 1 in column 2df[1,2]

आउटपुट:

## [1] book## Levels: book pen pencil_case textbook
## Select Rows 1 to 2df[1:2,]

आउटपुट:

## ID items store price## 1 10 book TRUE 2.5## 2 20 pen FALSE 8.0
## Select Columns 1df[,1]

आउटपुट:

## [1] 10 20 30 40
## Select Rows 1 to 3 and columns 3 to 4df[1:3, 3:4]

आउटपुट:

## store price## 1 TRUE 2.5## 2 FALSE 8.0## 3 TRUE 10.0

उनके नाम के साथ कॉलम का चयन करना भी संभव है। उदाहरण के लिए, नीचे दिया गया कोड दो कॉलम निकालता है: आईडी और स्टोर।

# Slice with columns namedf[, c('ID', 'store')]

आउटपुट:

## ID store## 1 10 TRUE## 2 20 FALSE## 3 30 TRUE## 4 40 FALSE

डेटा फ़्रेम में एक कॉलम जोड़ें

आप किसी कॉलम को डेटा फ़्रेम में भी जोड़ सकते हैं। आपको डेटाफ़्रेम R चर को जोड़ने और R में डेटाफ़्रेम के लिए एक कॉलम जोड़ने के लिए प्रतीक $ का उपयोग करने की आवश्यकता है।

# Create a new vectorquantity <- c(10, 35, 40, 5)# Add `quantity` to the `df` data framedf$quantity <- quantitydf

आउटपुट:

## ID items store price quantity## 1 10 book TRUE 2.5 10## 2 20 pen FALSE 8.0 35## 3 30 textbook TRUE 10.0 40## 4 40 pencil_case FALSE 7.0 5

नोट: वेक्टर में तत्वों की संख्या डेटा फ्रेम में तत्वों की संख्या के बराबर होनी चाहिए। डेटाफ़्रेम R पर कॉलम जोड़ने के लिए निम्न कथन को निष्पादित करना

quantity <- c(10, 35, 40)# Add `quantity` to the `df` data framedf$quantity <- quantity

त्रुटि देता है:

Error in `$<-.data.frame`(`*tmp*`, quantity, value = c(10, 35, 40))replacement has 3 rows, data has 4 

डेटा फ़्रेम का एक कॉलम चुनें

कभी-कभी, हमें भविष्य में उपयोग के लिए एक डेटा फ्रेम के एक कॉलम को संग्रहीत करने या एक कॉलम पर ऑपरेशन करने की आवश्यकता होती है। हम डेटा फ़्रेम से कॉलम का चयन करने के लिए $ साइन का उपयोग कर सकते हैं।

# Select the column IDdf$ID

आउटपुट:

## [1] 1 2 3 4

एक डेटा फ़्रेम को सबसेट करें

पिछले अनुभाग में, हमने बिना किसी शर्त के एक पूरे कॉलम का चयन किया। यह संभव है कि सबसेट पर किया जाए या नहीं एक निश्चित शर्त सच था आधारित है।

हम सबसेट () फ़ंक्शन का उपयोग करते हैं।

subset(x, condition)arguments:- x: data frame used to perform the subset- condition: define the conditional statement

हम केवल 10 से ऊपर की कीमत वाले आइटम वापस करना चाहते हैं, हम कर सकते हैं:

# Select price above 5subset(df, subset = price > 5)

आउटपुट:

ID items store price2 20 pen FALSE 83 30 textbook TRUE 104 40 pencil_case FALSE 7