Pandas.read_csv () का उपयोग करके CSV डेटा आयात करें

विषय - सूची:

Anonim

इस ट्यूटोरियल में, आप सीखेंगे:

  • CSV आयात करें
  • समूह द्वारा

CSV आयात करें

TensorFlow ट्यूटोरियल के दौरान, आप वयस्क डेटासेट का उपयोग करेंगे। इसका उपयोग अक्सर वर्गीकरण कार्य के साथ किया जाता है। यह इस URL में उपलब्ध है

डेटा को CSV प्रारूप में संग्रहीत किया जाता है। इस डेटासेट में आठ श्रेणीबद्ध चर शामिल हैं:

इस डेटासेट में आठ श्रेणीबद्ध चर शामिल हैं:

  • वर्कक्लास
  • शिक्षा
  • वैवाहिक
  • कब्जे
  • संबंध
  • रेस
  • लिंग
  • मातृभूमि

इसके अलावा, छह निरंतर चर:

  • उम्र
  • fnlwgt
  • education_num
  • पूंजी लाभ
  • capital_loss

घंटे_वेक

CSV डेटासेट आयात करने के लिए, आप ऑब्जेक्ट pd.read_csv () का उपयोग कर सकते हैं। मूल तर्क अंदर है:

वाक्य - विन्यास:

pandas.read_csv(filepath_or_buffer,sep=', ',`names=None`,`index_col=None`,`skipinitialspace=False`)
  • filepath_or_buffer: डेटा के साथ पथ या URL
  • sep = ',': प्रयोग करने के लिए सीमांकक को परिभाषित करें
  • `नाम = कोई नहीं`: कॉलम को नाम दें। यदि डेटासेट में दस कॉलम हैं, तो आपको दस नामों को पास करना होगा
  • `index_col = कोई नहीं`: यदि हाँ, तो पहले स्तंभ का उपयोग पंक्ति सूचकांक के रूप में किया जाता है
  • `Skipinitialspace = False`: सीमांकक के बाद रिक्त स्थान छोड़ें।

Readcsv () के बारे में अधिक जानकारी के लिए, कृपया आधिकारिक दस्तावेज देखें

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csn.html।

निम्नलिखित उदाहरण पर विचार करें

## Import csvimport pandas as pd## Define path dataCOLUMNS = ['age','workclass', 'fnlwgt', 'education', 'education_num', 'marital','occupation', 'relationship', 'race', 'sex', 'capital_gain', 'capital_loss','hours_week', 'native_country', 'label']PATH = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"df_train = pd.read_csv(PATH,skipinitialspace=True,names = COLUMNS,index_col=False)df_train.shape

आउटपुट:

(32561, 15)

समूह द्वारा

डेटा को देखने का एक आसान तरीका ग्रुपबी विधि का उपयोग करना है। यह विधि आपको समूह द्वारा डेटा को सारांशित करने में मदद कर सकती है। नीचे समूहों के साथ उपलब्ध तरीकों की एक सूची दी गई है:

  • गिनती: गिनती
  • मिनट: मिनट
  • अधिकतम: अधिकतम
  • औसत औसत
  • माध्यिका: माध्यिका
  • मानक विचलन: sdt
  • आदि

Groupby () के अंदर, आप उस कॉलम का उपयोग कर सकते हैं जिसे आप विधि लागू करना चाहते हैं।

चलो वयस्क डेटासेट के साथ एकल समूहन पर एक नज़र डालते हैं। आपको राजस्व के प्रकार से सभी निरंतर चर का मतलब मिलेगा, अर्थात, 50k से ऊपर या 50k से नीचे

df_train.groupby(['label']).mean() 
उम्र fnlwgt education_num पूंजी लाभ capital_loss घंटे_वेक
लेबल
<= 50 के 36.783738 है 190340.86517 9.595065 148.752468 53.142921 है 38.840210 है
> 50 कि 44.249841 है 188005.00000 रु ११.६११६५7 4006.142456 195.001530 45.473026 है

आप घर के प्रकार से न्यूनतम आयु प्राप्त कर सकते हैं

df_train.groupby (['लेबल']) ['उम्र']। min ()

label<=50K 17>50K 19Name: age, dtype: int64 

आप कई कॉलम द्वारा समूह बना सकते हैं। उदाहरण के लिए, आप घरेलू प्रकार और वैवाहिक स्थिति के अनुसार अधिकतम पूंजी लाभ प्राप्त कर सकते हैं।

df_train.groupby(['label', 'marital'])['capital_gain'].max()label marital<=50K Divorced 34095Married-AF-spouse 2653Married-civ-spouse 41310Married-spouse-absent 6849Never-married 34095Separated 7443Widowed 6849>50K Divorced 99999Married-AF-spouse 7298Married-civ-spouse 99999Married-spouse-absent 99999Never-married 99999Separated 99999Widowed 99999Name: capital_gain, dtype: int64

आप ग्रुपबी के बाद एक प्लॉट बना सकते हैं। इसका एक तरीका यह है कि ग्रुपिंग के बाद प्लॉट का उपयोग किया जाए।

अधिक उत्कृष्ट भूखंड बनाने के लिए, आप माध्य () के बाद अनस्टैक () का उपयोग करेंगे ताकि आपके पास एक ही मल्टीलेवल इंडेक्स हो, या आप 50k से कम और 50k से ऊपर के राजस्व से मूल्यों में शामिल हों। इस स्थिति में, भूखंड के 14 (2 * 7) के बजाय दो समूह होंगे।

यदि आप Jupyter नोटबुक का उपयोग करते हैं, तो% matplotlib इनलाइन जोड़ना सुनिश्चित करें, अन्यथा, कोई भी प्लॉट प्रदर्शित नहीं किया जाएगा

%matplotlib inlinedf_plot = df_train.groupby(['label', 'marital'])['capital_gain'].mean().unstack()df_plot