आर सिंपल, मल्टीपल लीनियर और स्टेप वाइज रिग्रेशन (उदाहरण के साथ)

विषय - सूची:

Anonim

इस ट्यूटोरियल में, आप सीखेंगे

  • सरल रैखिक प्रतिगमन
  • एकाधिक रेखीय प्रतिगमन
  • सतत चर
  • कारक प्रतिगमन
  • स्टेप वाइज रिग्रेशन
  • मशीन लर्निंग
  • पर्यवेक्षित अध्ययन
  • अशिक्षित शिक्षा

सरल रैखिक प्रतिगमन

रैखिक प्रतिगमन एक सरल प्रश्न का उत्तर देता है: क्या आप एक लक्ष्य चर और भविष्यवक्ताओं के समूह के बीच सटीक संबंध को माप सकते हैं?

संभाव्य मॉडल का सरलतम सीधी रेखा मॉडल है:

कहां है

  • y = आश्रित चर
  • x = स्वतंत्र चर
  • = यादृच्छिक त्रुटि घटक
  • = अवरोधन
  • = X का गुणांक

निम्नलिखित कथानक पर विचार करें:

समीकरण इंटरसेप्ट है। यदि x 0 के बराबर है, तो y इंटरसेप्ट के बराबर होगा, 4.77। रेखा का ढलान है। यह बताता है कि किस अनुपात में x भिन्न होता है।

के अधिकतम मूल्य का अनुमान , आप एक विधि कहा जाता है का उपयोग साधारण कम से कम वर्गों (OLS) । यह विधि उन मापदंडों को खोजने की कोशिश करती है जो चुकता त्रुटियों के योग को कम करते हैं, जो कि अनुमानित y मान और वास्तविक मान के बीच की ऊर्ध्वाधर दूरी है। अंतर को त्रुटि शब्द के रूप में जाना जाता है ।

इससे पहले कि आप मॉडल का अनुमान लगाते हैं, आप यह निर्धारित कर सकते हैं कि स्कैल्प्लॉट की साजिश रचने से y और x के बीच एक रैखिक संबंध प्रशंसनीय है या नहीं।

स्कैटर प्लॉट

हम सरल रैखिक प्रतिगमन की अवधारणा को समझाने के लिए एक बहुत ही सरल डेटासेट का उपयोग करेंगे। हम अमेरिकी महिलाओं के लिए औसत ऊंचाई और वजन आयात करेंगे। डेटासेट में 15 अवलोकन होते हैं। आप मापना चाहते हैं कि क्या हाइट वज़न के साथ सकारात्मक रूप से सहसंबद्ध हैं।

library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()

आउटपुट:

स्कैटलपॉट x के बढ़ने पर y के लिए एक सामान्य प्रवृत्ति का सुझाव देता है। अगले चरण में, आप मापेंगे कि प्रत्येक अतिरिक्त के लिए कितना बढ़ता है।

कम से कम वर्गों का अनुमान है

एक साधारण ओएलएस प्रतिगमन में, की गणना सीधा है। लक्ष्य इस ट्यूटोरियल में व्युत्पत्ति नहीं दिखाना है। आप केवल सूत्र लिखेंगे।

आप अनुमान लगाना चाहते हैं:

OLS प्रतिगमन का लक्ष्य निम्नलिखित समीकरण को न्यूनतम करना है:

कहां है

अनुमानित मूल्य है।

के लिए समाधान

ध्यान दें कि एक्स का औसत मूल्य है

के लिए समाधान

R में, आप अनुमान लगाने के लिए cov () और var () फ़ंक्शन का

beta <- cov(df$height, df$weight) / var (df$height)beta

आउटपुट:

##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha

आउटपुट:

## [1] -87.51667

बीटा गुणांक का तात्पर्य है कि प्रत्येक अतिरिक्त ऊंचाई के लिए, वजन 3.45 तक बढ़ जाता है।

मैन्युअल रूप से सरल रेखीय समीकरण का अनुमान लगाना आदर्श नहीं है। आर इन मापदंडों का अनुमान लगाने के लिए एक उपयुक्त कार्य प्रदान करता है। आपको यह फ़ंक्शन शीघ्र ही दिखाई देगा। इससे पहले, हम एक सरल रैखिक प्रतिगमन मॉडल को हाथ से गणना करने का तरीका बताएंगे। डेटा वैज्ञानिक की अपनी यात्रा में, आप एक साधारण रेखीय मॉडल का अनुमान नहीं लगा सकते हैं। ज्यादातर स्थिति में, अनुमान लगाने वाले कार्य बहुत सारे अनुमानकों पर किए जाते हैं।

एकाधिक रेखीय प्रतिगमन

प्रतिगमन विश्लेषण के अधिक व्यावहारिक अनुप्रयोग उन मॉडल को नियोजित करते हैं जो सरल सीधी रेखा के मॉडल की तुलना में अधिक जटिल हैं। संभाव्य मॉडल जिसमें एक से अधिक स्वतंत्र चर शामिल हैं, को एकाधिक प्रतिगमन मॉडल कहा जाता है । इस मॉडल का सामान्य रूप है:

मैट्रिक्स संकेतन में, आप मॉडल को फिर से लिख सकते हैं:

आश्रित चर y अब k स्वतंत्र चर का एक कार्य है। गुणांक का मूल्य

हम संक्षेप में OLS की यादृच्छिक त्रुटि के बारे में बनी धारणा को प्रस्तुत करते हैं :

  • मतलब 0 के बराबर
  • के बराबर भिन्न
  • सामान्य वितरण
  • रैंडम त्रुटियां स्वतंत्र हैं (एक संभाव्य अर्थ में)

आपको पूर्वानुमानित और वास्तविक y मानों के बीच चुकता त्रुटियों के योग को कम करने वाले प्रतिगमन गुणांक के वेक्टर को हल करने की आवश्यकता है ।

बंद-रूप समाधान है:

साथ से:

  • मैट्रिक्स एक्स के संक्रमण को इंगित करता है
  • संकेत करता है कि आवक मैट्रिक्स

हम mtcars डेटासेट का उपयोग करते हैं। आप पहले से ही डेटासेट से परिचित हैं। हमारा लक्ष्य सुविधाओं के एक सेट पर प्रति गैलन मील की भविष्यवाणी करना है।

सतत चर

अभी के लिए, आप केवल निरंतर चर का उपयोग करेंगे और श्रेणीबद्ध विशेषताएं डालेंगे। वेरिएबल एम एक बाइनरी वैरिएबल है जो 1 का मान ले रहा है अगर ट्रांसमिशन मैन्युअल है और 0 ऑटोमैटिक कारों के लिए; बनाम भी एक द्विआधारी चर है।

library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)

आउटपुट:

## Observations: 32## Variables: 6## $ mpg  21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp  160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp  110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat  3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt  2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec  16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2… 

मापदंडों की गणना करने के लिए आप lm () फ़ंक्शन का उपयोग कर सकते हैं। इस फ़ंक्शन का मूल सिंटैक्स है:

lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset

याद रखें एक समीकरण निम्न रूप में है

आर में

  • प्रतीक = को ~ से बदल दिया जाता है
  • प्रत्येक x को चर नाम से प्रतिस्थापित किया जाता है
  • यदि आप स्थिरांक को छोड़ना चाहते हैं, तो सूत्र के अंत में -1 जोड़ें

उदाहरण:

आप अपनी ऊंचाई और राजस्व के आधार पर व्यक्तियों के वजन का अनुमान लगाना चाहते हैं। समीकरण है

R में समीकरण निम्नानुसार लिखा गया है:

y ~ X1 + X2 +… + Xn # इंटरसेप्ट के साथ

तो हमारे उदाहरण के लिए:

  • वजन ~ ऊंचाई + राजस्व

आपका उद्देश्य चर प्रति सेट के आधार पर प्रति गैलन मील का अनुमान लगाना है। अनुमान का समीकरण है:

आप अपने पहले रैखिक प्रतिगमन का अनुमान लगाएंगे और परिणाम को फिट ऑब्जेक्ट में संग्रहीत करेंगे।

model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit

कोड स्पष्टीकरण

  • मॉडल <- mpg ~ । disp + hp + drat + wt: अनुमान लगाने के लिए मॉडल को स्टोर करें
  • एलएम (मॉडल, डीएफ): डेटा फ्रेम डीएफ के साथ मॉडल का अनुमान लगाएं
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015

आउटपुट फिट की गुणवत्ता के बारे में पर्याप्त जानकारी प्रदान नहीं करता है। आप अधिक विवरण जैसे गुणांक के महत्व, स्वतंत्रता की डिग्री और सारांश () फ़ंक्शन के साथ अवशिष्टों के आकार तक पहुंच सकते हैं।

summary(fit)

आउटपुट:

## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

उपरोक्त तालिका आउटपुट से इंजेक्शन

  • उपरोक्त तालिका साबित करती है कि wt और लाभ के बीच एक मजबूत नकारात्मक संबंध है और drat के साथ सकारात्मक संबंध है।
  • केवल वैरिएबल wt का mpg पर एक सांख्यिकीय प्रभाव है। याद रखें, सांख्यिकीय में एक परिकल्पना का परीक्षण करने के लिए, हम उपयोग करते हैं:
    • H0: कोई सांख्यिकीय प्रभाव नहीं
    • H3: भविष्यवक्ता का y पर सार्थक प्रभाव पड़ता है
    • यदि p मान 0.05 से कम है, तो यह इंगित करता है कि वैरिएबल सांख्यिकीय रूप से महत्वपूर्ण है
  • समायोजित आर-स्क्वैयर: मॉडल द्वारा समझाया गया विरेन्स। अपने मॉडल में, मॉडल ने वाई के विचरण के 82 प्रतिशत की व्याख्या की। R चुकता हमेशा 0 और 1. के बीच होता है

एनोवा () फ़ंक्शन के साथ भिन्नताओं पर प्रत्येक सुविधा के प्रभाव का अनुमान लगाने के लिए आप एनोवा परीक्षा चला सकते हैं।

anova(fit)

आउटपुट:

## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

मॉडल प्रदर्शन का अनुमान लगाने का एक और पारंपरिक तरीका विभिन्न उपायों के खिलाफ अवशिष्ट को प्रदर्शित करना है।

आप चार रेखांकन दिखाने के लिए प्लॉट () फ़ंक्शन का उपयोग कर सकते हैं:

- अवशिष्ट बनाम फिट मान

- सामान्य QQ भूखंड: सैद्धांतिक चतुर्थांश बनाम मानकीकृत अवशिष्ट

- स्केल-स्थान: मानकीकृत अवशिष्टों के वर्गमूलों बनाम फिट मान

- अवशिष्ट बनाम उत्तोलन: उत्तोलन बनाम मानकीकृत अवशिष्ट

आप प्लॉट (फिट) से पहले कोड बराबर (mfrow = c (2,2)) जोड़ते हैं। यदि आप कोड की इस पंक्ति को नहीं जोड़ते हैं, तो R आपको अगले ग्राफ़ को प्रदर्शित करने के लिए एंटर कमांड को हिट करने का संकेत देता है।

par(mfrow=(2,2))

कोड स्पष्टीकरण

  • (mfrow = c (2,2)): चार ग्राफ़ के साथ एक विंडो को एक साथ लौटाएँ।
  • पहले 2 पंक्तियों की संख्या को जोड़ता है
  • दूसरा 2 कॉलम की संख्या जोड़ता है।
  • यदि आप लिखते हैं (mfrow = c (3,2)): आप एक 3 पंक्तियों 2 कॉलम विंडो बनाएंगे
plot(fit)

आउटपुट:

एलएम () सूत्र एक सूची देता है जिसमें बहुत सारी उपयोगी जानकारी होती है। आप उन्हें आपके द्वारा बनाई गई फिट ऑब्जेक्ट, $ साइन और उसके बाद जो जानकारी निकालना चाहते हैं, उनके साथ एक्सेस कर सकते हैं।

गुणांक: `फिट $ गुणांक`

- अवशिष्ट: `फिट $ अवशिष्ट`

- सज्जित मूल्य: `फिट $ fitted.values`

कारक प्रतिगमन

अंतिम मॉडल अनुमान में, आप केवल निरंतर चर पर mpg को फिर से प्राप्त करते हैं। मॉडल में कारक चर जोड़ना सीधा है। आप चर को अपने मॉडल में जोड़ते हैं। यह सुनिश्चित करना महत्वपूर्ण है कि चर एक कारक स्तर है और निरंतर नहीं है।

df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))

आउटपुट:

#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124

आधार समूह के रूप में पहले कारक स्तर का उपयोग करता है। आपको आधार समूह के खिलाफ दूसरे समूह के गुणांक की तुलना करने की आवश्यकता है।

स्टेप वाइज रिग्रेशन

इस ट्यूटोरियल का अंतिम भाग स्टेप वाइज रिग्रेशन एल्गोरिथम से संबंधित है। इस एल्गोरिदम का उद्देश्य मॉडल में संभावित उम्मीदवारों को जोड़ना और निकालना है और उन लोगों को रखना है जो आश्रित चर पर महत्वपूर्ण प्रभाव डालते हैं। यह एल्गोरिथ्म सार्थक है जब डेटासेट में भविष्यवक्ताओं की एक बड़ी सूची होती है। आपको स्वतंत्र चर को मैन्युअल रूप से जोड़ने और हटाने की आवश्यकता नहीं है। मॉडल को फिट करने के लिए सर्वश्रेष्ठ उम्मीदवारों का चयन करने के लिए स्टेप वाइज रिग्रेशन बनाया गया है।

आइए कार्रवाई में देखें कि यह कैसे काम करता है। आप mtcars डेटासेट का उपयोग निरंतर चर के साथ केवल शैक्षणिक चित्रण के लिए करते हैं। विश्लेषण शुरू करने से पहले, सहसंबंध मैट्रिक्स के साथ डेटा के बीच विविधताएं स्थापित करने के लिए अच्छा है। GGally लाइब्रेरी ggplot2 का विस्तार है।

लाइब्रेरी में सारांश आंकड़े दिखाने के लिए अलग-अलग कार्य शामिल हैं जैसे कि मैट्रिक्स में सभी चर के सहसंबंध और वितरण। हम ggscatmat फ़ंक्शन का उपयोग करेंगे, लेकिन आप GGally लाइब्रेरी के बारे में अधिक जानकारी के लिए विगनेट को संदर्भित कर सकते हैं।

Ggscatmat () के लिए मूल सिंटैक्स है:

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

आप अपने सभी चरों के लिए सहसंबंध प्रदर्शित करते हैं और यह तय करते हैं कि चरणबद्ध प्रतिगमन के पहले चरण के लिए सबसे अच्छा उम्मीदवार कौन होगा। आपके चर और आश्रित चर, mpg के बीच कुछ मजबूत सहसंबंध हैं।

library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))

आउटपुट:

स्टेप वाइज रिग्रेशन

एक मॉडल को फिट करने के लिए चर चयन एक महत्वपूर्ण हिस्सा है। चरणबद्ध प्रतिगमन खोज प्रक्रिया को स्वचालित रूप से निष्पादित करेगा। डेटासेट में कितने संभावित विकल्प हैं, इसका अनुमान लगाने के लिए, आप k के साथ गणना करते हैं जो कि भविष्यवक्ताओं की संख्या है। संभावनाओं की मात्रा स्वतंत्र चर की संख्या के साथ बड़ी होती है। इसलिए आपको स्वचालित खोज करने की आवश्यकता है।

आपको CRAN से olsrr पैकेज को स्थापित करने की आवश्यकता है। एनाकोंडा में पैकेज अभी तक उपलब्ध नहीं है। इसलिए, आप इसे सीधे कमांड लाइन से इंस्टॉल करते हैं:

install.packages("olsrr")

आप फिट मानदंड (यानी आर-स्क्वायर, समायोजित आर-स्क्वायर, बायेसियन मानदंड) के साथ संभावनाओं के सभी सबसेट को प्लॉट कर सकते हैं। सबसे कम AIC मानदंड वाला मॉडल अंतिम मॉडल होगा।

library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)

कोड स्पष्टीकरण

  • mpg ~ । अनुमान लगाने के लिए मॉडल का निर्माण करें
  • एलएम (मॉडल, डीएफ): ओएलएस मॉडल चलाएं
  • ols_all_subset (फिट): प्रासंगिक सांख्यिकीय जानकारी के साथ रेखांकन बनाएं
  • प्लॉट (परीक्षण): आलेखों को प्लॉट करें

आउटपुट:

रैखिक प्रतिगमन मॉडल निर्भर चर पर एक स्वतंत्र चर के सांख्यिकीय प्रभाव का अनुमान लगाने के लिए टी-परीक्षण का उपयोग करते हैं । शोधकर्ताओं ने अधिकतम सीमा 10 प्रतिशत निर्धारित की है, जिसमें निम्न मान एक मजबूत सांख्यिकीय लिंक को दर्शाता है। संभावित उम्मीदवारों को जोड़ने और हटाने के लिए इस परीक्षण के चारों ओर स्टेप वाइज रिग्रेशन की रणनीति बनाई गई है। एल्गोरिथ्म निम्नानुसार काम करता है:

  • चरण 1: प्रत्येक भविष्यवक्ता को अलग से y पर फिर से लिखें। अर्थात्, y पर x_1 को पुनः प्राप्त करें, x_2 को y से x_n पर। पी-वैल्यू स्टोर करें और एक निर्धारित थ्रेसहोल्ड (0.1 बाय डिफॉल्ट) की तुलना में पी-वैल्यू के साथ रेजिस्टर रखें। थ्रेशोल्ड से कम महत्व वाले भविष्यवक्ताओं को अंतिम मॉडल में जोड़ा जाएगा। यदि कोई चर में प्रवेश सीमा से कम पी-मान नहीं है, तो एल्गोरिथ्म बंद हो जाता है, और आपके पास केवल एक स्थिर के साथ अपना अंतिम मॉडल है।
  • चरण 2: सबसे कम पी-मूल्य के साथ भविष्यवक्ता का उपयोग करें और अलग से एक चर जोड़ता है। आप एक स्थिर, एक कदम और एक तीसरे चर का सबसे अच्छा पूर्वसूचक। आप स्टेपवाइज मॉडल में प्रवेश करते हैं, नए भविष्यवक्ता प्रवेश सीमा से कम मूल्य के होते हैं। यदि किसी चर का 0.1 से कम पी-मान नहीं है, तो एल्गोरिथ्म बंद हो जाता है, और आपके पास केवल एक भविष्यवक्ता के साथ अपना अंतिम मॉडल है। आप चरण 1 सर्वश्रेष्ठ भविष्यवक्ताओं के महत्व की जांच करने के लिए स्टेपवाइज मॉडल को पुनः प्राप्त करते हैं। यदि यह हटाने की सीमा से अधिक है, तो आप इसे चरणबद्ध मॉडल में रखते हैं। अन्यथा, आप इसे बाहर करते हैं।
  • चरण 3: आप नए सर्वश्रेष्ठ स्टेप वाइज मॉडल पर चरण 2 को दोहराते हैं। एल्गोरिथ्म एंट्री मानों के आधार पर स्टेपवाइज मॉडल में भविष्यवाणियों को जोड़ता है और स्टेपवाइज मॉडल से भविष्यवक्ता को बाहर निकालता है यदि यह बहिष्कृत सीमा को संतुष्ट नहीं करता है।
  • एल्गोरिथ्म तब तक चलता रहता है जब तक कोई चर जोड़ा या बाहर नहीं किया जा सकता है।

आप olsrr पैकेज से फ़ंक्शन ols_stepwise () के साथ एल्गोरिथम प्रदर्शन कर सकते हैं।

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:

-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step

इससे पहले, हम आपको एल्गोरिथम के चरण दिखाते हैं। नीचे निर्भर और स्वतंत्र चर के साथ एक तालिका है:

निर्भर चर

स्वतंत्र प्रभावित करने वाली वस्तुएँ

एमपीजी

विवाद

अश्वशक्ति

शराब

wt

qsec

शुरू

के साथ शुरू करने के लिए, एल्गोरिथ्म प्रत्येक स्वतंत्र चर पर मॉडल को अलग से चलाकर शुरू होता है। तालिका प्रत्येक मॉडल के लिए पी-मूल्य दिखाती है।

## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199

मॉडल में प्रवेश करने के लिए, एल्गोरिथ्म चर को सबसे कम पी-मूल्य के साथ रखता है। उपरोक्त आउटपुट से, यह wt है

चरण 1

पहले चरण में, एल्गोरिथ्म डब्ल्यूटी पर mpg और अन्य चर स्वतंत्र रूप से चलाता है।

## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03

प्रत्येक चर अंतिम मॉडल में प्रवेश करने के लिए एक संभावित उम्मीदवार है। हालाँकि, एल्गोरिथ्म केवल चर को निम्न पी-मान के साथ रखता है। यह पता चला कि hp की qsec की तुलना में एक slighlty लोअर p-value है। इसलिए, एचपी अंतिम मॉडल में प्रवेश करता है

चरण 2

एल्गोरिथ्म पहले चरण को दोहराता है लेकिन इस बार अंतिम मॉडल में दो स्वतंत्र चर के साथ।

## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

अंतिम मॉडल में प्रवेश करने वाले चर में से किसी का भी पी-मान पर्याप्त रूप से कम नहीं है। एल्गोरिथ्म यहां बंद हो जाता है; हमारे पास अंतिम मॉडल है:

#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12 

परिणामों की तुलना करने के लिए आप फ़ंक्शन ols_stepwise () का उपयोग कर सकते हैं।

stp_s <-ols_stepwise(fit, details=TRUE)

आउटपुट:

एल्गोरिथ्म में 2 चरणों के बाद एक समाधान पाया जाता है, और उसी आउटपुट को वापस करता है जैसा हमने पहले किया था।

अंत में, आप कह सकते हैं कि मॉडल को दो चर और एक अवरोधन द्वारा समझाया गया है। प्रति गैलन माइल सकल अश्वशक्ति और वजन के साथ नकारात्मक रूप से सहसंबद्ध है

## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.

मशीन लर्निंग

मशीन सीखना डेटा वैज्ञानिक के बीच व्यापक हो रहा है और आपके द्वारा उपयोग किए जाने वाले सैकड़ों उत्पादों में तैनात है। पहले एमएल एप्लिकेशन में से एक स्पैम फ़िल्टर था ।

मशीन लर्निंग के अन्य अनुप्रयोग निम्नलिखित हैं-

  • ईमेल में अवांछित स्पैम संदेशों की पहचान
  • लक्षित विज्ञापन के लिए ग्राहक व्यवहार का विभाजन
  • धोखाधड़ी क्रेडिट कार्ड लेनदेन में कमी
  • घर और कार्यालय भवन में ऊर्जा के उपयोग का अनुकूलन
  • चेहरे की पहचान

पर्यवेक्षित अध्ययन

में देखरेख सीखने , प्रशिक्षण डेटा आप कलन विधि को खिलाने के लिए एक लेबल भी शामिल है।

वर्गीकरण शायद सबसे अधिक इस्तेमाल किया जाने वाला पर्यवेक्षण तकनीक है। पहले वर्गीकरण कार्य शोधकर्ताओं में से एक स्पैम फ़िल्टर था। सीखने का उद्देश्य यह अनुमान लगाना है कि क्या किसी ईमेल को स्पैम या हैम (अच्छा ईमेल) के रूप में वर्गीकृत किया गया है। मशीन, प्रशिक्षण चरण के बाद, ईमेल की कक्षा का पता लगा सकती है।

निरंतर मूल्य का अनुमान लगाने के लिए मशीन सीखने के क्षेत्र में रेजिमेंट्स का आमतौर पर उपयोग किया जाता है। प्रतिगमन कार्य स्वतंत्र चर के एक सेट के आधार पर एक आश्रित चर के मूल्य की भविष्यवाणी कर सकता है (जिसे भविष्यवक्ता या प्रतिगामी भी कहा जाता है)। उदाहरण के लिए, रैखिक प्रतिगमन स्टॉक मूल्य, मौसम पूर्वानुमान, बिक्री और इतने पर भविष्यवाणी कर सकते हैं।

यहाँ कुछ मूलभूत पर्यवेक्षित शिक्षण एल्गोरिदम की सूची दी गई है।

  • रेखीय प्रतिगमन
  • संभार तन्त्र परावर्तन
  • निकटतम पड़ोसी
  • समर्थन वेक्टर मशीन (SVM)
  • निर्णय पेड़ और यादृच्छिक वन
  • तंत्रिका - तंत्र

अशिक्षित शिक्षा

में चलते किसी सीखने , प्रशिक्षण डेटा लेबल नहीं किया गया है। सिस्टम एक संदर्भ के बिना सीखने की कोशिश करता है। नीचे अनिश्चित लर्निंग एल्गोरिदम की एक सूची दी गई है।

  • कश्मीर मीन
  • पदानुक्रमित क्लस्टर विश्लेषण
  • उम्मीद अधिकतमकरण
  • दृश्य और आयाम में कमी
  • प्रमुख कंपोनेंट विश्लेषण
  • कर्नेल पीसीए
  • स्थानीय रूप से रैखिक एम्बेडिंग

सारांश

साधारण न्यूनतम चुकता प्रतिगमन नीचे दी गई तालिका में संक्षेपित किया जा सकता है:

पुस्तकालय

उद्देश्य

समारोह

बहस

आधार

एक रेखीय प्रतिगमन की गणना करें

एलएम ()

सूत्र, डेटा

आधार

संक्षेप में मॉडल

संक्षेप()

फिट

आधार

गुणांक को बाहर निकालना

lm () $ गुणांक

आधार

अवशिष्ट अवशिष्ट

एलएम () $ अवशिष्ट

आधार

सज्जित मूल्य

lm () $ fitted.values

ओल्सर

स्टेप वाइज रिग्रेशन चलाएं

ols_stepwise ()

फिट, पेंट = 0.1, प्रीमियर = 0.3, विवरण = FALSE

ध्यान दें : मॉडल को फिट करने से पहले कारक में स्पष्ट चर को बदलना याद रखें।