फ्रेशर्स के साथ-साथ अनुभवी डेटा साइंटिस्ट के लिए नौकरी के साक्षात्कार में अक्सर पूछे जाने वाले प्रश्न पूछे जाते हैं।
1. डेटा साइंस क्या है?
डेटा साइंस एल्गोरिदम, टूल्स और मशीन लर्निंग तकनीक का एक संयोजन है जो आपको दिए गए कच्चे डेटा से सामान्य छिपे हुए पैटर्न को खोजने में मदद करता है।
2. डेटा साइंस में लॉजिस्टिक रिग्रेशन क्या है?
लॉजिस्टिक रिग्रेशन को लॉजिट मॉडल भी कहा जाता है। यह भविष्यवाणियों के रैखिक संयोजन से द्विआधारी परिणाम का पूर्वानुमान लगाने की एक विधि है।
3. नमूने के दौरान होने वाली तीन प्रकार की गैसों के नाम बताएं
नमूने प्रक्रिया में, तीन प्रकार के पूर्वाग्रह हैं, जो हैं:
- चयन पूर्वाग्रह
- कवरेज पूर्वाग्रह के तहत
- सर्वाइवरशिप के पक्ष में
4. निर्णय ट्री एल्गोरिथ्म पर चर्चा करें
एक निर्णय पेड़ एक लोकप्रिय पर्यवेक्षित मशीन लर्निंग एल्गोरिदम है। यह मुख्य रूप से प्रतिगमन और वर्गीकरण के लिए उपयोग किया जाता है। यह छोटे उपसमुच्चय में एक डेटासेट को तोड़ने की अनुमति देता है। निर्णय वृक्ष श्रेणीबद्ध और संख्यात्मक डेटा दोनों को संभालने में सक्षम हो सकता है।
5. पूर्व संभाव्यता और संभावना क्या है?
पूर्व संभावना डेटा सेट में आश्रित चर का अनुपात है, जबकि संभावना किसी अन्य चर की उपस्थिति में किसी दिए गए पर्यवेक्षक को वर्गीकृत करने की संभावना है।
6. सिफारिश करने वाले सिस्टम की व्याख्या करें?
यह सूचना फ़िल्टरिंग तकनीकों का एक उपवर्ग है। यह आपको उन प्राथमिकताओं या रेटिंग का अनुमान लगाने में मदद करता है, जो उपयोगकर्ता किसी उत्पाद को देने की संभावना रखते हैं।
7. रैखिक मॉडल का उपयोग करने के तीन नुकसान का नाम
रैखिक मॉडल के तीन नुकसान हैं:
- त्रुटियों की रैखिकता की धारणा।
- आप बाइनरी या गणना परिणामों के लिए इस मॉडल का उपयोग नहीं कर सकते
- ओवरफ़िटिंग की बहुत सारी समस्याएं हैं जिन्हें यह हल नहीं कर सकता है
8. आपको फिर से प्रदर्शन करने की आवश्यकता क्यों है?
नीचे दिए गए मामलों में रेज़ोमिंग की जाती है:
- डेटा बिंदु के एक सेट से प्रतिस्थापन के साथ या सुलभ डेटा के सबसेट के रूप में उपयोग करके बेतरतीब ढंग से ड्राइंग करके नमूना आंकड़ों की सटीकता का अनुमान लगाना
- आवश्यक परीक्षण करते समय डेटा बिंदुओं पर लेबल को प्रतिस्थापित करना
- यादृच्छिक सबसेट का उपयोग करके मॉडल को मान्य करना
9. डेटा विश्लेषण और वैज्ञानिक संगणना के लिए इस्तेमाल किए गए पाइथन में पुस्तकालयों को सूचीबद्ध करें।
- विज्ञान
- पांडा
- माटप्लोटलिब
- Numpy
- SciKit
- समुद्र में रहनेवाला
10. पावर एनालिसिस क्या है?
शक्ति विश्लेषण प्रायोगिक डिजाइन का एक अभिन्न अंग है। यह आपको निर्धारित करने में मदद करता है कि नमूने के आकार को एक विशिष्ट स्तर के आश्वासन के कारण से दिए गए आकार के प्रभाव का पता लगाना है। यह आपको एक नमूना आकार की बाधा में एक विशेष संभावना को तैनात करने की अनुमति देता है।
11. सहयोगात्मक फ़िल्टरिंग की व्याख्या करें
दृष्टिकोण, कई डेटा स्रोतों और विभिन्न एजेंटों के सहयोग से सही पैटर्न की खोज करने के लिए उपयोग किए जाने वाले सहयोगी फ़िल्टरिंग।
12. पूर्वाग्रह क्या है?
मशीन सीखने के एल्गोरिथ्म की देखरेख के कारण बायस आपके मॉडल में एक त्रुटि है।
13. एक Naive Bayes एल्गोरिथम में 'Naive' पर चर्चा करें?
Naive Bayes एल्गोरिथ्म मॉडल Bayes प्रमेय पर आधारित है। यह एक घटना की संभावना का वर्णन करता है। यह परिस्थितियों के पूर्व ज्ञान पर आधारित है जो उस विशिष्ट घटना से संबंधित हो सकता है।
14. रैखिक प्रतिगमन क्या है?
रैखिक प्रतिगमन एक सांख्यिकीय प्रोग्रामिंग विधि है जहां एक चर 'ए' के स्कोर की भविष्यवाणी दूसरे चर 'बी' के स्कोर से की जाती है। B को पूर्वसूचक चर और A को मानदंड चर कहा जाता है।
15. अपेक्षित मूल्य और औसत मूल्य के बीच अंतर बताएं
वे कई अंतर नहीं हैं, लेकिन इन दोनों शब्दों का उपयोग विभिन्न संदर्भों में किया जाता है। जब आप एक प्रायिकता वितरण के बारे में चर्चा करते हैं, तो माध्य मान को आम तौर पर संदर्भित किया जाता है, जबकि अपेक्षित मान एक यादृच्छिक चर के संदर्भ में संदर्भित होता है।
16. A / B परीक्षण करने का उद्देश्य क्या है?
एबी परीक्षण का उपयोग दो चर, ए और बी के साथ यादृच्छिक प्रयोगों का संचालन करने के लिए किया जाता है। इस परीक्षण विधि का लक्ष्य एक रणनीति के परिणाम को अधिकतम करने या बढ़ाने के लिए एक वेब पेज में परिवर्तन का पता लगाना है।
17. एनसेम्बल लर्निंग क्या है?
पहनावा मॉडल की स्थिरता और भविष्य कहनेवाला शक्ति पर सुधार करने के लिए शिक्षार्थियों के विविध सेट को एक साथ संयोजित करने की एक विधि है। सीखने के दो तरीके हैं:
ऊलजलूल का कपड़ा
बैगिंग विधि आपको छोटे नमूना आबादी पर समान शिक्षार्थियों को लागू करने में मदद करती है। यह आपको निकट भविष्यवाणियां करने में मदद करता है।
बढ़ाने
बूस्टिंग एक पुनरावृत्ति विधि है जो आपको अवलोकन के वजन को समायोजित करने की अनुमति देती है जो अंतिम वर्गीकरण पर निर्भर करता है। बूस्टिंग से बायस एरर घटता है और आपको मजबूत प्रेडिक्टिव मॉडल बनाने में मदद मिलती है।
18. आइगेनवेल्यू और आइगेनवेक्टर समझाएं
Eigenvectors रैखिक परिवर्तनों को समझने के लिए हैं। डेटा साइंटिस्ट को कोविर्सियस मैट्रिक्स या सहसंबंध के लिए आइजनवेक्टरों की गणना करने की आवश्यकता होती है। Eigenvalues दिशाओं में संपीड़ित, फ्लिपिंग या स्ट्रेचिंग द्वारा विशिष्ट रैखिक परिवर्तन कृत्यों का उपयोग करने के साथ हैं।
19. शब्द क्रॉस-सत्यापन को परिभाषित करें
क्रॉस-मान्यता एक मूल्यांकन तकनीक है जो यह आंकलन करती है कि सांख्यिकीय विश्लेषण के परिणाम एक स्वतंत्र डेटासेट के लिए कैसे सामान्य होंगे। इस पद्धति का उपयोग पृष्ठभूमि में किया जाता है जहां उद्देश्य पूर्वानुमान है, और किसी को यह अनुमान लगाने की आवश्यकता है कि कोई मॉडल कितनी सटीक रूप से पूरा करेगा।
20. डेटा एनालिटिक्स प्रोजेक्ट के लिए चरणों की व्याख्या करें
एक विश्लेषिकी परियोजना में शामिल निम्नलिखित महत्वपूर्ण कदम हैं:
- बिजनेस की समस्या को समझें
- डेटा का अन्वेषण करें और इसे ध्यान से अध्ययन करें।
- गुम मानों और परिवर्तनशील चरों को खोजकर मॉडलिंग के लिए डेटा तैयार करें।
- मॉडल चलाना शुरू करें और बिग डेटा परिणाम का विश्लेषण करें।
- नए डेटा सेट के साथ मॉडल को मान्य करें।
- मॉडल को लागू करें और एक विशिष्ट अवधि के लिए मॉडल के प्रदर्शन का विश्लेषण करने के लिए परिणाम को ट्रैक करें।
21. कृत्रिम तंत्रिका नेटवर्क पर चर्चा करें
आर्टिफिशियल न्यूरल नेटवर्क (एएनएन) एल्गोरिदम का एक विशेष सेट है जिसमें मशीन लर्निंग में क्रांति हुई है। यह आपको बदलते इनपुट के अनुसार अनुकूलित करने में मदद करता है। तो नेटवर्क आउटपुट मानदंड को फिर से डिज़ाइन किए बिना सर्वोत्तम संभव परिणाम उत्पन्न करता है।
22. बैक प्रोपगेशन क्या है?
पीठ-प्रसार तंत्रिका जाल प्रशिक्षण का सार है। यह एक तंत्रिका जाल के वजन को ट्यूनिंग करने की विधि है जो पिछले युग में प्राप्त त्रुटि दर पर निर्भर करता है। त्रुटि दर को कम करने और इसके सामान्यीकरण को बढ़ाकर मॉडल को विश्वसनीय बनाने में आपकी मदद करता है।
23. एक यादृच्छिक वन क्या है?
रैंडम जंगल एक मशीन सीखने की विधि है जो आपको सभी प्रकार के प्रतिगमन और वर्गीकरण कार्यों को करने में मदद करती है। इसका उपयोग गायब मूल्यों और बाह्य मूल्यों के इलाज के लिए भी किया जाता है।
24. चयन पूर्वाग्रह होने का क्या महत्व है?
चयन पूर्वाग्रह तब होता है जब व्यक्तियों या समूहों या डेटा का विश्लेषण करने के लिए विशिष्ट रैंडमाइजेशन हासिल नहीं किया जाता है। यह बताता है कि दिए गए नमूने उस आबादी का बिल्कुल प्रतिनिधित्व नहीं करते हैं जिसका विश्लेषण करने का इरादा था।
25. K- साधन क्लस्टरिंग विधि क्या है?
K- साधन क्लस्टरिंग एक महत्वपूर्ण अनुपयोगी शिक्षण पद्धति है। यह समूहों के एक निश्चित समूह का उपयोग करके डेटा को वर्गीकृत करने की तकनीक है जिसे K क्लस्टर कहा जाता है। यह डेटा में समानता का पता लगाने के लिए समूहीकरण के लिए तैनात किया गया है।
26. डेटा साइंस और डेटा एनालिटिक्स के बीच अंतर स्पष्ट करें
डेटा वैज्ञानिकों को मूल्यवान अंतर्दृष्टि निकालने के लिए डेटा को स्लाइस करने की आवश्यकता होती है जो डेटा विश्लेषक वास्तविक-विश्व व्यापार परिदृश्यों पर लागू कर सकते हैं। दोनों के बीच मुख्य अंतर यह है कि डेटा वैज्ञानिकों को अधिक तकनीकी ज्ञान है तो व्यापार विश्लेषक। इसके अलावा, उन्हें डेटा विज़ुअलाइज़ेशन के लिए आवश्यक व्यवसाय की समझ की आवश्यकता नहीं है।
27. पी-मूल्य स्पष्ट करें?
जब आप आंकड़ों में एक परिकल्पना परीक्षण करते हैं, तो एक पी-मूल्य आपको अपने परिणामों की ताकत निर्धारित करने की अनुमति देता है। यह 0 और 1 के बीच एक संख्यात्मक संख्या है। मूल्य के आधार पर यह आपको विशिष्ट परिणाम की ताकत को दर्शाने में मदद करेगा।
28. गहरी सीख शब्द को परिभाषित करें
डीप लर्निंग मशीन लर्निंग का एक उपप्रकार है। यह कृत्रिम तंत्रिका नेटवर्क (ANN) नामक संरचना से प्रेरित एल्गोरिदम से संबंधित है।
29. मौसम की स्थिति की भविष्यवाणी करने के लिए सोशल मीडिया का उपयोग करने के लिए डेटा एकत्र करने और विश्लेषण करने की विधि बताएं।
आप फेसबुक, ट्विटर, इंस्टाग्राम के एपीआई के उपयोग से सोशल मीडिया डेटा एकत्र कर सकते हैं। उदाहरण के लिए, ट्वीटर के लिए, हम प्रत्येक ट्वीट से एक फीचर का निर्माण कर सकते हैं जैसे कि ट्वीट की तारीख, रीट्वीट, अनुयायी की सूची इत्यादि। तब आप मौसम की स्थिति का अनुमान लगाने के लिए मल्टीवेरिएट टाइम सीरीज मॉडल का उपयोग कर सकते हैं।
30. आपको डेटा विज्ञान में एल्गोरिदम को अपडेट करने की आवश्यकता कब है?
आपको निम्न स्थिति में एक एल्गोरिथ्म अपडेट करने की आवश्यकता है:
- आप चाहते हैं कि आपका डेटा मॉडल आधारभूत संरचना का उपयोग करके डेटा धाराओं के रूप में विकसित हो
- अंतर्निहित डेटा स्रोत बदल रहा है
अगर यह गैर-स्थिरता है
31. सामान्य वितरण क्या है
एक सामान्य वितरण एक सामान्य वक्र में या घंटी वक्र के आकार में फैले एक सतत चर का एक सेट है। आप इसे निरंतर संभाव्यता वितरण के रूप में मान सकते हैं जो आंकड़ों में उपयोगी है। जब हम सामान्य वितरण वक्र का उपयोग कर रहे हैं तो चर और उनके संबंधों का विश्लेषण करना उपयोगी है।
32. पाठ विश्लेषण के लिए कौन सी भाषा सबसे अच्छी है? आर या पायथन?
पायथन टेक्स्ट एनालिटिक्स के लिए अधिक उपयुक्त होगा क्योंकि इसमें पंडों के रूप में जाना जाने वाला एक समृद्ध पुस्तकालय शामिल है। यह आपको उच्च-स्तरीय डेटा विश्लेषण उपकरण और डेटा संरचनाओं का उपयोग करने की अनुमति देता है, जबकि R यह सुविधा प्रदान नहीं करता है।
33. डेटा वैज्ञानिकों द्वारा आँकड़ों का उपयोग करने के लाभों की व्याख्या करें
आंकड़े ग्राहक की अपेक्षा का बेहतर विचार प्राप्त करने के लिए डेटा वैज्ञानिक की मदद करते हैं। आँकड़ा पद्धति का उपयोग करते हुए डेटा वैज्ञानिक उपभोक्ता की रुचि, व्यवहार, जुड़ाव, प्रतिधारण आदि के बारे में ज्ञान प्राप्त कर सकते हैं। यह आपको कुछ अनुमानों और भविष्यवाणियों को मान्य करने के लिए शक्तिशाली डेटा मॉडल बनाने में भी मदद करता है।
34. विभिन्न प्रकार के डीप लर्निंग फ्रेमवर्क का नाम
- पाइटरॉच
- Microsoft संज्ञानात्मक टूलकिट
- TensorFlow
- Caffè
- चैंबर
- करेस
35. ऑटो-एनकोडर को एक्सप्लेन करें
Autoencoders नेटवर्क सीख रहे हैं। यह आपको त्रुटियों की कम संख्या के साथ इनपुट को आउटपुट में बदलने में मदद करता है। इसका मतलब है कि आपको आउटपुट जितना संभव हो उतना इनपुट के करीब होगा।
36. बोल्ट्जमैन मशीन को परिभाषित करें
बोल्ट्जमैन मशीनें एक सरल शिक्षण एल्गोरिथ्म है। यह आपको उन विशेषताओं को खोजने में मदद करता है जो प्रशिक्षण डेटा में जटिल नियमितताओं का प्रतिनिधित्व करते हैं। यह एल्गोरिथ्म आपको दिए गए समस्या के लिए वजन और मात्रा को अनुकूलित करने की अनुमति देता है।
37. बताएं कि डेटा क्लींजिंग क्यों जरूरी है और स्वच्छ डेटा बनाए रखने के लिए आप किस पद्धति का उपयोग करते हैं
गंदा डेटा अक्सर गलत अंदर ले जाता है, जो किसी भी संगठन की संभावना को नुकसान पहुंचा सकता है। उदाहरण के लिए, यदि आप लक्षित विपणन अभियान चलाना चाहते हैं। हालांकि, हमारा डेटा गलत तरीके से आपको बताता है कि एक विशिष्ट उत्पाद आपके लक्षित दर्शकों के साथ मांग में होगा; अभियान विफल हो जाएगा।
38. तिरछा वितरण और समान वितरण क्या है?
तिरछा वितरण तब होता है जब डेटा को भूखंड के किसी एक तरफ वितरित किया जाता है, जबकि समान वितरण की पहचान तब की जाती है जब डेटा को फैलाया जाता है।
39. जब स्थैतिक मॉडल में अंडरफ़िटिंग होती है?
अंडरफ़िटिंग तब होती है जब एक सांख्यिकीय मॉडल या मशीन लर्निंग एल्गोरिदम डेटा के अंतर्निहित प्रवृत्ति को पकड़ने में सक्षम नहीं होता है।
40. सुदृढीकरण सीखना क्या है?
सुदृढीकरण सीखना एक शिक्षण तंत्र है जो स्थितियों को कार्यों के लिए कैसे मैप करता है। अंतिम परिणाम आपको बाइनरी रिवार्ड सिग्नल को बढ़ाने में मदद करेगा। इस पद्धति में, एक शिक्षार्थी को यह नहीं बताया जाता है कि कौन सी कार्रवाई करनी है, बल्कि यह पता लगाना चाहिए कि कौन सी क्रिया अधिकतम इनाम प्रदान करती है। इनाम / दंड तंत्र पर आधारित इस विधि के रूप में।
41. नाम आमतौर पर इस्तेमाल किया एल्गोरिदम।
डेटा वैज्ञानिक द्वारा चार सबसे अधिक उपयोग किए जाने वाले एल्गोरिदम हैं:
- रेखीय प्रतिगमन
- संभार तन्त्र परावर्तन
- यादृच्छिक वन
- केएनएन
42. परिशुद्धता क्या है?
परिशुद्धता सबसे अधिक इस्तेमाल की जाने वाली त्रुटि मीट्रिक है n वर्गीकरण तंत्र है। इसकी सीमा 0 से 1 तक है, जहां 1 100% का प्रतिनिधित्व करता है
43. एकतरफा विश्लेषण क्या है?
एक विश्लेषण जिसे एक बार में किसी भी विशेषता पर लागू नहीं किया जाता है, उसे एकतरफा विश्लेषण के रूप में जाना जाता है। बॉक्सप्लेट का व्यापक रूप से उपयोग किया जाता है, यूनिवेरेट मॉडल।
44. आप अपने निष्कर्षों के लिए चुनौतियों को कैसे पार करते हैं?
आदेश में, मेरी खोज की चुनौतियों को दूर करने के लिए चर्चा को प्रोत्साहित करने, नेतृत्व का प्रदर्शन करने और विभिन्न विकल्पों का सम्मान करने की आवश्यकता है।
45. डेटा विज्ञान में क्लस्टर नमूनाकरण तकनीक की व्याख्या करें
क्लस्टर नमूनाकरण विधि का उपयोग तब किया जाता है, जब यह लक्ष्य की आबादी के चारों ओर फैले हुए अध्ययन का चुनौतीपूर्ण होता है, और सरल यादृच्छिक नमूना लागू नहीं किया जा सकता है।
46. मान्यकरण सेट और टेस्ट सेट के बीच अंतर बताएं
एक वैलिडेशन सेट को ज्यादातर प्रशिक्षण सेट के एक भाग के रूप में माना जाता है क्योंकि इसका उपयोग पैरामीटर चयन के लिए किया जाता है जो आपको मॉडल के ओवरफिटिंग से बचने में मदद करता है।
जबकि टेस्ट सेट का उपयोग किसी प्रशिक्षित मशीन लर्निंग मॉडल के प्रदर्शन के परीक्षण या मूल्यांकन के लिए किया जाता है।
47. द्विपद संभाव्यता सूत्र शब्द की व्याख्या कीजिए?
"द्विपद वितरण में स्वतंत्र घटनाओं के लिए एन परीक्षणों पर हर संभव सफलता की संभावनाएं होती हैं जिनमें होने की संभावना होती है।"
48. एक रिकॉल क्या है?
एक रिकॉल वास्तविक पॉजिटिव रेट के मुकाबले सही पॉजिटिव रेट का अनुपात है। यह 0 से 1 तक होता है।
49. सामान्य वितरण पर चर्चा करें
सामान्य वितरण समान रूप से वितरित किया जाता है जैसे कि माध्य, माध्य और मोड समान हैं।
50. डेटा सेट पर काम करते समय, आप महत्वपूर्ण चर कैसे चुन सकते हैं? समझाना
चर चयन के निम्नलिखित तरीके जिनका आप उपयोग कर सकते हैं:
- महत्वपूर्ण चर का चयन करने से पहले सहसंबद्ध चर निकालें
- रैखिक प्रतिगमन का उपयोग करें और चर का चयन करें जो उस पी मान पर निर्भर करते हैं।
- बैकवर्ड, फॉरवर्ड सिलेक्शन और स्टेप वाइज सिलेक्शन का उपयोग करें
- Xgboost, रैंडम फ़ॉरेस्ट और प्लॉट चर महत्व चार्ट का उपयोग करें।
- सुविधाओं के दिए गए सेट के लिए सूचना लाभ को मापें और उसके अनुसार शीर्ष n सुविधाओं का चयन करें।
51. क्या सतत और श्रेणीगत चर के बीच संबंध को पकड़ना संभव है?
हां, हम निरंतर और श्रेणीबद्ध चर के बीच सहयोग को पकड़ने के लिए सहसंयोजक तकनीक के विश्लेषण का उपयोग कर सकते हैं।
52. एक श्रेणीगत चर के रूप में एक सतत चर के रूप में व्यवहार करने से एक बेहतर पूर्वानुमान मॉडल होगा?
हां, स्वभावगत मूल्य को केवल एक परिवर्तनशील चर माना जाना चाहिए, जब चर प्रकृति में क्रमबद्ध हो। तो यह एक बेहतर पूर्वानुमान मॉडल है।