NLTK टोकन: उदाहरण के साथ शब्द और वाक्य टोकन

विषय - सूची:

Anonim

टोकनेशन क्या है?

टोकनेशन वह प्रक्रिया है जिसके द्वारा बड़ी मात्रा में पाठ को टोकन नामक छोटे भागों में विभाजित किया जाता है। ये टोकन पैटर्न खोजने के लिए बहुत उपयोगी होते हैं और इन्हें स्टेमिंग और लेमेटाइजेशन के लिए एक आधार कदम माना जाता है। टोकनेशन गैर संवेदनशील डेटा तत्वों के साथ संवेदनशील डेटा तत्वों को स्थानापन्न करने में भी मदद करता है।

प्राकृतिक भाषा प्रसंस्करण का उपयोग अनुप्रयोगों के निर्माण के लिए किया जाता है जैसे कि पाठ वर्गीकरण, बुद्धिमान चैटबोट, भावुक विश्लेषण, भाषा अनुवाद, आदि। यह उपर्युक्त उद्देश्य को प्राप्त करने के लिए पाठ में पैटर्न को समझने के लिए महत्वपूर्ण हो जाता है।

कुछ समय के लिए, स्टेमिंग और लेमेटलाइज़ेशन के बारे में चिंता न करें, लेकिन उन्हें एनएलपी (प्राकृतिक भाषा) का उपयोग करके टेक्स्ट डेटा की सफाई के लिए चरणों के रूप में समझें। हम ट्यूटोरियल में बाद में स्टेमिंग और लेमेटेटाइजेशन पर चर्चा करेंगे। टेक्स्ट क्लासिफिकेशन या स्पैम फ़िल्टरिंग जैसे टास्क एनएलपी के साथ-साथ गहरी लर्निंग लाइब्रेरी जैसे किरस और टेन्सरफ्लो का उपयोग करते हैं।

प्राकृतिक भाषा टूलकिट में बहुत महत्वपूर्ण मॉड्यूल एनएलटीके टोकन वाक्य हैं जो आगे उप-मॉड्यूल शामिल हैं

  1. शब्द टोकन
  2. वाक्य टोकन

शब्दों का निरूपण

हम एक वाक्य को शब्दों में विभाजित करने के लिए word_tokenize () विधि का उपयोग करते हैं । मशीन लर्निंग अनुप्रयोगों में बेहतर पाठ समझ के लिए शब्द टोकन का आउटपुट डेटा फ़्रेम में परिवर्तित किया जा सकता है। इसे आगे के पाठ की सफाई के लिए इनपुट के रूप में भी प्रदान किया जा सकता है जैसे विराम चिह्न हटाने, संख्यात्मक चरित्र हटाने या उपजी। मशीन लर्निंग मॉडल को प्रशिक्षित करने और एक भविष्यवाणी करने के लिए संख्यात्मक डेटा की आवश्यकता होती है। संख्यात्मक डेटा रूपांतरण के लिए शब्द टोकन पाठ (स्ट्रिंग) का एक महत्वपूर्ण हिस्सा बन जाता है। शब्दों के बैग या काउंटवेक्टर के बारे में कृपया पढ़ें। सिद्धांत को बेहतर ढंग से समझने के लिए कृपया एनएलटीके उदाहरण के नीचे दिए गए शब्द को देखें।

from nltk.tokenize import word_tokenizetext = "God is Great! I won a lottery."print(word_tokenize(text))Output: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']

कोड स्पष्टीकरण

  1. word_tokenize मॉड्यूल NLTK लाइब्रेरी से आयात किया जाता है।
  2. एक चर "पाठ" को दो वाक्यों के साथ आरंभ किया जाता है।
  3. पाठ चर को word_tokenize मॉड्यूल में पारित किया जाता है और परिणाम मुद्रित किया जाता है। यह मॉड्यूल विराम चिह्न के साथ प्रत्येक शब्द को तोड़ता है जिसे आप आउटपुट में देख सकते हैं।

वाक्यों का निरूपण

उप-मॉड्यूल उपर्युक्त के लिए उपलब्ध है। आपके दिमाग में एक स्पष्ट सवाल यह होगा कि जब शब्द टोकन का विकल्प होता है तो वाक्य टोकन की आवश्यकता क्यों होती है । कल्पना करें कि आपको प्रति वाक्य औसत शब्दों की गणना करने की आवश्यकता है, आप कैसे गणना करेंगे? ऐसे कार्य को पूरा करने के लिए, आपको अनुपात की गणना करने के लिए NLTK वाक्य टोकन के साथ-साथ NLTK शब्द टोकन दोनों की आवश्यकता होती है। ऐसा आउटपुट मशीन प्रशिक्षण के लिए एक महत्वपूर्ण विशेषता के रूप में कार्य करता है क्योंकि उत्तर संख्यात्मक होगा।

नीचे दिए गए NLTK टोकन टोकन उदाहरण की जाँच करें कि कैसे टोकेनाइजेशन शब्दों से अलग है।

from nltk.tokenize import sent_tokenizetext = "God is Great! I won a lottery."print(sent_tokenize(text))Output: ['God is Great!', 'I won a lottery ']

हमारे पास एक ही इनपुट के लिए 12 शब्द और दो वाक्य हैं

कार्यक्रम की व्याख्या:

  1. पिछले प्रोग्राम की तरह एक लाइन में, sent_tokenize मॉड्यूल आयात किया।
  2. हमने वही वाक्य लिया है। एनएलटीके मॉड्यूल में आगे के वाक्य टोकन ने उस वाक्य और आउटपुट को पार्स किया। यह स्पष्ट है कि यह फ़ंक्शन प्रत्येक वाक्य को तोड़ता है।

शब्द टोकन के ऊपर पायथन उदाहरण शब्द के मैकेनिक्स और वाक्य टोकन को समझने के लिए अच्छी सेटिंग्स पत्थर हैं।

सारांश

  • एनएलपी में टोकनेशन वह प्रक्रिया है जिसके द्वारा बड़ी मात्रा में पाठ को टोकन नामक छोटे भागों में विभाजित किया जाता है।
  • प्राकृतिक भाषा प्रसंस्करण का उपयोग अनुप्रयोगों के निर्माण के लिए किया जाता है जैसे कि पाठ वर्गीकरण, बुद्धिमान चैटबोट, भावुक विश्लेषण, भाषा अनुवाद आदि।
  • प्राकृतिक भाषा टूलकिट में बहुत महत्वपूर्ण मॉड्यूल NLTK वाक्य है जो आगे उप-मॉड्यूल को शामिल करता है
  • हम एक वाक्य को शब्दों में विभाजित करने के लिए word_tokenize () विधि का उपयोग करते हैं। एनएलटीके में शब्द टोकन का आउटपुट मशीन लर्निंग एप्लिकेशन में बेहतर टेक्स्ट समझ के लिए डेटा फ़्रेम में परिवर्तित किया जा सकता है।
  • उप-मॉड्यूल उपर्युक्त के लिए उपलब्ध है। पायथन एनएलटीके में सजा टोकन मशीन मशीन प्रशिक्षण के लिए एक महत्वपूर्ण विशेषता है।