एनएलटीके के साथ पीओएस टैगिंग और एनएलपी में परीक्षा (परीक्षा)

विषय - सूची:

Anonim

पीओएस टैगिंग

पीओएस टैगिंग (भाषण टैगिंग के भाग) एक पाठ के प्रारूप में शब्दों को अपनी परिभाषा और संदर्भ के आधार पर किसी विशेष भाग के लिए चिह्नित करने की एक प्रक्रिया है। यह एक भाषा में पाठ पढ़ने और प्रत्येक शब्द के लिए कुछ विशिष्ट टोकन (पार्ट्स ऑफ़ स्पीच) निर्दिष्ट करने के लिए जिम्मेदार है। इसे व्याकरणिक टैगिंग भी कहा जाता है।

आइए जानें एनएलटीके भाषण के भाग के साथ:

इनपुट: हमें अनुमति देने के लिए सब कुछ।

आउटपुट : [('सब कुछ', एनएन), ('टू', टू), ('परमिट', वीबी), ('हम', पीआरपी)]

पीओएस टैगिंग उदाहरण में शामिल कदम:

  • टेक्स्ट को टोकन करें (word_tokenize)
  • ऊपर दिए गए कदम के लिए pos_tag लागू करें जो nltk.pos_tag (tokenize_text) है

एनएलटीके पीओएस टैग उदाहरण नीचे दिए गए हैं:

संक्षिप्त जिसका अर्थ है
सीसी समायोजन समुच्च्यबोधक
सीडी कार्डिनल अंक
डीटी निर्धारक
भूतपूर्व वहाँ मौजूद है
परिवार कल्याण विदेशी शब्द
में पूर्वसर्ग / अधीनस्थ संयोजन
जे जे यह एनएलटीके पीओएस टैग एक विशेषण (बड़ा) है
जे जे आर विशेषण, तुलनात्मक (बड़ा)
जे जे एस विशेषण, अतिशयोक्ति (सबसे बड़ा)
रास सूची बाजार
मोहम्मद मोडल (कर सकता है, करेगा)
एनएन संज्ञा, एकवचन (बिल्ली, पेड़)
एनएनएस संज्ञा बहुवचन (डेस्क)
एनएनपी उचित संज्ञा, एकवचन (सारा)
NNPS उचित संज्ञा, बहुवचन (इंडियंस या एमरिकन्स)
पीडीटी पूर्व निर्धारित (सभी, दोनों, आधा)
स्थिति अधिकार संपन्न (माता-पिता)
पीआरपी व्यक्तिगत सर्वनाम (उसका, स्वयं, उसे, स्वयं)
PRP $ सर्वनाम सर्वनाम (उसका, उसका, मेरा, मेरा, हमारा)
आरबी क्रिया विशेषण (कभी-कभी, तेज़ी से)
आरबीआर क्रिया विशेषण, तुलनात्मक (अधिक से अधिक)
आरबीएस क्रिया विशेषण, सबसे बड़ा (सबसे बड़ा)
आरपी कण (के बारे में)
सेवा मेरे अनंत मार्कर (को)
उह हस्तक्षेप (अलविदा)
वीबी क्रिया (पूछना)
वीबीजी क्रिया गेरुंड (न्याय करना)
वीबीडी क्रिया भूत काल (विनती)
वीबीएन क्रिया पिछले कृदंत (पुनर्मिलन)
वीबीपी क्रिया, वर्तमान काल नहीं 3 व्यक्ति एकवचन (रैप)
वीबीजेड क्रिया, तृतीय व्यक्ति एकवचन (आधार) के साथ वर्तमान काल
WDT wh- निर्धारक (कि, क्या)
WP क- सर्वनाम (कौन)
WRB क- क्रिया विशेषण (कैसे)

उपरोक्त NLTK POS टैग सूची में सभी NLTK POS टैग शामिल हैं। NLTK POS टैगर का उपयोग वाक्य के प्रत्येक शब्द की व्याकरणिक जानकारी प्रदान करने के लिए किया जाता है। पीओएस एनएलटीके के सभी पैकेजों को स्थापित, आयात और डाउनलोड करना पूरा हो गया है।

एनएलपी में चंकिंग क्या है?

एनएलपी में चैंकिंग सूचना के छोटे टुकड़ों को लेने और उन्हें बड़ी इकाइयों में समूहित करने की एक प्रक्रिया है। चंकिंग का प्राथमिक उपयोग "संज्ञा वाक्यांश" के समूह बना रहा है। इसका उपयोग नियमित अभिव्यक्तियों के साथ संयुक्त पीओएस टैगिंग के बाद वाक्य में संरचना को जोड़ने के लिए किया जाता है। शब्दों के परिणामी समूह को "चंक्स" कहा जाता है। इसे उथला पार्सिंग भी कहा जाता है।

उथले पार्सिंग में, जड़ों और पत्तियों के बीच अधिकतम एक स्तर होता है जबकि गहरे पार्सिंग में एक से अधिक स्तर होते हैं। शॉलो पार्सिंग को लाइट पार्सिंग या चंकिंग भी कहा जाता है।

चंकिंग के नियम:

कोई पूर्व-परिभाषित नियम नहीं हैं, लेकिन आप उन्हें आवश्यकता और आवश्यकता के अनुसार जोड़ सकते हैं।

उदाहरण के लिए, आपको वाक्य से संज्ञा, क्रिया (भूत काल), विशेषण और समन्वय जंक्शन को टैग करना होगा। आप नीचे दिए गए नियम का उपयोग कर सकते हैं

chunk: { * * * * }?

निम्नलिखित तालिका से पता चलता है कि विभिन्न प्रतीक का क्या अर्थ है:

प्रतीक का नाम विवरण
नई लाइन को छोड़कर कोई भी चरित्र
* मैच 0 या अधिक दोहराव
? मैच 0 या 1 दोहराव

अब हमें नियम को बेहतर समझने के लिए कोड लिखें

from nltk import pos_tagfrom nltk import RegexpParsertext ="learn php from guru99 and make study easy".split()print("After Split:",text)tokens_tag = pos_tag(text)print("After Token:",tokens_tag)patterns= """mychunk:{***?}"""chunker = RegexpParser(patterns)print("After Regex:",chunker)output = chunker.parse(tokens_tag)print("After Chunking",output)

उत्पादन

After Split: ['learn', 'php', 'from', 'guru99', 'and', 'make', 'study', 'easy']After Token: [('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN'), ('and', 'CC'), ('make', 'VB'), ('study', 'NN'), ('easy', 'JJ')]After Regex: chunk.RegexpParser with 1 stages:RegexpChunkParser with 1 rules:***?'>After Chunking (S(mychunk learn/JJ)(mychunk php/NN)from/IN(mychunk guru99/NN and/CC)make/VB(mychunk study/NN easy/JJ))

पायथन टैगिंग के उपरोक्त भाग से निष्कर्ष उदाहरण: "मेक" एक क्रिया है जो नियम में शामिल नहीं है, इसलिए इसे माइचंक के रूप में टैग नहीं किया गया है

चैंकिंग के मामले का उपयोग करें

इकाई का पता लगाने के लिए चूनिंग का उपयोग किया जाता है। एक इकाई वाक्य का वह हिस्सा है जिसके द्वारा किसी भी उद्देश्य के लिए मशीन को मूल्य मिलता है

Example:Temperature of New York.Here Temperature is the intention and New York is an entity.

दूसरे शब्दों में, चुंकिंग का उपयोग टोकन के सबसेट को चुनने के रूप में किया जाता है। टोकन का चयन करने के लिए कैसे chunking का उपयोग किया जाता है यह समझने के लिए कृपया नीचे दिए गए कोड का पालन करें। इस उदाहरण में, आप ग्राफ़ देखेंगे जो संज्ञा वाक्यांश के एक भाग के अनुरूप होगा। हम कोड लिखेंगे और बेहतर समझ के लिए ग्राफ तैयार करेंगे।

कोड का उपयोग मामले को प्रदर्शित करने के लिए

import nltktext = "learn php from guru99"tokens = nltk.word_tokenize(text)print(tokens)tag = nltk.pos_tag(tokens)print(tag)grammar = "NP: {
?*}"cp =nltk.RegexpParser(grammar)result = cp.parse(tag)print(result)result.draw() # It will draw the pattern graphically which can be seen in Noun Phrase chunking

आउटपुट :

['learn', 'php', 'from', 'guru99'] -- These are the tokens[('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN')] -- These are the pos_tag(S (NP learn/JJ php/NN) from/IN (NP guru99/NN)) -- Noun Phrase Chunking

ग्राफ़

संज्ञा वाक्यांश chunking ग्राफ

ग्राफ से, हम यह निष्कर्ष निकाल सकते हैं कि "सीखें" और "गुरु 99" दो अलग-अलग टोकन हैं, लेकिन इन्हें नॉन वाक्यांश के रूप में वर्गीकृत किया गया है जबकि टोकन "से" नाउन वाक्यांश से संबंधित नहीं है।

चुंकिंग का उपयोग विभिन्न टोकन को एक ही चंक में वर्गीकृत करने के लिए किया जाता है। परिणाम व्याकरण पर निर्भर करेगा जिसे चुना गया है। इसके अलावा चुनकिंग एनएलटीके का उपयोग पैटर्न को टैग करने और टेक्स्ट कॉर्पोरा का पता लगाने के लिए किया जाता है।

सारांश

  • एनएलटीके में पीओएस टैगिंग इसकी परिभाषा और संदर्भ के आधार पर भाषण के किसी विशेष भाग के लिए पाठ प्रारूप में शब्दों को चिह्नित करने की एक प्रक्रिया है।
  • कुछ एनएलटीके पीओएस टैगिंग उदाहरण हैं: सीसी, सीडी, ईएक्स, जेजे, एमडी, एनएनपी, पीडीटी, पीआरपी $, टीओ, आदि।
  • पीओएस टैगर का उपयोग वाक्य के प्रत्येक शब्द की व्याकरणिक जानकारी प्रदान करने के लिए किया जाता है। एनएलटीके के साथ भाग टैगिंग के सभी पैकेजों को स्थापित करना, आयात करना और डाउनलोड करना पूरा हो गया है।
  • एनएलपी में चूनिंग जानकारी के छोटे टुकड़ों को लेने और उन्हें बड़ी इकाइयों में समूहित करने की एक प्रक्रिया है।
  • कोई पूर्व-परिभाषित नियम नहीं हैं, लेकिन आप उन्हें आवश्यकता और आवश्यकता के अनुसार जोड़ सकते हैं।
  • इकाई का पता लगाने के लिए चूनिंग का उपयोग किया जाता है। एक इकाई वाक्य का वह हिस्सा है जिसके द्वारा किसी भी उद्देश्य के लिए मशीन को मूल्य मिलता है
  • चुंकिंग का उपयोग विभिन्न टोकन को एक ही चंक में वर्गीकृत करने के लिए किया जाता है।