वाक्य को टैग करना
वाक्य को व्यापक अर्थ में टैग करना क्रिया के संज्ञा, संज्ञा, इत्यादि के संदर्भ के संदर्भ में जोड़ के अलावा है। पीओएस टैग की पहचान एक जटिल प्रक्रिया है। इस प्रकार पीओएस की जेनेरिक टैगिंग मैन्युअल रूप से संभव नहीं है क्योंकि वाक्य की संरचना के अनुसार कुछ शब्दों के अलग (अस्पष्ट) अर्थ हो सकते हैं। सूची के रूप में पाठ का रूपांतरण टैगिंग से पहले एक महत्वपूर्ण कदम है क्योंकि सूची में प्रत्येक शब्द को किसी विशेष टैग के लिए लूप किया जाता है और गिना जाता है। कृपया इसे बेहतर समझने के लिए नीचे दिया गया कोड देखें
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
आउटपुट
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
कोड स्पष्टीकरण
- Nltk आयात करने के लिए कोड (प्राकृतिक भाषा टूलकिट जिसमें सबमॉड्यूल्स होते हैं जैसे वाक्य टोकन और शब्द टोकन।)
- पाठ जिनके टैग छपे हैं।
- वाक्य टोकन
- लूप के लिए कार्यान्वित किया जाता है जहां शब्दों को वाक्य से टोकन दिया जाता है और प्रत्येक शब्द का टैग आउटपुट के रूप में मुद्रित किया जाता है।
Corpus में POS टैगर्स दो प्रकार के होते हैं:
- नियम आधारित
- स्टोचैस्टिक पीओएस टैगर्स
1. नियम आधारित पीओएस टैगर: अस्पष्ट अर्थ वाले शब्दों के लिए, संदर्भ संबंधी जानकारी के आधार पर नियम-आधारित दृष्टिकोण लागू किया जाता है। यह पूर्ववर्ती या निम्नलिखित शब्द के अर्थ की जांच या विश्लेषण करके किया जाता है। सूचना का विश्लेषण शब्द के आसपास या अपने भीतर से किया जाता है। इसलिए शब्दों को किसी विशेष भाषा के व्याकरणिक नियमों जैसे कि पूंजीकरण और विराम चिह्न द्वारा टैग किया जाता है। जैसे, ब्रिल का टैगर।
2. स्टोकेस्टिक पीओएस टैगर: इस पद्धति के तहत विभिन्न दृष्टिकोण जैसे आवृत्ति या संभावना लागू होते हैं। यदि किसी शब्द को प्रशिक्षण सेट में किसी विशेष टैग के साथ टैग किया जाता है तो परीक्षण वाक्य में उस विशेष टैग को दिया जाता है। शब्द टैग न केवल अपने स्वयं के टैग पर बल्कि पिछले टैग पर भी निर्भर है। यह विधि हमेशा सटीक नहीं होती है। एक अन्य तरीका एक वाक्य में एक विशिष्ट टैग की घटना की संभावना की गणना करना है। इस प्रकार अंतिम टैग की गणना किसी विशेष टैग के साथ किसी शब्द की उच्चतम संभावना की जांच करके की जाती है।
छिपे हुए मार्कोव मॉडल:
एचएमएम का उपयोग करके टैगिंग समस्याओं को भी मॉडलिंग किया जा सकता है। यह इनपुट टोकन को अवलोकनीय अनुक्रम मानता है जबकि टैग को छिपी हुई स्थिति माना जाता है और लक्ष्य छिपे हुए राज्य अनुक्रम को निर्धारित करना है। उदाहरण के लिए x = x 1 , x 2 ,…, x n जहां x टोकन का एक क्रम है, जबकि y = y 1 , y 2 , y 3 , y 4 … y n छिपा अनुक्रम है।
HMM मॉडल कैसे काम करता है?
HMM जॉइन डिस्ट्रीब्यूशन का उपयोग करता है जो P (x, y) है जहाँ x इनपुट अनुक्रम / टोकन अनुक्रम है और y टैग अनुक्रम है।
X के लिए टैग अनुक्रम argmax y1… .yn p (X1, x2,… .xn, y1, y2, y3,…) होगा। हमने पाठ से टैग वर्गीकृत किए हैं, लेकिन ऐसे टैग के आँकड़े महत्वपूर्ण हैं। इसलिए अगला भाग सांख्यिकीय अध्ययन के लिए इन टैगों की गिनती कर रहा है।