एनएलटीके के साथ वर्डनेट: पायथन में शब्दों के लिए पर्यायवाची शब्द खोजना

विषय - सूची:

Anonim

वर्डनेट क्या है?

वर्डनेट एक एनएलटीके कॉर्पस रीडर है, जो अंग्रेजी के लिए एक शाब्दिक डेटाबेस है। इसका उपयोग शब्दों के अर्थ, पर्यायवाची शब्द या एनटोनियम को खोजने के लिए किया जा सकता है। कोई इसे अंग्रेजी के शब्दार्थ उन्मुख शब्दकोश के रूप में परिभाषित कर सकता है। इसे निम्न कमांड के साथ आयात किया जाता है:

from nltk.corpus import wordnet as guru

आँकड़े बताते हैं कि अंग्रेजी वर्डनेट के साथ 155287 शब्द और 117659 पर्यायवाची सेट शामिल हैं।

WordNet के साथ उपलब्ध विभिन्न तरीकों को dir (गुरु) लिखकर पाया जा सकता है

[ '_LazyCorpusLoader__args', '_LazyCorpusLoader__kwargs', '_LazyCorpusLoader__load', '_LazyCorpusLoader__name', '_LazyCorpusLoader__reader_cls', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', ' _ "

आइए हम वर्डनेट के साथ उपलब्ध कुछ विशेषताओं को समझते हैं:

Synset : इसे पर्यायवाची शब्द का पर्यायवाची समुच्चय या संग्रह भी कहा जाता है। आइए एक उदाहरण देखें

from nltk.corpus import wordnetsyns = wordnet.synsets("dog")print(syns)

आउटपुट:

[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]

लेक्सिकल संबंध : ये शब्दार्थ संबंध होते हैं जो पारस्परिक होते हैं। अगर {X1, x2,… xn} और {y1, y2,… yn} के बीच संबंध है, तो {y1, y2,… yn} और {X1, x2,… xn} के बीच भी संबंध है। उदाहरण के लिए पर्यायवाची शब्द एनटोनियम या हाइपरनीम्स के विपरीत है और सम्मोहन लेक्सिकल अवधारणा का प्रकार है।

आइए हम Wordnet का उपयोग करके "सक्रिय" शब्द के पर्यायवाची शब्द और एनटोनियम को खोजने के लिए अजगर का उपयोग करके एक प्रोग्राम लिखें।

from nltk.corpus import wordnetsynonyms = []antonyms = []for syn in wordnet.synsets("active"):for l in syn.lemmas():synonyms.append(l.name())if l.antonyms():antonyms.append(l.antonyms()[0].name())print(set(synonyms))print(set(antonyms))

कोड का उत्पादन:

{'डायनेमिक', 'फाइटिंग', 'मुकाबला-रेडी', 'एक्टिव_वोइस', 'एक्टिव_जेंट', 'पार्टिसिपेटिंग', 'जिंदा', 'एक्टिव'} - पर्याय

{'मूल', 'निष्क्रिय', 'शांत', 'निष्क्रिय_वायु', 'विलुप्त', 'निष्क्रिय', 'निष्क्रिय'} - एंटोनियम

कोड की व्याख्या

  1. वर्डनेट एक कॉर्पस है, इसलिए इसे ntlk.corpus से आयात किया जाता है
  2. पर्यायवाची और एनटोनियम दोनों की सूची को खाली के रूप में लिया जाता है, जिसका उपयोग संलग्न करने के लिए किया जाएगा
  3. सक्रिय शब्द के पर्यायवाची शब्द मॉड्यूल के पर्यायवाची में खोजे जाते हैं और सूची के पर्यायवाची शब्दों में जोड़े जाते हैं। उसी प्रक्रिया को दूसरे के लिए दोहराया जाता है।
  4. आउटपुट छपा है

निष्कर्ष:

वर्डनेट एक लेक्सिकल डेटाबेस है जिसका उपयोग एक प्रमुख खोज इंजन द्वारा किया गया है। वर्डनेट से, किसी दिए गए शब्द या वाक्यांश के बारे में जानकारी की गणना इस तरह की जा सकती है

  • पर्यायवाची (समान अर्थ वाले शब्द)
  • हाइपरनीम (विशिष्ट शब्द क्लासिक्स निर्दिष्ट करने के लिए इस्तेमाल किया जाता है (यानी, भोजन एक नाश्ता है), सम्मोहन (चावल एक भोजन है)
  • होलोनियम (प्रोटीन, कार्बोहाइड्रेट भोजन का हिस्सा हैं)
  • विलय (भोजन दैनिक भोजन का हिस्सा है)

वर्डनेट सह-समन्वित शर्तों, व्युत्पन्न, इंद्रियों और अधिक की जानकारी भी प्रदान करता है। इसका उपयोग किसी भी दो शब्दों के बीच समानता खोजने के लिए किया जाता है। यह संबंधित शब्द के परिणामों पर भी जानकारी रखता है। संक्षेप में या संक्षेप में, इसे शब्दकोश या थिसॉरस के रूप में माना जा सकता है। वर्डनेट में गहराई से जाने पर, इसे चार कुल सबनेट में विभाजित किया जाता है जैसे कि

  1. संज्ञा
  2. क्रिया
  3. विशेषण
  4. क्रिया विशेषण

इसका उपयोग पाठ विश्लेषण के लिए कृत्रिम बुद्धिमत्ता के क्षेत्र में किया जा सकता है। वर्डनेट की मदद से, आप वर्तनी जाँच, भाषा अनुवाद, स्पैम का पता लगाने और बहुत कुछ के लिए अपना कोष बना सकते हैं।

उसी तरह, आप इस कॉर्पस का उपयोग कर सकते हैं और इसे कुछ गतिशील कार्यक्षमता काम करने के लिए मोल्ड कर सकते हैं। यह आपके लिए तैयार किए गए कोष की तरह है। आप इसे अपने तरीके से इस्तेमाल कर सकते हैं।