Ubuntu पर स्टेप बाय स्टेप कॉन्फ़िगरेशन के साथ Hadoop कैसे स्थापित करें

विषय - सूची:

Anonim

इस ट्यूटोरियल में, हम आपको एक लिनक्स बॉक्स (उबंटू) पर अपाचे हडोप स्थापित करने के लिए कदम से कदम प्रक्रिया के माध्यम से ले जाएंगे। यह 2 भाग प्रक्रिया है

  • भाग 1) Hadoop डाउनलोड और इंस्टॉल करें
  • भाग 2) Hadoop कॉन्फ़िगर करें

2 पूर्वापेक्षाएँ हैं

  • आपके पास Ubuntu स्थापित और चलना चाहिए
  • आपके पास जावा इंस्टाल्ड होना चाहिए।

भाग 1) Hadoop डाउनलोड और इंस्टॉल करें

चरण 1) नीचे दिए गए कमांड का उपयोग करके एक Hadoop सिस्टम उपयोगकर्ता जोड़ें

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

अपना पासवर्ड, नाम और अन्य विवरण दर्ज करें।

नोट: इस सेटअप और स्थापना प्रक्रिया में नीचे-उल्लेखित त्रुटि की संभावना है।

"hduser sudoers फ़ाइल में नहीं है। इस घटना की सूचना दी जाएगी।"

इस त्रुटि को लॉगिन द्वारा मूल उपयोगकर्ता के रूप में हल किया जा सकता है

आदेश निष्पादित करें

sudo adduser hduser_ sudo

Re-login as hduser_

चरण 2) SSH कॉन्फ़िगर करें

किसी क्लस्टर में नोड्स को प्रबंधित करने के लिए, Hadoop को SSH एक्सेस की आवश्यकता होती है

सबसे पहले, उपयोगकर्ता को स्विच करें, निम्नलिखित कमांड दर्ज करें

su - hduser_

यह कमांड एक नई कुंजी बनाएगा।

ssh-keygen -t rsa -P ""

इस कुंजी का उपयोग करके स्थानीय मशीन तक SSH पहुंच सक्षम करें।

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

अब लोकलहोस्ट को 'hduser' उपयोगकर्ता के रूप में जोड़कर SSH सेटअप का परीक्षण करें।

ssh localhost

नोट: कृपया ध्यान दें, यदि आप 'ssh localhost' के जवाब में त्रुटि देखते हैं, तो संभावना है कि SSH इस प्रणाली पर उपलब्ध नहीं है-

इसे हल करने के लिए -

शुद्ध एसएसएच का उपयोग,

sudo apt-get purge openssh-server

स्थापना की शुरुआत से पहले शुद्ध करना अच्छा अभ्यास है

कमांड का उपयोग करके SSH स्थापित करें-

sudo apt-get install openssh-server

चरण 3) अगला चरण Hadoop डाउनलोड करना है

स्थिर का चयन करें

Tar.gz फ़ाइल चुनें (src वाली फ़ाइल नहीं)

एक बार डाउनलोड पूरा होने के बाद, टार फाइल वाली डायरेक्टरी में जाएँ

दर्ज,

sudo tar xzf hadoop-2.2.0.tar.gz

अब, हडॉप के रूप में हैडऑप-2.2.0 का नाम बदल दिया गया

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

भाग 2) Hadoop कॉन्फ़िगर करें

चरण 1) ~ / .bashrc फ़ाइल को संशोधित करें

फ़ाइल के अंत में निम्नलिखित पंक्तियाँ जोड़ें ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

अब, कमांड के नीचे इस पर्यावरण विन्यास का स्रोत

. ~/.bashrc

चरण 2) एचडीएफएस से संबंधित विन्यास

JAVA_HOME फ़ाइल $ HADOOP_HOME / etc / hadoop / hadoop-envsh के अंदर सेट करें

साथ में

$ HADOOP_HOME / etc / hadoop / core-site.xml में दो पैरामीटर हैं जिन्हें सेट करने की आवश्यकता है-

1. 'hadoop.tmp.dir' - एक निर्देशिका निर्दिष्ट करने के लिए उपयोग किया जाता है जिसका उपयोग Hadoop द्वारा अपनी डेटा फ़ाइलों को संग्रहीत करने के लिए किया जाएगा।

2. 'fs.default.name' - यह डिफ़ॉल्ट फ़ाइल सिस्टम को निर्दिष्ट करता है।

इन मापदंडों को सेट करने के लिए, core-site.xml खोलें

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

टैग <कॉन्फ़िगरेशन> के बीच की रेखा के नीचे की प्रतिलिपि बनाएँ

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

$ HADOOP_HOME / etc / Hadoop निर्देशिका में नेविगेट करें

अब, core-site.xml में बताई गई डायरेक्टरी बनाएं

sudo mkdir -p 

निर्देशिका को अनुमतियाँ दें

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

चरण 3) मानचित्र कम करें कॉन्फ़िगरेशन

इससे पहले कि आप इन कॉन्फ़िगरेशनों को शुरू करें, HADOOP_HOME पथ सेट करें

sudo gedit /etc/profile.d/hadoop.sh

और दर्ज करें

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

अगला दर्ज करें

sudo chmod +x /etc/profile.d/hadoop.sh

टर्मिनल से बाहर निकलें और पुनः आरंभ करें

$ HADOOP_HOME echo टाइप करें। पथ सत्यापित करने के लिए

अब फाइल कॉपी करें

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Mapred-site.xml फ़ाइल खोलें

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

टैग <कॉन्फ़िगरेशन> और के बीच सेटिंग की निम्न पंक्तियों को जोड़ें

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

ओपन $ HADOOP_HOME / etc / Hadoop / HDFS-site.xml नीचे के रूप में,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

टैग <कॉन्फ़िगरेशन> और के बीच सेटिंग की निचली पंक्तियों को जोड़ें

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

उपरोक्त सेटिंग में निर्दिष्ट एक निर्देशिका बनाएँ-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

चरण 4) इससे पहले कि हम पहली बार Hadoop शुरू करें, HDFS को कमांड के नीचे प्रारूपित करें

$HADOOP_HOME/bin/hdfs namenode -format

चरण 5) नीचे कमांड का उपयोग करके Hadoop सिंगल नोड क्लस्टर शुरू करें

$HADOOP_HOME/sbin/start-dfs.sh

उपरोक्त आदेश का एक आउटपुट

$HADOOP_HOME/sbin/start-yarn.sh

'Jps' टूल / कमांड का उपयोग करके , सत्यापित करें कि सभी Hadoop संबंधित प्रक्रियाएं चल रही हैं या नहीं।

यदि Hadoop सफलतापूर्वक शुरू हो गया है, तो jps का एक आउटपुट NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode को दिखाना चाहिए।

चरण 6) Hadoop को रोकना

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh