इस ट्यूटोरियल में, हम आपको एक लिनक्स बॉक्स (उबंटू) पर अपाचे हडोप स्थापित करने के लिए कदम से कदम प्रक्रिया के माध्यम से ले जाएंगे। यह 2 भाग प्रक्रिया है
- भाग 1) Hadoop डाउनलोड और इंस्टॉल करें
- भाग 2) Hadoop कॉन्फ़िगर करें
2 पूर्वापेक्षाएँ हैं
- आपके पास Ubuntu स्थापित और चलना चाहिए
- आपके पास जावा इंस्टाल्ड होना चाहिए।
भाग 1) Hadoop डाउनलोड और इंस्टॉल करें
चरण 1) नीचे दिए गए कमांड का उपयोग करके एक Hadoop सिस्टम उपयोगकर्ता जोड़ें
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
अपना पासवर्ड, नाम और अन्य विवरण दर्ज करें।
नोट: इस सेटअप और स्थापना प्रक्रिया में नीचे-उल्लेखित त्रुटि की संभावना है।
"hduser sudoers फ़ाइल में नहीं है। इस घटना की सूचना दी जाएगी।"
इस त्रुटि को लॉगिन द्वारा मूल उपयोगकर्ता के रूप में हल किया जा सकता है
आदेश निष्पादित करें
sudo adduser hduser_ sudo
Re-login as hduser_
चरण 2) SSH कॉन्फ़िगर करें
किसी क्लस्टर में नोड्स को प्रबंधित करने के लिए, Hadoop को SSH एक्सेस की आवश्यकता होती है
सबसे पहले, उपयोगकर्ता को स्विच करें, निम्नलिखित कमांड दर्ज करें
su - hduser_
यह कमांड एक नई कुंजी बनाएगा।
ssh-keygen -t rsa -P ""
इस कुंजी का उपयोग करके स्थानीय मशीन तक SSH पहुंच सक्षम करें।
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
अब लोकलहोस्ट को 'hduser' उपयोगकर्ता के रूप में जोड़कर SSH सेटअप का परीक्षण करें।
ssh localhost
नोट: कृपया ध्यान दें, यदि आप 'ssh localhost' के जवाब में त्रुटि देखते हैं, तो संभावना है कि SSH इस प्रणाली पर उपलब्ध नहीं है-
इसे हल करने के लिए -
शुद्ध एसएसएच का उपयोग,
sudo apt-get purge openssh-server
स्थापना की शुरुआत से पहले शुद्ध करना अच्छा अभ्यास है
कमांड का उपयोग करके SSH स्थापित करें-
sudo apt-get install openssh-server
चरण 3) अगला चरण Hadoop डाउनलोड करना है
स्थिर का चयन करें
Tar.gz फ़ाइल चुनें (src वाली फ़ाइल नहीं)
एक बार डाउनलोड पूरा होने के बाद, टार फाइल वाली डायरेक्टरी में जाएँ
दर्ज,
sudo tar xzf hadoop-2.2.0.tar.gz
अब, हडॉप के रूप में हैडऑप-2.2.0 का नाम बदल दिया गया
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
भाग 2) Hadoop कॉन्फ़िगर करें
चरण 1) ~ / .bashrc फ़ाइल को संशोधित करें
फ़ाइल के अंत में निम्नलिखित पंक्तियाँ जोड़ें ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
अब, कमांड के नीचे इस पर्यावरण विन्यास का स्रोत
. ~/.bashrc
चरण 2) एचडीएफएस से संबंधित विन्यास
JAVA_HOME फ़ाइल $ HADOOP_HOME / etc / hadoop / hadoop-envsh के अंदर सेट करें
साथ में
$ HADOOP_HOME / etc / hadoop / core-site.xml में दो पैरामीटर हैं जिन्हें सेट करने की आवश्यकता है-
1. 'hadoop.tmp.dir' - एक निर्देशिका निर्दिष्ट करने के लिए उपयोग किया जाता है जिसका उपयोग Hadoop द्वारा अपनी डेटा फ़ाइलों को संग्रहीत करने के लिए किया जाएगा।
2. 'fs.default.name' - यह डिफ़ॉल्ट फ़ाइल सिस्टम को निर्दिष्ट करता है।
इन मापदंडों को सेट करने के लिए, core-site.xml खोलें
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
टैग <कॉन्फ़िगरेशन> कॉन्फ़िगरेशन> के बीच की रेखा के नीचे की प्रतिलिपि बनाएँ
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
$ HADOOP_HOME / etc / Hadoop निर्देशिका में नेविगेट करें
अब, core-site.xml में बताई गई डायरेक्टरी बनाएं
sudo mkdir -p
निर्देशिका को अनुमतियाँ दें
sudo chown -R hduser_:Hadoop_
sudo chmod 750
चरण 3) मानचित्र कम करें कॉन्फ़िगरेशन
इससे पहले कि आप इन कॉन्फ़िगरेशनों को शुरू करें, HADOOP_HOME पथ सेट करें
sudo gedit /etc/profile.d/hadoop.sh
और दर्ज करें
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
अगला दर्ज करें
sudo chmod +x /etc/profile.d/hadoop.sh
टर्मिनल से बाहर निकलें और पुनः आरंभ करें
$ HADOOP_HOME echo टाइप करें। पथ सत्यापित करने के लिए
अब फाइल कॉपी करें
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Mapred-site.xml फ़ाइल खोलें
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
टैग <कॉन्फ़िगरेशन> और कॉन्फ़िगरेशन> के बीच सेटिंग की निम्न पंक्तियों को जोड़ें
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
ओपन $ HADOOP_HOME / etc / Hadoop / HDFS-site.xml नीचे के रूप में,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
टैग <कॉन्फ़िगरेशन> और कॉन्फ़िगरेशन> के बीच सेटिंग की निचली पंक्तियों को जोड़ें
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
उपरोक्त सेटिंग में निर्दिष्ट एक निर्देशिका बनाएँ-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
चरण 4) इससे पहले कि हम पहली बार Hadoop शुरू करें, HDFS को कमांड के नीचे प्रारूपित करें
$HADOOP_HOME/bin/hdfs namenode -format
चरण 5) नीचे कमांड का उपयोग करके Hadoop सिंगल नोड क्लस्टर शुरू करें
$HADOOP_HOME/sbin/start-dfs.sh
उपरोक्त आदेश का एक आउटपुट
$HADOOP_HOME/sbin/start-yarn.sh
'Jps' टूल / कमांड का उपयोग करके , सत्यापित करें कि सभी Hadoop संबंधित प्रक्रियाएं चल रही हैं या नहीं।
यदि Hadoop सफलतापूर्वक शुरू हो गया है, तो jps का एक आउटपुट NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode को दिखाना चाहिए।
चरण 6) Hadoop को रोकना
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh