Instalarea scânteie apache și ipython

O scurtă notă cu privire la modul de a începe cu Spark Apache pe Ubuntu. Aceasta include, de asemenea, setările folosind IPython pySpark.

Pentru a vă asigura că toate setările pot fi preluate cu ușurință în nor, sa decis să instaleze totul în interiorul mașinii virtuale. Pentru a face acest lucru, vom folosi Hoinar și VirtualBox. În acest articol nu voi intra în detalii despre modul în care funcționează, sau modul în care acestea pot fi personalizate. Vă recomandăm să citiți documentația privind Vagrant, pentru a afla mai multe despre el.

Configurare Virtual Machine prin Hoinar

Creați un nou folder de pe computer, care va fi o casă pentru fișierul Hoinar. Odată ce dosarul este creat du-te în ea și inițializa mașina virtuală. În acest caz, am ales distributia standard Ubuntu 14.04.

Acum, pentru a porni mașina virtuală, rulați comanda:

Aceasta va porni o mașină virtuală. Pentru a-l opri, atunci când doriți să, puteți folosi comanda:

Acum, avem nevoie pentru a merge la o mașină virtuală pentru utilizarea SSH.

Configurarea Ubuntu într-o mașină virtuală

Setați unele pachete de bază de Ubuntu, pentru a vă asigura că unele bibliotecă Python vor funcționa fără probleme.

instalarea Java

Spark Pentru a lucra este necesar ca a fost instalat Java.

Instalarea Scala (dacă este necesar)

Spark unele dintre opțiunile nu sunt încă disponibile pentru accesul și utilizarea de către Python (de exemplu, Graphx MLLib și unele module), asa ca vom instala Scala și să fie capabil să lucreze cu aceste funcții, folosind-o.

Deschideți echipa bash_profile:

și se adaugă următoarele linii:

Descărcați și instalați Apache Spark

Mai întâi descărcați și despachetați arhiva Spark.

Ar trebui să vedeți ceva de genul:

Înainte de a continua, și continuați să configurați PySpark, Python și IPython vom adăuga unele variabile de mediu în sistemul nostru în cazul în care ați instalat Spark.

Deschideți echipa bash_profile:

și adăugați linia:

PySpark coajă

Acum avem o scânteie de lucru, putem folosi Python. Complet cu Spark merge pySpark coajă. Rulați-l folosind:

Apoi te vei găsi în interiorul PySpark și va putea folosi Python pentru a lucra cu Spark.

PySpark - Configurare IPython

În primul rând, set virtualenv, ceea ce ne va permite să lucreze într-un mediu virtual.

Acum activăm acest mediu, și în viitor, vom putea instala biblioteci Python în mediul virtual.

Mai mult IPython stabilit într-un mediu virtual pyEnv. Pentru a instala, utilizați următoarea comandă.

Acum avem IPython instalat în mediul virtual. Următorul pas important este setarea IPython, astfel încât acesta a lucrat cu pySpark nucleu, și am putea începe să utilizați Spark în IPython. Vom face acest lucru prin crearea profilului IPython special pentru Spark.

Acum, că am creat un profil real, pyspark pentru IPython va trebui să-l configurați. Cele mai multe setări pot fi efectuate în fișierul ipython_notebook_config.py. Deschideți acest fișier (am folosi nano pentru editare):

Pentru a începe să se schimbe următoarea linie:

Din moment ce sunt de lucru pe un server virtual, nu vrem să deschidă IPython browser-ul implicit. Pentru ao dezactiva, trebuie să adăugați următoarea linie:

IPython este portul implicit este întotdeauna deschis pentru comunicare. Am decis să utilizeze un alt port. Aveți posibilitatea să modificați portul, adăugați următoarea linie:

și lipiți următorul script în Python. Apoi salvați conținutul.

Pentru a începe IPython, și el ar putea folosi Spark ar trebui să ia destul de mult echipa, asa ca vom crea un alias pentru ea în .bash_profile noastră. Deschideți profilul cu comanda:

și se adaugă următoarele două rânduri:

După ce salvați și închideți, asigurați-vă că reporniți profilul utilizatorului prin utilizarea:

Acum putem rula IPython (folosind piele Spark), folosind alias nou create:

Acum, pe computerul local, deschideți un browser web și du-te la localhost: 8001. Ar trebui să vedeți serverul Notebook IPython.

anterior ◈ următoarea