Temy na projekty - Hadoop MapReduce

Moderátor: FeroG

<<

FeroG

Príspevky: 1290

Registrovaný: Uto Máj 29, 2007 11:25 am

Poslať Str Mar 20, 2013 11:48 pm

Temy na projekty - Hadoop MapReduce

Temu projektu si mozete vymysliet. Treba ju vsak vopred skonzultovat. Kedze nie je jasne, kolki budu mat zaujem o Hadoop projekt, temy nie su vymyslane "dopredu". Na stretnuti som ale slubil, ze nejake temy vymyslim a navrhnem. Zacinam teda s nejakymi navrhami.

Nazov: Najaktivnejsi den
V ramci firmy mame niekolko webserverov postavenych na Apache. Apache generuje logy vo formate: http://www.monitorware.com/en/logsamples/apache.php Kazdy riadok logu zodpoveda jednemu dotazu na server. Logovacich suborov mame vela (z roznych dni a z roznych serverov). Pre kazdeho pouzivatela (=IP adresu) chceme urcit najvacsi pocet dotazov vygenerovanych tymto pouzivatelom za jeden den na vsetky spravovane servery dokopy. Priklad: ak z IP 64.242.88.10 bolo 1.1. 300 dotazov, 12.1. 200 dotazov, 13.1. 350 dotazov a 30.1. 180 dotazov, tak vo vystupnom subore pribudne zaznam (riadok) v tvare: 64.242.88.10 350.

Podmienky: Projekt za 20 bodov musi tuto ulohu vyriesit tak, aby (1) co "najviac" prace spravil Hadoop, t.j. nie komponenty (Mapper, Reducer, Partitioner, ...) vami napisane (2) optimalizovali ste beh v distribuovanom prostredi [vhodny Combiner] (3) pamatove naroky kazdeho z vasich komponentov by mali byt O(1)
Rada: implementacia bude vyzadovat naprogramovanie vlastnej vhodnej implementacie WritableComparable.

Nazov: Ostatna navsteva
V ramci firmy mame niekolko webserverov postavenych na Apache. Apache generuje logy vo formate: http://www.monitorware.com/en/logsamples/apache.php Kazdy riadok logu zodpoveda jednemu dotazu na server. Logovacich suborov mame vela (z roznych dni a z roznych serverov). Pre kazdeho pouzivatela (=IP adresu) chceme urcit datum a cas jeho ostatneho dotazu na niektory zo spravovanych serverov.

Podmienky: Projekt za 15 bodov musi tuto ulohu vyriesit tak, aby (1) co "najviac" prace spravil Hadoop, t.j. nie komponenty (Mapper, Reducer, Partitioner, ...) vami napisane (2) optimalizovali ste beh v distribuovanom prostredi [vhodny Combiner] (3) pamatove naroky kazdeho z vasich komponentov by mali byt O(1)
<<

mirak

Príspevky: 119

Registrovaný: Štv Okt 01, 2009 9:24 pm

Bydlisko: Kosicky Invader

Poslať Pia Mar 22, 2013 12:45 am

Re: Temy na projekty - Hadoop MapReduce

Tymto deklarujem svoj zaujem o Hadoop projekt, konkretny vybraty este nemam. Mam k dispozicii cca 40MB velky access_log z apache servera, tak projekt asi budem robit nad nim. Akurat logy oproti hore uvedenemu linku su trosicku odlisne:
  Kód:
188.123.100.130 - - [13/Sep/2012:15:29:37 +0200] "GET /favicon.ico HTTP/1.1" 404 28 "-" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1"
188.123.100.130 - - [13/Sep/2012:15:32:32 +0200] "GET / HTTP/1.1" 403 202 "-" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1"
188.123.100.130 - - [13/Sep/2012:15:35:08 +0200] "GET / HTTP/1.1" 403 202 "-" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1"

V suvislosti s tym mi napada nieco take, ze pre kazdu IP by som mohol zistovat, ake prehliadace/zariadenia/what-so-ever navstevnik pouzil (vacsina ludi je sice verna tomu svojmu prehliadacu, ale su ludia, ktori sa mozno pozeraju na web cez mobil cez wifi z domaceho routera). Neviem zatial, co to bude obnasat a fakt netusim, ci je to lahke alebo tazke.
<<

FeroG

Príspevky: 1290

Registrovaný: Uto Máj 29, 2007 11:25 am

Poslať Pia Mar 22, 2013 8:39 am

Re: Temy na projekty - Hadoop MapReduce

mirak píše:Tymto deklarujem svoj zaujem o Hadoop projekt, konkretny vybraty este nemam

Treba cim skor specifikovat.

mirak píše: Akurat logy oproti hore uvedenemu linku su trosicku odlisne:

S tymto nie je problem. Pointa ulohy je skusit si nieco sprogramovat na Hadoop frameworkom. Odkaz na tie logy som dal hlavne pre tych, ktori nemaju pristup k nejakym "vlastnym logom".

mirak píše:pre kazdu IP by som mohol zistovat, ake prehliadace/zariadenia/what-so-ever

Aj toto je fajn. Ibaze pokial ide o narocnost, to by bol projekt na urovni do 10 bodov, kedze ak odratam rozparsovanie riadku logu (vybranie IP a popisu prehliadaca), stacili by len dost jednoduche modifikacie demonstracneho kodu na pocitanie slov.
<<

mirak

Príspevky: 119

Registrovaný: Štv Okt 01, 2009 9:24 pm

Bydlisko: Kosicky Invader

Poslať Štv Mar 28, 2013 12:13 pm

Re: Temy na projekty - Hadoop MapReduce

hlasim sa na projekt Najaktivnejsi den.
<<

bwpow

Príspevky: 634

Registrovaný: Str Nov 22, 2006 11:19 am

Bydlisko: Košice

Poslať Sob Mar 30, 2013 3:26 am

Re: Temy na projekty - Hadoop MapReduce

Nechcem byt negativisticky, ale analyza tych logov je ako stvorena pre Hive :)
Strach dát najevo své pocity a zjednat si u druhých respekt je jedním z problémů civilizovaného člověka, který se naučil zpochybňovat svou vlastní pravdu pro zdání objektivity
<<

FeroG

Príspevky: 1290

Registrovaný: Uto Máj 29, 2007 11:25 am

Poslať Sob Mar 30, 2013 8:59 am

Re: Temy na projekty - Hadoop MapReduce

bwpow píše:Nechcem byt negativisticky, ale analyza tych logov je ako stvorena pre Hive :)

To nepopieram. Ved koniec koncov Hive je len akasi nadstavba nad HDFS + MapReduce (datovy sklad vybudovany nad HDFS, ktory v podstate len "SQL" dotazy preraba na MapReduce joby). Hive ani dalsie projekty okolo Hadoop sme nerobili, kedze v ramci tutorialu sme sa pozreli (vzhladom na obmedzeny cas aj to asi dost povrchne) iba na HDFS a MapReduce - a na tieto 2 veci su orientovane aj projekty. A ked si studenti skusia napisat nejake vlastne jednoduche MapReduce joby, aspon zaziju skusenost, co sa za tym skryva (a v buducnosti potom mozno ocenia veci ako Hive, ktore im pracu vedia v istom ohlade zjednodusit).
<<

bwpow

Príspevky: 634

Registrovaný: Str Nov 22, 2006 11:19 am

Bydlisko: Košice

Poslať Sob Mar 30, 2013 5:37 pm

Re: Temy na projekty - Hadoop MapReduce

FeroG píše:
bwpow píše:Nechcem byt negativisticky, ale analyza tych logov je ako stvorena pre Hive :)

To nepopieram. Ved koniec koncov Hive je len akasi nadstavba nad HDFS + MapReduce (datovy sklad vybudovany nad HDFS, ktory v podstate len "SQL" dotazy preraba na MapReduce joby). Hive ani dalsie projekty okolo Hadoop sme nerobili, kedze v ramci tutorialu sme sa pozreli (vzhladom na obmedzeny cas aj to asi dost povrchne) iba na HDFS a MapReduce - a na tieto 2 veci su orientovane aj projekty. A ked si studenti skusia napisat nejake vlastne jednoduche MapReduce joby, aspon zaziju skusenost, co sa za tym skryva (a v buducnosti potom mozno ocenia veci ako Hive, ktore im pracu vedia v istom ohlade zjednodusit).

Suhlasim, to bolo len take doplnenie, ze prave Hive bol na presne toto nadizajnovany.

Inak, mate niekde rozbehany Hadoop + HDFS cluster?
Strach dát najevo své pocity a zjednat si u druhých respekt je jedním z problémů civilizovaného člověka, který se naučil zpochybňovat svou vlastní pravdu pro zdání objektivity
<<

FeroG

Príspevky: 1290

Registrovaný: Uto Máj 29, 2007 11:25 am

Poslať Sob Mar 30, 2013 8:47 pm

Re: Temy na projekty - Hadoop MapReduce

bwpow píše:Inak, mate niekde rozbehany Hadoop + HDFS cluster?

Neviem, ci je na UINFe rozbehany nejaky Hadoop cluster (skor asi nie). Na PDS sme pouzivali Hadoop+HDFS iba v standalone a v pseudodistribuovanom rezime (vsetko vo virtualnom stroji).
<<

FeroG

Príspevky: 1290

Registrovaný: Uto Máj 29, 2007 11:25 am

Poslať Pia Apr 12, 2013 3:46 pm

Re: Temy na projekty - Hadoop MapReduce

Pri uvazovani o vhodnych temach Hadoop projektu vam mozu pomoct tieto zdroje meteorologickych udajov:
http://www.ncdc.noaa.gov/most-popular-data
http://www.ncdc.noaa.gov/oa/climate/climatedata.html

Späť na PDS - Paralelné a distribuované systémy

Kto je on-line

Užívatelia prezerajúci fórum: Žiadny registrovaný užívateľ nie je prítomný a 0 hostia

cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group.
Designed by ST Software.
Slovenský preklad.