Giovanni Bricconi

hadoop and spark on ubuntu

Hi, I will start working on a big data project, I am setting up my environment.

As usual the versions to use are quite old, once you have a project running it is difficult to make the upgrades to the latest versions.

I am quite old, I did not think at using docker images to set up things, when I realized that I tried to find some hadoop images. Today with a quick google search, I did not find official images so I kept my environment set-up,

So an ubuntu server, that runs without ui

sudo systemctl set-default multi-user.target

this does the magic, then I set up the DISPLAY environment variable to have mobaxterm serve X11. In this way I can use intellij from the box but mixed with windows applications, The same for gedit etc.

Then I installed the glorious spark-2.1.0-bin-hadoop2.7 and hadoop-2.0.7. the set-up has taken a lot of time, luckily there are a lot of guides to do thing step by step.

This one is very nice https://phoenixnap.com/kb/install-hadoop-ubuntu

For spark I had to set up some env var concerning logs location, it has taken a while

Now the spark console spark-shell works and I can play a bit

there are a lot of useful ports to monitor the processes

Useful ports for hadoop and spark

NameNode: fs.defaultFS is hdfs://localhost:9000
namenode http://localhost:50070/dfshealth.html#tab-overview

secondary namenode http://0.0.0.0:50090

data node /0.0.0.0:50075

yarn resource manager port 8088

yarn Node manager http://localhost:8042/node

HistoryServer http://127.0.0.1:18080

spark shell http://127.0.0.1:4040

Written by Giovanni

February 23, 2022 at 3:32 pm

Posted in Varie

Scala

leave a comment »

Ho ricominciato a leggere scala for the impatient oggi lezione sugli array

Written by Giovanni

February 16, 2022 at 8:35 pm

Posted in Varie

cose da ricordare

leave a comment »

Sulla mailing list di solr vengono sempre citati programmi interessanti.
eccone due
jvisualvm e http://haproxy.1wt.eu/

Written by Giovanni

May 3, 2013 at 2:51 pm

Posted in Varie

Tagged with tools

Solr – Filtrare risultati irrilevanti

leave a comment »

la ricerca di frasi composte da molte parole pone diversi problemi.

Il minimo numero di parole che devono essere trovate non può essere il 100% perchè non tutte le parole hanno la stessa importanza e la presenza di quelle chiave è sufficiente a trovare documenti attinenti.

però il numero di risultati trovati viene comunque influenzato malamente dalle parole poco significative.

per esempio se cercassi “il cane e la gatta” con un numero minimo di parole =3 (mm=3) avrei come ultimi risultati a bassa rilevanza conententi solo “il” e “e” “la”. Chiaramente si può intervenire eliminando gli articoli italiani dall’indice, ma questo è solo un esempio il problema si riproporrebbe con altre parole diffuse, ad esempio cercando il titolo di un film.

Ieri ho aggiunto un nuovo trucchetto al mio arsenale solr

q={!frange l=0.75}query($qq)&qq={!dismax mm=1 qf=”name description” pf=”name description” qt=myconf}tanto va la gatta al lardo che ci lascia lo zampino

Questo mostriciattolo esegue una query dismax su alcuni campi, richiamando le impostazioni di un query type e modificandolo in modo da trovare tutti i risultati che matchano almeno una parola. Fatto questo i risultati vengono filtrati in modo da avere almeno uno score 0.75

Volendo generalizzare, se analizzando la rilevanza dei risultati prodotti doveste scoprire che sotto un certo valore quello che esce è generalmente irrilevante e non vale la pena listarlo potete intervenire aggiungendo un frange e magia non dovete ritarare tutta la configurazione del qt come il mm, i pesi di qf e pf ecc.

enjoy

Written by Giovanni

January 4, 2013 at 8:17 am

Posted in Varie

@RequestParam intercettare gli errori e modificare la risposta

leave a comment »

con spring è comodissimo ricevere i parametri delle richieste utilizzando l’annotazione @RequestParam

per esempio

@RequestMapping(“/getCorrelatiProdotti.do”)
public @ResponseBody Object getRelatedProductsHttpGet (
@RequestParam(value = “skuItem”, required = true) String sku,
@RequestParam(value = “idSito”, defaultValue = “0”) String idSito,
@RequestParam(defaultValue=”true”) boolean jsonp,
ModelMap model)

definisce diversi parametri tra cui uno obbligatorio, e uno booleano. Se il parametro obbligatorio manca o il booleano riceve un testo che booleano non può essere (vale anche per numeri ecc) normalmente viene inviata una risposta in stato http 400.

Avendo la necessità di rispondere un JSON anche in caso di errore ho dovuto modificare questo comportamento. Dopo un sacco di ricerche ho trovato il modo per farlo

@ExceptionHandler(MissingServletRequestParameterException.class)
public @ResponseBody Object handleMyException(Exception exception, HttpServletRequest request,
HttpServletResponse response) {
response.setStatus(HttpServletResponse.SC_BAD_REQUEST);
/** omissis prepara degli oggetti con la descrizione degli errori */
Map<String,Object> ret = new HashMap<String, Object>();
ret.put(“State”, state);
ret.put(“error”, error);
return ret;
}

L’annotazione @ExceptionHandler permette di intercettare l’eccezione, i parametri del metodo possono essere i più disparati, tra cui l’eccezione, la request e la response.

a questo punto non bisogna fare altro che restituire un oggetto con la struttura che si vuole inviare al client.

Written by Giovanni

January 2, 2013 at 9:08 am

Posted in spring

letture recenti

leave a comment »

ho appens finito di leggere note di fisica statistica di Roberto Piazza

e stata un’ottima scelta, gli argomenti sono esposti in modo logico ed anche ad un turista della fisica come me è stato possibile acquisire qualche nozione interessante

lo rileggerò senz’altro perchè leggere un libro con così tante idee una sola volta è un peccato capitale

poi mi toccherà leggere qualche cosa sulle hamiltoniane e sulla meccanica quantistica, che xpessissimo fa capolino nel libro

Prima di rituffarmi in tutta questa fisica però ho comprato

java 7 new features cookbook ,

vedremo come va questa lettura qualchecosa convincente eutile com eloperatore diamante molte altre cose 0troppo di nicchia e poco utili

vedremo

Written by Giovanni

December 15, 2012 at 9:18 pm

Posted in Varie

Risposte quiz sequenze di eventi casuali

leave a comment »

Ciao,

Il problema di trovare una picola sequenza particolare in più lunghe sequenze di eventi casuali di una certa lunghezza mi è venuto in mente qualche anno fa. Volevo farmi un’idea di quanto le parole di un testo sono anomale rispetto a sequenze di caratteri casuali: le parole appaiono spesso identiche nel testo mentre sequenze casuali (errori di battitura) sono molto rare. Allora per semplificare ho fatto l’ipotesi che le lettere dell’alfabeto avessero ciascuna una propria probabilità di apparire, e non fossero dipendenti tra loro (volevo semplificare al massimo).

Dopo un po’ di tempo ho scoperto che il problema era decisamente più difficile di quanto mi aspettassi; dopo molto tempo sono riuscito a risolverlo però in modo ricorsivo e piuttosto macchinoso. Ho deciso di provare a diffondere il problema per vedere se la mia soluzione è corretta e se qualcuno riesce a trovare una soluzione più furba che non richieda la ricorsione. Penso che per una particolare sequenza si possano comunque ottenere delle soluzioni in forma chiusa usando la “trasformata z”, ma non ho più avuto voglia di approfondire il problema.

Nei documenti dove spiego quello che ho trovato indico la piccola sequenza da cercare con il simbolo ρ mentre uso s per indicare la sequenza più lunga in cui cercare.

Ho definito diversi problemi, quello più chiaro da spiegare è la ricerca di esatamente i apparizioni di ρ nelle stringhe lunghe x caratteri: Ai(x). Dal quale si può anche facilmente ricavare la probabilità che ρ appaia al più i volte (Ni(x))

Per tornare alle soluzioni del problema che ho inviato: la sequenza abc semplifica molto il problema, le sequenze abcab o aaa sono molto più problematiche perchè si prestano a essere composte sovrapponendole: aaa si può comporre in aaaaaaaa e abcab in abcabcabcab. Con queste complicazioni trovare soluzioni con il calcolo combinatorio mi è stato impossibile.

Per trovare le soluzioni sono passato da questa idea: posso avere i apparizioni in x caratteri se esattamente a x caratteri ho l’iesima apparizione oppure se prima avevo già i apparizioni e non estraggo la i+1 esima proprio in x.

Per tener conto delle sovrapposizioni possibili ho dovuto introdurre dei coefficienti che dipendono dalla forma della ρ che si sta cercando. Qui la soluzione si trova considerando che se ρ si può comporre allora un suo pezzettino di testa si deve ripetere. Fatta questa considerazione bisogna introdurre un nuovo problema ausiliario, la probabilità di avere Ai(x) che non terminano proprio con quel pezzettino.

Per venire all’ultima domanda del quiz, se si vanno a cercare la o una delle sequenza ρ più probabile (ripetizione del carattere più probabile) e la o una delle più improbabili si possono costruire due funzioni che indicano la probabilità minima e massima che si presentino quelle apparizioni al variare di x.

Per chi avesse ancora la pazienza di giocare con il problema propongo la lettura di questo articolo

Written by Giovanni

September 27, 2012 at 6:54 pm

Posted in Varie

Quiz sequenze di eventi casuali

leave a comment »

Supponi di avere una variabile casuale X da cui, ad ogni estrazione, si possono ottenere solo i valori a,b,c con probabilità Pa=0,5 Pb=0,3 e Pc=0,2. Supponi inoltre che ogni estrazione sia indipendente dalla successiva.

Ora prova ad estrarre una sequenza di 10 eventi da questa variabile casuale, potresti per esempio ottenere abbaabcacb; in questa sequenza è presente la sottosequenza abc.

Qual’è la probabilità di non trovare mai la sequenza abc in tutte le possibili estrazioni di 10 eventi? [Ai(x) = {probabilità che la sequenza appaia i volte in estrazioni di lunghezza x} A0(10) = 0,773392] e di trovarla una volta? [A1(10) = 0,213324]

Come cambiano la probabilità passando da 10 a 11 o 12 estrazioni? [A0(11)=0,748630 A0(12)=0,724661; A1(11)=0,233010 A1(12)=0,251217]

Che cosa cambia se invece di abc si cerca aaa oppure abcab?

[per aaa]

x	A0(x)	A1(x)
10	0,94765056	0,04272947
11	0,94146527	0,04749001
12	0,93532035	0,05218658

[per abcab]

x	A0(x)	A1(x)
10	0,97456522	0,02494956
11	0,97043247	0,02890066
12	0,96631838	0,03281444

Esistono un limite minimo e uno massimo alla probabilità di trovare una sola volta una sequenza di tre eventi in sequenze di x elementi?

Written by Giovanni

September 19, 2012 at 6:13 pm

Posted in matematica

Tips Netezza

leave a comment »

Netezza è un potente quanto sconosciuto database per datawharehouse, ora acquisito da IBM e bastato su postrgresql con cui condivide molti comandi e funzioni sql.

Per accedervi si può usare Eclipse e il driver jdbc, però con alcuni impicci, tra i quali non poter vedere i sorgenti delle viste.

Per risolvere il problema

SELECT definition FROM _v_view WHERE viewname=’NOME_VISTA’

Written by Giovanni

September 19, 2012 at 3:30 pm

Posted in Varie

UnxUtils

leave a comment »

Magagna del giorno: convincere uno script perl linux a girare sotto windows.

Per fortuna lo script è semplice e fa al massimo qualche chiamata a tool standard unix, che per fortuna sono facilissimi da trovare per windows, ricompilati senza dover installare cygwin.

enjoy UnxUtils

Written by Giovanni

September 19, 2012 at 3:19 pm

Posted in Varie

Giovanni Bricconi

hadoop and spark on ubuntu

Useful ports for hadoop and spark

Scala

cose da ricordare

Solr – Filtrare risultati irrilevanti

@RequestParam intercettare gli errori e modificare la risposta

letture recenti

Risposte quiz sequenze di eventi casuali

Quiz sequenze di eventi casuali

Tips Netezza

UnxUtils

Recent Posts

Archives

Categories

Meta