Il challenge descritto in questa pagina è relativo al progetto di esame assegnato agli studenti del corso di Machine Learning tenuto nell' A.A. 2017/2018 dal Prof. Giovanni Maria Farinella all'interno del corso di studi in Informatica Magistrale dell'Università di Catania.
Il dataset utilizato in questo challenge è una versione ridotta del dataset utilizzato nel seguente articolo scientifico (http://iplab.dmi.unict.it/EgocentricShoppingCartLocalization/):
E. Spera, A. Furnari, S. Battiato, G. M. Farinella, Egocentric Shopping Cart Localization, International Conference on Pattern Recognition (ICPR), 2018
Il challenge consiste nell'affrontare un problema di localizzazione basato su immagini, ovvero costruire un algoritmo che, data una immagine acquisita in uno spazio noto, permetta di inferire la posizione dalla quale l'immagine è stata scattata (si veda immagine di seguito). In particolare, noi ci occuperemo di indoor localization, ovvero localizzazione all'interno di un edificio. Inoltre, considereremo il problema della classificazione 2D, invece del più generale problema di localizzazione 3D.
Il problema della localizzazione basata su immagini può essere affrontato come un problema di machine learning assumendo la presenza di un adeguato set di immagini di training etichettate. A seconda del livello di descrizione richiesto, il problema può essere affrontato in due modi: come un problema di classificazione o come un problema di regressione:
o
di orientamento si può ottenere dai valori u e v utilizzando la formula a=atan2(v,u)
(si veda https://en.wikipedia.org/wiki/Polar_coordinate_system).L'immagine di seguito esemplifica la differenza tra localizzazione basata su classificazione e localizzazione basata su regressione.
Ogni partecipante avrà a disposizione un dataset suddiviso in tre set: training
, test
e validation
. Le etichette degli insiemi di training e validation verranno fornite insieme al dataset, mentre del test set saranno disponibili solo le immagini. Gli algoritmi potranno essere allenati sul training set e testati sul validation. Per completare il challenge, bisognerà consegnare le etichette inferite sul test set.
Seguendo lo schema discusso sopra, il challenge si articola in due parti, onguna delle quali farà uso dello stesso set di dati provvisto delle adeguate etichette di training e validation:
(x,y,u,v)
che la localizzano.Gli algoritmi prodotti vanno valutati riportando:
Il dataset consiste in 19531 immagini acquisite all'interno di un supermercato, suddivise in tre set: training set (10259 immagini), validation set (3101 immagini) e testing set (6171 immagini).
Ogni immagine è etichettata rispetto a:
La figura di seguito mostra il plot delle posizioni delle immagini del training set. I colori indicano le classi di appartenenza di ogni immagine. Le etichette di training e validation set sono fornite, mentre quelle del testing set non vengono rese pubbliche.
Le etichette corrispondenti a ogni immagine di training e validation set sono riportate nei file csv training_list.csv
e validation_list.csv
. Ogni file riporta 6 colonne rappresentanti rispettivamente:
I partecipanti dovranno costruire gli algoritmi utilizzando training e validation set. Il validation set è pensato per permettere di valutare le differenze tra i vari algoritmi progettati e ottimizzarne gli iperparametri. Le etichette del testing set non sono rilasciate pubblicamente, per cui non è possibile misurare da soli le performance sul test set. Tali performance verranno misurate dal professore alla consegna del progetto. La consegna del progetto dovrà contenere:
predictions.csv
contenenti le predizioni sul test set nello stesso formato delle etichette di ground truth fornite per training e validation set;La relazione dovrà contenere le seguenti sezioni: