Autor Articles i estudis
23 gener 2019 a 18:00

FSDnoisy18k, un recurs d’accés obert desenvolupat per la UPF

0 Flares 0 Flares ×

Amb la col·laboració de Google AI

FSDnoisy18k// imatge web upf

FSDnoisy18k// imatge web upf

Anteriorment, el Grup de Recerca en Tecnologia Musical (MTG) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF, a través de Freesound, i Google Sound Understanding Team, creadors de AudioSet Ontology, havien unit esforços per estimular la recerca en el reconeixement d’esdeveniments sonors.

El reconeixement i classificació de tot tipus de sons quotidians és un camp de recerca emergent en el qual treballa el Grup de Recerca en Tecnologia Musical (MTG) i que té aplicacions a múltiples àmbits, des de la descripció automàtica de continguts multimèdia fins al desenvolupament d’aplicacions en l’àrea de la salut.

En la classificació d’esdeveniments sonors, la creació de conjunts de dades consisteix en dues etapes: l’adquisició de dades – per exemple, recuperant dades de llocs com Freesound o YouTube, o realitzant noves gravacions – i la curació de dades – organització, neteja i el més important, l’etiquetatge.

El problema és que a mesura que el conjunt de dades sonores es fa més gran, el soroll en les etiquetes  – és a dir l’ús incorrecte de les etiquetes – esdevé inevitable. Fins ara, s’ha fet poca recerca en l’impacte d’aquests errors.

Membres del MTG en col·laboració amb Sound Understanding Team a Google AI (Artificial Intelligence) han desenvolupat una col·lecció de dades que facilita la recerca en la classificació de grans volums de dades sonores quan les etiquetes presenten soroll. Els autors del treball expliquen que “alguns llocs web subministren un gran volum d’àudio i metadades aportades pels usuaris, però inferir etiquetes d’aquestes metadades porta a la introducció d’errors causats per la introducció de dades poc fiables i limitacions en el mapatge”.

D’aquí que hagin desenvolupat FSDnoisy18k, un recurs d’accés obert per a la cerca de soroll d’etiquetes amb el qual “caracteritzem el soroll de l’etiqueta empíricament i proporcionem un sistema de referència”, diuen els autors.

La col·lecció de dades conté 42,5 hores d’àudio provinents de Freesound – un altre projecte de l’MTG -,  distribuïdes en 20 classes de so. El conjunt de dades està etiquetat individualment i consta d’una petita quantitat de dades etiquetades manualment i una gran quantitat de dades de so obtingudes del món real amb un alt percentatge de soroll.

En aquest mateix treball presentem un mètode d’avaluació per mesurar l’impacte del soroll en les etiquetes i mitigar-ne el seu efecte per a un conjunt de dades sonores etiquetades”. Amb això, és la primera vegada que aquesta metodologia s’utilitza en la classificació de sons.

FSDnoisy18k obre la porta a l’avaluació d’una varietat de mesures contra el soroll inherent en l’etiquetatge de sons i la seva classificació, així com també a diversos enfocaments d’aprenentatge semi-supervisats.

Treball de referència:
Eduardo FonsecaManoj PlakalDaniel P. W. EllisFrederic FontXavier FavoryXavier Serra (2019), “Learning Sound Event Classifiers from Web Audio with Noisy Labels”, arXiv preprint arXiv:1901.01189.

0 Flares Twitter 0 Facebook 0 Google+ 0 LinkedIn 0 Pin It Share 0 Email -- 0 Flares ×