View Project

Norwegian AI Directory

ANGAS: Audibility for all by NGA utilizing sensor fusion


Description:

Next Generation Audio (NGA) er en ny tilnærming til formidling av lydinnhold -- det være seg radio og tv, podcast eller nettbasert medieinnhold -- som er mer tilgjengelig, interaktiv, personifiserbar og omsluttende (?immersive?) for lytterne. I spissen for initiativet står den europeiske kringkastingsunionen (EBU) og samarbeidspartnere som BBC og IRT. Utfordringen er at det kreves avanserte verktøy, lydutstyr og ekspertise for å skape NGA-innhold. Gjennom dette forskningsprosjektet vil vi bygge en løsning som drastisk forenkler denne prosessen. Vi legger til rette for demokratisering av innholdsproduksjon og sikrer at nytt medieinnhold er tilgjengelig for alle uansett funksjonsevne. Hovedmålet for prosjektet er å utvikle en integrert maskin-/programvareløsning som gjør det mulig å skape rikt, objekt-basert 3D lydinnhold med støtte for personalisering og tilgjengelighet, i overensstemmelse med retningslinjene for NGA. Nomono vil bruke resultatene fra prosjektet til å utvikle et opptakssystem som både er i stand til å fange opp objekt-basert lydinnhold og til å optimalisere innholdet med tanke på taletydelighet, transkripsjon og omsluttende, 360-graders lytteopplevelser. Prosjektet blir gjennomført sammen med forskningspartner SINTEF Digital og NRKs divisjoner for Teknologi, produkt og produksjon (produktutvikling audio) og Strategi og medier (tilgjengelighet). Innledende forskningsfunn har avdekket at de foreslåtte metodene for støyfjerning og signalforbedring har oppfylt eller overgått ytelsen til teknologier som i dag regnes som industristandard. I tillegg kan våre mikrofon-baserte metoder for automatisert posisjonering av mobile lydobjekter dra nytte av ekstra sensorer for å gi informasjon om retning og posisjon. Presise posisjonsdata har umiddelbar verdi for 3D-posisjonering av lyder i et omsluttende lydfelt, men kan også muliggjøre mer finstemte teknikker for reduksjon av støy og krysstale gjennom datadrevet kartlegging av lydkildene i en gitt opptakssituasjon. I løpet av det først prosjekt-året har Nomono utviklet en prosesserings-kjede for forbedring av tale. Denne gir ytelse på et nivå som gjør at den vil inngå vårt første produkt som blir kommersielt tilgjengelig tidlig i 2022 når vi lanserer vår sky-tjeneste. Denne prosesserings-kjeden vil integreres med HW som kommer seinere i 2022. Deling av kode via Github er blitt den viktigste publiseringskanalen for maskinlæringsmiljøet. Nomono støtter dette ved å dele et utvalg av teknologien vår med open source-miljøet. Flere av publikasjonene våre i 2021 er derfor på denne plattformen, spesielt vår egen https://github.com/iver56/audiomentations/ som har 784 stjerner og er lagt inn som avhengighet i 89 andre repositorier.


Project leader: Ingunn Amdal

Started: 2021

Ends: 2024

Category: Næringsliv

Sector: Næringsliv

Budget: 13380000

Institution: NOMONO AS

Address: NA