Norwegian AI Directory
Description:
Next Generation Audio (NGA) er en ny tilnærming til formidling av lydinnhold -- det være seg radio og tv, podcast eller nettbasert medieinnhold -- som er mer tilgjengelig, interaktiv, personifiserbar og omsluttende (?immersive?) for lytterne. I spissen for initiativet står den europeiske kringkastingsunionen (EBU) og samarbeidspartnere som BBC og IRT.
Utfordringen er at det kreves avanserte verktøy, lydutstyr og ekspertise for å skape NGA-innhold. Gjennom dette forskningsprosjektet vil vi bygge en løsning som drastisk forenkler denne prosessen. Vi legger til rette for demokratisering av innholdsproduksjon og sikrer at nytt medieinnhold er tilgjengelig for alle uansett funksjonsevne.
Hovedmålet for prosjektet er å utvikle en integrert maskin-/programvareløsning som gjør det mulig å skape rikt, objekt-basert 3D lydinnhold med støtte for personalisering og tilgjengelighet, i overensstemmelse med retningslinjene for NGA. Nomono vil bruke resultatene fra prosjektet til å utvikle et opptakssystem som både er i stand til å fange opp objekt-basert lydinnhold og til å optimalisere innholdet med tanke på taletydelighet, transkripsjon og omsluttende, 360-graders lytteopplevelser.
Prosjektet blir gjennomført sammen med forskningspartner SINTEF Digital og NRKs divisjoner for Teknologi, produkt og produksjon (produktutvikling audio) og Strategi og medier (tilgjengelighet).
Innledende forskningsfunn har avdekket at de foreslåtte metodene for støyfjerning og signalforbedring har oppfylt eller overgått ytelsen til teknologier som i dag regnes som industristandard. I tillegg kan våre mikrofon-baserte metoder for automatisert posisjonering av mobile lydobjekter dra nytte av ekstra sensorer for å gi informasjon om retning og posisjon. Presise posisjonsdata har umiddelbar verdi for 3D-posisjonering av lyder i et omsluttende lydfelt, men kan også muliggjøre mer finstemte teknikker for reduksjon av støy og krysstale gjennom datadrevet kartlegging av lydkildene i en gitt opptakssituasjon.
I løpet av det først prosjekt-året har Nomono utviklet en prosesserings-kjede for forbedring av tale. Denne gir ytelse på et nivå som gjør at den vil inngå vårt første produkt som blir kommersielt tilgjengelig tidlig i 2022 når vi lanserer vår sky-tjeneste. Denne prosesserings-kjeden vil integreres med HW som kommer seinere i 2022.
Deling av kode via Github er blitt den viktigste publiseringskanalen for maskinlæringsmiljøet. Nomono støtter dette ved å dele et utvalg av teknologien vår med open source-miljøet. Flere av publikasjonene våre i 2021 er derfor på denne plattformen, spesielt vår egen https://github.com/iver56/audiomentations/ som har 784 stjerner og er lagt inn som avhengighet i 89 andre repositorier.
Project leader: Ingunn Amdal
Started: 2021
Ends: 2024
Category: Næringsliv
Sector: Næringsliv
Budget: 13380000
Institution: NOMONO AS
Address: