View Project

Norwegian AI Directory

Geospatial data management in the future


Description:

Helt siden vi begynte å utforske verden har informasjon om hvor ting er og hvordan man kommer dit vært verdifullt og ettertraktet. Det håndtegnede og senere utskrevne kartet var effektiv mekanisme for lagring og formidling av stedsinformasjon. Den digitale revolusjonen gjorde ikke kart utdatert, men den endret det landskapet. Kjernen i denne revolusjonen ligger to viktige endringer i hvordan vi tenker på kart. For det første etablerte den digitale revolusjonen en klar grense mellom det fysiske kartet og kartdataene. Et papirkart var tradisjonelt den eneste representasjonen av kartdata, er det nå en av mange. Digitale kartdata er en kjernekomponent i søkemotorer, navigasjonstjenester og anbefalingsmotorer, og brukes mye i planleggingsprosesser, byutvikling, detaljhandel og eiendom. For det andre demokratiserte den digitale revolusjonen kartet. Kartlegging og kartografi pleide å være komplekse og arbeidskrevende oppgaver, og staten tok vanligvis rollen som leverandør og forvalter av kart. Staten produserer og vedlikeholder fremdeles kart, men monopolet en levning fra fortiden. Private selskaper tilbyr en mengde kart og stedsbaserte tjenester, og mange bedrifter tilbyr merverditjenester på toppen av offentlige, private og til og med personlige kartdata. Fremveksten av dugnadsbaserte leksikon banet vei for det dugnadsbaserte kartet, der frivillige bidrar med sin tid og ferdigheter til å kartlegge verden. Dermed er romlige data, som tidligere var en knapp ressurs, nå allestedsnærværende. Hvordan behandler, lagrer og håndterer vi så store datamengder? Og hvordan håndterer vi spørsmål om personvern, nøyaktighet og ansvarlighet? Disse utfordringene er utgangspunktet for denne oppgaven. Vi beskriver hvordan en hendelsesbasert prosesseringsløype for behandling av geografiske vektordata kan implementeres og presenterer et solid grunnlag for implementering. Denne løypa vil muliggjøre effektiv oppdatering og versjonering av åpne romlige datasett og gi tilgang til både nåværende og historiske data, samtidig som det muliggjør et lagringsoppsett som er i stand til å skalere horisontalt. «Event-sourcing» er et prinsipp fra datavitenskapen som fokuserer på å lagre hendelser i motsetning til å lagre resultatene av hendelse. Et eksempel er en hovedbok der debet og kreditter spores, ikke den nåværende saldoen. I kontrast frigjøres vanligvis romlige datasett "i bulk", det vil si at med jevne mellomrom frigjøres et øyeblikksbilde av dataene som viser den nåværende tilstanden. Dette ligner på å holde oversikt over en gjeldsbalanse. Den hendelsesbaserte prosesseringsløypa for behandling av geografiske vektordata som presenteres i oppgaven dekker flere komponenter som er nødvendige for å lage en rørledning som konverterer «bulk»-tilgjengeliggjorte romlige datasett til et hendelsesformat. For å oppnå dette trenger vi en måte å uttrykke endringer i romlige vektordata. Dette er kjent innen informatikk som en «diff». Flere algoritmer for å opprette forskjeller eksisterer, men ingen for romlige data. Dette førte til implementasjonen av GeomDiff, en diffe-algoritme og lagringsformat for romlige data som utnytter de matematiske egenskapene til vektordata. Denne algoritmen viser lovende resultater. Et annet viktig aspekt er hvordan du bruker romlige data fra en hendelses-basert prosesseringsløype. En vanlig tilnærming er å lagre den siste versjonen av et datasett som et øyeblikksbilde og tradisjonelle lagringsmekanismer som romlige databaser. Dette betyr igjen at det eksisterende økosystemet med applikasjoner kan brukes. Dette medfører imidlertid noen problemer. En løsning er å vende seg til en skjemafri NoSQL-database. Vi fant imidlertid at ved bruk av et enkelt forbehandlingstrinn kan et tradisjonelt databaselayout brukes. Denne løsningen gir også raskere spørretider og krever mindre lagringsplass. Ofte er de beste kartdataene en kombinasjon av data fra flere kilder. I disse tilfellene kreves det ofte en viss grad av menneskelig tilsyn. Vi gjennomførte et web-basert eksperiment, og simulerte hvordan en kvalitetskontrollprosess kunne utføres ved bruk av «micro-tasking». Kjernen i denne metoden er å dele en oppgave i små underoppgaver, som blir distribuert digitalt til et utvalg av menneskelige "arbeidere". Eksperimentet vårt fant denne metoden egnet for en slik oppgave, og vi fant at med riktig forberedelse og opplæringsmateriell, ble ikke arbeidstakerne pålagt å ha tidligere erfaring med å jobbe med slike oppgaver. «Event-sourcing», kombinert med «micro-tasking», er en effektiv løsning på mange av problemene knyttet til å håndtere store mengder heterogene romlige datasett. Ved å utnytte «public cloud» datasenter-tjenester, er veien kort til en skalerbar, elastisk og effektiv løsning. I denne oppgaven har jeg vist hvordan disse konseptene kan brukes, bidratt med forskning på heterogene romlige vektordata, og presentert en overordnet arkitektur for en hendelsesbasert prosesseringsløypa for behandling av geografiske vektorda


Project leader: Alexander Salvesen Nossum

Started: 2016

Ends: 2020

Category: Næringsliv

Sector: Næringsliv

Budget: 1622998

Institution: NORKART AS

Address: NA