lørdag 30. august 2014

Big Data er kommet for å bli!

... slik dotcom kom for å bli for 15 år siden.

Vi i databransjen er notoriske i vår lansering av uforståelige begreper (såkalte hypes). Vår begrepsbruk skaper dessverre unødig avstand til kundene. I denne bloggen vil jeg prøve å bidra til en større forståelse av hva Big Data handler om.

Hva rommer begrepet Big Data? Big Data handler om at den digitale utviklingen gjør det mulig å forstå stadig mer av virkeligheten. Vi kan fange og analysere stadig større mengder data. Der statistikk finner svar i såkalte representative utvalg går Big Data lenger og forholder seg til fulle datasett. 

Data oppstår i dag i stadig større volumer, med stadig større hastighet og i tiltakende variasjoner.  Og de oppstår praktisk talt alltid i det digitale rom. Big Data adresserer disse utfordringene - som samtidig også representerer store muligheter.

Volum:

I dag kan du og jeg lagre all musikk vi kan drømme om på en hard disk til noen få tusen kroner. For noen få år siden var det en utopisk idé. Det er i dag mulig - selv for små virksomheter - å lagre så store data mengder at vi ikke klarer å forholde oss til det. Selv et enkelt regneark i Excel på en vanlig PC har i dag kapasitet til å inneholde millioner rader.
I 1991 kunne du kjøpe en gigabyte stor hard disk (hele 1 000 millioner ord eller felter) for 20 tusen kroner. I 2013 kunne du kjøpe en 4 terabyte hard disk (det er 4 000 000 000 000 ord - 4 000 Gigabyte), ufattelige store datamengder. Denne harddisken kostet bare 1 500 kroner. Det er en bedring i lagringskapasiteten 4 000 ganger og en forbedring i pris/ytelses-forhold 60 000 ganger.
Billige lagringsenheter med enorm kapasitet gjør at det nå i mange sammenhenger ikke lenger er nødvendig å slette data. Snarere ser nå mange virksomheter på muligheten til å fange og lagre stadig mer data.
Vi kan i dag lagre data bare med den naive tanke: "Du får sikkert bruk for det en vakker dag". "Kjekt å ha".
Flere virksomheter priser seg nå lykkelig over kravene til myndighetene om oppbevaring av regnskapstall i 10 år. Mange har ikke "bare" beholdt regnskapstransaksjonene, men også andre tilstøtende systemers transaksjoner. Noen virksomheter kaster seg nå over disse dataene med nye øyne. Andre skulle ønske de hadde historiske data de har slettet underveis. 


Hastighet:

I dag oppstår data digitalt med kun få unntak. Når skrev du ett håndskrevet brev sist? De siste par-tre årene har det blitt lagret like mye data digitalt som alle de tidligere årene tilsammen. I følge Cisco økte internettrafikken fra 1993 på 100 terabyte per år til 15 år senere 160 terabyte..... per sekund. Den eksponentielle utviklingen fortsetter.  
Stadig flere sensorer og roboter genererer også enorme mengder data. I dag er selv en bil en datamaskin. Hva tror du Elon Musk bruker dataene fra datamaskinen i Tesla'en til? I hvilken grad tror du Elon Musk har sett hvilke forretningsmuligheter det ligger i dataene som samles fra bilene. 
Min vaskemaskin gikk fløyten i sist tordenvær. Det var bare å bytte kretskortet (datamaskinen). Kopimaskiner og kaffemaskiner er nå koplet til nettet. Huset ditt tilsvarende.  Dataene formelig spruter ut av hver eneste lille duppedings i en fart vi aldri tidligere har sett maken til og i enda mindre grad så for oss bare for noen få år siden. 
CERN generer en petabyte data i sine forsøk -  hver dag. Det er ekstreme mengder.  
Regnekapasiteten i dagens datamaskiner og kommunikasjonskapasiteten i fiber, trådløst og mobil-nettverk har et pris-ytelsesforhold som ikke kan sammenliknes med noen få år tilbake. Intels regneenhet (såkalt CPU) brukt i standard datamaskiner kunne gjennomføre 2 000 millioner instruksjoner per sekund i 1999. I dag klarer Intels regneenhet  125 000 millioner instruksjoner i sekundet. Og prisene faller.
Selv mindre selskaper kan i dag - med akseptable kostnader - fange store data volumer i høy hastighet.


Variasjon:

Tidligere modellerte vi databaser som skulle lagre de dataene vi mente var relevante. Databasen var et lukket system internt i bedriften. På disse modellerte (strukturerte) databasene bygget vi rapporteringsløsninger og såkalte Business Intelligence-løsninger.
I dag kan virksomheter fange relevante data fra alle tenkelige og nær sagt utenkelige kilder. Dataene varierer i struktur og har gjerne forskjellig begrepsapparat og formater, selv også for logisk sett samme type informasjon. 
Variasjonen i dataene er en av de større utfordringene med Big Data. Til forskjell fra når vi bygget strukturerte databaser kan vi nå tillate oss å samle dataene først uten å modellere alt på forhånd.
Den kraften og kapasiteten som ligger i dagens teknologi gjør at vi kan ha en såkalt "grådig" tilnærming til disse dataene. Vi kan fange dataene først - og se hva det kan brukes til etterpå!

Avanserte, effektive og kraftige dataassisterte analyseteknikker kan i etterkant anvendes på dataene på mange forskjellige måter, med mange forskjellige vinklinger med forskjellige målsetninger.

Behandling av data:

Forskere innen statistikk, lingvistikk, matematikk, kunstig intelligens og informasjonsteknologi har i mange år arbeidet på laboratoriet med avanserte programmer (programmene kalles gjerne "algoritmer"*) som kan tolke data og ekstrahere kunnskap. Tidligere var forsøkene begrenset av lagre- og regnekapasitet. Selskaper som Yahoo, Google, Facebook grep tak i forskningsmiljøenes arbeid på feltet og bygget, etterhvert som teknologien vokste fram, løsninger som var i stand til å bearbeide enorme datamengder med stor variasjon - i stor hastighet.
Mange av disse algoritmene er i dag tilgjengelig for alle som har kompetanse til å nyttiggjøre seg dem.

I dag er det mulig for de aller fleste virksomheter å nyttiggjøre seg Bigdata.

  • Maskiner og nettverk har enormt mye større kapasitet enn bare for noen få år siden. Prisen for denne kapasiteten har sunket dramatisk.
  • Lagringskapasiteten har økt ekstremt. Pris pr datamengde har sunket tilsvarende.
  • Avanserte løsninger for å fange og bearbeide data og skape kunnskap er utviklet og tilgjengelig.
Stadig flere virksomheter forstår at de må utforske dette området for ikke å bli akterutseilt i forhold til sine konkurrenter.
Hva tror du selskaper som Google, Facebook, Zalando, Norgesgruppen, Amazon, Schibsted Media Group, og Norwegian, for å nevne noen, ser på som noen av sine viktigste assets?
Hvorfor har Media Norge/Schibsted Media Group etablert en pålogget tjeneste (SPID)? Du logger deg inn her for å lese VG, Aftenposten, Bergen Tidende, Stavanger Aftenblad og Fedrelandsvennen og for å bruke tjenestene på Finn.no. 

Hvilke muligheter åpner seg for Schibsted gjennom ditt registrerte bruk i alle disse kanalene?
Hvilken verdi har kunnskapen om din adferd for Media Norge/Schibsted Media Group.  

Hvordan bruker Norgesgruppen lojalitetskortet Trumf i utviklingen av sine produkter? Hvordan tilpasser de produktene til deg?
Hva er det med Amazon som tiltaler deg. Hvorfor kan Amazon i dag levere nær sagt hva som helst til hvem som helst? Hva er Amazons konkurransefortrinn?

Nå lever vi virkelig i dataalderen. Kunnskap er makt heter det. Kunnskap har heller aldri vært mer lønnsomt enn i dag.

Utforsk Big Data nå:

Det er en rivende utvikling på Big Data-området. Hvis du ikke allerede har begynt å se på Big Data er det på tide å gjøre det nå.
Du kan i dag teste ut løsningskonsepter og få demonstrert verdien som ligger i disse løsningene raskt. Selv om fagområdet kalles Big Data snakker vi ikke om Big Bang-prosjekter. Avanserte teknologier på standard datamaskiner er tilgjengelig uten stor kostnad. 
Det er fullt mulig, og anbefales, å starte med å kjøre avgrensete konseptstudier på identifiserte områder hvor man kan oppnå stor verdi ved relativ liten innsats.


*Algoritmi, eller Al-Khwārizmī  på arabisk, var en Arabisk mate-
matiker som lagde en oppskrift for å løse annengradslikninger


I min neste blogg vil jeg skrive om teknikker og metoder som anvendes innen Big Data for å ekstrahere kunnskap av de store datamengdene (Data Science).


Espen Remman
Rådgiver/Partner
Chronos AS
tlf. 97557021
espen.remman@chronosit.no
twitter: EspenRemman
www.chronosit.com