Bigdata, Data Science, Ethical Business etc.: 2014

I dette innlegget vil jeg, med god hjelp av Alex Jones* og fra tekniske bigdatasamfunn, formidle hvordan datavitenskapkonsulenter trekker ut kunnskap av data.

Gartners Hype Cycle sier at Datavitenskap (Data Science) vil være på den såkalte "Plateu of productivity"... NÅ. Flere selskaper som har ambisjon om å forme vår datadrevne framtid er allerede godt i gang. Schibsted, med Finn, VG og Aftenposten, samt Spotify og Statoil er gode eksempler. Nå starter også det offentlige sakte, men sikkert opp.

Forskningsrådet, UiO, NTNU, SKD, NAV, Statoil m.fl. satser flere milliarder.

I denne (gjenopptatte) bloggserien "Data Science - hvordan gjør vi det?" gjennomgår jeg et utvalg av teknikker vi bruker for å skape kunnskap av data. Utvalget er stort. Jeg splitter derfor opp gjennomgangen i flere innlegg og starter med tre familier av teknikker i dette første innlegget i serien.

Min målgruppe er vanlige forretningsfolk - ikke eksperter. Jeg prøver å bruke begreper som de fleste kan forholde seg til og ofrer presisjonsnivå til fordel for lettere tilgjengelighet.

Datavitenskap består av en rekke disipliner innen matematikk, statistikk, lingvistikk og informatikk (og faktisk også noe psykologi og naturvitenskap). Teknikkene er basert på resultater fra flere av disse fagdisiplinene.

I dette innlegget tar jeg for meg tre mye benyttede grunnleggende teknikker:

Lineær programmering,
Regresjonsanalyse og
Beslutningstrær

Lineær programmering/Ikke-lineær programmering:

Lineær programmering brukes for å maksimere eller minimere et nøkkeltall.
Et klassisk eksempel er maksimering av lønnsomheten i en bedrift. I eksempelet vårt, visualisert i diagrammet "Linear Programming Chart" under, prøver vi å maksimere lønnsomheten til en møbelbedrift som produserer bord og stoler.
Kostnadene ved å produsere bord og stoler er en vesentlig del av beregningen og det er begrensing på antall produksjonstimer tilgjengelig per dag. Den potensielle lønnsomheten beskrives ved en ordinær matematisk likning. Lønnsomheten skal i dette tilfellet maksimeres under de definerte begrensingene.
I Lineær programmering er du fri til å legge inn så mange begrensinger du kan komme på og er i stand til å beskrive matematisk.
Metoden krever en viss grad av matematisk forståelse og kunnskap om virksomhetens rammevilkår.

Hver likning er representert ved en linje i diagrammet under. Begrensingene er grønne linjer. Alternative lønnsomhetsnivåer er vist ved de stiplete røde linjene. Etter at alle linjene er definert finner metoden fram til det beste (optimale) punktet (nøkkeltallet). Dette punktet er der den røde linjen er "skjøvet lengst ut fra origo" uten å krysse begrensingene.

Utfordringer:
Metoden krever at man kjenner begrensingene og hvilken innflytelse disse har for måloppnåelsen.
For eksempel må man i vårt eksempel vite at:

Begrensinger/Rammevilkår:
1. å sette sammen stoler og bord tar like lang tid,
2. maksimalt 200 stoler og bord kan settes sammen i løpet av en dag,
3. å bearbeide finish'en krever 4 ganger så høy innsats for bord som for stoler,
4. maksimalt 100 bord eller 400 stoler kan lages i løpet av en dag og

Lønnsomhetsmål;
5. at hver stol gir 5 $ i profitt, mens hvert bord gir 15 $ i profitt.

Regresjonsanalyse

I regresjonsanalyse tilpasses en linje eller kurve av data til en matematisk funksjon.

y=ax+b er den matematiske beskrivelsen av en linje i et plan (x- og y-akse).

Regresjonsanalysen finner en matematisk formel for sammenhengen mellom to måltall, eller i mer komplekse tilfeller, mellom mange måltall.

Analysen etablerer matematiske likninger, ofte enkle lineære likninger (rett linje eller plan, (y =ax+b) eller i mer komplekse tilfeller polynomer (kurver eller kurvete plan) som beskriver forholdet mellom måltallene. I diagrammet under vises en lineær regresjon som finner formelen for forholdet mellom måltallene befolkning og årstall.

Analysen tester ut likninger og velger den likningen som gir linjen med totalt sett minst avstand til datagrunnlaget. I dette eksemplet er svaret y=0.136x-267.2.

Beslutningstrær

En av fordelene med et beslutningstre er at det er lett å tolke og lett å visualisere. Teknikken egner seg godt for å sette opp regler som besvarer ja/nei spørsmål.

Eksempler på spørsmål kan være:

bør jeg kjøpe denne aksjen eller ikke?
er dette en lojal kunde?
er denne soppen giftig?
er denne blomsten en staude?

Algoritmen/dataprogrammet bygger beslutningstreet automatisk, eventuelt med litt støtte fra datavitenskapseksperten og bransjeeksperten.

Under ser vi et enkelt eksempel på et beslutningstre som vurderer om aksjehandlere vil bli værende hos mekleren eller om de vil avslutte sitt kundeforhold.

Beslutningsalgoritmen finner skrankeverdier med mest mulig informasjon. Den prøver å finne variabler med verdier som gir tilnærmet like mange aksjehandlere i hver gruppe for hvert nivå i beslutningstreet.
Vi har her funnet ut at frekvensen på handelen betyr mye for om aksjehandlerne vil fortsette å handle. Det er jo et forståelig kriterie. Hvis aksjespekulanten handler lite (mindre enn 9 ganger) så må profitten være større enn 3% av kapitalen for at vedkommende blir værende. Handler spekulanten flere enn 9 ganger og siste handel er mindre enn 65 dager siden så er sjansen størst for at han/hun blir værende.

Beslutningstre: Hvem kommer til å fortsette å handle hos denne aksjemekleren?

Begrensinger

Beslutningstrær egner seg best for relativt statiske data. Det kan være en utfordring at beslutningstreet kan bli for detaljert med for spesifikke regler. Kompetanse om området man lager regler for, samt kompetanse på datavitenskap kreves for å treffe best mulig for å treffe på hvor detaljert man skal la beslutningstreet bli. Dette må avveies nøye for å sikre at det gir gode resultater for klassifiseringen på nye data. En av beslutningstreets svakheter er at en gal beslutning i toppen av treet følger beslutningsprosessen tvers igjennom.

Oppsummering

Jeg har nå ledet deg gjennom tre av de grunnleggende teknikkfamiliene, lineær programmering, regresjonsanalyse og beslutningstrær. I neste innlegg i min lille serie "Data Science - hvordan gjør de det? " vil jeg ta for meg:

klassifisering,
anbefalingsmotorer (samhandlingsfiltrering - Amazon, Spotify etc.) og
klyngeteknikker (clustering)

Takk for oppmerksomheten.

*Innlegget er i store trekk et fritt omarbeidet innlegg av deler av Alex Jones artikkel om Bigdatateknikker.

Espen Remman

Rådgiver/Partner

Chronos AS

tlf. 97557021

espen.remman(at)chronosit.no

twitter: EspenRemman

www.chronosit.com

Share on Twitter

Big Data er kommet for å bli!

... slik dotcom kom for å bli for 15 år siden.

Vi i databransjen er notoriske i vår lansering av uforståelige begreper (såkalte hypes). Vår begrepsbruk skaper dessverre unødig avstand til kundene. I denne bloggen vil jeg prøve å bidra til en større forståelse av hva Big Data handler om.

Hva rommer begrepet Big Data? Big Data handler om at den digitale utviklingen gjør det mulig å forstå stadig mer av virkeligheten. Vi kan fange og analysere stadig større mengder data. Der statistikk finner svar i såkalte representative utvalg går Big Data lenger og forholder seg til fulle datasett.

Data oppstår i dag i stadig større volumer, med stadig større hastighet og i tiltakende variasjoner. Og de oppstår praktisk talt alltid i det digitale rom. Big Data adresserer disse utfordringene - som samtidig også representerer store muligheter.

Volum:

I dag kan du og jeg lagre all musikk vi kan drømme om på en hard disk til noen få tusen kroner. For noen få år siden var det en utopisk idé. Det er i dag mulig - selv for små virksomheter - å lagre så store data mengder at vi ikke klarer å forholde oss til det. Selv et enkelt regneark i Excel på en vanlig PC har i dag kapasitet til å inneholde millioner rader.
I 1991 kunne du kjøpe en gigabyte stor hard disk (hele 1 000 millioner ord eller felter) for 20 tusen kroner. I 2013 kunne du kjøpe en 4 terabyte hard disk (det er 4 000 000 000 000 ord - 4 000 Gigabyte), ufattelige store datamengder. Denne harddisken kostet bare 1 500 kroner. Det er en bedring i lagringskapasiteten 4 000 ganger og en forbedring i pris/ytelses-forhold 60 000 ganger.
Billige lagringsenheter med enorm kapasitet gjør at det nå i mange sammenhenger ikke lenger er nødvendig å slette data. Snarere ser nå mange virksomheter på muligheten til å fange og lagre stadig mer data.
Vi kan i dag lagre data bare med den naive tanke: "Du får sikkert bruk for det en vakker dag". "Kjekt å ha".
Flere virksomheter priser seg nå lykkelig over kravene til myndighetene om oppbevaring av regnskapstall i 10 år. Mange har ikke "bare" beholdt regnskapstransaksjonene, men også andre tilstøtende systemers transaksjoner. Noen virksomheter kaster seg nå over disse dataene med nye øyne. Andre skulle ønske de hadde historiske data de har slettet underveis.

Hastighet:

I dag oppstår data digitalt med kun få unntak. Når skrev du ett håndskrevet brev sist? De siste par-tre årene har det blitt lagret like mye data digitalt som alle de tidligere årene tilsammen. I følge Cisco økte internettrafikken fra 1993 på 100 terabyte per år til 15 år senere 160 terabyte..... per sekund. Den eksponentielle utviklingen fortsetter.

Stadig flere sensorer og roboter genererer også enorme mengder data. I dag er selv en bil en datamaskin. Hva tror du Elon Musk bruker dataene fra datamaskinen i Tesla'en til? I hvilken grad tror du Elon Musk har sett hvilke forretningsmuligheter det ligger i dataene som samles fra bilene.
Min vaskemaskin gikk fløyten i sist tordenvær. Det var bare å bytte kretskortet (datamaskinen). Kopimaskiner og kaffemaskiner er nå koplet til nettet. Huset ditt tilsvarende. Dataene formelig spruter ut av hver eneste lille duppedings i en fart vi aldri tidligere har sett maken til og i enda mindre grad så for oss bare for noen få år siden.
CERN generer en petabyte data i sine forsøk - hver dag. Det er ekstreme mengder.
Regnekapasiteten i dagens datamaskiner og kommunikasjonskapasiteten i fiber, trådløst og mobil-nettverk har et pris-ytelsesforhold som ikke kan sammenliknes med noen få år tilbake. Intels regneenhet (såkalt CPU) brukt i standard datamaskiner kunne gjennomføre 2 000 millioner instruksjoner per sekund i 1999. I dag klarer Intels regneenhet 125 000 millioner instruksjoner i sekundet. Og prisene faller.
Selv mindre selskaper kan i dag - med akseptable kostnader - fange store data volumer i høy hastighet.

Variasjon:

Tidligere modellerte vi databaser som skulle lagre de dataene vi mente var relevante. Databasen var et lukket system internt i bedriften. På disse modellerte (strukturerte) databasene bygget vi rapporteringsløsninger og såkalte Business Intelligence-løsninger.
I dag kan virksomheter fange relevante data fra alle tenkelige og nær sagt utenkelige kilder. Dataene varierer i struktur og har gjerne forskjellig begrepsapparat og formater, selv også for logisk sett samme type informasjon.
Variasjonen i dataene er en av de større utfordringene med Big Data. Til forskjell fra når vi bygget strukturerte databaser kan vi nå tillate oss å samle dataene først uten å modellere alt på forhånd.

Den kraften og kapasiteten som ligger i dagens teknologi gjør at vi kan ha en såkalt "grådig" tilnærming til disse dataene. Vi kan fange dataene først - og se hva det kan brukes til etterpå!

Avanserte, effektive og kraftige dataassisterte analyseteknikker kan i etterkant anvendes på dataene på mange forskjellige måter, med mange forskjellige vinklinger med forskjellige målsetninger.

Behandling av data:

Forskere innen statistikk, lingvistikk, matematikk, kunstig intelligens og informasjonsteknologi har i mange år arbeidet på laboratoriet med avanserte programmer (programmene kalles gjerne "algoritmer"*) som kan tolke data og ekstrahere kunnskap. Tidligere var forsøkene begrenset av lagre- og regnekapasitet. Selskaper som Yahoo, Google, Facebook grep tak i forskningsmiljøenes arbeid på feltet og bygget, etterhvert som teknologien vokste fram, løsninger som var i stand til å bearbeide enorme datamengder med stor variasjon - i stor hastighet.

Mange av disse algoritmene er i dag tilgjengelig for alle som har kompetanse til å nyttiggjøre seg dem.

I dag er det mulig for de aller fleste virksomheter å nyttiggjøre seg Bigdata.

Maskiner og nettverk har enormt mye større kapasitet enn bare for noen få år siden. Prisen for denne kapasiteten har sunket dramatisk.
Lagringskapasiteten har økt ekstremt. Pris pr datamengde har sunket tilsvarende.
Avanserte løsninger for å fange og bearbeide data og skape kunnskap er utviklet og tilgjengelig.

Stadig flere virksomheter forstår at de må utforske dette området nå for ikke å bli akterutseilt i forhold til sine konkurrenter.

Hva tror du selskaper som Google, Facebook, Zalando, Norgesgruppen, Amazon, Schibsted Media Group, og Norwegian, for å nevne noen, ser på som noen av sine viktigste assets?

Hvorfor har Media Norge/Schibsted Media Group etablert en pålogget tjeneste (SPID)? Du logger deg inn her for å lese VG, Aftenposten, Bergen Tidende, Stavanger Aftenblad og Fedrelandsvennen og for å bruke tjenestene på Finn.no.

Hvilke muligheter åpner seg for Schibsted gjennom ditt registrerte bruk i alle disse kanalene?

Hvilken verdi har kunnskapen om din adferd for Media Norge/Schibsted Media Group.

Hvordan bruker Norgesgruppen lojalitetskortet Trumf i utviklingen av sine produkter? Hvordan tilpasser de produktene til deg?

Hva er det med Amazon som tiltaler deg. Hvorfor kan Amazon i dag levere nær sagt hva som helst til hvem som helst? Hva er Amazons konkurransefortrinn?

Nå lever vi virkelig i dataalderen. Kunnskap er makt heter det. Kunnskap har heller aldri vært mer lønnsomt enn i dag.

Utforsk Big Data nå:

Det er en rivende utvikling på Big Data-området. Hvis du ikke allerede har begynt å se på Big Data er det på tide å gjøre det nå.

Du kan i dag teste ut løsningskonsepter og få demonstrert verdien som ligger i disse løsningene raskt. Selv om fagområdet kalles Big Data snakker vi ikke om Big Bang-prosjekter. Avanserte teknologier på standard datamaskiner er tilgjengelig uten stor kostnad.

Det er fullt mulig, og anbefales, å starte med å kjøre avgrensete konseptstudier på identifiserte områder hvor man kan oppnå stor verdi ved relativ liten innsats.

*Algoritmi, eller Al-Khwārizmī på arabisk, var en Arabisk mate-

matiker som lagde en oppskrift for å løse annengradslikninger

I min neste blogg vil jeg skrive om teknikker og metoder som anvendes innen Big Data for å ekstrahere kunnskap av de store datamengdene (Data Science).