AlphaGo er stadig langt fra virkelighedens verden

Claus Dahl leder Visma e-conomics Machine Learning team. Claus er cand scient i matematik og har 20 års erfaring med software og dataanalyse.

Af Claus Dahl team manager for machine learning i Visma e-conomic

Hvis du ikke har hørt om Google-virksomheden DeepMind, så har du helt sikkert hørt om firmaets skabning AlphaGo – maskinen, der i en live-transmitteret menneske-mod-maskinen match, slog verdens bedste Go-spiller Lee Sedol tilbage i 2016.

Kampen blev som nævnt transmitteret live, og Sedols nederlag gik verden rundt. Begivenheden gav AI og machine learning massiv opmærksomhed. Kommentariatet faldt i svime. Når et super vanskeligt spil, som Go  faldt, så må det hele da snart falde. Den Intelligente Computer kan ikke være længe væk – et budskab, vi har hørt på gennem årtier; men nu det passe – for hedder virksomheden måske ikke DeepMind? Og bruger de ikke Deep Learning?

Man kunne læse, at DeepMinds maskiner lærer ligesom mennesker – ved at prøve, lave fejl – få gevinster, når det lykkes, og så prøve igen. Reinforcement Learning – RL - som teknikken hedder, når det er en maskine, der bruger den, er en del af vores hjerne-hardware. Hvis de har fået det til at virke, så er det vel game over for os mennesker?

Reinforcement learning virker ihvertfald fantastisk i spil. Og DeepMinds maskiner har spillet spil, siden firmaets begyndelse - længe før AlphaGo. Længe før virksomheden blev købt af Google, var DeepMinds store idé og gennembrud at bygge maskiner, der spillede computerspil bedre end mennesker. Klassiske computerspil, som Pong, Breakout og Space Invaders.

AlphaGo er spil

Spil er attraktive for DeepMind, som firmaets grundlægger, Demis Hassabis, forklarer i filmen AlphaGo.  ”Vi mener virtuelle miljøer og spil er den ideelle platform til at udvikle kunstig intelligens algoritmer. Spil er smarte på den måde, at en masse af dem har pointsystemer, så det er meget nemt at måle bittesmå fremskridt.”

Kritikere vil sige at Hassabis lige har forklaret, hvorfor DeepMinds enorme succes med at spille spil, ikke har ført til den samme succes ude i den rigtige verden.

  • Ude i virkeligeden får man ikke point, for hver lille succes man har; målene er noget mere indirekte end som så.
  • Ude i virkeligheden mangler man viden – man har ikke hele sandheden lige foran sig, som man har på et skakbræt.
  • Ude i virkeligheden hænger alting sammen – fortid og fremtid, det du kan se og det du ikke kan se – du kan ikke bare bruge den information, du har lige foran dig, til at træffe beslutninger.
  • Ude i virkeligheden er vi ofte nødt til at løse opgaver efter at have set ganske få, et enkelt eller slet ingen, eksempler. DeepMinds spil-maskiner bliver trænet på, bogstavelig talt, milliarder af spil – de bruger mere tid på det end nogen menneskelig ekspert nogensinde har gjort og kan rumme. Virkeligheden – er ikke så nem at simulere.

 

Unity med machine learning i udvikling af spil

Hvis nu man lever af computerspil, så kan den slags problemer jo dybest set være ligemeget. Tag f.eks. danske Unity – verdens førende platform til udvikling af spil til smartphones.

For Unity er opblomstringen af RL en indlysende mulighed. Computerspil er fyldt med maskinlæring. Der er både de modstandere man har i spillene, som skal læres op – men der er så meget mere. Objekter og skabninger i spillene skal have realistiske bevægelsesmønstre. Det er ikke besynderligt, at Unity gennem de sidste par år har satset stort på at bygge Unity op som base for en gigantisk maskinlæringsplatform, med reinforcement learning i centrum.

Sidste år vendte Unity så platformen på hovedet – det er slet ikke en spilplatform mere – det er en simulationsplatform for RL-algoritmer, der prøver at tackle problemer i den rigtige fysiske 3D-verden. Det er en snedig idé: Spil er i forvejen bygget til at kunne simulere alt mellem himmel og jord – så kan vi jo også simulere nogle maskinlæringsproblemer vi vil løse. Man kan høre Unity’s Danny Lange fortælle mere om den plan her.

Unitys idé er, at gøre spilplatformen til den førende simulationsplatform for den udvikling – og virksomheden annoncerede sidste år et samarbejde med DeepMind om det projekt. Umiddeltbart et kæmpe boost for Unity – men det er lidt svært at se hvor stærkt DeepMinds commitment er til ideen. DeepMind er involveret i talrige andre simulationsplatforme – og konsulterer man DeepMinds ellers meget livlige research website, optræder Unity-samarbejdet ikke. Da Forbes talte med Unity’s Danny Lange om samarbejdet ved lanceringen sidste år, havde DeepMind ingen kommentarer.

Det er stadig et åbent spørgsmål hvor godt ideen overhovedet fungerer – altså om læringen fra simulationerne med held kan overføres til virkeligheden. Fornylig skrev Google’s Ed Chi på Twitter, at der kun var lykkedes ganske få gange i Google at få Reinforcement Learning til at fungere på rigtige problemer.

DeepMind selv er i medierne for tiden med algoritmen AlphaFold, der forudsiger proteiners tredimensionelle form, fra proteinets genetiske beskrivelse. AlphaFold er også baseret på neurale netværk og deep learning – men ifølge DeepMinds egen beskrivelse er reinforcement learning ikke med i billedet.

Tiden vil vise om Unity har ramt rigtig med satset på at blive en AI platform, ikke bare en spilplatform. Indtil videre må firmaet nok besinde sig på, at det ikke så meget er praktiske problemer, men legetøjsproblemer, man løser med Unity. Mere levende spil skal vi nok få.