🤯⚡️World Models tar över 2026

Från AI som förstår ord till AI som förutsäger världen. Detta förändrar ju allt!

Nov 14, 2025

Det här är nyhetsbrevet där Tomas Seo, innovationsstrateg på Phorecast, berättar om händelser, upptäckter och ny teknik som får honom att utbrista: Detta förändrar ju allt! Du prenumererar på det här för att fortsätta vara steget före med de senaste trenderna och få konkreta tips för att framtidssäkra dig och din organisation. Har du fått det här av en vän? Då vill du kanske starta en egen prenumeration?

Vad har hänt?

- World Labs lanserar sin första produkt Marble.

Stanfordprofessorn och World Labs-grundaren Fei-Fei Li släppte i måndags ett manifest där hon proklamerar att AI behöver spatial intelligens inför nästa utvecklingsfas. Det vill säga AI-system som uppfattar, resonerar om och interagerar med både fysiska och virtuella miljöer, inte bara text.

Hon hävdar att dagens språkmodeller (LLM) har slagit i taket på vad de någonsin kommer klara av då de är “eloquent but ungrounded” och sätter ramarna för vad som krävs för nästa fas.

Li definierar så kallade världsmodeller utifrån tre kärnförmågor:
1. Generativa. De kan skapa geometri- och fysikkonsekventa världar.
2. Multimodala. De kan ta in text, bild, video, djup, gester med mera.
3. Interaktiva. De kan förutsäga nästa världstillstånd även utan ett fördefinierat mål.

Hennes bolag World Labs har tidigare tagit in cirka 230 miljoner dollar redan innan de började forska och har lyfts fram som ledande i nischen, samtidigt som Google DeepMind organiserar ett eget team för ”world models”. Li sammanfattar ambitionen kort: ”Spatial intelligence represents the frontier beyond language.”

I onsdags släppte sedan World Labs sin första produkt Marble. Det är ett nytt AI-drivet världsmodell-system som kan skapa hela, navigerbara 3D-miljöer utifrån en enkel textprompt, bilder, video eller 360-panoramor. Marble låter dig sedan redigera världen direkt genom att till exempel ta bort eller byta ut objekt, ändra stil eller bygga ut miljön steg för steg.

Modellen är gjord för saker som spel, film/VFX, AR/VR, arkitektur och robotik, där man behöver snabba, realistiska och redigerbara 3D-världar snarare än bara enstaka objekt.

Detta förändrar ju allt

FeiFei Li har en fascinerande syn på hur den evolutionära utvecklingen av hur vår syn uppfattar världen har lett till hur vi tänker idag. Vi såg världen innan vi hade språk för att beskriva den, brukar hon säga. För henne är det självklart att AI-modeller som ser innan de talar kommer ha en djupare förståelse för hur världen fungerar som en booksmart AI bara läst sig till.

Varje vecka släpps det nya AI-modeller som kan generera snyggare och mer realistiska bilder och video. De flesta är inget att bry sig om. Jag har betatestat World Labs modell i flera månader nu och även om det ser snyggt ut så blir jag inte särskilt imponerad. Användningsområdet för verktyget är för smalt, jag har inte haft nytta av det en enda gång, det finns enklare sätt att göra miljöer till mina AI-filmer.

Ändå är jag övertygad om att forskningen bakom Marble är mycket imponerande! Svårigheten med att bedöma helt nya typer av verktyg är att skaparna är forskare. De bästa forskarna är oftast inte de som är bäst på att skapa produkter. De som testar Marble kommer jämföra det med AI-genererade bilder på miljöer. Visst, man kan navigera runt i dem men utan VR-headset blir det platt. Vi får hoppas att det smala området de valt för att visa upp hur world models fungerar inte gör att folk slutar lyssna när det kommer nyheter inom området. För det är inte visualiseringarna som gör att world models kommer bli ett av kommande års stora tema för AI-utveckling.

I tisdags rapporterade media att Yann LeCun överväger att säga upp sig från Meta. Han har tidigare bossat på Meta AI:s forskningsavdelning och precis som FeiFei har han varit högljudd förespråkare för att AI som bara kan förstå ord inte kommer bli bättre än de är idag. Meta fortsätter dock att satsa på LLM:er vilket förmodligen är anledningen till att han säger tack och adjö. Det kommer inte dröja länge innan Yann kommer att få flera miljoner dollar för att starta en konkurrent till FeiFeis World Labs.

Både Yann och FeiFei anser att modeller som inte först är tränade i att se världen är värdelösa, och att de andra techjättarnas AI-modeller inte kommer bli bättre än de är nu. Men Google och OpenAI kommer fortsätta hävda att de kan bygga vidare på de språkmodeller de har om de kombinerar dem med sina videomodeller.

Grejen med forskningen bakom world models är att angreppssättet är väldigt annorlunda. Vi tar ett exempel:

Om vi ger en AI-modell en bild på en mus i början av en labyrint med ost i så får vi en video på en mus som följer ett spår av ost för att hitta ut ur labyrinten. Hur angriper videomodeller det? Lite förenklat är det på tre sätt:

A. Förr. En traditionell videomodell.
Modellen vet vare sig hur möss, väggar eller ost fungerar. Allt är pixlar i olika färger. I träningsdatan har den aldrig stött på en video på en mus som går rakt genom en vägg så därför minskar sannolikheten att musen kommer göra det i filmen som modellen genererar. Men varje bild genereras för sig i en lång sekvens. Så om det känns troligare att musen skulle flyta ihop med väggen än att generera en bild där musen ändrar riktning så gör modellen det.
B. Nu. AI-agentsystem.
Modellen har läst tillräckligt mycket om hur möss, väggar eller ost fungerar, speciellt i kontexten labyrinter så den vet hur den ska göra. En del av modellen vet att det krävs matematiska verktyg för att lösa labyrinter effektivt. Uppdraget att rita en karta skickas till den delen av modellen. Språkmodellen tar sedan den lösningen och gör om den till en prompt som videomodellen gör film av.
C. Framtid. Äkta world model.
Modellen vet hur fysik fungerar. Den börjar med att visualisera hur rummet ser ut så den får perspektivet av hur musen ser världen och navigerar sedan mot ostbiten. När musen kommit fram till ostbiten i korsningen så vänder världsmodellen runt musen så den kan titta åt olika håll så som en mus skulle göra. Modellen tar musens point of view och förstår att den skulle välja hållet där den ser nästa ostbit. (FeiFeis och Yanns världsmodeller är enbart syn annars skulle väl musen luktat åt vilket håll den skulle gå istället). Istället för en platt film så skapas en 3D-visualisering som användaren antingen kan titta på från musens perspektiv eller från någon annan utzoomad vinkel. Eller så kan användaren istället få hela simuleringen beskriven i text eller numerisk data i en tabell, eller ett 3D-spel där du är musen, det behöver ju inte vara video som är slutresultatet.

Dagens bästa videomodeller som Googles Veo 3 och OpenAIs Sora 2 är B, men sniffar på C. OpenAI har redan för början varit tydliga med att Sora är ett world model projekt för dem i första hand. (jag skrev om det när första Sora kom) Men det jag sett från Sora 2 känns ändå inte som en native world model på egen hand utan den är i kombo med ChatGPT 5, vilket är en modell tränad på text och bild i samma modell. Googles flaggskepp Gemini som började tränas med både text, bild, ljud och video i samma modell redan för två år sedan har därför ett stort försprång.

Det var därför Nano Banana blev så bra på att hjälpa oss redigera bilder med vanligt språk, och snart släpps Googles Nano Banana 2 (kanske har den redan släppts när jag skickat det här?). Den är en del av Google nya version 3.0 av Gemini och peppen inom AI-communitien är hög.

Men trots sitt försprång så har Gemini precis som alla andra modeller resonerat i ord först och inte i bilder eller video. Förmodligen eftersom det är dyrare i drift, men om FeiFeis vision om nya språng i AI-utvecklingen ska kunna komma så behöver AI ha preverbala resonemang innan det genereras ett enda ord.

World models handlar inte om att få AI att kunna generera snyggare bilder eller filmer eller ens om tech. Begreppet beskriver hur en person (eller chatbot eller robot) kan förutspå vad som kommer att hända om hen interagerar med omvärlden. Och hur en tankemodell om hur världen fungerar gör så att vi slipper att först behöva verbalisera hur gravitation fungerar varje gång vi ska svara på en fråga där fysiska lagar spelar roll. De ger oss högre träffsäkerhet i att förutse framtiden.

Det är nämligen inte i att göra administrativa tjänstemän arbetslösa som nästa stora vinst av AI ligger. De stora pengarna för AI ligger, inom den närmaste framtiden, i att göra övergången mellan det digitala och den fysiska världen. Om en AI-modell kan förstå och påverka sin fysiska omvärld så kan i princip all industri näst intill helautomatiseras. Tidigare AI-modeller för industri var dyra att träna, svåra att kalibrera och minsta förändring gjorde dem värdelösa. Men det större värdet med world models blir när vi kan kombinera dessa traditionella AI-tekniker med nya typer av world models-AI:s.

Så tänk på det 2026 när kommer vi att få fler world model-baserade AI-genererare som gör finare bilder, hookigare video och 3D-spel. Det är lättare att få spridning av visuella demos i media, men tekniken bakom kan ha mycket mer värdefulla implikationer som inte går att förklara enkelt.

När de nya AI-modellerna kommer ut i industrin så kommer många stora industrisektorer att implodera. För om vi redan nästa år kan få in den flexibilitet som ChatGPT visat i kombo med AI-modeller som faktiskt förstår fysik så kommer all affärslogik för fysisk produktion och installation ritas om, och detta förändrar ju allt!

Vad kan du göra idag?

Förstå

Modern AI har fastnat i att försöka simulera den medvetna delen av våra hjärnor. Det som vi sätter ord på och kan skapa långa resonemang av. Tiden det tar att få fram smartare resonemang är lång och ska vi skapa system som interagerar med världen som bygger på den sortens tech så kommer vi ha robotar som jobbar i slowmotion med uppgifter som en människa kan göra utan att tänka efter.

Alla techbolag förbereder sig på att AI ska bryta gränsen mellan det digitala och vår fysiska värld. Apple har tagit ett steg tillbaka i att vänta på att deras egna AI-modeller blir konsumentredo och har skrivit avtal med Google medan AI-Siri växer färdigt. Under tiden satsar Apple satsar på hårdvara igen och ska släppa sin första robot för konsument 2027. Det ligger i linje med Apples historia, de är i grunden ett hårdvaruföretag som kan prylar. Även Meta och OpenAI har aktualiserat sina initiativ till att bygga egna robotar igen.

När world models implementeras i robotar så kommer de kunna röra sig i rum de aldrig sett förr lika bra som en människa. Då kommer robotarna inte bara att kunna tänka igenom svårare problem än dagens industrirobotar utan även röra sig obehindrat när de utför helt nya lösningar som de kommer på.

Men vinsten ligger inte enbart i hur AI kan navigera det fysiska rummet och interagera med fysiska verktyg. Det är viktigt att förstå att world models huvudfunktion är att skapa snabbare och träffsäkrare prognoser om vad som händer om vi interagerar med världen. Just nu handlar det bara om visualisering först och ordgenerering sedan. Men i framtiden kan det pre-verbala utrymmet, där AI resonerar innan hen verbaliserar, innehålla data från sinnen (sensorer) som människor inte ens har.

Planera

En world model är vår inre karta över hur världen fungerar som gör att vi instinktivt vet saker:

Vi vet vad som är möjligt / omöjligt
Vi vet vad som brukar leda till vad (orsak–verkan)
Vi vet vilka spelregler som gäller (kunder vill X, chefer bryr sig om Y, i vår bransch tjänar man pengar på Z)

Genom att medvetandegöra vår organisations världsmodell blir det också möjligt att ifrågasätta den och aktivt uppgradera den.

I McKinseys årliga rapport The state of AI påvisas ett tydligt samband mellan de organisationer som implementerar AI och de få som redan tjänar pengar på det.

De företag som McKinsey kallar AI high performers där AI redan står för en märkbar del av vinsten (mer än 5% av EBIT) har nästan tre gånger så ofta gjort om sina arbetsflöden från grunden.

Så istället för att använda AI för att optimera tidigare sätt att jobba så det blir effektivare och/eller billigare att hitta hur AI möjliggör helt nya sätt att arbeta. De har uppgraderat sin organisations world model.

Gör

Uppdatera din egen world model. Bebisar uppdaterar sin världsmodell hela tiden. Varje gång de ser något som inte passar in med hur de trodde att världen fungerade så tar deras hjärnor fram en ny uppdaterad world model. När vi blir äldre så blir våra world models mer robusta, eller inskränkta kan vi också kalla det. Det behövs mer och mer information för att övertyga oss om att det är vår världsmodell som det är fel på, inte omvärlden.

Genom att öppna upp oss för att låta intryck vi har faktiskt påverka hur vi tänker att världen faktiskt fungerar så kommer vi bli bättre på att förutse vad som faktiskt kommer att hända istället för att bli förvånade över hur samtiden inte verkar hänga ihop.

Gör därför oftare analyser om vad som hänt på följande sätt:
- Jag trodde Y skulle hända på grund av X.
- Men nu hände Z.
- Är det så att vi kanske lever i en värld där X oftare leder till Z numera istället för Y?

Länkar

Dr FeiFei Lis manifest
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

Om World Labs produkt Marble
https://www.worldlabs.ai/blog/marble-world-model

Yann LeCun kanske säger upp sig och startar eget
https://www.ft.com/content/c586eb77-a16e-4363-ab0b-e877898b70de

Testa Marble själv:
https://marble.worldlabs.ai/

McKinsey State of AI 2025
Bygger på en onlineenkät genomförd 25 juni–29 juli 2025 med 1993 deltagare i 105 länder, alla branscher, storlekar och roller. 38% arbetar i bolag med över 1 miljard USD i intäkter. Svaren har sedan viktats efter respektive lands andel av global BNP.
https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

Sedan sist vi hördes

Jag är väldigt pepp på att se vad Nano Banana 2 (eller Ketchup som den verkar heta i de läckta dokumenten) kommer klara av. Första versionen tog mig med storm första vändan, sedan gjordes någonting på baksidan som gjorde den svårare att prompta en period. Jag hoppas att den större integreringen i Gemini 3 kommer göra stor skillnad i hur enkelt vi förstår varandra.

I onsdags släpptes ChatGPT 5.1, jag hade precis börjat vänja mig vid egenheterna som ChatGPT 5 uppvisade. Bara att kavla upp ärmarna igen. Jag gjorde i veckan en utvärdering av Kimi K2 som är en riktigt bra ny kinesisk modell som är helt open source. Tyvärr klarade den inte mina svårare logiktester än.

Vad jag så småningom hoppas på är att hitta en AI-modell som är good enough och open source. Då kan jag ha den som en fast punkt som inte förändras och den kan vara fall back när jag har lite tajtare deadlines och inte har tid att testa nytt. OpenAIs OSS och Kimi K2 är både riktigt bra för textgenerering där inte prompterna behöver behandla logik i massor av steg, så om ni behöver en robust lösning för kontorsbruk så be IT sätta upp en företagsversion av dem istället för att försöka utveckla egna interna LLM:er.

Är du en insiktsdelare?

Känner du någon som behöver förstå world models? Eller kanske någon som ha hjälp med att uppgradera sin organisations world model? Vem tänkte du på? Skicka vidare!

Jag skriver inte så ofta om vad jag gör som konsult på Phorecast. Det mesta är hemligt, vilket också är anledningen till att jag gillar att skriva om insikter jag har i dessa nyhetsbrev och dela dem till många fler än bara en företagsledning.

Gemensamt för de uppdrag jag har på Phorecast är att mina kunder vill utnyttja nya möjligheter. De vill att jag gör en strategisk plan för hur tech (som AI) kan uppdatera organisationens world model. Den ska inte vara en vision, utan en playbook som beskriver görbara actions utan fluff och vad dessa förväntas leda till och hur vi kan hålla koll på att vi är på rätt väg.

Sedan har jag också kunder där jag löpande gör omvärldsbevakning i de teknik- eller forskningsområden som de är intresserade av och omvandlar det till trendföreläsningar som följer ungefär samma format som de här nyhetsbreven. Nyhet som leder till mina tankar, med sammanfattning i Förstå, Planera och Gör.

Jag är också coach under förändringsresor, det betyder regelbundna möten där deltagaren eller gruppen delar med sig av utmaningar de står inför som de önskar kontinuerligt feedback på.

Vet du någon som behöver mina tjänster så får du gärna tipsa om mig! Jag håller på att avsluta ett uppdrag och har tid för nya uppdrag från och med december.

Fortsätt utforska så ses vi nästa vecka!
Tomas Seo

Har du fått dagens nyhetsbrev utan att vara prenumerant?
Gillade du det här och vill ha mer så är det bara att skriva upp sig här
(du väljer själv om du vill betala):

Prenumerera

Detta förändrar ju allt!