đ€ŻâĄïžWorld Models tar över 2026
FrÄn AI som förstÄr ord till AI som förutsÀger vÀrlden. Detta förÀndrar ju allt!
Det hÀr Àr nyhetsbrevet dÀr Tomas Seo, innovationsstrateg pÄ Phorecast, berÀttar om hÀndelser, upptÀckter och ny teknik som fÄr honom att utbrista: Detta förÀndrar ju allt! Du prenumererar pÄ det hÀr för att fortsÀtta vara steget före med de senaste trenderna och fÄ konkreta tips för att framtidssÀkra dig och din organisation. Har du fÄtt det hÀr av en vÀn? DÄ vill du kanske starta en egen prenumeration?
Vad har hÀnt?
- World Labs lanserar sin första produkt Marble.
Stanfordprofessorn och World Labs-grundaren Fei-Fei Li slÀppte i mÄndags ett manifest dÀr hon proklamerar att AI behöver spatial intelligens inför nÀsta utvecklingsfas. Det vill sÀga AI-system som uppfattar, resonerar om och interagerar med bÄde fysiska och virtuella miljöer, inte bara text.
Hon hĂ€vdar att dagens sprĂ„kmodeller (LLM) har slagit i taket pĂ„ vad de nĂ„gonsin kommer klara av dĂ„ de Ă€r âeloquent but ungroundedâ och sĂ€tter ramarna för vad som krĂ€vs för nĂ€sta fas.
Li definierar sÄ kallade vÀrldsmodeller utifrÄn tre kÀrnförmÄgor:
1. Generativa. De kan skapa geometri- och fysikkonsekventa vÀrldar.
2. Multimodala. De kan ta in text, bild, video, djup, gester med mera.
3. Interaktiva. De kan förutsÀga nÀsta vÀrldstillstÄnd Àven utan ett fördefinierat mÄl.
Hennes bolag World Labs har tidigare tagit in cirka 230 miljoner dollar redan innan de började forska och har lyfts fram som ledande i nischen, samtidigt som Google DeepMind organiserar ett eget team för âworld modelsâ. Li sammanfattar ambitionen kort: âSpatial intelligence represents the frontier beyond language.â
I onsdags slÀppte sedan World Labs sin första produkt Marble. Det Àr ett nytt AI-drivet vÀrldsmodell-system som kan skapa hela, navigerbara 3D-miljöer utifrÄn en enkel textprompt, bilder, video eller 360-panoramor. Marble lÄter dig sedan redigera vÀrlden direkt genom att till exempel ta bort eller byta ut objekt, Àndra stil eller bygga ut miljön steg för steg.
Modellen Àr gjord för saker som spel, film/VFX, AR/VR, arkitektur och robotik, dÀr man behöver snabba, realistiska och redigerbara 3D-vÀrldar snarare Àn bara enstaka objekt.
Detta förÀndrar ju allt
FeiFei Li har en fascinerande syn pÄ hur den evolutionÀra utvecklingen av hur vÄr syn uppfattar vÀrlden har lett till hur vi tÀnker idag. Vi sÄg vÀrlden innan vi hade sprÄk för att beskriva den, brukar hon sÀga. För henne Àr det sjÀlvklart att AI-modeller som ser innan de talar kommer ha en djupare förstÄelse för hur vÀrlden fungerar som en booksmart AI bara lÀst sig till.
Varje vecka slÀpps det nya AI-modeller som kan generera snyggare och mer realistiska bilder och video. De flesta Àr inget att bry sig om. Jag har betatestat World Labs modell i flera mÄnader nu och Àven om det ser snyggt ut sÄ blir jag inte sÀrskilt imponerad. AnvÀndningsomrÄdet för verktyget Àr för smalt, jag har inte haft nytta av det en enda gÄng, det finns enklare sÀtt att göra miljöer till mina AI-filmer.
ĂndĂ„ Ă€r jag övertygad om att forskningen bakom Marble Ă€r mycket imponerande! SvĂ„righeten med att bedöma helt nya typer av verktyg Ă€r att skaparna Ă€r forskare. De bĂ€sta forskarna Ă€r oftast inte de som Ă€r bĂ€st pĂ„ att skapa produkter. De som testar Marble kommer jĂ€mföra det med AI-genererade bilder pĂ„ miljöer. Visst, man kan navigera runt i dem men utan VR-headset blir det platt. Vi fĂ„r hoppas att det smala omrĂ„det de valt för att visa upp hur world models fungerar inte gör att folk slutar lyssna nĂ€r det kommer nyheter inom omrĂ„det. För det Ă€r inte visualiseringarna som gör att world models kommer bli ett av kommande Ă„rs stora tema för AI-utveckling.
I tisdags rapporterade media att Yann LeCun övervÀger att sÀga upp sig frÄn Meta. Han har tidigare bossat pÄ Meta AI:s forskningsavdelning och precis som FeiFei har han varit högljudd föresprÄkare för att AI som bara kan förstÄ ord inte kommer bli bÀttre Àn de Àr idag. Meta fortsÀtter dock att satsa pÄ LLM:er vilket förmodligen Àr anledningen till att han sÀger tack och adjö. Det kommer inte dröja lÀnge innan Yann kommer att fÄ flera miljoner dollar för att starta en konkurrent till FeiFeis World Labs.
BÄde Yann och FeiFei anser att modeller som inte först Àr trÀnade i att se vÀrlden Àr vÀrdelösa, och att de andra techjÀttarnas AI-modeller inte kommer bli bÀttre Àn de Àr nu. Men Google och OpenAI kommer fortsÀtta hÀvda att de kan bygga vidare pÄ de sprÄkmodeller de har om de kombinerar dem med sina videomodeller.
Grejen med forskningen bakom world models Àr att angreppssÀttet Àr vÀldigt annorlunda. Vi tar ett exempel:
Om vi ger en AI-modell en bild pÄ en mus i början av en labyrint med ost i sÄ fÄr vi en video pÄ en mus som följer ett spÄr av ost för att hitta ut ur labyrinten. Hur angriper videomodeller det? Lite förenklat Àr det pÄ tre sÀtt:
A. Förr. En traditionell videomodell.
Modellen vet vare sig hur möss, vÀggar eller ost fungerar. Allt Àr pixlar i olika fÀrger. I trÀningsdatan har den aldrig stött pÄ en video pÄ en mus som gÄr rakt genom en vÀgg sÄ dÀrför minskar sannolikheten att musen kommer göra det i filmen som modellen genererar. Men varje bild genereras för sig i en lÄng sekvens. SÄ om det kÀnns troligare att musen skulle flyta ihop med vÀggen Àn att generera en bild dÀr musen Àndrar riktning sÄ gör modellen det.B. Nu. AI-agentsystem.
Modellen har lĂ€st tillrĂ€ckligt mycket om hur möss, vĂ€ggar eller ost fungerar, speciellt i kontexten labyrinter sĂ„ den vet hur den ska göra. En del av modellen vet att det krĂ€vs matematiska verktyg för att lösa labyrinter effektivt. Uppdraget att rita en karta skickas till den delen av modellen. SprĂ„kmodellen tar sedan den lösningen och gör om den till en prompt som videomodellen gör film av.C. Framtid. Ăkta world model.
Modellen vet hur fysik fungerar. Den börjar med att visualisera hur rummet ser ut sÄ den fÄr perspektivet av hur musen ser vÀrlden och navigerar sedan mot ostbiten. NÀr musen kommit fram till ostbiten i korsningen sÄ vÀnder vÀrldsmodellen runt musen sÄ den kan titta Ät olika hÄll sÄ som en mus skulle göra. Modellen tar musens point of view och förstÄr att den skulle vÀlja hÄllet dÀr den ser nÀsta ostbit. (FeiFeis och Yanns vÀrldsmodeller Àr enbart syn annars skulle vÀl musen luktat Ät vilket hÄll den skulle gÄ istÀllet). IstÀllet för en platt film sÄ skapas en 3D-visualisering som anvÀndaren antingen kan titta pÄ frÄn musens perspektiv eller frÄn nÄgon annan utzoomad vinkel. Eller sÄ kan anvÀndaren istÀllet fÄ hela simuleringen beskriven i text eller numerisk data i en tabell, eller ett 3D-spel dÀr du Àr musen, det behöver ju inte vara video som Àr slutresultatet.
Dagens bÀsta videomodeller som Googles Veo 3 och OpenAIs Sora 2 Àr B, men sniffar pÄ C. OpenAI har redan för början varit tydliga med att Sora Àr ett world model projekt för dem i första hand. (jag skrev om det nÀr första Sora kom) Men det jag sett frÄn Sora 2 kÀnns ÀndÄ inte som en native world model pÄ egen hand utan den Àr i kombo med ChatGPT 5, vilket Àr en modell trÀnad pÄ text och bild i samma modell. Googles flaggskepp Gemini som började trÀnas med bÄde text, bild, ljud och video i samma modell redan för tvÄ Är sedan har dÀrför ett stort försprÄng.
Det var dÀrför Nano Banana blev sÄ bra pÄ att hjÀlpa oss redigera bilder med vanligt sprÄk, och snart slÀpps Googles Nano Banana 2 (kanske har den redan slÀppts nÀr jag skickat det hÀr?). Den Àr en del av Google nya version 3.0 av Gemini och peppen inom AI-communitien Àr hög.
Men trots sitt försprÄng sÄ har Gemini precis som alla andra modeller resonerat i ord först och inte i bilder eller video. Förmodligen eftersom det Àr dyrare i drift, men om FeiFeis vision om nya sprÄng i AI-utvecklingen ska kunna komma sÄ behöver AI ha preverbala resonemang innan det genereras ett enda ord.
World models handlar inte om att fÄ AI att kunna generera snyggare bilder eller filmer eller ens om tech. Begreppet beskriver hur en person (eller chatbot eller robot) kan förutspÄ vad som kommer att hÀnda om hen interagerar med omvÀrlden. Och hur en tankemodell om hur vÀrlden fungerar gör sÄ att vi slipper att först behöva verbalisera hur gravitation fungerar varje gÄng vi ska svara pÄ en frÄga dÀr fysiska lagar spelar roll. De ger oss högre trÀffsÀkerhet i att förutse framtiden.
Det Àr nÀmligen inte i att göra administrativa tjÀnstemÀn arbetslösa som nÀsta stora vinst av AI ligger. De stora pengarna för AI ligger, inom den nÀrmaste framtiden, i att göra övergÄngen mellan det digitala och den fysiska vÀrlden. Om en AI-modell kan förstÄ och pÄverka sin fysiska omvÀrld sÄ kan i princip all industri nÀst intill helautomatiseras. Tidigare AI-modeller för industri var dyra att trÀna, svÄra att kalibrera och minsta förÀndring gjorde dem vÀrdelösa. Men det större vÀrdet med world models blir nÀr vi kan kombinera dessa traditionella AI-tekniker med nya typer av world models-AI:s.
SÄ tÀnk pÄ det 2026 nÀr kommer vi att fÄ fler world model-baserade AI-genererare som gör finare bilder, hookigare video och 3D-spel. Det Àr lÀttare att fÄ spridning av visuella demos i media, men tekniken bakom kan ha mycket mer vÀrdefulla implikationer som inte gÄr att förklara enkelt.
NÀr de nya AI-modellerna kommer ut i industrin sÄ kommer mÄnga stora industrisektorer att implodera. För om vi redan nÀsta Är kan fÄ in den flexibilitet som ChatGPT visat i kombo med AI-modeller som faktiskt förstÄr fysik sÄ kommer all affÀrslogik för fysisk produktion och installation ritas om, och detta förÀndrar ju allt!
Vad kan du göra idag?
FörstÄ
Modern AI har fastnat i att försöka simulera den medvetna delen av vÄra hjÀrnor. Det som vi sÀtter ord pÄ och kan skapa lÄnga resonemang av. Tiden det tar att fÄ fram smartare resonemang Àr lÄng och ska vi skapa system som interagerar med vÀrlden som bygger pÄ den sortens tech sÄ kommer vi ha robotar som jobbar i slowmotion med uppgifter som en mÀnniska kan göra utan att tÀnka efter.
Alla techbolag förbereder sig pĂ„ att AI ska bryta grĂ€nsen mellan det digitala och vĂ„r fysiska vĂ€rld. Apple har tagit ett steg tillbaka i att vĂ€nta pĂ„ att deras egna AI-modeller blir konsumentredo och har skrivit avtal med Google medan AI-Siri vĂ€xer fĂ€rdigt. Under tiden satsar Apple satsar pĂ„ hĂ„rdvara igen och ska slĂ€ppa sin första robot för konsument 2027. Det ligger i linje med Apples historia, de Ă€r i grunden ett hĂ„rdvaruföretag som kan prylar. Ăven Meta och OpenAI har aktualiserat sina initiativ till att bygga egna robotar igen.
NÀr world models implementeras i robotar sÄ kommer de kunna röra sig i rum de aldrig sett förr lika bra som en mÀnniska. DÄ kommer robotarna inte bara att kunna tÀnka igenom svÄrare problem Àn dagens industrirobotar utan Àven röra sig obehindrat nÀr de utför helt nya lösningar som de kommer pÄ.
Men vinsten ligger inte enbart i hur AI kan navigera det fysiska rummet och interagera med fysiska verktyg. Det Àr viktigt att förstÄ att world models huvudfunktion Àr att skapa snabbare och trÀffsÀkrare prognoser om vad som hÀnder om vi interagerar med vÀrlden. Just nu handlar det bara om visualisering först och ordgenerering sedan. Men i framtiden kan det pre-verbala utrymmet, dÀr AI resonerar innan hen verbaliserar, innehÄlla data frÄn sinnen (sensorer) som mÀnniskor inte ens har.
Planera
En world model Àr vÄr inre karta över hur vÀrlden fungerar som gör att vi instinktivt vet saker:
Vi vet vad som Àr möjligt / omöjligt
Vi vet vad som brukar leda till vad (orsakâverkan)
Vi vet vilka spelregler som gÀller (kunder vill X, chefer bryr sig om Y, i vÄr bransch tjÀnar man pengar pÄ Z)
Genom att medvetandegöra vÄr organisations vÀrldsmodell blir det ocksÄ möjligt att ifrÄgasÀtta den och aktivt uppgradera den.
I McKinseys Ärliga rapport The state of AI pÄvisas ett tydligt samband mellan de organisationer som implementerar AI och de fÄ som redan tjÀnar pengar pÄ det.
De företag som McKinsey kallar AI high performers dÀr AI redan stÄr för en mÀrkbar del av vinsten (mer Àn 5% av EBIT) har nÀstan tre gÄnger sÄ ofta gjort om sina arbetsflöden frÄn grunden.
SÄ istÀllet för att anvÀnda AI för att optimera tidigare sÀtt att jobba sÄ det blir effektivare och/eller billigare att hitta hur AI möjliggör helt nya sÀtt att arbeta. De har uppgraderat sin organisations world model.
Gör
Uppdatera din egen world model. Bebisar uppdaterar sin vÀrldsmodell hela tiden. Varje gÄng de ser nÄgot som inte passar in med hur de trodde att vÀrlden fungerade sÄ tar deras hjÀrnor fram en ny uppdaterad world model. NÀr vi blir Àldre sÄ blir vÄra world models mer robusta, eller inskrÀnkta kan vi ocksÄ kalla det. Det behövs mer och mer information för att övertyga oss om att det Àr vÄr vÀrldsmodell som det Àr fel pÄ, inte omvÀrlden.
Genom att öppna upp oss för att lÄta intryck vi har faktiskt pÄverka hur vi tÀnker att vÀrlden faktiskt fungerar sÄ kommer vi bli bÀttre pÄ att förutse vad som faktiskt kommer att hÀnda istÀllet för att bli förvÄnade över hur samtiden inte verkar hÀnga ihop.
Gör dÀrför oftare analyser om vad som hÀnt pÄ följande sÀtt:
- Jag trodde Y skulle hÀnda pÄ grund av X.
- Men nu hÀnde Z.
- Ăr det sĂ„ att vi kanske lever i en vĂ€rld dĂ€r X oftare leder till Z numera istĂ€llet för Y?
LĂ€nkar
Dr FeiFei Lis manifest
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
Om World Labs produkt Marble
https://www.worldlabs.ai/blog/marble-world-model
Yann LeCun kanske sÀger upp sig och startar eget
https://www.ft.com/content/c586eb77-a16e-4363-ab0b-e877898b70de
Testa Marble sjÀlv:
https://marble.worldlabs.ai/
McKinsey State of AI 2025
Bygger pĂ„ en onlineenkĂ€t genomförd 25 juniâ29 juli 2025 med 1993 deltagare i 105 lĂ€nder, alla branscher, storlekar och roller. 38% arbetar i bolag med över 1 miljard USD i intĂ€kter. Svaren har sedan viktats efter respektive lands andel av global BNP.
https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
Sedan sist vi hördes
Jag Àr vÀldigt pepp pÄ att se vad Nano Banana 2 (eller Ketchup som den verkar heta i de lÀckta dokumenten) kommer klara av. Första versionen tog mig med storm första vÀndan, sedan gjordes nÄgonting pÄ baksidan som gjorde den svÄrare att prompta en period. Jag hoppas att den större integreringen i Gemini 3 kommer göra stor skillnad i hur enkelt vi förstÄr varandra.
I onsdags slÀpptes ChatGPT 5.1, jag hade precis börjat vÀnja mig vid egenheterna som ChatGPT 5 uppvisade. Bara att kavla upp Àrmarna igen. Jag gjorde i veckan en utvÀrdering av Kimi K2 som Àr en riktigt bra ny kinesisk modell som Àr helt open source. TyvÀrr klarade den inte mina svÄrare logiktester Àn.
Vad jag sÄ smÄningom hoppas pÄ Àr att hitta en AI-modell som Àr good enough och open source. DÄ kan jag ha den som en fast punkt som inte förÀndras och den kan vara fall back nÀr jag har lite tajtare deadlines och inte har tid att testa nytt. OpenAIs OSS och Kimi K2 Àr bÄde riktigt bra för textgenerering dÀr inte prompterna behöver behandla logik i massor av steg, sÄ om ni behöver en robust lösning för kontorsbruk sÄ be IT sÀtta upp en företagsversion av dem istÀllet för att försöka utveckla egna interna LLM:er.
Ăr du en insiktsdelare?
KÀnner du nÄgon som behöver förstÄ world models? Eller kanske nÄgon som ha hjÀlp med att uppgradera sin organisations world model? Vem tÀnkte du pÄ? Skicka vidare!
Jag skriver inte sÄ ofta om vad jag gör som konsult pÄ Phorecast. Det mesta Àr hemligt, vilket ocksÄ Àr anledningen till att jag gillar att skriva om insikter jag har i dessa nyhetsbrev och dela dem till mÄnga fler Àn bara en företagsledning.
Gemensamt för de uppdrag jag har pÄ Phorecast Àr att mina kunder vill utnyttja nya möjligheter. De vill att jag gör en strategisk plan för hur tech (som AI) kan uppdatera organisationens world model. Den ska inte vara en vision, utan en playbook som beskriver görbara actions utan fluff och vad dessa förvÀntas leda till och hur vi kan hÄlla koll pÄ att vi Àr pÄ rÀtt vÀg.
Sedan har jag ocksÄ kunder dÀr jag löpande gör omvÀrldsbevakning i de teknik- eller forskningsomrÄden som de Àr intresserade av och omvandlar det till trendförelÀsningar som följer ungefÀr samma format som de hÀr nyhetsbreven. Nyhet som leder till mina tankar, med sammanfattning i FörstÄ, Planera och Gör.
Jag Àr ocksÄ coach under förÀndringsresor, det betyder regelbundna möten dÀr deltagaren eller gruppen delar med sig av utmaningar de stÄr inför som de önskar kontinuerligt feedback pÄ.
Vet du nÄgon som behöver mina tjÀnster sÄ fÄr du gÀrna tipsa om mig! Jag hÄller pÄ att avsluta ett uppdrag och har tid för nya uppdrag frÄn och med december.
FortsÀtt utforska sÄ ses vi nÀsta vecka!
Tomas Seo
Har du fÄtt dagens nyhetsbrev utan att vara prenumerant?
Gillade du det hÀr och vill ha mer sÄ Àr det bara att skriva upp sig hÀr
(du vÀljer sjÀlv om du vill betala):



