🤯⚡️Har du ett kit-bashing mindset?

AI-video närmar sig professionell kvalitet. Detta förändrar ju allt!

Jun 20, 2024

Det här är nyhetsbrevet där Tomas Seo, innovationsstrateg på Phorecast, avslöjar händelser, upptäckter och ny teknik som får honom att utbrista: Detta förändrar ju allt! Du prenumererar på det här för att fortsätta vara steget före med de senaste trenderna och få konkreta tips för att framtidssäkra dig och din organisation. Har du fått det här av en vän? Då vill du kanske starta en egen prenumeration?

Vad har hänt?

- AI-video når nästa nivå av realism på grund av sin förståelse av vår värld.

Flera nya tjänster för att kunna skapa rörliga bilder med hjälp av generativ AI uppvisar kraftigt ökad kvalitet den senaste tiden.

Denna vecka lanserar marknadsledaren Runway ML gen 3 av sin text-to-video-tjänst. Filmerna som tjänsten visar går att göra upp till 10 sekunder långa och till skillnad från tidigare version så morphar inte människors utseende lika mycket. AI-modellen är speciellt tränad för att förstå samma termer som professionella filmskapare använder för att beskriva kameraåkningar och bildkomposition. Precis som Sora berättar Runway att anledningen till att de får så mycket bättre resultat är på grund av att deras AI använder en så kallad world-modell. Modellen bygger alltså upp världen innan den skapar bilderna, förstår hur objekten förhåller sig till varandra och hur fysikens lagar skulle påverka objekten. Så som att vatten släcker eld och då blir det ånga, ett glas som står för långt ut på en kant kommer att falla eller att två händer som sträcks mot varandra kommer att skaka hand.

Veckans stora nyhet innan det var att Luma Labs släppte Dream Machine utan väntelista. Alla kunde plötsligt få Sora-kvalitet på sina videogenereringar gratis. Max 5 om dagen, max 30 på en månad, mer än så behöver du betala för. Men för att testa räcker det långt. Dream Machine påvisade ett helt nytt beteende i videogenerering. Istället för slowmotion-klippen vi har vant oss vid att AI genererar så klarar Dream Machine klipp med mycket action och rörelse. Det finns än så länge väldigt liten kontroll över resultatet men du kan göra image-to-video och få ut 5 sekunder långa videos. (Men mina tester visar att det går att få ut runt 2 sekunder innan ansikten på människor morphar för mycket för att se ut som samma person.)

Förra veckan släpptes den kinesiska videogenereringstjänsten Kling AI så alla med ett kinesiskt telefonnummer kunde börja använda den. Även Kling anses kunna generera lika bra resultat som Sora, och bygger även den på world-model-förståelse av vår värld.

Den mesta forskningen för AI-video just nu ägnar sig åt world-model-modellerna. Största planerna kring det här är tjänsten Showrunner, vars löfte är att ge oss ett autogenererat Netflix. Tv-shower som skapar sig själva med karaktärer som improviserar fram content speciellt genererat för dig. Bakom det står Fable som förra året visade upp automatgenererade South Park-episoder i sitt experiment The Simulation.

Men värdet för fungerade world models är mycket större än att bara försöka konkurrera ut Hollywood. AI-modellernas förmåga att korrekt simulera vår värld är nyckeln till att generativ AI kommer ha högre förståelse för vår värld inom alla områden.

Detta förändrar ju allt

Jag älskar film och tv-serier, men även om jag har haft god koll på Hollywoods industrinyheter och kändisbabbel så är det inte den delen som gjort mig till film-buff. För mig har det från ett beteendevetenskapligt perspektiv alltid varit fascinerande när en manusförfattare skriver fungerande världar. För att göra det måste författaren ha god förståelse för hur människor fungerar och ha gått igenom många tusen varianter av hur olika karaktärer skulle kunna handla i varje given situation för att komma fram till vilken action och reaktion som bäst berättar den story som författaren vill driva. Författare är våra mänskliga worldmodel-simuleringsexperter. Det är därför jag verkligen ser fram emot att fler författare kan ta steget till att visualisera sina berättelser helt själva.

När jag experimenterade med video förra året så höll kvaliteten på video till att göra weirda experimentella missfoster. Trailers till skräckfilmer och mardrömssekvenser var lätt, med lite högre kreativ höjd gick det att få till surrealistiska kortfilmer. Men vad klarar vi att göra i år? Under ett par månader har jag testat alla AI-video-tjänster jag hittat för att kunna skriva en rapport till er om dagsläget för AI-video. Ökad kvalitet på videotjänsterna gör inte automatiskt att vem som helst klarar av att bli en högkvalitativ filmskapare exakt just nu.

För att få till en fiktiv deadline för denna State of AI-video-report så bestämde jag mig för att försöka återskapa den klassiska Pripps Blå-reklamfilmen och släppa den lagom till midsommar.

Här kan du se resultatet och glad midsommar på dig förresten!

Jag har gjort en version med Tommy Nilssons låt, men eftersom jag inte har råd med rättigheterna så skrev jag en egen, använde Udio för att göra delar och klippte ihop musiken i ljudredigeringsprogram. Den här versionen av videon är klippt till min musik, men jag har en version klippt till ursprungliga musiken klipp för klipp som jag kan visa på föreläsningar (boka mig gärna för kick-offer i höst redan nu!).

AI-versionen av Prippsblå-reklamfilmen lärde mig följande:
Min första slutsats är att det går att komma ganska långt helt utan AI-video idag. Med bara AI-genererade stillbilder som animeras i andra verktyg (till exempel After Effects eller Davinci Resolve) kan till och med jag skapa rörliga filmer som ser bra ut. För att göra en ny version av Pripps-reklamen klipp för klipp räcker det dock inte. Dels är det för mycket rörelse och dels skulle det ta för lång tid för att vara värt det.
Min andra slutsats är att AI-video som endast animerar kamerarörelser inte bara är onödiga, utan till och med irriterande. Vi får mer kontroll över utseendet genom att ha objekten i bilden som rör sig men själva kamerarörelser såsom inzoomning eller panoreringar är mycket enklare att bara lägga på i redigeringsprogrammet. På ett flertal ställen behöver jag istället stabilisera kameraåkningarna i efterhand i redigeringsprogrammet för att få kontroll över dem.
Min sista slutsats är att ge upp på gruppbilder där samma karaktärer ska återkomma. De är möjliga att få till genom att bygga upp flera lager med enskilda utklippta personer, men att få till klipp som passar ihop tar för lång tid. Stillbilder med två återkommande karaktärer går att få till men även där krävs många timmars tålamod för att få till det ungefär som man vill ha det. Det är i tillgängliga AI-video-tjänster också svåra att få till både att de rör sig mycket och att de inte morphar på ett weird sätt.

Baserat på det här projektet så tänker jag ändå att det idag skulle vara möjligt att berätta enklare historier och faktiskt få till ett proffsigt resultat. Så länge man är redo att vara lite flexibel med exakt vilka videoklipp som man behöver få till och bygger sin story runt begränsningarna. Jag tycker inte att det ännu blir tillräckligt snyggt när AI-videotjänsterna gör läppsynkning så filmer som bygger helt på dialog är än så länge uteslutet. Men vi har gått från att endast horror-trailers är möjliga till att vi nu även kan göra stories med vackra fotorealistiska videos där en till tre återkommande karaktärer kan castas.

Om vi höjer blicken så tror jag definitivt att vi kommer ha flera nya typer av autogenererade underhållningsformat. Men jag är ganska övertygad om att unika stories skapade av människor fortfarande kommer ha en stor kulturell betydelse. Människor konsumerar kultur baserade på sitt eget sammanhang. Vi svenskar konsumerar mer kultur gjord av svenskar än av koreaner, jag som gillar framtiden konsumerar mer kultur gjord av andra som gillar scifi, och jag är övertygad om att vi som är människor kommer fortsätta konsumera mer kultur gjord av människor än kultur gjord av bottar.

Den stora förändringen blir istället den explosion av kreativa människor som kan blomma ut och testa att visualisera sina berättelser. De som redan är professionella författare kan göra film av sina stories som inte är tänkta att bli sommarens blockbusters utan intressanta berättelser för en mer nischad publik. De som ännu inte är avlönade författare kan plötsligt välja att skapa sina berättelser direkt mot oss tittare, eller mycket enkelt skapa engagerande demofilmer på sitt manus för att visa sin vision för nästa sommars blockbuster för demonproducenterna i etablerade Hollywood.

Varje människa har ett unikt sätt att se världen, och jag tror att vår förståelse för varandra kan öka dramatiskt om fler människor kan skapa berättelser från sin point-of-view, och detta förändrar ju allt!

Vad kan du göra idag?

Förstå

Idag kan vi med så kallad kit-bashing (det vill säga inte förlita oss på en AI-tjänst utan se varje tjänst som ett verktyg vi kan kombinera med befintliga andra verktyg) skapa filmer med enorm kvalitet. Det går till och med att göra gratis men det tar ganska lång tid då filmklippen vi kan generera gratis varje dag är få, och runt ett av 10 klipp blir superbra. (För min Pripps-reklam fick jag tvinga mig välja ett av högst fem genererade klipp för att klara av att få det färdigt utan att betala).

Även om angreppssättet att skapa world models och AI-agentsystem är mycket intressanta så är arbetsprocessen med dem ganska annorlunda. Jag tänker på det som om du skulle spela in en Hollywoodfilm utan skådisar genom att först vara ute på gatorna och leta upp någon person som liknade en karaktär du vill ha. Sedan, utan att tillfråga personen, följa efter hen och filma för att hoppas att personen gjorde exakt det du behövde till din film. Sedan skulle du behöva hitta en ny person som liknade den första och följa efter den och filma tills hen gjorde rörelser som du behöver till nästa klipp. Det hela är lite bakvänt.

Istället kommer andra typer av AI-modeller, mer specialiserade på kontroll över vad vi ser, att spela en stor roll för nästa generation av AI-video. Förra veckan lanserades forskningsprojektet Toon Crafter. Där vi istället för att endast kunna ladda upp första bilden i klippet kan ladda upp både startbild och slutbild. Det är mer så som vi människor tänker när vi animerar. Toon Crafter är körbart och fungerar för tecknad film, men forskningen kommer att leda till fler verktyg som kan ge den här typen av kontroll. Även Krea Video som lanserades veckan innan visar upplägget där AI används för så kallad tweening, det vill säga att hitta på alla bilder emellan startbild och slutbild.

Kit-bashing är ett kreativt angreppssätt för hur vi människor slår ihop olika verktyg till en arbetsprocess. Men angreppssättet gäller även för hur nästa generations kodare kommer att tänka. Istället för nuvarande strikta kodarkitekters metod att planera först och bygga sedan så öppnar AI för att kombinera ihop olika AI-modeller och angreppssätt och se vad det blir när de kombineras. Det blir lite mindre baka efter recept och mer laga mat på känsla. Så förmodligen kommer world model konceptet att fylla en stor funktion som motor för generering av AI-video men för att bli användbart kommer modeller som Toon Crafter bli dominerande modeller. Speciellt när det är en människas manus som ska visualiseras. När AI själv blir regissör och manusförfattare så får hen själv kit-basha bäst hen vill.

Planera

Inget verktyg idag kan göra allt. För att skapa på ett kreativt sätt behöver vi utbilda oss i att se möjligheter med verktyg som de som utvecklar dem inte själva sett än. Det kräver en annan typ av utbildning än att gå kurser av typen “Lär dig använda Office-paketet” eller “Så promptar du i AI-tjänsten X”. Istället behöver din organisation utbilda din personal i kit-bashing, hur kan de dela upp uppgifter i olika steg som kan lösas med hjälp av en kombination av olika verktyg.

Det här gäller inte bara kontorsarbete. Till exempel har startupen Machina Labs inspirerats av hur gammaldags smeder böjde metall för att återskapa processen med hjälp av gamla industrirobotar och nya AI-modeller. Grundaren berättar att när han jobbade med 3D-printing för SpaceX så fanns det problem där skalan blev för stor för att lösa med modern tillverkningsteknik. Han visar att vi kan återanvända gamla verktyg och processer tillsammans med nya AI-modeller för att skapa nya sätt att lösa problem som tidigare var omöjliga.

För oss tjänstemän så känns det just nu lite bökigt att hoppa mellan en massa olika verktyg men det är början på nästa steg där vi promptar våra AI-agenter annorlunda. Medarbetare behöver lära sig att prompta på ett sätt där de inte frågar efter svar utan istället beskriver processen och verktyg de kan använda sig av för att lösa en uppgift.

Gör

Testa att ladda upp bilder till Luma Labs Dream Machine för att få svaret på frågan – men vad hände sen då?

https://x.com/blizaine/status/1801126279917547726

Länkar

Runway berättar om sin kommande modell Gen 3.
https://runwayml.com/blog/introducing-gen-3-alpha

Runway berättar om hur de använder world models.
https://research.runwayml.com/introducing-general-world-models

Jag skrev om world models när jag tvivlade på om vi någonsin kommer få Sora som konsumentprodukt eftersom det är world models för AI som är det egentliga värdet.
https://dettaforandrarjuallt.substack.com/p/sora-video-ar-en-slaskprodukt

Venture beat skrev om de automatiska South Park-avsnitten.
https://venturebeat.com/games/the-simulation-unveils-showrunner-ai-to-create-south-park-like-tv-shows-with-you-as-the-star/

Signup till Showrunner
https://www.showrunner.xyz/

Det är nästan exakt ett år sedan jag skrev om Runways Gen2 och funderade över hur Hollywood kommer personaliseras på grund av automatiskt generated media. https://dettaforandrarjuallt.substack.com/p/ditt-egna-personliga-hollywood

Den nya kinesiska tjänsten Kling (jag har inte testat den då jag saknar kinesiskt telefonnummer, hör av dig om du testat den!)
https://kling.kuaishou.com/

Mer om ToonCrafter
https://doubiiu.github.io/projects/ToonCrafter/

Och här kan du testa ToonCrafter
https://huggingface.co/spaces/Doubiiu/tooncrafter

Inslag om Machina Labs

Sedan sist vi hördes

Jag har mest ägnat mig åt att få färdigt midsommarvideon men här kommer en lista på tjänster som jag använt mig av för att göra den:

Jag använder Midjouney som grund för alla bilderna, sedan fixar jag till dem i Photoshop.

Luma labs Dream Machine kom lite sent, men det är definitivt min favorittjänst just nu. https://lumalabs.ai/dream-machine

Pixverse gör korta videos men deras videos är definitivt bäst på att hålla kvar utseendet på människor av tjänsterna.
https://pixverse.ai/

Pika är den jag använder minst av de bra modellerna, men den är bra på ambient-rörelser.
https://pika.art/

Viggle hade jag tänkt använda mig mer av, men det tar lite för mycket tid att förpreppa bitar av videos för att det skulle vara görbart för just det här projektet.
https://viggle.ai/

Runway använde jag för att det gick att få till bra motion brush, vilket ger kontroll, men sedan så kom det till Pixverse också och då föredrog jag det eftersom det var gratis.
https://runwayml.com/

Om du är mer intresserad av vilka verktyg jag använder så kan betalande prenumeranter alltid se min aktuella verktygslista här https://dettaforandrarjuallt.substack.com/p/ai-verktyg. Saknar ni något område av appar som borde listas där så hojta till!

Är du en insiktsdelare?

Känner du någon som är intresserad av att få en uppdatering på vad tjänsterna för generering av AI-video klarar just nu? Eller kanske någon som skulle behöva min hjälp att göra internutbildning för att förstå grunderna i kit-bashing för AI-video? Vem tänkte du på? Skicka vidare!

Det är många som planerar för hösten just nu. Behöver din organisation någon som kommer och pratar om AI, framtid eller något annat som du läst om i något av mina nyhetsbrev så är jag bokningsbar.

Nyhetsbrevet tar sommarlov nu! Om du känner abstinens och behöver snacka av dig om dina funderingar kring framtiden Gör en post i vår Facebookgrupp. Jag kommer också att dela intressanta saker som jag ser dyker upp där. https://www.facebook.com/groups/1673478106390188/

Glad midsommar!
Tomas Seo

Har du fått dagens nyhetsbrev utan att vara prenumerant?
Gillade du det här och vill ha mer så är det bara att skriva upp sig här
(du väljer själv om du vill betala):

Prenumerera

Detta förändrar ju allt!