🤯⚡️1000 riktiga personer fångade i AI-simulerad värld

Kvalitativa undersökningar går att göra i stor kvantitet. Detta förändrar ju allt!

Dec 05, 2024

Det här är nyhetsbrevet där Tomas Seo, innovationsstrateg på Phorecast, avslöjar händelser, upptäckter och ny teknik som får honom att utbrista: Detta förändrar ju allt! Du prenumererar på det här för att fortsätta vara steget före med de senaste trenderna och få konkreta tips för att framtidssäkra dig och din organisation. Har du fått det här av en vän? Då vill du kanske starta en egen prenumeration?

Hur skulle en AI-replikant baserad på mig bete sig inne i Minecraft?

Vad har hänt?

- Forskare kopierar 1000 människor och bygger en modell för simulerad opinionsbildning.

Ett forskarteam har djupintervjuat personer för att skapa 1000 digitala tvillingar – autonoma AI-agenter som simulerar intervjupersonernas värderingar, preferenser och beteendemönster. För att verifiera att AI-agenterna efterliknade sin förlaga fick människan och agenten genomgå sociala experiment. Agenterna uppvisade 85% likhet med sin människoförlaga.

AI-agenterna fick virtuella kroppar inne i en nystartad Minecraft-värld där de spontant började simulera mänskliga beteenden och sociala strukturer, som att skapa yrkesroller, utforma skattesystem och till och med sprida en religion.

Forskarteamet är det samma som för något år sedan byggde en by med autonoma AI-agenter som började självorganisera dejter till en alla-hjärtans-dag-fest. Dr Robert Young som ledde den forskningen har sedan dess sagt upp sig från MIT för att tillsammans med forskare med från Stanford och Google Deepmind starta Altera – ett bolag som gör människolika AI-agenter för spel.

De 1000 digitala tvillingarna ingår i Alteras forskningsprojekt, kallat "Project Sid", och är en utforskning av hur vi kan bygga simuleringar av hela samhällen befolkade av AI-replikanter. Project Sid använder agenter som har flera AI-moduler specialiserade på olika uppgifter, som planering, kommunikation och social interaktion. Bland exempel som tas upp i forskningen är att agenterna började bedöma varandras popularitet och dela resurser baserat på sociala relationer, som att en kock i spelet prioriterade att ge mat till de agenter som uppskattade hans arbete mest. Det gick även att observera kulturella fenomen som hur memes sprids.

Detta förändrar ju allt

1000 autonoma AI-agenter som leker med varandra inne i Minecraft låter kanske inte relevant för alla, men implikationerna av att vi kommer kunna simulera hur människor känner och reagerar på saker som händer i samhället är fantastisk. Idag använder vi matematiska modeller för att förutsäga hur stora populationer av människor kommer bete sig om vi till exempel höjer en skatt eller inför ett förbud. De fokuserar på faktisk beteendeförändring, men den här typen av generativa AI-simuleringar skulle kunna användas för att förstå attitydförändringar i samhället och opinionsbildning. Vi kommer få se många fler generativa AI-system där vi kan testköra implementeringar av samhällsförändrande händelser.

Redan när jag skrev om forskningsteamets första projekt – den simulerade byn så fokuserade jag på hur det här kommer användas för att göra marknadsundersökningar där vi frågar AI-bottar istället för människor. Strax därefter publicerade Harvard Business Review forskning som visade att en AI klarade av att skapa syntetiska svar som gav samma resultat som om man hade frågat människor. Sedan dess har strategen i mig experimenterat med att intervjua LLM:er för att förstå hur det fungerar och hur jag kan utnyttja det.

När jag har experimenterat med att fråga AI som låtsas vara en människa tidigare har jag byggt deras personligheter på generiska antaganden. Till exempel matat in en beskrivning av personen (persona, early adopter, swiftie) kombinerat med lite allmän demografi (bor i storstad, kvinna, jobbar på kontor). Hittills har jag kommit fram till följande:

Det jag får fram av att simulera ett 100-tal frågade människor för svensk marknad är minst lika bra som när alla på byrån/marknadsavdelningen ber folk att fylla i en enkät. Det vill säga urvalet blir snedfördelat och vi tror vi hittar sanningar när vi mest bekräftar det vi redan tror oss veta. Trots detta så kan det trigga tankar som gör att vi kommer på intressanta antaganden. Men vi måste vara medvetna om att det inte bevisar något.
När vi bygger AI-system som fungerar i flera steg ökar tillförlitligheten. Första steget genererar en mängd fiktiva personporträtt med hög variation. I steg två genererar en AI, promptad med ett personporträtt i taget, svar på frågorna som vi vill undersöka. Då ökar likheterna med svaren som vi skulle få från ett urval av människor mycket. Så det går att bygga en simulerad panel som ger samma tendenser i sina svar som om du skulle frågat riktiga personer. Du kan få ut ungefär samma insikter som från en medioker online-enkät.

Efter det har jag lite tappat sugen, då nästa nivå kräver större körningar. Jag har testat med lokala open source-modeller men de är inte tillräckligt bra, och att köra den mängd experiment jag skulle behöva blir för dyrt om jag skulle använda de bästa AI-modellerna.

Project Sid har istället för att utgå ifrån generiskt genererade AI-personligheter byggt AI-replikanter genom djupintervjuer. En riktig människa blir en AI-replikant. Så som de har byggt systemet så har varje replikant promptats med minnen som är de renskrivna djupintervjuerna där människorna berättade om sitt livs historia och om stora livshändelser som påverkat dem i deras liv. En liknande ”modell” för ett helt land skulle ju behöva två timmars intervju med varje invånare i landet, men wow vilken häftig träningsdata det skulle vara!

Project Sids AI-replikanter kunde förusäga vad originalmänniskan skulle svara på en fråga med 85% sannolikhet. Det är förstås lägre än 100% men de jämförde med de sätt jag själv har testat, det vill säga att använda generiska antaganden om personerna. Agenter som byggde på demografi kunde förutsäga vad originalmänniskan skulle svara i 71% av fallen, och agenter som byggde på persona-antagande hade rätt 70% av gångerna. Så det bekräftar att generisk data inte kan förutsäga en persons beteende lika bra som 2 timmar av skräddarsydd data. Gissningsvis skulle det aldrig gå att nå 100% men procenten kommer gå upp ju mer intervjutid som AI-replikantens minne skulle bygga på.

Förutom att AI-replikanterna i sig är ett intressant sätt att skapa syntetisk data så fastnar jag, när jag läser forskningsrapporten, på att de här 1052 djupintervjuerna inte är gjorda av människor utan av en röst-AI i ett digitalt möte som intervjupersonerna fick 60 dollar för att genomföra. Företaget som rekryterade intervjupersonerna hade i uppgift att rekrytera 1000 personer som var ett nationellt representativt urval baserat på ålder, ras, kön, bostadsregion, utbildningsnivå och politisk ideologi.

Min erfarenhet hittills är att AI-baserade intervjuverktyg för undersökning får sämre svar eftersom människor känner att de kan avsluta dem snabbare, men betalningen hjälpte nog till med det för här är ett exempel på en dialog som deras AI intervjuare genomfört:

Interviewee: I was raised in a rural town in ~~[Redacted]~~ where there are actually more cows than people. I'm ~~[Redacted]~~ years old, so I am a child of the 70s and 80s. I wound up being a latchkey kid and was largely raised either by myself or by daycare and babysitters. Childhood was not really great and I was really glad to move on to high School.
AI-Interviewer: I'm sorry to hear that childhood wasn't great for you. Could you tell me more about your experiences in high school? What was it like for you there, and were there any particular events or people that had a significant impact on your life during that time?
Interviewee: So I had a head injury while I was in elementary school and the full weight of that untreated injury came to bear when I was in about 8th grade and I started having these really bad mood swings. So I spent most of my high school years in deep depression and no one got me any help for it. It was pretty awful. I excelled in English, in theater, did pretty well in science, won a lot of awards at the end of the school time when it was time to graduate. Didn't have the greatest GPA because I had a habit of skipping classes and not doing any homework but acing finals. Particular events or people that had a significant impact, I would say that the album Pink Floyd The Wall pretty much helped me with my really terrible mood. I felt understood by that music. And I had two high school sweethearts. One was a boy and one was a girl. So they made a big impact. One of them I'm no longer in touch with and today is the girl's birthday.
AI-Interviewer: Thank you for sharing that with me. It sounds like high school was a particularly challenging yet formative time for you. After high school, what path did you take with your education? Did you go to college, or did you jump straight into a career?
Interviewee: After high school I went off to college originally to study criminal justice, but I changed over to English literature with a concentration in behavioral studies. After college, well, during college I had a bunch of different jobs. I worked with radioactive waste disposal, I worked at a woman's bookstore, I worked at a nightclub. I went off to law school and was there until I had to take a leave of absence because of my bipolar disorder, which was finally diagnosed. Years later, like 20 years later, I wound up going back to school again and got a business degree, mainly because I thought it would be fun to do. In the meantime, between law school and going back to business school, I worked as a legislative aide. I was a legislation director for a state senator and I wrote bills and got them passed into law. Then I took over my parents' business as a manager when my dad got breast cancer. After I worked as a manager there and I moved out of state in order to get married, I wound up buying into that business, so now I'm a part owner of the motel business where I'd started working when I was 15 as a housekeeper, so it's kind of gone full circle. Now I'm going to be working as a part-time firearms instructor.

Det skulle vara svårt att få till en representativ mängd variation i åsikter och bakgrundshistorier om jag själv skulle generera fram 1000 syntetiska AI-personligheter. Så det här sättet att massgenomföra kvalitativa djupintervjuer kommer definitivt förändra hur forskning kan bedrivas. Men att bygga ett system som är proof of concept för ett nytt sätt som forskning kan bedrivas på var ju bara en biprodukt. Huvudsyftet med Project Sid är att se hur stora mängder AI-agenter baserade på riktiga människor beter sig tillsammans.

I forskningsrapporten beskriver de kriterierna för urval som en stratifieringsstrategi. Vilket alltså är ett fancy sociologiskt ord för att urvalet ska återskapa de hierarkiska strukturer som delar upp vårt samhälle i klasser och grupper med olika social status. Sociologer är dock inte eniga om stratifiering är nödvändigt för att en stabil samhällsstruktur ska uppstå eller om det är ett maktmedel som förtrycker människor. Project Sid tar inte ställning till denna fråga utan försöker bara kopiera de sociala hierarkier som återfinns i USA. Men tänk er när det här fungerar, då kan vi utföra simuleringar på samhällen där det finns fler rasister, eller bara rasister? Hur skulle det se ut? Eller ett samhälle där vi på dagen inför medborgarlön och ingen behöver jobba för att få mat eller boende? Hur kaosigt blir det och blir det mindre kaosigt om vi gör det stegvis? Det finns så många What if’s som jag vill fråga, några för att jag vill veta, några för att jag vill experimentera med ytterligheter. Generativ AI öppnar upp för inte bara ett utan mängder av nya sätt att göra forskning kring opinion och samhällsfrågor och detta förändrar ju allt!

Vad kan du göra idag?

Förstå

När kostnaden för djupintervjuer sjunker möjliggörs en forskningstyp som tidigare varit omöjlig att genomföra. En kvalitativ undersökningsmetod i volymer som liknar kvantitativ metod. På sikt betyder det att forskning där vi bara har gjort antaganden baserat på volymdata kan ge större djup och mening. Vi kan förstå vad något vi observerar kvantitativt får individer att känna kvalitativt.

Beslutsstöd är ett växande område där chefer i USA säger sig använda AI. Nya simuleringsverktyg av möjliga scenarion kommer vara extremt attraktiva. De kommer både kännas värdeskapande på ett professionellt plan, samtidigt som det blir som att chefer kan leka med ett skräddarsytt SimCity på arbetstid.

Djupintervjuer med alla medborgare behövs inte ens för att skapa en simulerad version av världen. Din aktivitet på sociala nätverk används redan för att förutse vad du kommer göra. Både Facebook och kreditkortsföretag i USA vet om du kommer skilja dig innan du gör det. De har redan tillräckligt med beteendedata för att bygga upp ett simulerat samhälle. Förra veckan berättade Niantic att de skulle börja använda Pokemon Go-data för att bygga en AI-modell som förstod hur vi rör oss i världen. Det är inte osannolikt att sociala medier bolag så småningom (ju mer de förbjuds) byter affärsmodell så de kan leva på den datan som de redan har samlat in. De har den största kollektionen av äkta beteendeprofiler som världen skådat. Steget till att skapa anonymiserade AI-replikanter av dessa och göra Truman show är ganska kort. Då kan vi beskåda hur meta-jorden beter sig när vi likt gudar slänger in olika utmaningar för scenarioplanering/lek.

Det går ju inte heller att ta upp utvecklingen av mer realistiska simulerade AI-replikanter utan att också återknyta till tanken om att det är omöjligt att avgöra om vi finns på riktigt eller om vi är en avancerad AI-simulering.

Planera

Redan nu går det att bygga AI-bottar som kan genomföra telefonsamtal. De kan användas till att ringa upp för att fråga om information eller för att ta emot samtal och sköta vidareslussning av ärenden eller bokningar. På nästa möte ni har inom organisationens interna AI-kommission kan ni planera kring om och i så fall hur ni skulle testa att använda AI-uppringare för marknadsundersökningar.

Kom ihåg att det är verifiering av urvalet och granskning av kvaliteten på svaren som avgör om datan går att dra slutsatser från. Det ändras inte av AI. Granskningen av kvaliteten på svaren går ju däremot utmärkt att använda AI till.

Gör

ChatGPTs avancerade röstfunktion är numera gratis för alla, arkitekturen som Project Sid använt är mer avancerade än en enda prompt, men vill du känna på att bli livsstilsintervjuad så starta ChatGPTs röstläge, och läs upp följande:

Hej!
Idag vill jag att du intervjuar mig som om du genomför en semistrukturerad djupintervju. Du ska fråga på svenska och fråga livsstilsfrågorna i American Voices Survey. Så inga frågor om min dialekt.
[när man har med American Voices i prompten så börjar ChatGPT frågor om dialekter trots att det inte det själva frågorna handlade om]
Kom ihåg att fråga en fråga i taget, undvik alternativfrågor och fråga öppna frågor som en erfaren djupintervjuare.
Efter varje svar kan du tyst reflektera över vad om det finns någon meningsfull följdfråga du kan ställa baserat på vad jag just svarat, men också baserat på hur jag svarat på tidigare frågor.
Du måste balansera behovet av följdfrågor med att driva på intervjun för att täcka alla områden.
Avsluta inte intervjun förrän du fått tillräckligt många svar för att du själv skulle kunna fylla i American Community Survey och General Social Survey heltäckande.
Då kör vi!

Efter ni är färdiga med intervjun kan du avsluta voice-mode och be ChatGPT sammanfatta dig

Kan du skriva en persona-profil baserat på min intervju?

Den texten kan du spara, så kan du kopiera in den i prompter som behöver dina värderingar. Så du kan fråga dig själv frågor stil med:

Låtsas att du är jag och besvara frågan “Vilket bilmärke gillar du och varför?”

Bonusuppgift: Kan ChatGPT förutse vad du skulle svara? Om inte, förstår du varför?

Länkar

Skrivet om forskningen utifrån perspektivet att simulera stora grupper
https://www.technologyreview.com/2024/11/27/1107377/a-minecraft-town-of-ai-characters-made-friends-invented-jobs-and-spread-religion/ (paywall – rensa kakor för att läsa)

Skrivet om forskningen utifrån perspektivet att kopiera personligheter
https://www.technologyreview.com/2024/11/20/1107100/ai-can-now-create-a-replica-of-your-personality/ (paywall – rensa kakor för att läsa)

Kort publik version av Project Sid-artikeln
https://arxiv.org/abs/2411.10109

Längre utförligare Project Sid-rapport
https://www.alphaxiv.org/abs/2411.10109v1

Sedan sist vi hördes

Det talas ju oftast om risker med smart AI. Men SvD:s granskning av hur Försäkringskassan använder AI är ett exempel på att traditionell AI (eller ML) gör precis som den är tillsagd på grund av mönster som människor matat in i dem. När jag läste artikeln undrade jag förstås hur grävet fått ut datan så de kunde granska den. Det finns det redogörelser för här:

The dataset contains 6,129 people that were selected for investigation in 2017 and the outcome of that investigation: whether mistakes were or were not found in the benefit recipients’ application. Of the 6,129 cases, 1,047 were randomly selected and 5,082 were selected by the machine learning model.

Datasetet finns utlagt på github.

Exemplariskt skött journalistik. Dessutom ett intressant fall att följa för oss som tycker att AI EU Act faktiskt är helt okej då den i princip bara förbjuder oacceptabla användningsområden för AI som:
”Oacceptabel risk: Social poängsättning: klassificering av människor baserat på beteende, socioekonomisk status, personliga egenskaper.”

Är du en insiktsdelare?

Känner du någon som skulle ha nytta av AI som kan intervjua? Eller kanske någon som skulle gilla att AI-simulera scenarion? Vem tänkte du på? Skicka vidare!

Har ni pengar kvar i budgeten som ska spenderas innan året är slut? Boka in mig för en inspirationsföreläsning, skräddarsydda utbildningar eller strategiworkshop. Bara att svara på det här mejlet eller kontakta mig via Linkedin.

Fortsätt utforska så ses vi nästa vecka!

Tomas Seo

Har du fått dagens nyhetsbrev utan att vara prenumerant?
Gillade du det här och vill ha mer så är det bara att skriva upp sig här
(du väljer själv om du vill betala):

Prenumerera

Detta förändrar ju allt!