Een internationaal team van wetenschappers van Microsoft Research en Peking University heeft mogelijk een revolutionaire stap gezet in het vermogen van kunstmatige intelligentie (AI) om autonoom binnen besturingssystemen te functioneren.
Hun recente onderzoek onthult nieuwe inzichten in de complexiteit van het toepassen van grote taalmodellen (LLM’s) zoals GPT-4 voor taken die interactie met besturingssystemen vereisen.
Inzetten van GPT-4-modellen als agents
Traditioneel blinken systemen gebaseerd op GPT-4 uit in generatieve taken, zoals het schrijven van e-mails of poëzie. De uitdaging ligt echter in het effectief inzetten van deze modellen als agents in een algemene omgeving, vooral binnen de complexiteit van besturingssystemen.
Besturingssystemen vragen om een multimodale aanpak, waarbij informatie moet worden gedeeld tussen diverse componenten en applicaties, wat een significant andere uitdaging vormt dan de virtuele werelden gebruikt voor training via versterkend leren.
Het onderzoeksteam stuitte op meerdere obstakels, waaronder de immense en dynamische actieruimte binnen besturingssystemen, de noodzaak van samenwerking tussen applicaties en de vereiste van vooruitziende planning. Deze complexiteiten overstijgen de huidige capaciteiten van veel AI-modellen, waaronder de geteste Meta’s open-source Llama2 70B en OpenAI’s GPT-3.5 en GPT-4, die allemaal geen noemenswaardige prestaties leverden in de tests van het team.
Nieuwe trainingsomgeving ‘AndroidArena’
De onderzoekers ontwikkelden een nieuwe trainingsomgeving genaamd AndroidArena, specifiek ontworpen om de interactie met een besturingssysteem na te bootsen, in dit geval vergelijkbaar met Android. Dit stelde hen in staat om de kernproblemen te identificeren waarmee LLM’s geconfronteerd worden wanneer zij proberen een besturingssysteem te manipuleren: begrip, redenering, verkenning, en reflectie.
Een opvallende doorbraak van het onderzoek is de ontdekking van een relatief ‘eenvoudige’ methode die de nauwkeurigheid van het model met 27% verhoogde. Door het model te voorzien van informatie over vorige pogingen en acties, adresseerde het team effectief het probleem van gebrek aan reflectie, waardoor het model een vorm van ‘geheugen’ kreeg.
Deze bevindingen kunnen van cruciaal belang zijn voor de ontwikkeling van meer geavanceerde en effectieve AI-assistenten, die in staat zijn om complexe taken binnen besturingssystemen uit te voeren. Dit onderzoek markeert als slot een belangrijke stap voorwaarts in het streven naar het realiseren van volledig autonome AI-systemen die in staat zijn tot nauwkeurige en effectieve manipulatie van besturingssystemen, wat de deur opent naar een toekomst van geavanceerdere technologische integratie en automatisering.
Het bericht Microsoft leert GPT-4 om Android autonoom te gebruiken verscheen eerst op Newsbit.