Een AI die zelfstandig taken uitvoert in meerdere stappen? Zo werkt de ChatGPT-agentmodus

ChatGPT-gebruikers met een Pro-, Plus- of Team-account kunnen gebruikmaken van de ChatGPT-agentmodus. Dit is een nieuwe functie waarmee het model zelfstandig taken uitvoert  in meerdere stappen. In plaats van alleen één vraag per keer te beantwoorden, kan ChatGPT in agentmodus bijvoorbeeld bestanden analyseren, gegevens verwerken, externe tools gebruiken of acties ondernemen op basis van eerdere stappen. Wat zijn de mogelijkheden en hoe maak je hier optimaal gebruik van?

Agentmodus

Als je de agentmodus activeert, opent deze een virtuele computer. Dat is een tijdelijke werkomgeving die de agent gebruikt om jouw opdracht uit te voeren. Het systeem kan bijvoorbeeld een browser starten en zoeken, maar ook programmeren, inloggen op je Gmail-account of een spreadsheet aanmaken en bewerken.

Agentmodus

Agentmodus is vooral handig als je taak meerdere stappen of bewerkingen vereist. De agent gaat dan voor je aan de slag en komt na verloop van tijd terug met het resultaat. Ook kan het zich tussentijds melden als het bijvoorbeeld moet inloggen op een systeem of als een handmatige actie nodig is.

Voor een goed resultaat: beschrijf in één duidelijke zin wat het eindresultaat van de opdracht moet zijn. Dit is de stip op de horizon voor de AI. Geef, indien bekend, goed aan welke stappen nodig zijn. Stel regels op en definieer het gewenste outputformaat.

Agentmodus in de praktijk: Caesar-salades

In een eerste test heb ik de agentmodus aan het werk gezet om restaurantsites te bezoeken. Als je wilt weten of een bepaald lunchgerecht wordt geserveerd bij restaurants in een specifieke regio, dan is dat veel uitzoekwerk. Vooral omdat de menukaarten vaak “verstopt” zitten of in pdf-formaat worden aangeboden. Een mooie taak voor de agent. Ik gaf de volgende prompt:

Voer een onderzoek uit naar lunchrestaurants in Alkmaar

Stappen:

  • Identificeer maximaal 10 restaurants in Alkmaar die bekendstaan om hun lunchaanbod.
  • Bezoek de website van elk gevonden restaurant om de menukaart te vinden.
  • Controleer of er een ‘Caesar-salade’ (of een duidelijke variant daarvan) op de lunchkaart staat.
  • Indien gevonden, extraheer de naam van het gerecht en de prijs.

Regels:

  • Documenteer je stappen kort in een logtabel.
  • Stop als een website niet toegankelijk is of als een menu niet gevonden kan worden. Ga dan door met het volgende restaurant.

Output:

  • Presenteer de resultaten in een tabel (markdown-formaat) met de volgende kolommen:
    – Naam restaurant
    – Website-URL
    – Prijs Caesar-salade
    – Bron (directe link naar de menukaart, indien mogelijk)
    –  Datum controle
  • Genereer de inhoud voor een csv-bestand als back-up, die ik direct kan kopiëren.

Resultaat

Hierna ging de agent voor mij aan de slag. Het opende de virtuele computer en begon te zoeken. Je kunt meekijken en de agent geeft aan wat het aan het doen is. Het opent browservensters, programmeert en levert na ongeveer 10 minuten keurig netjes de tabel en een csv-bestand met de gegevens op:

Resultaat Agentmodus

Een steekproef liet zien dat de gevonden resultaten kloppen.

Dit is indrukwekkend, want de agent heeft dit autonoom uitgevoerd. In andere tests zag ik dat de browser soms vastliep op websites die minder toegankelijk waren. Zorg dus dat je website drempelvrij is. Test dit bijvoorbeeld door AI je site te laten doorzoeken.

Veiligheid van ChatGPT-agentmodus

Je kunt de agent ook je e-mail laten lezen en beantwoorden, laten inloggen op je Google-account, reserveringen laten maken enzovoort. Wanneer de agent moet inloggen op je Google-account, pauzeert deze en krijg jij de controle over de virtuele computer zodat je zelf kunt inloggen. In mijn test lukte dit niet: Google gaf een foutmelding dat de browser of app niet veilig was.

Inloggen

Het is sowieso risicovol om een agent toegang te geven tot een beveiligde omgeving of vertrouwelijke informatie. OpenAI geeft aan dat er altijd eerst toestemming wordt gevraagd om in te loggen en dat inloggegevens niet worden opgeslagen. Ook zou het systeem beveiligd zijn tegen allerlei scenario’s. Zo zou het bijvoorbeeld bankoverschrijvingen actief weigeren. Welke maatregelen OpenAI ook neemt, als organisatie moet je altijd duidelijke regels opstellen over wat wel en niet is toegestaan en of een agent überhaupt mag inloggen op systemen.

Daarnaast is het belangrijk om het resultaat altijd goed te controleren. In mijn eerdere blog over de AI die een winkel mocht runnen werd al duidelijk dat je AI nooit kritische beslissingen moet laten nemen en dat toezicht en controle cruciaal blijven.

Message Control Protocol

De agentmodus laat goed zien welke kant we opgaan en dat agents steeds beter in staat zullen zijn om complexe taken stapsgewijs zelfstandig uit te voeren. Geef een opdracht en na verloop van tijd komt de agent bij je terug met het resultaat. Dat de agent in veel gevallen nu websites fysiek bezoekt en klikt, is niet heel efficiënt. De kans is groot dat dit binnenkort niet meer nodig is dankzij het Message Control Protocol (MCP). Dit is een protocol dat steeds vaken wordt gebruikt in systemen waarin verschillende AI-componenten of agents met elkaar communiceren.

De agent zou dan een website kunnen benaderen die laat weten dat er ook een MCP-server beschikbaar is. In dat geval bezoekt de agent niet de website zelf, maar vraagt het aan de MCP-server welke tools en informatie beschikbaar zijn en krijgt zo de gegevens om de taak uit te voeren. Dit is veel efficiënter en zal de kwaliteit van de resultaten ook aanzienlijk verbeteren.

Agentmodus in de praktijk: downloads Hugging Face

Als tweede test liet ik ChatGPT uitzoeken welke 20 open source AI-modellen de afgelopen 30 dagen het meest zijn gedownload op de site Hugging Face. Als output wilde ik een csv-bestand en een Google Sheet.

Om tot het resultaat te komen moest de agent veel code schrijven, maar uiteindelijk werd de output na ongeveer 15 minuten netjes gegenereerd. Het inloggen en wegschrijven naar Google Sheets lukte niet, maar het csv-bestand werd wel correct geleverd.

Achteraf bleek dat er ook een overzicht op de site staat met het aantal downloads. Het had veel tijd kunnen besparen als de agent die pagina zelf had gevonden.

Meer info over agentmodus

0 antwoorden

Plaats een Reactie

Meepraten?
Draag gerust bij!

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *