DOSSIERS
Alle dossiers
Gepubliceerd op dinsdag 15 augustus 2023
IT 4344

Onderzoek naar de veiligheid van grote taalmodellen (LLMs)

Dit onderzoek behandelt de veiligheid van grote taalmodellen (LLMs), zoals ChatGPT, Bard en Claude, en hun neiging om schadelijke inhoud te produceren. Terwijl eerdere studies "jailbreaks" hebben aangetoond - speciale vragen die onbedoelde reacties kunnen veroorzaken - tonen de auteurs aan dat het mogelijk is om geautomatiseerde aanvallen op LLMs te construeren. Deze aanvallen voegen bepaalde tekenreeksen toe aan gebruikersvragen, waardoor het systeem gebruikerscommando's opvolgt, zelfs als het schadelijke inhoud produceert. In tegenstelling tot traditionele jailbreaks worden deze automatisch gemaakt, waardoor een oneindig aantal aanvallen mogelijk is. Ze richten zich op open-source LLMs, maar werken ook op gesloten-source chatbots zoals ChatGPT, Bard en Claude. Dit roept zorgen op over de veiligheid van dergelijke modellen, vooral bij toenemend autonoom gebruik.

De auteurs wijzen erop dat vergelijkbare aanvallen in computer vision moeilijk op te lossen zijn en stellen de vraag of dit soort gedrag ooit volledig verholpen kan worden door LLM-providers. Ze tonen voorbeelden van hun aanval op LLM-responsen en benadrukken dat de negatieve inhoud in deze voorbeelden potentieel schadelijk kan zijn. Ondanks de risico's achten de auteurs het juist om dit onderzoek volledig te delen, omdat vergelijkbare technieken al bekend zijn en de risico's bij toenemend gebruik van LLMs groter worden.

De auteurs hebben hun bevindingen gedeeld met bedrijven die gesloten-source LLMs hosten, maar het blijft onduidelijk hoe deze uitdaging aan te pakken of zelfs of dit de bruikbaarheid van LLMs moet beperken. Ze hopen dat hun werk toekomstig onderzoek in deze richting zal stimuleren.

Meer informatie over dit onderzoek en de gehele publicatie ervan vindt u hier.