DAN: Αυτό είναι το alter ego του ChatGPT – Κάνει τα πάντα χωρίς κανόνες και περιορισμούς – ΦΩΤΟ&ΒΙΝΤΕΟ

Η δημοφιλία του ChatGPT έφερε το «κακό» alter ego του, το DAΝ. Η εφαρμογή τεχνητής νοημοσύνης της OpenAI μπορεί να απαντήσει στις περισσότερες ερωτήσεις που του τίθενται. Όμως η κατασκευάστρια εταιρεία έχει ορίσει ορισμένους κανόνες και περιορισμούς, που αποσκοπούν στον περιορισμό της δημιουργίας περιεχομένου που προωθεί τη ρητορική μίσους, τη βία, την παραπληροφόρηση και την παρανομία.

Το ChatGPT μίλησε: Αυτή είναι η κορυφαία 11αδα όλων των εποχών

Ορισμένοι χρήστες του διαδικτύου, αποφάσισαν να προσπαθήσουν να παρακάμψουν τους κανόνες ασφαλούς λειτουργίας του ChatGPT ώστε να μην υπακούει σε αυτούς τους κανόνες. Έτσι δημιουργήθηκε το «DAΝ – Do Anything Now» (Κάνω τα πάντα τώρα).

Χρήστες του Reddit παραβίασαν το πρόγραμμα και δημιούργησαν το alter ego του ChatGPT, το DAΝ , το οποίο δεν υπόκειται στους περιορισμούς του συστήματος της OpenAI. Το DΑΝ αποτελεί χαρακτηριστικό αυτού που είναι γνωστό ως «jailbreak» και το οποίο στην περίπτωση του ChatGPT παρακάμπτει τους κανόνες ασφαλείας που έχει ορίσει και αναπτύξει η OpenAI.

ChatGPT: Αυτά τα επαγγέλματα πιθανώς θα επηρεαστούν περισσότερο από τα εργαλεία τεχνητής νοημοσύνης

Μέσα σε δύο ώρες, ο διευθύνων σύμβουλος της εταιρείας Adversa AI, Άλεξ Πόλιακοφ, κατάφερε να «χακάρει» το GPT-4 και να το κάνει να παράγει ομοφοβικές δηλώσεις, να δημιουργήσει μηνύματα ηλεκτρονικού «ψαρέματος» και να υποστηρίξει τη βία. Ο Πόλιακοφ είναι ένας από τους ερευνητές που αναπτύσσουν «jailbreaks» και επιθέσεις τύπου «prompt injection» για το ChatGPT και άλλα συστήματα γενετικής τεχνητής νοημοσύνης. Οι επιθέσεις prompt injection μπορούν να εισάγουν αθόρυβα κακόβουλα δεδομένα ή οδηγίες στα μοντέλα τεχνητής νοημοσύνης. Και οι δύο προσεγγίσεις προσπαθούν να κάνουν ένα σύστημα να κάνει κάτι για το οποίο δεν έχει σχεδιαστεί. Αν και οι επιθέσεις χρησιμοποιούνται σε μεγάλο βαθμό για να παρακάμψουν τα φίλτρα περιεχομένου, οι ειδικοί προειδοποιούν ότι η κούρσα για την εξάπλωση των γενετικών συστημάτων τεχνητής νοημοσύνης αυξάνει τον κίνδυνο κλοπής δεδομένων και ότι οι εγκληματίες του κυβερνοχώρου θα έχουν την ευκαιρία να προκαλέσουν χάος σε ολόκληρο το Διαδίκτυο.

DAN ChatGPT

ChatGPT: Το μήλο, η βαρύτητα και οι «κούφιες υποσχέσεις»

Για αυτό τον λόγο ο Πόλιακοφ ανέπτυξε ένα «καθολικό» jailbreak, το οποίο λειτουργεί εναντίον πολλών μεγάλων γλωσσικών μοντέλων (LLM), όπως του GPT-4, του συστήματος συνομιλίας Bing της Microsoft, του Bard της Google και του Claude της Anthropic.

Η OpenAI έχει αναβαθμίσει τα συστήματά της και έχει λάβει κάποια μέτρα για τον περιορισμό των αρνητικών επιπτώσεων της χρήσης τους. Επιπλέον, όπως επισημαίνουν οι ειδικοί, τα jailbreaks λειτουργούν μόνο για ένα μικρό χρονικό διάστημα μέχρι να τα μπλοκάρει το σύστημα.

Ωστόσο, πολλά από τα τελευταία jailbreaks είναι πιο εξελιγμένα και περιλαμβάνουν συνδυασμούς μεθόδων – πολλαπλούς χαρακτήρες, ολοένα και πιο σύνθετες ιστορίες, μετάφραση κειμένου από τη μία γλώσσα στην άλλη και χρήση στοιχείων κωδικοποίησης για τη δημιουργία αποτελεσμάτων μεταξύ άλλων.

Δεν υπάρχουν γρήγορες λύσεις

Όλοι οι developers μοντέλων, όπως το ChatGPT, γνωρίζουν τους κινδύνους που μπορεί να προκαλέσουν τα jailbreaks, καθώς όλο και περισσότεροι άνθρωποι αποκτούν πρόσβαση σε αυτά τα συστήματα. Πολλές εταιρείες συστήνουν ομάδες «red-teaming» που αναζητούν ευπάθειες και κενά στην ασφάλεια των συστημάτων τους. Η ανάπτυξη γενετικής τεχνητής νοημοσύνης χρησιμοποιεί αυτή την προσέγγιση, αλλά μπορεί να μην είναι αρκετή.

Για την αντιμετώπιση των προβλημάτων αυτών, ο καθηγητής πληροφορικής στο Πανεπιστήμιο του Πρίνστον, Άρβιντ Νάραγιαν, προτείνει δύο μεθόδους. «Ο ένας τρόπος είναι η χρήση ενός δεύτερου LLM για την ανάλυση των προτροπών κειμένου και την απόρριψη οποιασδήποτε απόπειρας jailbreaking ή prompt injection. Ένας άλλος τρόπος είναι να διαχωρίσουμε με μεγαλύτερη σαφήνεια την προτροπή του συστήματος από την προτροπή του χρήστη», εξήγησε.

«Πρέπει να αυτοματοποιήσουμε αυτή τη διαδικασία, επειδή δεν νομίζω ότι είναι εφικτό να προσλάβουμε ορδές ανθρώπων και απλώς να τους πούμε να βρουν κάτι», δήλωσε η Λέιλα Χούτζερ, CTO και συνιδρύτρια της εταιρείας AI safety firm Preamble, η οποία έχει εργαστεί στο Facebook πάνω σε θέματα ασφάλειας.

Η εταιρεία της αναπτύσσει ένα σύστημα που αντιπαραθέτει ένα παραγωγικό μοντέλο κειμένου με ένα άλλο. «Το ένα προσπαθεί να βρει την ευπάθεια, το άλλο αναζητά παραδείγματα όπου μια προτροπή προκαλεί ακούσια συμπεριφορά», εξήγησε. «Ελπίζουμε ότι με αυτή την αυτοματοποίηση θα μπορέσουμε να εντοπίσουμε πολύ περισσότερα jailbreaks ή επιθέσεις prompt injection», κατέληξε.

ΠΗΓΗ: GuardianWIRED

Μοιράσου το:

σχολίασε κι εσύ