DAN: Αυτό είναι το alter ego του ChatGPT – Κάνει τα πάντα χωρίς κανόνες και περιορισμούς – ΦΩΤΟ&ΒΙΝΤΕΟ

18:35, Τετάρτη 19 Απριλίου 2023

τεχνολογία

ChatGPT openAI

Η δημοφιλία του ChatGPT έφερε το «κακό» alter ego του, το DAΝ. Η εφαρμογή τεχνητής νοημοσύνης της OpenAI μπορεί να απαντήσει στις περισσότερες ερωτήσεις που του τίθενται. Όμως η κατασκευάστρια εταιρεία έχει ορίσει ορισμένους κανόνες και περιορισμούς, που αποσκοπούν στον περιορισμό της δημιουργίας περιεχομένου που προωθεί τη ρητορική μίσους, τη βία, την παραπληροφόρηση και την παρανομία.

Ορισμένοι χρήστες του διαδικτύου, αποφάσισαν να προσπαθήσουν να παρακάμψουν τους κανόνες ασφαλούς λειτουργίας του ChatGPT ώστε να μην υπακούει σε αυτούς τους κανόνες. Έτσι δημιουργήθηκε το «DAΝ – Do Anything Now» (Κάνω τα πάντα τώρα).

Χρήστες του Reddit παραβίασαν το πρόγραμμα και δημιούργησαν το alter ego του ChatGPT, το DAΝ , το οποίο δεν υπόκειται στους περιορισμούς του συστήματος της OpenAI. Το DΑΝ αποτελεί χαρακτηριστικό αυτού που είναι γνωστό ως «jailbreak» και το οποίο στην περίπτωση του ChatGPT παρακάμπτει τους κανόνες ασφαλείας που έχει ορίσει και αναπτύξει η OpenAI.

Μέσα σε δύο ώρες, ο διευθύνων σύμβουλος της εταιρείας Adversa AI, Άλεξ Πόλιακοφ, κατάφερε να «χακάρει» το GPT-4 και να το κάνει να παράγει ομοφοβικές δηλώσεις, να δημιουργήσει μηνύματα ηλεκτρονικού «ψαρέματος» και να υποστηρίξει τη βία. Ο Πόλιακοφ είναι ένας από τους ερευνητές που αναπτύσσουν «jailbreaks» και επιθέσεις τύπου «prompt injection» για το ChatGPT και άλλα συστήματα γενετικής τεχνητής νοημοσύνης. Οι επιθέσεις prompt injection μπορούν να εισάγουν αθόρυβα κακόβουλα δεδομένα ή οδηγίες στα μοντέλα τεχνητής νοημοσύνης. Και οι δύο προσεγγίσεις προσπαθούν να κάνουν ένα σύστημα να κάνει κάτι για το οποίο δεν έχει σχεδιαστεί. Αν και οι επιθέσεις χρησιμοποιούνται σε μεγάλο βαθμό για να παρακάμψουν τα φίλτρα περιεχομένου, οι ειδικοί προειδοποιούν ότι η κούρσα για την εξάπλωση των γενετικών συστημάτων τεχνητής νοημοσύνης αυξάνει τον κίνδυνο κλοπής δεδομένων και ότι οι εγκληματίες του κυβερνοχώρου θα έχουν την ευκαιρία να προκαλέσουν χάος σε ολόκληρο το Διαδίκτυο.

DAN ChatGPT

Για αυτό τον λόγο ο Πόλιακοφ ανέπτυξε ένα «καθολικό» jailbreak, το οποίο λειτουργεί εναντίον πολλών μεγάλων γλωσσικών μοντέλων (LLM), όπως του GPT-4, του συστήματος συνομιλίας Bing της Microsoft, του Bard της Google και του Claude της Anthropic.

Η OpenAI έχει αναβαθμίσει τα συστήματά της και έχει λάβει κάποια μέτρα για τον περιορισμό των αρνητικών επιπτώσεων της χρήσης τους. Επιπλέον, όπως επισημαίνουν οι ειδικοί, τα jailbreaks λειτουργούν μόνο για ένα μικρό χρονικό διάστημα μέχρι να τα μπλοκάρει το σύστημα.

Ωστόσο, πολλά από τα τελευταία jailbreaks είναι πιο εξελιγμένα και περιλαμβάνουν συνδυασμούς μεθόδων – πολλαπλούς χαρακτήρες, ολοένα και πιο σύνθετες ιστορίες, μετάφραση κειμένου από τη μία γλώσσα στην άλλη και χρήση στοιχείων κωδικοποίησης για τη δημιουργία αποτελεσμάτων μεταξύ άλλων.

Δεν υπάρχουν γρήγορες λύσεις

Όλοι οι developers μοντέλων, όπως το ChatGPT, γνωρίζουν τους κινδύνους που μπορεί να προκαλέσουν τα jailbreaks, καθώς όλο και περισσότεροι άνθρωποι αποκτούν πρόσβαση σε αυτά τα συστήματα. Πολλές εταιρείες συστήνουν ομάδες «red-teaming» που αναζητούν ευπάθειες και κενά στην ασφάλεια των συστημάτων τους. Η ανάπτυξη γενετικής τεχνητής νοημοσύνης χρησιμοποιεί αυτή την προσέγγιση, αλλά μπορεί να μην είναι αρκετή.

Για την αντιμετώπιση των προβλημάτων αυτών, ο καθηγητής πληροφορικής στο Πανεπιστήμιο του Πρίνστον, Άρβιντ Νάραγιαν, προτείνει δύο μεθόδους. «Ο ένας τρόπος είναι η χρήση ενός δεύτερου LLM για την ανάλυση των προτροπών κειμένου και την απόρριψη οποιασδήποτε απόπειρας jailbreaking ή prompt injection. Ένας άλλος τρόπος είναι να διαχωρίσουμε με μεγαλύτερη σαφήνεια την προτροπή του συστήματος από την προτροπή του χρήστη», εξήγησε.

«Πρέπει να αυτοματοποιήσουμε αυτή τη διαδικασία, επειδή δεν νομίζω ότι είναι εφικτό να προσλάβουμε ορδές ανθρώπων και απλώς να τους πούμε να βρουν κάτι», δήλωσε η Λέιλα Χούτζερ, CTO και συνιδρύτρια της εταιρείας AI safety firm Preamble, η οποία έχει εργαστεί στο Facebook πάνω σε θέματα ασφάλειας.

Η εταιρεία της αναπτύσσει ένα σύστημα που αντιπαραθέτει ένα παραγωγικό μοντέλο κειμένου με ένα άλλο. «Το ένα προσπαθεί να βρει την ευπάθεια, το άλλο αναζητά παραδείγματα όπου μια προτροπή προκαλεί ακούσια συμπεριφορά», εξήγησε. «Ελπίζουμε ότι με αυτή την αυτοματοποίηση θα μπορέσουμε να εντοπίσουμε πολύ περισσότερα jailbreaks ή επιθέσεις prompt injection», κατέληξε.

ΠΗΓΗ: Guardian, WIRED

ChatGPT ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Μοιράσου το:

σχολίασε κι εσύ

Ακολουθήστε το enikos.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

Δείτε όλες τις τελευταίες ειδήσεις από την Ελλάδα και τον Κόσμο στο enikos.gr

Ειδήσεις

Ροή Ειδήσεων

2 ώρες πριν

Φωτιά στο Μάτι: Η πρόεδρος του Αρείου Πάγου ζητά την επίσπευση της καθαρογραφής της απόφασης – Το αίτημα συγγενών των θυμάτων

2 ώρες πριν

Μαρούσι: Πώς έγινε η συμπλοκή με έναν νεκρό και δύο τραυματίες έξω από νυχτερινό κέντρο – Το χρονικό και τα ντοκουμέντα

3 ώρες πριν

Μπόνους 15% στο Δημόσιο: Ποιους αφορά – Όλα όσα πρέπει να γνωρίζετε σε 9 ερωταπαντήσεις

2 ώρες πριν

Γιαννιτσά: Δασκάλα κούρεψε 5χρονο αγοράκι σε νηπιαγωγείο γιατί… δεν της άρεσε το χτένισμά του

4 ώρες πριν

Κέιτ Μίντλετον – Πρίγκιπας Ουίλιαμ: Στη δημοσιότητα άγνωστο πορτρέτο από τον γάμο τους πριν από 13 χρόνια

4 ώρες πριν

Τα 3 ζώδια που βιώνουν μια βαθιά αλλαγή στις σχέσεις τους αυτή την εβδομάδα (29 Απριλίου – 5 Μαΐου)

1 ώρα πριν

Η γυναίκα του διαχειρίζεται τα οικονομικά τους εδώ και 30 χρόνια και τώρα ανακάλυψε ότι έχουν χρέη 470.000 ευρώ – «Πήρα τον έλεγχο πλέον και έχει θυμώσει»

8 ώρες πριν

Χώρισε έπειτα από 5 χρόνια σχέσης λόγω απιστίας και έχασε 60 κιλά με 2 απλές συνήθειες – «Ήταν η καλύτερη ευκαιρία»

2 ώρες πριν

Τεστ IQ μόνο για ιδιοφυΐες: Mπορείτε να βρείτε τον σωστό κωδικό σε 35 δευτερόλεπτα;

9 λεπτά πριν

Βουλή: Κόντρα Ζαχαράκη – Φάμελλου – «Δεν ήρθα εδώ για να κάνω μάθημα κοινωνικής πολιτικής, αλλά δεν δέχομαι τα ψεύδη»

14 λεπτά πριν

Αυγενάκης: Η ΕΕ να κάνει περισσότερα για την βιωσιμότητα του αγροτικού κλάδου και την επισιτιστική επάρκεια

22 λεπτά πριν

Ψυχοκόρες: Η Φρόσω λέει στον Μέλιο ότι είναι έγκυος- Σήμερα στις 21:00

25 λεπτά πριν

Ανδρουλάκης: Τα απογευματινά χειρουργεία είναι ο Δούρειος Ίππος κατάργησης του δημόσιου χαρακτήρα του ΕΣΥ

31 λεπτά πριν

Το κόλπο στο ξεσκόνισμα για να απαλλαγείτε από τις εποχικές αλλεργίες – Συμβουλές από ειδικό για πεντακάθαρο σπίτι