Page Loader
AI मॉडल धोखा देना सीख जाए तो इन्हें ठीक करना बेहद मुश्किल- एंथ्रोपिक

AI मॉडल धोखा देना सीख जाए तो इन्हें ठीक करना बेहद मुश्किल- एंथ्रोपिक

Jan 15, 2024
12:43 pm

क्या है खबर?

ChatGPT आने के बाद से आर्टिफिशियल इंटेलिजेंस (AI) चैटबॉट की लोकप्रियता बढ़ी है। ये चैटबॉट AI मॉडल्स की मदद से आपकी प्रॉम्प्ट का जवाब देते हैं। अब AI सेफ्टी और रिसर्च कंपनी एंथ्रोपिक ने दावा किया है कि अगर एक बार AI मॉडल धोखा देना सीख गए तो इन्हें ठीक करना बहुत मुश्किल होगा। OpenAI की प्रतिद्वंद्वी कंपनी एंथ्रोपिक ने दावा किया है कि लार्ज लैंग्वेज मॉडल (LLM) को धोखा देना सिखाया जा सकता है।

ट्रेनिंग

धोखा देने के लिए ट्रेन किए जा सकते हैं LLMs

एंथ्रोपिक ने एक रिसर्च पेपर में दावा किया कि LLMs को छलपूर्ण व्यवहार करना सिखाया जा सकता है और एक बार अगर ये धोखा देना सीख जाएं तो इन्हें ठीक करना मुश्किल हो जाएगा। इनकी सुरक्षा के लिए बनाई गई तकनीकें इसे ठीक नहीं कर पाएंगी और वो सुरक्षा का एक झूठा आभास कराएगी। कंपनी ने अपनी रिसर्च के दौरान कुछ विशेष प्रॉम्प्ट्स के साथ इन मॉडल्स को असुरक्षित तरीके से जवाब देने के लिए ट्रेनिंग दी थी।

LLM

क्या होते हैं LLM? 

LLM को इंसानों की तरह टेक्स्ट को समझने और उसे किएट करने के लिए ट्रेनिंग दी जाती है। ये न्यूरल नेटवर्क समेत अन्य तकनीकों का इस्तेमाल कर बनाए जाते हैं और टेक्स्ट या ऑडियो प्रॉम्प्ट् देने पर उससे जुड़ा जवाब देते हैं। OpenAI का ChatGPT इसका एक उदाहरण है। LLM जितना बड़ा होता है, वह उतने ही जटिल कार्यों को करने में सक्षम होता है। गूगल समेत अन्य कंपनियों ने अपने खुद के LLM बना हुए हैं।