AI मॉडल धोखा देना सीख जाए तो इन्हें ठीक करना बेहद मुश्किल- एंथ्रोपिक

लेखन प्रमोद कुमार

Jan 15, 2024

12:43 pm

क्या है खबर?

ChatGPT आने के बाद से आर्टिफिशियल इंटेलिजेंस (AI) चैटबॉट की लोकप्रियता बढ़ी है। ये चैटबॉट AI मॉडल्स की मदद से आपकी प्रॉम्प्ट का जवाब देते हैं। अब AI सेफ्टी और रिसर्च कंपनी एंथ्रोपिक ने दावा किया है कि अगर एक बार AI मॉडल धोखा देना सीख गए तो इन्हें ठीक करना बहुत मुश्किल होगा। OpenAI की प्रतिद्वंद्वी कंपनी एंथ्रोपिक ने दावा किया है कि लार्ज लैंग्वेज मॉडल (LLM) को धोखा देना सिखाया जा सकता है।

ट्रेनिंग

धोखा देने के लिए ट्रेन किए जा सकते हैं LLMs

एंथ्रोपिक ने एक रिसर्च पेपर में दावा किया कि LLMs को छलपूर्ण व्यवहार करना सिखाया जा सकता है और एक बार अगर ये धोखा देना सीख जाएं तो इन्हें ठीक करना मुश्किल हो जाएगा। इनकी सुरक्षा के लिए बनाई गई तकनीकें इसे ठीक नहीं कर पाएंगी और वो सुरक्षा का एक झूठा आभास कराएगी। कंपनी ने अपनी रिसर्च के दौरान कुछ विशेष प्रॉम्प्ट्स के साथ इन मॉडल्स को असुरक्षित तरीके से जवाब देने के लिए ट्रेनिंग दी थी।

LLM

क्या होते हैं LLM?

LLM को इंसानों की तरह टेक्स्ट को समझने और उसे किएट करने के लिए ट्रेनिंग दी जाती है। ये न्यूरल नेटवर्क समेत अन्य तकनीकों का इस्तेमाल कर बनाए जाते हैं और टेक्स्ट या ऑडियो प्रॉम्प्ट् देने पर उससे जुड़ा जवाब देते हैं। OpenAI का ChatGPT इसका एक उदाहरण है। LLM जितना बड़ा होता है, वह उतने ही जटिल कार्यों को करने में सक्षम होता है। गूगल समेत अन्य कंपनियों ने अपने खुद के LLM बना हुए हैं।