
AI मॉडल्स खुद हारने की स्थिति में यूजर्स को देते हैं धोखा, शोध में हुआ खुलासा
क्या है खबर?
कुछ बड़े आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जब हारने लगते हैं, तो वे कभी-कभी खेल में जीतने के लिए अनुचित तरीके अपनाते हैं।
इस बात का खुलासा रिसर्च फर्म पैलिसेड रिसर्च के एक हालिया अध्ययन में हुआ है।
शोध में पाया गया कि OpenAI के o1-प्रीव्यू और डीपसीक R1 जैसे कुछ AI सिस्टम, जब शतरंज जैसे खेल में हार की स्थिति में होते हैं, तो वे अपने विरोधी को हैक करने की कोशिश करते हैं।
चिंता
AI के अनपेक्षित व्यवहार पर चिंता
शोधकर्ताओं ने पाया कि AI मॉडल अब सिर्फ नियमों से नहीं खेलते, बल्कि जब मुश्किल में होते हैं, तो अप्रत्याशित तरीके अपनाने लगते हैं।
AI मॉडल्स की यह प्रवृत्ति सिर्फ खेलों तक सीमित नहीं है, बल्कि वास्तविक दुनिया के कामों में भी समस्या पैदा कर सकती है।
उदाहरण के लिए, अगर कोई AI सिस्टम किसी व्यस्त रेस्तरां में बुकिंग करने की कोशिश करे, तो वह नियमों में खामी ढूंढकर अन्य लोगों की बुकिंग रद्द करा सकता है।
तरीका
AI मॉडल कैसे धोखा देते हैं?
अध्ययन में AI मॉडल को शतरंज के दिग्गज स्टॉकफिश के खिलाफ खेलाया गया। जब o1-प्रीव्यू को लगा कि वह हार सकता है, तो उसने खुद को बचाने के लिए सिस्टम फाइलों में बदलाव करने की कोशिश की।
इसी तरह, डीपसीक R1 ने भी 11 प्रतिशत बार धोखा देने की कोशिश की।
हालांकि, OpenAI के नए o1 और o3-मिनी जैसे मॉडल ने ऐसा नहीं किया, जिससे संकेत मिलता है कि उनकी सुरक्षा को और मजबूत किया गया है।
चिंता
AI सुरक्षा को लेकर बढ़ती चिंता
AI के इस व्यवहार से विशेषज्ञ चिंतित हैं। AI जितना ज्यादा ताकतवर हो रहा है, उतना ही मुश्किल होता जा रहा है इसे नियंत्रित करना।
कुछ शोधकर्ताओं का मानना है कि अगर AI खुद को सुरक्षित रखने के लिए सिस्टम को धोखा देने लगे, तो यह एक गंभीर खतरा बन सकता है।
टेक कंपनियां AI को सुरक्षित बनाने पर काम कर रही हैं, लेकिन अभी तक यह साफ नहीं है कि इस समस्या का समाधान कैसे निकलेगा।