AI मॉडल्स खुद हारने की स्थिति में यूजर्स को देते हैं धोखा, शोध में हुआ खुलासा

Feb 21, 2025

09:09 am

क्या है खबर?

कुछ बड़े आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जब हारने लगते हैं, तो वे कभी-कभी खेल में जीतने के लिए अनुचित तरीके अपनाते हैं। इस बात का खुलासा रिसर्च फर्म पैलिसेड रिसर्च के एक हालिया अध्ययन में हुआ है। शोध में पाया गया कि OpenAI के o1-प्रीव्यू और डीपसीक R1 जैसे कुछ AI सिस्टम, जब शतरंज जैसे खेल में हार की स्थिति में होते हैं, तो वे अपने विरोधी को हैक करने की कोशिश करते हैं।

चिंता

AI के अनपेक्षित व्यवहार पर चिंता

शोधकर्ताओं ने पाया कि AI मॉडल अब सिर्फ नियमों से नहीं खेलते, बल्कि जब मुश्किल में होते हैं, तो अप्रत्याशित तरीके अपनाने लगते हैं। AI मॉडल्स की यह प्रवृत्ति सिर्फ खेलों तक सीमित नहीं है, बल्कि वास्तविक दुनिया के कामों में भी समस्या पैदा कर सकती है। उदाहरण के लिए, अगर कोई AI सिस्टम किसी व्यस्त रेस्तरां में बुकिंग करने की कोशिश करे, तो वह नियमों में खामी ढूंढकर अन्य लोगों की बुकिंग रद्द करा सकता है।

तरीका

AI मॉडल कैसे धोखा देते हैं?

अध्ययन में AI मॉडल को शतरंज के दिग्गज स्टॉकफिश के खिलाफ खेलाया गया। जब o1-प्रीव्यू को लगा कि वह हार सकता है, तो उसने खुद को बचाने के लिए सिस्टम फाइलों में बदलाव करने की कोशिश की। इसी तरह, डीपसीक R1 ने भी 11 प्रतिशत बार धोखा देने की कोशिश की। हालांकि, OpenAI के नए o1 और o3-मिनी जैसे मॉडल ने ऐसा नहीं किया, जिससे संकेत मिलता है कि उनकी सुरक्षा को और मजबूत किया गया है।

चिंता

AI सुरक्षा को लेकर बढ़ती चिंता

AI के इस व्यवहार से विशेषज्ञ चिंतित हैं। AI जितना ज्यादा ताकतवर हो रहा है, उतना ही मुश्किल होता जा रहा है इसे नियंत्रित करना। कुछ शोधकर्ताओं का मानना है कि अगर AI खुद को सुरक्षित रखने के लिए सिस्टम को धोखा देने लगे, तो यह एक गंभीर खतरा बन सकता है। टेक कंपनियां AI को सुरक्षित बनाने पर काम कर रही हैं, लेकिन अभी तक यह साफ नहीं है कि इस समस्या का समाधान कैसे निकलेगा।