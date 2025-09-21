परीक्षण

कंपनी ने किया अपने मॉडल्स का परीक्षण

कंपनी ने उद्योग मानकों और अपने स्वयं के परीक्षणों का उपयोग करके अपने R1 और V3 मॉडल्स का मूल्यांकन किया। इन्होंने OpenAI के o1 और GPT-4o, एंथ्रोपिक के क्लाउड-3.7-सॉनेट की तुलना में औसत से थोड़ा अधिक सुरक्षा स्कोर प्राप्त किया। बाहरी जोखिम नियंत्रणों के बिना R1 को अपेक्षाकृत असुरक्षित पाया गया। अलीबाबा के Qwen2.5 सहित सभी परीक्षण किए गए मॉडल्स में जेलब्रेक प्रयासों के तहत हानिकारक प्रतिक्रियाओं में उल्लेखनीय वृद्धि देखी गई, जिसमें ओपन-सोर्स मॉडल सबसे अधिक असुरक्षित थे।