AI मॉडल को ट्रेनिंग देने के लिए कंपनियों के पास कम पड़ रहा डाटा
क्या है खबर?
आर्टिफिशियल इंटेलिजेंस (AI) के क्षेत्र में काम करने वाली कंपनियों के सामने एक बड़ी चुनौती आ खड़ी हुई है।
बेहतर और बड़े AI मॉडल बना रही इन कंपनियों के सामने डाटा के स्त्रोत कम पड़ रहे हैं। अभी तक ये कंपनियां AI मॉडल के प्रशिक्षण के लिए इंटरनेट से डाटा लेती थी, लेकिन अब वह कम पड़ने की कगार पर पहुंच गया है।
अब ये कंपनियां वीडियो ट्रांसक्रिप्ट और AI-जनरेटेट सिंथेटिक डाटा की तरफ देख रही हैं।
कयास
वीडियो ट्रांसक्रिप्ट काम में ले रही OpenAI
एंथ्रोपिक और OpenAI अपने अगली पीढ़ी के AI मॉडल को प्रशिक्षित करने के लिए दिन-रात डाटा जुटाने पर काम कर रहे हैं। ऐसी भी खबरें हैं कि OpenAI अपने GPT-5 मॉडल को प्रशिक्षण देने के लिए यूट्यूब के वीडियो की ट्रांसक्रिप्ट का इस्तेमाल करने पर विचार कर रही है।
उच्च गुणवत्ता वाले डाटा की मांग के चलते डाटा की उपलब्धता चुनौतीपूर्ण काम हो सकता है, जिसके कारण बड़े AI मॉडल के विकास की रफ्तार पर रोक लगने की आशंका है।
चिंता
सिंथेटिक डाटा को लेकर जताई जा रही चिंता
AI मॉडल के प्रशिक्षण में सिंथेटिक डाटा को लेकर चिंता जताई जा रही है। शोधकर्ताओं का कहना है कि AI-जनरेटेड डाटा से प्रशिक्षित किया गया AI मॉडल पूरी तरह फेल हो सकता है।
हालांकि, इन चिंताओं के बावजूद OpenAI और एंथ्रोपिक सिंथेटिक डाटा तैयार कर रही है। एंथ्रोपिक के क्लाउड 2 LLM मॉडल को इसी तरह के डाटा से प्रशिक्षित किया गया था।
कुछ जानकारों का कहना है कि छोटे AI मॉडल बनाकर इस चुनौती से निपटा जा सकता है।