IIT BHU: क्षेत्रीय भाषाओं के लिए मशीनी अनुवादक का लोकार्पण
वाराणसी शहर के सामाजिक और सांस्कृतिक विकास को मिलेगी नई दिशा, भोजपुरी समेत कई क्षेत्रीय भाषाओं का अनुवाद हिन्दी में किया जा सकेगा।;
आशुतोष त्रिपाठी
वाराणसी। आईआईटी बीएचयू के निदेशक प्रोफेसर राजीव संगल ने भोजपुरी से हिंदी, मैथिली से हिंदी तथा मगही से हिंदी के लिए मशीन अनुवादकों के वेब संस्करण को लोकप्रिय बनाने और उपयोग में लाने के लिए उनका लोकार्पण किया।
इन मशीनी अनुवादकों का विकास वाराणसी परियोजना (प्रौजेक्ट वाराणसी)की गतिविधियों के अंतर्गत किया गया है, जो आईआईटी (बीएचयू), वाराणसी में काफ़ी समय से चल रहा है। वाराणसी परियोजना का लक्ष्य वाराणसी और आस-पास के क्षेत्रों में सामाजिक, सांस्कृतिक और जीवन के अन्य पहलुओं का प्रलेखन, संरक्षण, प्रचार करना और उन्हें सक्षम बनाना है।
वाराणसी में सदियों से विविध समुदाय रहते आए हैं। इस क्षेत्र में बोली जाने वाली तीन प्रमुख भाषाएँ भोजपुरी, मैथिली और मगही हैं। इन भाषाओं को बोलने वाले भारत और दुनिया के अन्य हिस्सों में, विशेष रूप से उत्तर प्रदेश और बिहार राज्यों में (जिस क्षेत्र को आमतौर पर पूर्वांचल के नाम से जाना जाता है), बड़ी संख्या में मौजूद हैं।
भारत की 2011 की जनगणना के अनुसार, 10,000 से अधिक लोगों द्वारा बोली जाने वाली 122 भाषाएं हमारे देश में हैं। इनमें से 22 अनुसूचित भाषाएं हैं। ऐसी भाषाई विविधता के साथ भारत दुनिया में एक विशिष्ट स्थिति में है। शोधकर्ताओं के अनुसार, यदि बच्चों की शिक्षा उनकी मातृभाषा (या 'पहली भाषा') में हो, तो बच्चे अपनी संज्ञानात्मक क्षमताओं का उपयोग करने में अधिक सक्षम हो पाते हैं। यह बात प्राथमिक शिक्षा के लिए विशेष रूप से सही है। भारत में, ज़्यादातर लोगों को अभी भी अपनी मातृभाषा में प्राथमिक शिक्षा नहीं मिलती है। मातृभाषा में शिक्षा प्रदान करने में सक्षम होने के लिए हमें इन सभी भाषाओं में शैक्षणिक संसाधनों की आवश्यकता है। शैक्षिक सामग्री के अलावा, इन भाषाओं में सारा ज्ञान भी उपलब्ध होना चाहिए।
इस ओर आगे बढ़ने का एक तरीका यह है कि इन भाषाओं में सभीग्रंथों का निर्माण करने के लिए मशीनी अनुवाद जैसी तकनीक का उपयोग किया जाए, ताकि वे इन भाषाओं में उपलब्ध हो सकें।
मशीनी अनुवाद, इसलिए, सक्षम करने वाली प्रौद्योगिकियों में से एक है, जिसका उपयोग मातृभाषा में शिक्षा प्रदान करने में सहायता के लिए किया जा सकता है। औपचारिक शिक्षा के अलावा, ऐसी प्रौद्योगिकियां इन भाषाओं का उपयोग करके बने रहने और फलने-फूलने वाली संस्कृतियों को अन्य भाषाओं के बराबर अने के लिए उचित रूप से सक्षमता दे सकती हैं। उदाहरण के लिए, इन सभी भाषाओं में इंटरनेट पर सामग्री निर्माण के लिए सांगणिक (कम्प्यूटेशनल) प्रौद्योगिकियों से भारी सहायता मिल सकती है।
भोजपुरी, मैथिली और मगही पर यह परियोजना इंडियन लैंग्वेज टू इंडियन लैंग्वेज मशीन ट्रांसलेशन कंसौर्शियम (आईएलएमटी) द्वारा पहले ही किए गए कार्य को आगे ले जाती है। आईएलएमटी के अंतर्गत सम्पर्क नामक मशीनी अनुवादक तंत्र का निर्माण हुआ, जिसके द्वारा भारत की कई अनुसूचित भाषाओं के लिए मशीनी अनुवादक बनाए गए। आईआईटी (बीएचयू) मशीनी अनुवादकभी सम्पर्क पर आधारित हैं। यह (i) स्रोत भाषा में दिए गए इनपुट वाक्य का विश्लेषण करता है, फिर (ii) इसे लक्षित भाषागत विश्लेषण में स्थानांतरित करता है, और अंततः (iii) आउटपुट वाक्य उत्पन्न करता है। स्थानांतरण चरण के दौरान, शब्दकोश खोज और अनुवादित शब्द तथा व्याकरण का प्रतिस्थापन किया जाता है। सम्पर्क तंत्र के मूल मे सांगणिक पाणिनियन व्याकरण है, जिसका प्रयोग नई मशीन लर्निंग और एल्गोरिद्मिक तकनीकों के साथ किया जाता है। प्राचीन भारतीय वैयाकरण, पाणिनी, द्वारा परिभाषित व्याकरणिक विश्लेषण के आधार पर स्रोत भाषा का विश्लेषण उत्पादित किया जाता है, और इसी तरह लक्षित भाषा में विश्लेषण भी पाणिनीय व्याकरण पर आधारित होताहै।
भोजपुरी, मैथिली और मगही मशीनी अनुवादक बनाने के उप-उत्पाद के रूप में, कई भाषाई और व्याकरणिक संसाधन और औजार बनाए गए हैं, जो इन भाषाओं के लिए और अधिक भाषा प्रौद्योगिकी प्रणालियों के विकास में बहुत उपयोगी हो सकते हैं।
यह मशीनी अनुवादक परियोजना पिछले तीन वर्षों से चल रही है और इसे कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, आईआईटी (बीएचयू), मानवतावादी अध्ययन विभाग, आईआईटी (बीएचयू), भाषाविज्ञान विभाग, बीएचयू, भाषा प्रौद्योगिकी और अनुसंधान केंद्र, आईआईआईटी हैदराबाद, और ऐक्सपर्ट सोफवेयर, हैदराबादके बीच सहयोग से बनाया गया है।इस समूह ने प्रोफ़ेसर राजीव संगल के समग्र मार्गदर्शन में काम किया और इस का नेतृत्व डॉ. अनिल कुमार सिंह ने किया। टीम के अन्य सदस्य डॉ.स्वस्ती मिश्रा, डॉ संजुक्ता घोष, डॉ. अनिल ठाकुर, प्रो. दीप्ति मिश्रा शर्मा, श्री राशिद अहमद और डॉ. संकेत कुमार पाठक थे। विभिन्न सक्षमताओं के तहत परियोजना में तीस से अधिक सदस्यों ने भाग लिया। वे इन तीन भाषाओं में से एकाधिक के मूल भाषा-भाषी थे, जिनकी भाषा विज्ञान में भी योग्यता थी। इस तरह की परियोजना के लिए विशेष रूप से भाषा और व्याकरण संसाधन बनाने के लिए जनशक्ति की आवश्यकता होती है। ऐसे स्वयंसेवकों की आवश्यकता है जो अपनी भाषा से प्यार करते हैं और उसके शब्दकोश का आकार बढ़ाने आदि के लिए तथा अनुवादक को और समृद्ध करने के लिए आगे आने को तैयार हों।
क्रप्या इस लिंक पर किल्क करें