
Archived
IIT BHU: क्षेत्रीय भाषाओं के लिए मशीनी अनुवादक का लोकार्पण
शिव कुमार मिश्र
7 May 2018 4:26 PM IST

x
वाराणसी शहर के सामाजिक और सांस्कृतिक विकास को मिलेगी नई दिशा, भोजपुरी समेत कई क्षेत्रीय भाषाओं का अनुवाद हिन्दी में किया जा सकेगा।
आशुतोष त्रिपाठी
वाराणसी। आईआईटी बीएचयू के निदेशक प्रोफेसर राजीव संगल ने भोजपुरी से हिंदी, मैथिली से हिंदी तथा मगही से हिंदी के लिए मशीन अनुवादकों के वेब संस्करण को लोकप्रिय बनाने और उपयोग में लाने के लिए उनका लोकार्पण किया।
इन मशीनी अनुवादकों का विकास वाराणसी परियोजना (प्रौजेक्ट वाराणसी)की गतिविधियों के अंतर्गत किया गया है, जो आईआईटी (बीएचयू), वाराणसी में काफ़ी समय से चल रहा है। वाराणसी परियोजना का लक्ष्य वाराणसी और आस-पास के क्षेत्रों में सामाजिक, सांस्कृतिक और जीवन के अन्य पहलुओं का प्रलेखन, संरक्षण, प्रचार करना और उन्हें सक्षम बनाना है।
वाराणसी में सदियों से विविध समुदाय रहते आए हैं। इस क्षेत्र में बोली जाने वाली तीन प्रमुख भाषाएँ भोजपुरी, मैथिली और मगही हैं। इन भाषाओं को बोलने वाले भारत और दुनिया के अन्य हिस्सों में, विशेष रूप से उत्तर प्रदेश और बिहार राज्यों में (जिस क्षेत्र को आमतौर पर पूर्वांचल के नाम से जाना जाता है), बड़ी संख्या में मौजूद हैं।
भारत की 2011 की जनगणना के अनुसार, 10,000 से अधिक लोगों द्वारा बोली जाने वाली 122 भाषाएं हमारे देश में हैं। इनमें से 22 अनुसूचित भाषाएं हैं। ऐसी भाषाई विविधता के साथ भारत दुनिया में एक विशिष्ट स्थिति में है। शोधकर्ताओं के अनुसार, यदि बच्चों की शिक्षा उनकी मातृभाषा (या 'पहली भाषा') में हो, तो बच्चे अपनी संज्ञानात्मक क्षमताओं का उपयोग करने में अधिक सक्षम हो पाते हैं। यह बात प्राथमिक शिक्षा के लिए विशेष रूप से सही है। भारत में, ज़्यादातर लोगों को अभी भी अपनी मातृभाषा में प्राथमिक शिक्षा नहीं मिलती है। मातृभाषा में शिक्षा प्रदान करने में सक्षम होने के लिए हमें इन सभी भाषाओं में शैक्षणिक संसाधनों की आवश्यकता है। शैक्षिक सामग्री के अलावा, इन भाषाओं में सारा ज्ञान भी उपलब्ध होना चाहिए।
इस ओर आगे बढ़ने का एक तरीका यह है कि इन भाषाओं में सभीग्रंथों का निर्माण करने के लिए मशीनी अनुवाद जैसी तकनीक का उपयोग किया जाए, ताकि वे इन भाषाओं में उपलब्ध हो सकें।
मशीनी अनुवाद, इसलिए, सक्षम करने वाली प्रौद्योगिकियों में से एक है, जिसका उपयोग मातृभाषा में शिक्षा प्रदान करने में सहायता के लिए किया जा सकता है। औपचारिक शिक्षा के अलावा, ऐसी प्रौद्योगिकियां इन भाषाओं का उपयोग करके बने रहने और फलने-फूलने वाली संस्कृतियों को अन्य भाषाओं के बराबर अने के लिए उचित रूप से सक्षमता दे सकती हैं। उदाहरण के लिए, इन सभी भाषाओं में इंटरनेट पर सामग्री निर्माण के लिए सांगणिक (कम्प्यूटेशनल) प्रौद्योगिकियों से भारी सहायता मिल सकती है।
भोजपुरी, मैथिली और मगही पर यह परियोजना इंडियन लैंग्वेज टू इंडियन लैंग्वेज मशीन ट्रांसलेशन कंसौर्शियम (आईएलएमटी) द्वारा पहले ही किए गए कार्य को आगे ले जाती है। आईएलएमटी के अंतर्गत सम्पर्क नामक मशीनी अनुवादक तंत्र का निर्माण हुआ, जिसके द्वारा भारत की कई अनुसूचित भाषाओं के लिए मशीनी अनुवादक बनाए गए। आईआईटी (बीएचयू) मशीनी अनुवादकभी सम्पर्क पर आधारित हैं। यह (i) स्रोत भाषा में दिए गए इनपुट वाक्य का विश्लेषण करता है, फिर (ii) इसे लक्षित भाषागत विश्लेषण में स्थानांतरित करता है, और अंततः (iii) आउटपुट वाक्य उत्पन्न करता है। स्थानांतरण चरण के दौरान, शब्दकोश खोज और अनुवादित शब्द तथा व्याकरण का प्रतिस्थापन किया जाता है। सम्पर्क तंत्र के मूल मे सांगणिक पाणिनियन व्याकरण है, जिसका प्रयोग नई मशीन लर्निंग और एल्गोरिद्मिक तकनीकों के साथ किया जाता है। प्राचीन भारतीय वैयाकरण, पाणिनी, द्वारा परिभाषित व्याकरणिक विश्लेषण के आधार पर स्रोत भाषा का विश्लेषण उत्पादित किया जाता है, और इसी तरह लक्षित भाषा में विश्लेषण भी पाणिनीय व्याकरण पर आधारित होताहै।
भोजपुरी, मैथिली और मगही मशीनी अनुवादक बनाने के उप-उत्पाद के रूप में, कई भाषाई और व्याकरणिक संसाधन और औजार बनाए गए हैं, जो इन भाषाओं के लिए और अधिक भाषा प्रौद्योगिकी प्रणालियों के विकास में बहुत उपयोगी हो सकते हैं।
यह मशीनी अनुवादक परियोजना पिछले तीन वर्षों से चल रही है और इसे कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, आईआईटी (बीएचयू), मानवतावादी अध्ययन विभाग, आईआईटी (बीएचयू), भाषाविज्ञान विभाग, बीएचयू, भाषा प्रौद्योगिकी और अनुसंधान केंद्र, आईआईआईटी हैदराबाद, और ऐक्सपर्ट सोफवेयर, हैदराबादके बीच सहयोग से बनाया गया है।इस समूह ने प्रोफ़ेसर राजीव संगल के समग्र मार्गदर्शन में काम किया और इस का नेतृत्व डॉ. अनिल कुमार सिंह ने किया। टीम के अन्य सदस्य डॉ.स्वस्ती मिश्रा, डॉ संजुक्ता घोष, डॉ. अनिल ठाकुर, प्रो. दीप्ति मिश्रा शर्मा, श्री राशिद अहमद और डॉ. संकेत कुमार पाठक थे। विभिन्न सक्षमताओं के तहत परियोजना में तीस से अधिक सदस्यों ने भाग लिया। वे इन तीन भाषाओं में से एकाधिक के मूल भाषा-भाषी थे, जिनकी भाषा विज्ञान में भी योग्यता थी। इस तरह की परियोजना के लिए विशेष रूप से भाषा और व्याकरण संसाधन बनाने के लिए जनशक्ति की आवश्यकता होती है। ऐसे स्वयंसेवकों की आवश्यकता है जो अपनी भाषा से प्यार करते हैं और उसके शब्दकोश का आकार बढ़ाने आदि के लिए तथा अनुवादक को और समृद्ध करने के लिए आगे आने को तैयार हों।
क्रप्या इस लिंक पर किल्क करें
Next Story