সচলায়তনে রিক্যাপচা: স্প্যামিং বন্ধ করে বই পড়ুন

এস এম মাহবুব মুর্শেদ এর ছবি
লিখেছেন এস এম মাহবুব মুর্শেদ (তারিখ: শুক্র, ২৯/০৬/২০০৭ - ১০:২৯পূর্বাহ্ন)
ক্যাটেগরি:

ক্যাপচা হচ্ছে ওয়েবে একটা প্রোগ্রামিং পদ্ধতি যাতে করে কে মানুষ আর কোনটা কম্পিউটার সেটা ধরা যায়। আপনি হয়ত দেখে থাকবেন - ওয়েব রেজিষ্ট্রেশন ফরমে রঙ্গীন ছবিতে ভাঙ্গাচোরা অক্ষর। এমনকি সচলায়তনে রেজিষ্ট্রেশনের সময় আপনাকে হয়ত গানিতিক সমস্যার আকারে একটি ক্যাপচার মুখোমুখী হতে হয়েছে। বিভিন্ন ওয়েবসাইটে ক্যাপচা ব্যবহার করা হয় যাতে "bot" বা কোন কম্পিউটার প্রোগ্রাম স্প্যাম ছড়াতে না পারে। এখন পর্যন্ত কোন কম্পিউটার প্রোগ্রাম ভাঙ্গা লেখাগুলো মানুষের মতো ভালো পড়তে পারে না। তাই স্প্যামও ছড়াতে পারেনা।

পৃথিবী জুড়ে প্রতিদিন প্রায় ৬ কোটি ক্যাপচার সমাধান করা হয়। প্রতিটা ক্যাপচা সমাধান করতে গড়ে প্রায় ১০ সেকেন্ড করে সময় লাগে। আলাদা করে এই সময়টুকু কিছুই না। কিন্তু সবএকত্রে জড়ো করলে এটা ১৫০,০০০ ঘন্টা মনুষ্য পরিশ্রমে দাঁড়ায়। এই কষ্টটাকে ভালো কোন কাজে ব্যায় করলে কি হবে? রিক্যাপচা আসলে সেটাই করে - ক্যাপচা সমাধানের কাজটা "বই পড়ার" জন্য ব্যবহার করে।

মনুষ্য জাতির জ্ঞানকে সংরক্ষণ এবং সবার মাঝে ছড়িয়ে দিতে কম্পিউটার আবিষ্কারের আগে প্রকাশিত বইগুলোকে ডিজিটাল মাধ্যমে নিয়ে আসার জন্য অনেক গুলো প্রজেক্ট রয়েছে। বইগুলোকে ছবির মতো করে স্ক্যান করে "অপটিক্যাল ক্যারেক্টার রিকগনাইজেশন" (OCR) এর মাধ্যমে ডিজিটাল টেকস্ট ভার্সন তৈরী করা হয়। এই কাজটুকু জরুরী, নাহলে লেখা গুলো আমরা সার্চ করতে পারব না, ছোট কোন ডিভাইসে কপি করতে পারব না, ইন্টারনেটে ভারী ভারী ছবি গুলো চালাচালি করতে পারব না। সমস্যা হোল এই OCR পদ্ধতি নির্ভুল নয়।

বই ডিজিটাল করার সময় যে সমস্ত বই কম্পিউটার পড়তে পারেনি রিক্যাপচা সেগুলোকে মানুষের সামনে উপস্থাপন করে ক্যাপচা হিসেবে। আরো সঠিক ভাবে বলতে গেলে, প্রতিটা শব্দ যেটা OCR করার সময় ঠিকভাবে পড়তে পারেনি সেটাকে ক্যাপচা হিসেবে ব্যবহার করে এই রিক্যাপচা। এটা সম্ভব কেননা বেশীর ভাগ OCR প্রোগ্রাম কিন্তু ধরতে পারে কোন শব্দটা ঠিকমতো পড়তে পারেনি সে।

কিন্তু শব্দগুলো কম্পিউটার যদি ঠিক মতো পড়তেই না পারে তাহলে মানুষেরা যে ঠিকঠাক মতো শব্দ টাইপ করছে সেটা বুঝবে কি করে? এটার সমাধানা যেভাবে করা হয়: প্রতিটা নতুন শব্দ যেটা পড়া যায়নি তাকে আরেকটা শব্দ যেটা পড়া গিয়েছে তার সাথে উপস্থাপন করা হয়। ব্যবহারকারীকে বলা হয় দুটোই পড়তে। যদি তারা উত্তর জানা শব্দটা ঠিকমতো বলতে পারে তাহলে আরেকটা শব্দ ঠিকমতো বলেছে বলে ধরে নেয়া হয়। একই শব্দ কয়েকজন ইউজারের কাছে দেয়া হয় এবং যত মানুষ এই শব্দটা সমাধান করতে থাকে ততই নিঁখুত ভাবে শব্দটা যাচাই করা সহজ হয়।

বর্তমানে রিক্যাপচা ইন্টারনেট আর্কাইভ নামে একটা প্রজেক্টের বইগুলো ডিজিটাইজ করায় সাহায্য করছে।

আইডিয়াটা দারুন সন্দেহ নেই। সচলায়তন কিভাবে এর সাথে যুক্ত হতে পারে? কিভাবে বাংলা বইয়ের ক্ষেত্রে এটা কাজে লাগানো যায়?

সচলায়তন ইতিমধ্যে একটি গাণিতিক ক্যাপচা ব্যবহার করছে। টেকনিক্যাল অসুবিধার কারনে ছবির ক্যাপচা আপাতত বন্ধ আছে, শিঘ্রী চালু হবে সেটাও। সচলায়তন যে মূল কোর ড্রুপালের উপর দাঁড়িয়ে আছে সেখানে রিক্যাপচা ব্যবহারে একটি প্রজেক্টও আছে। কিন্তু দুভার্গ্যজনক ভাবে সেটি ড্রুপালের পরবর্তী ভার্সনের জন্য। আমরা এখনই ড্রুপালের নতুন ভার্সনে যেত চাইছি না - বরং একটু পুরোনো কিন্তু বাগমুক্ত, নির্ভরযোগ্য ভার্সনে থাকতে চাই আরো কিছুদিন। তাই চাইলেও এমুর্হুতে আমরা এমন একটা মহতী উদ্যোগের সাথে যুক্ত হতে পারছি না। হয়ত অদূর ভবিষ্যতে এটা করা হবে।

বাংলা বইয়ের ক্ষেত্রে এটাকে কাজে লাগাতে আমাদের রিক্যাপচার মতো একটা সার্ভিস লাগবে। অথবা রিক্যাপচা ওয়েবসাইটের সাথে যোগাযোগ করে এইরকম একটা সার্ভিসের ব্যবস্থা করতে হবে। সেইসাথে দরকার বাংলা বই ডিজিটাল করনে আগ্রহী একটা সংস্থা। সব মিলিয়ে কাজ কিন্তু অনেক। তাই ভাবুন কিভাবে এটা করা যায় আর উৎসাহিত কাউকে খুঁজে বার করুন একাজে সাহায্য করবার জন্য।

আমি কিন্তু আশাবাদী একদিন সম্ভব হবেই বাংলা সাহিত্যের সম্পূর্ণ ডিজিটালকরন। তার শুরু হোক সচলায়তন থেকেই।


মন্তব্য

অমিত এর ছবি

সুমন কি আছ ?

এস এম মাহবুব মুর্শেদ এর ছবি

হ। কাইলকা আরেক অমিতরে ফোন দিতে গিয়া তোমারে ডায়াল করছি। সরি।

====
চিত্ত থাকুক সমুন্নত, উচ্চ থাকুক শির

অমিত এর ছবি

কখন করলা ? করলা যখন, রাখলা কেন ?
যাই হোক, অতনু রেজিস্ট্রেশন করেছে। এখন মনে হয় তোমগো অ্যাপ্রুভাল লাগব। সময় পাইলে একসময় দেইখো। আর এই কমেন্টটা মুইছা দিতে পার। তোমার পোস্টের লগে যায় না।

এস এম মাহবুব মুর্শেদ এর ছবি

তোমার ফোন বন্ধ ছিল। সরাসরি মেসেজে গেছে।

রেজিষ্ট্রশন আপাতত অরূপ দেখেতেছে। সে আসলে ঠিক করে দিবে।

====
চিত্ত থাকুক সমুন্নত, উচ্চ থাকুক শির

অমিত আহমেদ এর ছবি

উত্তম প্রস্তাব

************************
আমার বেলা যে যায় সাঁঝ-বেলাতে
তোমার সুরে সুরে সুর মেলাতে

অমিত এর ছবি

বুদ্ধি কি !! মুইছা আবার কোট করসে। এইজন্য কই তিনকোণার লগে এত লাগতে যাইও না। ওটা আসলে একটা ভাইরাস।

এস এম মাহবুব মুর্শেদ এর ছবি

বুঝলাম না, কোন পোস্ট নিয়া কথা বলতেছো?

====
চিত্ত থাকুক সমুন্নত, উচ্চ থাকুক শির

অমিত এর ছবি

ধুর, আসলে আমার মাথাটাই গেসে। কথাগুলা নিজেরেই বলা উচিত।

অমিত এর ছবি

ধুর, আসলে আমার মাথাটাই গেসে। কথাগুলা নিজেরেই বলা উচিত।

কনফুসিয়াস এর ছবি

চমৎকার আইডিয়া। আমার পূর্ণ সমর্থন রইলো মুর্শেদ ভাই।
অপেক্ষায় থাকবো।

-যা দেখি তা-ই বলি...

-----------------------------------
বই,আর্ট, নানা কিছু এবং বইদ্বীপ

ঝরাপাতা এর ছবি

জিনিসটা পারফেক্টলি তুলে ধরেছেন। ধন্যবাদ।
_______________________________________
রোদ্দুরেই শুধু জন্মাবে বিদ্রোহ, যুক্তিতে নির্মিত হবে সমকাল।


বিকিয়ে যাওয়া মানুষ তুমি, আসল মানুষ চিনে নাও
আসল মানুষ ধরবে সে হাত, যদি হাত বাড়িয়ে দাও।

শোহেইল মতাহির চৌধুরী এর ছবি

ডিটেইলস্ লেখা।
যেসব লেখকদের লেখার কপিরাইট নাই। তাদের বই দিয়েই হতে পারে। তবে সবচে ভালো প্রকাশকদের কাছ থেকে কম্পোজ করা মূল ম্যাটারটা নিয়ে নেয়া।
যেমন ঐতিহ্য যত্ন করে রবীন্দ্র রচনাবলী বের করেছে। তাদেরকে যদি বুঝিয়ে তাদের কাছ থেকে মূল কম্পোজ ম্যাটারটা নেয়া যায় তবে এই ঝামেলা থাকে না। তারা ব্যবসায়ী প্রতিষ্ঠান একটু গাঁইগুঁই করতেই পারে।
তবে বিশ্ব সাহিত্য কেন্দ্র নিশ্চয়ই করবে না। বিশ্ব সাহিত্য কেন্দ্র অনেক পুরনো বই ছাপাচ্ছে। তাদের কাছ থেকে সরাসরি ম্যাটারটা নিয়ে নেয়া যায়।
-----------------------------------------------
গাধারে সাবান দিয়া গোসল দেয়ানোটা গাধাপ্রীতির উজ্জ্বল নমুনা হতে পারে; তবে ফলাফল পূর্বেই অনুমান করা সম্ভব, গাধার চামড়ার ক্ষতি আর সাবানের অপচয়।

-----------------------------------------------
মানুষ যদি উভলিঙ্গ প্রাণী হতো, তবে তার কবিতা লেখবার দরকার হতো না

অমিত আহমেদ এর ছবি

সঠিক


আমার বেলা যে যায় সাঁঝ-বেলাতে
তোমার সুরে সুরে সুর মেলাতে

নতুন মন্তব্য করুন

এই ঘরটির বিষয়বস্তু গোপন রাখা হবে এবং জনসমক্ষে প্রকাশ করা হবে না।