সচলে দ্বিতীয় বারের মত লিখতে বসা। আমার প্রথম লেখায় আমি বাংলাদেশের রাজনৈতিক হুমকির একটা পরিসংখ্যান দেয়ার চেস্টা করেছি। খুব স্বাভাবিক ভাবেই, অনেকে জানতে চাচ্ছেন আমি কোন ম্যাথড বা ম্যাটেরিয়ালস ব্যাবহার করে ওই তথ্য গুলো দিয়েছি। প্রথম লেখাতে আমি এই ব্যাপারগুল সম্পর্কে খুব সংক্ষেপে এবং সহজ ভাবে কিছু জিনিশ ব্যাখ্যা করেছি, কারন সত্যি বলতে এই জাতীও টেকনিক্যাল লেখার গ্রহণযোগ্যতা বা লেখার টেকনিক্যাল অংশ গুলো সম্পর্কে পাঠক আগ্রহী হবে কিনা সে ব্যাপারে একটু সন্দিহান ছিলাম। কিন্তু লেখার পরে দেখলাম অনেকেই টেকনিক্যাল ব্যাপারগুলো সম্পর্কে জানতে আগ্রহ প্রকাশ করেছেন। সেই সাথে এই ধরনের আরও লেখা পড়তে চান বলে জানিয়েছেন। তাই আজ টেকনিক্যাল কিছু ব্যাপার নিয়ে কথা বলব।
উপাত্য কি, আর তথ্য কি?
ইংরেজিতে দুটো ভিন্ন নাম, ড্যেটা এবং ইনফরমেশন। ডেটাকে প্রসেস করে যা পাওয়া যায়, তাই ইনফরমেশন। ধরুন, আপনার কাছে আপনার ক্লাসের সব ছাত্রের সিজিপিএ এর লিস্ট আছে। এটা যদি হয় ডেটা, তাহলে এখান থেকে আপনি যে ধরনের ইনফরমেশন পেতে পারেন, সেগুলো হল,
১। ক্লাসে কার সিজিপিএ সব থেকে ভালো।
২। কার সিজিপিএ সব থেকে খারাপ।
৩। গড় সিজিপিএ কত।
৪। যাদের রোল প্রথম দিকে, তাদের সিজিপিএ ভালো, নাকি যাদের রোল শেষের দিকে।
৫। আপনার ক্লাসের কোন ছাত্র ভবিষ্যতে শিক্ষক হতে পারে।
কি ধরনের ইনফরমেশন আপনি জেনারেট করবেন বা করতে পারবেন, সেটা নির্ভর করে আপনার চিন্তার মাত্রা আর উপাত্যের সমৃদ্ধির উপর।
উপরে আমি যে ৫ টা ইনফরমেশন জেনারেট করার আইডিয়া দিলাম, এ ছাড়াও আর কোন ইনফরমেশন বের করার আইডিয়া থাকলে কমেন্টে জানাতে পারেন। যেমন এই মাত্র আরেকটা মাথায় আসলো। যেহেতু আপনার ক্লাসের সবাইকে আপনি মোটামুটি চেনেন, সিজিপিএর লিস্ট থাকলে আপনি চাইলে এই ইনফরমেশন বের করতে পারেন, "যাদের সিজিপিএ ভালো, তারা বেশী ক্রিয়েটিভ, নাকি যাদের সিজিপিএ খারাপ তারা?" সব ধরনের ইনফরমেশন আপনাকে বের করতে হবে পরিসংখ্যান, সম্ভাব্যাতা বা গনিতের এই জাতীও বিষয় গুলোর উপর ভিত্তি করে।
ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং-
পৃথিবীতে অন্যান্য প্রানীর তুলনায় মানুষ এত উন্নত কেন? অনেকে অনেক ভাবে এর উত্তর দিতে পারে, কিন্তু আমার মতে এর কারন মানুষের কমিউনিকেশন ক্ষমতা আছে। অন্যান্য প্রানীদের কি নেই? আছে, কিন্তু মানুষের মত এট ডিটেলস ভাবে মনের ভাব প্রকাশ করার ক্ষমতা নেই। মানুষই একমাত্র প্রানী, যারা কথা বলে মনের ভাব প্রকাশ করতে পারে। এমনকি, মনের সূক্ষ্মাতিসূক্ষ্ম ভাবও কথা বলে প্রকাশ করা যায়। যেমন, আপনার এক বন্ধু আপনাকে বলল, তার ঠাণ্ডা লাগছে, আরেক বন্ধু বলল, তার ঠাণ্ডা ঠাণ্ডা লাগছে। দুটো কথার মধ্যে একটা সুক্ষ পার্থক্য আছে এবং মানুষ সেটা ধরতে পারে। এত সুক্ষ ভাবে আর অন্য কোন প্রানী কমিউনিকেট করতে পারে না।
আমাদের কথার মদ্ধে লুকিয়ে থাকে তথ্য। যেমন উপরের কথা দুটো থেকে আপনি প্রথমেই যেটা বুঝবেন, সেটা হল আপনার প্রথম বন্ধুর ভালো ঠাণ্ডা লাগছে, আর দ্বিতীয় বন্ধুর হালকা ঠাণ্ডা লাগছে। এটুকু পর্যন্ত বুঝতে আপনাকে কোন কস্ট করতে হবে না। কিন্তু কথাটি নিয়ে আরেকটু চিন্তা করলে আপনি আরও বুঝতে পারবেন আপনার প্রথম বন্ধুটি আছে একটি শীতল পরিবেশে, এবং দ্বিতীয় বন্ধুটি আছে এমন একটা পরিবেশে, যেখানে শিত আছে, কিন্তু খুব একটা বেশী না, অন্তত প্রথম বন্ধুটি যেখানে আছে সেখান থেকে কম। দুজন যদি একই যায়গায় থাকে, আপনি সিদ্ধান্ত নিতে পারেন আপনার প্রথম বন্ধুটির ঠাণ্ডা সহ্য করার ক্ষমতা দ্বিতীয় বন্ধুর থেকে কম। আপনাকে যখন কেউ কোন কথা বলে বা লিখে জানায়, সেটা আপনার মস্তিষ্কের কাছে ডেটা, সেখান থেকে আপনি কি ইনফরমেশন পাবেন, বা কতটি ইনফরমেশন পাবেন, সেটা নির্ভর করবে আপনার চিন্তার ব্যাপ্তি, মস্তিষ্কের প্যাটার্ন ম্যাচিং ক্ষমতা বা আপনার মস্তিষ্ক উপাত্যটিকে কতটুকু গুরুত্ব দিচ্ছে তার উপর।
ভাষাকে এনালাইসিস করলে অনেক ধরনের তথ্য পাওয়া সম্ভব। ঠিক যেমনটা আমি দেখিয়েছি আমার প্রথম লেখায়। এর জন্যে আপনার প্রথমেই যেই জিনিসটা লাগবে, সেটা হল টেক্সট কন্টেন্ট। আমরা যারা এখন বাংলাদেশে বাংলা ল্যাঙ্গুয়েজ প্রসেসিং নিয়ে কাজ করি, তাদের ডাটার সব থেকে বড় উৎস ইন্টারনেট। এমনকি অন্য যে কোন ভাষার খেত্রেও তাই। কিন্তু সমস্যা হল, ইংরেজিতে যে পরিমান কন্টেন্ট আছে, বাংলায় ওই পরিমান কন্টেন্ট নেই। বাংলা কন্টেন্টের অধিকাংসই হল বাংলা পত্রিকা গুলোর অনলাইন ভার্সন এবং বিভিন্ন ব্লগ(কিন্তু কিছু ব্লগে আজকাল যে ভাষা ব্যাবহার করা হয়, তা আসলে বাংলা থেকে ডাইভারটেড। তারা হয়ত মজা করার জন্যে এটা করে, কিন্তু এতে বাংলা ভাষা এবং ভাষার রিসোর্স ক্ষতিগ্রস্থ হচ্ছে)। আর আমার ধারনা, অধিকাংশ বাংলা সাইটের বয়স গড়ে ৫ বছর। কিছু হয়ত কম বেশী থাকতে পারে।
তাই কন্টেন্টের প্রাচুর্য আর বৈচিত্র দুটোই কম। তবে আশা করি, আর ১০ বছর পরে ইন্টারনেটে বাংলার সমৃদ্ধ রিসোর্স থাকবে। কন্টেন্টের একটা টেকনিক্যাল নাম আছে, সেটা হল করপাস/কর্পোরা।
এমনকি কোন প্রোগ্রাম লেখা সম্ভব, যা মানুষের মত কথা বুঝতে পারে? সায়েন্স ফিকশনে বা হলিউডের মুভিতে আমরা রোবটের সাথে মানুষকে কথা বলতে দেখি। বাস্তবেও এমন কিছু প্রজেক্ট আছে, যেমন অটমেটিক চ্যাট বট, একটি প্রোগ্রাম, যা আপনার সাথে মানুষের মত চ্যাট করবে (যদিও এখনো ৫০% পারফেক্ট করাও সম্ভব হয় নি)। কোন প্রোগ্রামের মানুষের মত কথা বোঝার বা বলার ক্ষমতা থাকা মানে সেই প্রোগ্রামের আসলে মানুষের মত চিন্তা করার ক্ষমতা আছে। তাই বুঝতেই পারছেন, এটা হল ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং এর সব থেকে এডভান্স টপিক।
আমার উপাত্তের উৎসঃ
এক কথায় উত্তর, গুগল। ইন্টারনেট থেকে কন্টেন্ট কালেক্ট করার জন্যে আপনি চাইলে স্ক্রিপ্ট লিখতে পারেন, ক্রলার বানাতে পারেন, পার্সার ব্যাবহার করতে পারেন, ম্যানুয়ালি কপি পেস্ট করতে পারেন সেটা আপনার ইচ্ছা। আপনি কি জাতীও কাজ করবেন, বা কি ধরনের ইনফরমেশন চাচ্ছেন তার উপরেও নির্ভর করে। তবে একটা ব্যাপার সবাইকে জানিয়ে দেয়া ভালো, এই কাজে প্রচুর ধৈর্য আর সময় দরকার।
সব সময়কি আপনাকে কন্টেন্ট এনালাইসিস করেই ইনফরমেশন বের করতে হবে? না। ধরুন, আমার কাছে অনেক কন্টেন্ট আছে। আমি এখান থেকে এনালাইসিস করে স্টপ ওয়ারড গুলো (ও এবং, বা , কিন্তু এই ধরনের লেস সিগ্নিফিকেন্ট ওয়ার্ড, যাদের আসলে কন্টেন্টে খুব বেশী ভুমিকা থাকে না) বের করলাম। এখন কেউ যদি চায় তার কোন কাজে স্টপ ওয়ার্ড এর লিস্ট লাগবে, সেই ক্ষেত্রে সে কন্টেন্ট কালেক্ট করে এনালাইসিস এর মাধ্যমে স্টপ ওয়ার্ড বের করতে পারে, অথবা সে চাইলে আমার বের করা লিস্ট ব্যাবহার করতে পারে। এটাকে বলে লেক্সিক্যাল করপাস। যা এমন এক ধরনের ইনফরমেশন, যা ডাটা এনাইসিস করে বের করা হয়েছে, এবং পরবর্তী ইনফরমেশন বের করার জন্যে তাকেই আবার ডাটা হিসেবে ব্যাবহার করা হচ্ছে। আমার প্রথম পোস্টের ইনফরমেশন গুলোর জন্যে আমি একটি লেক্সিক্যাল করপাস ব্যাবহার করেছি। তার নাম "গুগল এডভান্স সার্চ"। আমরা সাধারনত গুগলে যে সার্চর কিভাবে গুগল সার্চ ইঞ্জিন ব্যাবহার করে এন-গ্রাম, মার্কভ মডেল, নেইমড এন্টিটি রিকগনিসনের মত কাজ গুলো করা যায়, আমি বর্তমানে সে ব্যাপারে রিসার্চ করছি। আমি কোন রিসার্চ পেপারের লিঙ্ক দিতে পারছি না কারন এর আগে এটা নিয়ে আর কেউ কাজ করে নি, মানে গুগল সার্চকে লেকজিক্যাল করপাস হিসেবে ব্যাবহার করে নি। তবে হয়ত বছরখানেকের মধ্যেই দিতে পারব। এই এপ্রোচের সব থেকে বড় সুবিধা, আপনাকে কন্টেন্ট স্টোর করতে হচ্ছে না এবং কোন এলগরিদম নিয়েও কাজ করতে হচ্ছে না। আপনার প্রোগ্রাম শুধু গুগলকে কোয়েরি পাঠাচ্ছে(এই পার্টটা সব থেকে ট্রিকি, আপনি কি ধরনের ইনফরমেশন চান, সেই অনুযায়ী কোয়েরি লিখতে হবে) এবং গুগল কোয়েরি একজিকিউট করার পরে যে রেজাল্ট দিচ্ছে, সে রেজাল্ট পারস করে নিয়ে আসছে। আর যেহেতু সব থেকে বেশী কন্টেন্ট গুগলের আছে, এবং গুগল তার ইফিসিয়েন্ট প্রোগ্রাম দিয়ে ওই কন্টেন্ট এনালাইসিস করে আপনাকে রেজাল্ট দিচ্ছে, তাই কন্টেন্টের সমৃদ্ধির ও এলগরিদমের ইফিসিয়েন্সির ব্যাপারে আপনি ১০০ ভাগ নিশ্চিন্ত থাকতে পারেন। এর থেকে বেশী কন্টেন্ট কোন করপাসে থাকা সম্ভব না। কারন অধিকাংশ করপাস হল গোটা ইন্টারনেটের কন্টেন্ট সেট এর একটা উপসেট।
ম্যাথডঃ
এটা সম্পূর্ণ আপেক্ষিক। আমি ধরনের ইনফরমেশন বের করতে চাচ্ছি এবং আমার কাছে কি ধরনের রিসোর্স এভেইলেবেল(কন্টেন্ট বা ম্যাথম্যাটিকাল/স্টাটেস্টিক্যাল/ল্যাঙ্গুয়িস্টিক থিউরি), তার উপর ভিত্তি করে তৈরি হবে আমার ম্যাথড। যেহেতু বাংলা লাঙ্গুয়েজ প্রসেসিং নিয়ে এখনো খুব বেশী থিওরিটিক্যাল কাজ এখনো হয় নি, তাই এ ক্ষেত্রে নিজের সৃষ্টিশীলতা বা প্রব্লেম সল্ভিং স্কিল দেখানোর একটা ভালো সুযোগ আছে। কাজ করার ক্ষেত্রে বা কোন সিদ্ধান্ত নেয়ার ক্ষেত্রে আপনি অনেকটাই স্বাধীন। আপনার এনালাইসিসের ফলাফল বলে দেবে আপনার সিদ্ধান্ত কতটুকু সঠিক ছিল। টেকনিক্যাল কিছু টারমের সাথে পরিচয় করিয়ে দেয়াটা দরকার মনে করি, যেমন ল্যাঙ্গুয়েজ মডেল, এন-গ্রাম মডেল, বাইগ্রাম, ট্রাইগ্রাম, মারকভ এজামসন, মারকভ মডেল, ২ বাই ২ কন্টিজেন্সি টেবিল, প্রিসিসন, রিকল, এফ মেজর, ইনফরমেশন এক্সট্রাক্সন, সেন্টিমেন্ট এনালাইসিস, করপাস, লেকজিক্যাল করপাস, স্টাটিস্টিক্স, প্রব্যাবিলিটি ইত্যাদি। এগুল সম্পর্কে এক আর্টিকেলে টেকনিক্যাল ডিটেলস দেয়া সম্ভব না। কেউ চাইলে স্টানফোরডের ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এর উপরে ওপেন কোর্স করতে পারেন।
ইনফরমেশনের সত্যতা কতটুকুঃ
সেটা সব থেকে ভালো বলতে পারবে মানুষ। এখানে আপনাকে আমি যে তথ্য দিচ্ছি , তা আমাকে দিচ্ছে একটা প্রোগ্রাম। এর আউটপুট সঠিক কি ভুল, তা বলবে পাঠক। যদি প্রোগ্রাম যে তথ্য দিচ্ছে , তা বাস্তব হয়, বা কিছু সর্ত সাপেক্ষে বাস্তবতার কাছাকাছি থাকে, তাহলে বুঝতে পারব প্রোগ্রাম ডিজাইন ঠিক আছে। তবে প্রসেসে ভুল হওয়ার সম্ভাবনা কম, কারন আমি স্টাব্লিশ থিওরি গুলোর উপর ভিত্তি করেই প্রসেস এর মডেল করব, কিন্তু যে ইনফরমেশন চাচ্ছি, সে ব্যাপারে কন্টেন্ট যদি সমৃদ্ধ না হয়, সে ক্ষেত্রে প্রোগ্রামের দেয়া তথ্যের সাথে বাস্তবের গরমিল থাকতে পারে।এটা স্টাটেস্টিক্যাল ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং এর একটা ড্রব্যাক(সীমাবদ্ধতা)।
ইনফরমেশন দিয়ে আমরা কি করবঃ
জানি না। আসলেই জানি না। সব ইনফরমেশন মানুষের কাজে লাগে না, কিছু ইনফরমেশন কেবল ইনফরমেশন হিসে জানতেই ভালো লাগে।
কিছু আপনার সমসাময়িক পরিস্থিতি সম্পর্কে আপনাকে পূর্বাভাস সেয় বা সচেতন করে। কিছু ইনফরমেশন প্রকৃতির নিয়ম বুঝতে সাহাজ্য করে। ইনফরমেশন ইজ অল এরাউন্ড, আপনি একে কিভাবে ব্যাবহার করতে পারবেন, তা নির্ভর করে সম্পূর্ণ আপনার উপরে। আর কিছু ক্ষেত্রে কেবলমাত্র বুদ্ধিবৃত্তিক তাড়না থেকে এসব জিনিস জানা দরকার হয়। আর কিছু ক্ষেত্রে মানুষের থেকে ভালো এনালাইসিস করতে পারে প্রোগ্রাম। সাধারন মানুষের পক্ষে এত ডকুমেন্ট ঘেটে তথ্য বের করা সম্ভব না। মানুষ ক্যালকুলেটর বানায়, তার মানে সে যোগ বিয়োগ করতে পারে না তা নয়। ক্যালকুলেটর কম সময়ে নিখুত ভাবে কাজটা করে দেয়।
বাংলাদেশের আলোচিত জেলাঃ
সবশেষে, আজ আরেকটা ইনফরমেশন দেই, যদিও আজ কোন ইনফরমেশন দেয়ার ইচ্ছা ছিল না। এটাও ডাটা এনালাইসিস করে পাওয়া। মেথড খুবই সিম্পল,করপাসে প্রতিটা জেলার জন্যে নাম্বার অফ ডকুমেন্টস কাউন্ট করছি ।
বাংলাদেশের অনলাইনে সব থেকে আলোচিত জেলা গুলো হল (ক্রমানুসারে),
ঢাকা (২,৫৭০,০০০)
গোপালগঞ্জ (১,০৮০,০০০)
চট্টগ্রাম (১,০৫০,০০০)
সিলেট (৭২৫,০০০)
রাজশাহী (৬২১,০০০)
খুলনা (৫৫৪,০০০)
বরিশাল (৫১৫,০০০)
রংপুর (৪৮০,০০০)
গোপালগঞ্জের ব্যাপারটা ইন্টারেস্টিং না? ঢাকার পরেই বাংলাদেশে যে জেলা নিয়ে অনলাইনে সব থেকে বেশী আলোচনা হয়, তা হল গোপালগঞ্জ। আরেকটা ব্যাপার, উপরের লিস্টে ১ টা ছাড়া বাকি সবই বিভাগ। তার মানে বিভাগ গুলো নিয়ে সব থেকে বেশী আলোচনা হয়। পপুলার জেলা গুলোর মধ্যে কুমিল্লা ও নোয়াখালী জেলার কাউন্ট যথাক্রমে ২৭৩০০০ ও ১৭৬০০০, যা যে কোন বিভাগের থেকে অনেক কম। এই ইনফরমেশন আপনার কোন কাজে লাগতে পারে বা নাও লাগতে পারে। যেমন,আপনি চাইলে হাইপথিসিস দার করাতে পারেন "যদি পরবর্তীতে কোন নতুন বিভাগ ঘোষণা করতে চায়, তাহলে লিস্টে গোপালগঞ্জ থাকতে পারে।"
লেখায় কোন ভুল থাকলে ক্ষমা সুন্দর দৃষ্টিতে দেখবেন, আমি গুছিয়ে লিখতে পারি না।
পথের দাবি
মন্তব্য
পরবর্তীতে বানানগুলো একবার অন্তত দেখে দেবেন... কয়েকটা একেবারে চোখে লাগে
মডুদের প্রতি আবেদনঃ কেউ কি দয়া করে অন্তত শিরোনামে "উপাত্ত" বানানটা ঠিক করে দেবেন?
____________________________________
যাহারা তোমার বিষাইছে বায়ু, নিভাইছে তব আলো,
তুমি কি তাদের ক্ষমা করিয়াছ, তুমি কি বেসেছ ভালো?
বানান ভুলের জন্যে দুঃখিত। এটা আমার সীমাবদ্ধতা। পরবর্তীতে এডিট করতে পারলে ঠিক করে দেব।
পথের দাবি
আরে ব্যাপার না... এইরকম টেকনিক্যাল ব্যাপার নিয়ে লেখাটাই যথেষ্ট কঠিন... আগ্রহ নিয়ে বসে থাকলাম
____________________________________
যাহারা তোমার বিষাইছে বায়ু, নিভাইছে তব আলো,
তুমি কি তাদের ক্ষমা করিয়াছ, তুমি কি বেসেছ ভালো?
শিরোনামে এত বড় একটা ভুল পীড়া দিচ্ছিলো। মডারেটর ঠিক করে দিয়েছে
পথের দাবি
দুর্দান্ত।
কম্পিউটার বিজ্ঞানের লোক নই তবে কাজের দায়ে প্রচুর ইনফরমেশন ম্যানিপুলেট করতে হয় তাই আপনার লেখাটা আগ্রহ নিয়ে পড়লাম। যে কোম্পানিতে কাজ করি তার কাস্টমার এবং কম্পিটিটররা বিভিন্ন প্ল্যাটফর্মে (ইমেইল, সার্ভে ফর্ম, সোস্যাল মিডিয়া) মন্তব্য করে, সেইটার টেক্সট অ্যানালিসিস করা হয় কোম্পানি থেকে অনেক পয়সা ও সময় খরচ করে। সেইটে দিয়ে ঠিক করা হয় ভবিষ্যত গন্তব্য কি, ঠিক পথে আছি কিনা বা কেনই বা এই পথে ইত্যাদি। ইনফরমেশন ইজ পাওয়ার।
তাত্ত্বিক কথার পাশাপাশি ব্যবহারিক দিক নিয়েও লিখুন, যেমন বলেছেন বিভাগ জেলা নিয়ে এই লেখায়। দুর্দান্ত লেখা।
..................................................................
#Banshibir.
মন্তব্যের জন্যে অনেক ধন্যবাদ। পাঠক থাকলে লিখে আনন্দ পাই।
উন্নত দেশগুলতে ব্যাপক হারে ব্যাবহার হলেও বাংলা ভাষায় এই ধরনের কাজ অনেকটাই নতুন। এর একটা কারন আমাদের অনলাইন এক্টিভিটি খুব বেশী দিনের না। যত দিন যাবে, তত কন্টেন্ট ও রিসোর্স এর পরিমান বাড়বে। সেই সাথে বাড়বে এপ্লিকেসন।
পয়সা এবং সময়ের ব্যাপারটা আসলেই একটু বেশী লাগে এই ধরনের কাজে। ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং এর জন্যে ইউএসএ, ইউরোপিয়ান নেসন্স বা ইন্ডিয়ায় গভমেন্ট এর প্রচুর ফান্ডিং থাকে। বাংলাদেশের প্রেক্ষাপট হয়ত ভবিষ্যতে আরও ভালো হবে।
আমার প্রথম লেখাটি পরে দেখতে পারেন, সেখানে বাংলাদেশের রাজনীতি নিয়ে একটি ইনফরমেশন বের করার চেষ্টা করেছি।
পথের দাবি
হ্যাঁ প্রথম লেখা আগেই পড়েছি। মন্তব্য করিনি। আরো লিখুন। মন্তব্য দিয়ে পাঠক গুণবেন না, মন্তব্য পড়ুক না পড়ুক ভালো লেখার পাঠক পাবেন।
..................................................................
#Banshibir.
দুর্দান্ত, আপনি আমাদের কথা রেখেছেন। সেইজন্যে সাধুবাদ, আপনার কাছ থেকে আরো অনেক কিছু পাওয়ার আশা থাকল।
মাসুদ সজীব
পথের দাবি
আপনি কি কোনো নির্দিষ্ট সাইট থেকে কর্পাস তৈরি করে কিছু জিনিস বিশ্লেষণ করতে পারবেন, যদি সময় হয়?
হ্যা, এটা সম্ভব। তবে কি ধরনের বিশ্লেষণ, তার উপরে অনেকটা নির্ভর করে।
পথের দাবি
তত্ত্বাবধায়ক নাকি হাসিনার অধীনে নির্বাচন, জনগণের ভাব কী-- এ বিষয়ে আপনার ড্যাটা থেকে কোন তথ্য বের করা যাবে?
চেস্টা করব, যদি কোন গ্রহণযোগ্য উপায় বের করতে পারি এনালাইসিস করার। আসলে অনলাইন মিডিয়াতে জনগনের কথার থেকে রাজনৈতিক ব্যাক্তিদের কথা বেশী থাকে। কারন কোন এক পপুলার রাজনীতিবিদ কোন একটা কথা বললে সাথে সাথে হাজার খানেক সাইটে ডকুমেন্ট পাবলিশ হয়ে যায়, কিন্তু সাধারন জনগনের কথা ফেসবুক বা ব্লগ পর্যন্তই সীমাবদ্ধ থাকে। তবে চেস্টা করে দেখা যেতে পারে, আইডিয়াটা ভালো।
পথের দাবি
আরো চাই, অনেক চাই
--------------------------------------------------------
এক লহমা / আস্ত জীবন, / এক আঁচলে / ঢাকল ভুবন।
এক ফোঁটা জল / উথাল-পাতাল, / একটি চুমায় / অনন্ত কাল।।
এক লহমার... টুকিটাকি
হবে হবে
দারুণ পোস্ট!
ইচ্ছার আগুনে জ্বলছি...
পথের দাবি
পথের দাবি
সিজিপিএ উপাত্ত ব্যবহার করে আরও কয়েকটি তথ্যের আইডিয়া-
গড় সিজিপিএ ছেলেদের ভাল নাকি মেয়েদের
শহরের ছেলেদের নাকি মফস্বলের ছেলেদের
শহরের মেয়েদের নাকি মফস্বলের মেয়েদের
স্মার্ট ও ফ্যাশনদুরস্ত ছেলেদের নাকি সাধারন ছেলেদের
সুন্দরী মেয়েদের নাকি সাদামাটা চেহারার মেয়েদের
ওয়াও! এর পর থেকে আমাকে দেখছি কোন অনুসিদ্ধান্ত দেয়া লাগবে না, শুধু তথ্যটুকু দিলেই পাঠক বুদ্ধিদীপ্ত চমৎকার অনুসিদ্ধান্ত তৈরি করে নিতে পারবে
পথের দাবি
চমত্কার লেখা। লেখক এর টেকনিক্যাল শব্দ গুলোকে যথাসম্ভব বাংলায় প্রকাশ করার প্রচেষ্টা কে আমি আন্তরিকভাবে ধনয্বাদ এবং কৃতজ্ঞতা জানাচ্ছি।এরকম লেখা আরো আশা করছি। এখানে একটা ব্যাপার বলার ইচ্ছা হচ্ছে। লেখক বার বার বলছেন ইন্টারনেট এ বাংলা সম্পর্কিত তত্ত্ব, তথ্য ,উপাত্ত সর্বোপরি গবেষণা পত্র অনেক কম। এর একটা বড় কারণ হিসেবে আমি বলব আমাদের নিজেদের ভাষার প্রতি তাচ্ছিল্য এবং ব্রিটিশ গোলামিপনা থেকে মুক্ত হতে না পারা। কারণ আমাদের দেশ এর মানুষ অনেক গবেষণা করে, বিদেশে গিয়ে লেখাপড়া করে প্রচুর গবেষণা করে বিশাল পন্ডিত হয়। কিন্তু যা কিছুই প্রকাশ করতে যায় সব কিছু ইংলিশ অথবা ওই দেশ এর ভাষায় করে। এমনকি বাংলাদেশ এ বসে গবেষণা পত্র ইংরেজিতে লিখে প্রকাশ করে। যদি সবাই তাদের শিক্ষা জীবনে অন্তত একটা করে গবেষণা পত্রও বাংলায় লিখে প্রকাশ করত এবং বাংলাভাষার জন্য একটা অথবা কয়েকটা আন্তর্জাতিক মান এর জার্নাল এর ব্যবস্থা করা যেত তাহলে হয়ত আমরা আরো অনেক বাংলা গবেষণা পত্র এবং তথ্য সমৃদ্ধ বাংলা লেখা পেতাম।
অন্যান্য সেক্টরের অবস্থা জানি না, কিন্তু বাংলাদেশের আইটি সেক্টর নিয়ে আমি প্রচন্ড আশাবাদী। আমি এমন অনেককেই আমি ব্যাক্তিগত ভাবে চিনি, যারা উচ্চশিক্ষার জন্যে দেশের বাইরে আছেন এবং উচ্চশিক্ষা শেষ করেই আবার দেশে ফিরে আসবেন। এবং যে সময়টা তারা দেশের বাইরে আছেন, নিয়মিত দেশের খোঁজ খবর রাখছেন, দেশের অসমাপ্ত প্রোজেক্ট গুলো চালিয়ে যাচ্ছেন বা তত্ত্বাবধায়ন করছেন। এদের মধ্যে অনেকেই আছেন তরুন শিক্ষক, যারা দেশের বাইরে থেকেও তাদের দেশে থাকা ছাত্রদের নিয়ে নতুন নতুন প্রোজেক্ট শুরু করছেন।
এমন একজনকে চিনি, যিনি দেশের একটা স্বনামধন্য বিশ্ববিদ্যালয়ের এসিস্টেন্ট প্রফেসর, যে এক যুগেরও বেশী সময় ধরে বাংলা লাঙ্গুয়েজ প্রসেসিং নিয়ে কাজ করছেন । উচ্চশিক্ষার জন্যে কখনো দেশের বাইরে যান নি, কিন্তু ইন্টারন্যাশনাল জার্নাল গুলোয় তার পাব্লিশড রিসার্চ পেপারের সংখ্যা ১০+ , আর বাংলা ভাষার যে ধরনের রিসোর্স তার কাছে আছে, অবিশ্বাস্য! এদের দেখলে কিভাবে হতাশ হই, বলেন! এই মানুষগুলোর কাজের সুফল আমরা খুব দ্রুতই পাওয়া শুরু করব।
এমন স্টুডেন্ট অর্গানাইজেশন দেখেছি, যারা স্টুডেন্টদের রিসার্চ পেপার পাব্লিশ করে বেরায়! অবস্থা বুঝেন!!
এই অবস্থায় আশাবাদী না হয়ে উপায় আছে
পথের দাবি
দারুণ পোস্ট। আপনি সময় বের করে এত দ্রুত লিখে ফেলবেন আশা করিনি। অভিনন্দন তাই। যদিও আমি টেকনিক্যাল ব্যাপার গুলো বুঝব না, আপনি সহজ করেই লিখেছেন বলা যায়। আরও লিখুন।
বাধ্য হলাম লগিন করে মন্তব্য করতে যদিও আজ মন খুব খারাপ মহাত্মা মেন্ডেলার মৃত্যুশোকে
স্বাগতম সচলায়তনে। আপনি নিয়মিত লিখবেন এটা সনির্বদ্ধ অনুরোধ রইলো। আমি গণকযন্ত্র কৌশলের ছাত্র, খুব তৃপ্তি পেলাম পড়ে।
_____________________
Give Her Freedom!
অনেক ধন্যবাদ। যেহেতু গণকযন্ত্র কৌশলের ছাত্র, আপনার কাছ থেকে প্রশংসার সাথে সাথে সমালোচনাও আশা করি। নিয়মিত লেখার চেস্টা করব।
পথের দাবি
রিসোর্স কিভাবে ক্ষতিগ্রস্ত হচ্ছে, ঠিক বুঝিনি। 'মজা করার শব্দ' কমিউনিকেট করার অসাধারণ ক্ষমতা নিয়ে জন্মানো মানুষ কি বুঝবে না? কন্টেন্টের কি ক্ষতি হবে?
'মানুষের মত চ্যাট' করা মানে কি? মানুষের মত 'শীত লাগছে' কথাটার ভিন্ন ভিন্ন অর্থ ধরে ফেলতে পারবে?
যেমন?
শেষের এই চমকটি লেখাটিকে ভিন্ন মাত্রা দিয়েছে। ডেটা থেকে যান্ত্রিক এনালিসিসের মাধ্যমে বেরিয়ে আসতে পারে এমন ইনফরমেশন, যা হয়ত রাজনৈতিক বাস্তবতার খুব কাছাকাছি। এবং সেই কারণে কিছুটা বিশ্বাসযোগ্যও। তবে আলোচিত লিস্টে 'বগুড়া' নেই বলে প্রোগ্রাম ডিজাইন নিয়ে সন্দেহও থেকে যায় কিন্তু।
যাই হোক, বিপুল বানান বিভ্রাট সত্বেও আপনার লেখা শেষ পর্যন্ত আগ্রহ ধরে রাখে প্রধাণত আপনার সহজ করে বলা ও গুছিয়ে লেখার ক্ষমতার কারণে।
.............................
তুমি কষে ধর হাল
আমি তুলে বাঁধি পাল
যেভাবে ভাষার রিসোর্স ক্ষতিগ্রস্ত হচ্ছেঃ ধরুন, কোন একটা কাজে আপনি "মন চায়" কথাটা কাউন্ট করলেন। সেখানে যারা "মুঞ্চায়" লিখেছে, সেই কাউন্ট গুলো বাদ পরে গেল, যদিও দুটোর মানে একই। "মুঞ্চায়" দিয়ে আপনি মনের ভাব প্রকাশ করতে পারবেন, কিন্তু এটা বাংলা শব্দ না। এই ধরনের শব্দ ব্যাবহার করা কি খারাপ? ভাষার মূল লক্ষ্য মনের ভাব প্রকাশ করা, সেই অর্থে যে শব্দ দিয়ে মনের ভাব প্রকাশ পায়, সেই শব্দই গ্রহণযোগ্য। ভাষায় নতুন শব্দের অনুপ্রবেশ ঘটবে বা প্রচলিত শব্দের বিচ্যুতি ঘটবে, এটাও সত্যি। কিন্তু বিচ্যুতির মাত্রা বেশী হলে সেটা আর যাই হোক, বাংলা ভাষা বলা যায় না। বলা যায়, বাংলা থেকে ডাইভারটেড। এই ধরনের রিসোর্স থেকে বাংলা ভাষার খুব একটা লাভ হয় না। তাই বললাম ভাষার রিসোর্স ক্ষতিগ্রস্ত হচ্ছে।
হ্যা। এর একটা স্ট্যান্ডার্ড টেস্ট আছে, নাম "টিউরিং টেস্ট"। এর সিস্টেম হল, পর্দার এক পাশে থাকবে একজন মানুষ(A), অপর পাশে থাকবে একজন মানুষ(B) ও একটা বট(C), যা পর্দার এপাশে থাকা মানুষটির সাথে একই সময়ে একই আইডি দিয়ে চ্যাট করবে। দুজনেই(B & C) চেস্টা করবে A এর কাছে নিজেকে মানুষ প্রমান করার। এর পর A সিদ্ধান্ত নিবে, কে মানুষ কে বট। এখন পর্যন্ত কোন বট A কে বোকা বানিয়ে নিজেকে মানুষ প্রমান করতে পারে নি। যদি পারে, ঘটনাটা হবে এরকম, একটা মেশিনের বুদ্ধিমত্তার কাছে মানুষের বুদ্ধিমত্তা পরাজিত হল।
টিউরিং টেস্টে পাস করার রিকোয়ারমেন্ট হল, একে কম পক্ষে ৩০% বোকা বানাতে হবে মানুষকে। কোন বট আজ পর্যন্ত এটা পারে নি, কিন্তু "এল-বট" নামে একটা কাছাকাছি গিয়েছিলো ২০০৮ সালে(২৫%)।
যে তথ্য বিনোদনঃ অভাব নাই। যেমন, এখানে দেখুন।
বগুড়ারটা আমি বের করছিলাম, কিন্তু অতটা তাৎপর্য নেই বলে দেই নি।
বগুড়া (২২১,০০০)
পথের দাবি
এখানেই আমার দ্বিমত। আমার কাছে দুটোর মানে এক নয়। "মুঞ্চায়" শব্দটিতে একটা মজার, অথবা বিদ্রূপাত্মক এলিমেন্ট আছে, যা মূল "মন চায়" থেকে অবশ্যই অতিরিক্ত কিছু ভাব প্রদান করে। আপনি যাকে ডাইভারটেড বলছেন, খেয়াল করলে দেখবেন, সেগুলো অনেক সময়ই একটাই ডাইভারটেড মেসেজও কিন্তু প্রদান করে। এনালিসিস যদি সেক্ষেত্রে 'মঞ্চায়'-কে বাদ দিয়ে থাকে, ঠিকই করেছে। 'মঞ্চায়' যেহেতু ভিন্নধর্মী রিসোর্স।
পাতাটি ঘুরে এলাম। হ্যাঁ, ইনফরমেশন হিসেবে জানতেই ভাল লাগে। কিন্তু কাজে লাগবে না কেন, তা বুঝতে পারছি না এখনো। তথ্যগুলি আপনার জ্ঞানের বিস্তৃতি কি ঘটায় না? আর এভাবেই কি তা কাজে লাগার শর্ত পূরণ করে না? আসলে 'কাজে লাগা' বলতে কি বোঝাচ্ছেন? কাজে নামলেই তো আহরিত তথ্য কাজে লাগবে, তাই না?
.............................
তুমি কষে ধর হাল
আমি তুলে বাঁধি পাল
বানান বিভ্রাট নিয়ে মন্তব্য চলে এসেছে বলে আর বাড়তি কিছু লিখলাম না।
জটিল বিষয় অনেক গুছিয়ে সহজ করে লিখেছেন - ধন্যবাদ। পেশার জন্য প্রচুর এনালিসিস করতে হয় আমাকে, তাই মজা পেলাম। লিখতে থাকুন।
____________________________
নতুন মন্তব্য করুন