(অরূপের বানানশোধক সিরিজে মন্তব্য করতে গিয়েই এটা লেখার সূচনা। এ লেখা পড়ার আগে ওই সিরিজটা পড়া থাকলে সুবিধা হবে।)
ইংরেজী শব্দের গঠন সুনির্দিষ্ট নিয়ম মেনে চলে, অল্প কিছু ব্যতিক্রম ছাড়া। ইংরেজি ক্রিয়াপদ (verb) কাল (tense) ও বচন (number) ভেদে পরিবর্তিত হয়। এই পরিবর্তনের জন্য নির্দিষ্ট নিয়ম আছে। নিয়মের ব্যতিক্রম যেখানে হয়, সে শব্দগুলোকে সোজা ওই তালিকাতে তুলে দিলেই হয়।
বিশাল সংখ্যক শব্দ মেমোরিতে রাখা এবং সেসংগে খুব দ্রুততার সাথে একটা দেয়া শব্দকে তুলনা করা কঠিন কাজ। কারণ দুটো সংখ্যাকে যেমন সহজে তুলনা করা যায়, দুটো শব্দকে তেমন যায় না। এর জন্য বিশেষ পদ্ধতি অবলম্বন করতে হয়। বহুল প্রচলিত পদ্ধতি হলো হ্যাশ-ম্যাপ। হ্যাশ-ম্যাপে রাখা শব্দকে খুঁজতে হলে কেবল একটা মাত্র তুলনা করতে হয়। (অনেকে ট্রি-ম্যাপ ব্যবহার করে যদিও)। নিয়মগুলো হ্যাশ-ম্যাপে বাস্তবায়ন করা কঠিন, এবং এ সম্পর্কে খুব বেশী কিছু জানা যায় না।
একটা শব্দ সঠিক না হলে জানা দরকার হয় সম্ভাব্য সঠিক শব্দটি কী হতে পারে। বানান পরীক্ষকের জন্য এটি হচ্ছে সবচেয়ে কঠিন কাজ। কঠিন মানে সফলতার সাথে সঠিক সাজেশন দিতে পারার ক্ষমতা। সাজেশন কীভাবে দেয়া যায় তার আগে জানা যাক ভুল শব্দের কোন পরিসংখ্যান আছে কি না।
ইংরেজীতে সবাই প্রচলিত কোয়ার্টি (qwerty) কীবোর্ড ব্যবহার করে (কেউ হয় ডোভার্কের ভক্ত)। মানুষের টাইপিং রীতির উপর গবেষণা করলে দেখা যায় যে বানান ভুলকে কিছু নিয়মের মধ্যে ফেলা যায়। যেমন:
১. আগে-পরে: the এর জায়গায় teh লিখা খুব কমন ব্যাপার।
২. বাদ দেয়া: this লিখতে ths লেখা। এটাও সচরাচর হয়।
৩. কিবোর্ডে কাছাকাছি অক্ষর: able লিখতে ablr লেখা।
৪. বানান না জেনে লেখা: enough লিখতে enof লেখা (যেখানে উচ্চারণ অনেকটা এক রকম)।
৫. একই উচ্চারণে ভিন্ন শব্দ: farm/firm, staff/stuff (এখানে ভুল বানান নেই, ভুল প্রয়োগ আছে)
ইত্যাদি
উপরের ১-৩ ধরনের ক্ষেত্রে স্পেল চেকার খুব দক্ষতার সাথে তা ধরতে পারে, এবং সঠিক শব্দ কী হবে তা নির্দেশ করতে পারে। এ কাজটি করা হয় ভুল শব্দের:
১. অক্ষরগুলোকে বিন্যাস করে
২. সাথে এক বা একাধিক অক্ষর যোগ করে
৩. কিবোর্ডে পাশাপাশি অক্ষর বিবেচনা করে এক বা একাধিক অক্ষর প্রতিস্থাপন করে।
ইত্যাদি
৪-৫ ধরনের ক্ষেত্র সাধারণ মানের স্পেলচেকার কিছু করতে পারে না; কারণ এটা অনেকটা ব্যাকরণ পরীক্ষণের পর্যায়ে পড়ে।
বিভিন্ন পদ্ধিতে পাওয়া সম্ভাব্য সঠিক শব্দগুলোর মধ্যে কোনটি সঠিক হওয়ার সম্ভাবনা কতটুকু এটার উপর স্পেল চেকারের সার্থকতা অনেকাংশে নির্ভর করে। ব্যাপারটা অনেকটা গুগল আর ইয়াহুর মতো- দুটোই সার্চ রেজাল্ট দেখায়; কিন্তু গুগল সঠিক রেজাল্টটাকে প্রথমে দেখায়। এই ড়্যাংকিংটা করা হয় প্রদত্ত ভুল শব্দ আর সাজেশনের প্রতিটি শব্দের সাথে একটা দূরত্ব হিসাব করে। যেমন, the আর teh এর মধ্যে দূরত্ব (ধরা যাক) এক (কারণ একটা মাত্র অক্ষর অদলবদল করে সঠিকটা পাওয়া যাচ্ছে)। এ দূরত্ব হিসাব করার জন্য আবার একাধিক এলগরিদম আছে। বহুল প্রচলিত হলো, মেটাফোনিক ও ডাবল মেটাফোনিক নামে দুটি এলগরিদম। তবে শুধু এ দূরত্ব দিয়েও হয় না। ভুল শব্দটির আগে ও পরে কী শব্দ আছে তাও কাজে লাগে সাজেশনের ড়্যাংকিং করতে।
এবার বাংলার ক্ষেত্রে আসি।
শব্দ তালিকা:
বাংলা ভাষায় প্রায় দুলাখের মতো মূল শব্দ আছে। বাংলা ক্রিয়াপদ কালের সাথে সাথে ব্যক্তি (person) ভেদেও পরিবর্তিত হয়। যেমন: আমি করছি, সে করছে, আমি করছিলাম। তার উপর সাধু চলতির ব্যাপার আছে। সন্ধি-সমাস, প্রত্যয়, বচন ইত্যাদি ভেদে বাংলা শব্দের উল্লেখযোগ্য পরিবর্তন ঘটে। যেমন: 'শহরজুড়ে' হরতাল। 'ঢাকাসহ' 'সারাদেশ' প্লাবিত। বিশেষ্য থেকে বিশেষণ গঠনের নিয়ম অনেক। যেমন: প্লাবন -> প্লাবিত হয় কিন্তু জ্বলন -> জ্বলিত হয় না। দহন -> দহিত হয় না, কিন্ত বহন -> বাহিত হয়। কিছু নিয়ম প্রয়োগভেদে সঠিক-ভুল নির্ণীত হয়। যেমন: শব্দসমূহ/গল্পসমূহ/কবিতাসমগ্র সঠিক শব্দ, কিন্তু, শব্দসমগ্র/টাকাসমূহ/কবিতাসমূহ ততটা নয়। 'মানুষগুলো' কেবল কবিতায় ব্যবহৃত হয়। 'মানুষেরা' সচরাচর দেখা যায় না; তবে ব্যাঙ্গ করে ব্যবহৃত হতে পারে।
সংখ্যাবাচক শব্দের বেলায়, ইংরেজীতে টুয়েন্টি পার হলেই সুন্দর নিয়ম। বাংলায় সেটা নিয়মে ফেলা যায় না। একত্রিশ, একচল্লিশ হলেও একপঞ্চাশ বা একষাট হয় না। ছাব্বিশ/ছাপান্ন হয়, ছত্রিশ, ছেচল্লিশ/ছেষষ্টি, ছিয়াত্তুর/ছিয়াশি/ছিয়ানব্বই হয়।
ইংরেজিতে নিয়মিত (regular) ক্রিয়াপদের শেষ ing বা ed দিয়ে কাজ হয়ে যায় (শেষে p, d, n ইত্যাদি থাকলে দ্বিত্ত্ব হয় অবশ্য)। অনিয়মিত ক্রিয়াপদের সংখ্যা ২০০/৩০০ বেশী না। আর বাংলাতে ১২ টা কালের জন্য প্রায় ১২টা রূপ হয় (অনেক সময় থাকিব auxiliary নিয়ে)। এরপর ব্যক্তি (person) অনুসারে তা তিন/চার গুণ। এরপর, সাধু-চলতি ধরলে সেটার দ্বিগুণ। এতগুলো রূপ নিয়মের মধ্যে রাখা গেলে সুবিধা। কিন্তু সব ক্রিয়াপদ এতগুলো রূপ নেয় না। যেগুলো নেয় না সেগুলো সুনির্দিষ্ট নয়, কেবল প্রয়োগের উপর নির্ভর করে তা বৈধ/অবৈধ। যেমন, উসকানো; উসকাবো, উসকাইতেছিলাম, উসকাচ্ছি অপ্রচলিত। (পকেট) মারা- মেরেছি, মারব ঠিক হলেও মারতে থাকব বেখাপ্পা।
এর মানে হচ্ছে বাংলা বানানের ব্যতিক্রমগুলো নিয়মের চাইতে প্রয়োগ দ্বারা বেশী প্রভাবিত।
সন্ধি/সমাস, প্রকৃতি/প্রত্যয়ের বেলায় ব্যাপারটা আরো জটিল। যেমন, 'বাড়ীসুদ্ধ', 'গোষ্ঠীসুদ্ধ' সঠিক শব্দ; কিন্তু 'জমিসুদ্ধ'র বদলে 'জমিসহ' বেশী চলে। 'নিয়মগুলো'/নিয়মটা/নিয়মটি' চললেও 'নিয়মগুচ্ছ', 'নিয়মখানা' চলে না। আবার 'ভাবখানা' খুব সুন্দর শব্দ, যেখানে 'ভাবটা' তুচ্ছ অর্থের; আর বাকী কোন কিছুই চলে না।
এখানেও দেখা যাচ্ছে নিয়ম মেনে এমন সব শব্দ বানানো সম্ভব যেগুলো প্রচলিত অর্থে সঠিক শব্দ নয়।
এ কারণে, বাংলা বানান পরীক্ষা করার জন্য নিয়ম-ভিত্তিক কোন মডেল দাঁড় করানো (প্রায়) অসম্ভব কাজ। গ্রহণযোগ্য সমাধান হলো সম্ভাব্য সব শব্দ তালিকাতে তুলে দেয়া। এতে তালিকা অনেক বড় হবে, কিন্তু ভুল শব্দ এড়ানো যাবে।
বানান ভুলের নিয়ম:
বাংলা লিখার সময় যতটা না টাইপে ভুল হয় তার চেয়ে বেশী হয় সঠিক বানান না জানার কারণে। আবার এও হতে পারে আমাদের সুনির্দিষ্ট কোন কিবোর্ড সবাই ব্যবহার করে না বলে টাইপিং ভুলের প্রকৃতিটা ধরা সম্ভব হয়নি। (তবে আমি স্বীকার করছি এ বিষয়ে এখনও গবেষণার সুযোগ আছে, বিশেষত বিজয় লেআউট ব্যবহারকারীদের উপর।) বানান বা ব্যাকরণ না জানার কারণে যেসব ভুল সচরাচর হয়:
১. ন আর ণ এর বেলায়: কারণ (reason), করুন (please do it), করুণ (miserable), পণ/বিজ্ঞাপন
২. ষ, স, শ এর বেলায়: ষাড় (bull), সারা (fisnihed), সারা (whole, সারাদেশ), সাড়া (response), সার (substance, manure), পরা (wear, কাপড় পরা), পড়া (read), পরে (after), পড়ে (fall)
৩. ি, ী এর বেলায়: লিখা, লেখা, ভিড়া (reach, join), ভেড়া, অতিথি/অতিথী, পিপীলিকা/পীপিলিকা, কি/কী
৪. র, ড় বেলায় : নিবিড়, তিমির, তাড়া (hurry), তারা (they, star)। জোড় (pair)/জোর (stress)।
৫. ু ূ: ভুল, শূল, রুপ, রূপ. শূণ্য/শুন্য
৬. ু, ো : বুঝা, বোঝা, শুনতে, শোনাতে, খুঁজতে, খোঁজতে
৭. উদ্ভট রীতি: 'এ রকম' <-> এরকম, সেদিন <-> সে দিন, এধরনের <--> এ ধরনের । কি না (is it), কেনা (buy), ঠিকভাবে <--> ঠিক ভাবে
৮. সাধু-চলতির সংমিশ্রণ (যেটাকে গুরুচণ্ডালী বলে বোধ হয়):
এ - এই, সে-সেই, যাইবার-যাওয়ার (যাবার ভুল, তবে কবিতা/গানে ব্যবহৃত হয়), খাইবার-খাওয়ার (খাবার- ভিন্ন অর্থ, খাদ্য বোঝায়), ইত্যাদি।
৯. সমাস-সন্ধির প্যাঁচ:
'মুক্তিযুদ্ধ' : 'মুক্তি-যুদ্ধ' (যেমন মুক্তি-যুদ্ধকালে), 'কবিলেখক' : 'কবি-লেখক', 'নারীপুরুষ': 'নারী পুরুষ' (নারী পুরুষের বিভেদ), 'শ্রেণীবিভেদ': 'শ্রেণী বিভেদ', 'ভোরবেলা': 'ভোর বেলা' (ভোর বেলায় উঠতে হয়)।
'বানানপরীক্ষক'/'বানান-পরীক্ষক' : সঠিক সমাস/সন্ধির নিয়মে। কিন্তু "একটা বানানপরীক্ষকের কাজ হলো" ভালো লাগে না, বরং "একটা বানান পরীক্ষকের কাজ হলো" দেখতে ঠিক লাগে।
১০. চন্দ্রবিন্দু: বাধা (obstacle), বাঁধা (tied)
১১. একই উচ্চারণ: উদ্যত (about to), উদ্ধত (arogant)
১২. সংযুক্ত বর্ণের প্রায় এক রূপ: বদ্ধ (দ+ধ), বন্ধ(ন+ধ), দ্দ্ব(দ+দ+ব), স্তব্ধ (ব+ধ), দ্বন্দ্ব (ন+দ+ব)।
ম/ন: সম্মান (সম+মান -> ম+ম), নিম্নাঙ্গ (ম+ন), মৃন্ময়ী (ন+ম)।
১৩. য-ফলা/য-ফলা আকার: ব্যতয়/ব্যয়/ব্যক্তি/ব্যবসা/ ব্যবধান/ব্যবহার ঠিক। আবার, ব্যাকরণ/ত্যাড়া/ব্যাখ্যা ঠিক।
১৪. রীতির বিভ্রান্তি: না অর্থে নি। বাংলাদেশে 'করিনি', আনন্দবাজার লিখে 'করি নি'। আমরা আবার, 'করিনা' র বদলে 'করি না' লিখি।
১৫. অনুচ্চারিত ব-ফলা/ম-ফলা: 'স্বদেশ' সঠিক হলেও 'স্বপক্ষ' ভুল। জলা (marsh, জলাশয়) আর জ্বলা(burning, pain) এক নয়। সান্ত্বনার মধ্যে একটা ব-ফলা হয়। আত্মীয়ের মধ্যে একটা ম-ফলা আছে।
১৬. বিদেশী (মূলত ইংরেজি/আরবি) শব্দ: বাংলা একাডেমির (কদিন আগ পর্যন্ত একাডেমী ছিল) নিয়ম মতে: ষ, ণ, ছ, য ব্যবহার করা বিরুদ্ধ কাজ। পশ্চিমবংগেও সেটা পরে পালিত হয়েছে।
কিন্তু এ জোশে স্টার, মেলবোর্ন সঠিক হলেও খ্রীস্ট সঠিক নয়।
দীর্ঘ ঈ-কারের বদলে হ্রষ-ই কার ব্যবহারের নিয়ম। যেমন- আমেরিকা। কিন্তু, কিবোর্ড (keyboard) বুঝা গেলেও কোন কিতে (key) চাপতে হবে তা ধরা যায় না।
এ তালিকা আর দীর্ঘ করার সাহস করছি না কারণ আমি বাংলার লোক না। নেহায়েৎ নিজের কাজে কিছু গবেষণা করতে গিয়ে এসব কিছু লক্ষ্য করা।
কোন ভুল শব্দের সাজেশন দেয়ার সময় উপরের নিয়মগুলো প্রয়োগ করতে পারলে অনেকাংশে সঠিক সাজেশন দেয়া সম্ভব। এ ক্ষেত্রে বাংলার জন্য বিশেষভাবে তৈরী মেটাফোনিক কিছু দরকার। ব্র্যাক বিশ্ববিদ্যালয়ে এ নিয়ে কিছু কাজ হয়েছে। তারা জাভা দিয়ে একটা স্পেলচেকারও বানিয়েছে। তারও অনেক আগে (97/98 হবে)আমার বন্ধু/সহকর্মী একটা কাজ করেছিল। এ দুটো কাজের লিংক দিয়ে দিচ্ছি। 'আমাদের' বাংলা নিয়ে বিদেশীদের জ্ঞান কী রকমের হতে পারে তারও একটা লিংক দিচ্ছি যেটা মেটা এলগরিদমে কাজে লাগবে।
১. ব্র্যাক বিশ্ববিদ্যালয়ের কাজ।
২. সিলেটের শাহজালালে করা আমার বন্ধুর কাজ।
৩. ইশিদার পেপার।
মন্তব্য
অনেক কিছু জানা গেল। আরো পোস্টের অপেক্ষায় থাকলাম।
====
চিত্ত থাকুক সমুন্নত, উচ্চ থাকুক শির
একটু অপ্রাসঙ্গিক মন্তব্য করি। ইংরেজি বা বাংলা ক্রিয়াপদ বোধহয় লিঙ্গপ্রভাবিত নয়।
হাঁটুপানির জলদস্যু
ঠিক ধরেছেন। ইংরেজিতে সর্বনাম লিংগ প্রভাবিত, বাংলায় নয়। তবে ইংরেজি বিশেষ্যপদে লিংগের প্রয়োগ আছে। এডিট করে দিচ্ছি- একটানে লিখেছি, দ্বীতিয়বার দেখার ধৈর্য ছিল না।
বিশ্রাম নেন বস। ধীরেসুস্থে পরে দেখলেই চলবে।
হাঁটুপানির জলদস্যু
খুব ভালো পোস্ট। আপনি আরো কয়েক কিস্তি ছাড়েন প্লিজ।
................................................................
আমার সমস্ত কৃতকর্মের জন্য দায়ী আমি বটে
তবে সহযোগিতায় ছিল মেঘ : আলতাফ হোসেন
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
কচুরিপানার নিচে জেগে থাকে ক্রন্দনশীলা সব নদী
উদ্ধৃতি
এ - এই, সে-সেই,
সে ব্যবহারের ক্ষেত্রে প্রায়ই আমার একটি ঝামেলা হয়। আর তা হলো সে বলতে ইংরেজি (he/she) অর্থও আসে। তাই আমার মনে হয় সেই কারণেই "সে" না করে "সেই" ব্যবহার করা উচিত। আরো কিছু এমন শব্দের ঝামেলা আছে, যাদের ভিন্ন অর্থও আছে। সেগুলো নিয়েও আলোচনা করলে ভালো হতো।
-জুলিয়ান সিদ্দিকী
সেই - সাধু ভাষার that , চলতিতে সেটা 'সে' হবে। তবে শব্দের দৈর্ঘ ছোট হলে তা সাথে জুড়ে দেয়ার রীতি হয়ে গেছে। যেমন:
সেসব/ওসব, একথা, সেকথা, এবাড়ী, সেবাড়ি, সেদিক, সেদিন, সেবেলা: প্রচলিত ও গ্রহণযোগ্য। কিন্তু আলাদা করে দিলেও ঠিক থাকে।
এরাস্তা/সেরাস্তা (this/that road), একারণ/সেকারণ, এবিষয়/সেবিষয়: ইত্যাদি গ্রহণযোগ্য নয়। আলাদা শব্দ ভাবাই ঠিক থাকে।
আবার জোর (stress) দেয়ার জন্য সেই (yes that is) বলা যেতে পারে।
কী করিয়া বানান অভিধান বানাইতে হয় তাহার পদ্ধতি জানিতে চাহি না ভাইজানেরা
একখানা বানান অভিধান চাহি...
০২
বাংলা টেক্সট থেকে ভুল খেদানো বাংলদেশ থেকে গোলাম আযম তাড়ানোর থেকেও কঠিন বলে ৯১-৯২ সালে প্রুফ দেখাকে আমরা বলতাম- গোলাম আযম খেদানো
এখনও সেই জায়গাতেই আছি
লেখা খুব ভালো লাগছে। আরও লিখুন। অনেক কিছু জানাতে পারছি।
পরশ পাথর
- আপাতত পাঁচাইলাম। ব্যকরণ ঘটিত ব্যাপার তো, ঠান্ডা মাথায় পড়তে হবে। আপাতত খেলা দেখে মাথা চা-এর মতো গরম!
কথা নাই বার্তা নাই পোল্যান্ড দুই গোলে হাইরা গেলো জার্মানগো কাছে!
___________
চাপা মারা চলিবে
কিন্তু চাপায় মারা বিপজ্জনক
ভারতীয় সীমান্তরক্ষী বাহিনীর কর্মকাণ্ড । বিএসএফ ক্রনিক্যালস ব্লগ
ing বা ed যুক্ত করার সময় ইংরেজি ক্রিয়াপদের অন্ত্যাক্ষর দ্বিত্ত হবে কি না, তা নির্ভর করে p, d, n-এর ওপরে নয়। যেমন, earn থেকে earning বা earned. কিংবা spend-spending. দেখতেই পাচ্ছেন, অন্ত্যাক্ষর d, n হলেও দ্বিত্ত হচ্ছে না। আসলে এটা নির্ভর করে ক্রিয়াপদের শেষ তিনটি অক্ষরের ওপরে। যদি তাদের ক্রম হয় এরকম: ব্যঞ্জনবর্ণ-স্বরবর্ণ-ব্যঞ্জনবর্ণ, এবং স্ট্রেস পড়ে এই সিলেবলে, সেই ক্ষেত্রেই অন্ত্যাক্ষর পুনরাবৃত্ত হয়। যেমন, star-starring-starred, তবে open-opening-opened.
এই নিয়মটি সার্বিকভাবেই ইংরেজি বানানের ক্ষেত্রে প্রযোজ্য। fun থেকে funny - এই কারণেই। ব্যতিক্রম: new-newer-newest. কারণ, বোধ করি, অন্ত্যাক্ষরটি ব্যঞ্জনবর্ণ হলেও উচ্চারণ স্বরবর্ণীয় বলে।
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
মৌমাছির জীবন কি মধুর?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
টাকা দিয়ে যা কেনা যায় না, তার পেছনেই সবচেয়ে বেশি অর্থ ব্যয় করতে হয় কেনু, কেনু, কেনু?
ও ভাই আমি ব্যাকরণবিদ নহি। খোলাসা করার জন্য ধন্যবাদ।
এটা দিয়ে আমার পয়েন্টটাকে আরো শক্ত করলেন।
বৈয়াকরণ আমিও নই। তবে ইংরেজি ব্যাকরণের এই নিয়মটি জানা ছিলো বলেই সেই অল্পবিদ্যা জাহির করার মওকাটি কাজে লাগিয়েছি শুধু
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
মৌমাছির জীবন কি মধুর?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
টাকা দিয়ে যা কেনা যায় না, তার পেছনেই সবচেয়ে বেশি অর্থ ব্যয় করতে হয় কেনু, কেনু, কেনু?
নতুন মন্তব্য করুন