এই পোস্ট পড়ার আগে যে সকল বিষয়ে ধারণা থাকতে হবে -

১। মেশিন লার্নিং কি

২। সুপারভাইজড ও আনসুপারভাইজড লার্নিং

এই পোস্টে সুপারভাইজড মডেলকে কিভাবে মূল্যায়ন করে তা বর্ণনা করার চেষ্টা করবো। সুপারভাইজড লার্নিং মূলত দুই প্রকার যথা (১) Classification ও (২) Regression। আমরা মেশিন লার্নিংয়ের মাধ্যমে যা এস্টিমেট বা প্রেডিক্ট করতে চাই তা যদি ক্যাটেগরিক্যাল হয় তাহলে Classification মডেল বা এলগোরিদম ব্যবহার করা হয়। আর নিউমেরিক হলে Regression এলগোরিদম ব্যবহার করা হয়। একটি Regression মডেল কিভাবে মূল্যায়ন করা হয় তার ধারণা পাওয়া যাবে এখানে

ধরা যাক আজকে আমরা নিচের Classification মডেলটিকে মূল্যায়ন করবো - যার কাজ হলো যেসব কোষ COVID-19 দ্বারা আক্রান্ত সেসব কোষকে Classify বা সনাক্ত করা

একটি Classification মডেলকে মূল্যায়নের জন্য বেশ কয়েকটি মেজারমেন্ট ব্যবহার করা হয় -

১। প্রিসিশন (Precision)

২। রিকল (Recall)

৩। একুরেসি (Accuracy)

৪। এফওয়ান-স্কোর (F1-Score)

৫। কোহেন্স কাপ্পা (Cohen's Kappa)

আজকে শুধু প্রিসিশন ও রিকল নিয়ে আলোচনা করবো। বাকিগুলো ধাপে ধাপে আলোচনা করবো। Precision ও Recall নিয়ে যদি গুগলে খোঁজ করা হয় বা জিজ্ঞেস করা হয় তাহলে সবাই নিচের সূত্র দুটি ধরিয়ে দেয় -

$$Precision = {TP \over TP+FP}.$$

$$Recall = {TP \over TP+FN}.$$

  • TP মানে True Positive
  • FP মানে False Positive
  • TN মানে True Negative
  • FN মানে False Negetive

এই TP, FP, TN ও FN এর বিষয়টি অনেকেই প্রথম দিকে গুলিয়ে ফেলেন এবং সেই দলে আমি নিজেও! আসলে Precision ও Recall বের করা খুবই সহজ যার জন্য সূত্রের প্রয়োজন নাই। প্রথমে আমরা দেখে নেই কিভাবে সূত্র ছাড়া করা যায় পরে সূত্র দিয়েও বের করবো। আপনি হয়তো জেনে থাকবেন একটি মেশিন লার্নিং মডেল নির্বাচন করার পর প্রথমে ট্রেইনিং ও তারপর টেস্টিং করতে হয়। তাই ধরা যাক আমরা প্রথমে উপরের COVID-19 দ্বারা আক্রান্ত কোষকে Classify করার মডেলটিকে পর্যাপ্ত ডাটা দিয়ে ট্রেইন করালাম। তারপর কিছু ডাটা দিয়ে টেস্ট করলাম মডেলটিকে মূল্যায়ন করার জন্য এবং টেস্টিং থেকে প্রাপ্ত ফলাফল নিম্নরূপ -

এখানে উল্লেখ্য যে, টেস্টিংয়ের জন্য দুই ধরণেরই কোষ (COVID-19 ও HEALTHY) ব্যবহার করা হয়েছে যা চারপাশে কালো দাগ দেওয়া চতুর্ভুজের মধ্যে দেখানো হয়েছে। কোন কোষ কি ধরণের তা ডান পাশে দেওয়া আছে। আর অবশেষে চারপাশে লাল দাগ দেওয়া উপবৃত্তের মাধ্যমে দেখানো হয়েছে আমাদের নির্বাচন করা মডেলটি কোন কোন কোষ গুলোকে COVID-19 হিসাবে সনাক্ত করেছে। এখানে চতুর্ভুজ ও উপবৃত্ত শুধু সহজ করে বোঝানোর জন্য ব্যবহার করা হয়েছে যার সাথে Classification মডেলকে মূল্যায়নের কোনো সম্পর্ক নেই। এখন আমরা একটু ভালো করে উপবৃত্তের দিকে খেয়াল করি যা ধরতে পারলেই Precision ও Recall বের করা পানির মতো সোজা। এখানে মূলত আমাদের নির্বাচন করা মডেলটি নিচের কাজ দুটো ঘটিয়েছে -

১। যেসব কোষকে মডেলটি COVID-19 হিসাবে সনাক্ত করেছে (উপবৃত্তের মধ্যে) তারা সবাই COVID-19 নয় মানে কিছু HEALTHY কোষকেও সে COVID-19 হিসাবে সনাক্ত করেছে। এখন হিসাব করা যাক মোট কতগুলো কোষকে COVID-19 হিসাবে সনাক্ত করেছে (উপবৃত্তের মধ্যে) এবং তার ভিতরে কতগুলো সঠিক।

সঠিক ভাবে COVID-19 সনাক্ত (Correctly Classified COVID-19) = ১৫

মোট COVID-19 হিসাবে সনাক্ত (Total Classified COVID-19)= ২০

এখন উপরের দুটো সংখ্যার অনুপাত বের করলেই পাওয়া যাবে Precision। তার মানে Precision হলো একটি মডেল তার সক্ষমতা অনুযায়ী যতগুলো Classify করতে পারে (২০) তার কত শতাংশ [(১৫/২০) * ১০০ = ৭৫%] আসলে সঠিক।

$$Precision = {Correctly \space Classified \space COVID-19 \over Total \space Classified \space COVID-19} = {১৫*১০০ \over ২০} = ৭৫\%$$

২। এবার পরের যে কাজটি আমাদের নির্বাচন করা মডেলটি ঘটিয়েছে তা হলো সে বেশ অনেক গুলো COVID-19 দ্বারা আক্রান্ত কোষ সনাক্ত সনাক্ত করতে পারেনি (উপবৃত্তের) বাইরে। তারমানে সমগ্র চতুর্ভুজ জুড়ে মোট কতগুলো COVID-19 দ্বারা আক্রান্ত কোষ ছিল আর মডেল সঠিকভাবে কতগুলো সনাক্ত করতে পেরেছে তার তুলনা করা দরকার।

সঠিক ভাবে COVID-19 সনাক্ত (Correctly Classified COVID-19) = ১৫

মোট COVID-19 (Total COVID-19) = ৩০

এখন রিকল বের করার জন্য উপরের সংখ্যা দুটির অনুপাত বের করতে হবে। তাহলে রিকল মানে দাঁড়ালো একটি মডেল যা Classify বা সনাক্ত করতে চায় (৩০) তার কত শতাংশ [(১৫*১০০)/৩০ = ৫০%] আসলে সে সনাক্ত করতে সক্ষম।

$$Recall =\frac {Correctly \space Classified \space COVID-19}{Total \space COVID-19} = \frac {১৫*১০০}{৩০} = ৫০\%$$

পরের পর্বে যা থাকবে -

১। আমরা ৭৫% প্রিসিশন ও ৫০% রিকল পেলাম তা সূত্রের মাধ্যমে কিভাবে বের করা যায়

২। ৭৫% প্রিসিশন ও ৫০% রিকল এই স্কোর কি আমাদের জন্য ভালো?

সবাই ঘরে থাকুন। সুস্থ থাকুন।

চিত্র: লেখকের তৈরী করা কিন্তু আইকনগুলো iconfinder.com থেকে নেওয়া।

Post a comment


Comments are closed