آموزش الگوریتم بیز ساده در یادگیری ماشین با پایتون

الگوریتم بیز ساده (Naive Bayes) یک الگوریتم طبقه‌بندی است که بر اساس قضیه بیز (Bayes’ theorem) عمل می‌کند. این الگوریتم ویژگی‌ها را مستقل از یکدیگر فرض می‌کند و به همین دلیل به آن «ساده» گفته می‌شود. الگوریتم احتمال تعلق یک نمونه به یک کلاس خاص را با توجه به احتمالات ویژگی‌های آن محاسبه می‌کند.

به‌عنوان مثال، یک تلفن همراه ممکن است هوشمند در نظر گرفته شود اگر دارای صفحه‌نمایش لمسی، امکان اتصال به اینترنت، دوربین خوب و غیره باشد. حتی اگر این ویژگی‌ها به هم وابسته باشند، هر ویژگی به‌صورت مستقل در تعیین احتمال هوشمند بودن تلفن نقش دارد.

احتمال پسین و استفاده از قضیه بیز

در طبقه‌بندی بیزی (Bayesian classification)، هدف اصلی یافتن احتمال پسین (posterior probability) است، یعنی احتمال یک برچسب (label) با توجه به ویژگی‌های مشاهده‌شده: P(Lfeatures)

با استفاده از قضیه بیز، این احتمال را می‌توان به شکل کمی به صورت زیر بیان کرد:

در اینجا:

  • P(L|features): احتمال پسین کلاس است.

  • P(L): احتمال پیشین کلاس است.

  • P(features|L): احتمال شرطی (likelihood) است، یعنی احتمال ویژگی‌ها با توجه به کلاس.

  • P(features): احتمال پیشین ویژگی‌ها است.

در الگوریتم بیز ساده، از قضیه بیز برای محاسبه احتمال تعلق یک نمونه به کلاس خاص استفاده می‌کنیم. ابتدا احتمال هر ویژگی نمونه با توجه به کلاس محاسبه می‌شود و سپس این احتمالات در هم ضرب می‌شوند تا احتمال شرطی نمونه برای کلاس به دست آید. سپس این احتمال شرطی در احتمال پیشین کلاس ضرب می‌شود تا احتمال پسین تعلق نمونه به کلاس محاسبه شود. این فرآیند برای هر کلاس تکرار می‌شود و در نهایت، کلاسی که بیشترین احتمال پسین را دارد به‌عنوان کلاس نمونه انتخاب می‌شود.

انواع الگوریتم بیز ساده

الگوریتم‌های مختلفی از بیز ساده (Naive Bayes) وجود دارند. در اینجا به سه نوع اصلی آن می‌پردازیم:

بیز ساده گاوسی (Gaussian Naive Bayes)

بیز ساده گاوسی ساده‌ترین نوع الگوریتم بیز ساده است و فرض می‌کند که داده‌های هر برچسب از یک توزیع گاوسی (Gaussian distribution) پیروی می‌کنند. این نوع الگوریتم زمانی کاربرد دارد که ویژگی‌ها متغیرهای پیوسته باشند و از توزیع نرمال پیروی کنند.

بیز ساده چندجمله‌ای (Multinomial Naive Bayes)

یک نوع دیگر کاربردی، بیز ساده چندجمله‌ای است که در آن فرض می‌شود ویژگی‌ها از یک توزیع چندجمله‌ای (Multinomial distribution) گرفته شده‌اند. این نوع برای ویژگی‌هایی که نمایانگر شمارش‌های گسسته هستند مناسب است. بیز ساده چندجمله‌ای معمولاً در کارهای طبقه‌بندی متن استفاده می‌شود، جایی که ویژگی‌ها نشان‌دهنده تکرار کلمات در یک سند هستند.

بیز ساده برنولی (Bernoulli Naive Bayes)

یک مدل مهم دیگر بیز ساده برنولی است که در آن ویژگی‌ها به‌صورت دودویی (0 و 1) فرض می‌شوند. یکی از کاربردهای رایج این مدل، طبقه‌بندی متن با مدل «کیسه کلمات» (bag of words) است.

پیاده سازی الگوریتم بیز ساده با پایتون

با توجه به مجموعه داده‌های خود، می‌توانیم هر یک از مدل‌های بیز ساده که پیش‌تر توضیح داده شد را انتخاب کنیم. در اینجا، مدل Gaussian Naive Bayes (بیز ساده گاوسی) را در پایتون پیاده‌سازی می‌کنیم.

ابتدا کتابخانه‌های مورد نیاز را وارد می‌کنیم:

سپس با استفاده از تابع make_blobs() از Scikit-learn، مجموعه‌ای از نقاط با توزیع گاوسی ایجاد می‌کنیم:
حباب‌های نقاط با توزیع گاوسی

برای استفاده از مدل GaussianNB، ابتدا آن را وارد و نمونه‌سازی می‌کنیم:

حالا نوبت به پیش‌بینی است. ابتدا داده‌های جدیدی تولید می‌کنیم:

سپس برای بررسی مرزهای تصمیم‌گیری مدل، داده‌های جدید را رسم می‌کنیم:

ترسیم پیش‌بینی با داده‌های جدید

حالا با استفاده از کد زیر، می‌توانیم احتمال پسین برای برچسب اول و دوم را به دست آوریم:

خروجی

اگر هنوز با مفاهیم اولیه برنامه نویسی آشنا نیستید و می‌خواهید به‌طور اصولی یادگیری پایتون را شروع کنید، بهترین راه شروع، شرکت در دوره تخصصی پایتون است. این دوره به شما کمک می‌کند تا با اصول اولیه پایتون آشنا شوید و به تدریج مهارت‌های لازم برای پیاده‌سازی الگوریتم‌های یادگیری ماشین و پروژه‌های پیچیده را کسب کنید.

مزایا و معایب الگوریتم بیز ساده

در این بخش به برخی مزایا و محدودیت‌های الگوریتم طبقه‌بندی بیز ساده می‌پردازیم.

مزایا

مزایای استفاده از بیز ساده شامل موارد زیر است:

  • پیاده‌سازی آسان و سرعت بالا: الگوریتم بیز ساده به راحتی قابل اجرا است و سریع عمل می‌کند.

  • همگرایی سریع‌تر نسبت به مدل‌های تمایزی: این الگوریتم سریع‌تر از مدل‌هایی مانند رگرسیون لجستیک (logistic regression) همگرا می‌شود.

  • نیاز به داده‌های آموزشی کمتر: برای آموزش نیاز به داده‌های کمتری دارد.

  • قابلیت مقیاس‌پذیری بالا: این الگوریتم به‌صورت خطی با تعداد ویژگی‌ها و نمونه‌ها مقیاس‌پذیر است.

  • توانایی پیش‌بینی احتمالاتی: می‌تواند پیش‌بینی‌های احتمالاتی انجام دهد و هم داده‌های پیوسته و هم داده‌های گسسته را مدیریت کند.

  • قابلیت استفاده در مسائل دودویی و چندکلاسه: الگوریتم بیز ساده هم برای مسائل طبقه‌بندی دودویی و هم چندکلاسه مناسب است.

معایب

محدودیت‌های استفاده از بیز ساده عبارت‌اند از:

  • فرض استقلال شدید ویژگی‌ها: یکی از مهم‌ترین محدودیت‌ها، فرض استقلال کامل ویژگی‌ها است؛ در حالی که در دنیای واقعی، تقریباً هیچ مجموعه‌ای از ویژگی‌ها کاملاً مستقل از یکدیگر نیستند.

  • مسئله «فرکانس صفر» (Zero Frequency): اگر یک متغیر دسته‌ای در داده‌های آموزشی مشاهده نشود، الگوریتم بیز ساده به آن احتمال صفر اختصاص می‌دهد و قادر به پیش‌بینی آن نمونه نخواهد بود.

کاربردهای الگوریتم بیز ساده

برخی از کاربردهای رایج الگوریتم طبقه‌بندی بیز ساده عبارت‌اند از:

  • پیش‌بینی در زمان واقعی (Real-time prediction): به دلیل سهولت پیاده‌سازی و سرعت محاسباتی بالا، می‌توان از این الگوریتم برای پیش‌بینی در زمان واقعی استفاده کرد.

  • پیش‌بینی چندکلاسه (Multi-class prediction): الگوریتم بیز ساده قادر است احتمال پسین چندین کلاس از متغیر هدف را پیش‌بینی کند.

  • طبقه‌بندی متن (Text classification): به دلیل قابلیت پیش‌بینی چندکلاسه، الگوریتم بیز ساده برای طبقه‌بندی متن بسیار مناسب است و به همین دلیل در مسائلی مانند فیلتر اسپم (spam filtering) و تحلیل احساسات (sentiment analysis) کاربرد دارد.

  • سیستم‌های پیشنهاددهی (Recommendation system): همراه با الگوریتم‌هایی مانند Collaborative Filtering، بیز ساده می‌تواند در سیستم‌های پیشنهاددهی به کار رود تا اطلاعات دیده‌نشده را فیلتر کرده و پیش‌بینی کند که آیا کاربر از یک منبع خاص استقبال خواهد کرد یا خیر.

5/5 - (1 امتیاز)

راستی! برای دریافت مطالب جدید در کانال تلگرام یا پیج اینستاگرام سورس باران عضو شوید.

آموزش پروژه محور طراحی سایت با پایتون و جنگو مختص بازار کار
  • انتشار: ۱ شهریور ۱۴۰۴

دسته بندی موضوعات

آخرین محصولات فروشگاه

مشاهده همه

نظرات

بازخوردهای خود را برای ما ارسال کنید