مقدمة
تُعتبر خوارزمية Naive Bayes واحدة من أبسط وأسرع خوارزميات تعلم الآلة، وتعتمد على مفهوم الاحتمالات لتحديد الفئة الأكثر احتمالًا لأي بيانات جديدة.
رغم بساطتها الشديدة، إلا أنها فعالة جدًا خصوصًا في تصنيف النصوص مثل البريد الإلكتروني والمراجعات.
ما هي Naive Bayes؟
هي خوارزمية تصنيف تعتمد على نظرية بايز في الاحتمالات، وتفترض أن كل خاصية في البيانات مستقلة عن الأخرى.
تستخدم لتحديد احتمال انتماء عنصر معين إلى فئة محددة.
الفكرة ببساطة
إذا أردنا تصنيف رسالة، ننظر إلى الكلمات الموجودة فيها، ثم نحسب احتمال أن تكون "Spam" أو "Not Spam".
الفئة التي تعطي احتمالًا أعلى يتم اختيارها.
نظرية بايز
تعتمد الخوارزمية على معادلة بايز الأساسية:
وهي تعني حساب احتمال وقوع حدث A عند معرفة B.
لماذا "Naive"؟
لأن الخوارزمية تفترض أن كل خاصية مستقلة عن الأخرى، وهذا ليس صحيحًا دائمًا في الواقع، لكنه يجعل الحسابات بسيطة جدًا.
أنواع Naive Bayes
- Gaussian Naive Bayes
- Multinomial Naive Bayes
- Bernoulli Naive Bayes
كيف تعمل الخوارزمية؟
تمر العملية بعدة خطوات:
- حساب الاحتمالات الأولية لكل فئة
- حساب احتمالات الميزات
- تطبيق نظرية بايز
- اختيار الفئة الأعلى احتمالًا
تصنيف النصوص
تُستخدم Naive Bayes بشكل واسع في تحليل النصوص لأنها تعتمد على تكرار الكلمات.
كل كلمة تؤثر على احتمال الفئة النهائية.
مثال البريد المزعج
إذا كانت الرسالة تحتوي على كلمات مثل "عرض مجاني" أو "اربح الآن"، فإن احتمال كونها Spam يزيد.
الفكرة الرياضية
الخوارزمية تحسب:
- احتمال كل فئة
- احتمال كل ميزة داخل الفئة
- ثم تضربها معًا
المميزات
- سريعة جدًا
- سهلة التنفيذ
- تعمل جيدًا مع النصوص
- لا تحتاج بيانات ضخمة
العيوب
- تفترض استقلالية غير واقعية
- ضعيفة مع البيانات المعقدة
- قد تكون غير دقيقة أحيانًا
أمثلة عملية
مثال 1: تصنيف البريد الإلكتروني
تمييز الرسائل بين Spam و Normal.
مثال 2: تحليل المشاعر
تحديد إذا كانت المراجعة إيجابية أو سلبية.
مثال 3: تصنيف الأخبار
تصنيف المقالات حسب الموضوع.
التطبيقات
- فلترة البريد الإلكتروني
- تحليل النصوص
- الطب
- التسويق
مقارنة مع الخوارزميات الأخرى
Naive Bayes أسرع من معظم الخوارزميات، لكنه أقل دقة من النماذج المعقدة مثل Random Forest أو Neural Networks.