مقدمة
تُعد أشجار القرار (Decision Trees) من أبسط وأقوى خوارزميات تعلم الآلة المستخدمة في التصنيف والانحدار. وهي تعتمد على تقسيم البيانات إلى فروع متعددة بناءً على شروط منطقية بسيطة.
تتميز هذه الخوارزمية بأنها سهلة الفهم، ويمكن تفسير نتائجها بشكل بصري يشبه شكل الشجرة.
ما هي أشجار القرار؟
أشجار القرار هي نموذج تنبؤي يستخدم بنية شجرية لاتخاذ قرارات بناءً على مجموعة من الأسئلة المتسلسلة.
كل عقدة في الشجرة تمثل سؤالًا، وكل فرع يمثل نتيجة محتملة، وفي النهاية نحصل على القرار النهائي.
الفكرة الأساسية
الفكرة بسيطة: تقسيم البيانات بشكل متكرر إلى مجموعات أصغر وأكثر تجانسًا حتى نصل إلى قرار نهائي واضح.
كل تقسيم يعتمد على خاصية معينة تقلل من عدم اليقين.
هيكل شجرة القرار
- الجذر (Root Node)
- العقد الداخلية (Internal Nodes)
- الفروع (Branches)
- الأوراق (Leaf Nodes)
كل جزء له دور في عملية اتخاذ القرار.
كيف تعمل أشجار القرار؟
تبدأ الشجرة من عقدة الجذر، ثم يتم اختيار أفضل خاصية لتقسيم البيانات، وبعدها يتم تقسيم البيانات بشكل متكرر حتى الوصول إلى النتائج النهائية.
معايير التقسيم
اختيار أفضل تقسيم يتم بناءً على معايير معينة:
- Gini Impurity
- Entropy
- Information Gain
الإنتروبي و Gini
الإنتروبي يقيس مقدار الفوضى في البيانات، بينما Gini يقيس عدم النقاء.
أنواع أشجار القرار
- Classification Trees (للتصنيف)
- Regression Trees (للانحدار)
- CART
- ID3
- C4.5
تدريب الشجرة
يتم تدريب الشجرة عبر اختيار أفضل تقسيم في كل خطوة حتى يتم بناء نموذج كامل.
تستمر العملية حتى الوصول إلى شرط التوقف.
الإفراط في التعلّم
من أكبر مشاكل أشجار القرار أنها قد تصبح معقدة جدًا وتقوم بحفظ البيانات بدل تعلمها.
التقليم (Pruning)
هو عملية تقليل حجم الشجرة لإزالة الفروع غير الضرورية.
- Pre-pruning
- Post-pruning
المميزات
- سهلة الفهم والتفسير
- لا تحتاج لتطبيع البيانات
- تتعامل مع البيانات الرقمية والفئوية
- سريعة في التدريب
العيوب
- عرضة للإفراط في التعلّم
- غير مستقرة مع تغييرات بسيطة
- قد تكون معقدة بصريًا
أمثلة عملية
مثال 1: قبول القروض
تقرر الشجرة قبول أو رفض طلب القرض بناءً على الدخل والعمر.
مثال 2: تشخيص المرض
تستخدم الأعراض لاتخاذ قرار حول وجود المرض.
مثال 3: التسويق
تحديد العملاء المحتملين للشراء.
التطبيقات
- الطب
- التمويل
- التسويق
- الأمن السيبراني
- تحليل البيانات
مقارنة مع الخوارزميات الأخرى
أشجار القرار أسهل في التفسير من الشبكات العصبية، لكنها أقل دقة في بعض الحالات.
غالبًا ما تُستخدم كأساس لـ Random Forest و Gradient Boosting.