هذا المشروع يهدف إلى بناء نموذج تعلم آلة دقيق للتنبؤ بسعر إعلانات Airbnb في مدينة نيويورك بناءً على ميزات متعددة مثل الموقع، نوع الغرفة، والحد الأدنى لليالي. بالإضافة إلى ذلك، يتضمن المشروع تحليلاً استكشافيًا وتصنيفيًا لفهم توزيع وأنواع الغرف المتاحة.
مر المشروع بأربع مراحل أساسية لضمان دقة وموثوقية النتائج:
تم إجراء عملية تنظيف شاملة للبيانات الأولية (data1.csv
) لضمان جودة البيانات المدخلة للنماذج. الخطوات شملت:
- معالجة القيم المفقودة: ملء الفراغات في عمود
reviews_per_month
بالصفر. - إزالة البيانات غير المنطقية: حذف جميع الإعلانات التي كان سعرها يساوي صفرًا.
- حذف الأعمدة غير الضرورية: إزالة الأعمدة التي لا تساهم في التحليل مثل
id
,host_name
, وlast_review
. - تم حفظ البيانات النظيفة في ملف جديد
cleaned_data.csv
.
تم تحليل البيانات النظيفة لفهم الأنماط والعلاقات بين المتغيرات، مع التركيز على العوامل المؤثرة على السعر.
تم بناء نموذجين (Logistic Regression و K-Nearest Neighbors) لتحليل وتصنيف أنواع الغرف المختلفة ('price`).
تم تقييم النماذج بناءً على دقتها (Accuracy) ومقياس F1-score.
النموذج | Accuracy | F1-score (Weighted Avg) |
---|---|---|
Logistic Regression | 0.07 |
0.03 |
K-Nearest Neighbors | 0.06 |
0.05 |
- Python 3.9 أو أحدث
- Git
-
انسخ المستودع (Clone the repo):
git clone [https://github.com/](https://github.com/)[Your-Username]/[Your-Repo-Name].git cd [Your-Repo-Name]
-
ثبّت المكتبات المطلوبة:
pip install -r requirements.txt
-
شغّل سكربت التحليل: (تأكد من أن الكود يستخدم ملف
cleaned_data.csv
الجديد)python MLProject.ipynb
-
سيتم إنشاء جميع الرسوم البيانية في مجلد
images/
.
.
├── 📂 data/
│ ├── data1.csv # البيانات الأصلية
│ └── cleaned_data.csv # البيانات بعد التنظيف
├── 📂 images/
│ └── ... (جميع الرسوم البيانية)
├── 📜 analysis.py # سكربت التحليل والنمذجة
├── 📜 .gitignore
├── 📜 README.md
└── 📜 requirements.txt