به دوره آموزش وب اسکرپینگ با پایتون خوش آمدید! در این دوره آموزش وب اسکرپینگ با سه ابزار بسیار پرکاربرد پایتون آشنا خواهید شد. ابتدا با پکیج requests کار خواهید کرد که برای ارسال درخواست های http استفاده میشود. کتابخانه requests یکی از محبوب ترین کتابخانه های پایتون برای وب اسکرپینگ است که ماهانه 300 میلیون بار دانلود میشود. سپس به سراغ کتابخانه Beautiful Soup پایتون خواهیم رفت که برای تجزیه اسناد HTML و XML استفاده میشود و معمولا در کنار کتابخانه requests قرار میگیرد. در نهایت با بخش های مختلف فریمورک Scrapy آشنا خواهید شد. کتابخانه scrapy یک ابزار رایگان و منبع باز است که برای خزش در صفحات وب طراحی شده است و در اکثر پروژه های وب اسکرپینگ پایتون استفاده میشود.
# وب اسکرپینگ چیست؟
وب اسکرپینگ فرآیند استفاده از ربات ها برای استخراج محتوا و داده ها از یک وب سایت است. این اطلاعات جمع آوری شده و سپس به فرمتی که برای کاربر مفیدتر است استخراج می شود. اگرچه استخراج اطلاعات را می توان به صورت دستی نیز انجام داد، اما در بیشتر موارد ابزارهای خودکار ترجیح داده می شوند زیرا می توانند هزینه کمتری داشته باشند و با سرعت بیشتری کار کنند. اما در بیشتر موارد، استخراج اطلاعات کار ساده ای نیست. وب سایت ها اشکال و ساختارهای مختلفی دارند، در نتیجه اسکراپرهای وب از نظر عملکرد و ویژگی ها متفاوت هستند.
# پیش نیازهای دوره وب اسکرپینگ پایتون
برای تماشای دوره آموزش وب اسکرپینگ پایتون نیاز به دانش پیش زمنیه زیادی ندارید. از آنجایی که قرار است از پایتون برای استخراج اطلاعات سایت ها استفاده کنیم پس منطقی است که ابتدا پایتون بلد باشیم. این دوره آموزش وب اسکرپینگ مناسب افرادی است که پایتون را بلد هستند. نیازی نیست خیلی در پایتون حرفهای باشید ولی باید به مسائل ابتدایی و همچنین شی گرایی پایتون مسلط باشید. برای یادگیری پایتون میتوانید دوره آموزش پایتون را ببینید. همچنین لازم است که ویدیو آموزش پروتکل Http را نیز ببینید.
سورس کد این دوره را میتوانید از اینجا دانلود کنید.
مطالب این دوره به شکل کامل آپدیت شده است.