بهترین کتابخانه های پایتون برای کار با http
تعداد زیادی کتابخانه برای کار با http در پایتون وجود دارد. اگر یک جتسجوی سریع در گیتهاب انجام دهید به 17000 نتیجه میرسید. در این مقاله میخواهیم پنج مورد از بهترین کتابخانه های HTTP را که در حال حاضر برای پایتون در دسترس هستند، بررسی کنیم و توضیح دهیم که چرا هر یک از آنها ممکن است برای شما مناسب باشد.
برای تمام مثال های این مقاله از api فیلم جنگ ستارگان استفاده خواهیم کرد که در آدرس swapi.dev در دسترس است. به طور مثال با یک درخواست GET میتوانیم اطلاعات مربوط به افراد، سیارات و داده های دنیای جنگ ستارگان به دست آوریم:
{
"name": "Death Star",
"model": "DS-1 Orbital Battle Station",
"manufacturer": "Imperial Department of Military Research, Sienar Fleet Systems",
"cost_in_credits": "1000000000000",
...
}
برای درخواست های POST از httpbin.org استفاده خواهیم کرد و اطلاعات مربوط به Obi Wan را به آن ارسال میکنیم:
{
"name": "Obi-Wan Kenobi",
"height": "182",
"mass": "77",
"hair_color": "auburn, white",
"skin_color": "fair",
"eye_color": "blue-gray",
"birth_year": "57BBY",
"gender": "male"
}
دوره پیشنهادی: دوره آموزش پایتون (python)
# کتابخانه استاندارد پایتون
اگر با کتابخانه استاندارد پایتون آشنا باشید میدانید که از ماژول urllib نیز میتوانید برای ارسال درخواست http استفاده کنید. برای مقایسه با بقیه کتابخانه ها، بیایید ببینیم که چطور میتوانیم فقط با کتابخانه استاندارد پایتون با http کار کنیم:
import json
import urllib.request
response = urllib.request.urlopen('https://swapi.dev/api/starships/9/')
text = response.read()
print(json.loads(text.decode('utf-8')))
به کد بالا دقت کنید و ببیند که چطور مجبوریم از کتابخانه json پایتون برای تبدیل داده ها استفاده کنیم. زیر urllib اطلاعات را به شکل byte برمیگرداند.
ارسال درخواست POST نیز به شکل زیر است:
import json
from urllib import request, parse
data = {"name": "Obi-Wan Kenobi", ...}
encoded_data = json.dumps(data).encode()
req = request.Request('https://httpbin.org/post', data=encoded_data)
req.add_header('Content-Type', 'application/json')
response = request.urlopen(req)
text = response.read()
print(json.loads(text.decode('utf-8')))
همچنین باید اطلاعاتی که میخواهیم ارسال کنیم را نیز رمزگذاری کرده و header ها را نیز تنظیم کنیم. ممکن است به این نتیجه برسید که چرا باید برای دریافت یکسری داده این همه کار انجام دهم؟ خب، به همین خاطر است که برنامه نویسان پایتون شروع به توسعه کتابخانه های دیگر برای کار با http کردند.
دوره پیشنهادی: دوره آموزش web scraping در پایتون
# کتابخانه urllib3
پکیج urllib3 به طرز عجیبی در کتابخانه استاندارد نیست، بلکه یک پکیج HTTP جداگانه است که بر اساس urllib ساخته شده است. ویژگیهای گمشدهای مانند جمعبندی اتصال، تأیید TLS و thread safe را فراهم میکند. این ویژگی ها در برنامه هایی مفید هستند که قرار است تعداد اتصالات زیادی را به سرور داشته باشند، که در این حالت به جای ایجاد یک اتصال جدید از همان اتصال قدیمی استفاده میکند.
این پکیج در ماه 150 میلیون دانلود دارد. برای ارسال یک درخواست GET میتوانید به شکل زیر کار کنید:
import urllib3
import json
http = urllib3.PoolManager()
r = http.request('GET', 'https://swapi.dev/api/starships/9/')
print(json.loads(r.data.decode('utf-8')))
مشابه کتابخانه استاندارد پایتون مجبورید اطلاعات را با json رمزگذاری کنیم.
برای ارسال درخواست POST با کتابخانه urllib3 باید به شکل زیر کار کنید. دقت کنید که باید پارامترها را نیز رمزگذاری کنیم:
import json
import urllib3
data = {"name": "Obi-Wan Kenobi", ...}
http = urllib3.PoolManager()
encoded_data = json.dumps(data).encode('utf-8')
r = http.request(
'POST',
'https://httpbin.org/post',
body=encoded_data,
headers={'Content-Type': 'application/json'}
)
print(json.loads(r.data.decode('utf-8')))
آبجکت PoolManager وظیفه ادغام اتصالات و thread safe بودن را دارد. urllib3 همچنین رفتارهای پیچیده ای را ارائه می دهد.ویژگی retry واقعاً مهم است - ما نمیخواهیم اتصالمان به دلیل بارگیری تصادفی یک سرور به پایان برسد و سپس از آن صرفنظر کنیم. مایلیم قبل از اینکه داده را غیرقابل دسترس بدانیم، چندین بار امتحان کنیم.
نقطه ضعف urllib3 اینست که کار با کوکی ها در آن دشوار است. این کتابخانه به طور مستقیم از کوکی ها پشتیبانی نمیکند و ما محبوریم به صورت دستی به عنوان یک هدر آن را تنظیم کنیم یا از چیزی مانند ماژول http.cookies برای مدیریت آنها استفاده کنیم. مثلا:
headers={'Cookie': 'foo=bar; hello=world'}
با توجه به اینکه بسیاری از کتابخانه های دیگر به urllib3 وابسته هستند، احتمالا برای مدت طولانی در آینده وجود خواهد داشت.
مقاله پیشنهادی: 3 روش برای دانلود تصاویر با پایتون
# کتابخانه requests
پکیج Requests در جامعه Python بسیار مورد علاقه است و طبق گفته PePy ماهانه بیش از 110 میلیون بار دانلود می شود. همچنین به عنوان یک "رابط HTTP سطح بالاتر" در اسناد اصلی urllib.request توصیه می شود. کار با requests بسیار ساده است و به همین دلیل اکثر توسعه دهندگان در جامعه پایتون از آن به عنوان کتابخانه HTTP انتخابی خود استفاده می کنند.
برای ارسال درخواست GET فقط کافیست مانند زیر عمل کنید:
import requests
r = requests.get('https://swapi.dev/api/starships/9/')
print(r.json())
به طور مشابه، ارسال داده ها نیز ساده است - فقط باید روش دریافت خود را به POST تغییر دهیم:
import requests
data = {"name": "Obi-Wan Kenobi", ...}
r = requests.post('https://httpbin.org/post', json=data)
print(r.json())
در اینجا می توانید ببینید که چرا requests بسیار محبوب است. طراحی آن بسیار زیبا است! Requests افعال HTTP را به عنوان متد (GET، POST) ترکیب میکند و ما حتی میتوانیم اطلاعات را مستقیماً به JSON تبدیل کنیم. بهعنوان یک توسعهدهنده، این بدان معناست که کار با آن و درک آن بسیار ساده است، تنها دو فراخوانی متد برای دریافت دادههایی که از API میخواهیم لازم است.
مقاله پیشنهادی: آشنایی با مفهوم باگ و دیباگ در پایتون
# کتابخانه aiohttp
AIOHTTP پکیجی است که شامل هر دو چارچوب کلاینت و سرور است، به این معنی که با آن هم میتوانید api بسازید و هم درخواست http ارسال کنید. دارای 11 هزار ستاره در Github است و تعدادی کتابخانه شخص ثالث بر روی آن ساخته شده است. درخواست GET با آن به شرح زیر است:
import aiohttp
import asyncio
async def main():
async with aiohttp.ClientSession() as session:
async with session.get('https://swapi.dev/api/starships/9/') as response:
print(await response.json())
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
و ارسال درخواست POST:
import aiohttp
import asyncio
data = {"name": "Obi-Wan Kenobi", ...}
async def main():
async with aiohttp.ClientSession() as session:
async with session.post('https://httpbin.org/post', json=data) as response:
print(await response.json())
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
میبینید که ()aiohttp.ClientSession از دستورات مشابه requests استفاده میکند - اما کد کلی بسیار طولانیتر از نمونههای قبلی است و اکنون فراخوانیهای متد با استفاده از async را داریم، همراه با یک وارد کردن ماژول اضافی برای asyncio.
مستندات AIOHTTP نمای کلی خوبی از اینکه چرا این همه کد اضافی در مقایسه با requests ضروری است، ارائه میکند. اگر با مفاهیم برنامهنویسی ناهمزمان آشنا نباشید، درک آنها زمان میبرد، اما در نهایت معنای آن این است که میتوان تعدادی درخواست http را به طور همزمان ارسال کرد بدون انیکه منتظر پاسخ درخواست های قبلی بمانیم. برای مواقعی که ما فقط یک درخواست داریم، ممکن است این موضوع نگران کننده نباشد، اما اگر نیاز به ارائه دهها یا حتی هزاران درخواست http داشته باشیم، تمام زمانی که CPU منتظر پاسخ است بهتر است صرف انجام کار دیگری شود (مثل ایجاد درخواست دیگری). به عنوان مثال، اجازه دهید نگاهی به کدهایی بیندازیم که در جستجوی دادههای 50 کشتی ستاره اول از Star Wars API هستند.
import aiohttp
import asyncio
import time
async def get_starship(ship_id: int):
async with aiohttp.ClientSession() as session:
async with session.get(f'https://swapi.dev/api/starships/{ship_id}/') as response:
print(await response.json())
async def main():
tasks = []
for ship_id in range(1, 50):
tasks.append(get_starship(ship_id))
await asyncio.gather(*tasks)
asyncio.run(main())
این کد به طور مداوم کمتر از 2 ثانیه طول می کشد تا روی دستگاه من اجرا شود، در حالی که درخواست داده های مشابه با استفاده از requests، بیش از 4 ثانیه طول می کشد. بنابراین اگر بتوانیم با پیچیدگی های اضافی که به کدمان وارد می کند مقابله کنیم، می توانیم زمان بازیابی داده هایمان را تسریع کنیم.
مقاله پیشنهادی: همه چیز درباره متغیرهای محیطی در پایتون
# کتابخانه GRequests
GRequests ویژگی Gevent را به Requests میآورد تا اجازه دهد درخواستهای http به صورت ناهمزمان انجام شوند. GRequests یک کتابخانه قدیمی است که برای اولین بار در سال 2012 منتشر شد و از ماژول استاندارد asyncio پایتون استفاده نمی کند. درخواستهای تکی را میتوان مانند کتابخانه Requests انجام داد، اما میتوانیم از ماژول Gevent برای ایجاد تعدادی درخواست مانند موارد زیر استفاده کنیم:
import grequests
reqs = []
for ship_id in range(0, 50):
reqs.append(grequests.get(f'https://swapi.dev/api/starships/{ship_id}/'))
for r in grequests.map(reqs):
print(r.json())
اسناد GRequests پراکنده است و حتی تا آنجا پیش می رود که کتابخانه های دیگر را در صفحه Github خود توصیه می کند. تنها با 165 خط کد، هیچ عملکرد پیشرفته ای را نسبت به خود Requests ارائه نمی دهد. در طول 9 سال، مجموعاً 6 نسخه منتشر شده است، بنابراین اگر برنامهنویسی همگام را گیجکننده میدانید احتمالاً واقعاً ارزش بررسی دارد.
ویدیو پیشنهادی: ویدیو آموزش آبجکت ellipsis در پایتون
# کتابخانه httpx
HTTPX جدیدترین پکیج موجود در این لیست است (برای اولین بار در سال 2015 منتشر شد) و در زمان نگارش این مقاله هنوز در مرحله بتا است، نسخه 1 انتظار می رود در سال 2021 عرضه شود. httpx یک "API سازگار با درخواست های گسترده" را ارائه می دهد، تنها نمونه در اینجا برای پشتیبانی از HTTP2 و همچنین APIهای غیر همگام را ارائه می دهد.
استفاده از HTTPX بسیار شبیه به requests است:
import httpx
r = httpx.get('https://swapi.dev/api/starships/9/')
print(r.json())
و برای درخواست POST:
import httpx
data = {"name": "Obi-Wan Kenobi", ...}
r = httpx.post('https://httpbin.org/post', json=data)
print(r.json())
# مقایسه این کتابخانه ها
معیارهایی که ما گرفته ایم جامع نیستند و فقط به عنوان یک راهنما عمل می کنند. هر یک از مثالهای ما از ماژول time پایتون برای اندازه گیری یک درخواست، آن را 100 بار در یک حلقه اجرا میکند و زمان اجرای متوسط را برمیگرداند. برای درخواستهای ناهمزمان، کل زمان اجرای 100 تماسی که بهصورت ناهمزمان انجام شده است را اندازهگیری میکنیم و میانگین هر درخواست را برمیگردانیم. به منظور مقایسه و نفی زمان پاسخ سرور در معیارها، هر دو درخواست GET و POST به یک نمونه محلی httpbin.org ارسال می شوند. آمار دانلود برای مقایسه ما از PePy گرفته شده است که از اطلاعات دانلود عمومی PyPI استفاده می کند.
Name | Downloads / mo | Github Stars | Sync GET | Sync POST | Async GET | Async POST |
---|---|---|---|---|---|---|
urllib | N/A | N/A | 5.79ms | 6.12ms | N/A | N/A |
urllib3 | 154M | 2.7k | 4.13ms | 4.39ms | N/A | N/A |
Requests | 115M | 45.5k | 6.94ms | 7.41ms | N/A | N/A |
Grequests | 0.37M | 3.8k | 7.11ms | 7.66ms | 4.53ms | 4.95ms |
AIOHTTP | 25M | 11.3k | 6.07ms | 6.61ms | 3.58ms | 3.92ms |
HTTPX | 4M | 7k | 5.43ms | 5.72ms | 4.01ms | 4.34ms |
میتوانیم ببینیم که از نظر عملکرد خالص برای درخواستهای تکی، urllib3 برنده است. Requests به وضوح کتابخانهای است که بیشترین جامعه را دارد و مجموعهای از ویژگیهای پیشرفته را ارائه میدهد که ما در این آزمایشهای ساده محکگذاری نکردهایم.
از نظر کلاینتهای همگام، AIOHTTP در صدر قرار میگیرد و زمان هر درخواست برای هر دو GET و POST کمترین است. همچنین بیشترین دانلود و ستاره را دارد، اما به خاطر داشته باشید که این ممکن است به این دلیل باشد که رفتار چارچوب وب را نیز ارائه می دهد. به دلیل عدم فعالیت در پروژه GRequests و توصیه خود آن، احتمالاً نباید آن را در نظر بگیرید مگر اینکه نیازهای بسیار خاصی داشته باشید.
# نتیجه گیری
در طول این مقاله دیدیم که Requests از طراحی بسیاری از کتابخانه های نشان داده شده الهام گرفته است. در جامعه پایتون بسیار محبوب است، به طوری که انتخاب پیش فرض برای اکثر توسعه دهندگان است. با ویژگیهای اضافی که ارائه میکند مانند session و رفتار retry، اگر نیازهای سادهای دارید یا میخواهید کد ساده را حفظ کنید، احتمالاً باید به آن نگاه کنید.
برای توسعهدهندگانی که نیازمندیهای پیچیدهتری دارند و میخواهند درخواستهای بیشتری ارائه کنند - AIOHTTP در حال حاضر بهترین انتخاب است. از بین همه آزمایشهای ما، بهترین عملکرد را به صورت ناهمزمان انجام داد، بیشترین تعداد دانلود/ستاره را دارد و در حال حاضر نسخه پایداری را ارائه میدهد.