آموزش پردازش و خواندن داده های فایل CSV در پایتون

خواندن داده‌ها از فایل CSV (مقادیر جدا شده با کاما) یکی از نیازهای اصلی در علم داده محسوب می‌شود. اغلب داده‌ها از منابع مختلفی به دست می‌آیند و می‌توان آن‌ها را به فرمت CSV خروجی گرفت تا در سایر سیستم‌ها نیز قابل استفاده باشند. خواندن فایل CSV در پایتون با استفاده از کتابخانه Pandas این امکان را فراهم می‌کند که فایل را به‌صورت کامل یا تنها بخش‌هایی از آن شامل ستون‌ها یا سطرهای خاص، در محیط پایتون بارگذاری و پردازش کنید.

ورودی به صورت فایل CSV در پایتون

فایل CSV یک فایل متنی است که در آن، مقادیر موجود در ستون‌ها با کاما از یکدیگر جدا شده‌اند. فرض کنید داده زیر در فایلی به نام input.csv قرار دارد:

برای ساخت این فایل می‌توانید از نرم‌افزار Notepad در ویندوز استفاده کنید. کافی است داده‌ها را کپی کرده و در Notepad قرار دهید، سپس فایل را با نام input.csv و با انتخاب گزینه‌ی Save as type: All files (.) ذخیره کنید.

خواندن فایل CSV با کتابخانه pandas

تابع read_csv در کتابخانه pandas برای بارگذاری محتوای فایل CSV و تبدیل آن به یک DataFrame (چارچوب داده‌ای) در محیط پایتون به کار می‌رود. این تابع می‌تواند فایل‌ها را با استفاده از مسیر صحیح آن‌ها در سیستم عامل بخواند:

اجرای این کد خروجی زیر را تولید می‌کند. توجه کنید که pandas به‌طور خودکار یک ستون اضافی به عنوان اندیس (index) با مقداردهی از صفر اضافه می‌کند:

خواندن ردیف‌های خاص

کتابخانه pandas این امکان را فراهم می‌کند که فقط برخی از ردیف‌ها را از فایل CSV بخوانیم. برای این کار، نتیجه تابع read_csv را برش (slice) می‌دهیم. در مثال زیر، پنج ردیف اول از ستون salary انتخاب شده‌اند:

اجرای کد بالا خروجی زیر را نمایش می‌دهد:

خواندن ستون‌های خاص

علاوه بر ردیف‌ها، می‌توان فقط ستون‌های مورد نظر را از فایل CSV استخراج کرد. برای این کار از روش ایندکس‌گذاری چندمحوره با تابع .loc() استفاده می‌کنیم. در مثال زیر، ستون‌های salary و name برای تمام ردیف‌ها انتخاب شده‌اند:

اجرای این کد خروجی زیر را تولید می‌کند:

خواندن ستون‌ها و ردیف‌های خاص

تابع read_csv در کتابخانه pandas این قابلیت را فراهم می‌کند که ترکیبی از ستون‌ها و ردیف‌های مشخص را از فایل CSV استخراج کنیم. برای این کار از روش ایندکس‌گذاری چندمحوره با استفاده از تابع .loc() استفاده می‌کنیم. در مثال زیر، ستون‌های salary و name فقط برای ردیف‌های شماره ۱، ۳ و ۵ نمایش داده می‌شوند:

خروجی این کد به صورت زیر است:

خواندن ستون‌های خاص برای بازه‌ای از ردیف‌ها

همچنین می‌توانیم از تابع read_csv برای خواندن ستون‌های مشخص در بازه‌ای از ردیف‌ها استفاده کنیم. در مثال زیر، ستون‌های salary و name برای ردیف‌های ۲ تا ۶ نمایش داده می‌شوند:

خروجی این کد به شکل زیر خواهد بود:

5/5 - (1 امتیاز)

راستی! برای دریافت مطالب جدید در کانال تلگرام یا پیج اینستاگرام سورس باران عضو شوید.

پکیج صفر تا صد آموزش سئو و بهینه سازی بصورت عملی
  • انتشار: ۱۷ مرداد ۱۴۰۴

دسته بندی موضوعات

آخرین محصولات فروشگاه

مشاهده همه

نظرات

بازخوردهای خود را برای ما ارسال کنید