آموزش توکنیزه کردن کلمات در پایتون (Word Tokenization)

توکنیزه کردن کلمات در پایتون (Word Tokenization) فرآیندی است که در آن یک متن بزرگ به بخش‌های کوچک‌تر یعنی کلمات تقسیم می‌شود. این کار در بسیاری از وظایف پردازش زبان طبیعی (Natural Language Processing) ضروری است، زیرا هر کلمه باید به طور جداگانه شناسایی و سپس برای تحلیل‌های بعدی مانند دسته‌بندی، شمارش و بررسی احساسات مورد پردازش قرار گیرد.

توکنیزه کردن کلمات در پایتون با کتابخانه NLTK

کتابخانه Natural Language Toolkit (NLTK) یکی از ابزارهای پرکاربرد برای انجام این کار است. پیش از اجرای برنامه پایتون برای توکنیزه کردن کلمات، باید NLTK را نصب کنید:

پس از نصب، می‌توانیم از متد word_tokenize برای تقسیم یک پاراگراف به کلمات مجزا استفاده کنیم:

اجرای کد بالا خروجی زیر را تولید می‌کند:

توکنیزه کردن جملات در پایتون

علاوه بر کلمات، می‌توان جملات یک پاراگراف را نیز مانند همان روش، توکنیزه کرد. برای این کار از متد sent_tokenize استفاده می‌کنیم:

اجرای کد بالا خروجی زیر را ایجاد می‌کند:

5/5 - (1 امتیاز)

راستی! برای دریافت مطالب جدید در کانال تلگرام یا پیج اینستاگرام سورس باران عضو شوید.

دوره آموزش طراحی فروشگاه اینترنتی بدون کد نویسی در 8 ساعت
  • انتشار: ۱۹ مرداد ۱۴۰۴

دسته بندی موضوعات

آخرین محصولات فروشگاه

مشاهده همه

نظرات

بازخوردهای خود را برای ما ارسال کنید