آموزش ریشه یابی کلمات در پایتون

در حوزه پردازش زبان طبیعی (Natural Language Processing)، گاهی شرایطی پیش می‌آید که دو یا چند کلمه ریشه (Root) مشترک دارند. برای مثال، سه کلمه agreed ،agreeing و agreeable همگی از ریشه مشترک agree ساخته می‌شوند. در جستجویی که شامل هر یک از این کلمات باشد، سیستم باید آن‌ها را معادل یکدیگر و همان کلمه ریشه در نظر بگیرد. به همین دلیل، ما همه این کلمات را به ریشه اصلی‌شان متصل می‌کنیم. کتابخانه NLTK در پایتون ابزارهایی دارد که این اتصال را انجام می‌دهد و خروجی را همراه با کلمه ریشه نمایش می‌دهد.

در برنامه زیر، از Porter Stemming Algorithm برای استخراج ریشه کلمات استفاده می‌کنیم:

خروجی اجرای کد بالا به شکل زیر است:

Lemmatization عملکردی مشابه Stemming دارد اما علاوه بر استخراج ریشه، مفهوم کلمات را هم در نظر می‌گیرد. این روش یک گام فراتر می‌رود و کلماتی با معنای مشابه را به یک واژه واحد متصل می‌کند. برای مثال، اگر یک متن شامل کلماتی مثل cars ،trains و automobile باشد، ما همه آن‌ها را به automobile وصل می‌کنیم.

در برنامه زیر، از پایگاه واژگان WordNet برای انجام Lemmatization استفاده می‌کنیم:

خروجی اجرای کد بالا:

5/5 - (1 امتیاز)

راستی! برای دریافت مطالب جدید در کانال تلگرام یا پیج اینستاگرام سورس باران عضو شوید.

آموزش گام به گام برنامه نویسی اندروید با B4A (پروژه محور)
  • انتشار: ۱۹ مرداد ۱۴۰۴

دسته بندی موضوعات

آخرین محصولات فروشگاه

مشاهده همه

نظرات

بازخوردهای خود را برای ما ارسال کنید