توکنیزه کردن کلمات در پایتون (Word Tokenization) فرآیندی است که در آن یک متن بزرگ به بخشهای کوچکتر یعنی کلمات تقسیم میشود. این کار در بسیاری از وظایف پردازش زبان طبیعی (Natural Language Processing) ضروری است، زیرا هر کلمه باید به طور جداگانه شناسایی و سپس برای تحلیلهای بعدی مانند دستهبندی، شمارش و بررسی احساسات مورد پردازش قرار گیرد.
توکنیزه کردن کلمات در پایتون با کتابخانه NLTK
کتابخانه Natural Language Toolkit (NLTK) یکی از ابزارهای پرکاربرد برای انجام این کار است. پیش از اجرای برنامه پایتون برای توکنیزه کردن کلمات، باید NLTK را نصب کنید:
1 |
conda install -c anaconda nltk |
پس از نصب، میتوانیم از متد word_tokenize
برای تقسیم یک پاراگراف به کلمات مجزا استفاده کنیم:
1 2 3 4 5 |
import nltk word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms" nltk_tokens = nltk.word_tokenize(word_data) print (nltk_tokens) |
اجرای کد بالا خروجی زیر را تولید میکند:
1 2 3 |
['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the', 'comforts', 'of', 'their', 'drawing', 'rooms'] |
توکنیزه کردن جملات در پایتون
علاوه بر کلمات، میتوان جملات یک پاراگراف را نیز مانند همان روش، توکنیزه کرد. برای این کار از متد sent_tokenize
استفاده میکنیم:
1 2 3 4 |
import nltk sentence_data = "Sun rises in the east. Sun sets in the west." nltk_tokens = nltk.sent_tokenize(sentence_data) print (nltk_tokens) |
اجرای کد بالا خروجی زیر را ایجاد میکند:
1 |
['Sun rises in the east.', 'Sun sets in the west.'] |
راستی! برای دریافت مطالب جدید در کانال تلگرام یا پیج اینستاگرام سورس باران عضو شوید.
- انتشار: ۱۹ مرداد ۱۴۰۴
دسته بندی موضوعات
- آموزش ارز دیجیتال
- آموزش برنامه نویسی
- آموزش متنی برنامه نویسی
- اطلاعیه و سایر مطالب
- پروژه برنامه نویسی
- دوره های تخصصی برنامه نویسی
- رپورتاژ
- فیلم های آموزشی
- ++C
- ADO.NET
- Adobe Flash
- Ajax
- AngularJS
- apache
- ARM
- Asp.Net
- ASP.NET MVC
- AVR
- Bootstrap
- CCNA
- CCNP
- CMD
- CSS
- Dreameaver
- EntityFramework
- HTML
- IOS
- jquery
- Linq
- Mysql
- Oracle
- PHP
- PHPMyAdmin
- Rational Rose
- silver light
- SQL Server
- Stimulsoft Reports
- Telerik
- UML
- VB.NET&VB6
- WPF
- Xml
- آموزش های پروژه محور
- اتوکد
- الگوریتم تقریبی
- امنیت
- اندروید
- اندروید استودیو
- بک ترک
- بیسیک فور اندروید
- پایتون
- جاوا
- جاوا اسکریپت
- جوملا
- دلفی
- دوره آموزش Go
- دوره های رایگان پیشنهادی
- زامارین
- سئو
- ساخت CMS
- سی شارپ
- شبکه و مجازی سازی
- طراحی الگوریتم
- طراحی بازی
- طراحی وب
- فتوشاپ
- فریم ورک codeigniter
- فلاتر
- کانستراکت
- کریستال ریپورت
- لاراول
- معماری کامپیوتر
- مهندسی اینترنت
- هوش مصنوعی
- یونیتی
- کتاب های آموزشی
- Android
- ASP.NET
- AVR
- LINQ
- php
- Workflow
- اچ تی ام ال
- بانک اطلاعاتی
- برنامه نویسی سوکت
- برنامه نویسی موبایل
- پاسکال
- پایان نامه
- پایتون
- جاوا
- جاوا اسکریپت
- جی کوئری
- داده کاوی
- دلفی
- رباتیک
- سئو
- سایر کتاب ها
- سخت افزار
- سی اس اس
- سی پلاس پلاس
- سی شارپ
- طراحی الگوریتم
- فتوشاپ
- مقاله
- مهندسی نرم افزار
- هک و امنیت
- هوش مصنوعی
- ویژوال بیسیک
- نرم افزار و ابزار برنامه نویسی
- وردپرس