بسیاری از وبسایتها دادههایی را برای استفاده کاربران خود ارائه میدهند. بهعنوان نمونه، سازمان جهانی بهداشت (WHO) گزارشهایی در زمینه سلامت و اطلاعات پزشکی در قالب فایلهای CSV، txt و XML منتشر میکند. با استفاده از برنامههای R میتوان این دادهها را بهصورت برنامهنویسیشده استخراج کرد. برخی از بستههای R که برای جمعآوری دادهها از وب بهکار میروند عبارتاند از: "RCurl", "XML" و "stringr". این بستهها امکان اتصال به آدرسهای اینترنتی (URLs)، شناسایی لینکهای موردنیاز برای فایلها و دانلود آنها در محیط محلی را فراهم میکنند.
نصب بستههای R
بستههای زیر برای پردازش آدرسها و لینکهای فایلها لازم هستند. اگر این بستهها در محیط R شما نصب نشدهاند، میتوانید با استفاده از دستورات زیر آنها را نصب کنید:
| 1 2 3 4 | install.packages("RCurl") install.packages("XML") install.packages("stringr") install.packages("plyr") | 
داده ورودی
در این مثال، به وبسایت دادههای آبوهوا مراجعه کرده و فایلهای CSV مربوط به سال 2015 را با استفاده از R دانلود میکنیم.
مثال webdata در زبان R
ابتدا از تابع getHTMLLinks() برای جمعآوری لینکهای موجود در صفحه وب استفاده میکنیم. سپس با کمک تابع download.file() فایلها را در سیستم محلی ذخیره خواهیم کرد. از آنجا که همین کد را برای چندین فایل بهکار میبریم، یک تابع تعریف میکنیم تا چندین بار فراخوانی شود. نام فایلها نیز در قالب یک شیء لیست (list) در R به این تابع ارسال میشوند.
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | # خواندن آدرس اینترنتی url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/" # جمعآوری لینکهای HTML موجود در صفحه links <- getHTMLLinks(url) # شناسایی لینکهایی که به فایلهای JCMB 2015 اشاره دارند filenames <- links[str_detect(links, "JCMB_2015")] # ذخیره نام فایلها بهصورت یک لیست filenames_list <- as.list(filenames) # تعریف تابعی برای دانلود فایلها با دریافت آدرس اصلی و لیست نام فایلها downloadcsv <- function (mainurl,filename) {    filedetails <- str_c(mainurl,filename)    download.file(filedetails,filename) } # استفاده از تابع l_ply برای ذخیره فایلها در دایرکتوری کاری جاری در R l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/") | 
تأیید دانلود فایلها
پس از اجرای کد بالا، میتوانید فایلهای زیر را در دایرکتوری کاری فعلی R بیابید:
| 1 2 | "JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"    "JCMB_2015_Mar.csv" | 
راستی! برای دریافت مطالب جدید در کانال تلگرام یا پیج اینستاگرام سورس باران عضو شوید.
- انتشار: ۲۵ شهریور ۱۴۰۴
دسته بندی موضوعات
- آموزش ارز دیجیتال
- آموزش برنامه نویسی
- آموزش متنی برنامه نویسی
- اطلاعیه و سایر مطالب
- پروژه برنامه نویسی
- دوره های تخصصی برنامه نویسی
- رپورتاژ
- فیلم های آموزشی
- ++C
- ADO.NET
- Adobe Flash
- Ajax
- AngularJS
- apache
- ARM
- Asp.Net
- ASP.NET MVC
- AVR
- Bootstrap
- CCNA
- CCNP
- CMD
- CSS
- Dreameaver
- EntityFramework
- HTML
- IOS
- jquery
- Linq
- Mysql
- Oracle
- PHP
- PHPMyAdmin
- Rational Rose
- silver light
- SQL Server
- Stimulsoft Reports
- Telerik
- UML
- VB.NET&VB6
- WPF
- Xml
- آموزش های پروژه محور
- اتوکد
- الگوریتم تقریبی
- امنیت
- اندروید
- اندروید استودیو
- بک ترک
- بیسیک فور اندروید
- پایتون
- جاوا
- جاوا اسکریپت
- جوملا
- دلفی
- دوره آموزش Go
- دوره های رایگان پیشنهادی
- زامارین
- سئو
- ساخت CMS
- سی شارپ
- شبکه و مجازی سازی
- طراحی الگوریتم
- طراحی بازی
- طراحی وب
- فتوشاپ
- فریم ورک codeigniter
- فلاتر
- کانستراکت
- کریستال ریپورت
- لاراول
- معماری کامپیوتر
- مهندسی اینترنت
- هوش مصنوعی
- یونیتی
 
- کتاب های آموزشی
- Android
- ASP.NET
- AVR
- LINQ
- php
- Workflow
- اچ تی ام ال
- بانک اطلاعاتی
- برنامه نویسی سوکت
- برنامه نویسی موبایل
- پاسکال
- پایان نامه
- پایتون
- جاوا
- جاوا اسکریپت
- جی کوئری
- داده کاوی
- دلفی
- رباتیک
- سئو
- سایر کتاب ها
- سخت افزار
- سی اس اس
- سی پلاس پلاس
- سی شارپ
- طراحی الگوریتم
- فتوشاپ
- مقاله
- مهندسی نرم افزار
- هک و امنیت
- هوش مصنوعی
- ویژوال بیسیک
 
- نرم افزار و ابزار برنامه نویسی
- وردپرس
 











