這份作業希望能夠讓你熟悉 Web Scraping 的流程。
請幫我從 page = 1
到 page = 5
,抓取 5 頁嘖嘖的目錄頁面。抓取欄位包含標題(title)、連結(title_link)、日程(day)、提案人(author)、提案人連結(author_link)、類別(cattext),並額外增加一個欄位代表現在的頁面(page)。
library(tidyverse)
### template FYI
<- read_rds("data/Lab09/df_zec_main_template.rds")
df_zec_main %>% glimpse() df_zec_main
#> Rows: 60
#> Columns: 8
#> $ title <chr> "你,和那些你沒說的。 魏辰哲 個展", "《Lexio Original》一款獨具匠心的韓式麻將|韓國設計", …
#> $ title_link <chr> "/projects/javiswei-solo-exhibition", "/projects/lexio-ori…
#> $ money <chr> "\nNT$33,600\n", "\nNT$27,560\n", "\nNT$173,890\n", "\nNT$…
#> $ day <chr> "timelapse剩下 52 天\n", "timelapse剩下 32 天\n", "timelapse剩下 5…
#> $ author <chr> "Javis wei", "Amodas", "Suzzi", "LaserPecker Taiwan", "Hor…
#> $ author_link <chr> "/users/wei-chen-che", "/users/amodas", "/users/suzzidesgi…
#> $ cattext <chr> "\n藝術 By\nJavis wei\n", "\n遊戲 By\nAmodas\n", "\n設計 By\nSuz…
#> $ page <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2…
承接上提,請幫我抓下上面的所有提案,應該有 60 則。抓取欄位包含連結(title_link)、內文(page_text)、支持者(page_backers)、時程(page_dayrange)、類別文字(page_cattext)、金錢相關(page_money_goal)、專案內容/留言/常見問答數量(page_meta)、專案文字(page_projecttext)、產品文字(page_producttext)。
### template FYI
<- read_rds("data/Lab09/df_zec_page_template.rds")
df_zec_page %>% glimpse() df_zec_page
#> Rows: 59
#> Columns: 9
#> $ title_link <chr> "/projects/javiswei-solo-exhibition", "/projects/lexi…
#> $ page_text <chr> "你,強勢的代名詞。每當任何人被帶入,都會像是被硬生生揪到自己面前,然後隨即被一座封閉的圍牆包圍。我迷戀說…
#> $ page_backers <chr> "28", "18", "390", "1022", "11", "198", "1184", "69",…
#> $ page_dayrange <chr> "\n時程\n2021/05/05 20:00 – 2021/06/30 23:59\n", "\n時程\…
#> $ page_cattext <chr> "\n台灣\n\\\n群眾集資\n\\\n藝術\n", "\n海外\n\\\n預購式專案\n\\\n遊戲\…
#> $ page_money_goal <chr> "\n\n\n112%\n\n112%\n\nNT$33,600\n\n目標 NT$30,000\n\n\…
#> $ page_meta <chr> "\n專案內容\n::::::\n留言\n0\n::::::\n常見問答\n3\n", "\n專案內容\n…
#> $ page_projecttext <chr> "\n\n\n\n於國立臺灣師範大學美術系畢業後的首次藝術創作個展。用藝術作品探討\"你\"這個詞彙,並衍…
#> $ page_producttext <chr> "", "\nNT$1,175\n\n\nSOLD OUT\n\n已被贊助\n10\n次\n\n【嘖嘖獨享…