作業目的: Web Scraping HTML

這份作業希望能夠讓你熟悉 Web Scraping 的流程。

作業: Web Scraping HTML

嘖嘖 - 目錄頁面

請幫我從 page = 1page = 5,抓取 5 頁嘖嘖的目錄頁面。抓取欄位包含標題(title)、連結(title_link)、日程(day)、提案人(author)、提案人連結(author_link)、類別(cattext),並額外增加一個欄位代表現在的頁面(page)。

library(tidyverse)
### template FYI
df_zec_main <- read_rds("data/Lab09/df_zec_main_template.rds")
df_zec_main %>% glimpse()
#> Rows: 60
#> Columns: 8
#> $ title       <chr> "你,和那些你沒說的。  魏辰哲 個展", "《Lexio Original》一款獨具匠心的韓式麻將|韓國設計", …
#> $ title_link  <chr> "/projects/javiswei-solo-exhibition", "/projects/lexio-ori…
#> $ money       <chr> "\nNT$33,600\n", "\nNT$27,560\n", "\nNT$173,890\n", "\nNT$…
#> $ day         <chr> "timelapse剩下 52 天\n", "timelapse剩下 32 天\n", "timelapse剩下 5…
#> $ author      <chr> "Javis wei", "Amodas", "Suzzi", "LaserPecker Taiwan", "Hor…
#> $ author_link <chr> "/users/wei-chen-che", "/users/amodas", "/users/suzzidesgi…
#> $ cattext     <chr> "\n藝術 By\nJavis wei\n", "\n遊戲 By\nAmodas\n", "\n設計 By\nSuz…
#> $ page        <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2…

嘖嘖 - 提案頁面

承接上提,請幫我抓下上面的所有提案,應該有 60 則。抓取欄位包含連結(title_link)、內文(page_text)、支持者(page_backers)、時程(page_dayrange)、類別文字(page_cattext)、金錢相關(page_money_goal)、專案內容/留言/常見問答數量(page_meta)、專案文字(page_projecttext)、產品文字(page_producttext)。

### template FYI
df_zec_page <- read_rds("data/Lab09/df_zec_page_template.rds")
df_zec_page %>% glimpse()
#> Rows: 59
#> Columns: 9
#> $ title_link       <chr> "/projects/javiswei-solo-exhibition", "/projects/lexi…
#> $ page_text        <chr> "你,強勢的代名詞。每當任何人被帶入,都會像是被硬生生揪到自己面前,然後隨即被一座封閉的圍牆包圍。我迷戀說…
#> $ page_backers     <chr> "28", "18", "390", "1022", "11", "198", "1184", "69",…
#> $ page_dayrange    <chr> "\n時程\n2021/05/05 20:00 – 2021/06/30 23:59\n", "\n時程\…
#> $ page_cattext     <chr> "\n台灣\n\\\n群眾集資\n\\\n藝術\n", "\n海外\n\\\n預購式專案\n\\\n遊戲\…
#> $ page_money_goal  <chr> "\n\n\n112%\n\n112%\n\nNT$33,600\n\n目標 NT$30,000\n\n\…
#> $ page_meta        <chr> "\n專案內容\n::::::\n留言\n0\n::::::\n常見問答\n3\n", "\n專案內容\n…
#> $ page_projecttext <chr> "\n\n\n\n於國立臺灣師範大學美術系畢業後的首次藝術創作個展。用藝術作品探討\"你\"這個詞彙,並衍…
#> $ page_producttext <chr> "", "\nNT$1,175\n\n\nSOLD OUT\n\n已被贊助\n10\n次\n\n【嘖嘖獨享…