這份作業希望能夠讓你熟悉 Web Scraping 的流程,這週的重點會著重在 html。
本小題的案例為蘋果基金會的捐款平台,請抓取捐款案的最近 10 頁資料,並整理出 2 個 dataframe,且分為以下欄位:
另外,請注意以下幾點
glimpse()
分別呈現上述 tibble 的長相你可以把結果匯出成 csv,這樣就不用每次 knit 都要重抓一次資料,不過爬蟲的 code 要留著喔!加上 # comment 就好。
### your code
library(tidyverse)
# df_case_list %>% write_csv("data/AS08/df_case_list.csv")
# df_case_donation %>% write_csv("data/AS08/df_case_donation.csv")
這邊的 code 請去掉 comment 後執行喔!可以用來確認結果!
### your code
# df_case_list <- read_csv("data/AS08/df_case_list.csv")
# df_case_donation <- read_csv("data/AS08/df_case_donation.csv")
#
# # 檢查部分!!! 請去掉!!!
# df_case_list %>% summarise(n_distinct(case_id))
# df_case_list %>% summarise(n_distinct(link))
# df_case_list %>% summarise(n_distinct(link_detail))
#
# df_case_donation %>% summarise(n_distinct(link_detail))
#
# # bar chart
#
# # 看長相
# df_case_list %>% glimpse()
# df_case_donation %>% glimpse()
本小題的案例為PTT 感情版,請抓取最近 5 頁的文章列表(20篇/頁),再抓取每篇文章的內文與留言,並整理出 3 個 dataframe,且分為以下欄位:
另外,請注意以下幾點
glimpse()
分別呈現上述 tibble 的長相你可以把結果匯出成 csv,這樣就不用每次 knit 都要重抓一次資料,不過爬蟲的 code 要留著喔!加上 # comment 就好。
### your code
library(tidyverse)
# df_index %>% write_csv("data/AS08/df_index.csv")
# df_article %>% write_csv("data/AS08/df_article.csv")
# df_comment %>% write_csv("data/AS08/df_comment.csv")
### your code
# df_index <- read_csv("data/AS08/df_index.csv")
# df_article <- read_csv("data/AS08/df_article.csv")
# df_comment <- read_csv("data/AS08/df_comment.csv")
#
# # 檢查部分!!! 請去掉!!!
# df_index %>% summarise(n_distinct(index_link))
# df_article %>% summarise(n_distinct(index_link))
# df_comment %>% summarise(n_distinct(index_link))
#
# # 看長相
# df_index %>% glimpse()
# df_article %>% glimpse()
# df_comment %>% glimpse()
### your code - 串在一起