Scraping cases#

Youbike Data#

import requests
import json
response = requests.get('https://tcgbusfs.blob.core.windows.net/dotapp/youbike/v2/youbike_immediate.json')
print(response)
print(response.status_code)
print(response.headers)
print(type(response)) # <class 'requests.models.Response'>
print(type(response.text)) # <class 'str'>
<Response [200]>
200
{'Content-Length': '808177', 'Content-Type': 'application/json; charset=UTF-8', 'Content-MD5': 'mA7/xcXHwZ3iIgSCq6CoMA==', 'Last-Modified': 'Thu, 27 Mar 2025 07:18:09 GMT', 'ETag': '0x8DD6CFF86FB107E', 'Server': 'Windows-Azure-Blob/1.0 Microsoft-HTTPAPI/2.0', 'x-ms-request-id': '7a9ae109-601e-003e-12e8-9ef7d6000000', 'x-ms-version': '2009-09-19', 'x-ms-lease-status': 'unlocked', 'x-ms-blob-type': 'BlockBlob', 'Access-Control-Allow-Origin': '*', 'Date': 'Thu, 27 Mar 2025 07:18:36 GMT'}
<class 'requests.models.Response'>
<class 'str'>

Taipei Bus#

import requests
import json
url = "https://pda.5284.gov.taipei/MQS/RouteDyna?routeid=11763&nocache=1633009377839"
response = requests.get(url)
route = json.loads(response.text)
print(type(route))
<class 'dict'>

Cnyes#

import requests
import json
url_cnyes = "https://news.cnyes.com/api/v3/news/category/headline?startAt=1588262400&endAt=1589212799&limit=30"
res = requests.get(url_cnyes).json()
print(type(res))
<class 'dict'>

104.com#

import pandas as pd
url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc'
headers = {'referer': 'https://www.104.com.tw/'}
raw = requests.get(url_104, headers=headers).json()
print(type(raw))
---------------------------------------------------------------------------
JSONDecodeError                           Traceback (most recent call last)
File ~/anaconda3/lib/python3.10/site-packages/requests/models.py:971, in Response.json(self, **kwargs)
    970 try:
--> 971     return complexjson.loads(self.text, **kwargs)
    972 except JSONDecodeError as e:
    973     # Catch JSON-related errors and raise as requests.JSONDecodeError
    974     # This aliases json.JSONDecodeError and simplejson.JSONDecodeError

File ~/anaconda3/lib/python3.10/json/__init__.py:346, in loads(s, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    343 if (cls is None and object_hook is None and
    344         parse_int is None and parse_float is None and
    345         parse_constant is None and object_pairs_hook is None and not kw):
--> 346     return _default_decoder.decode(s)
    347 if cls is None:

File ~/anaconda3/lib/python3.10/json/decoder.py:337, in JSONDecoder.decode(self, s, _w)
    333 """Return the Python representation of ``s`` (a ``str`` instance
    334 containing a JSON document).
    335 
    336 """
--> 337 obj, end = self.raw_decode(s, idx=_w(s, 0).end())
    338 end = _w(s, end).end()

File ~/anaconda3/lib/python3.10/json/decoder.py:355, in JSONDecoder.raw_decode(self, s, idx)
    354 except StopIteration as err:
--> 355     raise JSONDecodeError("Expecting value", s, err.value) from None
    356 return obj, end

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

During handling of the above exception, another exception occurred:

JSONDecodeError                           Traceback (most recent call last)
Cell In[4], line 4
      2 url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc'
      3 headers = {'referer': 'https://www.104.com.tw/'}
----> 4 raw = requests.get(url_104, headers=headers).json()
      5 print(type(raw))

File ~/anaconda3/lib/python3.10/site-packages/requests/models.py:975, in Response.json(self, **kwargs)
    971     return complexjson.loads(self.text, **kwargs)
    972 except JSONDecodeError as e:
    973     # Catch JSON-related errors and raise as requests.JSONDecodeError
    974     # This aliases json.JSONDecodeError and simplejson.JSONDecodeError
--> 975     raise RequestsJSONDecodeError(e.msg, e.doc, e.pos)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)
print(raw.keys())
print(type(raw['data']))
print(raw['data'].keys())
print(type(raw['data']['list']))
print(type(raw['data']['list'][0]))
pd.DataFrame(raw['data']['list'])
dict_keys(['status', 'action', 'data', 'statusMsg', 'errorMsg'])
<class 'dict'>
dict_keys(['query', 'filterDesc', 'queryDesc', 'list', 'count', 'pageNo', 'totalPage', 'totalCount'])
<class 'list'>
<class 'dict'>
jobType jobNo jobName jobNameSnippet jobRole jobRo jobAddrNo jobAddrNoDesc jobAddress description ... tags landmark link jobsource jobNameRaw custNameRaw lon lat remoteWorkType major
0 0 10856947 數據科學家 Data Scientist <em class='b-txt--highlight'>數據科學家</em> <em cl... 1 1 6001001007 台北市信義區 松仁路100號10樓 Isobar作為數位轉型與數位創新的領導品牌,領先市場佈局打造專業的CR-Marketing... ... [員工120人] 距捷運象山站290公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance 數據科學家 Data Scientist 安索帕股份有限公司 121.5678798 25.0344547 0 [統計學相關, 一般商業學類, 資訊管理相關]
1 2 10760108 資料科學家 Data Scientist-數據科技(數數發中心, DDT) <em class='b-txt--highlight'>資料科學家</em> <em cl... 1 1 6001001007 台北市信義區 松仁路7號 [主要任務]\n1. 機器學習、深度學習或統計分析模型的實作開發,包含數據資料清洗、特徵工程... ... [上市上櫃, 員工400人] 距捷運市政府站430公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance 資料科學家 Data Scientist-數據科技(數數發中心, DDT) 國泰金控_國泰金融控股股份有限公司 121.5691563 25.0382555 0 []
2 2 13008885 資料科學家 Data Scientist R&amp;D - 資料科學研發科 (數數發中心,... <em class='b-txt--highlight'>資料科學家</em> <em cl... 1 1 6001001007 台北市信義區 松仁路7號 **【工作內容】**\n\n隸屬於國泰金控下的資料科學實驗室 Cathay [[[Data]... ... [上市上櫃, 員工400人] 距捷運市政府站430公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance 資料科學家 Data Scientist R&D - 資料科學研發科 (數數發中心, DDT) 國泰金控_國泰金融控股股份有限公司 121.5691692 25.0382529 0 [數理統計相關, 應用數學相關, 數學及電算機科學學科類]
3 0 7618755 Data Scientist(資料科學家/AI 工程師) <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001016009 高雄市楠梓區 研發路 1. 洞察公司營銷/工廠運維的數據,並應用數據挖掘、機器/深度學習、最佳化等等技術,優化產品... ... [上市上櫃, 員工1000人] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data Scientist(資料科學家/AI 工程師) 李長榮化學工業股份有限公司 120.3001296 22.7136179 0 [數學及電算機科學學科類, 統計學相關, 資訊工程相關]
4 2 12583605 數據科學家(統計) Data Scientist(Statistician) (Data S... <em class='b-txt--highlight'>數據科學家</em>(統計) <e... 1 1 6001002016 新北市土城區 technologies that enhance the [[[data]]] valu... ... [上市上櫃] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance 數據科學家(統計) Data Scientist(Statistician) (Data S... 鴻海精密工業股份有限公司 121.438034 24.968371 0 [數理統計相關]
5 0 12844505 Data Scientist資料科學家(遠端工作)-T05P <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001001003 台北市中山區 •\tDesign, develop, and launch extremely effic... ... [外商公司, 員工200人, 遠端工作] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data Scientist資料科學家(遠端工作)-T05P Tata Consultancy Services Limited Taiwan Branc... 121.5427093 25.0792018 2 [資訊工程相關, 數理統計相關, 資訊管理相關]
6 0 12504693 Data Scientist - Analytics (Product) / 資料科學家 -... <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001001002 台北市大同區 承德路 Analyst Team as a [[[Data]]] [[[Scientist]]].... ... [員工180人] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data Scientist - Analytics (Product) / 資料科學家 -... Pinkoi_香港商果翼科技股份有限公司台灣分公司 121.5169834 25.0504544 0 []
7 2 10917374 AI人工智能資料科學家 (Data Scientist) AI人工智能<em class='b-txt--highlight'>資料科學家</em> ... 1 1 6001001011 台北市南港區 三重路19-9號5樓 1.建立端對端(End-to-End) AI分析流程「數據收集-數據處理-特徵工程-模型訓練... ... [上市上櫃, 員工2500人] 距捷運南港展覽館站270公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance AI人工智能資料科學家 (Data Scientist) 東元電機股份有限公司 121.6137637 25.05764 0 [數學及電算機科學學科類, 資訊工程相關, 工程學科類]
8 2 12289370 Data scientist <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001002004 新北市汐止區 新台五路1段99號5樓 We are looking for a [[[Data]]] [[[Scientist]]... ... [] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data scientist 傑希生技有限公司 121.6484523 25.0620251 0 []
9 0 13028742 【111年產博後計畫】東元電機股份有限公司-AI人工智能資料科學家(Data Scienti... 【111年產博後計畫】東元電機股份有限公司-AI人工智能<em class='b-txt--... 1 1 6001001011 台北市南港區 【職缺】\nAI人工智能資料科學家([[[Data]]] [[[Scientist]]])\... ... [員工40人] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance 【111年產博後計畫】東元電機股份有限公司-AI人工智能資料科學家(Data Scienti... 國立成功大學_產學創新總中心 121.6111949 25.0312347 0 [數學及電算機科學學科類, 工程學科類]
10 0 10589685 Data Scientist 資料科學家_數據分析師 | CBU_21_13 <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001002020 新北市三重區 三和路四段111之32號7樓 分群、推薦、迴歸預測等演算法理論基礎,並有實作經驗\r\n2. 熟悉程式與分析應用,如 Py... ... [員工300人] 距捷運三和國中站110公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data Scientist 資料科學家_數據分析師 | CBU_21_13 伊雲谷數位科技股份有限公司 121.4856118 25.0774577 0 []
11 2 12602344 [AD RD] Sr. Data Scientist [AD RD] Sr. <em class='b-txt--highlight'>Data<... 1 1 6001001004 台北市松山區 復興北路337號7樓 numerical techniques, algorithms and ML model... ... [外商公司, 員工150人] 距捷運中山國中站70公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance [AD RD] Sr. Data Scientist 威朋大數據股份有限公司 121.5446271 25.060227 0 [數學及電算機科學學科類, 物理學相關, 統計學相關]
12 0 12547187 【DNA, Data &amp; AI】Data Scientist &amp; AI En... 【DNA, <em class='b-txt--highlight'>Data</em> &... 1 1 6001002020 新北市三重區 新北市三重區重新路四段12號 (近捷運菜寮站及三重站) Pytorch等\n4. 熟悉大數據生態系(Big [[[Data]]] Ecosystem... ... [員工110人] 距捷運菜寮站440公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance 【DNA, Data & AI】Data Scientist & AI Engineer_資... 雲馥數位股份有限公司 121.4887337 25.0576383 0 [數理統計相關, 資訊工程相關, 應用數學相關]
13 2 12872678 Gogoro Network_Data Scientist Gogoro Network_<em class='b-txt--highlight'>Da... 1 1 6001001004 台北市松山區 Position Impact:\nAs a [[[Data]]] [[[Scientist... ... [員工2300人] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Gogoro Network_Data Scientist Gogoro Taiwan Limited_睿能創意股份有限公司 121.5638621 25.0541591 0 []
14 2 10507560 【採線上面談】Senior Data Scientist 資深資料科學家 - Annual ... 【採線上面談】Senior <em class='b-txt--highlight'>Dat... 1 1 6001001011 台北市南港區 台北市南港區園區街3之1號11樓之1(南港軟體園區G棟) 【What a [[[Data]]] [[[Scientist]]] does in Tit... ... [外商公司, 員工300人] 距捷運南港展覽館站400公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance 【採線上面談】Senior Data Scientist 資深資料科學家 - Annual ... 新加坡商鈦坦科技股份有限公司台灣分公司 121.6123229 25.0574363 0 [資訊管理相關, 資訊工程相關, 數理統計相關]
15 2 12732481 Data Scientist <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001006002 新竹縣竹北市 台元街22號1樓 teams with creation of advance [[[data]]] ana... ... [外商公司, 員工1000人] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data Scientist 美商科磊股份有限公司台灣分公司_KLA Taiwan 121.012749 24.840712 0 [數學及電算機科學學科類, 數理統計相關, 資訊工程相關]
16 2 12657040 [Data Sci] Chief Data Scientist <em class='b-txt--highlight'>[Data</em> Sci] C... 1 1 6001001004 台北市松山區 復興北路337號7樓 [About The Job]\n* Lead the ML Team to build t... ... [外商公司, 員工150人] 距捷運中山國中站70公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance [Data Sci] Chief Data Scientist 威朋大數據股份有限公司 121.5446271 25.060227 0 [數學及電算機科學學科類, 統計學相關]
17 2 12188993 Full Stack Data Scientist Full Stack <em class='b-txt--highlight'>Data</... 1 1 6001008014 台中市后里區 三豐路四段369號 As a full-stack [[[data]]] [[[scientist]]] at ... ... [上市上櫃, 外商公司, 員工9000人, 遠端工作] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Full Stack Data Scientist 台灣美光(台灣美光晶圓科技股份有限公司/台灣美光記憶體股份有限公司/美商美光亞太科技股份有限... 120.7240916 24.3181102 2 [資訊工程相關, 資訊管理相關, 電機電子工程相關]
18 0 12716606 Data Scientist數據工程師-T03P <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001006001 新竹市 the expected outcome\n•\tIdentify and select ... ... [外商公司, 員工200人] {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data Scientist數據工程師-T03P Tata Consultancy Services Limited Taiwan Branc... 120.9674798 24.8138287 0 [資訊工程相關, 數理統計相關, 資訊管理相關]
19 2 12689367 Data Scientist / 資料科學家_11060 <em class='b-txt--highlight'>Data</em> <em cla... 1 1 6001001009 台北市北投區 立功街96號 learning / deep learning papers, and have the... ... [員工6000人] 距捷運關渡站410公尺 {'applyAnalyze': '//www.104.com.tw/jobs/apply/... jolist_b_relevance Data Scientist / 資料科學家_11060 和碩集團_和碩聯合科技股份有限公司 121.4712373 25.124796 0 [資訊工程相關, 統計學相關]

20 rows × 40 columns

Taipei Bus#