Scraping cases#
Youbike Data#
import requests
import json
response = requests.get('https://tcgbusfs.blob.core.windows.net/dotapp/youbike/v2/youbike_immediate.json')
print(response)
print(response.status_code)
print(response.headers)
print(type(response)) # <class 'requests.models.Response'>
print(type(response.text)) # <class 'str'>
<Response [200]>
200
{'Content-Length': '808177', 'Content-Type': 'application/json; charset=UTF-8', 'Content-MD5': 'mA7/xcXHwZ3iIgSCq6CoMA==', 'Last-Modified': 'Thu, 27 Mar 2025 07:18:09 GMT', 'ETag': '0x8DD6CFF86FB107E', 'Server': 'Windows-Azure-Blob/1.0 Microsoft-HTTPAPI/2.0', 'x-ms-request-id': '7a9ae109-601e-003e-12e8-9ef7d6000000', 'x-ms-version': '2009-09-19', 'x-ms-lease-status': 'unlocked', 'x-ms-blob-type': 'BlockBlob', 'Access-Control-Allow-Origin': '*', 'Date': 'Thu, 27 Mar 2025 07:18:36 GMT'}
<class 'requests.models.Response'>
<class 'str'>
Taipei Bus#
import requests
import json
url = "https://pda.5284.gov.taipei/MQS/RouteDyna?routeid=11763&nocache=1633009377839"
response = requests.get(url)
route = json.loads(response.text)
print(type(route))
<class 'dict'>
Cnyes#
import requests
import json
url_cnyes = "https://news.cnyes.com/api/v3/news/category/headline?startAt=1588262400&endAt=1589212799&limit=30"
res = requests.get(url_cnyes).json()
print(type(res))
<class 'dict'>
104.com#
import pandas as pd
url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc'
headers = {'referer': 'https://www.104.com.tw/'}
raw = requests.get(url_104, headers=headers).json()
print(type(raw))
---------------------------------------------------------------------------
JSONDecodeError Traceback (most recent call last)
File ~/anaconda3/lib/python3.10/site-packages/requests/models.py:971, in Response.json(self, **kwargs)
970 try:
--> 971 return complexjson.loads(self.text, **kwargs)
972 except JSONDecodeError as e:
973 # Catch JSON-related errors and raise as requests.JSONDecodeError
974 # This aliases json.JSONDecodeError and simplejson.JSONDecodeError
File ~/anaconda3/lib/python3.10/json/__init__.py:346, in loads(s, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
343 if (cls is None and object_hook is None and
344 parse_int is None and parse_float is None and
345 parse_constant is None and object_pairs_hook is None and not kw):
--> 346 return _default_decoder.decode(s)
347 if cls is None:
File ~/anaconda3/lib/python3.10/json/decoder.py:337, in JSONDecoder.decode(self, s, _w)
333 """Return the Python representation of ``s`` (a ``str`` instance
334 containing a JSON document).
335
336 """
--> 337 obj, end = self.raw_decode(s, idx=_w(s, 0).end())
338 end = _w(s, end).end()
File ~/anaconda3/lib/python3.10/json/decoder.py:355, in JSONDecoder.raw_decode(self, s, idx)
354 except StopIteration as err:
--> 355 raise JSONDecodeError("Expecting value", s, err.value) from None
356 return obj, end
JSONDecodeError: Expecting value: line 1 column 1 (char 0)
During handling of the above exception, another exception occurred:
JSONDecodeError Traceback (most recent call last)
Cell In[4], line 4
2 url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc'
3 headers = {'referer': 'https://www.104.com.tw/'}
----> 4 raw = requests.get(url_104, headers=headers).json()
5 print(type(raw))
File ~/anaconda3/lib/python3.10/site-packages/requests/models.py:975, in Response.json(self, **kwargs)
971 return complexjson.loads(self.text, **kwargs)
972 except JSONDecodeError as e:
973 # Catch JSON-related errors and raise as requests.JSONDecodeError
974 # This aliases json.JSONDecodeError and simplejson.JSONDecodeError
--> 975 raise RequestsJSONDecodeError(e.msg, e.doc, e.pos)
JSONDecodeError: Expecting value: line 1 column 1 (char 0)
print(raw.keys())
print(type(raw['data']))
print(raw['data'].keys())
print(type(raw['data']['list']))
print(type(raw['data']['list'][0]))
pd.DataFrame(raw['data']['list'])
dict_keys(['status', 'action', 'data', 'statusMsg', 'errorMsg'])
<class 'dict'>
dict_keys(['query', 'filterDesc', 'queryDesc', 'list', 'count', 'pageNo', 'totalPage', 'totalCount'])
<class 'list'>
<class 'dict'>
jobType | jobNo | jobName | jobNameSnippet | jobRole | jobRo | jobAddrNo | jobAddrNoDesc | jobAddress | description | ... | tags | landmark | link | jobsource | jobNameRaw | custNameRaw | lon | lat | remoteWorkType | major | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 10856947 | 數據科學家 Data Scientist | <em class='b-txt--highlight'>數據科學家</em> <em cl... | 1 | 1 | 6001001007 | 台北市信義區 | 松仁路100號10樓 | Isobar作為數位轉型與數位創新的領導品牌,領先市場佈局打造專業的CR-Marketing... | ... | [員工120人] | 距捷運象山站290公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | 數據科學家 Data Scientist | 安索帕股份有限公司 | 121.5678798 | 25.0344547 | 0 | [統計學相關, 一般商業學類, 資訊管理相關] |
1 | 2 | 10760108 | 資料科學家 Data Scientist-數據科技(數數發中心, DDT) | <em class='b-txt--highlight'>資料科學家</em> <em cl... | 1 | 1 | 6001001007 | 台北市信義區 | 松仁路7號 | [主要任務]\n1. 機器學習、深度學習或統計分析模型的實作開發,包含數據資料清洗、特徵工程... | ... | [上市上櫃, 員工400人] | 距捷運市政府站430公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | 資料科學家 Data Scientist-數據科技(數數發中心, DDT) | 國泰金控_國泰金融控股股份有限公司 | 121.5691563 | 25.0382555 | 0 | [] |
2 | 2 | 13008885 | 資料科學家 Data Scientist R&D - 資料科學研發科 (數數發中心,... | <em class='b-txt--highlight'>資料科學家</em> <em cl... | 1 | 1 | 6001001007 | 台北市信義區 | 松仁路7號 | **【工作內容】**\n\n隸屬於國泰金控下的資料科學實驗室 Cathay [[[Data]... | ... | [上市上櫃, 員工400人] | 距捷運市政府站430公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | 資料科學家 Data Scientist R&D - 資料科學研發科 (數數發中心, DDT) | 國泰金控_國泰金融控股股份有限公司 | 121.5691692 | 25.0382529 | 0 | [數理統計相關, 應用數學相關, 數學及電算機科學學科類] |
3 | 0 | 7618755 | Data Scientist(資料科學家/AI 工程師) | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001016009 | 高雄市楠梓區 | 研發路 | 1. 洞察公司營銷/工廠運維的數據,並應用數據挖掘、機器/深度學習、最佳化等等技術,優化產品... | ... | [上市上櫃, 員工1000人] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data Scientist(資料科學家/AI 工程師) | 李長榮化學工業股份有限公司 | 120.3001296 | 22.7136179 | 0 | [數學及電算機科學學科類, 統計學相關, 資訊工程相關] | |
4 | 2 | 12583605 | 數據科學家(統計) Data Scientist(Statistician) (Data S... | <em class='b-txt--highlight'>數據科學家</em>(統計) <e... | 1 | 1 | 6001002016 | 新北市土城區 | technologies that enhance the [[[data]]] valu... | ... | [上市上櫃] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | 數據科學家(統計) Data Scientist(Statistician) (Data S... | 鴻海精密工業股份有限公司 | 121.438034 | 24.968371 | 0 | [數理統計相關] | ||
5 | 0 | 12844505 | Data Scientist資料科學家(遠端工作)-T05P | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001001003 | 台北市中山區 | •\tDesign, develop, and launch extremely effic... | ... | [外商公司, 員工200人, 遠端工作] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data Scientist資料科學家(遠端工作)-T05P | Tata Consultancy Services Limited Taiwan Branc... | 121.5427093 | 25.0792018 | 2 | [資訊工程相關, 數理統計相關, 資訊管理相關] | ||
6 | 0 | 12504693 | Data Scientist - Analytics (Product) / 資料科學家 -... | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001001002 | 台北市大同區 | 承德路 | Analyst Team as a [[[Data]]] [[[Scientist]]].... | ... | [員工180人] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data Scientist - Analytics (Product) / 資料科學家 -... | Pinkoi_香港商果翼科技股份有限公司台灣分公司 | 121.5169834 | 25.0504544 | 0 | [] | |
7 | 2 | 10917374 | AI人工智能資料科學家 (Data Scientist) | AI人工智能<em class='b-txt--highlight'>資料科學家</em> ... | 1 | 1 | 6001001011 | 台北市南港區 | 三重路19-9號5樓 | 1.建立端對端(End-to-End) AI分析流程「數據收集-數據處理-特徵工程-模型訓練... | ... | [上市上櫃, 員工2500人] | 距捷運南港展覽館站270公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | AI人工智能資料科學家 (Data Scientist) | 東元電機股份有限公司 | 121.6137637 | 25.05764 | 0 | [數學及電算機科學學科類, 資訊工程相關, 工程學科類] |
8 | 2 | 12289370 | Data scientist | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001002004 | 新北市汐止區 | 新台五路1段99號5樓 | We are looking for a [[[Data]]] [[[Scientist]]... | ... | [] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data scientist | 傑希生技有限公司 | 121.6484523 | 25.0620251 | 0 | [] | |
9 | 0 | 13028742 | 【111年產博後計畫】東元電機股份有限公司-AI人工智能資料科學家(Data Scienti... | 【111年產博後計畫】東元電機股份有限公司-AI人工智能<em class='b-txt--... | 1 | 1 | 6001001011 | 台北市南港區 | 【職缺】\nAI人工智能資料科學家([[[Data]]] [[[Scientist]]])\... | ... | [員工40人] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | 【111年產博後計畫】東元電機股份有限公司-AI人工智能資料科學家(Data Scienti... | 國立成功大學_產學創新總中心 | 121.6111949 | 25.0312347 | 0 | [數學及電算機科學學科類, 工程學科類] | ||
10 | 0 | 10589685 | Data Scientist 資料科學家_數據分析師 | CBU_21_13 | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001002020 | 新北市三重區 | 三和路四段111之32號7樓 | 分群、推薦、迴歸預測等演算法理論基礎,並有實作經驗\r\n2. 熟悉程式與分析應用,如 Py... | ... | [員工300人] | 距捷運三和國中站110公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data Scientist 資料科學家_數據分析師 | CBU_21_13 | 伊雲谷數位科技股份有限公司 | 121.4856118 | 25.0774577 | 0 | [] |
11 | 2 | 12602344 | [AD RD] Sr. Data Scientist | [AD RD] Sr. <em class='b-txt--highlight'>Data<... | 1 | 1 | 6001001004 | 台北市松山區 | 復興北路337號7樓 | numerical techniques, algorithms and ML model... | ... | [外商公司, 員工150人] | 距捷運中山國中站70公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | [AD RD] Sr. Data Scientist | 威朋大數據股份有限公司 | 121.5446271 | 25.060227 | 0 | [數學及電算機科學學科類, 物理學相關, 統計學相關] |
12 | 0 | 12547187 | 【DNA, Data & AI】Data Scientist & AI En... | 【DNA, <em class='b-txt--highlight'>Data</em> &... | 1 | 1 | 6001002020 | 新北市三重區 | 新北市三重區重新路四段12號 (近捷運菜寮站及三重站) | Pytorch等\n4. 熟悉大數據生態系(Big [[[Data]]] Ecosystem... | ... | [員工110人] | 距捷運菜寮站440公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | 【DNA, Data & AI】Data Scientist & AI Engineer_資... | 雲馥數位股份有限公司 | 121.4887337 | 25.0576383 | 0 | [數理統計相關, 資訊工程相關, 應用數學相關] |
13 | 2 | 12872678 | Gogoro Network_Data Scientist | Gogoro Network_<em class='b-txt--highlight'>Da... | 1 | 1 | 6001001004 | 台北市松山區 | Position Impact:\nAs a [[[Data]]] [[[Scientist... | ... | [員工2300人] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Gogoro Network_Data Scientist | Gogoro Taiwan Limited_睿能創意股份有限公司 | 121.5638621 | 25.0541591 | 0 | [] | ||
14 | 2 | 10507560 | 【採線上面談】Senior Data Scientist 資深資料科學家 - Annual ... | 【採線上面談】Senior <em class='b-txt--highlight'>Dat... | 1 | 1 | 6001001011 | 台北市南港區 | 台北市南港區園區街3之1號11樓之1(南港軟體園區G棟) | 【What a [[[Data]]] [[[Scientist]]] does in Tit... | ... | [外商公司, 員工300人] | 距捷運南港展覽館站400公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | 【採線上面談】Senior Data Scientist 資深資料科學家 - Annual ... | 新加坡商鈦坦科技股份有限公司台灣分公司 | 121.6123229 | 25.0574363 | 0 | [資訊管理相關, 資訊工程相關, 數理統計相關] |
15 | 2 | 12732481 | Data Scientist | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001006002 | 新竹縣竹北市 | 台元街22號1樓 | teams with creation of advance [[[data]]] ana... | ... | [外商公司, 員工1000人] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data Scientist | 美商科磊股份有限公司台灣分公司_KLA Taiwan | 121.012749 | 24.840712 | 0 | [數學及電算機科學學科類, 數理統計相關, 資訊工程相關] | |
16 | 2 | 12657040 | [Data Sci] Chief Data Scientist | <em class='b-txt--highlight'>[Data</em> Sci] C... | 1 | 1 | 6001001004 | 台北市松山區 | 復興北路337號7樓 | [About The Job]\n* Lead the ML Team to build t... | ... | [外商公司, 員工150人] | 距捷運中山國中站70公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | [Data Sci] Chief Data Scientist | 威朋大數據股份有限公司 | 121.5446271 | 25.060227 | 0 | [數學及電算機科學學科類, 統計學相關] |
17 | 2 | 12188993 | Full Stack Data Scientist | Full Stack <em class='b-txt--highlight'>Data</... | 1 | 1 | 6001008014 | 台中市后里區 | 三豐路四段369號 | As a full-stack [[[data]]] [[[scientist]]] at ... | ... | [上市上櫃, 外商公司, 員工9000人, 遠端工作] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Full Stack Data Scientist | 台灣美光(台灣美光晶圓科技股份有限公司/台灣美光記憶體股份有限公司/美商美光亞太科技股份有限... | 120.7240916 | 24.3181102 | 2 | [資訊工程相關, 資訊管理相關, 電機電子工程相關] | |
18 | 0 | 12716606 | Data Scientist數據工程師-T03P | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001006001 | 新竹市 | the expected outcome\n•\tIdentify and select ... | ... | [外商公司, 員工200人] | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data Scientist數據工程師-T03P | Tata Consultancy Services Limited Taiwan Branc... | 120.9674798 | 24.8138287 | 0 | [資訊工程相關, 數理統計相關, 資訊管理相關] | ||
19 | 2 | 12689367 | Data Scientist / 資料科學家_11060 | <em class='b-txt--highlight'>Data</em> <em cla... | 1 | 1 | 6001001009 | 台北市北投區 | 立功街96號 | learning / deep learning papers, and have the... | ... | [員工6000人] | 距捷運關渡站410公尺 | {'applyAnalyze': '//www.104.com.tw/jobs/apply/... | jolist_b_relevance | Data Scientist / 資料科學家_11060 | 和碩集團_和碩聯合科技股份有限公司 | 121.4712373 | 25.124796 | 0 | [資訊工程相關, 統計學相關] |
20 rows × 40 columns