主題:spark安裝與入門操作
講者:李思壯技術長 逸思資網顧問股份有限公司
時間:1/9/2016 09:00~16:00
地點:一館三樓R1309
贊助單位:教育部資通訊軟體創新人才推升計畫
備註:
請學員自備筆電,或須具備有虛擬機配置 (Virtualbox / VMWare Player),內灌Linux或UBUNTU;至少熟悉一種程式語言;
Section 1. Linux基礎操作 |
- Lecture + 上機: 60分鐘 |
- Linux使用者權限說明 |
- Linux檔案權限說明演練 |
- Linux檔案與資料夾(目錄)說明與演練 |
- Linux重要指令說明與演練 - tar, gz, |
- JAVA: 基礎說明與JAVA安裝 |
- build program from tar, configure and make |
Section 2. 巨量資料, 分散式運算基礎知識與Apache Spark standalone mode安裝 |
- Lecture + 上機: 80分鐘 |
- 何謂巨量資料; |
- 巨量示例; 巨量資料處理包括哪些步驟 |
- 常見的巨量資料處理工作舉例: 統計、預測、text minig、分群等; 輿情/偏好分析 etc etc |
- 何謂分散式運算; 分散式運算的基本邏輯 |
- Apache Spark下載安裝,與Standalone mode執行測試 |
Section 3. Apache Spark (1): Apache Spark分散式運算原理與master / slave mode安裝 |
- Lecture + 上機: 80分鐘 |
- Apache Spark基本運作原理 |
- Apache Spark API介紹 |
- Python語言基本介紹 |
- 設定Apache Spark執行於Master / Slave模式 |
- 簡易工作說明: 計數 |
- 演練: 學員自行選擇一個字串進行計數 |
Section 4. Apache Spark (2): 串流資料處理 |
- Lecture + 上機: 80分鐘 |
- 演練: 執行Apache Spark上的Logistic Regression範例 |
- 何謂串流資料: 串流資料vs.文字資料 |
- 為何要處理串流資料; 一般而言如何處理串流資料 |
- 演練: 學員自行建置一個串流資料輸入機制,並即時送入Apache Spark進行分析 |
- 綜合討論: 有哪些運用大數據分析的Scenerio? 可能可以怎樣運用Spark? 會碰到什麼問題? |
依個資保護法規定,報名之各項資料係僅作為業務處理需用,絕不轉做其他用途,將於資料處理完畢且保留至期限後,逕行銷毀.