การอบรมเชิงปฏิบัติการออนไลน์ เรื่อง Data Analytics with Pentaho BI, Weka, R, and Hadoop From Business Intelligence to Data Science รุ่นที่ 2

9 – 22 กันยายน 2563

ความคิดเห็นของผู้เข้าอบรม รุ่นที่ 1


บทความวิชาการ เรื่อง ระบบการวิเคราะห์ข้อมูล
ประมวลสาระ
แนวการศึกษา


สมาคมศูนย์วิชาการไทย – ออสเตรเลีย ซึ่งได้ก่อตั้งขึ้นในประเทศไทยมากว่า 30 ปี  เป็นองค์กรที่ไม่แสวงหาผลกำไร และมีความร่วมมือกับหน่วยงานต่าง ๆ ในการจัดกิจกรรมการสัมมนา/อบรมเชิงปฏิบัติการทางวิชาการต่างๆ  ได้จัดอบรมเชิงปฏิบัติการเกี่ยวกับ Business Intelligence โดยใช้ Open Source Pentaho Business Analytic Platform  โดยคณะวิทยากรผู้เชี่ยวชาญ นำโดย ผศ. ดร. สุณี รักษาเกียรติศักดิ์ ศิษย์เก่าออสเตรเลีย  โดยได้จัดโครงการอบรมครั้งแรกในรุ่นที่ 1 ในวันที่ 18-20 กุมภาพันธ์ 2554 (2011) และได้รับการตอบรับอย่างดีจากหน่วยงานต่าง ๆ ทั้งภาครัฐ เอกชน และสถาบันการศึกษา สมาคมฯ ได้จัดต่อเนื่อง โดยได้มีการปรับเนื้อหาหลักสูตรตามความก้าวหน้าของเทคโนโลยี จาก Business Intelligence to Data Science  ในการจัดทุกครั้งได้รับการตอบรับเป็นอย่างดี 

ใน 3 – 4  ปีที่ผ่านมา ผู้คนให้ความสนใจเกี่ยวกับ Data Science, Big data กันมาก องค์กรใหญ่ๆ ในภาคเอกชนเริ่มมีตำแหน่งงานเกี่ยวกับ Data Science, Big data และภาคการศึกษาเริ่มมีการพัฒนาหลักสูตรเกี่ยวกับ Data Science และ Big data กันมากขึ้น เพื่อสนองตอบนโยบายของรัฐเกี่ยวกับ Big data 

สมาคมฯ ได้พัฒนาหลักสูตรการวิเคราะห์ข้อมูล (Data Analytics) มาตั้งแต่การพัฒนาระบบ Business Intelligence ซึ่งจำเป็นสำหรับการวิเคราะห์ข้อมูลทางธุรกิจขององค์กรแบบอัตโนมัติเพื่อสนับสนุนการบริหารและการตัดสินใจ ซึ่งข้อมูลส่วนใหญ่มาจากฐานข้อมูลเชิงสัมพันธ์ (Relational Database) ที่เกิดจากธุรกรรม (transaction) ขององค์กร ที่เรียกว่า Operational Database ซึ่งเป็นข้อมูลเชิงโครงสร้าง (structured) โดยมีการออกแบบ Data Model (Multidimensional data modelling) สำหรับสร้างฐานข้อมูลที่พร้อมจะวิเคราะห์ซึ่งจะอยู่ในฐานข้อมูลเดียวที่เรียกว่าคลังข้อมูล Data warehouse หรือคลังข้อมูลย่อย Data mart ก็ได้ โดยมี Business Intelligence Platform (software) เช่น Pentaho Business Analytics Suite เป็นระบบจัดการที่ครบวงจร ตั้งแต่ Data Engineering, Data Analysis & Modelling, Data Visualization จนขยายขอบเขตการอบรมไปถึง Data Science วิทยาการข้อมูลที่ขยายขอบเขตที่กว้างขวางขึ้น มีการวิเคราะห์ข้อมูลขนาดใหญ่ (big data): 3V คือ ข้อมูลจำนวนมหาศาล (Volume), เกิดขึ้นอย่างรวดเร็ว (Velocity), ในหลากหลายรูปแบบ (Variety) ซึ่งเป็นข้อมูล unstructured เช่น ข้อมูลในเว็บ, social media, IoT (Internet of Things) เป็นต้น โดยใช้เทคโนโลยีการจัดเก็บและประมวลผลแบบกระจาย เช่น Hadoop (HDFS, Map-Reduce)

สมาคมได้จัดอบรมแบบมีห้องเรียนครั้งสุดท้ายเมื่อวันที่ 27 พฤษภาคม – 1 มิถุนายน 2562 (http://www.tatsc.or.th/index.php/events/199-data-analytics-with-pentaho-bi-weka-r-and-hadoopfrom-business-intelligence-to-data-science-27-1-2562) ซึ่งได้รับการตอบรับเป็นอย่างดี มีผู้สมัครเข้าอบรมเต็มจำนวน ในการอบรมครั้งนั้นได้มีการเตรียมการอัด VDO การอบรมเพื่อให้สามารถขยายการอบรมแบบออนไลน์ได้อย่างกว้างขวางและค่าใช้จ่ายต่ำ โดยร่วมมือกับ บริษัท โอเพ่นเซิร์ฟ จำกัด (OPENSERVE .CO.,LTD http://www.openserve.co.th/) จัดทำสื่อ VDO ออนไลน์ ได้นำร่องการอบรมแบบออนไลน์รุ่นที่ 1 วันที่ 15 – 28 มิถุนายน 2563 และประสบความสำเร็จด้วยดี 

การอบรมออนไลน์ครั้งนี้จะเป็นการอบรม รุ่นที่ 2 ในวันที่ 9 – 22 กันยายน 2563 การอบรมนี้จะเน้นปฏิบัติการจากโจทย์จริง ข้อมูลจริงหรือใกล้เคียงของจริง และ Solution จริง ผู้เข้าอบรมจะได้ประสบการณ์และเห็นภาพใหญ่ของกระบวนการพัฒนาระบบการวิเคราะห์ข้อมูล ทำให้สามารถจะเริ่มงานจริงของหน่วยงานได้ โดยไม่มีค่าใช้จ่ายด้านซอฟต์แวร์ เนื่องด้วยซอฟต์แวร์ที่ใช้เป็น software free ทั้งหมด

ซอฟต์แวร์หลักที่ใช้ในการอบรม

1. Pentaho Business Analytic Platform 
(https://www.hitachivantara.com/en-us/products/data-management-analytics/pentaho-platform.html
เป็น Open Source BI Application Software ที่ใช้ Java technology และเป็นที่สนใจอย่างกว้างขวาง หลังจากได้รับรางวัล Bossie Awards 2010: The best open source applications โดย Pentaho ได้มีการพัฒนาชุดซอฟต์แวร์นี้เชิงรุกอย่างต่อเนื่อง  จุดเด่นอีกประการหนึ่งของ Pentaho Business Analytic Platform คือ รองรับการทำงานกับข้อมูลที่หลากหลาย ทั้งฐานข้อมูล NOSQL การประมวลผล big data ด้วย Hadoop และการวิเคราะห์ข้อมูลด้วย Weka, R, และ Spark  อีกทั้งเป็นระบบ Open Source ที่ติดตั้งง่าย ใช้งานง่าย มีทั้งระบบที่เป็น  Community Edition (Pentaho CE) ซึ่งไม่มีค่าใช้จ่ายด้านซอฟต์แวร์ และระบบ Enterprise Edition (Pentaho EE) ซึ่งเพิ่ม features ต่างๆ มากขึ้นจากระบบ Community Edition
 
2. Postgres (https://www.postgresql.org/) THE WORLD'S MOST ADVANCED OPEN SOURCE RELATIONAL DATABASE 

3. Weka (https://www.cs.waikato.ac.nz/ml/weka/)  Open source software ในการทำ data mining และสามารถ deploy model อัตโนมัติผ่าน Pentaho Data Integration โดยไม่ต้องเขียน code

4. R (https://www.r-project.org/) สำหรับการทำ Exploratory Data Analysis & Modelling โดยไม่ต้องเขียน code แต่เรียกใช้เมนู R-Commander (เหมือนเมนู SPSS) ในการวิเคราะห์ และเรียนรู้คำสั่ง R จาก R-Commander  

5. Cloudera Hadoop (https://www.cloudera.com/products/open-source/apache-hadoop.html) และ 
Pentaho-Hadoop ผ่าน Pentaho Data Integration

6. Power BI (https://powerbi.microsoft.com/)  เสริม สำหรับ Visualization

เนื้อหาหลักสูตร

มี 3 โมดูล (เดิมอบรมโมดูลละ 2 วัน) สำหรับการพัฒนาระบบการวิเคราะห์ข้อมูลที่สอดคล้องกับ Gartner Analytic Value Escalator

โมดูล 1: Descriptive Analytics with Pentaho Business Intelligence Platform 
ปูพื้นฐานหลักของการพัฒนาระบบ Business Intelligence เป็นการนำเสนอข้อมูลแบบ Descriptive อัตโนมัติ โดยใช้เครื่องมือหลัก 3 ตัว คือ Schema Workbench สำหรับสร้าง OLAP Cube, Data Integration สำหรับทำ ETL (Extract Transform and Load), และ Community Dashboard Editor (CDE) สำหรับสร้าง Dashboard เป็นการจัดการและวิเคราะห์ข้อมูลแบบอัตโนมัติระดับ Descriptive Analytics ซึ่งใช้มากในองค์กร

โมดูล 2: Diagnostic, Predictive, and Prescriptive Analytics 
นำเสนอการจัดการข้อมูล การวิเคราะห์ข้อมูล ของ Use case จริง 2 Use cases 
วันที่ 1  eLearning Use case
ปฏิบัติการกรณีศึกษาการพัฒนาระบบ BI จากโจทย์งานวิจัย “การทำเหมืองข้อมูลของระบบการจัดการเรียนออนไลน์: กรณีศึกษาของระบบ ATutor”  ที่  http://ejournals.swu.ac.th/index.php/ssj/article/viewFile/847/846  จาก data source ที่เป็น OLTP Relational Database ซึ่งยังไม่เป็นระบบอัตโนมัติ  ให้เป็นระบบ BI อัตโนมัติ ด้วย Pentaho ทำ data mining โดยใช้ Weka และ deploy model โดยใช้ Pentaho Weka Scoring Plugin Data Science Pack ของ Pentaho  ในการอบรม Use case นี้จะเห็นตั้งแต่ Descriptive Analytics, Predictive Analytics และ Prescriptive Analytics (การนำโมเดลไปใช้) 
วันที่ 2: IoT Use case 
ปฏิบัติการกรณีศึกษาการวิเคราะห์ข้อมูลจริง (use case) จาก IoT Sensors วัดคุณภาพอากาศ (https://canarin.net/seahazemon/) จากโครงการวิจัยของ intERLab AIT (https://interlab.ait.ac.th/HAZEMON/) การจัดการข้อมูล การวิเคราะห์สถิติสำหรับการทำ Exploratory Data Analysis, Time Series, Modelling ด้วย Regression, Linear Model, Neural Net ด้วยโปรแกรม R, Weka, Pentaho, และเสริม visualization ด้วย Power BI

โมดูล 3: Big Data Analytics with Pentaho Hadoop 
หลักสูตรนี้เหมาะสำหรับนักไอทีที่สนใจเป็น Data Scientist, Data Engineer และ Computer System Engineer 
(ใช้ OS Linux บน Virtual Machine) 
วันที่ 1  การวิเคราะห์ big data ด้วย Hadoop และ Pentaho-Hadoop ด้วยโจทย์ข้อมูลของ Web log  โดยใช้ Pentaho Data Integration ซึ่งไม่ต้องเขียน JAVA Map-Reduce และการนำเสนอผลการวิเคราะห์ใน Pentaho OLAP Cube, การใช้งาน Hive และ HBase  โดยใช้ Virtual Machine ที่ติดตั้ง CentOS, JAVA, PostgreSQL, Pentaho CE, Hadoop (version 1) เรียบร้อยแล้ว เน้นการใช้งานสำหรับ Data Scientist
วันที่ 2: การติดตั้ง Hadoop Cluster (Hadoop version 2) ด้วย Cloudera และทดสอบการใช้งาน 
การ run WordCount ด้วย Java Map-Reduce การวิเคราะห์ข้อมูลตัวอย่าง Web log ด้วย Pentaho-Hadoop บน Cloudera Hadoop Cluster การติดตั้งและใช้งานเครื่องมืออื่น ๆ ของ Hadoop Ecosystem เช่น Hive การใช้งาน Pentaho ร่วมกับ Hadoop, Hive การใช้งาน Hue – Web UI 


หมายเหตุ  ผู้เข้าอบรมไม่ต้องเขียน code ใด ๆ ในการวิเคราะห์ข้อมูล เหมาะสำหรับนักไอทีและผู้ที่สนใจการวิเคราะห์ข้อมูลทางธุรกิจ เพื่อสร้างทักษะการทำงานเป็น Data Analyst, Data Scientist, Data Engineer 
สามารถดูรายละเอียดโครงการ เอกสารอบรม และVDO  การสอนได้ที่เว็บสมาคม www.tatsc.or.th 

จำนวนรับเข้าอบรมและคุณสมบัติของผู้เข้าอบรม 

รับจำนวนจำกัด  30 คน  ในแต่ละโมดูล

โมดูล 1: Descriptive Analytics with Pentaho Business Intelligence Platform
โมดูล 2: Diagnostic, Predictive, and Prescriptive Analytics
โดยผู้สมัครต้องมีคอมพิวเตอร์ ซึ่งต้องมีคุณสมบัติดังนี้

RAM: at least 8 GB
Hard drive space: at least 30 GB free space
Processor: at least Core i5 
OS: Windows7 or higher 64 bits

หมายเหตุ:  โมดูล 3 จำเป็นต้องจัดแบบมีชั้นเรียน เนื่องด้วยสื่อประกอบการอบรมมีขนาดใหญ่มาก และเหมาะกับผู้ที่เป็นนักไอทีโดยเฉพาะ (ใช้ OS Linux บน Virtual Machine) ซึ่งผู้อบรมต้องการความช่วยเหลือจากวิทยากรพอสมควร คาดว่าจะจัดในรุ่นที่ 3 ราวต้นเดือนพฤศจิกายน 2563

วิธีการอบรม

บรรยายภาพรวมของทฤษฎีและหลักการที่เกี่ยวข้อง สำหรับภาคปฏิบัติการวิทยากรจะสาธิตตามเอกสารอบรม Step by step  และให้ผู้เข้าอบรมปฏิบัติตาม (เน้นปฏิบัติการเพื่อให้ได้ Solution ที่ใช้งานได้จริง)


โจทย์ที่ใช้ปฏิบัติการจะเป็นตัวอย่างและข้อมูลที่ต่อเนื่องกัน (อบรมแบบ Problem based) โดยผู้อบรมจะได้รับ VDO ชุดการสอน ไฟล์เอกสารการสอน ไฟล์ข้อมูลภาคปฏิบัติและโปรแกรม ผ่านทางแอป ผู้อบรมสามารถ download และใช้เรียนผ่านแอปแบบออฟไลน์ (ไม่ต้องต่อเน็ต) โดยสามารถเปิด VDO ผ่านแอปมือถือ และปฏิบัติตามด้วยเครื่องพีซีหรือโน้ตบุ๊คด้วยตนเองได้ หากมีข้อสงสัยสามารถสอบถามเข้ามาในไลน์กลุ่มได้ โดยทีมวิทยากรจะจัดตารางเข้ามาตอบแก้ปัญหาให้ หรืออาจจะมีการใช้เครื่องมือออนไลน์อื่นๆ เสริม ตามความจำเป็น และผู้เข้าอบรมต้องส่งงานออนไลน์ ตามที่วิทยากรกำหนดเพื่อการรับประกาศนียบัตรจากสมาคมฯ 

ค่าสมัครในการอบรม

ค่าลงทะเบียน สำหรับแต่ละโมดูล
แบบที่ 1: คนละ 2,700 บาท สำหรับผู้ที่หักภาษี ณ ที่จ่าย ขอใบเสร็จ ใบประกาศนียบัตรส่งทางไปรษณีย์ 
แบบที่ 2: คนละ 2,500 บาท สำหรับผู้ที่รับใบเสร็จ ใบประกาศนียบัตร ที่ scan เป็น pdf ส่งทาง e-mail (ไม่ส่งทางไปรษณีย์)

แบบที่ 3: คนละ 2,000 บาท สำหรับนิสิต/นักศึกษาที่กำลังเรียนอยู่ รับใบเสร็จ ใบประกาศนียบัตร ที่ scan เป็น pdf ส่งทาง e-mail (ไม่ส่งทางไปรษณีย์)
หมายเหตุ ราคานี้เป็นราคาสุทธิแล้ว (เนื่องจากสมาคมฯ ไม่อยู่ในเงื่อนไขที่ต้องจดทะเบียนภาษีมูลค่าเพิ่ม)

การสมัครเข้าอบรม

โปรดกรอกรายละเอียดของผู้เข้าอบรมที่เว็บสมาคม www.tatsc.or.th  เพื่อจองการสมัคร และ
ชำระค่าสมัคร ภายในวันที่ 8 กันยายน 2563

โดยจ่ายเข้า บัญชีธนาคารของสมาคม ดังนี้:

ธนาคารกรุงเทพ สาขาจามจุรี สแควร์   บัญชีเงินฝากสะสมทรัพย์ เลขที่: 939-020841-2 
ชื่อบัญชี: สมาคม ศูนย์วิชาการไทย-ออสเตรเลีย

และส่งสำเนา Pay-in slip มาทาง e-mail:   tatsc2523@gmail.com
เมื่อทางสมาคมได้รับเอกสารแล้วจะตอบกลับทาง e-mail

อนึ่ง สำหรับผู้เข้าอบรมที่ต้องหักภาษี ณ ที่จ่าย  โปรดออกเอกสารการหักภาษี ณ ที่จ่ายตามรายละเอียดดังนี้
สมาคมศูนย์วิชาการไทย-ออสเตรเลีย  เลขประจำตัวผู้เสียภาษี 0993-000-178998 
ที่อยู่  968  ชั้น  9  อาคารอื้อจือเหลียง ถนนพระราม 4  แขวงสีลม เขตบางรัก กรุงเทพมหานคร 10500

 

หมายเหตุ : 
1)  สมาคมขอสงวนสิทธิ์ที่จะยกเลิกการอบรมในกรณีที่มีเหตุขัดข้องสุดวิสัย โดยทางสมาคมฯ จะโอนเงินคืนให้ท่านในกรณีที่ท่านได้มีการชำระมาก่อนล่วงหน้า
2)  สมาคมขออนุญาตที่จะออกใบเสร็จรับเงินให้กับผู้อบรมลงวันที่อบรมวันแรก (หรือตามที่ผู้อบรมระบุ)
3) หากมีข้อสงสัยประการใด โปรดติดต่อสมาคมที่ e-mail:  tatsc2523@gmail.com  
หรือที่ ผศ.ดร.สุณี  รักษาเกียรติศักดิ์  089-211-6224

 

กำหนดการอบรมเชิงปฏิบัติการออนไลน์ เรื่อง
Data Analytics with Pentaho BI, Weka, R, and Hadoop
From Business Intelligence to Data Science รุ่นที่ 2

โมดูล 1: Descriptive Analytics with Pentaho Business Analytics Platform

เอกสารประกอบการอบรม รุ่นที่ 1, ตัวอย่าง VDO (เอกสารหน้า 10-24)

 

สัปดาห์ที่ 1: วันที่ 9-15 กันยายน 2563 
   หัวข้อที่ 1: แนวคิด หลักการ และประโยชน์ ของ “Business Intelligence”
                   ภาพรวมของระบบ Pentaho Business Intelligence (Pentaho BI)
                   ติดตั้งระบบ Pentaho Community Edition (Pentaho CE)
                   (ติดตั้ง Java, ฐานข้อมูล PostgreSQL, Pentaho CE, Design-Tools)
   หัวข้อที่ 2: โจทย์สำหรับทำ BI: 
                   กรณีศึกษาของระบบงานบุคคล (Human Resource) 
                   การออกแบบ Data Model 
                   การนำข้อมูลสำหรับการวิเคราะห์ (ที่ ETL แล้ว) เข้าฐานข้อมูล Postgres 
   หัวข้อที่ 3: ทดลองใช้ระบบในฐานะผู้ใช้ (Users)  
                   Reporting, Analysis (OLAP Cube), Dashboard
   หัวข้อที่ 4: หลักการและปฏิบัติการ: การใช้ Schema Workbench สำหรับสร้าง OLAP Cube

สัปดาห์ที่ 2: วันที่ 16-22 กันยายน 2563
   หัวข้อที่ 5: หลักการและปฏิบัติการ: การใช้ Community Dashboard Editor (CDE) สำหรับสร้าง Dashboard
   หัวข้อที่ 6: หลักการและปฏิบัติการ: การใช้ Data Integration 
                   สำหรับจัดเตรียมข้อมูลสำหรับการวิเคราะห์ Extract Transform & Load (ETL)

หมายเหตุ: ผู้เข้าอบรมสามารถเรียนเวลาใดก็ได้ ในช่วงเวลาที่กำหนด โดยทางโครงการจะมีทีมวิทยากรจะเข้ามาให้ความช่วยเหลือทางออนไลน์วันละ 3 ชั่วโมงเป็นอย่างน้อย ตลอด 2 สัปดาห์/14 วัน: 16:30 – 17:30 น. และ 20 – 22 น.
ทีมวิทยากร: 1) ผู้ช่วยศาสตราจารย์ ดร.สุณี รักษาเกียรติศักดิ์
                     2) ผู้ช่วยศาสตราจารย์ ดร.วราภรณ์ วิยานนท์ 


กำหนดการอบรมเชิงปฏิบัติการออนไลน์ เรื่อง
Data Analytics with Pentaho BI, Weka, R, and Hadoop
From Business Intelligence to Data Science รุ่นที่ 2

โมดูล 2: Diagnostic, Predictive, and Prescriptive Analytics
 
สัปดาห์ที่ 1: วันที่ 9-15 กันยายน 2563 
   หัวข้อที่ 1: โจทย์สำหรับทำ BI “การทำเหมืองข้อมูลของระบบการจัดการเรียนออนไลน์: กรณีศึกษาของระบบ ATutor” ที่ http://ejournals.swu.ac.th/index.php/ssj/article/viewFile/847/846
                   – ออกแบบ Data model สำหรับการวิเคราะห์
                   – นำข้อมูล ATutor_wh (ที่ ETL แล้ว) เข้าฐานข้อมูล PostgreSQL 
                   – ทดสอบ ATutor Pentaho Solutions: Report, Cube, Dashboard as Descriptive
   หัวข้อที่ 2: การทำเหมืองข้อมูลด้วย Weka:
                   Classification, Prediction, Association, Clustering  
   หัวข้อที่ 3: การทำ Data Integration และ Data Mining: Clustering Predictive Model และ นำ Model ไปใช้กับข้อมูลชุดใหม่ (Prescriptive)

สัปดาห์ที่ 2: วันที่ 16-22 กันยายน 2563
   หัวข้อที่ 4: Data Manipulation, Exploration, and Modelling
   หัวข้อที่ 5: Data Visualization ด้วย Power BI

หมายเหตุ: ผู้เข้าอบรมสามารถเรียนเวลาใดก็ได้ ในช่วงเวลาที่กำหนด โดยทางโครงการจะมีทีมวิทยากรจะเข้ามาให้ความช่วยเหลือทางออนไลน์วันละ 3 ชั่วโมงเป็นอย่างน้อย ตลอด 2 สัปดาห์/14 วัน: 16:30 – 17:30 น. และ 20 – 22 น.
ทีมวิทยากร: 
1) ผู้ช่วยศาสตราจารย์ ดร.สุณี รักษาเกียรติศักดิ์
                     2) ผู้ช่วยศาสตราจารย์ ดร.วราภรณ์ วิยานนท์