มหาวิทยาลัยอุบลราชธานี
Ubon Ratchathani University
  www.ubu.ac.th   |   UBU Blog
สมัครเข้าใช้งาน    |   เข้าสู่ระบบ    
การวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining โดยซอฟต์แวร์ RapidMiner Studio 6 
โพสโดย อารีรัตน์ วงศ์สุวรรณ     วันที่ 9 กันยายน 2557 , 13:43:29 น.
หมวด : IT , เทคโนโลยี , มีผู้อ่านแล้ว 8,688 ครั้ง
  

     

     การพัฒนาด้าน  Business Intelligenceเป็นการวิเคราะห์ข้อมูลในคลังข้อมูลเพื่อช่วยสนับสนุนการตัดสินใจในการบริหารจัดการองค์กร ประกอบด้วยระบบข้อมูลและโปรแกรมแอพพลิเคชั่นด้านการวิเคราะห์หลายระบบ เช่น

  • ดาต้าแวร์เฮ้าส์ (Data Warehouse)
  • ดาต้ามาร์ท (Data Mart)
  • การทำเหมืองข้อมูล (Data Mining)
  • การแก้ปัญหาทางคณิตศาสตร์ (Operations Research & Numerical Methods)
  • เครื่องมือที่ใช้ในการวิเคราะห์ข้อมูลในหลายมิติ (OLAP)ระบบสืบค้นและออกรายงานต่างๆ

     การวิเคราะห์ข้อมูลด้วย  Data Mining กำลังเป็นที่นิยมไปทั่วโลกด้วยแรงขับเคลื่อนอย่างหนึ่งคือ การมีซอฟต์แวร์ที่ช่วยให้ทำการวิเคราะห์ได้ง่ายขึ้น เหมาะกับการวิเคราะห์ข้อมูลที่มีขนาดใหญ่และจำนวนมาก เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูล สำหรับการนำมาใช้เพื่อการบริหารและการตัดสินใจขององค์กร ซึ่ง Data Mining Tools ที่ได้รับความเชื่อมั่นในประสิทธิภาพการใช้งานมากที่สุดในปี 2013 ได้แก่ซอฟต์แวร์ RapidMiner Studio 6 ซึ่งเป็น open source softwareทำให้สามารถประหยัดค่าใช้จ่าย กรณีต้องการใช้งานเพื่อทดสอบการวิเคราะห์ข้อมูล การทำความสะอาดข้อมูล (Data cleansing)และการรายงานข้อมูลในรูปแบบต่างๆ เช่น ตาราง กราฟ เป็นต้น

ความแตกต่างของ Database & Warehouse & Mining

Database คือ   ฐานข้อมูลใช้ในการจัดเก็บข้อมูล ลดความซ้ำซ้อนของข้อมูล เน้นการจัดเก็บ เพิ่ม แก้ไข และลบข้อมูล

Data Warehouse  คือ  คลังข้อมูลรวบรวมข้อมูลจากหลายๆ ฐานข้อมูล  แปลงข้อมูลให้มีความเหมือนกัน เหมาะสำหรับการเรียกดู (view)  เพื่อสร้างรายงานสรุป

Data  Mining คือ  การวิเคราะห์ข้อมูลเพื่อค้นหาความสัมพันธ์หรือรูปแบบที่มีประโยชน์ในฐานข้อมูล

Data Mining คือ อะไร

     หนังสือ Data Mining Techniques ให้ความหมายไว้ว่า “เป็นการวิเคราะห์ข้อมูล เพื่อหารูปแบบ (patterns)  หรือความสัมพันธ์(relation)  ระหว่างข้อมูลในฐานข้อมูลขนาดใหญ่”

     หนังสือ Data Mining  Concepts & Techniquesให้ความหมายไว้ว่า “เป็นกระบวนการดึงข่าวสารที่น่าสนใจ และมีประโยชน์แต่ไม่เคยรู้มาก่อนจากฐานข้อมูลขนาดใหญ่”

ความสามารถและการทำงานของซอฟต์แวร์ RapidMiner Studio 6

  1. การนำเข้าข้อมูลได้หลายลักษณะ เช่น การเชื่อมโยงจากฐานข้อมูลโดยตรง, ไฟล์ Excel, ไฟล์ CSV เป็นต้น
  2. การเขียนไฟล์ให้อยู่ในรูปแบบของ Excel และ CSV
  3. การแสดงข้อมูลในกราฟแบบต่างๆ เช่น scatter plot, time series
  4. การเตรียมข้อมูล (Data Preparation)  เพื่อให้การนำเข้าข้อมูลมีความถูกต้อง ก่อนการนำเข้าจึงต้องมีการจัดการข้อมูล (preprocessing) ดังนี้
    4.1 จัดการข้อมูลที่มีความผิดพลาดในชุดข้อมูล เช่น
          •  ข้อมูลมีค่าไม่ตรง
          •  ข้อมูลขาดหายไป (missing value)
          •  ข้อมูลแปลกแยก (outlier)
    4.2 แปลงข้อมูล เช่น
          •  Discretization แปลงข้อมูล numeric ให้เป็น nominal โดยการแบ่งข้อมูลออกเป็นช่วงๆ ได้แก่ แบ่งตามเงื่อนไขที่กำหนด แบ่งตามช่วงของข้อมูลที่เท่ากัน (equal width) และ แบ่งตามข้อมูลที่มีความถี่เท่ากัน (equal frequency)
          •  Normalization แปลงข้อมูล numeric ให้มี scale ที่เท่ากัน
  5. การแปลงข้อมูลจากฐานข้อมูล relation database ให้เป็นฐานข้อมูล transaction database
  6. การหากฎความสัมพันธ์ (association rules) คือ การสร้างจาก item ที่เกิดขึ้นบ่อยๆ โดยเทคนิคการหากฎความสัมพันธ์  ได้แก่  Apriori และ FP Growth
  7. การแบ่งกลุ่มข้อมูล (clustering)  คือ การแบ่งกลุ่มข้อมูล โดยข้อมูลที่มีลักษณะคล้ายๆ กัน อยู่กลุ่มเดียวกัน และ ข้อมูลที่อยู่คนละกลุ่มจะมีลักษณะที่แตกต่างกันมากๆ เทคนิคการแบ่งกลุ่มข้อมูล  ได้แก่  K-Means, Agglomerative Clusstering และ DBScan
  8. การจำแนกประเภทข้อมูล (classification)คือ การนำข้อมูลเดิมที่มีคำตอบที่สนใจ คือ คลาส (class) มาสร้างเป็นโมเดล (model) เพื่อหาคำตอบให้กับข้อมูลใหม่ (unseen data) โดยคลาสคำตอบเป็น ประเภท (nomimal) เช่น ฝนตกหรือไม่ตก, spam email หรือ normal email เป็นต้น เทคนิคการจำแนกประเภทข้อมูล  ได้แก่ Linear Regression, Naive Bayes, Decision Tree, K-Nearest Neighbours, Neural Networksและ  Support Vector Machines
  9. การเปรียบเทียบประสิทธิภาพของโมเดลจากเทคนิค classification ต่างๆ และ t-test
  10. การทำ Text Mining การทำ Image Mining

(ที่มา  :  http://www.dataminingtrend.com และ www.facebook.com/datacube.th)

แสดงความคิดเห็น
      เข้าสู่ระบบ
  - ต้องทำการกรอก username และ password ก่อน จึงจะทำการแสดงความคิดเห็นได้
- username และ password เป็นอันเดียวกับที่ใช้ในการ login internet ของมหาวิทยาลัยอุบลราชธานี
 

ค้นหา
 
  About Me
 
ชื่อ :  นางสาวอารีรัตน์ วงศ์สุวรรณ
ตำแหน่ง :  นักวิชาการคอมพิวเตอร์
หน่วยงาน :  สำนักงานเลขานุการ
คณะ/สำนัก :  สำนักคอมพิวเตอร์
และเครือข่าย
จำนวนเรื่อง :  7
จำนวนผู้ชม :  12763
Blog :  areerat
  เรื่องย้อนหลัง
การพัฒนาการเรียนการสอนและกำลังคนด้าน STEM เพื่อเข้าสู่ตลาดแร...
การบริหารจัดการข้อมูลขนาดใหญ่ Big Data โดยใช้ซอฟต์แวร์ Hadoo...
การพัฒนาระบบคลังข้อมูลด้วย SQL Server
การวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining โดยซอฟต์แวร์ RapidM...
การกำหนดคุณสมบัติของเครื่องคอมพิวเตอร์ เพื่อการจัดซื้อในองค์...
กว่าจะเป็นคู่มือการปฏิบัติงาน "การพัฒนาโปรแกรม" สักเล่ม
หัวใจสำคัญขององค์กร อีกหนึ่งที่ไม่ควรมองข้าม
 
 
 
พัฒนาโดย สำนักคอมพิวเตอร์และเครือข่าย มหาวิทยาลัยอุบลราชธานี
© Copyright 2010 - 2015 UBON RATCHATHANI UNIVERSITY
สงวนลิขสิทธิ์ 2553 - 2558 มหาวิทยาลัยอุบลราชธานี