วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

Week 9 : Data Management II and Business Intelligent

Data Management II and Business Intelligent
Data Management II
Metadata
คือ ข้อมูลที่ใช้อธิบาย Data ที่อยู่ใน Data Warehouse และวิธีการในการย้ายข้อมูล
Data Mart
เป็น Data Warehouseขนาดเล็กที่ออกแบบมาเพื่อใช้ในการตัดสินใจเชิงกลยุทธ์ของแต่ละ SBU และ Department เพื่อลดปัญหาในการที่มีผุ้ใช้Data Warehouseมากเกินไปจนcapacityรับไม่ไหว จึงมีการทำData Martของแต่ละหน่วยโดยดึงเฉพาะข้อมูลที่จะเป็นต้องใช้ Data mart แบ่งออกเป็น2ประเภทคือ
1.       Replicated(dependent) data mart เป็นการนำข้อมูลจากในData Warehouse มาเฉพาะส่วนที่ใช้เพื่อสร้างdata martของแต่ละหน่วย
2.       Stand-alone data mart เป็น data mart ที่เกิดขึ้นเนื่องจากมีหน่วยในองค์กรไม่พร้อมที่จะสร้าง Data Warehouse หน่วยที่พร้อมจึงสร้างData mart ของตัวเองใช้ไปก่อน เมื่อทุกหน่วยในองค์กรพร้อมก็จะนำdata mart มารวมกันเป็นdata Warehouse แต่ในความเป็นจริงแล้วเกิดขึ้นได้ยาก
Data Cube
        Data Cube คือ Multidimensional Databases ที่เอาไว้เก็บข้อมูลที่ Transform แล้วจึงมา Load ลงที่นี่ เพื่อให้สามารถมองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น จุดเด่นของ Data Cube คือ สามารถตัดแบ่งส่วนเพื่อเลือกข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้สามารถวิเคราะห์ข้อมูลที่มีได้ในหลายมิติ หลายมุมมอง ทำให้เห็นปัญหาที่ชัดเจนขึ้นโดยใช้วิธี Slice (การตัดข้อมูลออกมาโดยมองในมุมมองของช่วงเวลา แต่มองสินค้าทุกชนิด) และ Dice (การตัดข้อมูลออกมาโดยมองในมุมมองของสินค้าชนิดหนึ่ง ในช่วงเวลายาวๆ)
Business Intelligent
                Business Intelligent ไม่ใช่ระบบสารสนเทศแต่เป็นเครื่องมือในการวิเคราะห์ข้อมูล การใช้ Business Intelligent ไม่จำเป็นที่จะต้องมี Data Warehouse จะใช้ Database  แทนได้แต่อาจจะเกิดปัญหา เช่น Consistency เป็นต้น
Business Intelligent Function and Feature
ประกอบด้วย3ส่วนหลัก คือ
                1.Reporting and analysis –การออกรายงาน
1.1.Enterprise Reporting System - จัดทำรายงานทั้งในรูปแบบปกติ และรูปแบบที่สามารถปรับแก้ได้ตามความต้องการ ซึ่งรายงานเหล่านี้จะเป็นข้อมูลที่เตรียมให้สำหรับผู้บริหารนำไปใช้ในการวิเคราะห์
1.2.Dashboards - ส่วนมากเป็นการแสดงรายงานของ operation และ tactical แต่ก็มีในระดับ strategic ด้วย (แต่ไม่นิยม)
1.3. Scorecard - เป็นรายงานสำหรับผู้บริหาร ผู้จัดการในระดับ strategic
                2.Analytic – การวิเคราะห์
2.1.Online Analytical Processing (OLTP) –เป็นเครื่องมือเก่าแก่ซึ่งปัจจุบันยังมีใช้อยู่บ้าง เป็นเครื่องมือเริ่มต้นของผู้บริหารที่ช่วยในการวิเคราะห์ โดยจะช่วยระบุปัญหาและวิเคราะห์ได้ในพื้นฐานเท่านั้น ซึ่งการวิเคราะห์ข้อมูลด้วยเครื่องมือนี้จะทำให้ได้ insight ของข้อมูล แสดงผลออกมาในรูปแบบของกราฟ
2.2.Mining เป็นการนำข้อมูลที่ยังไม่รู้ขึ้นมาให้รู้โดยแบ่งเป็น3ประเภทคือ
2.2.1.Data Mining –เป็นการค้นหาข้อมูลที่มีโครงสร้างซึ่งข้อมูลที่จะนำมาใช้ต้องมีจำนวนมาก โดยแบ่งผลออกเป็น5ประเภทคือ
1.Clustering - นำเสนอข้อมูลโดยให้ข้อมูลจัดกลุ่มโดยไม่กำหนดกลุ่มให้กับข้อมูลตั้งแต่ต้นแต่แสดงตามความสัมพันธ์ของข้อมูล
2.Classification – นำเสนอข้อมูลตามกลุ่มที่เรากำหนดตั้งแต่ต้น สามารถทดสอบว่าสมมติฐานของเราถูกต้องหรือไม่
3.Association - นำเสนอผลสืบเนื่อง
4.Sequence discovery - consequence ที่เกิดตามหลังมา
5.Prediction – นำเสนอโดยการพยากรณ์สิ่งที่จะเกิดขึ้น
2.2.2.Text Mining -เป็นการจัดกระทำกับข้อมูลที่ไม่มีรูปแบบ (Unstructure Data) เช่น ความคิดเห็นของลูกค้า โดยจะช่วยในการหา hidden content จากข้อมูลที่ไม่มีรูปแบบ และจัดกลุ่มข้อมูลที่มีลักษณะเดียวกันเข้าด้วยกัน
การนำไปใช้
                1.ตรวจหา spamหรือ phishing mail
                2..ใช้ใน call center
                                                2.2.3.Web mining จะต่อในครั้งหน้า
                3.Data Integration – งานเตรียมข้อมูล
นายวรฐ ทรงฤกษ์ 5202112594

วันศุกร์ที่ 14 มกราคม พ.ศ. 2554

Week8 : Data Management

ระบบคือ
1.วัตถุประวงค์
2.ส่วนประกอบ
3.กระบวนการทำงาน
o   Input
o   Process
o   Output
ระบบสารสนเทศคือระบบที่มีหน้าที่รวบรวมข้อมูล เพื่อนำมาประมวลผล วิเคราะห์เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะขึ้นมาและนำเสนอสารสนเทศนั้นให้กับผู้ที่ต้องการวึ่งต้องเป็นผู่ที่มีสิทธิจะได้รับสารนั้นรวมทั้งการจัดเก็บบันถึกข้อมูล(DATA)ที่นำเข้ามาสู่ระบบเพื่อการใช้งานในอนาคต
องค์ประกอบของระบบสารสนเทศ
1.Hardware
2.Software
3.Data
4.Network
5.Procedure
6.People
การบริหารข้อมูลทำได้ยาก เพราะ
1.               มีข้อมูลเพิ่มขึ้นจำนวนมากตลอดเวลา
2.               ข้อมูลกระจัดกระจายอยู่ตามหน่วยงานต่างๆ 
3.               ข้อมูลมีความซ้ำซ้อน เมื่อแต่ละฝ่ายมีการสร้างและเก็บแยกจากกัน
4.               ข้อมูลจากภายนอกที่ใช้ในการตัดสินใจเป็นข้อมูลที่เราไม่ได้เป็นเจ้าของ จึงไม่สามารถทำอะไรได้
5.               มีเรื่องความปลอดภัยของข้อมูล คุณภาพ และ จริยธรรมที่เป็นประเด็นสำคัญ
6.               การเลือกเครื่องมือเพื่อใช้ในการจัดการ
วัตถุประสงค์คือการจัดทำโครงสร้างพื้นฐานเพื่อแปลงข้อมูลดิบเป็นสารสนเทศขององค์กรมีพื้นฐานดังนี้
1.      Data profiling ข้อมูลเบื้องต้นของข้อมูลที่จัดเก็บ
2.      Data quality management เพื่อการปรับปรุงคุณภาพของข้อมูล
3.      Data integration เป็นการรวบรวมข้อมูลที่เหมือนกันจากหลายแหล่งเข้าด้วยกัน
4.      Data augmentation เพื่อเพิ่มคุณค่าของข้อมูล
Data Life cycle Process
1.เก็บรวบรวมข้อมูลจาก
o   Internal data
o   External data
o   Personal Data
2.จัดเก็บในDatabase
3.ให้Userสามารถเข้าถึงData MartหรือData Warehouseเพื่อนำไปวิเคราะห์ได้
4.วิเคราะห์โยใช้ 2 เครื่องมือ
o   Data Analysis Tools
o   Data mining Tools
Data processing
1.      Transactional เป็นระบบปฏิบัติการ (Operational systems) ใช้ Transaction Processing System เพื่อจัดเก็บข้อมูลและแปล
ผลจากส่วนกลาง
2.      Analytical เป็นการเอาข้อมูลมาใช้ประมวลผลอีกครั้งเพื่อการตัดสินใจระดับสูงขึ้นไปโดยนำข้อมูลเหล่านี้ไปใช้วิเคราะห์ต่อ
Characteristics of Data Warehouses
1.               Organization by subject  - มีการจดหมวดหมู่ของข้อมูลใหม่ โดยจัดตามSubject เป็นหลัก
2.               Consistency การจัดเก็บข้อมลให้มีความสม่ำเสอ ปรับรูปบบให้เหมือนๆกัน
3.               Time variant กำหนดช่วงเวลา
4.               Non-volatile ข้อมูลจะไม่มีการเปลี่ยนแปลงอีก คือไม่ update เนื่องจากเป็นข้อมูลในอดีตแต่จะ refresh โดยเพิ่มข้อมูลของช่วงเวลาใหม่เข้ามา
5.               Relational  มีการใช้โครงสร้างที่สมเหตุสมผล
6.               Client/server ใช้ server ให้ผู้ใช้สามารถเข้าถึงข้อมูลได้ง่าย

องค์กรที่เหมาะกับการใช้ Data Warehouse
1.               มีข้อมูลจำนวนมากที่ผู้ใช้ต้องการเข้าถึง
2.               ข้อมูลระดับ operational ถูกจัดเก็บไว้ในหลากหลายรูปแบบ หลากหลายระบบ
3.               มีการใช้ข้อมูลเป็นปัจจัยสำคัญในการตัดสินใจ
4.               มีลูกค้าหลากหลายแบบ
5.               ข้อมูลเดียวกันถูกเก็บในหลายรูปแบบในหลายระบบ
6.               ข้อมูลถูกเก็บในระบบและรูปแบบที่ยากต่อการเข้าใจและแปลความ
นายวรฐ ทรงฤกษ์ 5202112594