โอ๊ยยยย...อยากทำงานสาย Data Science แต่...คำศัพท์สายนี้ทำไมมันเยอะไปหมดดดด จำเท่าไหร่ก็ไม่หมด ! สับสนจริงจริ๊งงงง 😖
.
🌈 หากคุณเจอปัญหานี้อยู่ล่ะก็...ไม่ต้องกังวลไป เพราะเราได้รวบรวมมาให้หมดแล้ว กับ 10 คำศัพท์เด็ด ๆ ที่คนทำงานสาย Data Science ต้องเจอแน่ ๆ มีอะไร และความหมายสั้น ๆ คืออะไร ? ถ้าพร้อมแล้วไปดูกันเลย !
.
🔹 Data Warehouse
คลังข้อมูล - เป็นพื้นที่เก็บข้อมูลขนาดใหญ่ที่รวบรวมจากหลาย ๆ แหล่ง เพื่อใช้ข้อมูลนี้ไปวิเคราะห์ ประมวลผล หรือทำงานด้าน Business Intelligence และ Machine Learning
.
🔹 Data Lake
เป็นที่เก็บข้อมูลส่วนกลาง ที่สามารถเก็บข้อมูลได้ทั้งแบบมีและไม่มีโครงสร้าง สามารถนำข้อมูลไปวิเคราะห์ ประมวลผล หรือทำงานด้าน Big Data และ Machine Learning ได้นั่นเอง
.
🔹 Data Models
แบบจำลองข้อมูล - ใช้เพื่ออธิบายโครงสร้าง ความสัมพันธ์ และการประมวลผลของข้อมูล ซึ่งจะเป็นสิ่งที่ช่วยให้ Data Science สามารถเข้าใจและสามารถจัดการกับข้อมูลได้ง่ายนั่นเอง
.
🔹 Classification
การจัดประเภท - เป็น Supervised Learning (เรียนรู้แบบมีผู้สอน) ใช้ในการจัดประเภทของข้อมูล เช่น จัดประเภทของสินค้าที่คนนิยมซื้อในช่วงโปร 7.7 และ 8.8 ของเว็บไซต์ Ecommerce
.
🔹 Clustering
การจัดกลุ่ม - เป็น Unsupervised Learning (เรียนรู้แบบไม่มีผู้สอน) โดยจะหาความคล้ายคลึงกันของข้อมูลแล้วจัดให้อยู่กลุ่มเดียวกัน เช่น การแบ่งประเภทของลูกค้าจากข้อมูลพฤติกรรมการซื้อสินค้า
.
🔹 Deep Learning
การเรียนรู้เชิงลึก - เป็นระบบที่มีการเลียนแบบพฤติกรรมมนุษย์ เพื่อช่วยคอมพิวเตอร์ในการแก้ปัญหาที่ซับซ้อนเหมือนสมองของมนุษย์ได้นั่นเอง
.
🔹 Linear Regression
การถดถอยเชิงเส้น - เป็นโมเดลสุดฮิต! ที่ใช้วิเคราะห์ความสัมพันธ์ของ 2 ตัวแปร และปรับให้เป็นสมการเชิงเส้น ซึ่งทำให้เราได้ผลลัพธ์ที่ต้องการ เช่น การคำนวณระยะจากโดยใช้ความเร็วและเวลา
.
🔹 A/B Testing
เป็นการทดสอบโดยใช้ 2 ตัวแปรแบบสุ่ม เพื่อกำหนดแนวทางให้กับผลิตภัณฑ์ เช่น Google ทดสอบแสดงผลสีโลโก้ในหลาย ๆ เฉด เพื่อดูว่าเฉดใดมีคนคลิกมากที่สุด
.
🔹 Data Visualization
เป็นการนำข้อมูลมาวิเคราะห์และจัดทำให้อยู่ในรูปแบบที่เราเข้าใจง่าย ๆ เช่น กราฟ หรือ แผนภูมิ และที่เราเห็นเขาทำกันบ่อย ๆ ก็คือ Dashboard นั่นเอง
.
🔹 ETL
จริง ๆ แล้วมันย่อมาจาก Extract Transform Load เป็นกระบวนการรวบรวมข้อมูลจากหลายแหล่งมาแปลงให้เป็นรูปแบบที่เหมาะสมแล้วจัดเก็บไว้ในแหล่งเก็บข้อมูล เช่น Data Warehouse หรือ Data Lake
.
👉 และทั้งหมดนี้เป็นคำศัพท์เบื้องต้นที่คนอยากทำงานสาย Data Science ควรรู้ !! หวังว่าจะเป็นประโยชน์กับเพื่อน ๆ ที่กำลังอยากทำงานในสายนี้น้าาา หากอยากให้แอดทำคอนเทนต์แนวนี้อีก เมนต์ไว้ได้เลย !! ~~
.
หากชอบเนื้อหานี้ อย่าลืมกดไลก์ กดแชร์ เพื่อเป็นกำลังใจให้เราด้วยนะ ❤️
.
borntoDev - 🦖 สร้างการเรียนรู้ที่ดีสำหรับสายไอทีในทุกวัน
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...
「data lake data warehouse」的推薦目錄:
- 關於data lake data warehouse 在 BorntoDev Facebook 的最讚貼文
- 關於data lake data warehouse 在 BorntoDev Facebook 的最佳貼文
- 關於data lake data warehouse 在 BorntoDev Facebook 的最佳貼文
- 關於data lake data warehouse 在 コバにゃんチャンネル Youtube 的精選貼文
- 關於data lake data warehouse 在 大象中醫 Youtube 的最讚貼文
- 關於data lake data warehouse 在 大象中醫 Youtube 的最佳解答
- 關於data lake data warehouse 在 Database vs Data Warehouse vs Data Lake - YouTube 的評價
data lake data warehouse 在 BorntoDev Facebook 的最佳貼文
👋 สวัสดีจ้าาา วันนี้แอดจะพาเพื่อน ๆ มาทำความรู้จักกับ Data Lakes กันน !! มันคืออะไร สำคัญยังไง มาหาคำตอบไปพร้อม ๆ กันเลยจ้าาา
.
📑 Data Lakes - เป็นศูนย์รวมการเก็บข้อมูลจากทุก ๆ แหล่ง สามารถเก็บข้อมูลแบบ Structured หรือ Unstructured ก็ได้ ไม่ต้องเปลี่ยนแปลงข้อมูลก่อนการจัดเก็บ และสามารถดึงข้อมูลมาใช้ได้อย่างรวดเร็ว โดยข้อมูลเหล่านี้จะนำมาใช้ในการวิเคราะห์, สร้าง Dashboard, รวมไปถึงการประมวลผล Big Data และ Machine Learning
.
🌈 Data Lakes พัฒนาเพื่อลบข้อจำกัดของ Data Warehouse แม้ว่า Data Warehouse จะช่วยให้ธุรกิจมีการวิเคราะห์ข้อมูลที่มีประสิทธิภาพสูง แต่มันก็ยังมีข้อจำกัดในเรื่องของราคาและเรื่องการปรับขนาด ซึ่งมันจะทำให้เสีย Cost ตรงนี้มากขึ้น ซึ่งเจ้า Data Lakes เป็นสถาปัตยกรรมที่ทันสมัยกว่า เก็บข้อมูลไว้ที่ศูนย์กลาง โดยไม่ต้องกำหนดโครงสร้างของข้อมูล รองรับข้อมูลได้หลากหลาย มีความสามารถในการปรับขนาดได้ มีความทนทานสูง และต้นทุนต่ำกว่า เหมาะกับการนำไปทำ Machine Learning มากกว่า
.
✨ ประโยชน์
- สามารถจัดเก็บข้อมูลแบบไม่มี Schema ได้ เมื่อข้อมูลถูกอ่านระหว่างการประมวลผลจะถูกปรับให้เป็นข้อมูลที่มี Schema ตามที่จำเป็น ซึ่งมันจะช่วยประหยัดเวลาไปเยอะเลยนั่นเอง
- สามารถเข้าถึงข้อมูล จัดเตรียม และวิเคราะห์ข้อมูลได้รวดเร็ว
- มีความยืดหยุ่นสูง และต้นทุนต่ำ
.
💡 มันสำคัญยังไงกันนะ ?
องค์กรที่มีการทำ Data Lakes ทำให้มีการวิเคราะห์ข้อมูลประเภทใหม่ และสามารถเข้าถึงแหล่งข้อมูลใหม่ ๆ มากขึ้น ซึ่งจะช่วยให้เพิ่มประสิทธิภาพในการตัดสินใจทางธุรกิจ ดึงดูดลูกค้า และมีโอกาสเติบโตมากกว่านั่นเอง (อ้างอิงจากผลสำรวจ Aberdeen)
.
💥 อ่านเพิ่มเติมได้ที่ : https://aws.amazon.com/th/big-data/datalakes-and-analytics/what-is-a-data-lake/ ,
https://databricks.com/discover/data-lakes/introduction , https://www.talend.com/resources/what-is-data-lake/ ,
https://s3-ap-southeast-1.amazonaws.com/mktg-apac/Big+Data+Refresh+Q4+Campaign/Aberdeen+Research+-+Angling+for+Insights+in+Today's+Data+Lake.pdf
.
หากใครชอบเนื้อหานี้ ฝากกดไลค์กดแชร์เป็นกำลังใจให้แอดด้วยน้าาาา 😍
.
borntoDev - 🦖 สร้างการเรียนรู้ที่ดีสำหรับสายไอทีในทุกวัน
data lake data warehouse 在 BorntoDev Facebook 的最佳貼文
😆 สวัสดีจ้าเพื่อนๆ วันนี้แอดมาสรุปการทำ ETL มาให้อ่านกัน มันมีข้อดียังไง มีกระบวนการยังไงบ้าง และสำคัญยังไงกับองค์กร ไปอ่านกันโลดด !!
.
🔥 ETL หรือ Extract, Transform และ Load เป็นขั้นตอนการรวบรวมและประมวลผลข้อมูลจากแหล่งต่างๆ ลงในที่เดียวกัน เช่น Data warehouse หรือ Data Lake เพื่อให้ง่ายต่อการวิเคราะห์ข้อมูล
.
มาดูกันดีกว่าว่าแต่ละตัวมันมีรายละเอียดยังไงบ้าง เริ่มจาก Extract ก่อนเลย
.
🌈 Extract หรือ การสกัด - เป็นการรวบรวมข้อมูลจากหลายแหล่งไว้ด้วยกัน ตัวอย่างเช่น
🔹Relational Database
🔹Files ต่างๆ เช่น XML, JSON, CSV, Excel เป็นต้น
🔹ข้อมูลจากเว็บไซต์ เช่น การทำ Web Scraping
.
👉 การทำงาน เริ่มจากดึงข้อมูลจากหลายๆ แหล่ง และทำการแยกข้อมูลแต่ละประเภทให้เหมาะสม จากนั้นตรวจสอบดูว่าข้อมูลใดมีส่วนที่ขาดหายไป หรือไม่สมบูรณ์ และทำการแก้ไขให้เรียบร้อย
.
🌈 Transform หรือ แปลง - เป็นการแปลงข้อมูลจากหลายๆ แหล่งให้อยู่ในรูปแบบเดียวกัน เช่น
🔹จัดเรียงข้อมูลที่ไม่มีโครงสร้างให้เป็นข้อมูลที่มีโครงสร้าง
🔹จัดเรียงข้อมูลให้อยู่ในคอลัมน์ และมีลำดับที่แน่นอน
🔹รวมหลายๆ ตารางที่เกี่ยวข้องกันไว้ด้วยกัน
🔹ลบข้อมูลที่อาจจะซ้ำ และข้อมูลที่เก่าเกินไป
.
👉 การทำงาน รับข้อมูลจาก Extract นำมาตรวจสอบดูว่ามีข้อมูลไหนที่ซ้ำซ้อนกันให้ลบออก ตรวจสอบข้อมูลที่ผิดพลาด เช่น สะกดคำผิด ไวยากรณ์ผิด และทำการแก้ไขให้เรียบร้อย และทำการเปลี่ยนแปลงรูปแบบของข้อมูลให้อยู่ในมาตรฐานเดียวกัน เช่น วันที่, เวลา, และหน่วยวัด เป็นต้น
.
🌈 Load หรือ โหลด - เป็นกระบวนการสุดท้ายของ ETL เป็นการจัดเรียงและตรวจสอบข้อมูลจากขั้นตอน Transform
.
👉 การทำงาน รับข้อมูลจากขั้นตอน Transform และแยกข้อมูลไปยังแหล่งเก็บข้อมูลที่เตรียมไว้ เช่น Database หรือ Data Warehouse เพื่อนำข้อมูลเหล่านั้นไปวิเคราะห์ต่อนั่นเอง
.
แล้วทำไมถึงต้องทำ ETL กันล่ะ ??
.
📦 การทำ ETL สำคัญอย่างมากกับองค์กรเลยนะ เพราะการเก็บข้อมูลที่มากมายมหาศาลในองค์กรใหญ่ๆ หรือแหล่งข้อมูลจากภายนอกองค์กร มันจะมีข้อมูลหลากหลายประเภทมาก หากเราไม่ทำ ETL มันจะทำให้การนำข้อมูลไปใช้ต่อนั้นยากมาก และยังต้องเสียเวลามานั่งจัดการข้อมูลอีก
.
ซึ่งการทำ ETL ข้อมูลที่เราได้จะมีคุณภาพ พร้อมนำไปใช้งานหรือวิเคราะห์ต่อ แถมข้อมูลมีความน่าเชื่อถือ และประหยัดเวลาอีกด้วย
.
borntoDev - 🦖 สร้างการเรียนรู้ที่ดีสำหรับสายไอทีในทุกวัน
data lake data warehouse 在 Database vs Data Warehouse vs Data Lake - YouTube 的推薦與評價
Database vs Data Warehouse vs Data Lake | Today we take a look at these 3 different ways to store data and the differences between them. ... ... <看更多>