[Sharing]
HỌC DATA SCIENCE NHƯ THẾ NÀO?
#datascience
Helu mấy em, dạo này có rất nhiều bạn sinh viên hỏi chị về định hướng theo 1 ngành siêu hot là Data Science đấy! Vậy ngồi xuống đây đọc một bài viết hay về nghề Data Science nhé. Đây là ngành nghề được dự đoán sẽ có nhu cầu cao nhất trong tương lai đó. Bài viết này sẽ đưa ra các bước và nguồn cho các bạn muốn học Data Science đó, đọc xem và share cho các bạn còn loay hoay nha!
___________________________________
I. Học lập trình:
Một Data Scientist (DStist) không thể không biết lập trình, dù không cần thiết phải giỏi như một lập trình viên nhưng phải đủ khả năng viết được những chương trình cơ bản. Từ khi nhập học tới giờ, từ một đứa mà kiến thức lập trình là con số 0 tròn trình, mình đã học qua R, Java, Python, SQL (kì tới sẽ có cả NoSQL nữa). Học tới đâu là sử dụng luôn tới đấy nên thường mình phải tự học thêm rất nhiều để có thể hiểu được logic và cú pháp của ngôn ngữ lập trình đó. Ngôn ngữ quan trọng nhất, phổ biến nhất dành cho DStist là Python với thư viện khổng lồ. Xếp sau Python là R, rất mạnh về phân tích thống kê. Năm ngoái mình được Khoa Toán thuê viết một App (ShinyApp) tương tác dành cho một dự án nghiên cứu của Bang sử dụng ngôn ngữ này.
Vậy học lập trình ở đâu?
https://www.tutorialspoint.com/
Trang này thì gi gỉ gì gi cái gì cũng có, thích học gì có ngay cái đó. Còn nhớ năm ngoái mình cực kỳ đuối khi các thầy bắt học thêm Java, với lý do rằng DStist thường hay phải làm việc trực tiếp với lập trình viên, vậy thì phải học để có thể trò chuyện với nhau được. Mình đã phải đọc thêm sách, đi học thêm phụ đạo, rồi lại đọc mòn mỏi trên trang này để theo kịp các bạn trên lớp. Kết quả là cuối kì, mình tự viết được cả trò chơi và thậm chí còn lập trình được công thức toán thống kê cho thư viện Java đấy.
2. https://codingbat.com/
Đây là nơi mình luyện viết code, từ những ứng dụng đơn giản nhất chỉ vài ba dòng. Trình độ của mình đã lên rất nhanh sau khi hoàn thành phân nửa số bài tập trên này.
3. https://www.datacamp.com/
Mình chưa sử dụng trang này bao giờ, nhưng được quảng cáo khá nhiều. Trên này có các khóa học miễn phí R và Python thiết kế riêng cho DS. Thích hợp cho những ai mới bắt đầu.
4. https://www.udemy.com/.../development/programming-languages/
5. https://www.codecademy.com/catalog/subject/all
Đây là hai trang do bạn bè mình giới thiệu. Có mấy bạn không đi học phụ đạo Java được đã trả tiền theo học trên này. Vì thường xuyên có giảm giá sâu nên khóa học không quá đắt đỏ. Và điểm lợi thế là sẽ có chứng nhận cuối khóa, có thể củng cố thêm cho hồ sơ xin học hoặc xin việc của bạn.
II. Học thống kê:
Đã làm việc với dữ liệu là phải hiểu lý thuyết thống kê, chí ít cũng phải biết tới những khái niệm cơ bản như lấy mẫu (sampling), trung bình (mean), trung vị (median), độ lệch chuẩn (standard deviation), hồi quy tuyến tính (linear regression),... Nếu muốn trở thành DStist thì còn phải biết tới kiến thức thống kê nâng cao, liên quan tới machine learning. Một điều tuyệt vời là những cuốn sách thống kê hay ho nhất, tổng hợp nhất lại miễn phí, nhằm đáp ứng nhu cầu học tập về dữ liệu ngày càng cao. Hai cuốn sách mà tất cả các giáo sư Khoa Toán của mình đều sử dụng là:
The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani, Jerome H. Friedman, 2001)
Cuốn này hơn 700 trang, chia làm 18 chương, sử dụng R trong phân tích thống kê. Bản thân mình thấy sách quá hay, minh họa đầy đủ, giải thích kĩ càng, đọc tới đâu có thể copy code đến đấy để tự thử nghiệm. Dĩ nhiên bạn không cần phải đọc hết sách. Đụng tới khái niệm thống kê nào thì tra cứu tương ứng trong sách cũng được.
https://web.stanford.edu/~hastie/Papers/ESLII.pdf
2. An Introduction to Statistical Learning: With Applications in R ( Trevor Hastie, Robert Tibshirani, Daniela Witten, Gareth James, 2013)
Cuốn này cũng hay, hơn 400 trang, chia làm 10 chương, cũng dùng R. Ai ngại đọc cuốn trên thì có thể bắt đầu với cuốn này.
https://www-bcf.usc.edu/.../ISL/ISLR%20First%20Printing.pdf
III. Học Data Science - Nâng cao:
Sau khi có chút kiến thức cơ bản về lập trình và thống kê rồi thì bạn có thể sử dụng các trang sau để tìm hiểu thêm về các mảng chính của DS như artificial intelligence, computer vision, machine learning, Big Data Analytics, Business Intelligence...
https://towardsdatascience.com/
Đây là trang tổng hợp cực kì nhiều bài viết chất lượng từ các giáo sư và chuyên gia trong ngành. Có rất nhiều bài hướng dẫn chi tiết từng bước cho trình độ beginner. Mình thường đọc trên trang này về machine learning và artificial intelligence (AI). Không chỉ có những phân tích rất cặn kẽ về mặt lý thuyết, nhiều bài viết còn cung cấp ví dụ minh họa và đính kèm cả code để bạn đọc tự thử nghiệm. Ví dụ bài viết sau về Deep Learning là của một giáo sư ở Barcelona, toàn bộ Code có trong Notebook trên Google Colab. Vì chạy trên Cloud nên bạn không cần cài đặt gì mà có thể lập tức chạy chương trình ngay được, cực kì phù hợp cho những ai muốn xem qua trước và không muốn mất công cài đặt này nọ.
https://towardsdatascience.com/deep-learning-for...
2. https://www.datascienceweekly.org/
Một bạn người Na Uy trên Tandem giới thiệu cho mình về trang này, bảo rằng đang tự học machine learning ở đây. Thế là mình cũng đăng ký nhận Newsletter từ mấy hôm trước. Mỗi tuần, mình nhận được một email tổng hợp các bài viết nổi bật trong ngành. Như vậy để mình luôn nắm bắt được những xu hướng mới nhất và cập nhật những tiến bộ công nghệ mới.
3. https://www.kaggle.com/
Một đồng nghiệp người Ấn Độ chỉ cho mình trang này quá hay luôn. Đây là nơi bạn học hỏi bằng cách thực hành qua các dự án, các cuộc thi và thử thách quốc tế. Các công ty, tổ chức treo giải thưởng có khi lên tới cả 100,000$ cho đội nào chiến thắng. Chẳng hạn hiện giờ có 20 cuộc thi đấu song song, và đã có hàng ngàn đội đăng kí tham gia. Trên này cũng có các micro-courses hoàn toàn miễn phí từ Python cho tới Deep Learning dành cho beginner.
https://www.kaggle.com/learn/overview
4. https://www.coursera.org/browse/data-science
Và cuối cùng, dĩ nhiên là trên coursera cũng có khóa học miễn phí dành cho DS. Khi nào có thời gian, bạn thử đăng ký xem sao.
Trên đây là những hướng dẫn chung dành cho những ai muốn tìm hiểu về Data Science và học những kĩ năng cơ bản trước. Hi vọng giúp được các bạn đang quan tâm. Mình sẽ tiếp tục cập nhật thêm nhé.
Blog Mai Knows người chị thân thiết của Founder Hoa Dinh ở Đức
https://www.facebook.com/maiknowsnow/
Link tham khảo về lương của DStist:
https://www.burtchworks.com/.../2018-data-scientist.../
----
Join các kênh khác của HannahEd:
- Job Hunters & Career Builders - HannahEd
- Học bổng ngắn hạn, trao đổi, tình nguyện - HannahEd
- English Club HEC
- Scholarship Hunters
- Web/tiktok/insta: hannahed.co
- Youtube: HannahEd
🌍📚Những #Schofan quyết tâm và muốn chuẩn bị kĩ cho nhiều học bổng từ giờ thì mau mau đăng kí lớp tìm và apply học bổng #HannahEd đã có lịch các lớp tháng 11, 12 và chương trình Mentor, Review hồ sơ, Tập phỏng vấn.
Link này để nhận thêm thông tin hoặc email [email protected] nhé:
http://tiny.cc/HannahEdClassInfo
https://hannahed.co/lop-tim-va-nop-hoc-bong/
❤ Like và share nếu các em thấy thông tin có ích nhé ❤
#HannahEd #duhoc #hocbong #sanhocbong #scholarshipforVietnamesestudents
同時也有1部Youtube影片,追蹤數超過1,070的網紅ChelsiaNgMusic,也在其Youtube影片中提到,Thank you RiuhInTheCity and MyCreative Ventures for having me on #riuhinyourhomes ! Here’s the video of my 30 minute performance minus the chat stream...
mean in python 在 Mina 安米娜 Facebook 的最讚貼文
😇很榮幸受邀到 women in data science 2020 演講😇
題目:在網路聲量定產品好壞的年代,我們需要好的機器學習來翻轉👌🏻
在電商時代趨勢下,消費者在購物前習慣透過商品歷史客戶評價(Customer Reviews)來進行選購,就像我在淘寶買衣服之前,一定會看其他消費者穿搭照片一樣,有時候會瞬間滅火,有些衣服在模特身上是玲瓏有緻,穿在一般老百姓身上就是灌香腸。
或是某些客戶習慣A商品頁面攻擊B商品,或是趁機打其他商品廣告,試圖把潛在客戶引開。
客戶評價以往大多採用人工的方式進行審核,但在評價數量與日俱增,我們需要機器學習演算法來簡化人類的工作量🤗,透過演算法的方式針對商品評價進行篩選,不僅可減少人力支出,更可以有效的進行模型優化。
◽️分析工具:
SQL database🐬
python pandas scikit-learn 🐍
◽️實務分析流程:
整理特徵-->處理樣本不平衡-->特徵選擇-->羅吉斯迴歸-->評估指標(recall rate)-->決定臨界值-->結合多模型成就最終版數學模型
◽️白話文:
Customer Reviews是由購買和使用過該產品的顧客對產品進行的評論。
一個新的 評價 進來,丟入最終版數學模型後,模型會給此 評價 一個分數,此時若算出來的 分數>0.75 我們就會直接將這條 評價 放到 電商平台網站上,若 分數< 0.75 則會進一步交由人工小組審查,若通過人工小組審查則放上網站,反之移除。
🍊有趣的小常識:
此次用到的演算法叫羅吉斯回歸(Logistic regression)
,很多朋友都在問為什麼要叫做regression呢?
從前從前英國科學家想要研究“身高都很高的夫妻,是否會生下更高的兒女?”,於是發現父母特徵的確會遺傳給後代,但是並不會產生極端身高的族群。當父母的身高已經遠離平均身高時,生下的兒女身高並沒有持續「遠離」平均,而會稍微「靠近」平均,也就是相對矮了一點。
把這個「極端」往「平均」移動的現象稱為「 regression to the mean 」,很有趣吧🙈🙈
🐶Mina IG : https://reurl.cc/8GZZjb
----------
最後謝謝
讀書會 Republic of AI Developer
研討會 Women in Data Science Taipei
還有週末被我逼迫聽我rehearsal 的朋友們 😆😆
mean in python 在 Scholarship for Vietnamese students Facebook 的最佳貼文
HỌC DATA SCIENCE NHƯ THẾ NÀO?
Helu mấy em, hôm nay có lẽ tất cả các bạn đã thi đại học xong xuôi rồi ha. Tuy nhiên, giờ lại tới một cửa ải cam go khác nữa - chọn ngành! Vậy ngồi xuống đây đọc một bài viết hay về nghề Data Science nhé. Đây là ngành nghề được dự đoán sẽ có nhu cầu cao nhất trong tương lai đó. Bài viết này sẽ đưa ra các bước và nguồn cho các bạn muốn học Data Science đó, đọc xem và share cho các bạn còn loay hoay nha!
___________________________________
I. Học lập trình:
Một Data Scientist (DStist) không thể không biết lập trình, dù không cần thiết phải giỏi như một lập trình viên nhưng phải đủ khả năng viết được những chương trình cơ bản. Từ khi nhập học tới giờ, từ một đứa mà kiến thức lập trình là con số 0 tròn trình, mình đã học qua R, Java, Python, SQL (kì tới sẽ có cả NoSQL nữa). Học tới đâu là sử dụng luôn tới đấy nên thường mình phải tự học thêm rất nhiều để có thể hiểu được logic và cú pháp của ngôn ngữ lập trình đó. Ngôn ngữ quan trọng nhất, phổ biến nhất dành cho DStist là Python với thư viện khổng lồ. Xếp sau Python là R, rất mạnh về phân tích thống kê. Năm ngoái mình được Khoa Toán thuê viết một App (ShinyApp) tương tác dành cho một dự án nghiên cứu của Bang sử dụng ngôn ngữ này.
Vậy học lập trình ở đâu?
https://www.tutorialspoint.com/
Trang này thì gi gỉ gì gi cái gì cũng có, thích học gì có ngay cái đó. Còn nhớ năm ngoái mình cực kỳ đuối khi các thầy bắt học thêm Java, với lý do rằng DStist thường hay phải làm việc trực tiếp với lập trình viên, vậy thì phải học để có thể trò chuyện với nhau được. Mình đã phải đọc thêm sách, đi học thêm phụ đạo, rồi lại đọc mòn mỏi trên trang này để theo kịp các bạn trên lớp. Kết quả là cuối kì, mình tự viết được cả trò chơi và thậm chí còn lập trình được công thức toán thống kê cho thư viện Java đấy.
2. https://codingbat.com/
Đây là nơi mình luyện viết code, từ những ứng dụng đơn giản nhất chỉ vài ba dòng. Trình độ của mình đã lên rất nhanh sau khi hoàn thành phân nửa số bài tập trên này.
3. https://www.datacamp.com/
Mình chưa sử dụng trang này bao giờ, nhưng được quảng cáo khá nhiều. Trên này có các khóa học miễn phí R và Python thiết kế riêng cho DS. Thích hợp cho những ai mới bắt đầu.
4. https://www.udemy.com/courses/development/programming-languages/
5. https://www.codecademy.com/catalog/subject/all
Đây là hai trang do bạn bè mình giới thiệu. Có mấy bạn không đi học phụ đạo Java được đã trả tiền theo học trên này. Vì thường xuyên có giảm giá sâu nên khóa học không quá đắt đỏ. Và điểm lợi thế là sẽ có chứng nhận cuối khóa, có thể củng cố thêm cho hồ sơ xin học hoặc xin việc của bạn.
II. Học thống kê:
Đã làm việc với dữ liệu là phải hiểu lý thuyết thống kê, chí ít cũng phải biết tới những khái niệm cơ bản như lấy mẫu (sampling), trung bình (mean), trung vị (median), độ lệch chuẩn (standard deviation), hồi quy tuyến tính (linear regression),... Nếu muốn trở thành DStist thì còn phải biết tới kiến thức thống kê nâng cao, liên quan tới machine learning. Một điều tuyệt vời là những cuốn sách thống kê hay ho nhất, tổng hợp nhất lại miễn phí, nhằm đáp ứng nhu cầu học tập về dữ liệu ngày càng cao. Hai cuốn sách mà tất cả các giáo sư Khoa Toán của mình đều sử dụng là:
The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani, Jerome H. Friedman, 2001)
Cuốn này hơn 700 trang, chia làm 18 chương, sử dụng R trong phân tích thống kê. Bản thân mình thấy sách quá hay, minh họa đầy đủ, giải thích kĩ càng, đọc tới đâu có thể copy code đến đấy để tự thử nghiệm. Dĩ nhiên bạn không cần phải đọc hết sách. Đụng tới khái niệm thống kê nào thì tra cứu tương ứng trong sách cũng được.
https://web.stanford.edu/~hastie/Papers/ESLII.pdf
2. An Introduction to Statistical Learning: With Applications in R ( Trevor Hastie, Robert Tibshirani, Daniela Witten, Gareth James, 2013)
Cuốn này cũng hay, hơn 400 trang, chia làm 10 chương, cũng dùng R. Ai ngại đọc cuốn trên thì có thể bắt đầu với cuốn này.
https://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf
III. Học Data Science - Nâng cao:
Sau khi có chút kiến thức cơ bản về lập trình và thống kê rồi thì bạn có thể sử dụng các trang sau để tìm hiểu thêm về các mảng chính của DS như artificial intelligence, computer vision, machine learning, Big Data Analytics, Business Intelligence...
https://towardsdatascience.com/
Đây là trang tổng hợp cực kì nhiều bài viết chất lượng từ các giáo sư và chuyên gia trong ngành. Có rất nhiều bài hướng dẫn chi tiết từng bước cho trình độ beginner. Mình thường đọc trên trang này về machine learning và artificial intelligence (AI). Không chỉ có những phân tích rất cặn kẽ về mặt lý thuyết, nhiều bài viết còn cung cấp ví dụ minh họa và đính kèm cả code để bạn đọc tự thử nghiệm. Ví dụ bài viết sau về Deep Learning là của một giáo sư ở Barcelona, toàn bộ Code có trong Notebook trên Google Colab. Vì chạy trên Cloud nên bạn không cần cài đặt gì mà có thể lập tức chạy chương trình ngay được, cực kì phù hợp cho những ai muốn xem qua trước và không muốn mất công cài đặt này nọ.
https://towardsdatascience.com/deep-learning-for-beginners-practical-guide-with-python-and-keras-d295bfca4487
2. https://www.datascienceweekly.org/
Một bạn người Na Uy trên Tandem giới thiệu cho mình về trang này, bảo rằng đang tự học machine learning ở đây. Thế là mình cũng đăng ký nhận Newsletter từ mấy hôm trước. Mỗi tuần, mình nhận được một email tổng hợp các bài viết nổi bật trong ngành. Như vậy để mình luôn nắm bắt được những xu hướng mới nhất và cập nhật những tiến bộ công nghệ mới.
3. https://www.kaggle.com/
Một đồng nghiệp người Ấn Độ chỉ cho mình trang này quá hay luôn. Đây là nơi bạn học hỏi bằng cách thực hành qua các dự án, các cuộc thi và thử thách quốc tế. Các công ty, tổ chức treo giải thưởng có khi lên tới cả 100,000$ cho đội nào chiến thắng. Chẳng hạn hiện giờ có 20 cuộc thi đấu song song, và đã có hàng ngàn đội đăng kí tham gia. Trên này cũng có các micro-courses hoàn toàn miễn phí từ Python cho tới Deep Learning dành cho beginner.
https://www.kaggle.com/learn/overview
4. https://www.coursera.org/browse/data-science
Và cuối cùng, dĩ nhiên là trên coursera cũng có khóa học miễn phí dành cho DS. Khi nào có thời gian, bạn thử đăng ký xem sao.
Trên đây là những hướng dẫn chung dành cho những ai muốn tìm hiểu về Data Science và học những kĩ năng cơ bản trước. Hi vọng giúp được các bạn đang quan tâm. Mình sẽ tiếp tục cập nhật thêm nhé.
Blog Mai Knows
https://www.facebook.com/maiknowsnow/
Link tham khảo về lương của DStist:
https://www.burtchworks.com/2018/07/09/2018-data-scientist-salary-report-highlights/
<3 Like và share nếu các em thấy thông tin có ích nhé <3
#HannahEd #duhoc #hocbong #sanhocbong #scholarshipforVietnamesestudents
mean in python 在 ChelsiaNgMusic Youtube 的最佳解答
Thank you RiuhInTheCity and MyCreative Ventures for having me on #riuhinyourhomes !
Here’s the video of my 30 minute performance minus the chat stream ?
Songlist, Covers and Originals :
1. Doraemon (Japanese)
2. 6am Sushi ?
3. Always Look On The Bright Side Of Life (Monty Python)
4. Mean Girls
5. Island Home
6. Ku Rela
7. Empty Decorations (Kopitiam Theme)
Thank you for watching!
And thank you Riuh and MCV again for always giving us a stage and a platform to showcase our passion and creations! ?
#chelsiangmusic #singersongwriter #riuhinthecity #riuhinyourhomes #riuh #onlinestage #virtualstage #instagramstage #instagramlive #instagram #livebroadcast #kopitiam #kopitiamthemesong #indiemusic