Hồi tui mới vô công ty, ngày đầu tiên tui có bắt chuyện với 1 bạn, cuộc hội thoại tạm lượt bớt và dịch lại như sau:

Tui: Hey chào, mày mới join hả, mày thuộc team nào dzậy ?
Đồng nghiệp: tao ở bên team marketing, còn mày ?
Tui: tao ở team data, mày làm gì bên marketing vậy ?
Đồng nghiệp: tao làm mọi thứ, data engineer, data scientist, data analyst.
Tui:. .....

Và sau vài câu trao đổi về data, tui tò mò mở Linkedin xem thử profile bạn ấy thì phát hiện đó đích thị là Data Science giả cầy. Lý do tại sao ư?? Bạn ấy biết về data (đặc biệt là Machine Learning và AI) rất mơ hồ, thậm chí còn sai khái niệm cơ bản. Có thể nói bạn này chỉ học data science qua 1 khóa học (theo như profile của bạn ấy!?!), sau đó được tuyển vào vị trí Analyst vì sếp marketing không biết data và nghe bạn đó chém gió hay quá!?! Hài nhất là dù chỉ được tuyển vào vị trí Analyst nhưng bạn ấy vẫn nhận mình là Scientist và Engineer!?!

Đây chỉ là một trong vô vàng trường hợp Data Science giả cầy mà tui “bị” gặp trong 5 năm làm việc của mình. Nếu mọi người search trên Google với từ khóa “fake data scientist”, sẽ có cả hướng dẫn “how to spot a fake data scientist” ấy chứ haha.

Fake Data Scientist, họ là ai?

Một số đặc điểm để nhận diện Data Scientist giả cầy.

  • Họ là những người lúc nào cũng vỗ ngực tự xưng là Data Scientist nhưng không biết gì về Big Data, Machine Learning hay ngôn ngữ lập trình
  • Là những người không hề biết Feature Engineering hay Data Visualization
  • Là những người thích lặp đi lặp lại một thuật ngữ nào đó hay ho nhưng không hiểu nó là gì, ví dụ như Reinforcement learning (học tăng cường) chẳng hạn, nghe hay phải không?
  • Là những bạn biết lập trình nhưng lại không có kiến thức về toán, phân tích thống kê. Chỉ chăm chăm Github, Stackoverflow và import toàn bộ thư viện. Cuối cùng dẫn đến kết quả sai bét nhè vì Overfiting.
  • Là những người khi build model (xây dựng mô hình dữ liệu) sẽ quăng toàn bộ thuật toán Machine Learning vào và ngồi chờ kết quả. Họ cũng không cần biết cách tune (tinh chỉnh) thuật toán tối ưu hoặc hiểu thuật toán là như thế nào.

Mọi người có thể tham khảo làm theo nếu muốn trở thành Data Scientist một cách nhanh nhất :ahihi.

Nhưng tại sao vẫn có Data Scientist giả cầy trong công ty?

Nói đi cũng phải nói lại, Data Scientist giả cầy rất giỏi trong việc đọc và chắt lọc thông tin. Họ có thể đọc một bài báo về Data Science, lấy toàn bộ thông tin, từ khóa trong bài đó và lồng ghép vào câu chuyện của mình. Các sếp lớn thì rất dễ bị đánh lừa và tin tưởng vào kiến thức của họ khi phỏng vấn.

Tuy nhiên khi họ sử dụng những thông tin đó và thảo luận với một Data Scientist xịn xò, họ sẽ bị lộ ngay vì câu chuyện đó đầy những từ khóa “hot” nhưng lại rất nhảm nhí và không hợp lý. Lúc này đã quá trễ và họ cũng đã có được một vị trí trong công ty rồi (tiếc cho công ty ấy)

Làm sao để tránh khỏi bị xem là “giả cầy”?

Sau bảy bảy 49 ngày trằn trọc băn khoăn giấc chẳng thành, tui đã đúc kết được ba khẩu quyết sau đây:

  1. Sống chậm lại. Thay vì nhảy vào sử dụng một thư viện nào đó ngay lập tức, hãy xem xét lại dataset (tập data) mà mình có là gì và ý nghĩa của từng column trong dataset. Cố gắng đưa ra một số hypothesis (giả thiết) hay đọc một vài bài báo để hiểu thêm về domain knowledge (kiến thức chuyên ngành) có liên quan đến dataset đó.

  2. Data Cleaning, Features Engineering và Visualisation. Sử dụng một vài thư viện cơ bản như Pandas để xem thống kê về data, xử lý dữ liệu NULL hay NaN, biến đổi Categorical Data (dữ liệu dạng phân loại) thành định dạng phù hợp và tìm những feature quan trọng có thể ảnh hưởng đến kết quả dự đoán. Cuối cùng vẽ một vài biểu đồ để củng cố thêm giả thuyết được đưa ra. Tóm gọn lại, hãy cố gắng phân tích dataset của mình hết mức có thể.

  3. Modelling. Trước khi build model (xây dựng mô hình dữ liệu), hãy hiểu được thuật toán Machine Learning mà mình định dùng hay những Parameters (thông số) có thể tinh chỉnh. Đừng vội vàng xem xét đến Accuracy (độ chính xác), thực tế có rất nhiều cách để đánh giá một model, tùy theo bài toán mà chúng ta sẽ sử dụng những phương pháp khác nhau: Confusion Matrix, ROC Curve, Area Under the Curve, Precision and Recall, F1 score, Top R error…

Quá đơn giản phải không anh chị em, thật ra đây chỉ là những thói quen cơ bản của một Data Scientist. Làm Data Scientist giả cầy thì dễ, nhưng để thành thứ thiệt xịn xò là cả một quãng đường dài và mau nản. Vậy đâu là lựa chọn của các bạn, nhanh chóng thành công nhưng chỉ là hàng fake hay chịu hói cả đầu để trở thành chính hiệu “cầy tơ” 🐶

# Bạn muốn đọc thêm về data science ?