Khi mới chập chững nghề, công việc đầu tiên của tui cũng là Data Scientist. May mắn cho tui, cho dù chuyển qua Data Engineer hay Software Engineer thì tui đều làm việc chung với các bạn Data Scientist, Machine Learning/AI Engineer. Nhờ vậy kiến thức về Data Science của tui cũng không bị quá lạc hậu.

Tuy nhiên, để bảo đảm độ chính xác cao, tui cũng đã nhờ một bạn ML Engineer review giúp tui trước khi đăng lên cho mọi người đọc. Bạn này là ai thì tui hứa sẽ có một bài viết riêng về bạn đó và giới thiệu với mọi người sau, bật mí là một bạn nữ siêu giỏi đó nha.

Theo như quảng cáo, Data Scientist is the sexiest job of 21st century, tạm dịch là công việc gợi cảm nhất của thế kỉ 21. Vậy thật ra công việc này có thật sự như vậy không ? Tuy nhiên trước khi bàn về vấn đề này, tui nhận thấy nhiều anh chị em vẫn còn nhầm lẫn, bỡ ngỡ hay thậm chí mơ hồ về công việc này. Hôm nay, để data tui sẽ làm rõ cho mọi người nhé.

Khác nhau giữa Data Scientist và Machine Learning/AI Engineer.

Tui nhận thấy Machine Learning hay AI nó đều thuộc về thế giới của Data. Bản thân Data Scientist cũng cần phải biết Machine Learning / AI. Vì vậy sự khác nhau chủ yếu giữa 2 nghề này nằm ở phía sau chữ “data”.

  • Scientist (nhà khoa học) là những chuyên gia về một lĩnh vực nào đó, họ có thể đào sâu và nghiên cứu rất kĩ về lĩnh vực của mình. Vậy Data Scientist là những người có thể vận dụng những kĩ năng, công cụ, thuật toán liên quan đến data (the art of data) và áp dụng vào lĩnh vực của họ. Ví dụ như Risk Data Scientist, họ có thể thu thập, khai thác và phân tích data liên quan đến tài chính và quản lý rủi ro. Nhờ vậy có tìm ra phương pháp dự đoán rủi ro tối ưu nhất.
  • Engineer (kỹ sư) có thể coi là những người áp dụng. Họ giải quyết vấn đề (problem solving) bằng những phương pháp, kĩ thuật có sẵn. ML/AI Engineer thường tốt nghiệp từ Computer Science và có kiến thức lập trình rất vững. Ví dụ một ML/AI Engineer có thể dễ dàng áp dụng kĩ thuật Deep Learning vào việc xử lý hình ảnh. Thông thường, ML/AI Engineer thường gắn với các công việc liên quan đến máy tính, trí tuệ nhân tạo như xử lý hình ảnh hoặc xử lý ngôn ngữ tự nhiên (NLP).

Có một ví dụ rất hay để liên tưởng về Data Scientist và ML/AI Engineer, đó là tương tự như Nuclear (hạt nhân) Scientist và Nuclear Engineer. Nuclear Scientist là những nhà khoa học nghiên cứu về hạt nhân, cấu trúc, mối liên hệ của nguyên tử để làm sao có thể tạo ra năng lượng từ nguyên tử. Còn Nuclear Engineer là những người lấy công thức nghiên cứu của các nhà khoa học và chế tạo nó thành sản phẩm thật.

Tui chia ra như trên để mọi người dễ hình dung sự khác nhau. Nhưng thực tế còn tùy thuộc vào công ty mà title có thể khác nhau. Anh chị em có đi phỏng vấn hoặc làm việc cũng đừng bỡ ngỡ quá. Nhiều khi làm công việc của Data Scientist nhưng lại gọi là Machine Learning Engineer và ngược lại.

Làm sao thể có thể bước chân vào mảng Data Science ?

Vì Data Scientist và Machine Learning/AI Engineer khá giống nhau nên tui sẽ gom chung về một mối, gọi là Data Science.

Để có thể bước chân vào mảng này đương nhiên là phải học. Trong quá trình đi theo con đường này, tui nhận thấy rằng Data Scientist không nhất thiết phải tốt nghiệp từ một trường IT hoặc có bằng Computer Sciences. Cho dù bạn là marketer, financial advisor hay kế toán, nếu bạn có đam mê và theo đuổi đến cùng thì bạn sẽ làm được.

Một số kĩ năng cần có của Data Science, thứ tự được liệt kê từ cơ bản đến nâng cao

Programming Languages, có 3 ngôn ngữ phổ biến hiện nay cho Data là Python, R và Scala. Theo ý kiến của tui, mọi người nên tập trung vào Python vì nó thông dụng nhất. Lưu ý nho nhỏ là Python cho Data sẽ khá đơn giản và dễ hiểu hơn là Python cho lập trình ứng dụng. Ngoài Python, mọi người cần biết thêm một ít SQL nữa.

Statistics, phần lớn các thuật toán của Data đều từ đây mà ra. Ví dụ như Probabilites - xác suất thống kê hoặc Linear Algrebra - đại số tuyến tính đều là hai trong số những khái niệm cơ bản của Machine Learning / AI.

Data Cleaning và Visualisation, thông thường trong hệ thống đều là raw data (dữ liệu thô) nên việc “làm sạch” data rất quan trọng. Kĩ thuật này còn giúp bạn để xử lý data trước khi train machine learning model nữa. Nếu nói xử lý nguyên liệu thô là công việc bước đầu thì Visualisation, trình bày sản phẩm có thể coi là công việc cuối cùng và quan trọng không kém. Nhờ Visualisation mà anh em có thể trở thành story teller, dựa trên data để kể chuyện cho sếp hay khách hàng.

Machine Learning / AI, tui không nói thêm về kĩ năng này nữa. Khóa học hay ho nhất là khóa Machine Learning của thầy Andrew Ng (Andrew Ng có thể coi là ông tổ của ngành AI hiện nay).

Ngoài ra để nâng cao thêm trình độ, mọi người nên nghiên cứu luôn Spark để load data và xử lý data. Lý do là hiện nay data đều rất là lớn, cách xử lý thông thường không đáp ứng nổi nên đa số các công ty đều dùng Spark.

Một số kĩ năng khác có thể tự tìm hiểu qua như kiến thức về dịch vụ Cloud và Big Data, làm sao sử dụng nó, từng tools và công dụng như thế nào,..

Project của Data Science.

Những project dưới đây tui đều làm qua hoặc có liên quan ít nhiều.

Abnormal catastrophe detection (Hệ thống dự đoán sự cố) mà tui đã từng đề cập bên bài viết đầu tiên.

  • Đây là project dành cho nhà máy lọc dầu. Trong nhà máy lọc dầu có khoảng 30.000 thiết bị, mỗi thiết bị sẽ được gắn một cảm biến (sensor) để có thể theo dõi thiết bị đó. Trong số thiết bị này có khoảng 50 thiết bị quan trọng nhất, nếu 1 trong 50 cái này ngừng hoạt động, thì toàn bộ dây chuyền nhà máy sẽ dừng. Theo tui biết khi nhà máy dừng thì sẽ mất khoảng 1-2 triệu dollars một ngày.
  • Công việc của tui là dự đoán thiết bị nào sẽ dừng hoạt động và khi nào nó dừng. Để dễ hình dung, ví dụ tui có 4 thiết bị kết nối với nhau là A-B-C-D, trong đó C là thiết bị đóng vai trò then chốt. Khi A có vấn đề xảy ra, tui phải dự đoán được B sẽ là thiết bị kế tiếp, sau đó có thể là C và thời gian C dừng khoảng 2 ngày…
  • Đây là một project thuộc loại Unsupervised Learning, vì trong quá khứ, tần suất sự cố rất ít và khá ngẫu nhiên, chưa kể data thì chỉ có áp suất, nhiệt độ, movement speed…

Routing system (hệ thống tìm đường)

  • Bài toán này thường áp dụng cho những công ty start up giao hàng như Now, Go Viet hoặc Grab Food. Tối ưu hóa giữa tài xế, khách hàng và nhà hàng.
  • Nhìn có vẻ đơn giản nhưng đây cũng là một bài toán Unsupervised Learning kinh điển và khó nhằn. Mọi người có thể tưởng tượng đến một số factors (yếu tố) để giải bài toán: vị trí địa lý của nhà hàng, khách hàng và tài xế; tiếp theo đó là tình hình giao thông kẹt xe; nếu nhiều tài xế trong khu vực thì phải xem xét ranking của tài xế, số lượng đơn hàng mà tài xế đó đang có..v.v.v…sao cho khi tài xế vừa hoàn thành xong đơn hàng 1, sẽ có ngay đơn hàng 2 và khách hàng không phải chờ đợi quá lâu.

Identification Detection (hệ thống nhận diện)

  • Đây là project khá hay mà tui la liếm được. Project này áp dụng cho các công ty dịch vụ mà khách hàng bắt buộc phải cung cấp đầy đủ Identification Card (CMND), Passport và giấy tờ liên quan trước khi được cấp phép sử dụng. Khi khách hàng đăng kí sử dụng một dịch vụ nào đó, họ có thể chụp hình các tài liệu yêu cầu, toàn bộ thông tin sẽ được tách ra và lưu vào database để tự động xét duyệt. Những hồ sơ không rõ ràng mà hệ thống ML không thể đọc được, đến cuối ngày, sẽ có bộ phận kiểm soát tiến hành xét duyệt riêng. Vì vậy quy trình xét duyệt sẽ rất nhanh và hiệu quả sơ với việc xem từng tấm hình để xác nhận thông tin.
  • Tui có biết một người bạn Machine Learning Engineer đang làm hệ thống này. Hiên tại bạn đó áp dụng kĩ thuật Deep Learning, đặc biệt là Pytorch để build model. Mức độ chính xác lên tới khoảng 80%, phần còn lại là do hình chụp không rõ nét, tài liệu bị mờ…

Credit Scoring (hệ thống chấm điểm tín dụng)

  • Project này phổ biến ở những công ty cung cấp ví điện tử, nhất là ở ngoài nước khi mình có thể nạp tiền vào ví điện tử bằng thẻ tín dụng. Sơ qua về hệ thống, khi một người nạp tiền vào ví bằng thẻ tín dụng, hệ thống sẽ ngay lập tức dự đoán giao dịch đó bằng cách đưa ra một điểm số từ 0 đến 1. Nếu điểm số quá thấp thì cơ hội lớn là người đó đang sử dụng thẻ tín dụng ăn cắp và giao dịch không hợp lệ.
  • Nhìn có vẻ đơn giản nhưng nó ảnh hưởng rất lớn đến công ty, nếu một người sử dụng thẻ tín dụng ăn cắp nạp tiền vào ví điện tử, sau đó dùng ví điện tử đi mua hàng. Khi chủ nhân của thẻ phát hiện ra sẽ báo lên ngân hàng kiểm tra, ngay lập tức ngân hàng sẽ không chấp nhận giao dịch và không thanh toán tiền cho công ty ví điện tử. Vậy công ty này đã lỗ do người đó đã dùng tiền để mua hàng rồi.
  • Đây là một bài toán rất là khó, đòi hỏi Data Scientist phải có hiểu biết rất nhiều về tài chính và quản lý rủi ro, như vậy họ có thể lựa chọn những yếu tố liên quan để có thể xây dựng Machine Learning Model.

Tui nghĩ nhiêu đây cũng đủ để mọi người hình dung được Data Science là như thế nào hay công việc của Data Scientist, Machine Learning ra sao. Anh chị em suy nghĩ sao về cái nghề này, nó có xứng đáng là công việc “sexy” nhất của thế kỷ 21 hay không? Nhớ comment cho tui biết với.

Sắp tới tui sẽ viết thêm một bài về Data Analyst nữa là đủ bộ ngành nghề, mọi người like fanpage của tui để đón đọc nhé. Cám ơn mọi người và hẹn gặp lại.

# Bạn muốn đọc thêm về data science ?