Sự khác nhau giữa Data Engineer, Data Scientist và Software Engineer
TIL
593
White

GetLinks viết ngày 16/12/2016

Mọi người đang dần cảm thấy data engineering là một subset của software engineering và rất nhiều software engineer đang làm việc với data. Vai trò của dữ liệu trong ngành phần mềm ngày càng quan trọng, những nhánh chuyên môn làm việc với dữ liệu dần được phân biệt rõ ràng hơn. Vậy đâu là sự khác nhau giữa software engineer, data engineer và data scientist?

Bài báo cáo của LinkedIn chỉ ra những kĩ năng mà mỗi vai trò thường có. Nhìn vào biểu đồ bên dưới, bạn thấy bản thân nên gọi mình là software engineer, data scientist hay data engineer?

Software Engineer

Là người làm applications và systems. Là người tham gia vào mọi giai đoạn từ thiết kế, viết code đến testing và review. Vai trò này tạo ra sản phẩm (và sản phẩm đó tạo ra data).

Công việc của vai trò này bao gồm:

  • Phát triển frontend & backend
  • Ứng dụng web
  • Ứng dụng mobile
  • Phát triển hệ điều hành
  • Thiết kế phần mềm

Data Engineer

Là người xây dựng systems tổng hợp, lưu trữ và xuất dữ liệu từ một số app và system tạo ra bởi software engineers. Data engineer sở hữu một ngách kĩ năng của software engineer. 40% data engineer ban đầu là software engineer, đây là một trong những hướng phát triển nghề nghiệp thường thấy.

Công việc của vai trò này bao gồm:

  • Cấu trúc dữ liệu nâng cao
  • Điện toán phân tán (distributed computing)
  • Lập trình đồng thời (concurrent programming)
  • Kiến thức về một số công cụ mới: Hadoop, Spark, Kafka, Hive, v.v.
  • Tạo ETL/data pipelines

Data Scientist

Là người tạo hệ thống phân tích trên toàn bộ data, đó có thể là mẫu phân tích 1 lần để team hiểu về hành vi người dùng, hoặc thuật toán machine learning để implement vào code base của software engineers và data engineers.

Công việc của vai trò này bao gồm:

  • Data modeling
  • Machine learning
  • Thuật toán
  • Business Intelligence dashboards

Data team sẽ còn thay đổi

Một số xu hướng cho thấy cấu trúc đội ngũ làm việc với data sẽ còn có nhiều thay đổi. Quá trình ETL đã trở nên dễ dàng hơn nhờ công cụ mới (như Stitchdata.com) cho phép software engineer quản lí data pipelines. Các công ty lớn kéo data engineers ra khỏi đội ngũ software engineer để tạo một team làm việc tập trung với data. Trong một số trường hợp, data scientists đảm nhiệm cả công việc tổng hợp và phân tích data.

Định nghĩa và yêu cầu đối với cả ba vai trò này ắt hẳn sẽ liên tục cải biến, bởi suy cho cùng thì data chỉ có thể tăng lên theo thời gian.

Xem thêm bài viết dành cho cộng đồng lập trình: GetLinks Blog

GetLinks 16-12-2016

Bình luận


White
{{ comment.user.name }}
Bỏ hay Hay
{{comment.like_count}}
Male avatar
{{ comment_error }}
Hủy
   

Hiển thị thử

Chỉnh sửa

White

GetLinks

2 bài viết.
1 người follow
Kipalog
{{userFollowed ? 'Following' : 'Follow'}}
Cùng một tác giả
White
14 1
Google không phải là công ty duy nhất tạo ra những buổi phỏng vấn nghiêm ngặt để chọn được ứng viên tốt nhất. Rất nhiều công ty te...
GetLinks viết hơn 1 năm trước
14 1
Bài viết liên quan
White
0 2
fCC: Technical Documentation Page note So I have finished the HTML part of this exercise and I want to come here to lament about the lengthy HTML ...
HungHayHo viết 1 tháng trước
0 2
White
19 1
Toán tử XOR có tính chất: + A XOR A = 0 + 0 XOR A = A Với tính chất này, có thể cài đặt bài toán sau với độ phức tạp O(N) về runtime, và với O(1)...
kiennt viết gần 2 năm trước
19 1
White
1 1
Chào mọi người, hôm nay mình viết một bài TIL nhỏ về cách lấy độ phân giải của màn hình hiện tại đang sử dụng. xdpyinfo | grep dimensions Kết quả...
namtx viết 12 tháng trước
1 1
{{like_count}}

kipalog

{{ comment_count }}

bình luận

{{liked ? "Đã kipalog" : "Kipalog"}}


White
{{userFollowed ? 'Following' : 'Follow'}}
2 bài viết.
1 người follow

 Đầu mục bài viết

Vẫn còn nữa! x

Kipalog vẫn còn rất nhiều bài viết hay và chủ đề thú vị chờ bạn khám phá!