Ngày nay, chúng ta có nhiều công cụ phục vụ cho phân tích dữ liệu với tính tương tác cao, giao diện đẹp. Tôi bắt đầu với R, một phần mềm được tạo ra bởi các nhà nghiên cứu về xác suất thống kê chứ không phải nhà phát triển phần mềm (đây là 1 câu chuyện lịch sử dài). Đọc dữ liệu bao gồm sàng lọc và tính toán để tìm ra ý nghĩa phía sau những con số, từ đó đưa ra nguyên nhân và giải pháp cho các vấn đề.
Một số phát kiến quan trọng mà khoa học dữ liệu mang lại có thể kể đến như:
Công chúa ngủ trong rừng tỉnh dậy thì gặp hoàng tử, còn tôi ngủ trong sự thiếu hiểu biết, mở mắt thì gặp vô lượng dữ liệu và công thức. Mà công thức còn được chia như thì động từ trong tiếng Anh - nghĩa là cùng 1 giá trị, nhưng hoàn cảnh khác nhau thì cách tính sẽ thay đổi.
Trong 20 giờ với R, tôi đã làm được những điều sau:
Những vấn đề lớn trên được bóc tách ra thành nhiều câu hỏi để người học biết rõ mình đang làm gì thay vì áp dụng công thức như máy rồi quên ngay. Tới giờ tôi vẫn còn đọc lại sách giáo khoa cơ bản, mỗi lần đều vỡ thêm ra vài điều mới mẻ.
Với lớp học online, bạn đạt 70% điểm số trung bình là sẽ được “Passed” (qua lớp), và được trao chứng chỉ. Điều này cũng không khó đâu. Có khi chưa cần làm đến bài kiểm tra tổng hợp, tôi đã đủ điểm “pass” rồi. Nhưng tôi cũng nhận ra, cho dù có đạt trên 90% điểm trong mọi bài kiểm tra, thì khoá học mới chỉ chạm tới những gì cơ bản nhất của khoa học dữ liệu.
Sau 20 giờ, với 3 chứng chỉ hoàn thành khoá học, R vẫn là 1 vũ trụ mở rộng. Vì đã quá quen với lối suy nghĩ dựa trên bản năng và cảm xúc, tôi đã khá đau đầu khi phải dung nạp ngôn ngữ lập trình. Ngoài ra, tôi còn phải học những khái niệm phức tạp trong xác suất thống kê. Thế nhưng, quay mòng mòng trong sách vở vẫn là 1 thú vui.
Mỗi khi giải thành công 1 bài khó, rồi 1 bài khó hơn, tôi ăn mừng như lần đầu tiên biết đi xe đạp năm 6 tuổi.
Link nội dung: https://trungtamgiasuhanoi.edu.vn/nhap-mon-khoa-hoc-du-lieu-a46641.html