Vẻ đẹp của dữ liệu
Ngày nay, chúng ta có nhiều công cụ phục vụ cho phân tích dữ liệu với tính tương tác cao, giao diện đẹp. Tôi bắt đầu với R, một phần mềm được tạo ra bởi các nhà nghiên cứu về xác suất thống kê chứ không phải nhà phát triển phần mềm (đây là 1 câu chuyện lịch sử dài). Đọc dữ liệu bao gồm sàng lọc và tính toán để tìm ra ý nghĩa phía sau những con số, từ đó đưa ra nguyên nhân và giải pháp cho các vấn đề.
Một số phát kiến quan trọng mà khoa học dữ liệu mang lại có thể kể đến như:
- Trái Đất và các hành tinh quay xung quanh mặt trời (Galileo, thế kỷ 15)
- Big Bang - học thuyết về vũ trụ (Geogres Lemaitre, 1920)
- Khí thải CO2 gây ra biến đổi khí hậu. (Svante Arrhenius, 1896)
- Moneyball: cách phát hiện những cầu thủ bóng chày tiềm năng. Các đội bóng đầu tư tiền thông minh hơn nhờ Moneyball thay vì đốt ngân sách vào các ngôi sao tên tuổi.
- Định luật 80-20.
Công chúa ngủ trong rừng tỉnh dậy thì gặp hoàng tử, còn tôi ngủ trong sự thiếu hiểu biết, mở mắt thì gặp vô lượng dữ liệu và công thức. Mà công thức còn được chia như thì động từ trong tiếng Anh - nghĩa là cùng 1 giá trị, nhưng hoàn cảnh khác nhau thì cách tính sẽ thay đổi.
Trong 20 giờ với R, tôi đã làm được những điều sau:
- Phân tích nồng độ khí thải CO2 trên Trái Đất từ hàng trăm triệu năm trước tới 2018.
- Phân tích kết quả bỏ phiếu bầu cử tổng thống Mỹ năm 2016.
- Tính toán kết quả của Brexit.
- Tính toán phần trăm lãi suất tối thiểu cho ngân hàng để đảm bảo bù lỗ và rủi ro từ những ca thiếu nợ.
- Máy chơi Roulette (cò quay) có thực sự mang lại tiền lời cho casino không?
- Tính toán lời lãi cho công ty bảo hiểm, số lượng bảo hiểm cần bán ra dựa trên 2 trường hợp: tỉ lệ tử vong bình thường và tỉ lệ tử vong tăng đột biến do dịch bệnh.
Những vấn đề lớn trên được bóc tách ra thành nhiều câu hỏi để người học biết rõ mình đang làm gì thay vì áp dụng công thức như máy rồi quên ngay. Tới giờ tôi vẫn còn đọc lại sách giáo khoa cơ bản, mỗi lần đều vỡ thêm ra vài điều mới mẻ.
Với lớp học online, bạn đạt 70% điểm số trung bình là sẽ được “Passed” (qua lớp), và được trao chứng chỉ. Điều này cũng không khó đâu. Có khi chưa cần làm đến bài kiểm tra tổng hợp, tôi đã đủ điểm “pass” rồi. Nhưng tôi cũng nhận ra, cho dù có đạt trên 90% điểm trong mọi bài kiểm tra, thì khoá học mới chỉ chạm tới những gì cơ bản nhất của khoa học dữ liệu.
Sau 20 giờ, với 3 chứng chỉ hoàn thành khoá học, R vẫn là 1 vũ trụ mở rộng. Vì đã quá quen với lối suy nghĩ dựa trên bản năng và cảm xúc, tôi đã khá đau đầu khi phải dung nạp ngôn ngữ lập trình. Ngoài ra, tôi còn phải học những khái niệm phức tạp trong xác suất thống kê. Thế nhưng, quay mòng mòng trong sách vở vẫn là 1 thú vui.
Mỗi khi giải thành công 1 bài khó, rồi 1 bài khó hơn, tôi ăn mừng như lần đầu tiên biết đi xe đạp năm 6 tuổi.