Nền tảng thống kê và xử lý dữ liệu

Chào mừng các bạn sinh viên đã đến với chuỗi bài học đầu tiên và cũng là quan trọng nhất trong hành trình khám phá kinh tế lượng tài chính! Trong thế giới tài chính hiện đại, dữ liệu chính là tài sản quý giá nhất. Tuy nhiên, dữ liệu thô chỉ là những con số vô tri nếu chúng ta không biết cách khai thác và diễn giải chúng. Chương này sẽ trang bị cho bạn những công cụ thống kê nền tảng, được ví như “bảng chữ cái” và “ngữ pháp” để bạn có thể đọc và hiểu được ngôn ngữ của dữ liệu tài chính.

Đừng lo lắng nếu bạn cảm thấy thống kê có vẻ khô khan hay phức tạp. Chúng ta sẽ cùng nhau đi qua từng khái niệm một cách chậm rãi và có hệ thống, từ những ý tưởng cơ bản nhất đến các ứng dụng thực tế trong việc định giá tài sản và quản lý danh mục đầu tư. Mục tiêu của chuỗi bài học này không chỉ là giúp bạn nhớ công thức, mà là giúp bạn xây dựng một tư duy thống kê vững chắc – một kỹ năng không thể thiếu cho bất kỳ nhà phân tích tài chính nào trong tương lai. Hãy coi mỗi bài học là một bước để xây dựng nền móng kiến thức, giúp bạn tự tin đối mặt với các mô hình kinh tế lượng phức tạp hơn sau này.

Trong chuỗi bài học này, chúng ta sẽ tập trung vào ba khối kiến thức cốt lõi:

Phân phối xác suất (Probability Distributions): Tìm hiểu về “hình dạng” và quy luật của dữ liệu, đặc biệt là phân phối chuẩn, nền tảng của hầu hết các kiểm định thống kê.
Thống kê mô tả (Descriptive Statistics): Học cách tóm tắt và mô tả những đặc điểm quan trọng nhất của một bộ dữ liệu tài chính chỉ bằng một vài con số đơn giản.
Giá trị thời gian của tiền (Time Value of Money): Nắm vững nguyên tắc “một đồng hôm nay giá trị hơn một đồng ngày mai”, một khái niệm chi phối mọi quyết định đầu tư và tài chính.

Hãy chuẩn bị sẵn sàng, chúng ta sẽ cùng nhau biến những con số và ký hiệu phức tạp thành những hiểu biết sâu sắc và có giá trị ứng dụng cao.

Cấu trúc chuỗi bài học

Nền tảng về xác suất và phân phối chuẩn
Chúng ta sẽ bắt đầu với những khái niệm cơ bản nhất như biến ngẫu nhiên, xác suất và đặc biệt là phân phối chuẩn – người bạn đồng hành quan trọng nhất trong kinh tế lượng.
Thống kê mô tả: Tóm tắt dữ liệu hiệu quả
Bài học này sẽ trang bị cho bạn các công cụ để “kể chuyện” bằng dữ liệu, từ các thước đo trung tâm (trung bình, trung vị) đến độ phân tán (phương sai, độ lệch chuẩn).
Đo lường sự tương quan và các loại dữ liệu
Chúng ta sẽ khám phá cách các biến số “trò chuyện” với nhau qua hiệp phương sai, tương quan và tìm hiểu về các dạng dữ liệu khác nhau trong tài chính.
Giá trị thời gian của tiền tệ: Hiện tại và tương lai
Đây là một khái niệm nền tảng trong tài chính. Bạn sẽ học cách chiết khấu dòng tiền, tính giá trị hiện tại (PV) và giá trị tương lai (FV) một cách thành thạo.
Tính toán lợi suất và lý thuyết danh mục đầu tư
Bài học này sẽ chỉ bạn cách tính các loại lợi suất khác nhau và giới thiệu cách áp dụng các kiến thức thống kê đã học vào lý thuyết danh mục đầu tư của Markowitz.
Hướng dẫn thực hành phân tích danh mục đầu tư với Stata
Chúng ta sẽ tổng hợp toàn bộ kiến thức để thực hành một bài toán kinh điển: xây dựng biên hiệu quả cho danh mục đầu tư bằng Stata, với dữ liệu mô phỏng và hướng dẫn chi tiết từng bước.

KIẾN THỨC TIÊN QUYẾT

Toán học cơ bản: Các phép toán đại số cơ bản, khái niệm về hàm số, logarit và số mũ.
Tư duy logic: Khả năng theo dõi các lập luận có cấu trúc và hiểu mối quan hệ nhân quả.
Stata cơ bản: Biết cách mở phần mềm, nhập lệnh đơn giản và mở một tệp dữ liệu. Nếu chưa biết, đừng lo, chúng ta sẽ học cùng nhau.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững các khái niệm thống kê nền tảng và vai trò của chúng trong phân tích tài chính.
Thực hành thành thạo: Có khả năng tính toán các thống kê mô tả, giá trị hiện tại, giá trị tương lai và lợi suất tài sản.
Phân tích dữ liệu: Sử dụng Stata để tóm tắt dữ liệu và thực hiện các phân tích cơ bản.
Tư duy phản biện: Hiểu được sự khác biệt giữa các loại dữ liệu và các thước đo thống kê khác nhau để lựa chọn phương pháp phù hợp.

TÀI LIỆU THAM KHẢO

Chính: Brooks, C. (2019). Introductory Econometrics for Finance. Cambridge University Press. (Đây là tài liệu cốt lõi của chúng ta).
Bổ sung (dễ hiểu): Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Cung cấp nhiều ví dụ trực quan và giải thích dễ hiểu).
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press. (Nguồn tài liệu tuyệt vời cho các ví dụ thực hành nâng cao).

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài học này. Bộ dữ liệu này mô phỏng thông tin về tiền lương, điểm GPA và kinh nghiệm thực tập của 1000 sinh viên mới tốt nghiệp. Việc sử dụng một bộ dữ liệu nhất quán sẽ giúp chúng ta thấy rõ cách các kỹ thuật thống kê khác nhau được áp dụng để trả lời các câu hỏi nghiên cứu thực tế.

Hãy mở Stata và chạy đoạn code dưới đây để tạo và lưu bộ dữ liệu này vào máy tính của bạn. Hãy chắc chắn bạn lưu nó ở một thư mục dễ tìm!

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Tên file: grad_salary.dta
* Mục đích: Phân tích các yếu tố ảnh hưởng đến lương khởi điểm
* ==================================================

* Xóa bộ nhớ Stata để bắt đầu
clear

* Thiết lập số lượng quan sát (số sinh viên) là 1000
set obs 1000

* Tạo biến GPA (Grade Point Average) ngẫu nhiên từ 2.5 đến 4.0
* runiform() tạo số ngẫu nhiên từ 0 đến 1
generate gpa = 2.5 + (4 - 2.5) * runiform()

* Tạo biến số kỳ thực tập (internships) ngẫu nhiên từ 0 đến 5
* floor(x) làm tròn số x xuống số nguyên gần nhất
generate internships = floor(6 * runiform())

* Tạo biến ngành học STEM (Science, Technology, Engineering, Math)
* 50% sinh viên học ngành STEM (is_stem = 1), 50% còn lại (is_stem = 0)
generate is_stem = (runiform() > 0.5)

* Tạo thành phần ngẫu nhiên (sai số) cho mô hình lương
* rnormal(0, 5) tạo số ngẫu nhiên theo phân phối chuẩn, trung bình 0, độ lệch chuẩn 5
generate error = rnormal(0, 5)

* Tạo biến lương khởi điểm (salary) theo một mô hình tuyến tính
* Lương cơ bản là 10 triệu, mỗi điểm GPA tăng 3 triệu, mỗi kỳ thực tập tăng 1.5 triệu
* Sinh viên ngành STEM có lương cao hơn 4 triệu
generate salary = 10 + 3 * gpa + 1.5 * internships + 4 * is_stem + error

* Gán nhãn cho các biến để dễ hiểu hơn
label variable gpa "Điểm GPA trung bình của sinh viên"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Là sinh viên ngành STEM (1=Có, 0=Không)"
label variable salary "Lương khởi điểm hàng tháng (triệu VND)"

* Lưu bộ dữ liệu vào thư mục làm việc của bạn
* Thay "D:\StataData\grad_salary.dta" bằng đường dẫn trên máy của bạn
save "grad_salary.dta", replace

* Xem 5 dòng dữ liệu đầu tiên để kiểm tra
list in 1/5

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Tên file: grad_salary.dta
* Mục đích: Phân tích các yếu tố ảnh hưởng đến lương khởi điểm
* ==================================================

* Xóa bộ nhớ Stata để bắt đầu
clear

* Thiết lập số lượng quan sát (số sinh viên) là 1000
set obs 1000

* Tạo biến GPA (Grade Point Average) ngẫu nhiên từ 2.5 đến 4.0
* runiform() tạo số ngẫu nhiên từ 0 đến 1
generate gpa = 2.5 + (4 - 2.5) * runiform()

* Tạo biến số kỳ thực tập (internships) ngẫu nhiên từ 0 đến 5
* floor(x) làm tròn số x xuống số nguyên gần nhất
generate internships = floor(6 * runiform())

* Tạo biến ngành học STEM (Science, Technology, Engineering, Math)
* 50% sinh viên học ngành STEM (is_stem = 1), 50% còn lại (is_stem = 0)
generate is_stem = (runiform() > 0.5)

* Tạo thành phần ngẫu nhiên (sai số) cho mô hình lương
* rnormal(0, 5) tạo số ngẫu nhiên theo phân phối chuẩn, trung bình 0, độ lệch chuẩn 5
generate error = rnormal(0, 5)

* Tạo biến lương khởi điểm (salary) theo một mô hình tuyến tính
* Lương cơ bản là 10 triệu, mỗi điểm GPA tăng 3 triệu, mỗi kỳ thực tập tăng 1.5 triệu
* Sinh viên ngành STEM có lương cao hơn 4 triệu
generate salary = 10 + 3 * gpa + 1.5 * internships + 4 * is_stem + error

* Gán nhãn cho các biến để dễ hiểu hơn
label variable gpa "Điểm GPA trung bình của sinh viên"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Là sinh viên ngành STEM (1=Có, 0=Không)"
label variable salary "Lương khởi điểm hàng tháng (triệu VND)"

* Lưu bộ dữ liệu vào thư mục làm việc của bạn
* Thay "D:\StataData\grad_salary.dta" bằng đường dẫn trên máy của bạn
save "grad_salary.dta", replace

* Xem 5 dòng dữ liệu đầu tiên để kiểm tra
list in 1/5

Sau khi chạy đoạn code trên, bạn sẽ có một file tên là grad_salary.dta. Chúng ta sẽ sử dụng file này rất nhiều trong các bài học thực hành sắp tới. Hãy đảm bảo bạn đã tạo nó thành công nhé!

📚 Bài tiếp theo: Nền tảng về xác suất và phân phối chuẩn

💡 Lưu ý: Hãy đảm bảo đã tạo và lưu thành công bộ dữ liệu mô phỏng. Đây là bước chuẩn bị quan trọng cho các bài học thực hành của chúng ta.