Giới thiệu về phân tích và trực quan hóa kết quả hồi quy

An Overview of Econometrics and the Book’s Structure

1. Tóm tắt

Chào mừng các bạn đến với chuỗi bài học về kinh tế lượng! Trong chương giới thiệu này, chúng ta sẽ cùng nhau khám phá cách diễn giải và trực quan hóa các kết quả từ mô hình hồi quy (regression models). Mục tiêu chính của cuốn sách này là trang bị cho các bạn những kỹ năng cần thiết để hiểu sâu sắc các mô hình kinh tế lượng thông qua phương pháp học tập khám phá. Thay vì chỉ trình bày lý thuyết khô khan, chúng ta sẽ đi sâu vào các ví dụ thực tế, sử dụng phần mềm Stata để minh họa từng bước phân tích và diễn giải kết quả.

Cuốn sách này được thiết kế để giúp các bạn tiếp cận kinh tế lượng một cách trực quan và dễ hiểu. Chúng ta sẽ bắt đầu với việc tải xuống các bộ dữ liệu mẫu và chạy các ví dụ minh họa trực tiếp trong Stata. Điều này không chỉ giúp các bạn tái tạo kết quả mà còn khuyến khích mở rộng và khám phá thêm. Các bộ dữ liệu chính, đặc biệt là bộ dữ liệu GSS (GSS dataset), sẽ được giới thiệu chi tiết, cùng với các biến quan trọng như thu nhập thực tế (realrinc), tuổi (age), học vấn (educ) và giới tính (female).

Một điểm đặc biệt của cuốn sách là cách tiếp cận “học tập khám phá”, nơi chúng ta sẽ xem xét kết quả của một mô hình và sau đó đi sâu vào việc diễn giải chúng bằng Stata. Mặc dù phương pháp này rất hiệu quả cho việc học, chúng ta cũng sẽ thảo luận về ba “thói quen nghiên cứu không tốt” mà các bạn nên tránh trong quá trình nghiên cứu thực tế của mình. Cuối cùng, chúng ta sẽ có cái nhìn tổng quan về cấu trúc của cuốn sách, từ các biến dự đoán liên tục, phân loại, tương tác cho đến các mô hình nâng cao như mô hình đa cấp (multilevel models) và dữ liệu dọc (longitudinal data), để các bạn có thể hình dung rõ ràng lộ trình học tập phía trước.

2. Cấu trúc Chuỗi Bài học

Để các bạn có cái nhìn tổng quan về hành trình học tập sắp tới, chúng ta sẽ cùng điểm qua cấu trúc của chuỗi bài viết này. Mỗi phần được thiết kế để xây dựng kiến thức một cách tuần tự, từ những khái niệm cơ bản nhất đến các kỹ thuật phân tích phức tạp hơn. Hãy cùng xem các bạn sẽ đạt được những gì qua từng giai đoạn nhé!

Hướng dẫn học
Giới thiệu cấu trúc tổng thể của sách, hướng dẫn tải và sử dụng các dataset minh họa, và đưa ra lời khuyên về thứ tự đọc các chương
Giới thiệu bộ dữ liệu GSS
Dataset GSS được sử dụng phổ biến nhất trong cuốn sách này dựa trên Khảo sát Xã hội Tổng quát (General Social Survey – GSS).
Các bộ dữ liệu khác
Giới thiệu các dataset được sử dụng trong thực hành phân tích các mô hình kết hợp biến liên tục và phân loại, phân tích các hiệu ứng tương tác phức tạp.
Minh họa thực hành
Nắm vững các lệnh Stata nâng cao như margins, marginsplot, contrast và pwcompare để tùy chỉnh và diễn giải kết quả.

3. Điều kiện tiên quyết

Để có thể theo dõi và tiếp thu tốt nhất chuỗi bài học này, các bạn nên có một số kiến thức nền tảng nhất định. Đừng lo lắng nếu chưa hoàn hảo, nhưng việc chuẩn bị trước sẽ giúp hành trình học tập của chúng ta suôn sẻ hơn rất nhiều.

💡 Kiến thức cần có

Thống kê cơ bản: Hiểu biết về các khái niệm như trung bình, phương sai, độ lệch chuẩn, phân phối xác suất và kiểm định giả thuyết.
Hồi quy tuyến tính cơ bản: Nắm vững nguyên lý của hồi quy tuyến tính đơn giản (simple linear regression) và hồi quy tuyến tính đa biến (multiple linear regression).
Làm quen với Stata: Có kinh nghiệm cơ bản trong việc sử dụng phần mềm Stata để nhập dữ liệu, chạy các lệnh cơ bản và xem kết quả.
Tiếng Anh học thuật: Khả năng đọc hiểu các tài liệu tiếng Anh chuyên ngành kinh tế lượng sẽ là một lợi thế lớn.

4. Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ không chỉ nắm vững lý thuyết mà còn có thể tự tin áp dụng vào thực tiễn. Đây là những mục tiêu cụ thể mà chúng ta sẽ cùng nhau phấn đấu đạt được:

Diễn giải mô hình: Thành thạo việc diễn giải các hệ số hồi quy và hiệu ứng biên từ nhiều loại mô hình khác nhau.
Trực quan hóa kết quả: Sử dụng lệnh marginsplot và các công cụ đồ họa khác trong Stata để minh họa kết quả một cách rõ ràng và thuyết phục.
Phân tích tương tác: Hiểu và áp dụng các kỹ thuật phân tích tương tác giữa các biến liên tục và phân loại.
Xử lý dữ liệu phức tạp: Làm việc hiệu quả với dữ liệu bảng (panel data), dữ liệu dọc và dữ liệu khảo sát phức tạp.
Kiểm soát sai lầm loại I: Nắm được các phương pháp kiểm soát sai lầm loại I (Type I error) khi thực hiện nhiều kiểm định thống kê.
Phát triển kế hoạch phân tích: Xây dựng kế hoạch phân tích dữ liệu dựa trên câu hỏi nghiên cứu, thay vì để dữ liệu dẫn dắt.

5. Tài liệu tham khảo

Để hỗ trợ tối đa cho quá trình học tập của các bạn, chúng tôi khuyến nghị sử dụng các tài liệu sau. Đây là những nguồn tài nguyên quý giá giúp củng cố kiến thức và mở rộng hiểu biết về kinh tế lượng.

Mitchell, M. N. (2021). Interpreting and visualizing regression models using Stata (Second edition). Stata Press.
Đây là tài liệu chính mà chuỗi bài học này dựa trên. Cuốn sách cung cấp hướng dẫn chi tiết, từng bước về cách diễn giải và trực quan hóa các mô hình hồi quy bằng Stata, với nhiều ví dụ thực tế và giải thích rõ ràng.
Tài liệu hướng dẫn sử dụng Stata chính thức:
Các tài liệu này là nguồn thông tin đáng tin cậy để hiểu sâu hơn về các lệnh và chức năng của Stata. Các bạn có thể truy cập trực tiếp từ phần mềm Stata hoặc trên trang web của StataCorp.
Các bài báo khoa học và nghiên cứu thực nghiệm:
Đọc thêm các nghiên cứu ứng dụng kinh tế lượng trong lĩnh vực quan tâm sẽ giúp các bạn thấy được cách các phương pháp được sử dụng trong thực tế và cách diễn giải kết quả trong bối cảnh nghiên cứu cụ thể.

6. Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để các bạn có thể bắt đầu thực hành ngay lập tức với các lệnh Stata cơ bản được giới thiệu trong chương này và các chương tiếp theo, chúng tôi đã chuẩn bị một bộ dữ liệu mô phỏng đơn giản. Bộ dữ liệu này được thiết kế để dễ hiểu và minh họa các khái niệm chính một cách trực quan.

Tải xuống và Khám phá dữ liệu mẫu

Trước khi đi sâu vào các phân tích phức tạp, việc làm quen với dữ liệu là rất quan trọng. Các bạn có thể tải xuống các bộ dữ liệu ví dụ và chạy các lệnh minh họa trong cuốn sách trực tiếp từ Stata bằng các lệnh sau. Đây là bước đầu tiên để đảm bảo các bạn có thể tái tạo và mở rộng các ví dụ được trình bày.

Stata

* ==================================================
* MỤC ĐÍCH: Tải xuống các bộ dữ liệu và chương trình ví dụ của sách
* NGUỒN: Stata Press
* ==================================================

* Bước 1: Thiết lập nguồn dữ liệu từ Stata Press
net from https://www.stata-press.com/data/ivrm2/
* Giải thích: Lệnh này chỉ định thư mục trên web nơi chứa các tệp dữ liệu và chương trình.

* Bước 2: Cài đặt chương trình hỗ trợ (nếu có)
net install ivrm2
* Giải thích: Lệnh này tải xuống và cài đặt chương trình 'showcoding' (được sử dụng sau này trong sách)
* Mục đích: Đảm bảo các công cụ cần thiết cho việc hiển thị mã được cài đặt.

* Bước 3: Tải xuống các bộ dữ liệu ví dụ
net get ivrm2
* Giải thích: Lệnh này tải xuống tất cả các bộ dữ liệu ví dụ liên quan đến cuốn sách.
* Mục đích: Cho phép bạn tái tạo và mở rộng các ví dụ minh họa trong sách.

* ==================================================
* MỤC ĐÍCH: Tải xuống các bộ dữ liệu và chương trình ví dụ của sách
* NGUỒN: Stata Press
* ==================================================

* Bước 1: Thiết lập nguồn dữ liệu từ Stata Press
net from https://www.stata-press.com/data/ivrm2/
* Giải thích: Lệnh này chỉ định thư mục trên web nơi chứa các tệp dữ liệu và chương trình.

* Bước 2: Cài đặt chương trình hỗ trợ (nếu có)
net install ivrm2
* Giải thích: Lệnh này tải xuống và cài đặt chương trình 'showcoding' (được sử dụng sau này trong sách)
* Mục đích: Đảm bảo các công cụ cần thiết cho việc hiển thị mã được cài đặt.

* Bước 3: Tải xuống các bộ dữ liệu ví dụ
net get ivrm2
* Giải thích: Lệnh này tải xuống tất cả các bộ dữ liệu ví dụ liên quan đến cuốn sách.
* Mục đích: Cho phép bạn tái tạo và mở rộng các ví dụ minh họa trong sách.

Sau khi tải xuống, chúng ta sẽ sử dụng bộ dữ liệu GSS đã được chuẩn bị sẵn, có tên là gss_ivrm.dta, để khám phá các biến chính.

Stata

* ==================================================
* MỤC ĐÍCH: Khám phá bộ dữ liệu GSS chính
* NGUỒN DỮ LIỆU: gss_ivrm.dta (đã tải xuống)
* ==================================================

* Bước 1: Mở bộ dữ liệu gss_ivrm.dta
use gss_ivrm, clear
* Giải thích: Lệnh này tải bộ dữ liệu 'gss_ivrm.dta' vào bộ nhớ của Stata.
* Tùy chọn 'clear' đảm bảo rằng mọi dữ liệu đang có trong bộ nhớ sẽ được xóa trước khi tải dữ liệu mới.

* Bước 2: Xem cấu trúc tổng quan của bộ dữ liệu
describe, short
* Giải thích: Lệnh 'describe' cung cấp thông tin về các biến trong bộ dữ liệu, bao gồm tên biến, loại biến, định dạng và nhãn.
* Tùy chọn 'short' hiển thị một bản tóm tắt ngắn gọn, hữu ích cho việc kiểm tra nhanh.
* Mục đích: Giúp chúng ta hiểu số lượng quan sát (obs) và số lượng biến (vars) trong bộ dữ liệu.

* Kết quả dự kiến:
* Contains data from gss_ivrm.dta
*   obs:     55,087
*   vars:        34
*   Sorted by:
*            14 Aug 2020 14:04

* ==================================================
* MỤC ĐÍCH: Khám phá bộ dữ liệu GSS chính
* NGUỒN DỮ LIỆU: gss_ivrm.dta (đã tải xuống)
* ==================================================

* Bước 1: Mở bộ dữ liệu gss_ivrm.dta
use gss_ivrm, clear
* Giải thích: Lệnh này tải bộ dữ liệu 'gss_ivrm.dta' vào bộ nhớ của Stata.
* Tùy chọn 'clear' đảm bảo rằng mọi dữ liệu đang có trong bộ nhớ sẽ được xóa trước khi tải dữ liệu mới.

* Bước 2: Xem cấu trúc tổng quan của bộ dữ liệu
describe, short
* Giải thích: Lệnh 'describe' cung cấp thông tin về các biến trong bộ dữ liệu, bao gồm tên biến, loại biến, định dạng và nhãn.
* Tùy chọn 'short' hiển thị một bản tóm tắt ngắn gọn, hữu ích cho việc kiểm tra nhanh.
* Mục đích: Giúp chúng ta hiểu số lượng quan sát (obs) và số lượng biến (vars) trong bộ dữ liệu.

* Kết quả dự kiến:
* Contains data from gss_ivrm.dta
*   obs:     55,087
*   vars:        34
*   Sorted by:
*            14 Aug 2020 14:04

Bộ dữ liệu này chứa 55.087 quan sát và 34 biến. Các biến chính mà chúng ta sẽ sử dụng xuyên suốt chuỗi bài học bao gồm: realrinc (thu nhập thực tế), age (tuổi), educ (học vấn) và female (giới tính).

Khám phá các biến chính

Để hiểu rõ hơn về các biến này, chúng ta sẽ sử dụng lệnh summarize để xem các thống kê mô tả cơ bản. Điều này giúp chúng ta có cái nhìn đầu tiên về phân phối và đặc điểm của dữ liệu.

Biến thu nhập (`realrinc`)

Biến realrinc đo lường thu nhập hàng năm của người được hỏi bằng đô la thực tế, được chuẩn hóa theo năm 1986 và điều chỉnh bằng Chỉ số giá tiêu dùng (Consumer Price Index – All Urban Consumers – CPI-U). Thu nhập thường có phân phối lệch phải (right-skewed distribution), và realrinc cũng không ngoại lệ. Chúng ta có thể trực quan hóa điều này bằng biểu đồ tần số (histogram).

Stata

* ==================================================
* MỤC ĐÍCH: Khám phá phân phối của biến thu nhập (realrinc)
* ==================================================

* Bước 1: Vẽ biểu đồ tần số cho biến realrinc
histogram realrinc, bin(45) start(259) width(10664.122) title("Phân phối Thu nhập thực tế")
* Giải thích: Lệnh 'histogram' tạo biểu đồ tần số.
* 'bin(45)' chỉ định số lượng cột (bins) là 45.
* 'start(259)' chỉ định điểm bắt đầu của trục x.
* 'width(10664.122)' chỉ định chiều rộng của mỗi cột.
* 'title("Phân phối Thu nhập thực tế")' đặt tiêu đề cho biểu đồ.
* Mục đích: Quan sát hình dạng phân phối của thu nhập, đặc biệt là độ lệch phải.

* ==================================================
* MỤC ĐÍCH: Khám phá phân phối của biến thu nhập (realrinc)
* ==================================================

* Bước 1: Vẽ biểu đồ tần số cho biến realrinc
histogram realrinc, bin(45) start(259) width(10664.122) title("Phân phối Thu nhập thực tế")
* Giải thích: Lệnh 'histogram' tạo biểu đồ tần số.
* 'bin(45)' chỉ định số lượng cột (bins) là 45.
* 'start(259)' chỉ định điểm bắt đầu của trục x.
* 'width(10664.122)' chỉ định chiều rộng của mỗi cột.
* 'title("Phân phối Thu nhập thực tế")' đặt tiêu đề cho biểu đồ.
* Mục đích: Quan sát hình dạng phân phối của thu nhập, đặc biệt là độ lệch phải.

Phân tích kết quả:

Biểu đồ tần số của realrinc cho thấy rõ ràng một phân phối lệch phải, nghĩa là có một số ít người có thu nhập rất cao kéo dài “đuôi” của phân phối về phía bên phải. Điều này là đặc trưng của dữ liệu thu nhập và cần được xem xét trong quá trình phân tích. Để xử lý vấn đề này, chúng ta có thể sử dụng sai số chuẩn vững (robust standard errors) trong hồi quy tuyến tính (linear regression), giúp ước lượng các hệ số không thiên lệch ngay cả khi có phương sai thay đổi (heteroskedasticity).

Biến Tuổi (`age`)

Biến age được sử dụng làm biến dự đoán cho realrinc, với giá trị từ 18 đến 89 (trong đó 89 đại diện cho 89 tuổi trở lên). Thay vì hiển thị toàn bộ phân phối tuổi, chúng ta sẽ xem xét phân phối tuổi cho nhóm trẻ nhất (18 đến 25) và nhóm lớn tuổi nhất (75 đến 89).

Stata

* ==================================================
* MỤC ĐÍCH: Xem phân phối tuổi cho nhóm trẻ nhất (18-25)
* ==================================================

* Bước 1: Lập bảng tần số cho biến age với điều kiện
tabulate age if (age<=25)
* Giải thích: Lệnh 'tabulate' tạo bảng tần số cho biến 'age'.
* 'if (age<=25)' là điều kiện lọc, chỉ bao gồm những người từ 25 tuổi trở xuống.
* Mục đích: Quan sát số lượng và tỷ lệ phần trăm của từng độ tuổi trong nhóm trẻ.

* ==================================================
* MỤC ĐÍCH: Xem phân phối tuổi cho nhóm trẻ nhất (18-25)
* ==================================================

* Bước 1: Lập bảng tần số cho biến age với điều kiện
tabulate age if (age<=25)
* Giải thích: Lệnh 'tabulate' tạo bảng tần số cho biến 'age'.
* 'if (age<=25)' là điều kiện lọc, chỉ bao gồm những người từ 25 tuổi trở xuống.
* Mục đích: Quan sát số lượng và tỷ lệ phần trăm của từng độ tuổi trong nhóm trẻ.

Phân tích kết quả:

Kết quả cho thấy số lượng người 18 tuổi tương đối ít so với các độ tuổi khác trong nhóm này. Điều này có thể ảnh hưởng đến độ chính xác của các ước lượng cho nhóm tuổi rất trẻ nếu cỡ mẫu quá nhỏ.

Tiếp theo, chúng ta sẽ xem xét phân phối tuổi cho nhóm lớn tuổi nhất.

Stata

* ==================================================
* MỤC ĐÍCH: Xem phân phối tuổi cho nhóm lớn tuổi nhất (75-89)
* ==================================================

* Bước 1: Lập bảng tần số cho biến age với điều kiện
tabulate age if (age>=75)
* Giải thích: Lệnh 'tabulate' tạo bảng tần số cho biến 'age'.
* 'if (age>=75)' là điều kiện lọc, chỉ bao gồm những người từ 75 tuổi trở lên.
* Mục đích: Quan sát số lượng và tỷ lệ phần trăm của từng độ tuổi trong nhóm lớn tuổi.

* ==================================================
* MỤC ĐÍCH: Xem phân phối tuổi cho nhóm lớn tuổi nhất (75-89)
* ==================================================

* Bước 1: Lập bảng tần số cho biến age với điều kiện
tabulate age if (age>=75)
* Giải thích: Lệnh 'tabulate' tạo bảng tần số cho biến 'age'.
* 'if (age>=75)' là điều kiện lọc, chỉ bao gồm những người từ 75 tuổi trở lên.
* Mục đích: Quan sát số lượng và tỷ lệ phần trăm của từng độ tuổi trong nhóm lớn tuổi.

Phân tích kết quả:

Bảng tần số cho thấy cỡ mẫu tương đối nhỏ đối với những người ở độ tuổi cuối 80. Điều này cũng là một yếu tố quan trọng cần lưu ý khi phân tích mối quan hệ giữa thu nhập và tuổi tác ở các nhóm tuổi cao, vì các ước lượng có thể kém chính xác hơn.

Nhiều ví dụ trong sách sẽ xem xét mối quan hệ giữa thu nhập và tuổi tác. Thông thường, thu nhập tăng theo tuổi cho đến khi đạt đỉnh và sau đó giảm dần. Mối quan hệ này thường là phi tuyến (curvilinear). Trong Chương 3, chúng ta sẽ mô hình hóa mối quan hệ này bằng cách sử dụng mô hình bậc hai (quadratic model).

Biến Học vấn (`educ`)

Biến educ đo lường số năm học vấn đã hoàn thành, từ 0 đến 20 năm. Mã giá trị thiếu .d cho biết “không biết” và .n cho biết “không trả lời”.

Stata

* ==================================================
* MỤC ĐÍCH: Xem phân phối của biến học vấn (educ)
* ==================================================

* Bước 1: Lập bảng tần số cho biến educ, bao gồm giá trị thiếu
tabulate educ, missing
* Giải thích: Lệnh 'tabulate' tạo bảng tần số cho biến 'educ'.
* Tùy chọn 'missing' đảm bảo rằng các giá trị thiếu cũng được hiển thị trong bảng.
* Mục đích: Hiểu phân phối số năm học vấn và tỷ lệ dữ liệu thiếu.

* ==================================================
* MỤC ĐÍCH: Xem phân phối của biến học vấn (educ)
* ==================================================

* Bước 1: Lập bảng tần số cho biến educ, bao gồm giá trị thiếu
tabulate educ, missing
* Giải thích: Lệnh 'tabulate' tạo bảng tần số cho biến 'educ'.
* Tùy chọn 'missing' đảm bảo rằng các giá trị thiếu cũng được hiển thị trong bảng.
* Mục đích: Hiểu phân phối số năm học vấn và tỷ lệ dữ liệu thiếu.

Phân tích kết quả:

Bảng tần số cho thấy phần lớn các quan sát tập trung ở 12 năm học vấn (tốt nghiệp trung học phổ thông) và 16 năm học vấn (tốt nghiệp đại học). Mối quan hệ giữa thu nhập và học vấn là một chủ đề được nghiên cứu sâu rộng và thường được hiểu là có mối liên hệ tích cực. Tuy nhiên, mối quan hệ này không nhất thiết phải là tuyến tính hoàn toàn. Trong Chương 4, chúng ta sẽ sử dụng mô hình từng phần (piecewise models) để nắm bắt các thành phần tuyến tính trong các khoảng học vấn khác nhau.

Biến Giới tính (`female`)

Biến female được mã hóa là 1 nếu người được hỏi là nữ và 0 nếu là nam. Khi mục đích là kiểm soát giới tính, biến này sẽ hoạt động như một biến giả (dummy variable). Trong các trường hợp khác, khi chúng ta muốn chủ động khám phá vai trò của giới tính và các tương tác với giới tính, biến gender (mã hóa 1 = Nam, 2 = Nữ) sẽ được sử dụng để tránh nhầm lẫn giữa tên biến và giá trị của biến.

Các Bộ dữ liệu Khác

Ngoài bộ dữ liệu GSS, cuốn sách còn sử dụng một số bộ dữ liệu giả định khác để minh họa các khái niệm cụ thể:

Bộ dữ liệu về Đau (pain.dta, pain2.dta): Được sử dụng trong Chương 7 để đánh giá mối quan hệ giữa liều lượng thuốc và mức độ đau.
Bộ dữ liệu về Sự lạc quan (opt-*.dta): Được sử dụng trong Chương 8 và 9 để minh họa các tương tác giữa các biến phân loại trong các nghiên cứu về hiệu quả trị liệu tâm lý.
Bộ dữ liệu về Trường học (school_*.dta): Được sử dụng trong Chương 15 để diễn giải mô hình đa cấp và các tương tác đa cấp giữa đặc điểm trường học và học sinh.
Bộ dữ liệu về Giấc ngủ (sleep_*.dta): Được sử dụng trong Chương 16 và 17 để minh họa mô hình dữ liệu dọc, phân tích số phút ngủ mỗi đêm theo thời gian.

📚 Bài tiếp theo: Biến dự đoán Liên tục

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.