leafleafleafDocy banner shape 01Docy banner shape 02Man illustrationFlower illustration

3. Mở rộng mô hình hồi quy đơn

Estimated reading: 50 minutes 17 views

3.1 Giới thiệu

Mục tiêu của chúng ta trong Chương 1 là xây dựng một số mô hình cơ bản để xác định thu nhập ở mức độ cá nhân và ở cấp độ quốc gia. Trong chương trước, chúng ta đã chỉ ra cách sử dụng ước lượng OLS trong mô hình hồi quy đơn biến để ước tính tác động của giáo dục lên thu nhập lao động ở Nam Phi. Khi rút ra các suy luận nhân quả, chúng ta đã nhấn mạnh sự cần thiết của giả định kỳ vọng có điều kiện bằng không (A4) để ước lượng OLS không bị thiên lệch. Trong mô hình hồi quy đơn giản, tất cả các yếu tố quyết định của $ y $ ngoại trừ $ x $ đều được ẩn trong phần dư $ u $, và nếu $ u $ thực sự tương quan với biến giải thích $ x $, giả định A4 sẽ không còn đúng. Khả năng thất bại của giả định này là vấn đề trung tâm trong việc diễn giải phương trình của chúng ta để xác định tác động của $ x $ lên $ y $.

Trong chương này, chúng ta sẽ mở rộng mô hình hồi quy để cho phép nhiều biến giải thích và chỉ ra cách sử dụng OLS để ước lượng các tham số của mô hình tổng quát hơn. Bằng cách này, chúng ta tiến một bước quan trọng để kiểm soát một loạt các yếu tố có thể tương quan với biến giải thích của chúng ta. Tuy nhiên, trước khi thực hiện bước này, trong phần tiếp theo, chúng ta sẽ xem xét một mô hình đơn giản hơn về tác động của giáo dục đối với thu nhập và sử dụng mô hình này để chỉ rõ hơn các giả định mà chúng ta đang thực hiện khi rút ra suy luận nhân quả từ các hồi quy OLS của chúng ta.

Sau đó, chúng ta sẽ chuyển sang mở rộng mô hình hồi quy đơn giản của mình sang một mô hình có nhiều biến trong Phần 3.3. Trong Phần 3.4, chúng ta sẽ chỉ ra cách mở rộng các hàm thu nhập và hàm sản xuất thay đổi quan điểm của chúng ta về các yếu tố quyết định thu nhập và năng suất.

3.2 Biến giả giải thích và lợi tức từ giáo dục

Một trong những mục tiêu phát triển thiên niên kỷ là cung cấp giáo dục tiểu học phổ cập vào cuối năm 2015. Giả sử chúng ta muốn ước tính giá trị của việc hoàn thành giáo dục tiểu học đối với một học sinh. Mặc dù chúng ta chắc chắn có thể sử dụng kết quả hồi quy từ Chương 2, nhưng ở đây chúng ta xem xét một cách tiếp cận thay thế minh họa cách chúng ta có thể sử dụng phân tích hồi quy với các biến giả giải thích. Chúng ta bắt đầu bằng cách sửa đổi phương trình thu nhập của mình và viết lại như sau:

$$
\log(\text{wphy}) = \beta_0 + \beta_1 \cdot \text{primary_complete} + u, \tag{3.1} \label{3.1}
$$

trong đó $ \text{primary_complete} $ là một biến giả bằng 1 đối với những người đã hoàn thành giáo dục tiểu học và 0 đối với những người chưa hoàn thành. Theo giả định kỳ vọng có điều kiện bằng không đối với phần dư $ u $, kỳ vọng có điều kiện của log thu nhập được thể hiện như sau:

$$
E(\log(\text{wphy}) | \text{primary_complete} = 0) = \beta_0 \tag{3.2} \label{3.2}
$$

$$
E(\log(\text{wphy}) | \text{primary_complete} = 1) = \beta_0 + \beta_1.
$$

Rõ ràng là hệ số của biến $ \text{primary_complete} $ (( \beta_1 $) cho chúng ta giá trị của việc hoàn thành giáo dục tiểu học. Thực tế rằng biến giải thích của chúng ta hiện là một biến giả và không phải là một biến liên tục không thay đổi bất kỳ cơ chế nào của ước lượng OLS.

Bảng 3.1 trình bày kết quả OLS sử dụng dữ liệu Nam Phi của chúng ta.

Thay vì chạy một hồi quy, chúng ta hãy tính giá trị trung bình của log thu nhập riêng biệt cho những người có và không có giáo dục tiểu học, điều mà chúng ta thực hiện trong Bảng 3.2.

Bạn có thể thấy rằng bảng phân loại chéo này cung cấp cho bạn thông tin giống hệt với hồi quy tuyến tính đơn giản. Hãy nhìn vào bảng phân loại chéo. Những người có ‘giáo dục tiểu học không hoàn thành’ kiếm được trung bình 0.895. Điều này giống hệt với ước lượng hằng số chặn trong hồi quy OLS. Những người có ‘giáo dục tiểu học hoàn thành’ kiếm được trung bình 1.84, điều này giống hệt với ước lượng hằng số chặn cộng với ước lượng hệ số của $ \text{primary_complete} $ trong hồi quy OLS của chúng ta (0.895 + 0.948 = 1.84). Sự liên hệ giữa kết quả phân loại chéo và kết quả hồi quy rõ ràng trong trường hợp này: chúng đơn giản là những ước lượng tương đương của giá trị kỳ vọng của log thu nhập có điều kiện khi $ \text{primary_complete} = 0 $ và $ \text{primary_complete} = 1 $.

Những con số này ở dạng log tự nhiên, vì vậy để thấy sự khác biệt về thu nhập giữa những người có hoàn thành giáo dục tiểu học và những người không hoàn thành giáo dục tiểu học, chúng ta cần tìm giá trị dự đoán của thu nhập. Phương trình của chúng ta đến giờ đã dự đoán log tự nhiên của thu nhập, chứ không phải là thu nhập thực tế. Giá trị kỳ vọng của thu nhập, ký hiệu là $ \text{wphy} $, được cho bởi:

$$
E(\text{wphy}_i | \text{primary_complete}) = \alpha_0 \exp(\beta_0 + \beta_1 \cdot \text{primary_complete}), \tag{3.3} \label{3.3}
$$

trong đó $ \alpha_0 = E(\exp(u)) $. Một ước lượng có thể có của $ \alpha_0 $ là:

$$\hat{\alpha}_0 = \frac{1}{n} \sum_{i=1}^{n} \exp(\hat{u}_i). \tag{3.4} \label{3.4}$$

Nếu bạn sử dụng dữ liệu cho hồi quy, bạn sẽ tìm thấy rằng

$$
\hat{\alpha}_0 = 1.59.
$$

Vì vậy, tính toán sau đây sẽ chuyển đổi log của thu nhập thành các mức thu nhập:

$$ \widehat{wphy}_{pc} = 1.59 \cdot \exp(\log(\text{wphy}_{pc})) = 1.59 \cdot \exp(1.843) = 10.04 \text{ rand per hour}, $$

$$ \widehat{wphy}_{pnc} = 1.59 \cdot \exp(\log(\text{wphy}_{pnc})) = 1.59 \cdot \exp(0.895) = 3.89 \text{ rand per hour}, $$

trong đó $ \text{pc} $ và $ \text{pnc} $ nghĩa là giáo dục tiểu học hoàn thành và giáo dục tiểu học không hoàn thành. Bạn sẽ thấy rõ ràng rằng sự gia tăng thu nhập liên quan đến việc hoàn thành giáo dục tiểu học là hơn 150%.

Khi chuyển đổi giữa các mức của biến và thông số logarit, bạn cần lưu ý khi nào hệ số của biến giả là một xấp xỉ tốt cho sự thay đổi phần trăm và khi nào không phải như vậy. Nói chung, đối với một thông số log-biến giả loại sau:

$$
\log(y) = \beta_0 + \beta_1 \cdot x + u,
$$

trong đó $ x $ là một biến giả, sự khác biệt phần trăm chính xác trong $ y $ do thay đổi $ x $ từ 0 thành 1 được cho bởi:

$$
\%\Delta y = (\exp(\beta_1) – 1) \cdot 100.
$$

Sử dụng phép xấp xỉ Taylor bậc nhất, có thể cho thấy rằng, nếu $ \beta_1 $ nhỏ, $\%\Delta y \approx 100 \cdot \beta_1$. Ví dụ, nếu $ \beta_1 = 0.05 $, sự khác biệt phần trăm chính xác là $ 100 \times (\exp(0.05) – 1) = 5.13\% $, vì vậy đọc trực tiếp hiệu ứng là 5% từ hệ số chỉ dẫn đến một sai số xấp xỉ nhỏ (và chấp nhận được). Tuy nhiên, trong trường hợp của chúng ta, chúng ta có ước lượng $ \beta_1 $ bằng 0.95, vì vậy sự thay đổi phần trăm chính xác là 158%, rõ ràng lớn hơn nhiều so với 95%.

Để các ước lượng này không bị thiên lệch, chúng ta cần đảm bảo rằng các sai số không tương quan với biến giải thích trong tổng thể. Theo cấu trúc, các sai số không tương quan với các biến $ x $ trong hồi quy OLS. Làm thế nào để chúng ta biết điều đó đúng trong tổng thể? Câu trả lời ngắn gọn là chúng ta không thể chắc chắn. Tuy nhiên, có thể khá dễ dàng để phát hiện nếu điều đó không đúng. Nếu mô hình của chúng ta gợi ý rằng có những biến số quyết định thu nhập, và chúng ta có thể quan sát những biến số này, thì chúng ta có thể kiểm tra xem chúng có thực sự ảnh hưởng đến thu nhập một khi đã điều kiện hóa theo giáo dục; đây là vai trò của hồi quy đa biến mà chúng ta sẽ đề cập trong Phần 3.3. Tuy nhiên, trong một số trường hợp, chúng ta có thể sử dụng một phương pháp khác để đảm bảo rằng các biến giải thích không tương quan với các sai số, và điều này có thể thực hiện được nếu chúng ta có thể tiến hành một thí nghiệm.

Hãy tạm thời bỏ qua sự hoài nghi và giả định rằng chúng ta có thể quyết định liệu một học sinh có được giáo dục tiểu học hay không. Bây giờ, hãy chọn ngẫu nhiên, để mỗi học sinh có cơ hội ngang nhau được giáo dục. Nếu việc lựa chọn ngẫu nhiên của chúng ta thành công, sẽ không có sự khác biệt giữa những người được giáo dục tiểu học và những người không được giáo dục, ngoài việc học vấn của họ. Trong trường hợp này, chúng ta sẽ biết rằng các yếu tố không quan sát được không tương quan với biến $ x $, vì thí nghiệm của chúng ta đã đảm bảo điều đó. Trong bối cảnh thí nghiệm này, chúng ta sẽ thành công trong việc xác định tác động của giáo dục, theo nghĩa rằng các giá trị trung bình giữa hai nhóm sẽ đo lường sự khác biệt trung bình mà giáo dục đã tạo ra đối với thu nhập của họ.

Bây giờ, bạn có thể phản đối, và đúng như vậy, rằng ví dụ này có phần không thực tế: không những học sinh không được chọn ngẫu nhiên, mà việc làm như vậy cũng không đúng. Tuy nhiên, có thể có những vấn đề mà chúng ta có thể giải quyết theo cách này và nếu điều đó có thể, đây là một cách để giải quyết các vấn đề do khả năng tương quan của biến $ x $ với yếu tố không quan sát được. Phương pháp này sẽ được giới thiệu một cách chính thức hơn trong Chương 12.

3.3 Hồi quy đa biến

3.3.1 Hàm thu nhập và hàm sản xuất

Trong Chương 1, chúng ta đã giới thiệu các dạng tổng quát hơn của cả hàm thu nhập và hàm sản xuất so với những gì chúng ta đã xem xét trong chương trước. Trong phần này, chúng ta phát triển việc nghiên cứu hồi quy đa biến bằng cách mở rộng các hàm đó thêm nữa. Dạng tổng quát nhất của hàm thu nhập mà chúng ta xem xét trong chương này và các chương tiếp theo là:

$$
\log(\text{wL}_i) = \beta_0 + \beta_1 \text{Exper}_i + \beta_2 \text{Exper}_i^2 + \beta_3 E_i + \beta_4 E_i^2 + u_i. \tag{3.5} \label{3.5}
$$

Trong phương trình này, log của thu nhập là một hàm của kinh nghiệm làm việc Exper cũng như của giáo dục E. Cả kinh nghiệm làm việc và giáo dục đều được phép xuất hiện một cách phi tuyến trong phương trình. Phương trình của chúng ta vẫn tuyến tính trong các tham số, nhưng việc cho phép tính phi tuyến trong các biến số là một khía cạnh quan trọng về cách mà kinh nghiệm làm việc và giáo dục ảnh hưởng đến thu nhập. Nếu hàm thu nhập là lõm, thì các tham số $ \beta_2 $ và $ \beta_4 $ sẽ âm, ngụ ý rằng tốc độ gia tăng thu nhập với kinh nghiệm và giáo dục sẽ giảm dần theo mức độ của chúng. Hãy nhớ rằng trong Chương 1, thước đo của Hall và Jones (1999) đã giả định hàm thu nhập là lõm với giáo dục. Chúng ta sẽ kiểm tra giả định này bằng cách sử dụng dữ liệu vi mô của mình.

Trong Chương 1, chúng ta đã giới thiệu hàm sản xuất Cobb-Douglas có vốn nhân lực được bổ sung với dạng:

$$
\log\left(\frac{V_i}{L_i}\right) = \alpha \log\left(\frac{K_i}{L_i}\right) + (1 – \alpha)\log(A_i) + (1 – \alpha)\phi(E_i) + u_i. \tag{3.6} \label{3.6}
$$

Việc chúng ta bao gồm kinh nghiệm trong phương trình vi mô của mình và bao gồm giáo dục trong hàm sản xuất vĩ mô của chúng ta cho thấy cách hồi quy đa biến cho phép chúng ta mở rộng mô hình hồi quy đơn giản. Nếu kinh nghiệm tương quan với giáo dục trong phương trình vi mô và vốn nhân lực tương quan với vốn vật chất trong hàm sản xuất vĩ mô, thì mô hình hồi quy đơn giản sẽ đưa ra các ước lượng điểm bị thiên lệch, vì các lý do mà chúng ta đã nêu ra trong Chương 2. Khả năng thuyết phục rằng OLS ước lượng tác động nhân quả mà không bị thiên lệch sẽ mạnh hơn nếu mô hình thực nghiệm của chúng ta rõ ràng bao gồm các yếu tố được cho là xác định thu nhập hoặc năng suất lao động.

3.3.2 Các ước lượng OLS cho hồi quy đa biến

Trong phần này, chúng ta sẽ trình bày cách các tham số của mô hình hồi quy đa biến có thể được ước lượng. Chúng ta xác định mô hình hồi quy tuyến tính đa biến như sau:

$$
y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \beta_3 x_{3i} + \ldots + \beta_k x_{ki} + u_i, \tag{3.7} \label{3.7}
$$

trong đó $x_1, x_2, \ldots, x_k$ là các biến độc lập hoặc biến giải thích, và $u$ là phần dư hoặc sai số. Chúng ta muốn ước lượng các tham số chưa biết $\beta_0, \beta_1, \ldots, \beta_k$ trong phương trình này. Các ước lượng OLS của $\beta_0, \beta_1, \ldots, \beta_k$ được ký hiệu là $\hat{\beta_0}, \hat{\beta_1}, \ldots, \hat{\beta_k}$, và phần dư OLS cho từng cá thể $i$ được định nghĩa như sau:

$$
\hat{u}i = y_i – \hat{\beta_0} – \hat{\beta_1} x{1i} – \ldots – \hat{\beta_k} x_{ki}.
$$

Các ước lượng OLS $\hat{\beta_0}, \hat{\beta_1}, \ldots, \hat{\beta_k}$ là những giá trị tối thiểu hóa tổng bình phương của các phần dư trên toàn bộ các quan sát trong mẫu:

$$
\sum_{i=1}^n \hat{u}i^2 = \sum{i=1}^n \left(y_i – \hat{\beta_0} – \hat{\beta_1} x_{1i} – \ldots – \hat{\beta_k} x_{ki}\right)^2, \tag{3.8} \label{3.8}
$$

Do đó, tất cả các ước lượng khác của các tham số tổng thể $\beta_0, \beta_1, \ldots, \beta_k$ sẽ dẫn đến tổng bình phương phần dư cao hơn so với ước lượng dựa trên OLS. Từ đó suy ra rằng các ước lượng OLS $\hat{\beta_0}, \hat{\beta_1}, \ldots, \hat{\beta_k}$ thỏa mãn các điều kiện bậc nhất sau của OLS:

$$
\sum_{i=1}^n \left(y_i – \hat{\beta_0} – \hat{\beta_1} x_{1i} – \ldots – \hat{\beta_k} x_{ki}\right) = 0,
$$

$$
\sum_{i=1}^n x_{1i} \left(y_i – \hat{\beta_0} – \hat{\beta_1} x_{1i} – \ldots – \hat{\beta_k} x_{ki}\right) = 0,
$$

$$
\sum_{i=1}^n x_{2i} \left(y_i – \hat{\beta_0} – \hat{\beta_1} x_{1i} – \ldots – \hat{\beta_k} x_{ki}\right) = 0,
$$

$$
\ldots
$$

$$
\sum_{i=1}^n x_{ki} \left(y_i – \hat{\beta_0} – \hat{\beta_1} x_{1i} – \ldots – \hat{\beta_k} x_{ki}\right) = 0. \tag{3.9} \label{3.9}
$$

Dựa trên các phương trình này, chúng ta có thể giải cho $\hat{\beta_0} \ldots \hat{\beta_k}$ theo cách tương tự như chúng ta đã giải cho $\hat{\beta_0}$ và $\hat{\beta_1}$ trong Chương 2. Việc mở rộng mô hình hồi quy đa biến tổng quát không liên quan đến các nguyên lý toán học mới, mặc dù đại số có thể trở nên phức tạp nếu không sử dụng ma trận.

Để các ước lượng OLS của các tham số trong mô hình hồi quy đa biến không bị thiên lệch, cần thỏa mãn bốn giả định sau:

  • (A1′) Mô hình tổng thể là tuyến tính theo các tham số.
  • (A2′) Dữ liệu được thu thập thông qua lấy mẫu ngẫu nhiên.
  • (A3′) Có sự biến đổi trong mẫu đối với tất cả các biến giải thích và không có biến giải thích nào đồng tuyến tính với các biến giải thích khác.
  • (A4′) Kỳ vọng có điều kiện của phần dư bằng 0: $E(u | x_1, x_2, \ldots, x_k) = 0$.

(Xem Wooldridge, 2013, Chương 3). Như bạn có thể thấy, hai giả định đầu tiên giống hệt với các giả định nền tảng của mô hình hồi quy tuyến tính đơn giản, trong khi hai giả định thứ ba và thứ tư là các phiên bản mở rộng của chúng trong hồi quy đơn biến. Khái niệm mới duy nhất là sự đồng tuyến tính, nghĩa là có sự phụ thuộc tuyến tính giữa các biến. Do đó, nếu chúng ta hồi quy một trong các biến giải thích lên các biến giải thích khác trong mô hình và nhận được giá trị $R^2$ bằng 1 từ hồi quy đó, chúng ta sẽ có sự đồng tuyến tính. Trong trường hợp đó, không thể ước lượng tất cả các tham số của mô hình bằng OLS. Stata xử lý sự đồng tuyến tính đơn giản bằng cách loại bỏ tất cả các biến đồng tuyến tính khỏi mô hình.

Theo các giả định (A1′)–(A4′), các ước lượng OLS của mô hình hồi quy tuyến tính đa biến là không thiên lệch. Nếu thêm vào đó, chúng ta giả định rằng phần dư là đồng nhất phương sai, đối với mô hình hồi quy đa biến điều này được biểu thị như sau:

  • (A5′) Đồng nhất phương sai:

$$
\text{Var}(u | x_1, x_2, \ldots, x_k) = \sigma^2,
$$

thì ước lượng OLS là BLUE (Best Linear Unbiased Estimator – ước lượng tuyến tính không thiên lệch tốt nhất).

Hơn nữa, theo các giả định (A1′)–(A5′), việc tìm công thức cho phương sai của ước lượng OLS $\hat{\beta_j}$ là đơn giản (chúng ta không dẫn xuất ở đây). Một cách biểu diễn phương sai của ước lượng OLS $\hat{\beta_j}$ là như sau:

$$
\text{Var}(\hat{\beta_j}) = \frac{\sigma^2}{\text{SST}_j(1 – R_j^2)}, \tag{3.10} \label{3.10}
$$

(xem Chương 3 trong Wooldridge, 2013, để biết chi tiết). Rất hữu ích khi so sánh công thức này, áp dụng cho hồi quy đa biến, với công thức phương sai cho mô hình hồi quy đơn giản mà chúng ta đã gặp trước đó:

$$
\text{Var}(\hat{\beta_1}) = \frac{\sigma^2}{\sum_{i=1}^n (x_i – \bar{x})^2} = \frac{\sigma^2}{\text{SST}_x}, \tag{2.21} \label{2.21}
$$

(xem phương trình \eqref{2.21} trong Chương 2). Chúng ta nhận thấy rằng hai trong số các thành phần trong công thức phương sai cho hồi quy đa biến giống với công thức hồi quy đơn giản: tất cả các yếu tố khác như nhau, phương sai giảm khi: (i) phương sai của phần dư giảm; (ii) tổng bình phương của các biến giải thích tăng lên. Nhưng có một yếu tố thứ ba trong công thức phương sai cho hồi quy đa biến mà chúng ta chưa gặp cho đến nay, cụ thể là $1 – R_j^2$. Điều quan trọng là không bị nhầm lẫn về ý nghĩa của $R_j^2$ ở đây: đây thực sự là một giá trị $R^2$, nhưng nó không phải là $R^2$ từ hồi quy của $y_i$ lên các biến giải thích. Thực tế, $R_j^2$ xuất hiện trong phương trình \eqref{2.26} là giá trị $R^2$ mà ta sẽ thu được từ hồi quy của $x_j$ lên tất cả các biến giải thích khác trong mô hình gốc. Nghĩa là, nếu phương trình \eqref{3.7} là mô hình của chúng ta, $R_1^2$ sẽ là giá trị $R^2$ liên quan đến ước lượng OLS của mô hình hồi quy sau:

$$
x_{1i} = \alpha_0 + \alpha_2 x_{2i} + \alpha_3 x_{3i} + \ldots + \alpha_k x_{ki} + e_{1i}, \tag{3.11} \label{3.11}
$$

trong đó $\alpha_j$ biểu thị các tham số cần ước lượng (thường thì chúng sẽ không quá quan trọng đối với chúng ta) và $e_{1i}$ là sai số; tương tự cho $R_2^2$, $R_3^2$, \ldots, $R_k^2$. Nghĩa là, $R_j^2$ đo lường mức độ các biến giải thích khác trong mô hình tương quan với biến $x_j$. Nếu chúng tương quan với $x_j$ khá mạnh, $R_j^2$ sẽ khá cao, và nếu chúng tương quan với $x_j$ khá yếu, $R_j^2$ sẽ khá thấp. Phương trình \eqref{3.10} cho thấy rằng $R_j^2$ càng cao, phương sai của $\hat{\beta_j}$ càng cao, với các yếu tố khác không đổi. Do đó, phương sai của ước lượng OLS phụ thuộc một phần vào mức độ tương quan giữa các biến giải thích trong mô hình với nhau. Nếu một số biến giải thích trong mô hình gần như đồng tuyến với $x_j$, để $R_j^2$ gần bằng 1, điều đó dẫn đến phương sai của $\hat{\beta_j}$ có thể rất cao. Trong trường hợp cực đoan khi $x_j$ đồng tuyến với các biến giải thích khác, ta thu được $R_j^2 = 1$, dẫn đến phương sai không được xác định.

3.3.3 Các biến bị bỏ sót và thiên lệch chúng có thể gây ra

Rõ ràng, giả định rằng $ E(u_i \mid x_i) = 0 $ là quan trọng đối với ước lượng OLS $ \hat{\beta_1} $ để không bị thiên lệch. Nếu giả định này không đúng, ước lượng OLS nói chung sẽ bị thiên lệch. Một mối quan ngại rất phổ biến trong công việc ứng dụng là những yếu tố quan trọng của biến phụ thuộc bị bỏ sót khỏi mô hình thực tế lại tương quan với các biến giải thích được đưa vào mô hình. Điều này sẽ dẫn đến thiên lệch do biến bị bỏ sót. Để minh họa, giả sử rằng thu nhập phụ thuộc vào khả năng bẩm sinh (iability) cũng như giáo dục:

$$
\log(wphy) = \beta_0 + \beta_1 \text{educ} + \beta_2 \text{iability} + u.
$$

Giả sử rằng ước lượng OLS áp dụng cho mô hình này sẽ không bị thiên lệch. Bây giờ hãy nghĩ đến việc sẽ xảy ra điều gì nếu chúng ta thực hiện một hồi quy mà biến iability bị bỏ sót khỏi mô hình. Liệu OLS dựa trên một cấu hình như vậy có không bị thiên lệch? Trừ khi iability không tương quan với educ hoặc $ \beta_2 = 0 $, câu trả lời là không. Để thấy lý do, hãy tóm tắt mối quan hệ giữa iability và educ như sau:

$$
\text{iability} = \delta_0 + \delta_1 \text{educ} + e,
$$

trong đó $ e $ là một sai số và $ \delta_1 = \text{Cov}(\text{educ}, \text{iability}) / \text{Var}(\text{educ}) $. Lưu ý rằng phương trình này không nên được hiểu theo nghĩa nhân quả: nó chỉ mô tả mối quan hệ thống kê giữa giáo dục và khả năng bẩm sinh (về mặt hình thức, phương trình này được biết đến như một phép chiếu tuyến tính của iability lên educ). Từ đó, phương trình thu nhập có thể được viết lại như sau:

$$
\log(wphy) = (\beta_0 + \beta_2 \delta_0) + (\beta_1 + \beta_2 \delta_1) \text{educ} + {\beta_2 e + u},
$$

và các giả định chúng ta đã đưa ra ngụ ý rằng kỳ vọng của phần dư phương trình $ {\beta_2 e + u} $ có điều kiện với educ bằng không. Đây là một phương trình với iability bị bỏ sót. Do đó, nếu chúng ta thực hiện một hồi quy OLS mà iability bị bỏ sót khỏi mô hình, ước lượng của hệ số dốc trên educ sẽ là một ước lượng không thiên lệch của $ (\beta_1 + \beta_2 \delta_1) $.

Tuy nhiên, điều này không phải là một nguyên nhân để ăn mừng, vì $ (\beta_1 + \beta_2 \delta_1) $ không phải là số lượng mà chúng ta quan tâm! Chúng ta quan tâm đến ảnh hưởng nhân quả của giáo dục, tức là $ \beta_1 $, và trừ khi $ \beta_2 = 0 $ hoặc $ \delta_1 = 0 $, OLS sẽ là một ước lượng bị thiên lệch nếu iability bị bỏ sót khỏi cấu hình. Lưu ý rằng dấu của thiên lệch phụ thuộc vào dấu của $ \beta_2 $ và $ \delta_1 $. Nếu giáo dục thực sự có tương quan dương với khả năng bẩm sinh, OLS dựa trên một cấu hình mà iability bị bỏ sót sẽ có xu hướng ước lượng cao hơn ảnh hưởng nhân quả của giáo dục lên thu nhập (tất nhiên là với điều kiện rằng khả năng bẩm sinh cao hơn dẫn đến thu nhập cao hơn). Thiên lệch do biến bị bỏ sót sẽ được thảo luận thêm trong một số chương của cuốn sách này.

3.4 Diễn giải hồi quy đa biến

Trong phần này, chúng ta sẽ xem xét hàm thu nhập và các hàm sản xuất chi tiết hơn. Chúng ta sử dụng câu hỏi cụ thể – giáo dục quan trọng như thế nào trong việc xác định thu nhập và năng suất – để minh họa các nguyên tắc chung làm nền tảng cho việc diễn giải hồi quy đa biến. Chúng ta bắt đầu ở phần tiếp theo với bằng chứng vi mô trước khi chuyển sang bằng chứng vĩ mô.

3.4.1 Đầu tư vào giáo dục tăng thu nhập bao nhiêu? Một số bằng chứng vi mô

Ban đầu, bạn có thể nghĩ rằng nếu chúng ta muốn hiểu cách giáo dục ảnh hưởng đến thu nhập, chúng ta nên đưa vào càng nhiều biến càng tốt có thể liên quan đến giáo dục, vì điều đó sẽ cho phép chúng ta xác định vai trò mà giáo dục tự nó đóng trong việc tăng thu nhập. Tuy nhiên, một chút suy nghĩ cho thấy rằng việc tiến hành theo cách đó không nhất thiết là phù hợp. Như chúng tôi sẽ chỉ ra sau này trong các ứng dụng của mình, nhiều khía cạnh của công việc một người – nghề nghiệp của họ, quy mô doanh nghiệp mà họ làm việc và lĩnh vực của họ – đều ảnh hưởng đến thu nhập của họ. Liệu chúng ta có nên giới thiệu những yếu tố này như các biến bổ sung trong hồi quy của chúng ta?

Câu trả lời cho câu hỏi đó là nó phụ thuộc vào câu hỏi mà chúng ta đang đặt ra. Nếu chúng ta muốn biết cách giáo dục ảnh hưởng đến thu nhập và chúng ta nghĩ rằng giáo dục ảnh hưởng đến nơi bạn làm việc, thì việc đưa các biến này vào sẽ không đúng – làm như vậy sẽ che giấu vai trò mà giáo dục đang đóng. Tuy nhiên, nếu câu hỏi của chúng ta là: liệu giáo dục chỉ tăng thu nhập của bạn thông qua việc giúp bạn có được các loại công việc tốt hơn về nghề nghiệp, loại hình công ty và lĩnh vực, thì việc bao gồm các biến này là hoàn toàn đúng và nếu giáo dục vẫn là một yếu tố quan trọng quyết định thu nhập, điều đó sẽ cho bạn thấy rằng giáo dục tăng thu nhập của bạn trong các loại công việc này (xem Fafchamps và các cộng sự, 2009, để phân tích lợi tức giáo dục trên và trong các công việc ở khu vực Châu Phi cận Sahara).

Câu hỏi mà chúng tôi muốn giải quyết ở đây là câu hỏi đầu tiên: “Tác động ‘đầy đủ’ của giáo dục lên thu nhập là gì?” Trong Bảng 3.3, một bản in từ hồi quy Stata, chúng tôi mở rộng hàm thu nhập cơ bản của mình bằng cách bao gồm kinh nghiệm làm việc và cho phép hiệu ứng phi tuyến. Trong khi mô hình của chúng tôi là tuyến tính theo các tham số, nó không cần phải tuyến tính theo các biến và, như chúng ta sẽ thấy, tính phi tuyến là quan trọng đối với cả giáo dục và kinh nghiệm làm việc. Rất ít tập dữ liệu có các thước đo thực tế về kinh nghiệm làm việc và, như trong trường hợp của dữ liệu của chúng tôi, kinh nghiệm làm việc được ước lượng dựa trên tuổi trừ đi số năm học và trừ thời gian bắt đầu đi học. Bây giờ đối với hầu hết sinh viên, việc làm và học không thể kết hợp được, vì vậy, ceteris paribus, chúng ta kỳ vọng rằng sinh viên có trình độ học vấn cao hơn sẽ có ít kinh nghiệm làm việc hơn, tức là, hai biến này sẽ có tương quan âm.

Khi kiểm soát kinh nghiệm làm việc trong hàm thu nhập, chúng ta có thể so sánh lợi tức từ hai loại vốn con người: loại được tích lũy trong trường học và loại được tích lũy trong thị trường lao động. Theo những gì chúng tôi vừa tranh luận về những gì nên và không nên đưa vào một hồi quy xác định thu nhập, chúng tôi ngầm giả định rằng không có con đường nhân quả nào từ giáo dục đến kinh nghiệm làm việc. Có thể lợi tức từ kinh nghiệm làm việc sẽ khác nhau theo trình độ học vấn, nhưng chúng tôi có thể cho phép điều đó và kiểm tra điều đó bằng các biến tương tác, mà chúng tôi sẽ trình bày dưới đây.

Hồi quy (1) trong Bảng 3.3 lặp lại hồi quy đơn giản của chúng ta trong Chương 2 và chúng tôi hiển thị nó ở đây để các tác động của việc mở rộng mô hình có thể được nhìn thấy trong một bảng. Bước đầu tiên của chúng ta trong việc mở rộng mô hình là bao gồm kinh nghiệm làm việc (exper) đơn giản như một biến tuyến tính trong Hồi quy (2). Hãy chú ý, khi so sánh Hồi quy (1) và (2), rằng hệ quả của việc bao gồm biến này là làm tăng ước lượng điểm của giáo dục từ 0.14 lên 0.16, phù hợp với quan điểm rằng giáo dục và thời gian trong thị trường lao động có tương quan âm.

Trong Hồi quy (3), chúng ta đầu tiên bao gồm các biến phi tuyến trong kinh nghiệm làm việc, điều mà luôn luôn được thực hiện khi xác định hàm thu nhập và trong Hồi quy (4) chúng ta cũng bao gồm các biến phi tuyến trong giáo dục, điều mà thường không được thực hiện khi xác định hàm thu nhập. Hồi quy cuối cùng này là dạng tổng quát nhất của hàm thu nhập mà chúng ta xem xét trong chương này.

Trong Hình 3.1, chúng tôi trình bày dưới dạng biểu đồ kết quả từ Hồi quy (4) trong Bảng 3.3. Như được thấy rõ từ các ước lượng điểm (và được minh họa trong Hình 3.1), thu nhập với số năm học được thể hiện rõ ràng là có độ lồi mạnh, trong khi thu nhập với kinh nghiệm làm việc thì có độ lõm mạnh. Có vẻ như đặc tả tuyến tính của chúng tôi không phản ánh chính xác các mô hình lợi nhuận từ cả giáo dục và kinh nghiệm làm việc, vì cả hai đều có tính phi tuyến rõ rệt. Nếu chúng ta hỏi mức tăng thu nhập là bao nhiêu khi có bảy năm học (tức là đến cấp tiểu học), chúng ta thấy rằng thu nhập tăng 60%, một mức tăng đáng kể, nhưng vẫn nhỏ hơn nhiều so với mức tăng gấp ba lần xảy ra giữa bảy và mười hai năm học.

3.4.2 Đầu tư vào giáo dục tăng năng suất bao nhiêu? Một số bằng chứng vĩ mô

Trong Chương 1, chúng tôi đã giới thiệu hàm sản xuất có bổ sung vốn nhân lực, được thiết lập dưới dạng phương trình \eqref{3.6} ở trên. Trong phương trình đó, vốn nhân lực $ φ(E_{it}) $ ảnh hưởng đến năng suất lao động. Tuy nhiên, như chúng tôi đã trình bày trong Chương 1, chúng tôi có thể chuyển đổi đặc tả này thành một mô hình về mức lương trung bình trong nền kinh tế bằng cách sử dụng định nghĩa về vốn nhân lực từ Hall và Jones (1999).

$$
w_H H_{it} = w_H e^{φ(E_{it})} L_{it} = w_L(it) L_{it}
$$

và chúng tôi có thể viết:

$$
\log w_L(it) = \log w_H + φ(E_{it}),
$$

trong đó $ \log w_H $ là một hằng số và $ w_L(it) $ cho biết mức lương của một lao động với trình độ học vấn $ E_{it} $. Đây là một phương trình bán-logarithmic và là cơ sở để ước tính các hàm thu nhập Mincerian vi mô, mà chúng ta đã xem xét trong Mục 3.4.1.

Trong công việc thực nghiệm mà chúng tôi báo cáo dưới đây, hàm $ φ $ được viết dưới dạng tuyến tính theo giáo dục:

$$
φ(E_{it}) = δ0 + δ_1 E{it} + v_{it}.
$$

Việc làm cho hàm này trở thành tuyến tính cho phép so sánh trực tiếp giữa hàm thu nhập vi mô và hàm sản xuất vĩ mô. Khả năng của chúng tôi để bao gồm một thước đo về giáo dục vào hàm sản xuất vĩ mô là nhờ vào công trình của Barro và Lee (2000) đã cung cấp các ước tính theo khoảng thời gian 5 năm về trình độ học vấn cho các năm 1960–2000. Họ cũng đã ước tính số năm học đạt được của người trung bình ở các cấp độ khác nhau và ở tất cả các cấp học kết hợp. Trong hàm sản xuất được báo cáo trong Bảng 3.4, chúng tôi sử dụng biến tyr15, là số năm học trung bình trong dân số trên 15 tuổi.

Dữ liệu của Hall và Jones (1999) trong Chương 1 sử dụng phiên bản 5.6 của Penn World Tables. Trong Bảng 3.4, chúng tôi sử dụng phiên bản 6.1. Trong phiên bản này của Penn World Tables, các số liệu về vốn cổ phiếu không được cung cấp. Dữ liệu về vốn bình quân đầu người mà chúng tôi sử dụng được xây dựng từ dữ liệu dòng đầu tư bằng cách sử dụng cùng một quy trình như trong Klenow và Rodríguez-Clare (1997). Trong Bảng 3.4, biến lkp là log tự nhiên của phép ước lượng này về vốn bình quân đầu người. Biến phụ thuộc trong hồi quy là log tự nhiên của GDP thực trên đầu người tính theo đô la Mỹ năm 1996 sử dụng phương pháp chỉ số chuỗi từ Penn World Tables.

Do đó, hồi quy hiển thị trong kết quả của Stata ở Bảng 3.4 là phiên bản thực nghiệm của phương trình \eqref{3.6} trong đó chúng tôi đã áp đặt tính tuyến tính lên ảnh hưởng của giáo dục:

$$
\log \frac{V_i}{L_i} = α \log \frac{K_i}{L_i} + (1 – α) \log A + (1 – α) (E_i) + u_i.
$$

Chúng tôi hiện đang ở vị trí để trả lời câu hỏi về cách việc đưa giáo dục vào hàm sản xuất xác định quan điểm của chúng tôi về mô hình này như một mô hình xác định thu nhập ở cấp độ vĩ mô đã được trình bày trong Chương 1. Trong Bảng 3.4 Hồi quy (1), chúng tôi cung cấp đặc tả cơ bản tương tự như đã sử dụng trong Chương 1; sự khác biệt duy nhất là phiên bản của Penn World Tables đang được sử dụng và trong Hồi quy (2), chúng tôi thêm biến số năm học.

Chúng tôi có thể sử dụng đại số của chúng tôi để liên kết ảnh hưởng của giáo dục đến năng suất lao động với mức lương trung bình để thu được lợi tức Mincerian từ hàm sản xuất vĩ mô này:

$$
0.07 = (1 – 0.62) δ_1
$$

$$
δ_1 = 0.18.
$$

Bộ dữ liệu vĩ mô này đã tạo ra một lợi tức Mincerian từ giáo dục tương tự một cách đáng ngạc nhiên so với dữ liệu lực lượng lao động vi mô của chúng tôi tại Nam Phi. Cuối cùng, trong Hồi quy (3) của Bảng 3.4, chúng tôi kiểm tra xem liệu chúng tôi có tìm thấy tính phi tuyến trong dữ liệu vĩ mô giống như đã thấy trong dữ liệu vi mô ở trên hay không, và câu trả lời là không: dữ liệu phù hợp với tác động của giáo dục trong dữ liệu vĩ mô là tuyến tính.

Chúng tôi thấy rằng hệ số của vốn cổ phiếu đã giảm từ 0.73 xuống còn 0.62 khi bao gồm số năm học trong phương trình. Do đó, có thể lập luận rằng vì hai biến này có tương quan dương, nên hồi quy hai biến ban đầu đã đánh lạc hướng chúng tôi về tác động ‘thực’ của vốn đến sản lượng. Đó thực sự là ý nghĩa của việc coi giáo dục như một biến kiểm soát trong hàm sản xuất để xác định tác động ‘thực’ của vốn đối với sản lượng. Trên thực tế, một cách đọc khác của hồi quy đa biến này, trái ngược với hồi quy hai biến, là nó cho thấy rằng một phần của năng suất có thể được giải thích bởi vốn vật chất mà không được giải thích bởi vốn nhân lực.

Chúng tôi sẽ trở lại với các phương trình vi mô và vĩ mô của chúng tôi trong Chương 5; trước tiên, tuy nhiên, chúng tôi cần tìm hiểu về phân phối của các ước lượng OLS và cách chúng tôi kiểm tra các giả thuyết về dữ liệu. Đó là chủ đề của chương tiếp theo.

Tài liệu tham khảo

  • Barro, R. J. và Lee, J-W. (2000). Dữ liệu quốc tế về trình độ học vấn: Cập nhật và ý nghĩa, CID Working Paper no. 42.
  • Barro, R. J. và Lee, J-W. (2010). Bộ dữ liệu mới về trình độ học vấn trên thế giới, 1950–2010, NBER Working Paper 15902.
  • Fafchamps, M., Söderbom, M., và Benhassine, N. (2009). ‘Khoảng cách tiền lương và phân loại công việc trong sản xuất công nghiệp tại châu Phi’, Journal of African Economies, 18(5): 824–68.
  • Hall, R. E., và Jones, C. I. (1999). ‘Tại sao một số quốc gia sản xuất nhiều hơn rất nhiều so với những quốc gia khác?’ Quarterly Journal of Economics, 114(1): 83–116.
  • Klenow, P. J., và Rodríguez-Clare, A. (1997). Sự hồi sinh của lý thuyết tăng trưởng tân cổ điển: Đã đi quá xa? In Bernanke, B. và Rotemberg, J., (eds) NBER Macroeconomics Annual, MIT Press, Cambridge, Massachusetts.
  • Wooldridge, J. M. (2013). Kinh tế lượng sơ cấp: Cách tiếp cận hiện đại, Fifth Edition, South-Western Cengage Learning.

Bài tập

Dữ liệu Stata Labour_Force_SA_SALDRU_1993 chứa dữ liệu được sử dụng trong Chương 2 và 3.

  1. Sử dụng dữ liệu này, chạy hàm thu nhập dưới dạng tuyến tính, bán-log và log kép và tính toán lợi tức Mincerian từ giáo dục cho từng đặc tả.
  2. Bạn thích đặc tả nào và tại sao?

Dữ liệu Stata Macro_1980_2000_PENN61.dta chứa dữ liệu vĩ mô được sử dụng trong chương này. Sử dụng dữ liệu này, ước lượng các mô hình sau và trả lời các câu hỏi bên dưới:

$$
\log V_i = β_0 + β_1 \log K_i + β_2 \log L_i + u_i
$$

$$
\log \frac{V_i}{L_i} = γ_0 + γ_1 \log \frac{K_i}{L_i} + u_i
$$

$$
\log \frac{V_i}{L_i} = θ_0 + θ_1 \log \frac{K_i}{L_i} + θ_2 \log L_i + u_i
$$

  1. Dữ liệu có phù hợp với giả thuyết về lợi nhuận không đổi theo quy mô không?
  2. Tỷ lệ vốn có phù hợp với các tài khoản quốc gia trong bất kỳ hồi quy nào trong số này không?
  3. Nếu không, đề xuất lý do cho ước lượng thông số mà bạn quan sát được.
  4. Sử dụng dữ liệu cho các năm 1980 và 2000, tạo ra một tiết diện của các biến số đã được phân biệt và ước lượng lại phương trình này trong các sự khác biệt:

$$
\Delta \log \frac{V_i}{L_i} = β_0 + β_1 \Delta \log \frac{K_i}{L_i} + u_i
$$

  1. Bình luận về các ước lượng điểm mới và tại sao chúng khác với những ước lượng bạn đã sử dụng trong câu trả lời của bạn cho các câu hỏi 3 và 4.
Chia sẻ

3. Mở rộng mô hình hồi quy đơn

Hoặc sao chép liên kết

MỤC LỤC