2. Mô hình hồi quy tuyến tính đơn giản

Estimated reading: 51 minutes 19 views

2.1 Giới thiệu: Mô hình và quan hệ nhân quả

Trong chương này, chúng tôi sẽ chỉ ra cách phương pháp ước lượng bình phương tối thiểu thông thường (OLS) có thể được sử dụng để cung cấp các ước lượng cho các tham số của các mô hình mà chúng ta quan tâm. OLS là phương pháp thống kê được sử dụng phổ biến nhất trong kinh tế ứng dụng và nó có thể được sử dụng để phân tích một loạt các câu hỏi trong phát triển kinh tế. Trong Chương 1, chúng ta đã gặp một số mô hình và trình bày các ước lượng cho các tham số của chúng, mặc dù chúng ta chưa đề cập rõ ràng đến nguồn gốc của các ước lượng này.

Hai mô hình mà chúng ta đã gặp trong Chương 1 bao gồm hàm thu nhập Mincer cơ bản:

$$\log w_L (i) = \beta_0 + \beta_1 E_i + u_i \tag{1.1} \label{1.1}$$

và hàm sản xuất Cobb–Douglas với lao động đồng nhất:

$$\log \left(\frac{V_i}{L_i}\right) = \alpha \log \left(\frac{K_i}{L_i}\right) + (1 – \alpha) \log A + u_i \tag{1.2} \label{1.2}$$

Trong chương này, chúng ta sẽ tập trung vào hàm thu nhập Mincer. Trong Chương 3, chúng ta sẽ quay lại hàm sản xuất. Trong Chương 14, chúng ta sẽ thấy rằng việc diễn giải hàm thu nhập Mincer phức tạp hơn so với những gì được trình bày trong chương này. Tuy nhiên, ngay cả trong dạng đơn giản nhất của nó, đây vẫn là một khối xây dựng cơ bản để hiểu các yếu tố có thể quyết định thu nhập.

Trong Chương 1, chúng ta đã ngầm hiểu rằng các mô hình này cho thấy trong mô hình đầu tiên có mối quan hệ nhân quả từ giáo dục đến thu nhập và trong mô hình thứ hai là mối quan hệ nhân quả từ vốn (cả vốn vật chất và vốn con người) đến năng suất lao động. Chương 1 đã cung cấp nhiều bằng chứng, cả từ các hồi quy và đồ thị, rằng các biến này có tương quan dương. Nhưng liệu kết quả thực nghiệm của chúng ta có thiết lập được bất kỳ mối quan hệ nhân quả nào từ giáo dục đến thu nhập hoặc từ cường độ vốn đến năng suất lao động không?

Để trả lời câu hỏi đó, chúng ta cần phải rõ ràng về ý nghĩa của mối quan hệ nhân quả, và ít có khái niệm nào trong khoa học xã hội có nhiều ý nghĩa khác nhau được gán cho chúng. Bằng mối quan hệ nhân quả, chúng ta hiểu rằng khi thay đổi lượng giáo dục, trong khi giữ tất cả các yếu tố khác không đổi, sẽ dẫn đến thay đổi thu nhập và, trong trường hợp của hàm sản xuất, rằng việc thay đổi lượng vốn trong một công ty hoặc quốc gia sẽ thay đổi năng suất lao động, được đo lường bằng sản lượng bình quân trên mỗi lao động. Với định nghĩa đó, trong các phần tiếp theo, chúng ta sẽ chỉ rõ các điều kiện để kết quả thực nghiệm của chúng ta có thể được diễn giải là bằng chứng cho tác động nhân quả của giáo dục lên thu nhập, và của tỷ lệ vốn trên lao động lên năng suất lao động.

Chúng ta bắt đầu Phần 2.2 bằng cách trình bày mô hình hồi quy tuyến tính và chỉ ra cách phương pháp OLS có thể được sử dụng để ước lượng các tham số của phiên bản đơn giản nhất của mô hình này, chỉ có một biến giải thích. Trong Phần 2.3, chúng ta sẽ trình bày hàm thu nhập cho dữ liệu Nam Phi của chúng ta. Các giả định cần thiết để ước lượng OLS là không chệch và có phương sai nhỏ nhất sẽ được thảo luận trong Phần 2.4. Phần cuối cùng sẽ quay lại thảo luận về mối liên hệ nhân quả có thể có giữa giáo dục và thu nhập.

2.2 Mô hình hồi quy tuyến tính và ước lượng OLS

2.2.1 Mô hình hồi quy tuyến tính như một mô hình tổng thể

Các mô hình thu nhập và sản xuất được trình bày trong phần giới thiệu có thể được viết dưới dạng tổng quát như sau:

$$
y = \beta_0 + \beta_1 x + u, \tag{2.1} \label{2.1}
$$

trong đó $y$ là biến phụ thuộc, $x$ là biến độc lập hoặc biến giải thích, và $u$ là phần dư hoặc sai số. Mô hình này được gọi là mô hình hồi quy tuyến tính đơn giản. Nó tuyến tính trong các tham số $\beta_0$ và $\beta_1$ ở chỗ vế phải của phương trình \eqref{2.1} được viết dưới dạng tổng các hạng tử trong đó $\beta_0$ và $\beta_1$ xuất hiện riêng biệt và tuyến tính: tham số $\beta_1$ được nhân với biến giải thích $x$, trong khi hệ số chặn $\beta_0$ (ngầm hiểu) được nhân với hằng số đơn vị (vì lý do này, $\beta_0$ thường được gọi đơn giản là hệ số chặn).

Mục tiêu của chúng ta là rút ra các suy luận từ một mẫu ngẫu nhiên đến bản chất chưa được quan sát (thực sự là không thể quan sát) của dữ liệu trong tổng thể. Nếu các suy luận của chúng ta là tốt, thì chúng ta nên kỳ vọng rằng nếu chúng ta rút ra các mẫu khác từ tổng thể, chúng ta sẽ thu được, theo một nghĩa mà chúng ta sẽ làm rõ hơn sau đây, các kết quả tương tự về bản chất của tổng thể.

Dữ liệu vi mô mà chúng ta sử dụng trong chương này và các chương tiếp theo liên quan đến thu nhập và giáo dục của người dân Nam Phi vào năm 1993. Trong chương này, tổng thể mà chúng ta quan tâm có thể được coi là tất cả những người làm công ăn lương ở Nam Phi, và chúng ta quan tâm đến việc rút ra từ mẫu năm 1993 này cách thức mà thu nhập và giáo dục liên quan với nhau. Để làm được điều đó, chúng ta cần sử dụng mẫu này để cung cấp cho chúng ta các ước lượng cho các tham số $\beta_0$ và $\beta_1$. Đây là những giá trị chưa biết và việc ước lượng chúng là một mục tiêu quan trọng trong phân tích kinh tế lượng. Bây giờ, cuộc thảo luận của chúng ta về ý nghĩa của thuật ngữ nhân quả đòi hỏi chúng ta phải nêu rõ tại sao chúng ta nghĩ rằng $x$ gây ra $y$ chứ không phải $y$ gây ra $x$.

Ứng dụng của chúng ta là hàm thu nhập Mincer đơn giản nhất và có thể dường như khá rõ ràng rằng quan hệ nhân quả diễn ra từ giáo dục đến thu nhập; rốt cuộc, đối với hầu hết mọi người trong mẫu, giáo dục đã đi trước thu nhập trong suốt cuộc đời của cá nhân đó. Làm sao có thể đúng rằng tiền lương tự chúng quyết định giáo dục? Sau này trong cuốn sách này, ở Chương 19, chúng ta sẽ trình bày một mô hình trong đó các kỳ vọng tương lai về cách giáo dục ảnh hưởng đến thu nhập dẫn đến sự tích lũy vốn con người nhiều hơn. Nếu tiền lương kỳ vọng trong quá khứ được hiện thực hóa thành tiền lương hiện tại, thì hồi quy của chúng ta có thể phản ánh mối quan hệ nhân quả diễn ra từ tiền lương đến giáo dục. Trong lúc này, chúng ta tạm gác vấn đề quan hệ nhân quả ngược sang một bên – một cơ sở đủ để làm điều đó là giả định rằng tất cả các hộ gia đình không thể phản ứng với bất kỳ sự gia tăng tiền lương kỳ vọng nào trong tương lai. Trong chương này, chúng ta giả định rằng quan hệ nhân quả diễn ra từ giáo dục đến thu nhập.

Một cách – và chúng tôi cho rằng đây là một cách hữu ích – để suy nghĩ về phương trình \eqref{2.1} là coi phương trình như một phương trình trong đó có hai yếu tố trong việc xác định tiền lương. Yếu tố đầu tiên là các yếu tố có thể quan sát được, trong ứng dụng này là giáo dục, và yếu tố thứ hai là một loạt các yếu tố không thể quan sát được. Thuật ngữ $u$ đại diện cho tất cả các yếu tố không thể quan sát được này mà cùng với các yếu tố có thể quan sát được, quyết định tiền lương. Như chúng ta sẽ thấy trong Chương 3, rất dễ dàng để thêm các biến nắm bắt các khía cạnh mà chúng ta có thể quan sát được, mặc dù chúng ta cần phải suy nghĩ cẩn thận về việc liệu các biến này có tự chúng được xác định bởi giáo dục hay không. Vấn đề với bất kỳ nghiên cứu thực nghiệm nào là những gì chúng ta không thể quan sát được đều nằm trong thành phần sai số $u$.

Về việc hiểu cách giáo dục ảnh hưởng đến thu nhập, tham số trong mô hình hồi quy đơn giản mà chúng ta quan tâm là $\beta_1$. Tham số này, đôi khi được gọi là tham số độ dốc, xác định sự thay đổi trong $y$ kết quả từ một sự thay đổi nhất định trong $x$, với tất cả các yếu tố khác của $y$ giữ không đổi. Vì tất cả các yếu tố khác của $y$ được nắm bắt trong mô hình của chúng ta bởi phần dư $u$, việc giữ những yếu tố đó không đổi có nghĩa là $\Delta u = 0$, và

$$
\Delta y = \beta_1 \Delta x \tag{2.2} \label{2.2}
$$

Đây là tác động nhân quả của $x$ lên $y$ trong mô hình của chúng ta. Rõ ràng, điều này dẫn đến

$$
\beta_1 = \frac{\Delta y}{\Delta x},
$$

tức là, tham số $\beta_1$ có thể được hiểu là sự thay đổi tương đối trong $y$ kết quả từ sự thay đổi trong $x$, với tất cả các yếu tố khác của $y$ giữ không đổi. Chúng ta có thể luôn coi $\beta_1$ như là chỉ ra sự thay đổi định lượng trong $y$ kết quả từ việc tăng $x$ lên (chính xác) một đơn vị. Tham số khác trong phương trình \eqref{2.1} là $\beta_0$, hệ số chặn, cho chúng ta giá trị của $y$ nếu $\beta_1 x + u = 0$. Hệ số chặn hiếm khi là tham số được quan tâm trong công việc ứng dụng.

Xem xét mô hình thu nhập đơn giản trong đó log của thu nhập được xác định bởi số năm học. Giả sử trong một thời gian, $\beta_0$ và $\beta_1$ được biết. Có thể $\beta_0 = 5$ và $\beta_1 = 0.05$. Điều đó sẽ cho chúng ta biết điều gì về mối quan hệ giữa giáo dục và thu nhập? Hàm thu nhập của chúng ta sẽ là:

$$
\log w_L (i) = 5 + 0.05 \cdot educ_i + u_i \tag{2.3} \label{2.3}
$$

Hệ số 0.05 trên $educ_i$ do đó ám chỉ rằng một năm học thêm làm tăng log thu nhập lên 0.05 (khoảng 5% tăng trong thu nhập), với điều kiện các yếu tố khác ((\Delta u = 0$). Nói chung hơn, đối với bất kỳ sự thay đổi nào trong số năm học ((\Delta educ$),

$$
\Delta \log w_L (i) = 0.05 \cdot \Delta educ_i,
$$

với điều kiện tất cả các yếu tố khác quyết định thu nhập không thay đổi ((\Delta u = 0$).

2.2.2 Giả định kỳ vọng có điều kiện bằng không

Khi chúng ta có quan điểm về một giá trị khả thi của $\beta_1$, chúng ta có thể nói điều gì đó rất cụ thể về quy mô tác động của việc thay đổi $x$ lên $y$. Vì các tham số mô hình $\beta_0$ và $\beta_1$ không được quan sát, chúng ta cần tìm một phương pháp tốt để ước lượng chúng. Điều đầu tiên cần làm là chọn một mẫu ngẫu nhiên từ dân số. Đây chính là tập dữ liệu của chúng ta. Trong tập dữ liệu này, có thông tin về các biến $y$ và $x$ (đây là những ‘biến có thể quan sát được’) nhưng chúng ta không có dữ liệu về $u$ (là biến ‘không thể quan sát được’).

Theo trực giác, một phương pháp ước lượng tốt — từ giờ sẽ gọi là “ước lượng” — là phương pháp khai thác thông tin về sự thay đổi và sự đồng biến thiên của $x$ và $y$ trong mẫu, mà không cần thông tin về $u$. Một bước tiến quan trọng để xây dựng một ước lượng như vậy là hiểu rằng nếu chúng ta đưa ra một giả định về mối quan hệ giữa phần dư không quan sát $u$ và biến quan sát $x$, chúng ta có thể biểu thị các tham số của dân số $\beta_0$ và $\beta_1$ dưới dạng phân phối của các biến có thể quan sát $y$ và $x$.

Giả định quan trọng là kỳ vọng của $u$, có điều kiện với $x$, bằng với kỳ vọng vô điều kiện của $u$:
$$
E(u | x) = E(u).
$$
Điều này có nghĩa là, với bất kỳ giá trị nào của $x$, kỳ vọng của biến không quan sát $u$ là như nhau và do đó phải bằng kỳ vọng của $u$ trong dân số. Chúng ta cũng sẽ giả định rằng $E(u) = 0$, do đó suy ra rằng:
$$
E(u | x) = 0.
$$

Phương trình này thường được gọi là giả định kỳ vọng có điều kiện bằng không cho phần dư $u$ (ví dụ, xem Wooldridge, 2013). Đây là cơ sở để định nghĩa ước lượng bình phương nhỏ nhất (OLS), và cũng là một giả định quan trọng khi chúng ta muốn chứng minh rằng ước lượng OLS không chệch. Lưu ý rằng giả định kỳ vọng có điều kiện bằng không ngụ ý rằng $u$ và $x$ không có tương quan trong dân số. Nếu $u$ và $x$ thực sự có tương quan trong dân số, thì giả định này sẽ không đúng.

Giờ chúng ta sẽ sử dụng giả định kỳ vọng có điều kiện bằng không để làm hai việc. Thứ nhất, chúng ta có thể biểu diễn tham số dân số $\beta_1$ như là một hàm của các mô men dân số của $y$ và $x$. Bắt đầu bằng việc viết hiệp phương sai giữa $y$ và $x$ như sau:
$$
\text{Cov}(y, x) = \text{Cov}((\beta_0 + \beta_1 x + u), x),
$$
$$
\text{Cov}(y, x) = 0 + \beta_1 \text{Var}(x) + \text{Cov}(u, x), \tag{2.3} \label{2.3}
$$
ở đây, chúng ta đã sử dụng thực tế rằng $\text{Cov}(x, x) = \text{Var}(x)$, và số 0 ở phía bên phải trong dòng thứ hai có được vì $\beta_0$ là hằng số (hiệp phương sai giữa một biến và một hằng số luôn bằng không). Vì giả định kỳ vọng có điều kiện bằng không $E(u | x) = 0$ ngụ ý rằng $\text{Cov}(u, x) = 0$, chúng ta có thể viết tham số dân số $\beta_1$ như hiệp phương sai giữa $y$ và $x$ chia cho phương sai của $x$:
$$
\beta_1 = \frac{\text{Cov}(y, x)}{\text{Var}(x)}. \tag{2.4} \label{2.4}
$$

Điều quan trọng cần hiểu ở đây là $\text{Cov}(y, x)$ và $\text{Var}(x)$ là các mô men dân số, mà bản thân chúng không thể quan sát được; do đó, chúng ta không thể đơn giản sử dụng phương trình \eqref{2.4} để tìm giá trị của $\beta_1$. Tuy nhiên, $\text{Cov}(y, x)$ và $\text{Var}(x)$ có thể được ước lượng bằng cách sử dụng một mẫu quan sát của $y$ và $x$. Như chúng ta sẽ thấy dưới đây, đây chính là logic cơ bản của ước lượng OLS.

Thứ hai, giả định kỳ vọng có điều kiện bằng không cho phép chúng ta viết kỳ vọng của $y$ có điều kiện với $x$ theo các cách làm sáng tỏ hơn về ý nghĩa của các tham số $\beta_0$ và $\beta_1$. Lấy kỳ vọng của phương trình \eqref{2.2} có điều kiện với $x$ và sử dụng $E(u | x) = 0$, ta được:
$$
E(y | x) = \beta_0 + \beta_1 x. \tag{2.5} \label{2.5}
$$

Phương trình \eqref{2.5}, đôi khi được gọi là hàm hồi quy dân số (PRF), cho thấy rằng $E(y | x)$ là một hàm tuyến tính của $x$. Tính tuyến tính này có nghĩa là khi $x$ tăng lên một đơn vị, giá trị kỳ vọng của $y$ sẽ thay đổi một lượng $\beta_1$. Hơn nữa, ý nghĩa của $\beta_0$ cũng trở nên rõ ràng hơn: đó là giá trị kỳ vọng của $y$ khi $x = 0$.

Hàm $E(y|x)$ đôi khi được gọi là hàm kỳ vọng có điều kiện (Conditional Expectation Function, CEF); xem ví dụ như Angrist và Pischke (2009). Lý do cho tên gọi này là rõ ràng: CEF cho chúng ta giá trị kỳ vọng của biến phụ thuộc $y$ tương ứng với một giá trị cụ thể của biến giải thích $x$. Lưu ý rằng dạng hàm của $E(y|x)$ trong phương trình \eqref{2.5}, tức là $\beta_0 + \beta_1 x$, xuất phát từ cách chúng ta đã xác định mô hình của $y$. Dĩ nhiên, một mô hình khác cho $y$ sẽ ngụ ý một CEF khác; ví dụ, nếu vì một lý do nào đó chúng ta xác định mô hình dân số là $y = \beta_0 + \beta_1 \frac{1}{x} + u$, thì CEF tương ứng sẽ là:

$$
E(y|x) = \beta_0 + \beta_1 \frac{1}{x}.
$$

Đôi khi chúng ta có thể xác định CEF mà không cần giả định về dạng hàm. Ví dụ đơn giản nhất là khi $x$ chỉ có thể nhận hai giá trị, 0 hoặc 1 (tức là $x$ là một biến giả), khi đó chỉ có hai kỳ vọng có điều kiện của $y$, là $E(y|x = 0)$ và $E(y|x = 1)$. Trong Chương 12, chúng ta sẽ giới thiệu cách tiếp cận đánh giá chương trình đối với chính sách phát triển dựa trên một CEF như vậy.

Trong bối cảnh của mô hình thu nhập, giả định kỳ vọng có điều kiện bằng không tương đương với giả định rằng $E(u_i | \text{educ}_i) = E(u_i) = 0$. Nếu điều này đúng, thì $E(\log wL(i) | \text{educ}_i) = \beta_0 + \beta_1 \text{educ}_i$. Bây giờ, hãy nghĩ về điều gì sẽ xảy ra nếu giả định rằng $E(u_i | \text{educ}_i) = E(u_i) = 0$ không đúng. Xem xét Hình 2.1. Các chấm tròn màu đen trên biểu đồ là các quan sát thực tế về thu nhập (được đo bằng logarit tự nhiên) và số năm học trong mẫu dữ liệu Nam Phi của chúng ta. Rõ ràng từ biểu đồ rằng có một mối quan hệ dương rõ rệt giữa tiền lương và giáo dục trong dữ liệu.

Tại sao điều này không thể hiện rằng giáo dục có tác động nhân quả tích cực đến tiền lương? Hãy nghĩ về một biến tiềm năng nào đó quyết định thu nhập và mô hình của chúng ta không bao gồm. Ví dụ, hãy xem xét khả năng bẩm sinh, tức là những kỹ năng mà một người có được mà không qua giáo dục. Trong ngữ cảnh này, giả định rằng $E(u_i | \text{educ}_i) = 0$ có nghĩa là:

$$
E(\text{iability} | \text{educ} = 5) = E(\text{iability} | \text{educ} = 15),
$$

với $\text{iability}$ biểu thị khả năng bẩm sinh. Nói cách khác, khả năng bẩm sinh kỳ vọng của một cá nhân là như nhau khi có 5 năm học và 15 năm học. Tuy nhiên, nếu những cá nhân có mức khả năng bẩm sinh cao hơn có xu hướng đầu tư nhiều hơn vào giáo dục, thì giả định này không đúng. Trong trường hợp đó, chúng ta không thể suy luận mối quan hệ nhân quả nào giữa giáo dục và tiền lương từ mối quan hệ dương quan sát được trong dữ liệu. Khả năng này được minh họa trong Hình 2.2.

Giả sử giáo dục thực sự không có tác động nhân quả đến thu nhập, vì vậy $\beta_1$ thực (không quan sát được) bằng không. Trong trường hợp như vậy, PRF thực được biểu diễn bởi một đường ngang trong biểu đồ; và mối quan hệ dương giữa thu nhập và giáo dục trong dữ liệu không phản ánh tác động nhân quả của giáo dục đối với tiền lương, mà thực tế là những người có học vấn cao hơn có xu hướng có khả năng bẩm sinh cao hơn. Cách bạn có thể ước lượng tác động nhân quả của một biến giải thích nào đó lên kết quả quan tâm đồng thời cho phép khả năng phần dư có tương quan với biến giải thích là chủ đề trung tâm của cuốn sách này.

2.2.3 Bộ ước lượng OLS

Bây giờ chúng ta sẽ tiến hành minh họa cách sử dụng mẫu ngẫu nhiên rút ra từ tổng thể để thu được các ước lượng cho tham số $\beta_0$ và $\beta_1$. Các ước lượng OLS của $\beta_0$ và $\beta_1$ được ký hiệu lần lượt là $\hat{\beta}_0$ và $\hat{\beta}_1$, và phần dư OLS cho cá nhân $i$ được định nghĩa là:

$$
\hat{u}_i = y_i – \hat{\beta}_0 – \hat{\beta}_1 x_i. \tag{2.6} \label{2.6}
$$

Việc sử dụng chỉ số $i$ cho thấy rõ ràng rằng mô hình của chúng ta dựa trên dữ liệu cắt ngang. Các ước lượng OLS $\hat{\beta}_0$ và $\hat{\beta}_1$ là những giá trị làm cực tiểu tổng bình phương của các phần dư trên toàn bộ các quan sát trong mẫu:

$$
\sum_{i=1}^{n} \hat{u}i^2 = \sum{i=1}^{n} (y_i – \hat{\beta}_0 – \hat{\beta}_1 x_i)^2.
$$

Nói cách khác, tất cả các ước lượng khác của tham số tổng thể $\beta_0$ và $\beta_1$ sẽ dẫn đến tổng bình phương của phần dư lớn hơn so với tổng bình phương thu được dựa trên các ước lượng OLS. Dựa trên các ước lượng OLS, chúng ta có thể thu được hàm hồi quy mẫu (Sample Regression Function, SRF):

$$
\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x, \tag{2.7} \label{2.7}
$$

mà cần phải được giữ tách biệt rõ ràng trong tư duy của chúng ta với hàm hồi quy tổng thể (PRF). Do các ước lượng OLS $\hat{\beta}_0$ và $\hat{\beta}_1$ làm cực tiểu tổng bình phương của các phần dư, hai phương trình tuyến tính sau đây phải thỏa mãn:

$$
\sum_{i=1}^{n} (y_i – \hat{\beta}_0 – \hat{\beta}_1 x_i) = 0, \tag{2.8} \label{2.8}
$$

$$
\sum_{i=1}^{n} x_i (y_i – \hat{\beta}_0 – \hat{\beta}_1 x_i) = 0. \tag{2.9} \label{2.9}
$$

Đây là các điều kiện bậc nhất của OLS định nghĩa bộ ước lượng của chúng ta. Tính chất đầu tiên của các ước lượng OLS là tổng các phần dư từ mô hình hồi quy bằng không. Điều này được suy ra từ phương trình \eqref{2.8}:

$$
\sum_{i=1}^{n} (y_i – \hat{\beta}0 – \hat{\beta}_1 x_i) = \sum{i=1}^{n} \hat{u}_i = 0. \tag{2.10} \label{2.10}
$$

Tính chất thứ hai của bộ ước lượng OLS là các biến $x_i$ không tương quan với phần dư hồi quy $\hat{u}_i$, cũng là do đặc điểm của chúng. Điều này được suy ra từ phương trình \eqref{2.9}:

$$
\sum_{i=1}^{n} x_i (y_i – \hat{\beta}0 – \hat{\beta}_1 x_i) = \sum{i=1}^{n} x_i \hat{u}_i = 0. \tag{2.11} \label{2.11}
$$

Bây giờ, chúng ta có thể suy ra công thức cho $\hat{\beta}_0$ và $\hat{\beta}_1$. Phương trình \eqref{2.10} có thể được viết lại dưới dạng:

$$
\bar{y} = \hat{\beta}_0 + \hat{\beta}_1 \bar{x}, \tag{2.12} \label{2.12}
$$

trong đó

$$
\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i
$$

là trung bình mẫu của $y$, và tương tự cho $\bar{x}$. Vậy chúng ta có thể viết:

$$
\hat{\beta}_0 = \bar{y} – \hat{\beta}_1 \bar{x}. \tag{2.13} \label{2.13}
$$

Thay phương trình \eqref{2.13} vào phương trình \eqref{2.9}, ta có thể viết:

$$
\sum_{i=1}^{n} \left[ x_i \left( y_i – \left( \bar{y} – \hat{\beta}_1 \bar{x} \right) – \hat{\beta}_1 x_i \right) \right] = 0, \tag{2.14} \label{2.14}
$$

có thể sắp xếp lại để thành:

$$
\sum_{i=1}^{n} x_i (y_i – \bar{y}) = \hat{\beta}1 \sum{i=1}^{n} x_i (x_i – \bar{x}). \tag{2.15} \label{2.15}
$$

Từ các tính chất cơ bản của tổng, chúng ta có:

$$
\sum_{i=1}^{n} x_i (x_i – \bar{x}) = \sum_{i=1}^{n} (x_i – \bar{x})^2, \tag{2.16} \label{2.16}
$$

và

$$
\sum_{i=1}^{n} x_i (y_i – \bar{y}) = \sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y}).
$$

Giả định rằng biến giải thích của chúng ta thay đổi giữa các quan sát trong mẫu, điều này ngụ ý:

$$
\sum_{i=1}^{n} (x_i – \bar{x})^2 > 0, \tag{2.17} \label{2.17}
$$

dẫn đến hệ số góc ước lượng là

$$
\hat{\beta}1 = \frac{\sum{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})}{\sum_{i=1}^{n} (x_i – \bar{x})^2}. \tag{2.18} \label{2.18}
$$

Dễ dàng xác minh rằng phương trình \eqref{2.18} bằng với hiệp phương sai mẫu giữa $x$ và $y$ chia cho phương sai mẫu của $x$. Nói cách khác, phương trình \eqref{2.18} là tương tự mẫu của phương trình \eqref{2.4}, trong đó tham số tổng thể $\beta_1$ được biểu thị bằng hiệp phương sai tổng thể chia cho phương sai tổng thể.

2.3 Hàm thu nhập Mincerian cho dữ liệu Nam Phi

Trong phần này, chúng ta trình bày kết quả của một hàm thu nhập Mincerian cho dữ liệu Nam Phi. Trong Bảng 2.1, chúng ta chỉ ra cách các kết quả từ phương pháp ước lượng OLS có thể được thu thập từ Stata. Trong Hình 2.2, chúng ta cho thấy cách các giá trị thực tế của $y_i$ liên kết với các giá trị dự đoán của chúng. Đường thẳng là giá trị dự đoán của log thu nhập cho số năm học nhất định. Đây đơn giản là hàm hồi quy mẫu (SRF) đã được định nghĩa trước đó:

$$
\log(\widehat{wphyi}) = \hat{\beta}_0 + \hat{\beta}_1 educ_i,
$$

với $\hat{\beta}_0 = 0.458$ và $\hat{\beta}_1 = 0.135$. Nếu bạn chỉ nhìn vào dữ liệu, bạn có thể cho rằng thu nhập không thay đổi trong khoảng từ 0 đến 9 năm học, nhưng sau đó tăng mạnh. Tuy nhiên, chúng ta đã xác định một mô hình áp đặt một quan hệ tuyến tính giữa log thu nhập và số năm học. Như chúng ta sẽ chỉ ra, bạn có thể, trong khuôn khổ của mô hình tuyến tính trong tham số, cho phép mô hình có dạng phi tuyến này, nhưng trước khi làm điều đó, hãy tiếp tục tìm hiểu thêm về diễn giải của hồi quy tuyến tính này. Chúng ta có một ví dụ rất cụ thể về phương trình \eqref{2.7}.

$$
\log(\widehat{wphyi}) = 0.46 + 0.14 \times educ
$$

Hệ số của giáo dục trong hồi quy này thường được mô tả là tỷ suất sinh lợi Mincerian từ giáo dục, vì nó cho chúng ta biết (xấp xỉ) phần trăm thay đổi trong thu nhập khi tăng thêm một năm học. Như chúng ta đã thảo luận trong Chương 14, không thể diễn giải tham số này như một hướng dẫn cho tính mong muốn của các khoản đầu tư vào giáo dục, vì điều này yêu cầu kiến thức về tỷ suất sinh lợi cận biên, chứ không phải tỷ suất trung bình. Điều mà mô hình hồi quy này cho thấy là tác động của giáo dục đối với thu nhập có vẻ rất lớn.

Đọc từ các điểm trên đường hồi quy, log tự nhiên của thu nhập cho những người không có năm học nào là 0.46, trong khi đối với 16 năm học là $0.46 + 0.14 \times 16 = 2.7$. Điều này tương đương với mức tăng thu nhập hơn chín lần vì $\exp(0.46) = 1.58$ và $\exp(0.46 + 0.14 \times 16) = 14.88$ rand mỗi giờ. Số tiền 1.58 rand mỗi giờ chuyển đổi khoảng 50 cent Mỹ mỗi giờ theo giá năm 1993. Có vẻ như giáo dục tạo ra sự khác biệt rất lớn đối với thu nhập kỳ vọng.

Cho đến nay, chúng ta chỉ đơn thuần diễn giải các hệ số từ kết quả Stata. Chúng ta chưa đề cập gì đến mức độ mà mô hình của chúng ta giải thích thu nhập bằng giáo dục tốt như thế nào. Thực tế, giá trị $R^2$ ước lượng được báo cáo trong kết quả của Stata là một thước đo mức độ gần với các quan sát thực tế của $y$ với các giá trị dự đoán $\hat{y}_i$. Giá trị ước lượng của $R^2$ được tính toán dựa trên tổng bình phương toàn bộ (SST), tổng bình phương giải thích được (SSE) và tổng bình phương phần dư (SSR) như sau:

Tổng bình phương toàn bộ (SST)	Tổng bình phương giải thích (SSE)	Tổng bình phương phần dư (SSR)
$\text{SST} = \sum_{i=1}^{n} (y_i – \bar{y})^2$	$\text{SSE} = \sum_{i=1}^{n} (\hat{y}_i – \bar{y})^2$	$\text{SSR} = \sum_{i=1}^{n} \hat{u}_i^2$

Có thể dễ dàng chứng minh rằng:

$$
\text{SST} = \text{SSE} + \text{SSR} \tag{2.19} \label{2.19}
$$

và chúng ta định nghĩa tỷ lệ biến động được giải thích là:

$$
R^2 = \frac{\text{SSE}}{\text{SST}} = 1 – \frac{\text{SSR}}{\text{SST}}. \tag{2.20} \label{2.20}
$$

Do $R^2$ là tỷ lệ của biến động giải thích được so với biến động toàn bộ, nó được diễn giải như là phần trăm biến động mẫu của $y$ được giải thích bởi $x$. Ý nghĩa trực giác của điều này là rõ ràng. Nếu phương trình của chúng ta có thể dự đoán chính xác thu nhập, chúng ta sẽ có giá trị $R^2$ bằng 1; nếu chúng ta không thể giải thích gì cả, tức là, điều tốt nhất chúng ta có thể làm để dự đoán $y$ là giá trị trung bình của nó, chúng ta sẽ có giá trị $R^2$ bằng 0.

2.4 Tính chất của các ước lượng OLS

2.4.1 Các giả định để OLS không chệch

Tại sao chúng ta nên ưu tiên cụ thể ước lượng OLS hơn các ước lượng thay thế khác có thể được đề xuất? Một lý do là ước lượng OLS có thể được chứng minh là không chệch nếu chúng ta đưa ra bốn giả định. Một ước lượng không chệch là một ước lượng mà, khi lấy trung bình qua một số lượng lớn (vô hạn) các thử nghiệm lặp lại, sẽ cho giá trị thực của tham số:

$$
E(\hat{\beta}_0) = \beta_0
$$

$$
E(\hat{\beta}_1) = \beta_1
$$

Các giả định mà dưới đó ước lượng OLS là không chệch đã được đưa ra trong việc thiết lập mô hình. Chúng như sau:

(A1) Mô hình là tuyến tính trong các tham số.
(A2) Chúng ta có một mẫu ngẫu nhiên từ tổng thể quan tâm.
(A3) Có sự thay đổi trong mẫu của biến giải thích.
(A4) Trung bình có điều kiện của phần dư là 0, $E(u | x) = 0$.

Với công thức cho ước lượng OLS, có thể dễ dàng chứng minh rằng:

$$
\hat{\beta}1 = \beta_1 + \frac{\sum{i=1}^n (x_i – \bar{x})u_i}{\sum_{i=1}^n (x_i – \bar{x})^2}
$$

Do đó:

$$
E(\hat{\beta}1) = \beta_1 + E \left( \frac{\sum{i=1}^n (x_i – \bar{x})u_i}{\sum_{i=1}^n (x_i – \bar{x})^2} \right)
$$

Điều này rút gọn thành $E(\hat{\beta}_1) = \beta_1$ bởi vì $E(u_i | x_i) = 0$ với mọi $i = 1,…,n$. Chúng tôi không cung cấp một chứng minh chính thức ở đây vì nó có thể được tìm thấy trong bất kỳ sách giáo khoa kinh tế lượng nào; một trình bày rõ ràng đặc biệt có thể được tìm thấy trong Wooldridge (2013: 46–47). Chúng tôi cũng bỏ qua chứng minh rằng $\hat{\beta}_0$ là một ước lượng không chệch của hệ số hằng số $\beta_0$.

2.4.2 Các giả định để OLS có phương sai nhỏ nhất

Rõ ràng, một ước lượng không chệch là một tính chất mong muốn. Tuy nhiên, đây không phải là khía cạnh duy nhất mà chúng ta quan tâm. Chúng ta cũng cần xem xét phương sai của ước lượng, đây là một thước đo sự phân tán của ước lượng xung quanh giá trị thực của tham số. Với các điều kiện khác không đổi (ceteris paribus), rõ ràng chúng ta ưu tiên các ước lượng có phương sai nhỏ hơn so với bất kỳ ước lượng nào khác có thể có; các ước lượng có phương sai thấp hơn, theo một nghĩa nào đó, sử dụng tốt hơn thông tin trong dữ liệu.

Hãy bắt đầu bằng cách giả định rằng sai số $u$ có phương sai đồng nhất với mọi giá trị của biến giải thích, điều này được viết chính thức như sau:

$$
\text{Var}(u | x) = \sigma^2. \tag{A5} \label{A5}
$$

Đây được gọi là giả định phương sai không đổi (homoskedasticity): phương sai là một hằng số. Khi $\text{Var}(u | x)$ thay đổi giữa các quan sát, sai số được cho là có hiện tượng phương sai không đồng nhất (heteroskedasticity) hay đôi khi còn gọi là phương sai thay đổi.

Nếu các giả định từ A1 đến A5 được thỏa mãn, có thể chứng minh rằng ước lượng OLS là ước lượng tuyến tính không chệch tốt nhất (BLUE). OLS là một ước lượng tuyến tính, vì nó có thể được biểu diễn như một hàm tuyến tính của biến phụ thuộc $y$. Nó không chệch dưới các giả định A1 đến A4, như đã thảo luận. Và nó là “tốt nhất”, có nghĩa là nó có phương sai thấp nhất, nếu chúng ta cũng giả định phương sai không đổi (A5).

Với giả định phương sai không đổi, có thể biểu diễn phương sai của ước lượng OLS $\hat{\beta}_1$ như sau:

$$
\text{Var}(\hat{\beta}1) = \frac{\sigma^2}{\sum{i=1}^n (x_i – \bar{x})^2} = \frac{\sigma^2}{SST_x} \tag{2.21} \label{2.21}
$$

$$
\text{Var}(\hat{\beta}0) = \frac{\sigma^2 \sum{i=1}^n x_i^2 / n}{\sum_{i=1}^n (x_i – \bar{x})^2}.
$$

Các phương sai này được biểu diễn dựa trên phương sai không quan sát được của $u$. Do đó, các phương sai của các ước lượng OLS tự chúng là không quan sát được, nhưng chúng có thể được ước tính nếu chúng ta có một ước lượng cho $\sigma^2$. Một ước lượng không chệch cho $\sigma^2$ là:

$$
\hat{\sigma}^2 = \frac{1}{n – 2} \sum_{i=1}^n \hat{u}_i^2 = \frac{\text{SSR}}{n – 2}. \tag{2.22} \label{2.22}
$$

Bảng 2.2: Mô hình hồi quy sử dụng dữ liệu trong Labour_Force_SA_SALDRU_1993 với sai số chuẩn vững

reg logwphy educ, robust

Giá trị $\hat{\sigma} = \sqrt{\hat{\sigma}^2}$ được gọi là sai số chuẩn của hồi quy (SER). Nếu $\hat{\sigma}^2$ được thay vào các công thức phương sai của $\hat{\beta}_0$ và $\hat{\beta}_1$, chúng ta sẽ có các ước lượng không chệch của $\text{Var}(\hat{\beta}_1)$ và $\text{Var}(\hat{\beta}_0)$, và nếu chúng ta lấy căn bậc hai của các phương sai ước tính này, chúng ta sẽ có các sai số chuẩn của $\hat{\beta}_1$ và $\hat{\beta}_0$. Như đã thảo luận trong Chương 4, các sai số chuẩn là rất quan trọng cho việc kiểm định giả thuyết.

Giả sử rằng giả định phương sai không đổi không được dữ liệu hỗ trợ. Chúng ta phải làm gì? Có một sự khác biệt cơ bản trong quan điểm giữa các nhà kinh tế lượng về cách tốt nhất để tiếp tục trong trường hợp này. Một cách tiếp cận – có thể gọi là “hiểu rõ những gì chúng ta đang làm” – coi sự thất bại của giả định phương sai không đổi như là thông tin về mô hình cần phải được hiểu rõ. Một quan điểm thay thế – có thể gọi là “tiến hành đánh giá mô hình” – sẽ lập luận rằng chúng ta chỉ cần chấp nhận phương sai không đồng nhất và tiếp tục. Lưu ý đặc biệt rằng chúng ta không cần giả định phương sai không đổi để các ước lượng của chúng ta là không chệch.

Vậy vấn đề được đặt ra bởi phương sai không đồng nhất là gì? Nếu các sai số là phương sai không đồng nhất, sao cho:

$$
\text{Var}(u_i | x_i) = \sigma_i^2,
$$

trong đó chỉ số $i$ xác nhận rằng phương sai thay đổi và không phải là hằng số, phương sai của ước lượng OLS được cho bởi:

$$
\text{Var}(\hat{\beta}1) = \frac{\sum{i=1}^n (x_i – \bar{x})^2 \sigma_i^2}{\text{SST}_x^2}, \tag{2.23} \label{2.23}
$$

trong đó:

$$
\text{SST}x^2 = \left( \sum{i=1}^n (x_i – \bar{x})^2 \right)^2
$$

là tổng bình phương của các $x_i$, và chính nó được bình phương. Lưu ý rằng dưới giả định phương sai không đổi, tức là $\sigma_i^2 = \sigma^2$ với mọi $i$, công thức này giảm về phương trình thông thường $\sigma^2 / \text{SST}_x$.

Do sai số chuẩn của $\hat{\beta}_1$ được tính trực tiếp từ việc ước tính $\text{Var}(\hat

{\beta}_1)$, chúng ta cần một cách để ước tính phương sai này khi có hiện tượng phương sai không đồng nhất. White (1980) đã chỉ ra rằng một ước lượng hợp lệ của $\text{Var}(\hat{\beta}_1)$ dưới phương sai không đồng nhất dưới mọi hình thức (bao gồm cả phương sai không đổi) là:

$$
\frac{\sum_{i=1}^n (x_i – \bar{x}) \hat{u}_i^2}{\text{SST}_x^2}. \tag{2.24} \label{2.24}
$$

Nếu chúng ta lấy căn bậc hai của phương trình này, chúng ta sẽ thu được các sai số chuẩn bền vững với phương sai không đồng nhất. Như vậy, chúng ta có thể dễ dàng thấy liệu sự hiện diện của phương sai không đồng nhất có thay đổi quan điểm của chúng ta về giá trị của các sai số chuẩn hay không. Điều này có thể dễ dàng thực hiện trong Stata, và trong Bảng 2.2, chúng ta chỉ ra các hậu quả của việc chấp nhận phương sai không đồng nhất.

Hậu quả có thể thấy qua sự so sánh giữa Bảng 2.1 và Bảng 2.2, cho thấy một sự gia tăng khiêm tốn trong các sai số chuẩn ở Bảng 2.2 so với Bảng 2.1. Tuy nhiên, cho đến thời điểm này, chúng ta vẫn chưa kiểm định sự hiện diện của phương sai không đồng nhất trong dữ liệu, mặc dù nhìn vào Hình 2.2, có vẻ khá rõ rằng phương sai không đồng nhất trong phạm vi của giáo dục. Chúng ta sẽ đến phần kiểm định chính thức cho phương sai không đồng nhất trong Chương 4; trước đó, chúng ta cần lưu ý tầm quan trọng của giả định (A2) rằng chúng ta có một mẫu ngẫu nhiên từ tổng thể quan tâm.

Nếu mẫu của chúng ta là ngẫu nhiên, chúng ta có thể chắc chắn rằng các sai số không tương quan với nhau. Thực tế, dữ liệu vi mô của chúng ta được rút ra từ một mẫu ngẫu nhiên phân tầng, có nghĩa là mẫu được lấy bằng cách chọn các cụm trước rồi mới lấy mẫu trong các cụm đó. Đây là phương pháp phổ biến để thực hiện các mẫu quy mô lớn, vì một mẫu thực sự ngẫu nhiên sẽ quá tốn kém để thu thập. Khi làm điều này, có nghĩa là chúng ta không thể chắc chắn rằng các sai số của chúng ta không tương quan với nhau trong một cụm. Khi chúng ta đến phần kiểm định chính thức của hàm thu nhập tổng quát hơn mà chúng ta giới thiệu trong Chương 3, chúng ta sẽ cho thấy đây là một vấn đề quan trọng đối với dữ liệu của chúng ta (xem Mục 5.3.2).

2.5 Xác định tác động nhân quả của giáo dục

Trong chương này, chúng ta đã thiết lập mô hình hồi quy tuyến tính đơn giản và các giả định đảm bảo rằng các tham số là ước lượng không chệch của các tham số thực trong tổng thể. Chúng ta đã bắt đầu chương với một cuộc thảo luận về mong muốn của mình trong việc đưa ra các phát biểu nhân quả về tác động của giáo dục đối với thu nhập và năng suất lao động. Nếu chúng ta có thể lập luận rằng các tham số trong hàm thu nhập được trình bày trong Bảng 2.2 là không chệch, thì chúng ta có thể đưa ra các phát biểu nhân quả vì chúng ta đã chỉ ra cách mà thay đổi trong giáo dục sẽ thay đổi thu nhập. Mặc dù chúng ta không thể đưa ra tuyên bố như vậy, nhưng bây giờ chúng ta hiểu được những điều kiện cần thiết để có thể làm điều đó. Làm thế nào để xác định được tác động nhân quả từ giáo dục trong dữ liệu của chúng ta là chủ đề quan trọng trong nhiều chương tiếp theo. Trong chương tiếp theo, chúng ta sẽ bắt đầu theo hướng này bằng cách chỉ ra cách sử dụng và mở rộng mô hình hồi quy đơn giản.

Tài liệu tham khảo

Angrist, J. D. và Pischke, J. (2009) Mostly Harmless Econometrics, Princeton University Press, Princeton, New Jersey.

White, H. (1980) ‘A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity‘, Econometrica, 48: 817–38.

Wooldridge, J. M. (2013) Introductory Econometrics: A modern approach, Fifth Edition, South-Western Cengage Learning.

Bài tập

Xét mô hình:

$$
y = \alpha + \beta \times x + u
$$

trong đó $y = \log(\text{giá trị gia tăng bình quân trên mỗi lao động})$, $x = \log(\text{vốn trên mỗi lao động})$, $\alpha$ và $\beta$ là các hệ số, và $u$ là phần dư. Dữ liệu từ 22 công ty cho thấy:

$$
\bar{y} = 6.436,
$$

$$
\sum_{i} (y_i – \bar{y})^2 = 49.5352,
$$

$$
\bar{x} = 2.036,
$$

$$
\sum_{i} (x_i – \bar{x})^2 = 57.3152,
$$

$$
\sum_{i} (x_i – \bar{x})(y_i – \bar{y}) = 47.2752.
$$

Nguồn	SS	df	MS	Số quan sát	[a]
Mô hình	[b]	[c]	[d]	F([u], [v])	[x]
Phần dư	[e]	[f]	[g]	Prob > F	[y]
Tổng cộng	[h]	[i]	[j]	R-squared	[z]
				Adj R-squared	[aa]
				Root MSE	[ab]

Y	Hệ số	Sai số chuẩn	t	P>	t		[Khoảng tin cậy 95%]
X	[k]	[l]	[m]	[n]	[o]
_cons	[p]	[q]	[r]	[s]	[t]

Trên đây là mẫu cho kết quả hồi quy được báo cáo bởi Stata. Hãy hoàn thành bảng bằng cách tính các số để điền vào các ô [a]–[z], [aa]–[ab].
Kiểm định giả thuyết rằng $\beta = 0.3$. Giải thích quyết định của bạn về việc chấp nhận hay bác bỏ giả thuyết gốc.
Bây giờ, áp đặt ràng buộc $\alpha = 0$ và ước lượng lại $\beta$. Kết quả ước lượng này so sánh như thế nào với kết quả thu được ở câu (1)? Giải thích trực quan, có thể sử dụng đồ thị, tại sao ước lượng này của $\beta$ lại khác nhau. Bình luận về tính hợp lệ và ý nghĩa của việc áp đặt ràng buộc $\alpha = 0$.

2. Mô hình hồi quy tuyến tính đơn giản

2.1 Giới thiệu: Mô hình và quan hệ nhân quả

2.2 Mô hình hồi quy tuyến tính và ước lượng OLS

2.2.1 Mô hình hồi quy tuyến tính như một mô hình tổng thể

2.2.2 Giả định kỳ vọng có điều kiện bằng không

2.2.3 Bộ ước lượng OLS

2.3 Hàm thu nhập Mincerian cho dữ liệu Nam Phi

2.4 Tính chất của các ước lượng OLS

2.4.1 Các giả định để OLS không chệch

2.4.2 Các giả định để OLS có phương sai nhỏ nhất

2.5 Xác định tác động nhân quả của giáo dục

Tài liệu tham khảo

Bài tập

2. Mô hình hồi quy tuyến tính đơn giản

MỤC LỤC