Quantile regression with time-series data and applications in modeling  of some big bank stock markets

Hoa Thanh Le; Uyen Thi Le Vo; Dat Phat Nguyen; Uyen Hoang Pham

doi:10.32508/stdjelm.v6i3.948

Downloads

Download data is not yet available.

Abstract

In the OLS regression model, the mean of the dependent variable is estimated based on the mean of the independent variables. The relationship between the independent variable and the dependent variable needs to be considered in many values instead of just through the mean of the dependent variable, then the quantile regression model is the optimal choice. In this paper, we study a quantile regression model in which the percentiles of the dependent variable are spread from 10% to 90%, with step by 10%, of the time-series data through autoregression model, to compare the fit of the models as well as the errors of the model. To demonstrate the results, we applied it to the time-series data on the closing stock prices of the four largest bank codes (on August 2, 2021) namely VCB, VPB, TCB, and BID. In which, percentile regression models have a very high fit, corresponding to about 80% or more. Besides, the estimated parameters are all statistically significant, different from the OLS regression model where some estimated parameters are not statistically significant. Furthermore, the OLS regression model is based on the mean, so it is susceptible to the outlier values, while the quantile is not affected by the outliers. In other words, the quantile regression model overcomes this weakness, so the quantile regression model is not affected by the outliers.

Tổng quan nghiên cứu

Mô hình hồi quy tuyến tính cổ điển OLS được xây dựng dạng hàm số dựa trên trung bình của biến phụ thuộc, sao cho tổng bình phương các sai lệch giữa giá trị thực tế và giá trị ước lượng bằng mô hình đạt giá trị cực tiểu. Do đó, mô hình ước lượng được theo phương pháp OLS sẽ chỉ phản ánh được giá trị trung bình, không phản ánh được các giá trị khác của biến phụ thuộc, đặc biệt là các trường hợp biến phụ thuộc biến động nhiều. Thật vậy, trong nhiều trường hợp, chúng ta không chỉ quan tâm đến duy nhất giá trị trung bình mà chúng ta cần quan tâm đến các giá trị ở các mức tứ phân vị, thập phân vị… Rõ ràng, khi nghiên cứu nhiều giá trị hơn của các biến phụ thuộc, mô hình hồi quy phân vị là lựa chọn phù hợp trước khi nghiên cứu toàn bộ các điểm của biến phụ thuộc như mô hình hồi quy Bayes. Tất nhiên, do mô hình hồi quy Bayes có các khó khăn trong quá trình tính toán cũng như các đánh giá đủ sâu về phân phối tiên nghiệm.

Thật vậy, mục đích của mô hình hồi quy là tìm mối quan hệ giữa biến độc lập và biến phụ thuộc (biến cần dự báo) thông qua các thuộc tính chung của các mối quan hệ này bằng giá trị đo lường độ tập trung bao gồm: trung bình (mean), trung vị (Med) và số yếu vị (Mode). Mô hình hồi quy tuyến tính cổ điển OLS tập trung vào giá trị trung bình, trong đó mối quan hệ giữa biến độc lập và biến phụ thuộc được mô tả bởi trung bình thông qua hàm trung bình có điều kiện 1 . Cách tiếp cận mô hình hồi quy thông qua hàm trung bình có điều kiện bao gồm các mô hình như mô hình hồi quy đơn biến, mô hình hồi quy đa biến, mô hình với phương sai sai số thay đổi sử dụng phương pháp bình phương cực tiểu có trọng số hay mô hình hồi quy phi tuyến. Thêm vào đó, một số mô hình cho biến phụ thuộc cũng được nghiên cứu bao gồm mô hình hồi quy cho biến phụ thuộc có hai trạng thái là mô hình logistic – probit, mô hình hồi quy cho biến phụ thuộc dạng số đếm là mô hình Poisson…

Tuy nhiên, đối với mô hình hồi quy cổ điển có một số giới hạn như sau: đầu tiên là mô hình kỳ vong có điều kiện nghiên cứu cho các trường hợp tuân theo phân phối chuẩn, các trường hợp có đuôi nặng (heavy tail, lower tail, upper tail) chưa được giải quyết trọn vẹn. Thêm nữa là, các giá trị trung tâm mới chỉ ra được một số ít đặc điểm của phân phối tổng thể, trong khi còn rất nhiều các tham số đại diện cho phân phối tổng thể như hình dạng, độ lệch, độ nhọn, các moment bậc cao… Cụ thể là chúng ta cần quan tâm đến các đuôi dưới, đuôi trên của các phân phối xác suất thay vì chỉ nghiên cứu các giá trị trung tâm như trung bình hay trung vị 2 .

Do đó, hồi quy phân vị là lựa chọn phù hợp nhất trong tình huống này, nhằm đảm bảo nghiên cứu nhiều hơn về các giá trị biến động của biến phụ thuộc. Hay nói cách khác, hồi quy phân vị là phương pháp nhằm đạt mục tiêu xác định các phân vị của biến phụ thuộc 3 . Tất nhiên, do hồi quy tuyến tính cổ điển OLS và hồi quy phân vị tập trung vào các đại lượng đặc trưng cho độ tập trung khác nhau, một bên là trung bình, một bên là các phân vị (trong đó bao gồm trung vị) nên các đánh giá sai số cũng phù hợp cho từng tình huống. Nếu như hồi quy tuyến tính cổ điển OLS dựa trên sai số dạng bình phương thì hồi quy phân vị sử dụng sai số dạng trị tuyệt đối 4 . Về bản chất trong ước lượng các tham số của mô hình hồi quy là dựa trên cực tiểu của hàm sai lệch, do đó hiển nhiên việc giải các bài toán này chính là tìm nghiệm của bài toán tối ưu 5 , 6 .

Cũng giống như mô hình hồi quy cổ điển OLS có áp dụng trong trường hợp phi tham số thì mô hình hồi quy phân vị cũng áp dụng cả trường hợp phi tham số 7 . Tức là trong trường hợp này sẽ ước lượng hàm hồi quy dựa vào phân phối thực nghiệm, đặc biệt, các phân vị của phân phối thực nghiệm sẽ có sự thay đổi khi cập nhật thêm dữ liệu. Chính vì vậy, để tốt hơn, chúng ta nên nghiên cứu toàn bộ phân phối xác suất của biến phụ thuộc như trong mô hình hồi quy Bayes. Tuy nhiên, trong mô hình hồi quy Bayes có khá nhiều khó khăn trong tính toán, đặc biệt là việc lựa chọn phân phối tiên nghiệm như thế nào cho phù hợp cũng rất cần các đánh giá thấu đáo. Mặc dù, trong hồi quy Bayes, chúng ta có thể sử dụng tiên nghiệm dạng phi thông tin, nhưng như vậy lại không sử dụng một cách hiệu quả các thông tin hiện có. Để trung hòa tất cả các điều kiện, chúng tôi sử dụng hồi quy phân vị với các mức phân vị đủ nhiều là cách nhau 10%, và khoảng cách đủ rộng là từ 10% đến 90% trong bài nghiên cứu này.

Đối với các dạng dữ liệu của mô hình hồi quy phân vị khá đa dạng, bao gồm cả dữ liệu chéo (ví dụ kết quả của một cuộc khảo sát trong kinh tế, xã hội, tài chính…), dữ liệu dạng chuỗi thời gian (ví dụ như giá gas, giá điện, giá chứng khoán…), và tất nhiên áp dụng được cho dữ liệu mảng 8 , 9 , 10 . Chính vì vậy, mô hình hồi quy phân vị có thể áp dụng được trong nhiều lĩnh vực mà mô hình hồi quy tuyến tính áp dụng được, đặc biệt trong kinh tế - tài chính 11 , thương mại, lao động 12 , sản xuất giữa công nghệ và khí thải carbon 13 , các khuyến nghị về thuốc, phân tích sống còn, các nghiên cứu về kinh tế và tài chính, môi trường 14 … nhằm cùng cấp các dự báo của phân phối có điều kiện của biến phụ thuộc.

Trong bài nghiên cứu này, chung tôi đề xuất mô hình nghiên cứu hồi quy phân vị ở các mức từ 10% đến 90%, với khoảng cách 10%, so sánh với mô hình hồi quy cổ điển OLS trong mô hình tự hồi quy. Về ứng dụng chúng tôi áp dụng vào bộ dữ liệu giá chứng khoán của bốn ngân hàng lớn Ngân hàng Thương mại Cổ phần Ngoại thương Việt Nam (VCB), Ngân hàng TMCP Việt Nam Thịnh Vượng (VPB), Ngân hàng TMCP Kỹ thương Việt Nam (TCB) và Ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BID), cho thấy các mô hình hồi quy phân vị có tham số tương ứng với các biến độc lập (kể các các biến hằng số) có ý nghĩa thống kê, mô hình phù hợp với hệ số xác định cao.

Phương pháp: Hồi quy phân vị

Phân vị và hàm phân vị

Định nghĩa 1. Phân vị thứ p, ký hiệu là Q ^(p) , của một hàm phân phối xác suất F là giá trị nhỏ nhất của tập các giá trị y sao cho: F(y) ≥ p. Hàm số Q ^(p) (như là một hàm số của p) được gọi là hàm phân vị của F 1 .

Mô hình hồi quy tuyến tính

Mô hình hồi quy tuyến tính, trong đó y là biến ngẫu nhiên liên tục phụ thuộc x 1 :

Trong đó, là giống hệt nhau, độc lập và cùng tuân theo phân phối chuẩn với trung bình 0 và phương sai chưa biết .

Từ giả định trung bình bằng 0, hàm số tương ứng kỳ vọng có điều kiện của y với x đã biết, ký hiệu là . Một điều kiện nữa của mô hình hồi quy tuyến tính là giả định phương sai bằng hằng số , tức là phương sai có điều kiện , trong trường hợp không xảy ra phương sai sai số thay đổi.

Các tham số ước lượng của mô hình hồi quy tuyến tính là nghiệm của bài toán cực tiểu của bình phương phần dư:

Hay trong trường hợp đơn giản nhất về mô hình hồi quy đơn biến thì và được ước lượng dựa vào công thức:

Ước lượng phương sai của yếu tố ngẫu nhiên là trong đó RSS là tổng bình phương các phần dư, n là tổng số quan sát, k là tổng số biến độc lập (trừ biến hằng số ). Phân phối xác suất đồng thời của các tham số ước lượng theo phương pháp bình phương cực tiểu là phân phối chuẩn nhiều chiều, với trung bình là giá trị đúng và ma trận hiệp phương sai . Từ đây, chúng ta sử dụng phân phối xác suất chuẩn nhiều chiều cho các bài toán về ước lượng và kiểm định giả thuyết.

Mô hình hồi quy tuyến tính cổ điển áp dụng cho trường hợp tự hồi quy tổng quát với dữ liệu chuỗi thời gian có dạng 5 :

Trong đó p là quá trình tự tương quan bậc p: AR(p). Khi đó, phương sai có điều kiện của thông qua mô hình ARCH(r) 5 :

Trong đó là tập các thông tin tại thời điểm t . Tức là phương trình ước lượng có dạng:

Trong đó là phần dư của mô hình AR(p) và các giá trị độ trễ .

Mô hình hồi quy phân vị

Mô hình hồi quy phân vị cũng được xác định tương tự mô hình hồi quy tuyến tính 5 :

Trong đó và là phân vị ở mức p của tham số mô hình hồi quy.

Do đó, phân vị có điều kiện tại mức phân vị p khi đã biết là:

Mặt khác, do là hằng số nên ta có phân vị thứ p của sai số ngẫu nhiên nhân giá trị 0, tức là:

Các ước lượng và kiểm định của tham số tương tự như trong mô hình hồi quy tuyến tính 1 .

Để đánh giá sự phù hợp của mô hình hồi quy phân vị, chúng ta có các giá trị về độ phù hợp Pseudo R-squared và Adjusted R-squared tương tự như độ phù hợp và độ phù hợp hiệu chỉnh của mô hình hồi quy OLS. Các kết quả diễn giải tương ứng được nêu chi tiết trong bài báo 15 . Tất nhiên, cần lưu ý các độ phù hợp của mô hình của mô hình hồi quy phân vị khác độ phù hợp trong mô hình OLS do sử dụng độ đo khác nhau, một bên dạng trị tuyệt đối và một bên dạng bình phương.

Tương tự trong hồi quy cổ điển OLS có mô hình tự hồi quy, thì mô hình hồi quy phân vị cũng có mô hình tự hồi quy phân vị QAR(p) 5 :

Tuy nhiên, do độ đo để tính sai số khác nhau nên mô hình đánh giá phương sai trong hồi quy phân vị khác phương sai trong mô hình hồi quy cổ điển OLS. Cụ thể, mô hình được biểu diễn dưới dạng sa 5 :

Hay biểu diễn dưới dạng mô hình ước lượng:

Kết quả nghiên cứu: Ứng dụng vào bộ dữ liệu tài chính

Mô tả dữ liệu

Chúng tôi nghiên cứu giá đóng cửa của bốn mã chứng khoán Ngân hàng Thương mại Cổ phần Ngoại thương Việt Nam (VCB), Ngân hàng Thương mại Cổ phần Việt Nam Thịnh Vượng (VPB), Ngân hàng Thương mại Cổ phần Kỹ thương Việt Nam (TCB) và Ngân hàng Thương mại Cổ phần Đầu tư và Phát triển Việt Nam (BID), theo ngày từ đầu năm 2019, tháng 01/2019, đến hết tháng 7/2021. Bộ dữ liệu giá chứng khoán được thu thập từ Trung tâm Nghiên cứu Kinh tế - Tài chính, Trường Đại học Kinh tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh, với phương pháp thu thập dữ liệu thứ cấp từ nguồn có sẵn. Đây là bốn mã chứng khoán ngân hàng có mệnh giá lớn nhất ngày đầu tiên của tháng 08/2021. Định nghĩa về các ngân hàng lớn với mã chứng khoán xét trong bài báo này tương ứng với giá chứng khoán của các mã cổ phiếu của các ngân hàng đó lớn, định nghĩa này không trùng với định nghĩa về ngân hàng lớn thông qua các tiêu chí về vốn điều lệ, tổng giá trị tài sản, mạng lưới hoạt động, hệ thống chi nhánh, phòng giao dịch, số lượng nhân viên, số lượng khách hàng… Tuy nhiên, độ lớn của mệnh giá giá chứng khoán cũng phần nào phản ảnh được các tiêu chí trên, minh chứng bốn mã chứng khoán của chúng tôi xem xét trong bài báo này cũng thuộc vào tốp các ngân hàng lớn nhất Việt Nam trong thời điểm hiện tại.

Theo đồ thị Figure 1 , các biến động của các mã chứng khoán này rất khác biệt nhau, nếu như VCB là mã có mệnh giá lớn, tang nhiều và giảm nhiều, so với các giá lịch sử thì giá có xu thế tăng tuyến tính. Trong khi đó, các mã VPB và TCB trong các giai đoạn trước giá ở mức ổn định, sau đó từ cuối năm 2020 đến nay giá tăng cao đột ngột. Trái lại, với BID, giá chứng khoán đạt đỉnh ở cuối năm 2019, sau đó giảm mạnh ở đầu năm 2020, và hiện nay khá ổn định với xu hướng tăng nhẹ.

Figure 1 . Đồ thị giá đóng cửa của bốn mã chứng khoán theo thời gian từ 01/2019 đến hết 07/2021(Nguồn: Kết quả nghiên cứu)

[Download figure]

Chị tiết các đại lượng thống kê mô tả của dữ liệu về bốn mã chứng khoán này được biểu diễn trong Table 1 .

**Table 1** Các đại lượng thống kê mô tả của bốn mã chứng khoán theo thời gian

So về giá trị trung bình thò mã chứng khoán VCB là cao nhất, sau đó đến BID, còn VPB và TCB xấp xỉ nhau. Xét về độ biến động thì VPB và VCB biến động nhiều nhất, tiếp theo là TCB và cuối cùng là BID. Nếu xem xét về dạng phân phối xác suất của dữ liệu thì cả bốn bộ dữ liệu này đều không tuân theo phân phối chuẩn. Mặc dù các bộ dữ liệu không tuân theo phân phối chuẩn, tuy nhiên do tính phân vị nên với mọi bộ dữ liệu, chúng ta luôn tính toán được các giá trị phân vị thực nghiệm. Hơn thế nữa, các giá trị phân vị thực nghiệm này là các giá trị xuất hiện trong bộ dữ liệu. Như vậy, các giá trị phân vị ưu điểm hơn so với giá trị trung bình, vì trung bình bị ảnh hưởng bởi giá trị đột biến, có thể xảy ra trường hợp giá trị trung bình không phải là giá trị xuất hiện trong bộ dữ liệu.

Kiểm định nghiệm đơn vị và lựa chọn mô hình tự hồi quy phân vị QAR

Về các bộ dữ liệu mặc dù khác nhau, tuy nhiên chúng cùng là dữ liệu chuỗi thời gian nên chúng ta cần kiểm tra tính dừng của dữ liệu. Việc kiểm tra tính dừng của dữ liệu thông qua kiểm định nghiệm đơn vị. Khi đã xác định được bộ dữ liệu dừng, chúng ta xác định mô hình hồi quy phù hợp thông qua giản đồ tự tương quan trong cả hồi quy cổ điển OLS và hồi quy phân vị.

Chuỗi VCB

Kiểm định nghiệm đơn vị thấy dữ liệu gốc VCB không dừng theo kết quả của Table 2 .

**Table 2** Kiểm định nghiệm đơn vị dữ liệu gốc của VCB

Tuy nhiên, đến sai phân bậc một dữ liệu VCB thì dừng theo kết quả Table 3 .

**Table 3** Kiểm định nghiệm đơn vị dữ liệu sai phân bậc một của VCB

Do sai phân bậc một chuỗi dữ liệu VCB đã dừng nên chúng ta sử dụng giản đồ tự tương quan của sai phân bậc một VCB theo Figure 2 , làm cơ sở cho việc chọn mô hình hồi quy ARIMA dạng tiếp theo:

Figure 2 . Giản đồ tự tương quan sai phân bậc một chuỗi VCB (Nguồn: Kết quả nghiên cứu)

[Download figure]

Dựa vào kết quả Figure 2 , chúng ta có thể thấy sự phù hợp trong lựa chọn mô hình ARIMA(0,1,0) hay chính là AR(1), nên chúng tôi sử dụng mô hình dạng AR(1) cho các phần ước lượng tiếp theo.

Chuỗi VPB

Kiểm định nghiệm đơn vị cho thấy dữ liệu gốc VPB không dừng theo kết quả Table 4 .

**Table 4** Kiểm định nghiệm đơn vị với chuỗi dữ liệu gốc VPB

Do chuỗi dữ liệu gốc VPB không dừng nên thực hiện tiếp kiểm định nghiệm đơn vị với sai phân bậc một chuỗi dữ liệu VPB, kết quả ở Table 5 chỉ ra sai phân bậc một chuỗi VPB dừng.

**Table 5** Kiểm định nghiệm đơn vị với chuỗi sai phân bậc một dữ liệu VPB

Dựa vào giản đồ tự tương quan chuỗi sai phân bậc một VPB trong Figure 3 , chúng ta có thể chọn mô hình ARIMA(1,1,1), tuy nhiên, để đồng nhất và dễ so sánh với các chuỗi dữ liệu khác, chúng tôi thu nhỏ mô hình về dạng ARIMA(0,1,0), tức là AR(1).

Figure 3 . Giản đồ tự tương quan chuỗi sai phân bậc một VPB (Nguồn: Kết quả nghiên cứu)

[Download figure]

Chuỗi TCB

Đối với dữ liệu TCB, chúng tôi cũng kiểm định nghiệm đơn vị với dữ liệu gốc, kết quả thể hiện qua Table 6 thấy rằng dữ liệu gốc TCB không dừng.

**Table 6** Kiểm định nghiệm đơn vị với dữ liệu gốc TCB

Tương tự như trên, sai phân bậc một của chuỗi dữ liệu TCB là dừng theo kết quả của Table 7 .

**Table 7** Kiểm định nghiệm đơn vị với dữ liệu sai phân bậc một TCB

Chúng tôi cũng xem xét giản đồ tự tương quan của chuỗi sai phân TCB nhằm chọn các tham số trong mô hình ARIMA. Kết quả trong Figure 4 chỉ ra rằng dữ liệu TCB phù hợp mô hình ARIMA(0,1,0) hay chính là AR(1).

Figure 4 . Giản đồ tự tương quan chuỗi sai phân bậc một VPB (Nguồn: Kết quả nghiên cứu)

[Download figure]

Chuỗi BID

Cuối cùng, chúng tôi xem xét dữ liệu gốc BID, kết quả thể hiện trong Table 8 chứng tỏ dữ liệu gốc BID không dừng.

**Table 8** Kiểm định nghiệm đơn vị với dữ liệu gốc BID

Tương tự như các bộ dữ liệu trên, bộ dữ liệu BID có sai phân bậc một là chuỗi dừng theo kết quả của Table 9 .

**Table 9** Kiểm định nghiệm đơn vị với sai phân bậc một của dữ liệu BID

Chúng ta cũng xem xét giản đồ tự tương quan của sai phân bậc một chuỗi dữ liệu BID, kết quả thể hiện qua Figure 5 . Kết quả chỉ ra bộ dữ liệu phù hợp với mô hình ARIMA(0,1,0) hay chính là AR(1).

Figure 5 . Giản đồ tự tương quan chuỗi sai phân bậc một VPB (Nguồn: Kết quả nghiên cứu)

[Download figure]

Điểm chung của bốn bộ dữ liệu VCB, VPB, TCB và BID đều có dữ liệu gốc là chuỗi không dừng, sai phân bậc một là chuỗi dừng, giản đồ tự tương quan khá phù hợp với mô hình AR(1). Do đó, trong các phần tiếp theo, chúng tôi sử dụng bộ dữ liệu AR(1) trong ước lượng các mô hình tương ứng. Sau khi có các kiểm định về nghiệm đơn vị đảm bảo đưa dữ liệu về dạng chuỗi dừng thông qua sai phân, chúng ta thấy các bộ dữ liệu này đủ điều kiện cho ước lượng mô hình hồi quy OLS cũng như mô hình hồi quy phân vị. Trong các phân tích tiếp theo, mô hình hồi quy OLS chỉ đưa ra mô hình ước lượng thông qua trung bình của biến phụ thuộc, trong khi đó, mô hình hồi quy phân vị đưa ra các thông tin về mô hình hồi quy ở các mức phân vị của bộ dữ liệu.