Bao cao stata

BÁO CÁO GIỮA KÌ
GVHD: TS. Đinh Thị Thanh Bình

Nhóm 16Trang 17

Thống kê và phân tích dữ liệu
Mô tả các biến khả dụng

Thực hiện lệnh describe trên Stata, ta được bảng thống kê dữ liệu:

. des

Contains data from C:\Users\Admin\Desktop\PPNC_KHOAHOC\file data_full\16.DTA
obs: 807
vars: 10 16 Sep 1996 16:23
size: 19,368
-----------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-----------------------------------------------------------------------------------
educ float %9.0g years of schooling
cigpric float %9.0g state cig. price, cents/pack
white byte %8.0g =1 if white
age byte %8.0g in years
income int %8.0g annual income, $
cigs byte %8.0g cigs. smoked per day
restaurn byte %8.0g =1 if rest. smk. restrictions
lincome float %9.0g log(income)
agesq int %9.0g age^2
lcigpric float %9.0g log(cigprice)
-----------------------------------------------------------------------------------
Sorted by:
Bảng 1. Danh sách các biến số liệt kê

=> Nhìn vào bảng 1, cho ta cái nhìn sơ lược nhất về mẫu quan sát và ý nghĩa từng biến. Lệnh describe cho ta biết được mẫu có 807 quan sát, với 10 biến được thực hiện và tổng kích cỡ của bộ dữ liệu là 19368 dữ liệu. Để đơn giản hơn ta giải thích ý nghĩa cụ thể như sau:

Tên biến
Kiểu dữ liệu
Dạng hiển thị
Ý nghĩa
educ
Số thực
Độ dài 9 chữ số
Số năm học
cigpric
Số thực
Giá một bao thuốc lá, đơn vị cent/bao
white
Số nguyên
Bằng 1 nếu là người da trắng
age
Số nguyên
Độ tuổi người được khảo sát
income
Số nguyên
Thu nhập
cigs
Số nguyên
Số điếu thuốc đã hút trong một ngày
restaurn
Số nguyên
bằng một nếu Bang nào có hạn chế hút thuốc là tại nhà hàng
lincome
Số thực
Loga tự nhiên của thu nhập
agesq
Số nguyên
Độ tuổi bình phương
lcigpric
Số thực
Loga tự nhiên của giá một bao thuốc
Bảng 2. Giải thích chi tiết các biến được chọn

Sau quá trình phân tích và đối chiếu các số liệu, nhóm quyết định chọn ra 5 biến ngẫu nhiên rời rạc trong tổng số 10 biến làm biến độc lập trong mô hình, gồm các biến định lượng: "income", "cigpric", "educ", "age" và biến số định tính "restaurn" được lượng hóa, để xét mối tương quan của từng biến với biến phụ thuộc được chọn là: "cigs". Mục đích của nhóm là đánh giá tác động của các biến như thu nhập, chủng tộc, trình độ giá dục, độ tuổi và một khía cạnh trong trong luật để giải thích cho việc số điếu thuốc trung bình được tiêu thụ trong một ngày của một người tiêu dùng ngẫu nhiên.

Thực hiện lệnh tabulate với một số biến của mô hình
Thực hiện lệnh tabulate với biến cigs. Ta được:
. tab cigs

cigs. "
smoked per "
day " Freq. Percent Cum.
------------+-----------------------------------
0 " 497 61.59 61.59
1 " 7 0.87 62.45
2 " 5 0.62 63.07
3 " 5 0.62 63.69
4 " 2 0.25 63.94
5 " 7 0.87 64.81
6 " 3 0.37 65.18
7 " 2 0.25 65.43
8 " 3 0.37 65.80
9 " 2 0.25 66.05
10 " 28 3.47 69.52
11 " 2 0.25 69.76
12 " 4 0.50 70.26
13 " 2 0.25 70.51
14 " 1 0.12 70.63
15 " 23 2.85 73.48
16 " 1 0.12 73.61
18 " 3 0.37 73.98
19 " 1 0.12 74.10
20 " 101 12.52 86.62
25 " 7 0.87 87.48
28 " 3 0.37 87.86
30 " 42 5.20 93.06
33 " 1 0.12 93.18
35 " 2 0.25 93.43
40 " 37 4.58 98.02
50 " 6 0.74 98.76
55 " 1 0.12 98.88
60 " 8 0.99 99.88
80 " 1 0.12 100.00
------------+-----------------------------------
Total " 807 100.00
Bảng 3. Bảng mô tả số lượng và tấn suất xuất hiện
Quan sát bảng tần suất của biến số điếu thuốc trung bình được hút trong một ngày (cigs) ta biết được tần suất lớn nhất là 497 của quan sát 0, như vậy số người không hút thuốc trong một ngày chiếm tỷ lệ cao nhất đạt 61,59%. Tiếp theo sau lần lượt là quan sát: 20 điếu một ngày với tần suất 101 lần xuất hiện, 30 điếu một ngày với 42 lần quan sát được...Như vậy, có thể thấy được là trong mẫu trên tỷ trọng người không điếu thuốc nào trong một ngày là cao nhất điều này ảnh hưởng rất lớn tới hệ số tương quan của mô hình sẽ chạy về sau.
Tiếp tục thực hiện lệnh tabulate với biến income ta được bảng sau:
. tab income

annual "
income, $ " Freq. Percent Cum.
------------+-----------------------------------
500 " 5 0.62 0.62
1500 " 10 1.24 1.86
2500 " 10 1.24 3.10
3500 " 19 2.35 5.45
4500 " 13 1.61 7.06
5500 " 15 1.86 8.92
6500 " 32 3.97 12.89
8500 " 61 7.56 20.45
12500 " 125 15.49 35.94
20000 " 247 30.61 66.54
30000 " 270 33.46 100.00
------------+-----------------------------------
Total " 807 100.00
Bảng 4. Bảng mô tả số lượng và tấn suất xuất hiện
Quan sát bảng tần số và xác suất phân bố ở trên, có thể dễ dàng nhận ra thu tần số xuất hiện nhiều thường thấy ở 3 mức thu nhập cao nhất. Cụ thể, mức 30000$ có tần suất xuất hiện cao nhất là 270 lần, mức 20000$ có tần suất xuất hiện thứ 2 là 247 lần và mức 12500$ có tần suất là 125 lần, sau đó giảm dần tần suất theo các mức độ giảm của thu nhập. Như vậy, trong mẫu này, thu nhập cao từ 12500$ chiếm tỷ trong áp đảo gần 80% tần suất xuất hiện.

Tiếp theo, để biết được thông tin liên quan đến dữ liệu thống kê của một biến bất kì trong mẫu trên (số quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, nhỏ nhất) ta sử dụng lệnh summarize để xem.

Thực hiện lệnh summarize với các biến kể trên, ta có:

. sum cigs educ cigpric age income restaurn

Variable " Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
cigs " 807 8.686493 13.72152 0 80
educ " 807 12.47088 3.057161 6 18
cigpric " 807 60.30041 4.738469 44.004 70.129
age " 807 41.23792 17.02729 17 88
income " 807 19304.83 9142.958 500 30000
-------------+--------------------------------------------------------
restaurn " 807 .2465923 .4312946 0 1
Bảng 5. Mô tả thông tin các biến được chọn

Theo như hiển thị ở bảng 5, theo thứ tự từ trái qua phải: Cột 1 cho biết tên các biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 và cột 6 lần lượt là giá trị lớn nhất và giá trị nhỏ nhất. Như đã nói ở trên, nhóm đã chọn ra các biến để đưa vào mô hình hồi quy của mình, chính vì vậy nhóm sẽ miêu tả lại khái quát các biến đó như sau: Biến cigs có 807 quan sát, giá trị trung bình là 8,6864493, giá trị sai số tiêu chuẩn là 13,72152 và giá trị lớn nhất/ nhỏ nhất lần lượt là: 18 và 6 v.v.

Tiếp tục, nếu muốn biết chi tiết hơn về mô tả của một biến cụ thể ta dùng lệnh như trên có thêm detail, ở đây là chọn một biến bất kì là cigs để làm miêu tả chi tiết, cụ thể như sau:

Thực hiện lệnh tương tự, kèm thêm chữ detail ngay sau dấu phẩy.
. sum cigs, detail

cigs. smoked per day
-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 0 0
10% 0 0 Obs 807
25% 0 0 Sum of Wgt. 807

50% 0 Mean 8.686493
Largest Std. Dev. 13.72152
75% 20 60
90% 30 60 Variance 188.28
95% 40 60 Skewness 1.651144
99% 60 80 Kurtosis 5.413087
Bảng 6. Mô tả chi tiết biến cigs

Bảng 6, nêu rõ tất cả các mô tả chi tiết nhất về biến phụ thuộc cigs. Các thành phần được sắp xếp theo mức độ phần trăm.
Để biết được quan hệ tương quan giữa 2 hay nhiều biến với nhau, ta sử dụng lệnh correlate, cụ thể như sau:

Thực hiện lệnh correlate cho các biến được chọn:

. corr cigs educ cigpric age income restaurn
(obs=807)

" cigs educ cigpric age income restaurn
-------------+------------------------------------------------------
cigs " 1.0000
educ " -0.0487 1.0000
cigpric " -0.0114 0.0310 1.0000
age " -0.0415 -0.1806 0.0293 1.0000
income " 0.0532 0.3344 0.0480 -0.0640 1.0000
restaurn " -0.0871 0.0605 0.1392 -0.0389 0.1060 1.0000
Bảng 7. Thống kê tương quan giữa các biến
Kết quả:
Tương quan r(x,y) Є [-1;1]. Về mặt lý thuyết, tương quan giữa biến phụ thuộc với một biến độc lập càng cao thì càng tốt (cao được hiểu là càng gần về 2 phía -1 hoặc 1), và ngược lại càng thấp khi càng gần 0. Qua Bảng 7, cho ta các kết quả như sau: Tương quan cùng biến cho kết quả bằng 1, như đã nói trên khi chọn biến cigs là biến phụ thuộc thì các tương quan của biến giải thích restaurn với cigs là lớn nhất bằng (-0,0871), sếp sau lần lượt là các biến, income, educ, age và cuối cùng là cigpric. Trong đó, biến educ, cigpric, age và restaurn là biến động ngược chiều với biến phụ thuộc cigs, chỉ có biến income còn lại là biến động cùng chiều. Cụ thể như sau:

Biến số
Giá trị r(yi, xj)
Ý nghĩa
cigs
1
Tương quan tuyệt đối dương
educ
- 0.0487
Tương quan âm (có nghĩa là trình độ giáo dục càng thấp thì hút thuốc lá càng nhiều và ngược lại)
cigpric
- 0.0114
Tương quan âm (có nghĩa là giá thuốc lá càng cao thì số điếu thuốc hút trong ngày càng giảm và ngược lại)
age
- 0.0415
Tương quan âm (có nghĩa là tuổi càng cao thì hút thuốc càng ít và ngược lại)
income
0.0532
Tương quan dương (có nghĩa là khi thu nhập tăng thì số điếu thuốc tiêu thụ trong ngày càng cao và ngược lại)
restaurn
- 0.0871
Tương quan âm (có nghĩa là nhà hàng cấm hút thuốc thì số điếu thuốc được hút giảm và ngược lại)
Bảng 8. Tương quan các biến độc lập so với biến phụ thuộc

Cùng với bảng tương quan giữa các biến độc lập với biến phụ thuộc cigs ta có có bảng tương quan giữa các biến độc lập với nhau. Tương quan giữa các biến r(xi, xj) đê xác định được xem là các biến độc lập đưa vào mô hình có tương quan với nhau hay không? Và mức độ tương quan như thế nào? Nếu mức độ tương quan giữa 2 biến độc lập bất kì càng cao (r(xi, xj) > 0,8) thì mô hình sẽ bị mắc bệnh Đa cộng tuyến rất cao. Cụ thể như sau:

. corr educ cigpric age income restaurn
(obs=807)
" educ cigpric age income restaurn
-------------+---------------------------------------------
educ " 1.0000
cigpric " 0.0310 1.0000
age " -0.1806 0.0293 1.0000
income " 0.3344 0.0480 -0.0640 1.0000
restaurn " 0.0605 0.1392 -0.0389 0.1060 1.0000

Bảng 9. Bảng tương quan giữa các biến độc lập của mô hình

Nhìn vào bảng 9, ta có thể thấy được rằng r(xi, xj) của 2 biến độc lập bất kì đều thấp hơn 0,8 Từ đó suy ra, các biến được chọn ngẫu nhiên làm biến độc lập có tương quan thấp với nhau và mô hình không bị mắc bệnh Đa cộng tuyến.
Phân tích dữ liệu
Trong phần này, nhóm tập trung vào tìm hiểu tác động của 5 biến ngẫu nhiên rời rạc đã được chọn ở trên (bao gồm: cigs, income, age, restaurn, cigpric, educ) đến số điếu thuốc hút trong một ngày (cigs) bằng phương pháp ước lượng bình phương nhỏ nhất OLS (Ordinary Least Squared).
Những đánh giá và kết luận trong phần này sẽ dựa trên kết quả chạy mô hình hồi quy đa biến tổng quát:
Y = βo + β1*X1 + β2*X2 + β3*X3 + β4*X4 + β5*X5 + ui
Y là biến phụ thuộc của mô hình
βo là hệ số chặn của mô hình
β1 đến β5 là các hệ số góc tương ứng của các biến X1 đến X5 của mô hình
X1 đến X5 là các biến độc lập của mô hình
ui là thành phần nhiễu của mô hình

Với các biến số đã chọn, ta có:
Tên biến
Ứng với các biến được chọn
Y
cigs
X1
educ
X2
cigpric
X3
restaurn
X4
income
X5
age
ui
Thành phần nhiễu của mô hình

Thực hiện lệnh hồi quy regress:

Bảng 10. Kết quả hồi quy mô hình cho các biến đã chọn

Mô hình sau khi chạy trên stata 12 cho kết quả như Bảng 9, phương trình hồi quy của mẫu được chọn như sau:
Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+ 0.0001306* X4 – 0.0438986* X5

Kiểm định giả thiết thống kê:
Kiểm định sự phù hợp của mô hình.
Sau khi chạy mô hình, để kiểm tra sự phù hợp của mô hình ta có thể dùng 2 công cụ: Kiểm định thống kê F-statistic của mô hình, hoặc điểm định giá trị P-value của giá trị F với mức ý nghĩa thống kê α mà nhóm chọn là 10%. Vì vậy, công cụ nào thuận tiện hơn thì sẽ được sử dụng để kiểm định.

Kiểm định cặp giả thiết: : Ho: R2 = 0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: R2 > 0
Ta có: P-value của kiểm định F bằng 0.0000 < 10% từ đây có căn cứ bác bỏ Ho. Điều đó có nghĩa mô hình nhóm chọn là phù hợp và có thể sử dụng để phân tích thống kê.
Kiểm định mức độ ảnh hưởng của các biến độc lập đối với biến phụ thuộc
Như đã phân tích ở trên, chúng ta đều thừa nhận rằng các biến độc lập có tương quan với biến phụ thuộc. Tuy nhiên, chưa hẳn rằng sự tương quan đó thực sự nói lên rằng các biến độc lập đã thực sự ảnh hưởng tới biến phụ thuộc. Chính vì lẽ đó, ta đi tới kiểm định giả thiết thống kê:
Có 3 công cụ để kiểm định giả thiết thống kê đó là: dùng thống kê t, giá trị P>ItI và khoảng tin cậy. Cả 3 công cụ này đều cho cùng một kết quả, như vậy công cụ nào thuận tiện ta sẽ sử dụng, nhóm quyết định chọn công cụ giá trị P>ItI.
Đầu tiên xét với biến educ là một biến định lượng.
Kiểm định cặp giả thiết: : Ho: β1=0 (Với mức ý nghĩa nhóm chọn là α = 10%).
H1: β1#0
Xét thấy P-value của kiểm định t của biến educ cho kết quả là 0.03 < 10% từ đây có căn cứ bác bỏ Ho. Đồng nghĩa với việc biến educ có ảnh hưởng tới biến phụ thuộc cigs.
Tiếp theo là biến cigpric là một biến định lượng.
H1: β1#0
P-value của kiểm định t của biến cigpric cho kết quả 0.964 > 10% từ đây có căn cứ bác bỏ Ho. Đồng nghĩa với việc biến cigpric không ảnh hưởng tới biến phụ thuộc cigs.
Biến restaurn là một biến định lượng.
H1: β1#0
Biến restaurn cho kết quả P-value của kiểm định t là 0.009< 10% từ đây có căn cứ bác bỏ Ho. Đồng nghĩa với việc biến restaurn có ảnh hưởng tới biến phụ thuộc cigs.
Biến age là một biến định lượng.
H1: β1#0
Biến age cho kết quả P-value của kiểm định t là 0.127 > 10% từ đây có căn cứ bác bỏ Ho. Đồng nghĩa với việc biến age không có ảnh hưởng tới biến phụ thuộc cigs.
Biến income là một biến định lượng.
H1: β1#0

Biến income cho kết quả P-value của kiểm định t là 0.020 < 10% từ đây có căn cứ bác bỏ Ho. Đồng nghĩa với việc biến age có ảnh hưởng tới biến phụ thuộc cigs.

Kết quả cụ thể được thể hiện trong bảng sau: (Với mức ý nghĩa 10%).
Tên biến
Giá trị P > ItI
Mức độ tác động
educ
0.030
Có ảnh hưởng tới biến cigs
cigpric
0.964
Không ảnh hưởng tới biến cigs
restaurn
0.009
age
0.127
Không ảnh hưởng tới biến cigs
income
0.026
Bảng 11. Tác động của các biến độc lập lên biến phụ thuộc

Kết luận:
Như vậy có thể thấy ngoại trừ biến cigpric và age là không ảnh hưởng tới biến phụ thuộc cigs còn thì các biến còn lại đều ảnh hưởng tới biến phụ thuộc cigs.
Như vậy đã xác định được tính chất ảnh hưởng của các biến độc lập với biến phụ thuộc cigs. Vậy mức độ ảnh hưởng của các biến độc lập tới biến phụ thuộc như thế nào! Mức độ ảnh hưởng được phân tích như sau:
Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+ 0.0001306* X4 – 0.0438986* X5

Đầu tiên, dể dàng nhận thấy trong điều kiện các yếu tố khác không đổi, khi các biến độc lập không có tác động thì tỷ lệ số điếu thuốc được hút trung bình 1 ngày là 13.01946% .
Xét với biến độc lập educ ta có: β1 = - 0.368468 điều này đồng nghĩa trong điều kiện các yếu tố khác không đổi, số năm đi học giảm đi thì tỷ lệ hút thuốc có xu hướng tăng lên 0.368468 %.
Xét với biến độc lập cigpric ta có: β2 = 0.0046741 điều này mang ý nghĩa. Trong điều kiện các yếu tố khác không đổi, khi giá thuốc tăng th số điếu thuốc cũng tăng 0.0046741%.
Xét với biến độc lập restaurn ta có: β3 = – 2.982192 điều này mang ý nghĩa. Trong điều kiện các yếu tố khác không đổi, có nghĩa là nhà hàng cấm hút thuốc thì số điếu thuốc được hút giảm 2.982192 %.
Xét với biến độc lập income ta có: β4 = 0.0001306 điều này mang ý nghĩa. Trong điều kiện các yếu tố khác không đổi, thu nhập tăng 1% thì số điếu thuốc tiêu thụ trong ngày càng cao tăng thêm 0.2092152 %.
Xét với biến độc lập age ta có: β5 = – 0.0438986 điều này mang ý nghĩa. Trong điều kiện các yếu tố khác không đổi, tuổi tăng 1% thì số điếu thuốc hút một ngày giảm 0.0438986%

Hệ số xác định của mô hình R-squared (R2)
Trên đây, chúng ta đã đánh giá được mức độ tác động của từng biến độc lập đối với biến phụ thuộc cigs. Bây giờ sẽ đi đánh giá mức độ tác động của tất cả các biến độc lập đối với biến phụ thuộc cigs. Từ mô hình, có một chỉ số cho ta biết chính xác mức độ tác động của các biến độc lập đối biến phụ thuộc đó là chỉ số R2 hay còn gọi là hệ số xác định của mô hình.
Ý nghĩa: Cho biết các biến độc lập có thể giải thích được bao nhiêu % sự thay đổi của biến phụ thuộc.
Từ bảng kết quả hồi quy (Theo bảng 7) dể dàng tìm được R2 = 0.0190 hay 0.19% như vậy các biến giải thích (bao gồm: educ, cigpric, age, income, restaurn)mà nhóm chọn cho vào mô hình có thể giải thích được 0.19% sự thay đổi của biến phụ thuộc cigs.

Kiểm định khuyết tật của mô hình
Kiểm định Đa cộng tuyến (ĐCT)
Từ bảng thống kê tương quan giữa các biến với nhau (Bảng 5), có thể thấy các biến độc lập có hệ số tương quan với nhau đều thấp hơn r(xi, xj) < 0.8 do đó có thể kết luận mô hình không mắc khuyết tật Đa cộng tuyến. Bảng phân tích cụ thể:

Bảng 10. Bảng tương quan giữa các biến độc lập

Để chắc chắn hơn sau khi hồi quy mô hình ta dùng lệnh vif để tính ra số VIF của mô hình nếu số VIF > 10 thì tức mô hình mắc bệnh Đa cộng tuyến, ngược lại thì không mắc bệnh. Cụ thể như sau:
Chạy lệnh vif:

Quan sát thấy Mean VIF = 1.08 < 10 từ đó có thể kết luận một lần nữa mô hình hoàn toàn không mắc bệnh Đa cộng tuyến.

Kiểm định Phương sai sai số thay đổi (PSSSTĐ)
Kiểm định phương sai sai số thay đổi (PSSSTĐ) là kiểm định còn lại mà nhóm sẽ thực hiện với mô hình này. Có 3 công cụ để kiểm định khuyết tật này đó là kiểm định White-test, kiểm định Breusch-Pagan và Cameron & Trivedi's decomposition of IM-test. Cụ thể như sau (với mức ý nghĩa nhóm chọn là α = 10%).

Với kiểm định White-test:

Với kiểm định B-G:

Để biết xem liệu mô hình có mắc khuyết tật PSSS thay đổi ta thực hiện:
Kiểm định cặp giả thiết: : Ho: PSSS không đổi
H1: PSSS thay đổi

Từ bảng kết quả của kiểm định White-test, cho giá trị P-value của quan sát chi2 bằng 0.0059 < 10% từ đây bác bỏ Ho. Như vậy, mô hình mắc bệnh phương sai sai số (PSSS) thay đổi.
Tương tự, với kiểm định B-G, cũng cho kết quả giá trị P-value của quan sát chi2 bằng 0.0016<10% từ đây bác bỏ Ho. Như vậy kết luận mô hình mắc PSSS thay đổi.

Kết luận:
Mô hình trên không mắc bệnh đa cộng tuyến nhưng mắc phương sai sai số thay đổi.

TÀI LIỆU THAM KHẢO

GS.TS. Nguyễn Quang Dong - PGS.TS. Nguyễn Thị Minh, 2013, Giáo trình kinh tế lượng. Nhà xuất bản Đại học Kinh tế quốc dân.
Nguyễn Văn Hân. Phần mềm thống kê Stata, xem 1.3.2015,
Bảng tra phân phối f-d distribution table. (n.d.).
Kiểm tra mối tương quan giữa các biến bằng phương pháp vẽ biểu đồ và kiểm định sử dụng, xem 1.3.2015

Bao cao stata

Recommend Documents