DỊCH VỤ CHUYÊN NGHIỆP TẬN TÂM

XỬ LÝ SỐ LIỆU SPSS, EVIEWS, STATA, HỖ TRỢ NGHIÊN CỨU THẠC SĨ

Phân tích và đọc kết quả hồi quy tuyến tính bội trong SPSS

 Hồi quy tuyến tính là phép hồi quy xem xét mối quan hệ tuyến tính – dạng quan hệ đường thẳng giữa biến độc lập với biến phụ thuộc. 

Hồi quy đa biến trong SPSS

1. Lý thuyết hồi quy tuyến tính

Trong nghiên cứu, chúng ta thường phải kiểm định các giả thuyết về mối quan hệ giữa hai hay nhiều biến, trong đó có một biến phụ thuộc và một hay nhiều biến độc lập. Nếu chỉ có một biến độc lập, mô hình được gọi là mô hình hồi quy đơn biến SLR (Simple Linear Regression). Trường hợp có từ hai biến độc lập trở lên, mô hình được gọi là hồi quy bội MLR (Multiple Linear Regression). Những nội dung tiếp theo ở tài liệu này chỉ đề cập đến hồi quy bội, hồi quy đơn biến tính chất tương tự với hồi quy bội

- Phương trình hồi quy đơn biến: Y = β0 + β1X + e

- Phương trình hồi quy bội: Y = β0 + β1X1 + β2X2 + … + βnXn + e

Trong đó:

  • Y: biến phụ thuộc, là biến chịu tác động của biến khác.
  • X, X1, X2, Xn: biến độc lập, là biến tác động lên biến khác.
  • β0: hằng số hồi quy, hay còn được gọi là hệ số chặn. Đây là chỉ số nói lên giá trị của Y sẽ là bao nhiêu nếu tất cả X cùng bằng 0. Nói cách khác, chỉ số này cho chúng ta biết giá trị của Y là bao nhiêu nếu không có các X. Khi biểu diễn trên đồ thị Oxy, β0 là điểm trên trục Oy mà đường hồi quy cắt qua.
  • β1β2, βn: hệ số hồi quy, hay còn được gọi là hệ số góc. Chỉ số này cho chúng ta biết về mức thay đổi của Y gây ra bởi X tương ứng. Nói cách khác, chỉ số này nói lên có bao nhiêu đơn vị Y sẽ thay đổi nếu X tăng hoặc giảm một đơn vị.
  • e: sai số. Chỉ số này càng lớn càng khiến cho khả năng dự đoán của hồi quy trở nên kém chính xác hơn hoặc sai lệch nhiều hơn so với thực tế. Sai số trong hồi quy tổng thể hay phần dư trong hồi quy mẫu đại diện cho hai giá trị, một là các biến độc lập ngoài mô hình, hai là các sai số ngẫu nhiên.

Trong thống kê, vấn đề chúng ta muốn đánh giá là các thông tin của tổng thể. Tuy nhiên vì tổng thể quá lớn, chúng ta không thể có được các thông tin này. Vì vậy, chúng ta dùng thông tin của mẫu nghiên cứu để ước lượng hoặc kiểm định thông tin của tổng thể. Với hồi quy tuyến tính cũng như vậy, các hệ số hồi quy tổng thể như β1β2 … hay hằng số hồi quy β0 là những tham số chúng ta muốn biết nhưng không thể đo lường được. Do đó, chúng ta sẽ sử dụng tham số tương ứng từ mẫu để ước lượng và từ đó suy diễn ra tổng thể. Phương trình hồi quy trên mẫu nghiên cứu:

Y = B0 + B1X1 + B2X2 + … + BnXn + ε

Trong đó:

  • Y: biến phụ thuộc
  • X, X1, X2, Xn: biến độc lập
  • B0: hằng số hồi quy
  •  B1B2, Bn: hệ số hồi quy
  • εphần dư

Tất cả các nội dung hồi quy tiếp sau đây chỉ nói về hồi quy trên tập dữ liệu mẫu. Do vậy, thuật ngữ sai số sẽ không được đề cập mà chỉ nói về phần dư.

2. Ước lượng hồi quy tuyến tính bằng OLS

Một trong các phương pháp ước lượng hồi quy tuyến tính phổ biến là bình phương nhỏ nhất OLS (Ordinary Least Squares). 

Với tổng thể, sai số (error) ký hiệu là e, còn trong mẫu nghiên cứu sai số lúc này được gọi là phần dư (residual) và được ký hiệu là ε. Biến thiên phần dư được tính bằng tổng bình phương tất cả các phần dư cộng lại. 

Nguyên tắc của phương pháp hồi quy OLS là làm cho biến thiên phần dư này trong phép hồi quy là nhỏ nhất. Khi biểu diễn trên mặt phẳng Oxy, đường hồi quy OLS là một đường thẳng đi qua đám đông các điểm dữ liệu mà ở đó, khoảng cách từ các điểm dữ liệu (trị tuyệt đối của ε) đến đường hồi quy là ngắn nhất.

Từ đồ thị scatter biểu diễn mối quan hệ giữa các biến độc lập và biến phụ thuộc, các điểm dữ liệu sẽ nằm phân tán nhưng có xu hướng chung tạo thành dạng một đường thẳng. Chúng ta có thể có rất nhiều đường đường thẳng hồi quy đi qua đám đông các điểm dữ liệu này chứ không phải chỉ một đường duy nhất, vấn đề là ta phải chọn ra đường thẳng nào mô tả sát nhất xu hướng dữ liệu. Bình phương nhỏ nhất OLS sẽ tìm ra đường thẳng đó dựa trên nguyên tắc cực tiểu hóa khoảng cách từ các điểm dữ liệu đến đường thẳng. Trong hình ở trên đường màu đỏ là đường hồi quy OLS.

3. Phân tích hồi quy tuyến tính bội trên SPSS

Thực hiện phân tích hồi quy tuyến tính bội để đánh giá sự tác động của các biến độc lập này lên biến phụ thuộc. Chúng ta vào Analyze > Regression > Linear…

Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Independents.

Vào mục Statistics, tích chọn các mục như trong ảnh và chọn Continue.

Vào mục Plots, tích chọn vào Histogram và Normal probability plot, kéo biến ZRESID thả vào ô Y, kéo biến ZPRED thả vào ô X như hình bên dưới. Tiếp tục chọn Continue.

Các mục còn lại chúng ta sẽ để mặc định. Quay lại giao diện ban đầu, mục Method là các phương pháp đưa biến vào, tùy vào dạng nghiên cứu mà chúng ta sẽ chọn Enter hoặc Stepwise. Tính chất đề tài thực hành là nghiên cứu khẳng định, do vậy tác giả sẽ chọn phương pháp Enter đưa biến vào một lượt. Tiếp tục nhấp vào OK. 

SPSS sẽ xuất ra rất nhiều bảng, chúng ta sẽ tập trung vào các bảng ANOVA, Model Summary, Coefficients và ba biểu đồ Histogram, Normal P-P Plot, Scatter Plot.

3.1 Bảng ANOVA

Chúng ta cần đánh giá độ phù hợp mô hình một cách chính xác qua kiểm định giả thuyết. Để kiểm định độ phù hợp mô hình hồi quy, chúng ta đặt giả thuyết H0: R2 = 0. Phép kiểm định F được sử dụng để kiểm định giả thuyết này. Kết quả kiểm định:

  • Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê, mô hình hồi quy là phù hợp.
  • Sig > 0.05: Chấp nhận giả thuyết H0, nghĩa là R2 = 0 một cách có ý nghĩa thống kê, mô hình hồi quy không phù hợp.
Trong SPSS, các số liệu của kiểm định F được lấy từ bảng phân tích phương sai ANOVA.

Bảng ANOVA cho chúng ta kết quả kiểm định F để đánh giá giả thuyết sự phù hợp của mô hình hồi quy. Giá trị sig kiểm định F bằng 0.000 < 0.05, do đó, mô hình hồi quy là phù hợp.

3.2 Bảng Model Summary

Các điểm dữ liệu luôn phân tán và có xu hướng tạo thành dạng một đường thẳng chứ không phải là một đường thẳng hoàn toàn. Do đó, hầu như không có đường thẳng nào có thể đi qua toàn bộ tất cả các điểm dữ liệu, luôn có sự sai lệch giữa các giá trị ước tính và các giá trị thực tế. Chúng ta sẽ cần tính toán được mức độ sai lệch đó cũng như mức độ phù hợp của mô hình hồi quy tuyến tính với tập dữ liệu. 

(Bên trái là độ phù hợp mô hình cao, bên phải là độ phù hợp mô hình thấp)

Một thước đo sự phù hợp của mô hình hồi quy tuyến tính thường dùng là hệ số xác định R2 (R square). Khi phần lớn các điểm dữ liệu tập trung sát vào đường hồi quy, giá trị R2 sẽ cao, ngược lại, nếu các điểm dữ liệu phân bố rải rác cách xa đường hồi quy, R2 sẽ thấp. Chỉ số R2 nằm trong bảng Model Summary.

Khi chúng ta đưa thêm biến độc lập vào phân tích hồi quy, R2 có xu hướng tăng lên. Điều này dẫn đến một số trường hợp mức độ phù hợp của mô hình hồi quy bị thổi phồng khi chúng ta đưa vào các biến độc lập giải thích rất yếu hoặc không giải thích cho biến phụ thuộc. Trong SPSS, bên cạnh chỉ số R2, chúng ta còn có thêm chỉ số R2 Adjusted (R2 hiệu chỉnh). Chỉ số R2 hiệu chỉnh không nhất thiết tăng lên khi nhiều biến độc lập được thêm vào hồi quy, do đó R2 hiệu chỉnh phản ánh độ phù hợp của mô hình chính xác hơn hệ số R2

R2 hay R2 hiệu chỉnh đều có mức dao động trong đoạn từ 0 đến 1. Nếu R2 càng tiến về 1, các biến độc lập giải thích càng nhiều cho biến phụ thuộc, và ngược lại, R2 càng tiến về 0, các biến độc lập giải thích càng ít cho biến phụ thuộc. 

Không có tiêu chuẩn chính xác R2 ở mức bao nhiêu thì mô hình mới đạt yêu cầu. Cần lưu ý rằng, không phải luôn luôn một mô hình hồi quy có R2 cao thì nghiên cứu có giá trị cao, mô hình có R2 thấp thì nghiên cứu đó có giá trị thấp, độ phù hợp mô hình hồi quy không có mối quan hệ nhân quả với giá trị của bài nghiên cứu. Trong nghiên cứu lặp lại, chúng ta thường chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu và kỳ vọng từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, điều này không thực sự chính xác bởi việc đánh giá giá trị R2 sẽ phụ thuộc rất nhiều vào các yếu tố như lĩnh vực nghiên cứu, tính chất nghiên cứu, cỡ mẫu, số lượng biến tham gia hồi quy, kết quả các chỉ số khác của phép hồi quy,… 

Trong ví dụ ở trên, bảng Model Summary cho chúng ta kết quả R bình phương (R Square) và R bình phương hiệu chỉnh (Adjusted R Square) để đánh giá mức độ phù hợp của mô hình. Giá trị R bình phương hiệu chỉnh bằng 0.695 cho thấy các biến độc lập đưa vào phân tích hồi quy ảnh hưởng 69.5% sự biến thiên của biến phụ thuộc, còn lại 31.4% là do các biến ngoài mô hình và sai số ngẫu nhiên. 

Kết quả bảng này cũng đưa ra giá trị Durbin–Watson để đánh giá hiện tượng tự tương quan chuỗi bậc nhất. Giá trị DW = 1.849, nằm trong khoảng 1.5 đến 2.5 nên kết quả không vi phạm giả định tự tương quan chuỗi bậc nhất (Yahua Qiao, 2011).

3.3 Bảng Coefficients

Chúng ta sẽ đánh giá hệ số hồi quy của mỗi biến độc lập có ý nghĩa trong mô hình hay không dựa vào kiểm định t (student) với giả thuyết H0: Hệ số hồi quy của biến độc lập Xi bằng 0. Mô hình hồi quy có bao nhiêu biến độc lập, chúng ta sẽ đi kiểm tra bấy nhiêu giả thuyết H0. Kết quả kiểm định:

  • Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là hệ số hồi quy của biến Xi khác 0 một cách có ý nghĩa thống kê, biến X1 có tác động lên biến phụ thuộc.
  • Sig > 0.05: Chấp nhận giả thuyết H0, nghĩa là hệ số hồi quy của biến Xi bằng 0 một cách có ý nghĩa thống kê, biến Xi không tác động lên biến phụ thuộc.

Trong hồi quy, thường chúng ta sẽ có hai hệ số hồi quy: chưa chuẩn hóa (trong SPSS gọi là B) và đã chuẩn hóa (trong SPSS gọi là Beta). Mỗi hệ số hồi quy này có vai trò khác nhau trong việc diễn giải hàm ý quản trị của mô hình hồi quy. Để hiểu khi nào dùng phương trình hồi quy nào, bạn có thể xem bài viết Sự khác nhau giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa

Nếu hệ số hồi quy (B hoặc Beta) mang dấu âm, nghĩa là biến độc lập đó tác động nghịch chiều lên biến phụ thuộc. Ngược lại nếu B hoặc Beta không có dấu (dấu dương), nghĩa là biến độc lập tác động thuận chiều lên biến phụ thuộc. Khi xem xét mức độ tác động giữa các biến độc lập lên biến phụ thuộc, chúng ta sẽ dựa vào trị tuyệt đối hệ số Beta, trị tuyệt đối Beta càng lớn, biến độc lập tác động càng mạnh lên biến phụ thuộc. Xem chi tiết hơn tại bài viết Hệ số hồi quy B, Beta âm trong phân tích SPSS.

Trong SPSS, các số liệu của kiểm định t được lấy từ bảng hệ số hồi quy Coefficients. Cũng lưu ý rằng, nếu một biến độc lập không có ý nghĩa thống kê trong kết quả hồi quy, chúng ta sẽ kết luận biến độc lập đó không có sự tác động lên biến phụ thuộc mà không cần thực hiện loại biến và phân tích lại hồi quy.

Trong ví dụ ở trên, bảng Coefficients cho chúng ta kết quả kiểm định t để đánh giá giả thuyết ý nghĩa hệ số hồi quy, chỉ số VIF đánh giá đa cộng tuyến và các hệ số hồi quy. 

Biến F_DN có giá trị sig kiểm định t bằng 0.777 > 0.05 , do đó biến này không có ý nghĩa trong mô hình hồi quy, hay nói cách khác, biến này không có sự tác động lên biến phụ thuộc F_HL. Các biến còn lại gồm F_LD, F_CV, F_TL, F_DT, F_DK đều có sig kiểm định t nhỏ hơn 0.05, do đó các biến này đều có ý nghĩa thống kê, đều tác động lên biến phụ thuộc F_HL. Hệ số hồi quy các biến độc lập này đều mang dấu dương, như vậy các biến độc lập có tác động thuận chiều lên biến phụ thuộc.

Lưu ý rằng, biến không có ý nghĩa trong hồi quy thì không loại biến đó và chạy lại phân tích, lý do vì sao bạn xem chi tiết tại bài viết Biến không có ý nghĩa ở hồi quy, SEM có cần loại chạy lại không?.

Kết luận giả thuyết:

H1: Tiền lương (F_TN)tác động đến sự hài lòng của nhân viên trong công việc  (Chấp nhận)

H2: Đào tạo và thăng tiến (F_DT) tác động đến sự hài lòng của nhân viên trong công việc (Chấp nhận)

H3: Lãnh đạo (F_LD) tác động đến sự hài lòng của nhân viên trong công việc (Chấp nhận)

H4: Đồng nghiệp (F_DN) tác động đến sự hài lòng của nhân viên trong công việc (Bác bỏ)

H5: Bản chất công việc (F_DN) đến sự hài lòng của nhân viên trong công việc (Chấp nhận)

H6: Điều kiện làm việc (F_DK) tác động đến sự hài lòng của nhân viên trong công việc (Chấp nhận)

Hệ số phóng đại phương sai (VIF) là một chỉ số đánh giá hiện tượng cộng tuyến trong mô hình hồi quy. VIF càng nhỏ, càng ít khả năng xảy ra đa cộng tuyến. Hair và cộng sự (2009) cho rằng, ngưỡng VIF từ 10 trở lên sẽ xảy ra đa cộng tuyến mạnh. Nhà nghiên cứu nên cố gắng để VIF ở mức thấp nhất có thể, bởi thậm chí ở mức VIF bằng 5, bằng 3 đã có thể xảy ra đa cộng tuyến nghiêm trọng. Theo Nguyễn Đình Thọ (2010) , trên thực tế, nếu VIF > 2, chúng ta cần cẩn thận bởi vì đã có thể xảy ra sự đa cộng tuyến gây sai lệch các ước lượng hồi quy. Xem thêm bài viết Đa cộng tuyến: Nguyên nhân, dấu hiệu nhận biết và cách khắc phục.

Cụ thể trong ví dụ ở bảng trên, Hệ số VIF của các biến độc lập đều nhỏ hơn 10, trong trường hợp này thậm chí nhỏ hơn 2, do vậy dữ liệu không vi phạm giả định đa cộng tuyến.

Từ các hệ số hồi quy, chúng ta xây dựng được hai phương trình hồi quy chuẩn hóa và chưa chuẩn hóa theo thứ tự như sau:

Y = 0.322*F_LD + 0.288*F_CV + 0.096*F_TL + 0.076*F_DT + 0.421*F_DK + ε

Y= -0.475 + 0.267*F_LD + 0.259*F_CV + 0.084*F_TL + 0.066*F_DT + 0.393*F_DK + ε

Khi viết phương trình hồi quy, lưu ý rằng: 

  • Không đưa biến độc lập không có ý nghĩa thống kê vào phương trình.
  • Nếu biến độc lập có hệ số hồi quy âm, chúng ta sẽ viết dấu trừ trước hệ số hồi quy trong phương trình. 
  • Nhìn vào phương trình chúng ta sẽ có thể xác định ngay được biến độc lập nào tác động mạnh nhất, mạnh thứ hai,…, yếu nhất lên biến phụ thuộc.
  • Luôn có phần dư ε cuối phương trình hồi quy dù là phương trình chuẩn hóa hay chưa chuẩn hóa.

4. Đánh giá giả định hồi quy qua 3 biểu đồ

4.1 Biểu đồ tần số phần dư chuẩn hóa Histogram

Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như: sử dụng sai mô hình, phương sai không phải là hằng số, số lượng các phần dư không đủ nhiều để phân tích... Vì vậy, chúng ta cần thực hiện nhiều cách khảo sát khác nhau. Một cách khảo sát đơn giản nhất là xây dựng biểu đồ tần số của các phần dư Histogram ngay dưới đây. Một cách khác nữa là căn cứ vào biểu đồ P-P Plot ở mục sau.

Đối với biểu đồ Histogram, nếu giá trị trung bình Mean gần bằng 0, độ lệch chuẩn Std. Dev gần bằng 1, các cột giá trị phần dư phân bố theo dạng hình chuông, ta có thể khẳng định phân phối là xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm. Cụ thể trong ảnh trên, Mean = 5.74E-15 = 5.74 * 10-15 = 0.00000... gần bằng 0, độ lệch chuẩn là 0.991 gần bằng 1. Như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm.

4.2 Biểu đồ phần dư chuẩn hóa Normal P-P Plot

Ngoài cách kiểm tra bằng biểu đồ Histogram, thì P-P Plot cũng là một dạng biểu đồ được sử dụng phổ biến giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.

Đối với biểu đồ Normal P-P Plot, nếu các điểm dữ liệu trong phân phối của phần dư bám sát vào đường chéo, phần dư càng có phân phối chuẩn. Nếu các điểm dữ liệu phân bố xa đường chéo, phân phối càng “ít chuẩn”.

Cụ thể với vị dụ trên, các điểm dữ liệu phần dư tập trung khá sát với đường chéo, như vậy, phần dư có phân phối xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm.

4.3 Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính

Một giả định trong hồi quy là phải có mối liên hệ tuyến tính giữa biến phụ thuộc với các biến độc lập. Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị dự đoán chuẩn hóa giúp chúng ta dò tìm xem dữ liệu hiện tại có vi phạm giả định liên hệ tuyến tính hay không. 


Nếu các điểm dữ liệu phân bố tập trung xung quanh đường tung độ 0 và có xu hướng tạo thành một đường thẳng, giả định liên hệ tuyến tính không bị vi phạm. Cách bố trí của điểm dữ liệu trên đồ thị scatter sẽ tùy thuộc vào bản chất biến phụ thuộc, khi đánh giá, chúng ta cần nhìn tổng quát xu hướng của đám mây điểm dữ liệu.

Phép quay vuông góc Varimax và phép quay không vuông góc Promax

 Bryant and Yarnold (1995) định nghĩa việc xoay nhân tố là một quá trình mà các biến quan sát được xoay trên các trục nhằm đạt tạo ra được cấu trúc nhân tố đơn giản. Cấu trúc đơn giản nghĩa là các biến quan sát sẽ được xoay tới điểm mà ở đó, mỗi biến quan sát chỉ tải mạnh ở một nhân tố, tải rất yếu lên các nhân tố còn lại. Biến quan sát có hệ số tải cao (tải mạnh) tại một nhân tố, nghĩa là biến đó phản ánh tốt đặc điểm của nhân tố, và có hệ số tải thấp (tải yếu) ở các nhân tố khác, nghĩa là biến quan sát liên quan rất ít đến các nhân tố này.

Phép quay Varimax và Promax

Mục đích của EFA là làm giảm số lượng lớn biến quan sát thành số lượng ít nhân tố đại diện để dễ tính toán và phân tích. Nếu không xoay, các biến quan sát có xu hướng tải đều dàn trải ở rất nhiều nhân tố, nói theo kiểm nôm na: “mâm nào cũng có”, không xác định được rốt cục phải xếp biến quan sát đó vào nhân tố nào. Điều này dĩ nhiên không giúp nhà nghiên cứu thu về một số lượng ít nhân tố đại diện cho dữ liệu như mục đích ban đầu.

Khi xoay, từng biến quan sát chỉ tải lên mạnh ở một (hoặc một vài, càng ít càng tốt) nhân tố. Các biến có hệ số tải mạnh cùng nằm ở nhân tố nào sẽ được xếp chung vào cột nhân tố đó, và được đánh giá biến quan sát đó đại diện tốt cho đặc điểm của nhân tố.

Ví dụ ở bảng ma trận xoay bên dưới, 5 biến DT1-DT5 tải lên rất mạnh ở nhân tố số 1 và tải rất yếu lên nhân tố 2, 3; tương tự cho LD1-LD4 tải lên mạnh ở nhân tố 2, tải lên yếu ở nhân tố 1, 3; TL1-TL4 tải mạnh ở nhân tố 3 và tải yếu ở nhân tố 1, 2 ... Như vậy, từ 15 biến quan sát nếu chưa xoay sẽ hình thành thành 15 nhân tố, thì sau khi xoay, 15 biến này được phân vào thành 3 nhân tố. Thay vì ban đầu chúng ta cần đo lường 15 biến quan sát, bây giờ chúng ta chỉ đo 3 nhân tố, điều này đơn giản và tiết kiệm thời gian hơn cho nhà nghiên cứu.

Các phép quay trong phân tích nhân tố khám phá được chia làm 2 nhóm chính: phép quay vuông góc (Orthogonal Methods) gồm Varimax, Equimax, Quartimax và phép quay không vuông góc (Oblique Methods) gồm Promax, Oblimin, Orthoblique. Trong đó phép quay vuông góc Varimax và phép quay không vuông góc Promax được sử dụng phổ biến trong nghiên cứu, tác giả sẽ sử dụng 2 phép quay này đại diện cho 2 nhóm phép quay vuông góc và không vuông góc:

  • Varimax: xoay vuông góc, sau khi quay trục các nhân tố vẫn ở vị trí vuông góc với nhau. Phép quay này giả định rằng các nhân tố không có sự tương quan với nhau. Phép quay vuông góc ứng dụng nhiều ở các đề tài chỉ có hai loại biến độc lập và phụ thuộc 

  • Promax: xoay không vuông góc, sau khi quay trục các nhân tố sẽ di chuyển đến vị trí phù hợp nhất. Phép quay này giả định các nhân tố có sự tương quan với nhau. Phép quay không vuông góc ứng dụng nhiều ở các đề tài có sự xuất hiện của biến trung gian, lúc này sẽ có các biến vừa đóng vai trò độc lập vừa đóng vai trò phụ thuộc.

Cả hai phép xoay đều nhằm mục đích làm cho hệ số tải nhân tố của các biến quan sát sẽ tối đa ở trục nhân tố chúng đo lường và tối thiểu ở các trục nhân tố khác. James (2009) và nhiều nhà nghiên cứu trước đó đã thực hiện các kiểm nghiệm để xem xét sự khác biệt giữa 2 loại phép quay vuông góc và không vuông góc. Kết quả đem lại không có sự khác biệt lớn khi sử dụng 2 loại phép quay này. Chính vì vậy, nhà nghiên cứu có thể sử dụng phép bất cứ quay nào phù hợp để có được cấu trúc ma trận xoay tốt nhất.

Việc xem xét sự tương quan giữa các nhân tố với nhau ở phép quay Promax nói riêng và các phép quay không vuông góc nói chung, dường như phù hợp hơn với phép trích Principal Axis Factoring nhằm khám phá các cấu trúc tiềm ẩn. Với phép quay Varimax và các phép quay vuông góc khác, phù hợp hơn với phép trích Principal Component Analysis, khi mục đích chính là thu gọn số lượng biến quan sát về các nhân tố đại diện với phương sai trích được nhiều nhất.

Nếu sau EFA, chúng ta đi đến phần phân tích nhân tố khẳng định trên các phần mềm SEM, thì việc sử dụng phép quay Promax cùng phép trích PAF sẽ phù hợp hơn. Nếu sau EFA, chúng ta đi đến các phân tích tương quan, hồi quy tuyến tính, phép quay Varimax cùng phép trích PCA là một lựa chọn tốt.

Thống kê mô tả trên SPSS: Thống kê trung bình, min, max, độ lệch chuẩn

 Nếu như thống kê tần số mạnh về phần đưa ra số lượng các giá trị, cơ cấu phần trăm các giá trị của biến thì thống kê trung bình thiên về cung cấp các giá trị tính toán tổng quát của biến như giá trị nhỏ nhất, giá trị lớn nhất, giá trị trung bình, độ lệch chuẩn,… Do kết quả của thống kê trung bình đến từ các phép tính toán, nên các biến được đưa vào thống kê trung bình cần phải là biến định lượng.

Thống kê mô tả trên SPSS

1. Mục đích sử dụng thống kê trung bình

Dựa trên kết quả thống kê trung bình, chúng ta sẽ biết được phạm vi giá trị của biến thông qua giá trị nhỏ nhất/giá trị lớn nhất. Dựa vào đây, chúng ta sẽ đánh giá khoảng giá trị đó có phù hợp với tính chất bài nghiên cứu hay không. Ví dụ, nếu câu hỏi sử dụng thước đo Likert 5 mức độ từ 1 đến 5, nhưng kết quả thống kê trung bình lại cho thấy giá trị nhỏ nhất của câu hỏi là 0 và giá trị lớn nhất là 55. Chúng ta biết được đã có vấn đề trong dữ liệu của mình và cần phải rà soát, xử lý. Giá trị trung bình Mean cho biết trung bình giá trị của biến nằm ở mức độ nào so với ngưỡng giá trị nhỏ nhất, lớn nhất. Ví dụ, câu hỏi A sử dụng thước đo Likert 5 mức độ đồng ý tăng dần từ 1 đến 5 (1 – rất không đồng ý và 5 – rất đồng ý). Kết quả thống kê cho thấy trung bình Mean của A là 1.82, mức điểm này nằm sát giá trị 2 và nhỏ hơn mức 3 trung lập, điều này cho thấy rằng đáp viên không đồng ý với ý kiến của câu hỏi đưa ra.

Thống kê mô tả như thống kê tần số hay thống kê trung bình, chức năng chính của chúng là mô tả đặc điểm dữ liệu một cách khái quát. Các chỉ số thống kê cần dùng cũng như cách đọc kết quả, diễn giải hoàn toàn tùy thuộc vào mục đích, ý đồ của người làm nghiên cứu, không có bất kỳ quy định hay quy tắc ràng buộc cứng nhắc nào về cách nhận xét.

2. Đánh giá điểm trung bình theo thước đo Likert

Likert là loại thước đo thường được sử dụng trong các nghiên cứu kinh tế để đo lường những khái niệm trừu tượng liên quan đến hành vi, thái độ. Thước đo Likert gốc biểu thị cho mức độ đồng ý tăng dần, tuy nhiên, tùy tính chất đề tài nghiên cứu thước đo này có thể được điều chỉnh cho phù hợp. Thước đo Likert có mức giá trị là một số lẻ như 3 mức độ, 5 mức độ, 7 mức độ… với một giá trị trung lập ở giữa chia đều giá trị ở hai phía. 

Ví dụ thước đo Likert-3 có giá trị trung lập là 2 (giữa 1 và 3), thước đo Likert-5 có giá trị trung lập là 3 (giữa 1-2 và 4-5). Phạm vi tài liệu này sẽ giới thiệu phần đánh giá điểm trung bình đối với Likert 5 mức độ đồng ý, các thước đo Likert-3, Likert-7, Likert-9… sẽ áp dụng tương tự. Dưới đây là hai phép đánh giá trung bình theo thước đo Likert được sử dụng phổ biến hiện nay. Thước đo Likert 5 mức độ gồm các giá trị:

Hướng đánh giá 1: Dựa theo quy tắc làm tròn toán học

Theo nguyên tắc toán học, nếu giá trị trung bình làm tròn tới số nguyên đầu tiên gần mức giá trị nào của thước đo Likert nhất, chúng ta sẽ đánh giá nó ở mức giá trị đó.

Chúng ta sẽ có các đoạn giá trị:

  • 1.00 – 1.49 (làm tròn thành 1): Rất không đồng ý
  • 1.50 – 2.49 (làm tròn thành 2): Không đồng ý
  • 2.50 – 3.49 (làm tròn thành 3): Trung lập
  • 3.50 – 4.49 (làm tròn thành 4): Đồng ý
  • 4.50 – 5.00 (làm tròn thành 5): Rất đồng ý

Xét về tính ứng dụng, cách đánh giá này dễ hiểu, dễ nhớ, dễ thực hiện bởi nguyên tắc làm tròn toán học hầu như chúng ta ai cũng đều nắm rõ. Tuy nhiên, việc làm tròn khiến cho hai giá trị nhỏ nhất là 1 và lớn nhất là 5 có mức giá trị dao động nhỏ hơn so với ba giá trị còn lại. Ví dụ, từ 1.00 đến 1.49, phạm vi dao động giá trị là 0.49, trong khi đó từ 1.50 đến 2.49, mức dao động lên tới 0.99.

Hướng đánh giá 2: Dựa theo giá trị khoảng cách

Chia thước đo Likert 5 mức độ đồng ý thành 5 phần đều nhau và phân phối mỗi phần tương ứng với một giá trị của thước đo:

Giá trị khoảng cách = (Maximum – Minimum) / 5 = (5-1)/5 = 0.8

Chúng ta sẽ có các đoạn giá trị:

  • 1.00 – 1.80 (làm tròn thành 1): Rất không đồng ý
  • 1.81 – 2.60 (làm tròn thành 2): Không đồng ý
  • 2.61 – 3.40 (làm tròn thành 3): Trung lập
  • 3.41 – 4.20 (làm tròn thành 4): Đồng ý
  • 4.21 – 5.00 (làm tròn thành 5): Rất đồng ý

Với hướng đánh giá thứ hai, dễ dàng thấy được các đoạn giá trị được chia đều nhau, tạo nên sự cân bằng giữa từng mức đánh giá. Nhưng nhược điểm lại là cách chia đoạn giá trị tương đối phức tạp, khó nhớ. Một nhược điểm khác đó là khi chúng ta đã quá quen thuộc với quy tắc làm tròn toán học sẽ gặp nhiều bối rối khi nhận xét kết quả. Ví dụ, giá trị 1.80 theo hướng đánh giá thứ hai sẽ được làm tròn thành 1, trong khi theo nguyên tắc làm tròn toán học thì nó sẽ bằng 2.

3. Thống kê trung bình trên SPSS 26

Mình sẽ thống kê trên một tệp dữ liệu mẫu với các biến định lượng được đo bằng thang đo Likert 5 mức độ. Từ giao diện SPSS, vào Analyze > Descriptive Statistics > Descriptives…

Thống kê trung bình SPSS

Tại cửa sổ Descriptives, đưa các biến cần thống kê trung bình vào mục Variable(s), có thể đưa cùng lúc nhiều biến vào thực hiện thống kê. Trong hướng dẫn này, tác giả sẽ thực hành mẫu với nhóm biến Tiền lương (từ TL1 đến TL4) nên tác giả sẽ đưa các biến này vào mục Variable(s)

 Thống kê trung bình SPSS

Bên phải có các mục Options, Style và Bootstrap để chúng ta lựa chọn loại thống kê trung bình cũng như định dạng kết quả xuất ra. Tuy nhiên, thường chúng ta chỉ sử dụng đến mục Options

 Thống kê trung bình SPSS

Trong Options, có các loại thống kê để chúng ta lựa chọn tùy theo mục đích đánh giá, SPSS thiết lập mặc định các mục trong phần này gồm:

  • Mean: giá trị trung bình
  • Std. deviation: độ lệch chuẩn. Xem thêm: Độ lệch chuẩn bao nhiêu thì chấp nhận được?
  • Minimum: giá trị nhỏ nhất
  • Maximum: giá trị lớn nhất

Tác giả không tích vào thống kê nào thêm mà chỉ sử dụng mặc định SPSS đề xuất. Nhấp chuột vào Continue để quay lại cửa sổ ban đầu, nhấp vào OK để xuất kết quả ra output.

Chúng ta sẽ đọc kết quả ở bảng Descriptive Statistics. N là cột cần quan tâm trước nhất để xem có dữ liệu giá trị khuyết Missing hay không, nếu có Missing Value thì giá trị N này sẽ khác với cỡ mẫu. Tiếp tục nhìn vào kết quả giá trị nhỏ nhất, lớn nhất để xem có tình trạng giá trị vượt ngoài giới hạn thang đo hay không. Hai giá trị còn lại là trung bình và độ lệch chuẩn thường sẽ đi theo kết quả của giá trị nhỏ nhất, lớn nhất. Nếu có tình trạng giá trị vượt ngoài thang điểm đánh giá, giá trị trung bình và độ lệch chuẩn sẽ có sự đột biến.

Thống kê trung bình SPSS

Để đọc kết quả một cách trực quan hơn, với thống kê trung bình, chúng ta nên đưa nội dung câu hỏi vào bảng kết quả và tùy chỉnh lại bảng như bên dưới.

Thống kê trung bình SPSS

Đọc kết quả theo hướng đánh giá thứ nhất (làm tròn toán học), giá trị trung bình của TL2, TL3 xấp xỉ bằng 3, như vậy đáp viên có ý kiến trung lập với quan điểm “Phân phối công bằng tiền lương, thưởng và phụ cấp theo đóng góp của nhân viên” và “Chính sách tăng lương của công ty hợp lý”. Giá trị trung bình của TL1, TL4 xấp xỉ 4, như vậy đáp viên có xu hướng đồng ý với các quan điểm “Anh/Chị được trả lương tương xứng với kết quả làm việc của mình”, “Mức lương hiện tại của Anh/Chị phù hợp so với mặt bằng chung của thị trường lao động”. 

Nhìn chung, kết quả này cho thấy rằng công ty đang có chính sách về Tiền lương khá tốt khi nhân viên đều cảm thấy tương đối hài lòng với mức lương họ được nhận, về chính sách tăng lương, phân phối lương giữa các nhân viên.

PHƯƠNG PHÁP ĐỊNH LƯỢNG'S BLOG GỬI LỜI CẢM ƠN CHÂN THÀNH TỚI CÁC BẠN HỌC VIÊN, BẠN BÈ, ĐỒNG NGHIỆP, KHÁCH HÀNG ĐÃ ỦNG HỘ CHÚNG TÔI!