DỊCH VỤ CHUYÊN NGHIỆP TẬN TÂM

XỬ LÝ SỐ LIỆU SPSS, EVIEWS, STATA, HỖ TRỢ NGHIÊN CỨU THẠC SĨ

Tính hợp lí của phân tích nhân tố

Xác định tính hợp lý của phân tích nhân tố là bước thứ 6 trong quy trình 7 bước giải thích ma trận nhân tố. Tính hợp lí của phân tích nhân tố liên quan đến việc đánh giá mức độ tổng quát hóa của các kết quả với tổng thể và ảnh hưởng tiềm ẩn của các quan sát riêng rẽ lên các kết quả chung.
 
Các vấn đề khái quát hóa là rất quan trọng đối với các phương pháp phân tích đa biến, nhưng nó đặc biệt thích hợp cho các phương pháp phân tích mối quan hệ phụ thuộc lẫn nhau vì nó mô tả một cấu trúc dữ liệu có thể đại diện tốt cho tổng thể. Trong quá trình xác nhận, các nhà nghiên cứu phải giải quyết một số vấn đề liên quan trong thiết kế nghiên cứu cũng như đặc tính của dữ liệu.
Cách trực tiếp nhất để đánh giá kết quả là hướng tới khía cạnh xác nhận và đánh giá kết quả thay thế thông qua việc tách mẫu hoặc sử dụng mẫu dữ liệu khác. Theo khía cạnh xác nhận thì có thể sử dụng phương pháp nhân tố khẳng định CFA thông qua mô hình phương trình cấu trúc (Structural Equation Modelling – SEM) để đánh giá sự tương ứng giữa các ma trận nhân tố.
Tính ổn định của cấu trúc nhân tố phụ thuộc chủ yếu vào cở mẫu và tỉ lệ số quan sát trên mỗi biến. Các nhà nghiên cứu luôn được khuyến cáo sử dụng mẫu lớn nhất có thể và xây dựng một mô hình tinh gọn để gia tăng tỉ lệ số quan sát trên mỗi biến. Nếu cở mẫu cho phép thì có thể chia mẫu ngẫu nhiên thành hai mẫu con và ước lượng mô hình nhân tố cho mỗi mẫu con này. Việc so sánh kết quả hai ma trận nhân tố sẽ cho biết tính vững của phương pháp.
Về việc phát hiện các quan sát ảnh hưởng: nhà nghiên cứu được khuyên là ước lượng mô hình có và không có các quan sát ảnh hưởng để đánh giá tác động của chúng lên kết quả. Nếu sự bỏ sót của các điểm dị biệt là hợp lý thì các kết quả sẽ khả năng khái quát hơn.
Bước 7: sử dụng các kết quả phân tích nhân tố
Tùy thuộc vào mục đích áp dụng phân tích nhân tố mà chúng ta có thể dừng ở việc giải thích nhân tố hoặc phân tích sâu hơn. Nếu mục tiêu đơn giản là xác định kết hợp tuyến tính hợp lý của các biến và hiểu nhiều hơn về cấu trúc giữa các biến trong tập dữ liệu thì chỉ giải thích nhân tố là đủ. Tuy nhiên, nếu mục tiêu là xây dựng các biến phù hợp để thực hiện các phân tích thống kê khác sau này thì có thể sử dụng một số dạng dữ liệu rút gọn sau:
·         Lựa chọn các biến có các hệ số tải cao nhất làm đại diện thay thế cho một nhân tố (chiều) cụ thể
·         Thay thế tập biến ban đầu bằng một biến mới được tính từ các thang đo lấy tổng (sumated scales) hoặc điểm nhân tố (factor scores)
Cách tiếp cận lựa chọn một biến có hệ số tải cao nhất làm biến đại diện cho nhân tố là đơn giản và trực tiếp, tuy nhiên, trong nhiều trường hợp việc lựa chọn sẽ gặp nhiều khó khăn, nhất là khi nhân tố gồm hai hay nhiều biến có hệ số tải xấp xỉ biến có hệ số tải cao nhất. Trong trường hợp này, nhà nghiên cứu nên chọn biến phù hợp với lý thuyết làm đại diện trước. Một số khác đề nghị sử dụng một biến có hệ số tải hơi thấp hơn làm biến đại diện bởi nó cho thấy độ tin cậy hơn so với biến có hệ số tải cao nhất (Hair và cộng sự, 2014 tr.121). Phương pháp này mặc dù là đơn giản và giữ lại được biến gốc nhưng tồn tại một vài vấn đề tiềm ẩn sau:
·         Không xét đến các sai số đo lường khi chỉ sử dụng duy nhất một biến làm đại diện.
·         Rủi ro chọn nhầm biến đại diện hoặc đại diện không tốt cho các khái niệm phức tạp.
Trong trường hợp tồn tại nhiều hệ số tải cao làm phức tạp việc lựa chọn một biến duy nhất làm đại diện, các nhà nghiên cứu có thể sử dụng kết quả phân tích nhân tố làm cơ sở để tính toán thang đo lấy tổng hoặc điểm nhân tố thay vì sử dụng một biến có hệ số tải cao làm đại diện.
Thang đo lấy tổng được tính bằng cách kết hợp các biến riêng rẽ có hệ số tải nhân tố cao và tổng hoặc phổ biến hơn là chỉ số trung bình của các biến được sử dụng như là một biến thay thế. Một thang đo lấy tổng hợp có 2 ưu điểm lớn như sau:
·         Khắc phục phần nào đó sai số đo lường. Sai số đo lường (measurement error) là mức độ mà các giá trị quan sát được không thể hiện được các giá trị thực tế bởi nhiều nguyên nhân từ các sai số thực tế (do nhập liệu chẳng hạn) đến việc người được hỏi không cung cấp các thông tin chính xác. Bằng cách lấy trung bình giá trị các biến, sai số đo lường có thể xảy ra trong một câu hỏi riêng rẻ có thể sẽ được giảm.
·         Tăng khả năng thể hiện nhiều khía cạnh của khái niệm. Thang đo lấy tổng hợp kết hợp nhiều biến quan sát vào một thang đo riêng rẽ đại diện cho những gì xảy ra chung cho toàn bộ các biến.
Việc xây dựng các thang đo lấy tổng trong một số ngành cần phải dựa trên nền tảng lý thuyết và thực nghiệm như tâm lý , xã hội, marketing. Hair và cộng sự (2014, tr.122) có đề cập đến bốn vấn đề cơ bản trong xây dựng bất kì một thang đo lấy tổng nào, đó là: định nghĩa khái niệm, tính đơn hướng, độ tin cậy và tính giá trị.
·         Định nghĩa khái niệm (concept definition) là bước đầu tiên khi tạo bất kì thang đo lấy tổng nào. Nó xác định lý thuyết cơ bản cho thang đo lấy tổng bằng cách định nghĩa khái niệm được thể hiện trong bối cảnh nghiên cứu. Trong các nghiên cứu học thuật, các định nghĩa được dựa trên các nghiên cứu trước là xác định đặc tính tự nhiên của một khái niệm.
·         Giá trị nội dung (content validity) được đánh giá thông qua sự kết nối giữa các biến quan sát với khái niệm định nghĩa của nó thông qua các đánh giá chuyên gia, kiểm chứng với các nhóm mẫu khác. Giá trị nội dung của một thang đo là “dạng giá trị mang tính định tính, trong đó nội dung của một khái niệm được trình bày rõ ràng để xác định được thang đo có bao phủ đầy đủ nội dung khái niệm không” (Nguyễn Đình Thọ, 2011 tr.297 trích trong Bollen 1989, tr.185). Mục tiêu là để đảm bảo việc lựa chọn các biến thành phần của thang đo có thể mở rộng các vấn đề thực nghiệm quá khứ, cũng như bổ sung vào lý thuyết và xem xét thực tại.
·         Tính đơn hướng: một giả định quan trọng và bắt buộc để tạo một thang đo lấy tổng là các biến thành phần phải đơn hướng (unidimensional), nghĩa là chúng phải có tương quan mạnh với nhau và cùng nhau thể hiện một khái niệm. Hay nói cách khác, tính đơn hướng của một thang đo nói lên mỗi khái niệm ẩn chỉ được đo lường bởi một tập các biến quan sát chỉ đo lường mà thôi. Phân tích nhân tố đóng vai trò quan trọng trong việc đưa ra một đánh giá thực nghiệm theo chiều của các biến thành phần bằng cách xác định số nhân tố và các hệ số tải của mỗi biến lên nhân tố. Kiểm định về tính đơn hướng là mỗi thang đo lấy tổng phải bao gồm các hệ số tải cao lên mỗi nhân tố. Nhà nghiên cứu cũng có thể đánh giá tính đơn hướng của thang đo thông qua phân tích nhân tố khẳng định (CFA) sẽ được bàn ở phần sau.
  Độ tin cậy: đánh giá sự tin cậy của các cách đo lường biến. Một dạng kiểm tra độ tin cậy là kiểm tra – kiểm tra lại (test – retest) bằng cách đo lường phản hồi của cùng một đối tượng ở hai thời điểm khác nhau. Mục tiêu là đảm bảo rằng các phản hồi không thay đổi giữa hai thời điểm để kết quả nhận được là tin cậy. Cách đo lường thứ hai, cũng là cách phổ biến hơn là đánh giá qua độ tin cậy bên trong (internal consistency) để đánh giá độ tin cậy giữa các biến thành phần trong một thang đo lấy tổng. Tính hợp lý của độ tin cậy bên trong là các thang đo thành phần cùng đo lường một khái niệm và chúng tương quan chặt chẽ với nhau. Bởi vì một biến thành phần không thể đo lường một khái niệm[1], do vậy, chúng ta phải dựa vào một số chuẩn đoán sau để đánh giá độ tin cậy bên trong:

  • Đầu tiên là xem xét mối quan hệ giữa các biến thành phần riêng rẽ, bao gồm: tương quan biến tổng (item-to-total correlation) – cho biết sự tương quan của mỗi biến đối với thang đo lấy tổng và tương quan giữa các biến (inner-item correlation). Quy tắc kinh nghiệm đề nghị rằng giá trị tương quan biến tổng phải lớn hơn 0.50 và tương quan giữa các biến phải lớn hơn 0.30 [31] (Hair và cộng sự, 2014 tr.123).
  • Tiếp đến là xem xét hệ số tin cậy (reliability coefficient) – đánh giá độ tin cậy của toàn bộ thang đo, trong đó hệ số Cronbach’s alpha là được sử dụng phổ biến nhất. Thông thường, giá trị hệ số Cronbach’s alpha lớn hơn 0.70 là phù hợp [31, 32], mặc dù trong một số nghiên cứu khám phá giá trị trên 0.60 có thể được chấp nhận. Một vấn đề liên quan đến Cronbach’s alpha là nó tương quan dương với số biến thành phần. Khi số biến thành phần tăng (mặc dù cùng mức độ tương quan giữa các biến) thì làm tăng giá trị độ tin cậy.
  • Chúng ta có thể sử dụng CFA để đánh giá độ tin cậy tổng hợp (composite reliability) và giá trị trung bình phương sai trích được (average variance extracted).

  Giá trị (validity): bên cạnh giá trị nội dung thì giá trị của thang đo lấy tổng còn được đo lường thực nghiệm bằng sự tương quan với lý thuyết được xác định bởi tập biến. Giá trị của một thang đo cho biết khả năng thang đo đó có đo lường được những gì chúng ta muốn đo hay không. Ba tiêu chí đánh giá được sử dụng rộng rãi của giá trị là: giá trị hội tụ (convergent), giá trị phân tán (discriminant) và giá trị lý luận (nomological).

  • Giá trị hội tụ đánh giá mức độ tương quan của hai cách đo lường cho cùng một khái niệm. Ở đây, nhà nghiên cứu tìm một cách khác để đo lường khái niệm và sau đó tính sự tương quan với thang đo lấy tổng. Các giá trị tương quan cao cho thấy thang đo đo lường tốt khái niệm dự định.
  • Giá trị phân biệt đánh giá mức độ phân biệt giữa hai khái niệm lý thuyết giống nhau. Sự dụng kiểm định tương quan để phân tích mối quan hệ giữa hai thang đo lấy tổng giống nhau nhưng đo lường hai khái niệm khác nhau. Giá trị tương quan nhỏ cho biết thang đo lấy tổng này đủ khác so với khái niệm tương tự.
  • Giá trị lý luận đề cập đến mức độ mà một thang đo lấy tổng tạo ra những dự báo chính xác cho các khái niệm khác trong một mô hình dựa trên lý thuyết. Nhà nghiên cứu phải xác định lý thuyết hỗ trợ các mối quan hệ từ các nghiên cứu trước và đánh giá liệu thang đo có phù hợp với các mối quan hệ này. Hay nói đơn giản là giá trị lý luận cho biến mức độ một thang đo mô tả các mối quan hệ đã tồn tại dựa trên lý thuyết hoặc nghiên cứu trước.

[1] Ở đây, đề cập đến khái niệm đơn hướng. Để kiểm tra độ tin cậy bên trong của các khái niệm đa hướng thì chúng ta phải lần lượt kiểm tra riêng rẽ các khái niệm con của khái niệm đa hướng này. Theo đó, để khái niệm đa hướng đảm bảo được độ tin cậy bên trong thì các khái niệm thành phần của nó phải là khái niệm đơn hướng.

HỒI QUY VÀ DÒ TÌM CÁC VI PHẠM GIẢ ĐỊNH HỒI QUY TRONG SPSS

 

Trong một bài nghiên cứu, một bài luận văn, bước chạy hồi quy SPSS cho phần nghiên cứu định lượng là cực kỳ quan trọng.  Nó giúp xác định được nhân tố nào đóng góp nhiều/ít/không đóng góp vào sự thay đổi của biến phụ thuộc, để từ đó đưa ra các giải pháp cần thiết và kinh tế nhất.

Về cách chạy hồi quy trong SPSS ở các nghiên cứu sử dụng phân tích định lượng, đã có nhiều tác giả hướng dẫn trên Internet, và mình cũng đã làm một video về thực hiện Tương quan Pearson và Hồi quy tuyến tính, nếu các bạn chưa xem có thể click vào đây để tìm hiểu. 

Nội dung video của mình cũng như đa phần các bài viết khác đều đi vào những phân tích cơ bản, với lượng phân tích đó đã khá đầy đủ để bạn trình bày vào bài nghiên cứu của mình, đặc biệt là ở các bài luận thuộc phạm vi tiểu luận, khóa luận, báo cáo cấp độ sinh viên. Riêng đối với các đề tài về nghiên cứu khoa học, luận văn thạc sĩ, cao học, nghiên cứu cần sử dụng một số phân tích sâu hơn, sau khi phân tích, các bạn cần thực hiện dò tìm xem thử các giả định hồi quy có bị vi phạm hay không. Bài viết này mình sẽ hướng dẫn cho các bạn thực hiện chạy hồi quy trong SPSS và dò tìm sự vi phạm các giả định cần thiết trong hồi quy tuyến tính

Mình có một bộ dữ liệu SPSS đã thực hiện xong các kiểm định Cronbach Alpha và EFA, mình cũng đã tạo các biến đại diện cho từng nhóm nhân tố sau EFA để đi vào thực hiện hồi quy, nếu bạn nào chưa rõ cách tạo giá trị đại diện nhân tố trong SPSS thì xem ở đây. Các biến độc lập và phụ thuộc của mình bao gồm:

  • Biến độc lập: F_NT, F_NTi, F_KSD, F_DM, F_KST, F_GT
  • Biến phụ thuộc: F_YD

cach-chay-hoi-quy-trong-spss2

Thực hiện phân tích hồi quy tuyến tính bội, vào Analyze > Regression > Linear:

cach-chay-hoi-quy-trong-spss2

Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Indenpendents:

Vào mục Statistics, tích chọn các mục như trong ảnh và click Continue:

cach-chay-hoi-quy-trong-spss-4

Vào mục Plots, tích chọn các mục như trong ảnh và click Continue. Mục Plots sẽ xuất ra các biểu đồ phục vụ cho việc kiểm tra vi phạm các giả định hồi quy.

cach-chay-hoi-quy-trong-spss-5

Tiếp tục tại mục Save, các bạn chọn các mục như ảnh rồi click Continue:

cach-chay-hoi-quy-trong-spss-6

Các mục còn lại để mặc định. Không thay đổi các tùy chỉnh trong đó nhé. Rồi, quay lại giao diện ban đầu, mục Method, các bạn có thể chọn 2 phương pháp phổ biến nhất là Stepwise và Enter, thường thì sẽ chọn Enter. Bạn nào muốn tìm hiểu sau khi nào chạy phương pháp nào các bạn tìm mua bộ sách "Phân tích dữ liệu nghiên cứu với SPSS" của thầy Hoàng Trọng và cô Mộng Ngọc nhé. Chọn xong phương pháp, các bạn nhấp vào OK:

cach-chay-hoi-quy-trong-spss-6

SPSS sẽ xuất ra rất nhiều bảng, những bảng các bạn cần sử dụng là:

1. Bảng Model Summary

cach-chay-hoi-quy-trong-spss-6

Trong bảng này, các bạn quan tâm 2 giá trị: Adjusted R Square (hoặc R Square)   Durbin-Watson.

Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó phản ánh mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc. Cụ thể trong trường hợp này, 6 biến độc lập đưa vào ảnh hưởng 67.2% sự thay đổi của biến phụ thuộc, còn lại 32.8% là do các biến ngoài mô hình và sai số ngẫu nhiên. Thường thì giá trị này từ 50% trở lên là nghiên cứu có thể sử dụng. Mình nhấn mạnh là thường nha các bạn, chứ không có ai quy định cả.

 

cach-chay-hoi-quy-trong-spss-10

Durbin-Watson (DW) dùng để kiểm định tự tương quan của các sai số kề nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị biến thiên trong khoảng từ 0 đến 4; nếu các phần sai số không có tương quan chuỗi bậc nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); nếu giá trị càng nhỏ, gần về 0 thì các phần sai số có tương quan thuận; nếu càng lớn, gần về 4 có nghĩa là các phần sai số có tương quan nghịch. Lưu ý, cái này là giá trị ước lượng thường dùng trong SPSS chứ không chính xác. Nếu bạn yêu cầu tính chính xác, bạn cần tra hệ số Durbin-Watson ở đây. Không có tự tương quan chuỗi bậc nhất thì dữ liệu thu thập là tốt. Cụ thể trong trường hợp này, k' = 6, n = 125, tra bảng DW ta có dL = 1.651 và dU = 1.817Gắn vào thanh giá trị DW, ta thấy 1.817 < 1.881 < 2.183, như vậy, không có sự tương quan chuỗi bậc nhất trong mô hình.

chay-hoi-quy-spss-3

2. Bảng ANOVA

chay-hoi-quy-spss-1

Xây dựng xong một mô hình hồi quy tuyến tính, vấn đề quan tâm đầu tiên của bạn phải là xem xét độ phù hợp của mô hình đối với tập dữ liệu qua giá trị Adjusted R Square (hoặc R Square)  như đã trình bày ở mục 1. Nhưng cần nhớ rằng, sự phù hợp này mới chỉ thể hiện giữa mô hình bạn xây dựng được với tập dữ liệu là MẪU NGHIÊN CỨU.

Tổng thể rất lớn, chúng ta không thể khảo sát hết toàn bộ, nên thường trong nghiên cứu, chúng ta chỉ chọn ra một lượng mẫu giới hạn để tiến hành điều tra, từ đó suy ra tính chất chung của tổng thể. Mục đích của kiểm định F trong bảng ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến tính này có suy rộng và áp dụng được cho tổng thể hay không.

Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05. Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể.

3. Bảng Coefficients

chay-hoi-quy-spss-2

Trước khi đi vào tìm hiểu các giá trị trong bảng này, mình sẽ nói một ít về thắc mắc của khá nhiều bạn: Sử dụng hệ số hồi quy nào mới là đúng, chuẩn hóa hay chưa chuẩn hóa? Sao lại có bài dùng phương trình hồi quy chuẩn hóa, bài lại dùng hồi quy chưa chuẩn hóa? Có giảng viên yêu cầu viết phương trình chuẩn hóa, giảng viên lại buộc viết phương trình chưa chuẩn hóa?

Để hiểu khi nào dùng phương trình nào, các bạn vui lòng xem bài viết Sự khác nhau giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa. Riêng phần giảng viên, các thầy cô yêu cầu viết dạng phương trình gì thì các bạn trình bày vào bài làm dạng đó nhé.

Với dạng đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo Likert + chạy phân tích định lượng SPSS thì các bạn nên sử dụng phương trình hồi quy chuẩn hóa, lý do tại sao thì mình vừa dẫn bài viết cho các bạn đọc ngay ở trên rồi. Như vậy, bảng Coefficients, những mục các bạn cần lưu ý gồm cột Hệ số hồi quy chuẩn hóa Beta, cột giá trị Sig, cột VIF.

Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng 0.05 có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn 0.05, biến độc lập đó cần được loại bỏ.

Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các bạn nên chú trọng nhiều vào các nhân tố có Beta lớn.

Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến. Theo lý thuyết nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng tuyến. Tuy nhiên trên thực tế với các đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo Likert thì VIF < 2 sẽ không có đa cộng tuyến, trường hợp hệ số này lớn hơn hoặc bằng 2, khả năng cao đang có sự đa cộng tuyến giữa các biến độc lập.

Với dữ liệu mình đang chạy, như các bạn thấy sig hệ số hồi quy của các biến độc lập đều nhỏ hơn hoặc bằng 0.05, do đó các biến độc lập này đều có ý nghĩa giải thích cho biến phụ thuộc, không biến nào bị loại bỏ. Hệ số VIF nhỏ hơn 2 do vậy không có đa cộng tuyến xảy ra.

Riêng cột Tolerance, các bạn sẽ thấy một số bài nghiên cứu, tài liệu sử dụng hệ số này để kiểm tra đa cộng tuyến. Nhưng ở đây mình không dùng, bởi vì hệ số này là nghịch đảo của VIF, nên các bạn có thể sử dụng 1 trong 2, cái nào cũng được, thường mọi người hay dùng VIF hơn.

4. Biểu đồ tần số phần dư chuẩn hóa Histogram

Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như: sử dụng sai mô hình, phương sai không phải là hằng số, số lượng các phần dư không đủ nhiều để phân tích... Vì vậy, chúng ta cần thực hiện nhiều cách khảo sát khác nhau. Một cách khảo sát đơn giản nhất là xây dựng biểu đồ tần số của các phần dư Histogram ngay dưới đây. Một cách khác nữa là căn cứ vào biểu đồ P-P Plot ở mục số 5 sẽ tìm hiểu sau mục này.

phan-tich-hoi-quy-spss-2

Từ biểu đồ ta thấy được, một đường cong phân phối chuẩn được đặt chồng lên biểu đồ tần số. Đường cong này có dạng hình chuông, phù hợp với dạng đồ thị của phân phối chuẩn. Giá trị trung bình Mean gần bằng 0, độ lệch chuẩn là 0.976 gần bằng 1, như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn. Do đó, có thể kết luận rằng: Giả thiết phân phối chuẩn của phần dư không bị vi phạm.

5. Biểu đồ phần dư chuẩn hóa Normal P-P Plot

Như mình đã đề cập ở mục 4, ngoài cách kiểm tra bằng biểu đồ Histogram, thì P-P Plot cũng là một dạng biểu đồ được sử dụng phổ biến giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.

phan-tich-hoi-quy-spss-2

Với P-P Plot (hoặc bạn có thể dùng Q-Q Plot, 2 đồ thị này không khác nhau nhiều), các điểm phân vị trong phân phối của phần dư sẽ tập trung thành một đường chéo nếu phần dư có phân phối chuẩn. Hay nói một cách đơn giản, dễ hiểu, các bạn nhìn vào đồ thị này, các chấm tròn tập trung thành dạng một đường chéo thì sẽ không vi phạm giả định hồi quy về phân phối chuẩn phần dư.

Cụ thể với dữ liệu mình đang sử dụng, các điểm phân vị trong phân phối của phần dư tập trung thành 1 đường chéo, như vậy, giả định phân phối chuẩn của phần dư không bị vi phạm.

6. Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính

Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị dự đoán chuẩn hóa giúp chúng ta dò tìm xem, dữ liệu hiện tại có vi phạm giả định liên hệ tuyến tính hay không. Trong bài viết này, mình biểu diễn giá trị phần dư chuẩn hóa (Standardized Residual) ở trục hoành và giá trị dự đoán chuẩn hóa (Predicted Value) ở trục tung. Các bạn phải thực sự chú ý chỗ này, bởi vì có nhiều tài liệu, sách biểu diễn ngược lại với mình nên khi nhận xét sẽ có vài điểm thay đổi giữa mỗi tác giả khác nhau. 

phan-tich-hoi-quy-spss-3

 

Kết quả đồ thị xuất ra, các điểm phân bố của phần dư nếu có các dạng: đồ thị Parabol, đồ thị Cubic,.. hay các dạng đồ thị khác không phải đường thẳng thì dữ liệu của bạn đã vi phạm giả định liên hệ tuyến tính. Nếu giả định quan hệ tuyến tính được thỏa mãn thì phần dư phải phân tán ngẫu nhiên trong một vùng xung quanh đường hoành độ 0 (trường hợp mình đang biểu diễn phần dư chuẩn hóa Standardized Residual ở trục hoành; trường hợp nếu các bạn biểu diễn giá trị này ở trục tung thì phải xem xét phân bố phần dư có tập trung quanh đường tung độ 0 hay không).

 

Cụ thể với tập dữ liệu mình đang sử dụng, phần dư chuẩn hóa phân bổ tập trung xunh quanh đường hoành độ 0, do vậy giả định quan hệ tuyến tính không bị vi phạm.

 

7. Tương quan Spearman kiểm tra giả định phương sai của sai số không đổi

 

Phần này sẽ không hiển thị ở kết quả output mà các bạn cần chạy tương quan Spearman. Bây giờ các bạn quay lại phần dữ liệu SPSS, một cột mới có tên là RES_1 xuất hiện, đây chính là cột phần dư chuẩn hóa.

 

phan-tich-hoi-quy-spss-4.png

 

Chúng ta thực hiện tính trị tuyệt đối phần dư chuẩn hóa. Các bạn vào Transform > Compute Variable

 

phan-tich-hoi-quy-spss-4.png

Giao diện Compute Variable hiện ra, các bạn đặt tên biến ở mục Target Variable, cái này các bạn muốn đặt tên gì cũng được, giống như đặt tên biến khi nhập liệu SPSS thôi. Bên khung nhập hàm Numeric Expression, các bạn nhập vào hàm ABS(RES_1), trong đó ABS là hàm tính trị tuyệt đối, RES_1 là biến phần dư chuẩn hóa. 

phan-tich-hoi-quy-spss-4.png

Xong xuôi hết, các bạn nhấp vào OK. Quay lại giao diện data SPSS, các bạn sẽ thấy xuất hiện thêm một cột nữa là ABSRES, cột này chính là biến được tạo ra từ bước tính trị tuyệt đối phần dư.

phan-tich-hoi-quy-spss-7

Chúng ta đã xong dữ liệu cần thiết. Tiến hành thực hiện kiểm định tương quan Spearman. Các bạn vào Analyze > Correlate > Bivariate:

phan-tich-hoi-quy-spss-8

Đưa biến ABSRES và các biến độc lập vào (nên đưa ABSRES lên trên cùng để dễ nhìn và nhận xét bảng kết quả). Bỏ tích ở mục Pearson, tích vào mục Spearman:

phan-tich-hoi-quy-spss-9

Các bạn tới file Ouput, sẽ có bảng tương quan Spearman như hình dưới, các bạn nhìn vào hàng Sig đầu tiên mình tô đỏ như trong hình.

phan-tich-hoi-quy-spss-10

Sig mối tương quan Spearman giữa trị tuyệt đối phần dư chuẩn hóa với từng các biến độc lập đều lớn hơn 0.05. Như vậy, giả định phương sai của sai số thay đổi không bị vi phạm.

Như vậy là phần hướng dẫn hồi quy và dò tìm các vi phạm giả định khi hồi quy của mình đã hoàn thành. Các bạn khi làm bài và trình bày, nên tham khảo thêm ý kiến giảng viên trực tiếp hướng dẫn để xem thử nên đưa những phần nào vào bài làm.

Bài viết tham khảo tư liệu từ nhiều nguồn, đặc biệt là sách Phân tích dữ liệu nghiên cứu với SPSS - Tập 1 của Hoàng Trọng, Chu Nguyễn Mộng Ngọc. Mình xin gởi lời cám ơn chân thành tới các tác giả. Chúc các bạn, các anh/chị làm bài tốt.

PHƯƠNG PHÁP ĐỊNH LƯỢNG'S BLOG GỬI LỜI CẢM ƠN CHÂN THÀNH TỚI CÁC BẠN HỌC VIÊN, BẠN BÈ, ĐỒNG NGHIỆP, KHÁCH HÀNG ĐÃ ỦNG HỘ CHÚNG TÔI!