Quy Trình Nghiên Cứu – Phần 7: Diễn Giải Kết Quả Là Nơi Hầu Hết Nghiên Cứu Thầm Lặng Sụp Đổ

Diễn giải kết quả thường bị xem là một kỹ năng mềm.

Thứ gì đó xảy ra sau khi "công việc thực sự" đã hoàn tất. Nhưng thực ra, diễn giải chính là nơi ý nghĩa của một nghiên cứu được bảo toàn—hoặc bị bóp méo.

Nhiều bài báo có vấn đề không phải vì phương pháp sai. Chúng sai ở chỗ tác giả tuyên bố kết quả có nghĩa gì.

Đúng về mặt thống kê không có nghĩa là đúng về mặt diễn giải

Một kết quả có thể hoàn toàn vững về mặt thống kê mà vẫn gây hiểu lầm. Khoảng tin cậy có thể hẹp. P-value có thể thuyết phục. Mô hình có thể hội tụ đẹp. Thế nhưng, kết luận vẫn có thể vượt quá giới hạn cho phép.

Điều này xảy ra khi diễn giải bỏ qua:

các giới hạn do thiết kế nghiên cứu áp đặt
những điểm mù do cách đo lường tạo ra
các sai lệch do bias đưa vào

Thống kê trả lời những câu hỏi hẹp. Diễn giải trả lời những câu hỏi rộng hơn. Nhầm lẫn hai thứ này là một trong những lỗi phổ biến nhất—và tốn kém nhất—trong viết nghiên cứu.

Ví dụ: Khi thống kê của mình đúng nhưng diễn giải thì không

Trong nghiên cứu hình ảnh học về ARM, mình phát hiện khoảng cách PR trên siêu âm tương quan mạnh với phương pháp phẫu thuật (p<0.001, ROC AUC 0.85). Kết luận bản thảo đầu tiên của mình: "Khoảng cách PR trên siêu âm dự đoán chính xác độ phức tạp phẫu thuật trong dị tật hậu môn trực tràng."

Đúng về mặt thống kê. Tương quan tồn tại. Các con số vững chắc.

Người hướng dẫn của mình gạch ngang: "Thế còn những bệnh nhân có khoảng cách PR bình thường nhưng giải phẫu rò phức tạp thì sao? Siêu âm của cậu không thấy được những trường hợp đó. Cậu đang nói rằng phép đo dự đoán độ phức tạp, hay là nó dự đoán độ phức tạp trong những trường hợp mà siêu âm có thể quan sát được giải phẫu?"

Ông ấy đúng. Dữ liệu của mình cho thấy:

Siêu âm hoạt động tốt khi giải phẫu hiển thị rõ trên siêu âm
Siêu âm bỏ sót độ phức tạp khi yếu tố quyết định (loại rò) không quan sát được
Tương quan phản ánh điểm mạnh của siêu âm, chứ không phải giá trị dự đoán toàn diện

Kết luận đã sửa: "Khoảng cách PR trên siêu âm tương quan với phương pháp phẫu thuật trong các trường hợp giải phẫu quan sát rõ ràng, nhưng cần được bổ sung bằng chụp cản quang khi giải phẫu rò chưa chắc chắn."

Thống kê không thay đổi. Diễn giải trở nên trung thực hơn.

Áp lực phải nói nhiều hơn những gì dữ liệu cho phép

Vượt quá giới hạn trong diễn giải hiếm khi đến từ sự kiêu ngạo. Nó đến từ áp lực. Áp lực để:

biện minh cho công sức đã bỏ ra
làm cho nghiên cứu có vẻ có tầm ảnh hưởng
thỏa mãn người phản biện, người hướng dẫn, hoặc tạp chí
kết nối kết quả với những câu chuyện lớn hơn

Dưới áp lực này, ngôn ngữ bắt đầu trôi dạt:

sự liên kết bắt đầu nghe có vẻ như nhân quả
các đại diện được xem như phép đo trực tiếp
hạn chế được thừa nhận, rồi âm thầm bị bỏ qua

Nghiên cứu không sụp đổ một cách kịch tính. Nó xói mòn một cách tinh tế. Cách ngôn ngữ trôi dạt mà bạn không nhận ra

Mình đã tự bắt gặp mình làm những chuyển dịch này:

Những gì dữ liệu cho thấy:
"Tỷ lệ xương cùng thấp tương quan với độ phức tạp dị tật cao hơn"

Những gì mình viết lần đầu:
"Sự phát triển xương cùng ảnh hưởng đến mức độ nghiêm trọng của dị tật"

Sự dịch chuyển rất tinh tế: tương quan → ảnh hưởng. Một cái mô tả sự liên kết; cái kia gợi ý cơ chế.

Ví dụ khác:

Những gì mình đo:
"Sự hiện diện của rò trên chụp cản quang"

Những gì mình suýt viết:
"Giải phẫu rò quyết định phương pháp phẫu thuật"

Lại thế: hiện diện → quyết định. Mình đo xem có rò không, chứ không phải liệu nó có gây ra quyết định phẫu thuật hay không. Phẫu thuật viên xem xét nhiều yếu tố.

Quy luật:

Dữ liệu: Cho thấy X tương quan với Y
Bản thảo: X ảnh hưởng đến Y
Áp lực cuối cùng: X gây ra Y

Mỗi bước có cảm giác như một sự tinh chỉnh nhỏ. Cộng dồn lại, chúng biến mô tả thành vượt giới hạn.

Cách phòng ngừa: Viết phần kết quả trước. Viết kết luận sau cùng. Nếu kết luận tuyên bố nhiều hơn những gì kết quả cho thấy, thì có gì đó đã trôi dạt rồi.

Diễn giải nghiên cứu nên được dự đoán trước, không phải ứng biến

Diễn giải vững chắc không bắt đầu ở phần thảo luận. Nó bắt đầu sớm hơn nhiều.

Những nhà nghiên cứu diễn giải tốt thường hỏi, trước khi thu thập dữ liệu:

Những kết luận nào sẽ rất hấp dẫn—nhưng không có cơ sở?
Những giải thích thay thế nào sẽ vẫn hợp lý dù kết quả ra sao?
Phát hiện nào thực sự thay đổi sự hiểu biết, và phát hiện nào chỉ đơn giản xác nhận kỳ vọng?

Bằng cách dự đoán những câu hỏi này sớm, việc diễn giải sau này trở nên có kỷ luật hơn—và đáng tin cậy hơn.

Những câu hỏi mình giờ tự hỏi trước khi thu thập dữ liệu

"Mình sẽ bị cám dỗ tuyên bố gì nếu kết quả tích cực?"

Với nghiên cứu ARM, mình biết mình sẽ bị cám dỗ nói: "Siêu âm có thể thay thế chụp cản quang."

Bằng cách dự đoán sự cám dỗ này, mình đã thiết kế nghiên cứu bao gồm chụp cản quang làm so sánh. Điều này buộc mình phải thấy nơi siêu âm đồng thuận (vị trí trực tràng) và nơi nó thất bại (chi tiết rò).

Kết quả: Mình không thể tuyên bố thay thế vì chính dữ liệu của mình cho thấy tính bổ sung.

"Những giải thích thay thế nào mình không có cách loại trừ?"

Ví dụ: Nếu khoảng cách PR tương quan với phương pháp phẫu thuật, liệu có phải vì:

Khoảng cách thực sự dự đoán độ khó phẫu thuật?
Khoảng cách tương quan với mức độ nghiêm trọng tổng thể của dị tật (nhiễu)?
Phẫu thuật viên sử dụng khoảng cách như một trong nhiều yếu tố (giải thích một phần)?
Phác đồ thể chế thay đổi theo ngưỡng khoảng cách (biến thiên thực hành)?

Thiết kế quan sát của mình không thể phân tách những điều này. Dự đoán trước điều này ngăn mình tuyên bố quan hệ nhân quả mà mình không thể thiết lập.

"Một người phản biện hoài nghi sẽ hỏi gì?"

Mình đã mô phỏng các câu hỏi của người phản biện:

"Cậu có xác nhận các phép đo siêu âm với kết quả phẫu thuật không?" → Thêm xác nhận trong phẫu thuật
"Cậu xử lý các trường hợp siêu âm không rõ ràng như thế nào?" → Tạo danh mục "không xác định" thay vì bắt buộc phân loại
"Còn độ tin cậy giữa các quan sát viên thì sao?" → Thêm các phép đo thứ hai được che giấu

Những câu hỏi này định hình việc thu thập dữ liệu, không chỉ là viết phần thảo luận.

Nói ít hơn, nhưng nói chính xác hơn

Một trong những dấu hiệu rõ ràng nhất của sự trưởng thành trong nghiên cứu là sự kiềm chế. Các nhà nghiên cứu có kinh nghiệm thoải mái khi nói:

"Điều này gợi ý, nhưng không chứng minh…"
"Phát hiện này chỉ áp dụng trong những điều kiện này…"
"Chúng mình không thể loại trừ các giải thích thay thế…"

Đây không phải là yếu đuối. Đây là sự tôn trọng—với dữ liệu, và với người đọc.

Trớ trêu thay, những nghiên cứu tuyên bố ít hơn thường có trọng lượng hơn. Kết luận của chúng mời sự tin tưởng thay vì sự hoài nghi.

Kết luận mình tự hào vì đã thu hẹp lại

Tuyên bố đầy tham vọng ban đầu:
"Siêu âm cung cấp phân loại tiền phẫu chính xác của dị tật hậu môn trực tràng và có thể hướng dẫn lập kế hoạch phẫu thuật."

Nghe rất ấn tượng. Nó gợi ý rằng thực hành lâm sàng có thể thay đổi dựa trên nghiên cứu của mình.

Những gì dữ liệu thực sự hỗ trợ:
"Khoảng cách PR trên siêu âm tương quan với phương pháp phẫu thuật trong các trường hợp chuyển viện tuyến ba với dị tật từ trung bình đến cao khi giải phẫu được quan sát rõ ràng. Nó bổ sung nhưng không thay thế chụp cản quang để phân loại giải phẫu hoàn chỉnh."

Điều này hẹp hơn. Có điều kiện hơn. Nghe có vẻ ít tác động hơn.

Nhưng hai điều đã xảy ra:

Người phản biện tin tưởng nó. Một người viết: "Các tác giả đã giới hạn một cách phù hợp các tuyên bố trong phạm vi dữ liệu của họ hỗ trợ thay vì khái quát hóa quá mức."
Nó mở ra sự hợp tác. Một bác sĩ X-quang liên hệ: "Những hạn chế trung thực của bạn chính xác là lý do chúng tôi muốn thiết kế một nghiên cứu tiền cứu đa trung tâm cùng với bạn."

Tuyên bố hẹp hơn mời sự tham gia. Tuyên bố rộng hơn sẽ mời sự hoài nghi hoặc bác bỏ.

Bài học: Độ chính xác trong diễn giải phát tín hiệu về tính chính trực. Vượt giới hạn phát tín hiệu về sự thiếu kinh nghiệm.

Sử dụng AI để kiểm tra sự trôi dạt trong diễn giải

AI có thể giúp phát hiện việc vượt giới hạn trong diễn giải—nếu bạn sử dụng nó một cách có chủ đích.

Prompt mình dùng trước khi hoàn thiện kết luận:

Here are my study results: [paste results section]

Here are my conclusions: [paste conclusion section]

Are there places where my conclusions claim more than the results show?
Where does my language shift from describing associations to implying causation?
What alternative explanations am I not acknowledging?

Những gì prompt này phát hiện: Sự trôi dạt ngôn ngữ mà bạn quá gần để nhận ra, các tuyên bố nhân quả được nhúng trong cách diễn đạt tinh tế, kết luận nhảy vọt ra ngoài dữ liệu.

Những gì nó bỏ sót: Tính hợp lý trong lĩnh vực cụ thể (AI không biết về việc ra quyết định phẫu thuật), mức độ suy luận phù hợp cho lĩnh vực của bạn, các lựa chọn chiến lược về nhấn mạnh.

Hãy dùng AI như một tấm gương để nhìn thấy chính suy nghĩ của bạn, không phải như một thẩm quyền về những gì có thể chấp nhận được.

Khép lại vòng lặp quy trình

Đến lúc đạt đến bước diễn giải, hình dạng của nghiên cứu đã được cố định từ lâu.

Thiết kế đã đặt ra các ranh giới. Đo lường đã xác định những gì có thể nhìn thấy. Bias đã định hình những gì bị bóp méo.

Diễn giải đơn giản là nơi tất cả những quyết định trước đó trở nên hiển thị với người đọc.

Đó là lý do tại sao quy trình nghiên cứu không phải là tuyến tính. Nó là tích lũy.

Mỗi bước ràng buộc bước tiếp theo. Và không bước nào có thể được xem là thứ yếu.

Cách các quyết định trước đó hiện ra trong diễn giải của mình

Lựa chọn thiết kế (hồi cứu, đơn trung tâm):
→ Ràng buộc diễn giải: "Các phát hiện có thể không khái quát hóa sang các cơ sở thực hành khác"

Lựa chọn đo lường (ban đầu chỉ khoảng cách PR):
→ Ràng buộc diễn giải: "Không thể đánh giá phân loại giải phẫu hoàn chỉnh"

Bias được nhận ra (làm phong phú thêm bởi chuyển viện các ca phức tạp):
→ Ràng buộc diễn giải: "Hiệu suất trong các ca đơn giản vẫn chưa biết"

Mỗi quyết định trước đó tạo ra một ranh giới diễn giải mà mình không thể vượt qua một cách trung thực.

Nhưng vì mình nhận ra những ranh giới này sớm, mình không vật lộn với việc viết phần thảo luận. Mình biết mình không thể tuyên bố gì trước khi thử tuyên bố nó.

Nguyên tắc: Diễn giải tốt được quyết định 80% trước khi phân tích bắt đầu.

Một khung để diễn giải có kỷ luật

Trước khi viết phần thảo luận, hãy hỏi:

Mình thực sự đo gì?
(Không phải những gì mình hy vọng đo—dữ liệu đã nắm bắt được gì?)
Mình cần đo gì để tuyên bố X?
(Nếu mình muốn tuyên bố nhân quả, mình có thao túng các biến không? Nếu mình muốn tuyên bố khả năng khái quát hóa, mình có lấy mẫu rộng không?)
Điều gì vẫn chưa được giải thích ngay cả khi giả thuyết của mình đúng?
(Cơ chế thay thế? Biến nhiễu? Phụ thuộc bối cảnh?)
Mình có tin vào tuyên bố này không nếu người khác đưa ra nó với cùng dữ liệu của mình?
(Loại bỏ cái tôi ra khỏi đánh giá)

Sau đó viết kết luận:

Ở trong những ranh giới đó
Thừa nhận những gì không chắc chắn
Chỉ định dân số/bối cảnh mà các tuyên bố áp dụng
Nêu rõ các giải thích thay thế

Đây không phải là về việc bi quan. Đây là về việc chính xác.

Điều này để lại cho chúng mình ở đâu

Nghiên cứu tốt không đến từ việc thành thạo các kỹ thuật riêng lẻ.

Nó đến từ việc đưa ra một loạt quyết định trung thực, mỗi quyết định được thông báo bởi các giới hạn của quyết định trước đó.

Đây là những gì một quy trình nghiên cứu có chức năng trông như thế nào:

rõ ràng trước tham vọng
khả thi trước thanh lịch
kiềm chế trước phóng đại

Mọi thứ khác—công cụ, phần mềm, thậm chí cả AI—đến sau.

Những gì series này đã đề cập

Chúng mình đã đi qua bản chất tích lũy của các quyết định nghiên cứu:

Câu hỏi nghiên cứu: Phải có thể trả lời được với các nguồn lực sẵn có
Thiết kế nghiên cứu: Đặt ra ranh giới cho những gì bạn có thể tuyên bố
Đo lường: Xác định những gì trở nên hiển thị
Bias: Định hình những gì bị bóp méo
Diễn giải: Làm cho tất cả các quyết định trước đó trở nên minh bạch

Ở mỗi giai đoạn, tư duy quy trình có nghĩa là hỏi: "Quyết định này làm cho điều gì trở nên có thể—và không thể—sau này?" Kỷ luật này không làm cho nghiên cứu dễ dàng hơn. Nhưng nó làm cho nó trung thực hơn.

Và cuối cùng, sự trung thực là thứ cho phép nghiên cứu được tin tưởng—và được xây dựng tiếp.

Bước tiếp theo:

Các nguyên tắc quy trình được đề cập trong series này áp dụng bất kể công cụ là gì. Tiếp theo, chúng mình đối mặt với những khó khăn trong viết học thuật, đặc biệt đối với những người không phải người bản ngữ. Mình sẽ phân tích và giải quyết điều này trong series tiếp theo, cũng như giới thiệu các công cụ có thể hỗ trợ quy trình tốt hơn—nếu được chọn và sử dụng phù hợp.

Trong series tiếp theo, chúng mình sẽ xem xét cách các công cụ AI phù hợp với viết học thuật và quy trình nghiên cứu: không phải là sự thay thế cho tư duy, mà là những công cụ khuếch đại quy trình cẩn thận khi được sử dụng với sự phán đoán.

Tài nguyên thêm:

Để có các mẫu về dự đoán những thách thức diễn giải và kiểm tra tính hợp lệ của kết luận, xem phần Research Workflow.

Nếu bạn đang soạn thảo bản thảo của mình, bạn có thể thấy Checklist: Idea to Submission của mình hữu ích.