AI cho systematic review: 8 bước thật và những chỗ tôi không tin AI

Systematic review không phải bài bạn viết một mình. Bạn đang tổng hợp công trình của 10, 20, hay 50 nhóm tác giả khác — mỗi nhóm dùng định nghĩa outcome khác nhau, dân số khác nhau, thời gian follow-up khác nhau. Việc AI giúp ích hay không phụ thuộc vào từng bước cụ thể. Có bước AI là công cụ không thể thiếu. Có bước AI nguy hiểm nếu bạn không kiểm soát.

Bài này là toàn bộ workflow tôi dùng khi áp dụng AI cho systematic review — minh họa bằng một meta-analysis tôi làm về hai kỹ thuật phẫu thuật cho trẻ có dị tật hậu môn trực tràng (anorectal malformation). Quy trình chuẩn: đăng ký PROSPERO trước, tìm kiếm trên MEDLINE qua PubMed, Embase, và Cochrane CENTRAL. Đây là loại review tôi học được nhiều nhất về giới hạn của AI.

Bước 0 — AI cho systematic review bắt đầu từ PROSPERO

Đây là bước nhiều bác sĩ bỏ qua vì nghĩ không cần thiết. Cần. PROSPERO không chỉ là formality — nó buộc tôi làm rõ eligibility criteria, outcomes, và phương pháp phân tích trước khi nhìn thấy kết quả. Tôi đăng ký xong mới bắt đầu search.

AI giúp gì ở bước này? Claude giúp draft phần eligibility criteria cho PROSPERO registration rất tốt. Tôi mô tả câu hỏi nghiên cứu bằng tiếng Việt, AI chuyển thành PICO format đúng chuẩn, tôi chỉnh lại phần population definition để loại các thể nhẹ. Tiết kiệm khoảng 30-40 phút so với viết tay từ đầu.

Bước 1 — Build search query

Ở bước draft search string, AI giúp tốt — Boolean operators, MeSH terms, free-text terms, truncation symbols. Nhưng sau khi test trên PubMed, tôi phát hiện một vấn đề quan trọng: AI hay lẫn lộn database syntax. Embase dùng :ti,ab và Ovid field codes; PubMed dùng [tiab] và [MeSH]. AI biết cả hai nhưng hay mix lẫn, đặc biệt khi dùng prompt generic "build a search string for systematic review."

Search terms thường phức tạp: kết hợp disease-related terms, population terms, và surgical approach terms ("single-stage", "one-stage", "primary repair", "staged", "colostomy"). Một lỗi syntax nhỏ trên Embase có thể miss hàng chục citation mà không biết.

Cách dùng AI đúng ở bước này: AI draft → chạy test query trên PubMed, xem số kết quả có hợp lý không → chỉnh tay từng database. AI không thay được bước kiểm tra này.

Điều AI làm tốt: expand synonyms. Có lần tôi quên một biến thể thuật ngữ trong lần draft đầu; Claude gợi khi tôi hỏi "thuật ngữ nào khác trong literature cũ hay dùng cho tình trạng này?" Nó cũng suggest MeSH heading hierarchy mà tôi không quen. Hữu ích.

Điều AI fail: AI không hiểu context nghiên cứu đủ để biết term nào sensitive, term nào specific cho câu hỏi của mình. Bước này tôi vẫn phải review search string với kiến thức clinical trước khi chạy chính thức.

Bước 2 — Deduplication và tổ chức citation

Bước này không cần nhiều AI. Tôi import citation từ 3 database vào Zotero, dùng tính năng deduplicate built-in. Sau merge 3 database thường có vài trăm citation, sau deduplication còn vài trăm unique records cần screen.

Workflow Zotero kết hợp AI cho bước import và organize có thể xem thêm ở bài Zotero + AI workflow — automate literature synthesis.

Bước 3 — Abstract screening

Đây là bước AI tiết kiệm thời gian nhiều nhất trong toàn bộ systematic review workflow.

Tôi dùng Claude để screen abstract theo PICO criteria: Population, Intervention, Comparator, Outcomes. Workflow thực tế: export danh sách title + abstract từ Zotero → batch feed vào Claude theo từng nhóm 20-30 bài → AI trả về include/exclude kèm lý do ngắn.

Quan trọng: tôi không dùng AI như primary screener độc lập. Tôi dùng nó như screener thứ nhất, sau đó double-check ngẫu nhiên một phần để estimate agreement.

AI fail ở đâu trong abstract screening:

Fail 1 — Abstract mơ hồ về study design. Những bài chỉ nói "case series" mà không rõ comparative hay không — AI hay exclude nhầm vì thiếu explicit comparative language. Tôi giữ những bài này trong "uncertain" pile và đọc tay.

Fail 2 — Population không rõ ràng. Khi protocol loại một số thể bệnh nhưng abstract không phân biệt rõ thể nặng/nhẹ, AI không luôn catch được khi tác giả gốc gộp chung. Những abstract này tôi phải đọc tay.

Fail 3 — Language barrier. Một số paper từ Nhật Bản hoặc Trung Quốc có abstract tiếng Anh viết sơ sài. AI không lấy thêm thông tin từ đâu được — tôi phải fetch full text hoặc quyết định dựa trên title.

Dù có những điểm fail này, AI vẫn giảm đáng kể thời gian cho phần screening đơn giản. Phần lớn abstract có quyết định rõ ràng (loại vì sai population, hoặc không có comparative data) — phần đó AI làm rất nhanh.

Bước 4 — Full-text screening

Không có shortcut. Tôi đọc full-text của tất cả bài qua title/abstract screen. AI có thể giúp extract thông tin nhanh từ một PDF cụ thể — feed PDF vào Claude, hỏi "bài này có stratify kết quả theo thể bệnh không?" — nhưng decision cuối là tôi tự đưa ra sau khi đọc.

Qua full-text screen thường chỉ còn rất ít comparative studies đủ tiêu chuẩn. Số ít, nhưng đó là thực tế của field hẹp: nhiều bài không stratify theo thể bệnh, không compare hai approach — bị loại theo protocol.

Bước 5 — Data extraction

Bước AI hay fail nhất.

Tôi test Claude extract data từ các paper included: sample size, age at surgery, surgical technique, outcome score, follow-up duration. Claude làm đúng phần lớn, nhưng có một pattern fail đáng nhớ: AI hay lấy số từ bảng sai. Trong paper mà Table 1 là demographics và Table 2 là outcomes, Claude đôi khi trả số từ Table 1 khi tôi hỏi outcomes chính.

Fix: yêu cầu AI cho biết nguồn cụ thể — "từ Table mấy, hàng nào." Nếu AI chỉ trả con số không kèm location — xác suất lẫn cao.

Bất kể AI có extract đúng hay không, tôi vẫn verify tay tất cả số liệu trước khi vào phân tích. Systematic review mà data extraction sai thì toàn bộ meta-analysis sai. Không có exception.

Bước 6 — Risk of bias assessment

Bước thú vị nhất để test AI.

Với non-randomized studies, tôi dùng ROBINS-I (Cochrane tool). Tôi thử hai lần: một lần đánh giá độc lập trước, một lần feed paper cho Claude và hỏi nó score từng domain của ROBINS-I.

Kết quả: AI và tôi đồng thuận về overall risk ở phần lớn paper. Chỗ lệch đáng nhớ là một bài single-center, phụ huynh tự chọn kỹ thuật phẫu thuật — tôi rate Serious bias, AI rate Moderate. Lý do AI rate thấp hơn: nó không catch được rằng "parental choice" cho phẫu thuật lớn trong context bệnh viện châu Á là confounding nghiêm trọng hơn bình thường. Đây là domain AI thiếu clinical context.

AI làm co-rater tốt khi rubric có anchor cụ thể. Nhưng khi domain đòi hỏi clinical reasoning sâu — như confounding từ thói quen phẫu thuật viên hay selection bias từ hospital referral pattern — AI thường lenient hơn người. Đừng để AI quyết định một mình ở những domain đó.

Bước 7 — PRISMA flow và meta-analysis

PRISMA flow: AI giúp tốt. Mình describe số từng bước (total identified → after dedup → after title/abstract screen → after full-text → included), Claude tạo text cho flowchart. Mình vẽ trong Word hoặc tool online. Không phức tạp, nhưng AI làm nhanh và đúng format PRISMA 2020.

Forest plot và pooled analysis: Tôi chạy bằng R (meta package, random-effects model). AI không đụng vào phần này. R đảm bảo reproducibility và audit trail tốt hơn bất kỳ cách nào khác. Khi heterogeneity cao (I² lớn), prediction interval rộng cần báo cáo trung thực — đây là chỗ dễ bị bỏ qua nếu chỉ nhìn pooled estimate.

Subgroup analysis: Điểm quan trọng từ kinh nghiệm của tôi — AI fail hoàn toàn ở đây. Khi tôi thử hỏi Claude về subgroup theo hospital volume, AI generate categories không phù hợp với thực tế lâm sàng. "High-volume center" trong cardiac surgery khác với pediatric surgery ở Việt Nam — AI không biết phân biệt. Tôi bỏ phần AI suggest và tự justify subgroup dựa trên literature.

Bước 8 — Manuscript và Discussion

Sau khi có data và phân tích, tôi viết manuscript. Discussion cho systematic review có cấu trúc riêng. Khi kết quả không có ý nghĩa thống kê và heterogeneity cao, tôi dùng pattern 4 đoạn (Interpretation → Comparison → Limitation → Implication) — AI draft đoạn 1 và 2, tôi tự viết đoạn 3 và 4.

Chi tiết hơn về cách viết Discussion với AI trong bài 10 bước viết paper với AI từ idea đến submission và bài spoke riêng về Discussion pattern.

Tóm tắt: AI làm được gì trong systematic review

Bước	AI làm được	Mức tin cậy
Draft PROSPERO eligibility	Tốt	Cần review
Build search query	Tốt ở synonyms, sai syntax	Phải test
Abstract screening (batch)	Tiết kiệm thời gian	Cần double-check
Full-text decision	Không thay được	Tự làm
Data extraction	Cẩn thận source location	Verify tay
Risk of bias (RoB)	Tốt với rubric rõ	75-80% đồng thuận
PRISMA flow text	Tốt	Dùng được
Forest plot / meta-analysis	Không	Dùng R/RevMan
Subgroup design	Không nếu đòi clinical context	Tự làm
Discussion đoạn 1-2	Ổn	Cần edit

AI không thay được systematic review. Nhưng nó giảm thời gian cho phần repetitive — draft query, batch screening, PRISMA text, risk of bias first pass. Phần đòi hỏi clinical judgment — confounding analysis, implication lâm sàng, subgroup design — vẫn cần tác giả.

Theo ước lượng của tôi, AI tiết kiệm khoảng một phần ba thời gian cho cả quy trình. Không phải vì AI làm thay, mà vì nó làm draft đủ tốt để tôi edit thay vì viết từ đầu.

Muốn học workflow AI đầy đủ cho research? Ứng dụng AI trong NCKH — bao gồm systematic review workflow, prompt templates, và cách verify AI output trước khi submit.