10 bước viết paper với AI — từ idea đến submission

AI viết paper khoa học — workflow thật, không phải lý thuyết

Hầu hết bài viết về AI và nghiên cứu khoa học đều dừng ở mức "dùng ChatGPT để brainstorm ý tưởng". Mình đã đọc nhiều bài kiểu đó và thấy thiếu phần quan trọng nhất: pipeline cụ thể, từng bước, ai làm gì, tool nào, và sai ở đâu.

Bài này là workflow mình thực sự dùng khi viết paper A.0 về AI drift — nghiên cứu đánh giá 1.800 abstract do ba LLM tạo ra, với rater agreement κ = 0.795, preregistered tại OSF. Từ bước hình thành research question đến lúc submit, mỗi bước mình ghi lại tool cụ thể đã dùng và lỗi đã mắc.

Không phải mọi bước đều dùng AI. Một số bước AI không được phép vào. Phân biệt được ranh giới đó quan trọng hơn biết dùng prompt hay.

Bước 1 — Research question: AI gợi ý, mình quyết định

Tool: Claude (conversation mode, không có file), PubMed thủ công.

Bắt đầu bằng một câu hỏi lâm sàng mơ hồ — "LLM có đáng tin khi tóm tắt bằng chứng y khoa không?" Mình không cho Claude trả lời ngay. Mình hỏi Claude: "Paper trong lĩnh vực này đang thiếu cái gì nhất?"

Câu trả lời không phải là gap, mà là danh sách 5–7 hướng tiếp cận chưa được test. Mình PubMed check từng hướng. Hướng nào đã có 3+ paper → bỏ. Còn lại 2 hướng → mình chọn 1 dựa trên khả năng thực thi.

Lỗi mình đã mắc: Tin ngay vào "gap" mà Claude đề xuất mà không PubMed verify. Kết quả mất 2 tuần mới phát hiện hướng đó đã có RCT từ 2023.

Bước 2 — Preregistration: viết trước khi thu thập data

Tool: OSF, không có AI ở bước này.

Preregistration bắt buộc mình phải viết rõ hypothesis và analysis plan trước khi chạy bất kỳ dòng code nào. Đây là bước AI không nên tham gia nhiều — nếu AI giúp viết hypothesis, ranh giới giữa confirmatory và exploratory sẽ mờ.

Mình viết file OSF bằng tay, Claude chỉ review grammar và logic sau khi đã hoàn thiện nội dung.

Lỗi mình đã mắc: Cho Claude đề xuất analysis plan trước. Nhận ra sau đó plan đó lean về kết quả mình muốn thấy. Rewrite lại từ đầu theo hypothesis-first order.

Bước 3 — Literature review: AI tăng tốc, không thay thế đọc

Tool: Elicit (abstract screening), SciSpace (full-text Q&A), Zotero (quản lý refs).

Elicit giúp screen ~200 abstract trong 2 tiếng. Mình chọn top 40 relevant để đọc. SciSpace giúp hỏi từng paper: "Methodology là gì?", "Kết quả chính?", "Limitation họ admit?"

Nhưng với paper core (review bắt buộc đọc toàn văn), mình đọc tay. Không delegate cho AI.

Về workflow AI cho bác sĩ nghiên cứu nói chung, mình đã viết một bài tổng quan trước đây về workflow AI từ đọc paper đến viết Discussion — bài này đi sâu vào phần viết.

Lỗi mình đã mắc: Tin vào citation AI xuất ra mà không verify. Elicit lúc đó pull về 2 paper có PMID sai. Check thủ công là bắt buộc.

Bước 4 — Study design: vẽ tay, Claude review

Tool: Pen + paper để draft, Claude để devil's advocate.

Mình vẽ sơ đồ study design tay trước: factorial design 3 model × 12 topic, 30 abstracts/topic. Sau đó paste lên Claude: "Tìm lỗ hổng trong design này — internal validity, confounders, bỏ sót gì?"

Claude chỉ ra 3 điểm yếu thật, 2 điểm yếu không liên quan. Mình xử lý 3 điểm thật, bỏ qua 2 điểm còn lại.

Lỗi mình đã mắc: Không prompt Claude để devil's advocate ngay từ đầu — mà chờ đến sau khi collect data mới hỏi. Quá muộn để thay design.

Bước 5 — Data collection: không có AI

Tool: Python script tự viết, manual log vào Excel.

Bước này AI không nên tham gia vào execution. AI có thể viết script giúp, nhưng logic thu thập data, quyết định include/exclude, xử lý edge case — mình tự làm.

Trong A.0 paper, mình thu thập 1.800 AI-generated abstract + 120 human comparator. Python script tự động, nhưng mình manual spot-check 10% output mỗi batch.

Lỗi mình đã mắc: Trust script hoàn toàn ở batch đầu. Phát hiện sau đó có 12 entry bị duplicate do logic trong loop. Phải re-collect batch đó.

Bước 6 — Analysis: AI giải thích, không quyết định

Tool: Python (pandas, scipy, statsmodels), Claude để debug code và interpret output.

Khi chạy analysis, mình thường paste output vào Claude: "Output này có nghĩa gì? Có issue gì với cách interpret không?" Claude giúp catch lỗi logic, gợi ý visualization phù hợp.

Nhưng decision về method — chọn Cohen's κ thay vì Spearman, chọn entropy làm metric — mình quyết định dựa trên literature, không phải AI gợi ý.

Lỗi mình đã mắc: Claude một lần suggest dùng Pearson correlation cho ordinal data. Mình tin và dùng. Reviewer phát hiện ngay. Phải rerun toàn bộ với Spearman. Bài học: AI gợi ý method cần verify với biostatistics textbook.

Bước 7 — Viết Introduction: pattern 5 đoạn, AI làm draft 1

Tool: Claude (với instruction cụ thể), mình edit 2 lần.

Introduction mình có pattern 5 đoạn: (1) context rộng, (2) gap cụ thể, (3) approach hiện tại và limitation, (4) study aim của mình, (5) contribution. Mình đưa outline 5 đoạn + 3 key reference cho Claude viết draft 1.

Draft 1 thường cover được 60–70% cấu trúc. Mình edit lần 1 về nội dung, lần 2 về tone.

Lỗi mình đã mắc: Để Claude viết không có structure rõ ràng. Kết quả draft generic, phải viết lại gần như toàn bộ. Structure-first prompt tiết kiệm thời gian hơn nhiều.

Bước 8 — Viết Methods và Results: chính xác từng chữ

Tool: Claude cho template, mình fill in tất cả số liệu tay.

Methods là section mình không trust AI điền số. Claude giúp viết template, skeleton sentence structure. Mình fill in từng con số, từng definition, từng criteria.

Results tương tự — mình viết tay từ analysis output. Claude chỉ giúp rephrase cho clear, không được suy diễn từ số.

Có 5 prompt cụ thể mình dùng hằng ngày khi đọc và viết paper — mình đã tổng hợp trong bài 5 prompt Claude mình dùng hằng ngày.

Lỗi mình đã mắc: Cho Claude "fill in" một đoạn Methods với data mình tóm tắt bằng lời. Claude interpolate số liệu sai. Reviewer chỉ ra ngay inconsistency với Table 1.

Bước 9 — Viết Discussion: AI deepen, mình audit

Tool: Claude (devil's advocate, counterargument generator), manual audit checklist.

Discussion là section AI có ích nhất trong tất cả. Mình viết paragraph chính trước, sau đó hỏi Claude:

"Claim này có được support bởi Results không?"
"Reviewer sẽ attack điểm nào đầu tiên?"
"Literature nào contradicts claim này?"

Claude cho về 3–5 counterargument mỗi lần. Mình xem xét từng cái — cái nào valid thì revise claim, cái nào không thì viết preemptive limitation.

Lỗi mình đã mắc: Tin Claude khi nó nói "claim này được hỗ trợ bởi [paper]" mà không kiểm tra paper đó thật sự nói gì. Một lần Claude hallucinate citation support. Audit từng claim pre-submission là bắt buộc.

Bước 10 — Pre-submission audit: cold read + AI scan

Tool: Claude (structured audit prompt), Grammarly (EN grammar), mình đọc tay lần cuối.

Trước khi submit, mình chạy 4 pass:

Pass 1 — Consistency check: Paste từng section vào Claude, hỏi "Có số liệu nào inconsistent giữa Abstract, Methods, Results, Tables không?"

Pass 2 — Citation verify: Spot-check 20% citations — PMID, tác giả, year. Không trust AI verify cite.

Pass 3 — Claim strength audit: Hỏi Claude "Claim nào trong Discussion đang overreach data?" Claude thường tìm được 2–3 chỗ genuine.

Pass 4 — Cold read: Mình đọc toàn bài như reviewer không biết context. Ghi chú những chỗ cảm thấy "không chắc". Fix hết trước submit.

Checklist pre-submission (mình dùng cho mỗi paper)

Research question đã PubMed verify — không trust AI về gap
Preregistration nộp trước khi collect data
100% citations đã verify PMID/DOI thủ công (ít nhất spot-check 20%)
Methods section: không có số nào AI điền — mình fill tất cả
Results section: không có số suy diễn — chỉ từ analysis output
Discussion claims: mỗi claim major đã cross-check với Results
Abstract consistent với full paper — check số liệu từng item
Cover letter: không claim status chưa confirmed

Tại sao workflow này quan trọng

Cái bẫy phổ biến nhất khi dùng AI cho paper là dùng nhiều ở những chỗ nguy hiểm nhất — methodology và claims — và dùng ít ở những chỗ AI thật sự giúp được — draft, debug, counterargument.

Trong paper A.0 mình, AI giúp accelerate được khoảng 40% thời gian tổng. Nhưng 60% còn lại — preregistration, data collection, statistical decision, final audit — mình không thể delegate. Không phải vì sợ AI, mà vì những bước đó cần judgment, không cần speed.

Sự phân biệt đó là thứ mình mất gần một năm mới hiểu rõ.

Muốn xây workflow AI hoàn chỉnh cho nghiên cứu của bạn? Ứng dụng AI trong NCKH — từ literature review đến submission, hướng dẫn step-by-step cho bác sĩ nghiên cứu VN.