V1臨床 loading持續適應炸裂中,偏偏這時候又要帶大六醫學生做 EBM 報告。這是我第一次從case挑選、結尾comment完整的帶領學生,為了精準備課、節約時間,我採取 AI (Gemini) 當我的「陪讀書僮」。
跑完整個流程,對於 「AI 在實證醫學評讀的極限與優勢」 有了非常深刻的體悟。
簡單說:它能幫你省下 80% 的粗活,但剩下那 20% 的關鍵判斷,如果你自己沒有 Sense,就會被 AI 帶著一起掉進坑裡。
以下整理這次從「選案」到「評讀」的人機協作實錄。
一、 佈局:老師的「選案」決定了學生的生死
很多老師隨手抓一個 Case 給學生,結果題目太發散或文獻太舊。選對病人,EBM 就成功了一半。
這次我避開了雖然有全人醫療價值、但證據模糊的 90 歲大腸癌奶奶,挑了一位「年輕肥胖糖友(口服藥失效轉胰島素)」的案例。
為了讓學生練習 CASP 評讀並應付外院評核,我們拉出了這三篇 Paper :
- 2019 (History): Castellana et al. (舊的 Meta-analysis) → 用來講古與確立 Class Effect。
- 2022 (Benchmark): SUSTAIN 11 (大型 RCT) → Head-to-Head 比較,用來當作黃金標準。
- 2025 (Target): Chen et al. (最新 Meta-analysis) → 標題很新、結論很漂亮,但品質有待商榷,用來當「找碴」的靶子。
二、 優點The Pros:AI 讓備課效率開外掛
1. 秒速建立「比較矩陣」
以前要比較三篇論文的 PICO、收錄人數、主要結果,我得開三個 PDF 視窗切來切去。這次我直接把三篇 PDF 丟給 AI,下指令:「幫我比較這三篇的實驗設計」。
5秒鐘,一張完美的表格就出來了。 它精準抓出了 2022 那篇是單挑 (Semaglutide vs Insulin Aspart),而 2025 這篇是大雜燴 (混了 Placebo)。
2. 快速掃描「紅旗指標」(Red Flags)
針對森林圖 (Forest Plot),我問 AI:「這張圖有什麼要 comment 的?」它立刻列出:
- 異質性過高: I square= 99%。
- 權重分配詭異: 指出小樣本研究跟大樣本研究的權重竟然差不多。這省去了我拿著放大鏡看圖表數值的時間,直接把教學重點標示出來。
3. case挑選與PICO多元提案
「選案」其實是老師最重要的責任。 我打開平常收集的「特殊/困難教案資料庫」,挑出兩個候選人進行戰略分析:
Case 1:年輕肥胖男性,糖尿病控制不佳
- 情境: 口服藥四線全上 + Ozempic 仍失敗,最後被我說服加上基礎胰島素(Basal Insulin),並保留 GLP-1。
- EBM 戰略優勢 (Pros):
- 數據硬派: HbA1c、體重 (Weight Loss)、低血糖風險,這些 Outcome 指標明確,標準答案好找。
- 文獻新穎: 糖尿病領域進展神速,很容易撈到 2024-2025 的高品質 RCT 或 Meta-analysis。
- 辯論性強: 「年輕人該不該這麼早打胰島素?」vs「減法治療」,很適合用數據說服外院評審。
- 劣勢 (Cons):
- 家庭圖相對單純,除非刻意強調飲食支持系統,否則較難展現家醫科「生物-心理-社會」的軟實力。
Case 2:90歲大腸癌奶奶,肝與腹膜轉移
- 情境: 食慾很好,但反覆腹痛與背痛。涉及惡性腸阻塞 (MBO) 邊緣的症狀控制與家庭決策。
- EBM 戰略優勢 (Pros):
- 家醫科靈魂: 極度適合畫 Genogram(家族樹),討論家庭動力、飲食象徵意義(能吃就是福 vs. 病情惡化)與預後告知。
- 劣勢 (Cons):
- 證據模糊: 緩和醫療的題目通常缺乏大型 RCT,證據等級低。
- 評核風險: 學生如果「講故事」的能力不夠,很容易被外院醫師電:「你的證據只有 Expert Opinion?」
4. 補充背景知識 (Context)
當我需要解釋「為什麼要跟 Lixisenatide 比?」或者「Open-label 的限制」時,AI 可以像一個隨身攜帶的 UpToDate,瞬間提供這兩種 GLP-1 藥物的半衰期、機轉差異(胃排空 vs 全身性)。這對回答學生突如其來的 “Why” 非常有幫助。
三、缺點 The Cons:AI 會讓你翻車的「坑」
1. 搜尋幻覺:一本正經地胡說八道
這是最開始最崩潰的一段。AI 雖然邏輯好,但在「找文獻」這關完全不行。它曾自信地給我一串 PMID,結果丟進 PubMed 卻是先天性心臟病的手術文章。
請乖乖去 PubMed 用 (Type 2 Diabetes) AND (Semaglutide) AND (Insulin) 這種簡單暴力的關鍵字,搭配 Filters 設定年份與文章類型。
教訓: 搜尋還是得靠人類用 MeSH 和 Filters 一步步篩出來。AI 是軍師,不是搜尋引擎。
2. 真相是「辯論」出來的 (與人機協作的價值 Human-in-the-Loop)
這是今天最有價值的一刻。
關於 2025 年那篇文獻中空腹血糖 (FPG) 的數據,AI 抓取的結論是對的(下降 1.08 mmol/L),但我眼睛在 Results 內文段落看到的卻是下降 1.08%。
我當下質疑 AI:「你是不是看錯了?我看內文寫的是 %。」
結果我們一對質,才發現是 文章本身前後矛盾(Result 寫 %,Conclusion 寫 mmol/L,典型的編輯失誤)。
- AI 的優勢: 能夠快速歸納 Conclusion 的正確單位。
- 人類的優勢: 能夠看到內文的邏輯謬誤(降 1% 在臨床上根本沒意義)。
人類醫師的判讀 (Sense-making): 空腹血糖單位是 mg/dL 或 mmol/L。如果 FPG 只有下降 1%,在臨床上根本是無效治療(Statistically significant but clinically meaningless)。正確的理解絕對是 -1 mmol/L (約 -18 mg/dL),這才有臨床意義。
3. 對「方法學品質」的批判不夠狠
在分析 FPG 顯著性時,AI 一開始強調 P<0.00001。但事實上,這個顯著性是被一篇中國(Duan Wei) 的小型極端值研究給拉高的。如果我沒有要求 AI 做「敏感度分析(Sensitivity Analysis)」的解讀,它就會忽略這個結論其實是建立在沙堆上的。
雖然 AI 幫我算出了 CASP 的分數,但對於 “Clinical Nutrition ESPEN” 這個期刊的 Impact Factor 與定位(Q2/Q3, 接收旗艦刊退稿的姊妹刊),AI 一開始只會給官方回答。 我需要特別追問:「這篇 Impact Factor 好嗎?」它才會吐露真話:這暗示了文章可能有硬傷。 如果不追問,學生可能會以為每一篇發在 PubMed 上的文章都是聖經。
四、 結論:AI 是你的 R1,不是你的 VS
經過這次備課,我覺得 AI 就像是一個手腳極快、記憶力超強,但臨床經驗還很菜的住院醫師 (R1)。
- 它能做的: 幫你整理病歷(論文摘要)、畫表格、跑統計解釋、預判外院醫師的提問。
- 它做不到的: 判斷這個數據「合不合理」、以及決定這個數據能不能用在眼前這個病人身上。
我的 EBM 備課新 Workflow:
- Topic & PICO (AI Assisted): 讓 AI 幫忙發散思考,找出具有辯論價值的 PICO 題目。
- Search Strategy (Human Only): 嚴格禁止依賴 AI 給的書目。(嚴禁學生依賴 AI 找 PMID)。
- Appraisal (Human + AI): 丟 PDF 讓 AI 跑圖表分析與異質性檢查。 AI 可做初步摘要,但關鍵數據(單位、統計顯著性)必須由人眼核對。
- Critical Appraisal (Human + AI): 可以用 AI 做初步摘要,但關鍵數據(單位、統計顯著性、收案條件)必須由人眼核對原文。看到奇怪的單位(如 FPG 降 %),要有警覺心。
- Quiz: 最後請 AI 根據上述弱點,出幾個刁鑽的問題來考學生(例如:「為什麼這篇 2025 的結論不能全信?」)。
一句話總結:用 AI 備課 EBM 很爽,但如果你自己本身不懂 EBM,那你只會被 AI 生成的漂亮廢話給騙得團團轉。
身為老師,教學相長,第一次感受如此深刻!與AI對質中,比單純閱讀論文照單全收更進階了一步。




