博觀約取，審問明辨

同一個下午。同一個模型。兩個人問差不多的問題。

一個交出一份能直接用的草稿。另一個拿到一堆聽起來頭頭是道、撕掉重做要再花一個鐘的東西。

模型沒換。換的，是用的人。

AI 助手用得到、用不到，向來看兩處——進去的，與出來的。兩處，都不歸模型管。兩處，都是要自己練的工夫。每一次模型換代，這兩處依然存在。

公開上吵「AI 有沒有用」，多半在吵說話那位有沒有把這兩種工夫練出來。

「替我提速十倍」那類故事，通常只做了上半——上下文放對了，沒去查證，bug 留到 production 才被人發現。「沒什麼用」那類故事，通常只做了下半——出來的每一行都查過，但放進去的本身就是垃圾。

兩端，值得各自命名。

入：博觀約取

第一種工夫，是替助手挑「該看什麼」，更重要是「不該看什麼」。

聽起來理所當然。看人實際下手，就會發現兩端都會走歪。

全部塞進去。整個 repo 一次過貼上，整段對話一次過貼上，整份規格一次過貼上——訊號就被埋在雜訊底下。模型抓不住主線、認錯了 anchor，最後給你一段技術上對着輸入講、卻早就不對着問題講的答案。

講得太省。一句「修一下」，沒有上下文、沒有約束、沒有失敗測試。空白的位，模型會用自己的先驗補上。出來的東西聽起來很有底子。它解決的，是另一個問題，不是你的那一個。

中間的工夫，是揀。

把上下文視窗當作一張書桌。桌面放什麼，事情就被那些東西塑造。亂堆，做不出事。整張清空，等於用一份你並不擁有的記憶在做事。

實際的動作，是一些細小、無聊的選擇——

釘那一份相關文檔，不是釘整個 repo。模型不需要你手上的每一個檔案。它需要的，是這次改動真正有關的那三個。
把約束在這條訊息裡再講一次。不要假設前幾輪會繼續成立。對話愈長，模型對「那條約束」的記憶愈淡。資料庫要保持向後相容，就在問 migration 那一輪講出來——不是五輪之前。
上下文一污染，就開新對話。同一件事連續失敗三次，那三次失敗本身已經是上下文的一部分。帶着你已經學到的東西重開，遠勝在那個坑裡繼續爬。

視窗愈大，這條工夫愈值錢。一張更大的桌子，亂的空間更大，搶注意力的東西更多，把真正的問題埋掉的方式也更多。「只放對的東西進去」，是會繼續發放紅利的本事。

出：審問明辨

第二種工夫，是不要相信任何一個你查不到的輸出。

陷阱是流暢。今天的助手，不論答案對錯，都會用一段自信、結構完整的話回應你。對的時候和錯的時候，那段話讀起來一模一樣。語氣裡沒有信號可以倚靠。流暢的錯答案，與流暢的對答案，一樣讓你舒服——所以該不信的，正是那種舒服感。

流暢讀起來像正確。陷阱就在這裡。

工夫的核心，是把查證做得比信任便宜。具體做什麼，要看模型給了你什麼，動作就那幾個——

跑一次那段程式。「應該行」與「我跑過了」是兩件事。中間那段不對稱，就是這份工作的全部。
打開那條引用。模型給你出處的時候，把它打開。一半的時候，出處真的存在，講的東西也接近。另一半，很有趣——是壞的那種有趣。
把那個數字驗一次。一個由自信句子產生的數字，仍然只是一個由自信句子產生的數字。答案是「這個 API 每次叫用 0.003 美元」，去定價頁核對。答案是「省了 30%」，找一份實測來對比。
問它反方意見。「有人會在哪裡反駁這件事？」「最強的反對版本長什麼樣？」這類問法，會把模型自己不會主動指出的軟肋翻出來。

不對稱，才是整個重點。一個自信的錯答案，比一個遲疑的對答案代價大得多——遲疑會觸發查證，自信會跳過查證。一條工作流，不論輸出多自信都仍然會去查證；那條工作流，才配得上它聲稱的生產力提升。

不只是「prompt 寫得好」

有一整類建議——prompt engineering、prompt frameworks、prompt patterns——是從另一個角度，指着同一塊地。多數內容，都是上面兩種工夫的延伸。所謂「好的 prompt」，不過是一段能把對的上下文遞進去、又能讓答案可被查證的文字。框法本身沒錯，只是比它自己宣傳的，要窄。

把這把傘叫做「prompting」，會把真正重要的兩件事蓋住。Prompt，是把上下文遞進去的載具。輸出格式，是把查證做出來的載具。只調外面那一層、沒動底下那兩件事，等於把 token 重新排了一次——回來的東西，沒有改變。

兩種工夫熬得過模型

模型會變。視窗會更大。幻覺率會更低。工具整合會更順。外面那層 agent 框架，會繼續吸收新能力。

這些，都不會把用的人那份工作退役。剛好相反——

視窗愈大，搶注意力的東西愈多。揀的本事，更重要，不是更不重要。
幻覺率愈低，失敗就愈微妙、愈難捉。查證的本事，更重要，不是可有可無。
工具愈強，一個錯誤在被人攔截前能跑得愈遠——那個會跑程式的助手，也會跑錯的程式。查證，反而更重要。

兩種工夫本身會互相加成。模型升級，是繞着它們的邊際改良。

這跟其他每一件「上限很高」的工具，是同一個型。槓桿是真的。槓桿不會代替用的人。

值得討論的地方

公共空間的 AI 爭論，多數是模型爭論——哪個最好、哪個被高估、這個月誰排第一。這些問題，會在某個論壇 thread 裡被回答一次，下一季排名一變，又重新吵一次。

真正值得討論的，在私人領域。

這一週，有了助手，比沒有的時候好嗎？

如果是——你做了什麼，是沒有助手的那個你做不到的？如果不是——是哪邊斷了？進去那邊，還是出來那邊？

用哪個模型都好，會愈滾愈大的，是這條問題，不是模型。

入：博觀約取

出：審問明辨

不只是「prompt 寫得好」

兩種工夫熬得過模型

值得討論的地方

參考來源

微調閱讀