同一個下午。同一個模型。兩個人問差不多的問題。
一個交出一份能直接用的草稿。另一個拿到一堆聽起來頭頭是道、撕掉重做要再花一個鐘的東西。
模型沒換。換的,是用的人。
AI 助手用得到、用不到,向來看兩處——進去的,與出來的。兩處,都不歸模型管。兩處,都是要自己練的工夫。每一次模型換代,這兩處依然存在。
公開上吵「AI 有沒有用」,多半在吵說話那位有沒有把這兩種工夫練出來。
「替我提速十倍」那類故事,通常只做了上半——上下文放對了,沒去查證,bug 留到 production 才被人發現。「沒什麼用」那類故事,通常只做了下半——出來的每一行都查過,但放進去的本身就是垃圾。
兩端,值得各自命名。
入:博觀約取
第一種工夫,是替助手挑「該看什麼」,更重要是「不該看什麼」。
聽起來理所當然。看人實際下手,就會發現兩端都會走歪。
全部塞進去。整個 repo 一次過貼上,整段對話一次過貼上,整份規格一次過貼上——訊號就被埋在雜訊底下。模型抓不住主線、認錯了 anchor,最後給你一段技術上對着輸入講、卻早就不對着問題講的答案。
講得太省。一句「修一下」,沒有上下文、沒有約束、沒有失敗測試。空白的位,模型會用自己的先驗補上。出來的東西聽起來很有底子。它解決的,是另一個問題,不是你的那一個。
中間的工夫,是揀。
把上下文視窗當作一張書桌。桌面放什麼,事情就被那些東西塑造。亂堆,做不出事。整張清空,等於用一份你並不擁有的記憶在做事。
實際的動作,是一些細小、無聊的選擇——
- 釘那一份相關文檔,不是釘整個 repo。模型不需要你手上的每一個檔案。它需要的,是這次改動真正有關的那三個。
- 把約束在這條訊息裡再講一次。不要假設前幾輪會繼續成立。對話愈長,模型對「那條約束」的記憶愈淡。資料庫要保持向後相容,就在問 migration 那一輪講出來——不是五輪之前。
- 上下文一污染,就開新對話。同一件事連續失敗三次,那三次失敗本身已經是上下文的一部分。帶着你已經學到的東西重開,遠勝在那個坑裡繼續爬。
視窗愈大,這條工夫愈值錢。一張更大的桌子,亂的空間更大,搶注意力的東西更多,把真正的問題埋掉的方式也更多。「只放對的東西進去」,是會繼續發放紅利的本事。
出:審問明辨
第二種工夫,是不要相信任何一個你查不到的輸出。
陷阱是流暢。今天的助手,不論答案對錯,都會用一段自信、結構完整的話回應你。對的時候和錯的時候,那段話讀起來一模一樣。語氣裡沒有信號可以倚靠。流暢的錯答案,與流暢的對答案,一樣讓你舒服——所以該不信的,正是那種舒服感。
流暢讀起來像正確。陷阱就在這裡。
工夫的核心,是把查證做得比信任便宜。具體做什麼,要看模型給了你什麼,動作就那幾個——
- 跑一次那段程式。「應該行」與「我跑過了」是兩件事。中間那段不對稱,就是這份工作的全部。
- 打開那條引用。模型給你出處的時候,把它打開。一半的時候,出處真的存在,講的東西也接近。另一半,很有趣——是壞的那種有趣。
- 把那個數字驗一次。一個由自信句子產生的數字,仍然只是一個由自信句子產生的數字。答案是「這個 API 每次叫用 0.003 美元」,去定價頁核對。答案是「省了 30%」,找一份實測來對比。
- 問它反方意見。「有人會在哪裡反駁這件事?」「最強的反對版本長什麼樣?」這類問法,會把模型自己不會主動指出的軟肋翻出來。
不對稱,才是整個重點。一個自信的錯答案,比一個遲疑的對答案代價大得多——遲疑會觸發查證,自信會跳過查證。一條工作流,不論輸出多自信都仍然會去查證;那條工作流,才配得上它聲稱的生產力提升。
不只是「prompt 寫得好」
有一整類建議——prompt engineering、prompt frameworks、prompt patterns——是從另一個角度,指着同一塊地。多數內容,都是上面兩種工夫的延伸。所謂「好的 prompt」,不過是一段能把對的上下文遞進去、又能讓答案可被查證的文字。框法本身沒錯,只是比它自己宣傳的,要窄。
把這把傘叫做「prompting」,會把真正重要的兩件事蓋住。Prompt,是把上下文遞進去的載具。輸出格式,是把查證做出來的載具。只調外面那一層、沒動底下那兩件事,等於把 token 重新排了一次——回來的東西,沒有改變。
兩種工夫熬得過模型
模型會變。視窗會更大。幻覺率會更低。工具整合會更順。外面那層 agent 框架,會繼續吸收新能力。
這些,都不會把用的人那份工作退役。剛好相反——
- 視窗愈大,搶注意力的東西愈多。揀的本事,更重要,不是更不重要。
- 幻覺率愈低,失敗就愈微妙、愈難捉。查證的本事,更重要,不是可有可無。
- 工具愈強,一個錯誤在被人攔截前能跑得愈遠——那個會跑程式的助手,也會跑錯的程式。查證,反而更重要。
兩種工夫本身會互相加成。模型升級,是繞着它們的邊際改良。
這跟其他每一件「上限很高」的工具,是同一個型。槓桿是真的。槓桿不會代替用的人。
值得討論的地方
公共空間的 AI 爭論,多數是模型爭論——哪個最好、哪個被高估、這個月誰排第一。這些問題,會在某個論壇 thread 裡被回答一次,下一季排名一變,又重新吵一次。
真正值得討論的,在私人領域。
這一週,有了助手,比沒有的時候好嗎?
如果是——你做了什麼,是沒有助手的那個你做不到的?如果不是——是哪邊斷了?進去那邊,還是出來那邊?
用哪個模型都好,會愈滾愈大的,是這條問題,不是模型。