20260404 嘗試 Claude Code
Published:Updated:
之前寫了好幾篇文章說 LLM 真爛,不過那都是在免費模型下的使用體驗,最近試了這世界上最強的 LLM 模型 Claude Opus 4.6 加上 Claude IDE 使用,應該更有資格講了吧。
做了一下功課發現 Claude Code 和 Claude IDE (VS Code) 基本上一樣只是有些功能 IDE 版本沒有而已,我沒有要搞啥複雜功能所以就求方便直接用 IDE 版本了,處理一個小專案,非常直覺簡單,CSS 才 1800 行,HTML 模板 3600 行,使用體驗大致如下:
- 確實比 Sonnet 聰明,不過沒有到非常顯著的差異,大部分任務 Sonnet 都可以做
- 和其他 LLM 的使用情況相同,要嘛你對要做什麼完全沒概念,要嘛你超級清楚要怎麼做然後清楚的寫給他,如果你大致清楚、沒有寫的非常詳細,他還是會亂做。
- 一開始使用確實非常爽,可以自動看 code 自動 grep 上下文,但是也就爽那一天而已,實際上就是去掉了手動複製、手動和 LLM 同步程式碼現況的環節,其他還是差不多
- 只要答案不在問題的表面,他就會開始亂查一通瘋狂浪費 token,即使是 CSS 這種簡單問題也無法快速處理
- 一樣的毫無邏輯能力,前一個回覆說「因為 A 有 X 特性所以排除」,下一個回覆說「選 B,因為他有 X 特性」,智障東西
- 用戶還是要有演算法等基礎能力,你要有能看出現在在處理的問題實際上是演算法的什麼問題,再這樣跟 LLM 講,處理效率就會回復正常1,前面講過,他看不出來非直接性的問題也沒有邏輯能力,因此要幫他分析問題
- Think mode 還是叫什麼名字的我忘了,就是那個回覆前會自己講一堆 CoT (chain of thought) 的,根本沒用,很容易看到 AI 自言自語講一堆但是全錯
- 遇到解決不了的問題怪東怪西就是不怪自己,需要重開一個對話不然他會在錯誤的基礎上繼續錯下去
- 這也是為什麼 TDD 測試驅動開發在 AI coding 會盛行,反正你就讓他自己慢慢跑跑到測試通過為止
- 睜眼說瞎話問題和 Sonnet 一樣
- 有機率回一回中間夾雜日文韓文跟東南亞語言
- Tailwind 死都不寫 arbitrary selector,質疑他就會給我一堆藉口
- 寫了 CLAUDE.md 都講用 pnpm 了,他媽的還在給我用 npm,狗智障
- 寫了 CLAUDE.md 說構建指令是 pnpm build 了,他媽的還是自創 build 指令測試,狗智障
- 有設計每週 token 而且額度極度不夠用,我覺得 600 元至少要給兩倍才值得,連這麼小的專案都會很容易用完,請注意因為是模板所以沒啥上下文關係,每次任務模板了不起也就讀個 3/400 行兩三個檔案這樣我都會把每週額度用完
- 沒根據,但是我猜測網路搜尋應該很噴 token
- 處理任務的方式和人類處理的方式完全不一樣,沒人會那樣解決問題
- 例如我的專案需要把 JS packages 導入到本地 lib,但是他媽的他一直給我讀 node_modules 裡面的原始碼
- 我最厭惡 LLM 的問題,我明明就說 A,硬要把 A 扭曲成 B,甚至都不是在長上下文中遺忘,相鄰對話就發生了,這種問題比早期 LLM 瞎掰更讓我厭煩
- 不處理程式碼,拿他來做一般聊天工具使用也非常容易誤讀誤解。比如問「有沒有前端框架可以做到像 Vitepress/Docusaurus 一樣的滑順 SPA 瀏覽」,然後他就會開始跟你講文檔工具而不是前端框架...智障東西
- /compact 指令可以濃縮打包對話,但是說好的上下文長度 1M token 我感受不太到,只要稍微長一點的任務就需要 compact 了
- 用到某種語境就會開始瘋狂反問用戶不處理問題,一直拋問題給用戶
- 所以還是要完全不把他當人看,把他當人對話絕對會生氣
總結來說就是有比 Sonnet 聰明,但是沒有想像中的聰明,LLM 該有的問題都還是有,一樣是只適合處理完全沒概念或是完全清楚的任務,然後額度過少。綜上所述我真的很懷疑那些說整天讓他自己跑的到底是在處理什麼任務,我這裡連 HTML/CSS 他都有障礙了,他們到底是能有什麼任務又多又簡單可以讓 Claude 一直跑,我能想到的大概就是審 PR,做一些真的很 atomic 無耦合的任務。結果到現在 AI 還是如我最開始所想的一樣產色圖最有用。
原本是寫超級提升,但是想想這算是回復正常,不然根本就在亂講亂寫一通。 ↩︎