載入中...
載入中...
2026/3/17

OpenAI (ChatGPT 的母公司) 剛釋出 Windows 版的 Codex 桌面應用程式,在 Microsoft Store 上面可以找到。
基於知識平權,大家可以考慮使用看看,但是我想分享的,可能更多是一些結構性問題的分享與觀察,算科普嗎?有一些可能也是外行人的小 murmur。
GPT, Gemini, Claude 這些 Models,想要從資訊問答型的輔助,變成對大家更有用、更有幫助的一個方向,是可以實際幫你做事情。
然而,數位系統可能比大家想像的更貼近現實生活的複雜紛亂。
舉例來說,有一個員工,開始想要進來你開的商店打工,你要怎麼評估他的能力?
看履歷是一個常見的做法,試用期也是,但是這些都建立在我們認為這個商店在人類的基本操作能力下,就算有些做不到,也不會出事的認知。比如咖啡機怎麼操作,不會的話他會主動問,或者確認操作說明書。要去哪裡找特定貨品,對商店內區域不熟,他可能先一個一個找,真的找不到看老闆比較沒有在忙才禮貌性的詢問。
這個認知與戒備門檻,會隨著行業的專業程度以及牽扯到的經濟或時間成本拉高。白話一點來說就是,出事的風險越高,越不信任交給一個新來的員工,在對他的能力還沒有完全認知的狀態下。
數位系統在人類的認知,至少就我個人感覺,只會比實際工作公司的空間更扁平、更虛無飄渺不具體。因此這個認知門檻,有的人會更戒慎恐懼,有些人則比較無所謂。
前端的 AI 公司,為了能把這個認知門檻以及出事風險降低,其實一直在思考授權、沙盒以及防禦機制。但是這些機制在數位系統上一定不夠人性,畢竟定義什麼動作需要授權,什麼不需要,在現實世界也是一個很複雜的議題。
想像一下,如果剛剛那位新請進來的員工,想要拿一個放在桌上的操作指引書,拿一罐放在調味品區的食鹽想要加一些下去,每一步都要經過你確認——這樣累積起來絕對會決策疲勞,你會覺得這個員工怎麼這麼囉唆怕事膽小。
所以有很多人選擇繞過授權機制,直接完全把所有的操作權利授權給這些公司出的 Agent 幫手。這樣做,有些人效率以及產出變成非常高,完全飛起;但也有些人出事了,檔案被刪光光,重要資訊裸奔等等。
這些又牽扯到一些數位系統體系的架構或者習慣,甚至價值觀問題。
今天角色異位,讓我們來當當看這位新進的員工。
現在你站在一個櫃子與設備擺放整齊的商店,嚴謹到每個設備如咖啡機、冰箱、烤箱上面都掛著操作說明書以及操作安全守則手冊。你是不是比較有自信一點可以自己探索完成任務了?因為你對於每一步會發生什麼事,或者錯誤步驟會有什麼提示,都一目瞭然。
接著讓我們把環境複雜一點,可能⋯⋯想像成百貨公司內家電廠牌的羅列部門,你走進去,看到好多款不同新家電的設計。儘管他們看起來閃亮亮,好像都很吸引人(筆者必須承認以前有一段時間很愛逛亂玩⋯⋯)。問題來了,你敢保證一眼就看出來每個設備怎麼操作嗎?有的按鈕按下去你就是會有那個恐懼以及不確定感存在。
在現代常見以視覺介面的系統環境,更像是後者的環境。每家服務、廠商、以及在 Windows 上的介面設計,都有各自的習慣、考量還有設計理由。但問題是,僅透過第一時間的視覺交互,就算是聰明絕頂的人,可能都要稍微推理推敲一下,更何況是一般使用者?
同理,對這些模型助手來說,這並不是最有效率的功能認知交換模式。
Unix-like 系統 (macOS, Linux...) 以及純文字指令 CLI 模式,則出乎意料地在這一方面有先天優勢。他更像是前面舉例的每件事都整理得妥妥當當的商店。
這牽扯到,其實 Unix-like 許多工具以及指令已經發展了數十年(應該有超過二十年?)。設計良好的 CLI 文字指令工具,正如同記載清楚的說明書以及步驟守則,每一個參數代表什麼意義,每一個步驟如果沒做對,也會盡可能有清楚的錯誤訊息。
Windows 系統本身在 GUI 有非常多包袱,同時文字指令系統有換代,前一代的完整性以及可操作性不如 Unix-like 系統。
OpenAI 以及 Claude 出的工具,有非常明顯的趨勢,會先出在 macOS,或甚至只在 macOS 上面運作最好。除了 macOS 原生 Unix-like 內建這些完整的 Unix 工具以外,還有就是 macOS 其實有完整的 AppleScript 可以允許透過文字指令操作 GUI 介面,也就是普通的提醒事項、行事曆操作,其實可以透過文字指令完成增刪修改。
回到員工本身的認知,這代表他在這個環境內,對每一步會發生什麼事,或者可以操作的物品項目,都有非常清楚的認知。但是在 Windows 以及其他環境,他面對的就像是一團混沌,很多事情要自己探索,甚至做了以後發生什麼事非常不透明(Windows 軟體各家開發獨立,很多程序基本上是黑箱也就是訊息不揭露)。認知推理成本非常高,很多員工可能探索到一半就直接放棄。
回到這些 AI 公司本身,他們的角度是希望有更多人可以使用他們出的工具當作員工。可是這些問題要怎麼解決?總不可能叫大家全部去用 macOS 吧?(雖然之前有一波還真的帶動了 Mac mini 熱賣潮⋯⋯)
為了降低前面提到過的授權阻力以及這個問題,目前我看到有幾種解決方向:
不管是進階使用者自己來,還是這些 AI 公司自己提供。以 ChatGPT 的桌面應用程式來說,可以注意到他的 Agent 模式會建立一個隔離環境,然後執行程式指令操作,這樣內部發生什麼事都不會影響外面。同時很多工具本身本來就有沙盒 (sandbox) 模式。另外有一些進階使用者,使用這些 AI 公司提供的工具,都會自己建立隔離環境,如限制讀寫目錄、建立虛擬機之類的。
也就是直接螢幕截圖或者取得網頁介面上的操作元件位置,然後進行操作。事實上,如果你完全不擔心隱私資料問題,中國那邊事實上已經實現把手機完全交給雲端 AI 控制,他可以幫你發訊息、自動上網搜集資料、自動篩選社群網站上所需資訊,全部自動化。
但是接下來就會扯到另外一個極端複雜的問題:資料授權的交互以及隱私邊界在哪裡?
我們把角色又更換一下,如果今天你是一個要處理行政事務的一般民眾,走進去政府機關要辦事,政府機關要怎麼確認你是不是真的是民眾本人?常見的認證程序是身分證件、照片辨識。
但是在數位系統,這個程序要怎麼落實?總不可能說你的 Gmail 報一下密碼就直接通行吧?這樣每個工具都可以對你的 email 進行操作你放心?更別提密碼跟身分證字號這種東西外洩在網路世界已經是常見的事了。
所以光這個不同資料存取的授權認證,本身就是這些 AI 工具助手很大的阻力。
或者把角色疊加上去,如果今天一個你公司的員工,跑去經濟部說要申請公司營業變更,他們要如何核實這個員工真的是代表你本人?
我們陰謀論一點,外面的人挾持這個員工,讓他偷了你公司的認證文件並且偽造你的簽名,也不是不可能。那麼現在的 Agent 代理人工具呢?在數位系統內他甚至沒有情緒、表情、以及其他求救訊號讓你判斷真偽。
這也是為什麼在 AI 工具被希望要更加智慧的狀況下,資訊安全政策也更加敏感被重視。
macOS 在安全上有先天優勢是,每一種操作權限,如同你去政府部門申請讀取或寫入什麼樣的個人資料,都有完整的流程以及限制。Windows 其實也有,而且要調也可以很嚴格,但是預設不若 macOS 嚴格有條理,因此這也是一個這些 AI 工具為何更適合運作在 macOS 系統的因素。
這篇文不知不覺就打到非常長了,最後來個收尾。
如果你真心想要好好用好這個 AI 員工,綜合以上因素,我們發現有很多阻力因素,這也是為什麼有些人已經用到飛起,但是還沒有順利落地到一般人手中。
新請的人類員工,再怎麼樣都有一個基本現實框架,你可以預期他會做什麼,他不會做什麼。然而 AI 工具,大部人的認知仍然停留在問答以及資訊搜集,涉及到資料變更修改的狀況,無法這麼放心的直接交給他。
另外,AI 工具並不像真人一樣,有與你互動的默契。這個默契一部分是他會主動漸漸磨合到你可以直接評估他能力邊界到哪裡。AI 工具只會等你發號指令,並且提示你還可以做什麼。
這時候,有寫程式以及系統操作知識的工程師就是能力發揮的最佳族群,因為工程師所認知的程式以及文字指令可以做到的事情,就是 AI 工具的部分上限。同時越強大的模型,他越能自己編排這些程式的規劃順序以及執行步驟,也就是越能將你交代的模糊不清的指令,化成具體的程序步驟。
要繞開限制阻力,正確解放 AI 工具,必須建立好完整的資料邊界,或者準備好相關保護備份措施。然而這些能力主要體現在熟知數位系統的工程師。
你要一般人準備好沙盒、隔離環境?你要他懂得定時備份?你丟一堆專有名詞如 git, docker, VM, WSL⋯⋯我看大部分人直接頭昏。甚至筆者寫到這邊又猶豫前面寫到 Unix 是不是已經太超過了。
另外數位授權的阻力本身也是阻礙,在資安防範措施日益嚴格的情況下,我如果要允許 AI 工具操作我散落在不同雲端服務的數位資產,如 Gmail, Google Calendar, 或者其他服務,光存取介面有沒有完整的認證機制要去探索就是一個時間以及精力成本,就像百貨公司羅列的那些家電一樣。
基本上,當你開始用 AI 工具處理這些文件,你就要接受這些文件內含的資訊絕對會被上傳到雲端伺服器,可能被公司做處理運用。比如說我的身分證件照片、我的銀行帳戶明文,只要我開始叫他整理,一定都會被傳上去。
當你有這麼一絲絲的不放心,卻又無法對自己的資料做去敏感化處理,那麼你對 AI 工具就不會願意使用。這也是為什麼有一派路線是希望發展本地端 AI。
回到文章一開頭,Windows 版的 Codex 工具雖然已經釋出,並且我鼓勵大家探索,但其實對手 Claude 應該已經有類似的工具。
同時我的語氣也沒有很積極,為什麼?
因為有以上討論的問題,以及 Windows 的先天適性。我甚至看到這個 Codex 桌面版工具是透過 WSL 工具去跑,也就是在 Windows 內建立一個 Linux 虛擬機隔離起來。但是依我對 Windows 三天兩頭出問題的認知(筆者很久沒用 Windows 辦正事了,上一次是使用自然人憑證),我覺得他的使用率一定無法像 macOS 這邊上去(出問題不要找我,甩鍋的意思X)。
所以這篇可能更像是一個外行人的科普 murmur 文吧。
為你挑選相似主題

LLM 的輸出為什麼總有一股 AI 味?從輸入法預測到推薦演算法,再到大型語言模型,本質上都是機率關聯性的預測運算。當模型只能從既有資料中尋找最可能的模式,那些從未出現過的新奇事物,是否注定被忽略?筆者稱之為「相關性的詛咒」。

