12月1日,首銷手機字節(jié)跳動豆包團隊發(fā)布豆包手機助手技術(shù)預(yù)覽版。備貨
據(jù)介紹,豆包豆包手機助手,首銷手機是備貨在豆包 APP 的基礎(chǔ)上,和手機廠商在操作系統(tǒng)層面合作的豆包 AI 助手軟件?;诙拱竽P偷氖卒N手機能力和手機廠商的授權(quán),豆包手機助手能夠為用戶帶來更方便的備貨交互和更豐富的體驗。
現(xiàn)階段,豆包開發(fā)者和科技愛好者可以在豆包與中興合作的首銷手機工程樣機 nubia M153 上,體驗豆包手機助手的備貨技術(shù)預(yù)覽版本。目前該版本已面向開發(fā)者和科技愛好者少量發(fā)售,豆包售價 3499 元。首銷手機
豆包手機助手的備貨出現(xiàn),是豆包在試圖用 AI Agent 打通APP 之間,重構(gòu)移動互聯(lián)網(wǎng)的交互邏輯。
盡管當(dāng)前的演示仍需面對技術(shù)「不確定性」的免責(zé)聲明,但這種深入操作系統(tǒng)底層、追求「意圖直達服務(wù)」的嘗試,可能比單純的 Chatbot 更具革新意義。
或許,誰能率先解決「操作手機」的穩(wěn)定性難題,誰就能定義 AI 時代的「iPhone 時刻」。
據(jù)業(yè)內(nèi)人士向「極客公園」介紹,字節(jié)跳動與努比亞為這款工程機的首銷備貨量為 3 萬臺,并為此訂購了對應(yīng)數(shù)量的手機關(guān)鍵元器件。
從「對話框」到「行動派」
過去兩年,我們見慣了能寫詩、能畫圖的 Chatbot,但對于普通用戶而言,手機上最痛的痛點往往是繁瑣的操作流。豆包手機助手這次的大看點,在于它試圖從「對話」跨越到「行動」。
在技術(shù)預(yù)覽版的演示中,豆包展示了一種在此前 GUI Agent(圖形用戶界面代理)研究中常被提及的能力——它能像人類一樣「看懂」屏幕,并直接模擬點擊操作。
這種「看懂屏幕」并模擬人類操作的底氣,則源自豆包大模型在多模態(tài)能力上的積累。
據(jù)官方透露,該模型在視覺理解、推理以及圖像創(chuàng)作等維度的性能已處于國際第一梯隊。正是因為模型具備了精準的圖形界面(GUI)識別能力,它才能在多項權(quán)威評測中拿到高分,從而像人類一樣理解「按鈕」和「輸入框」的含義,而不僅僅是識別一堆代碼。
據(jù)豆包手機官方使用文檔介紹,豆包會根據(jù)意圖自動判斷是否調(diào)用 AI Agent 能力,若用戶對話開頭包含「幫我操作手機」,則會 100% 通過 AI 操作手機完成任務(wù)。
任務(wù)描述越詳細,它的執(zhí)行效率越高,執(zhí)行效果越好。例如:“打開美團外賣幫我把最近幾個訂單的好評寫了”。此外,AI 操作手機是在虛擬屏操作的,不會在前臺默認展開,也不會影響正在進行的其他任務(wù),你可以隨時返回桌面使用其他應(yīng)用。
用戶也可以直接跟豆包對話,講出需求,豆包可根據(jù)需求自動判斷是否通過操作手機功能完成,以及在豆包對話框底部功能按鈕中找到“操作手機”,點擊按鈕可手動描述需求,也可以設(shè)定定時等條件任務(wù)。
試想這樣一個場景:你在社交媒體上被種草了一款好物,過去你需要截圖、退出應(yīng)用、打開電商平臺、搜索、比價。
而在豆包的演示中,你只需說一句「幫我在全平臺比價下單」,AI 就能自動跨應(yīng)用跳轉(zhuǎn),搜索同款、對比價格規(guī)格、領(lǐng)券,甚至幫你選好最低價的商品填入購物車。
圖片來源:豆包手機使用指南文檔
雖然出于安全考慮,支付環(huán)節(jié)仍需人工確認,但前面那一系列機械的點擊和切換,AI 已經(jīng)代勞了。
甚至復(fù)雜任務(wù)也可以執(zhí)行。在官方演示的旅行規(guī)劃場景中,當(dāng)用戶提出「下個月去巴黎,幫我把收藏的餐廳標在地圖上,看看哪天有展并訂票」這樣一句包含多重意圖的指令時,AI 能夠迅速將需求拆解為 6 個子任務(wù):從查詢社交媒體收藏、到高德地圖標記、再到攜程訂票,最后整理進備忘錄。
這種跨應(yīng)用、多步驟的「任務(wù)鏈」執(zhí)行能力,可以說是 AI 從「玩具」邁向「工具」的關(guān)鍵分水嶺之一。
為了實現(xiàn)這種「類人」的交互,豆包打通了系統(tǒng)層面的多項權(quán)限。
在系統(tǒng)層面,豆包手機為 AI 能力設(shè)計了多種交互方式,用戶可以通過側(cè)邊鍵、語音甚至耳機喚醒它;在相冊里,它能直接聽懂「把路人 P 掉」的指令并執(zhí)行。
圖片來源:豆包手機使用指南文檔
在更復(fù)雜的「Pro 模式」下,它還能調(diào)用系統(tǒng)工具,結(jié)合記憶功能,直接完成「推薦禮物并放入購物車」這種需要多步推理的復(fù)雜任務(wù)。
圖片來源:豆包手機使用指南文檔
當(dāng)然,將屏幕控制權(quán)和個人喜好交給 AI,隱私安全始終是繞不開的話題。所以豆包團隊也強調(diào),這一功能支持按需開啟,并承諾嚴格保護數(shù)據(jù)隱私。
作為「技術(shù)預(yù)覽版」,豆包團隊也在視頻結(jié)尾特別提示,受限于大模型技術(shù)的不確定性,演示中的「絲滑」體驗?zāi)壳斑€無法百分百復(fù)現(xiàn),產(chǎn)品距離團隊的最終預(yù)期仍有差距。
這也體現(xiàn)了 AI Agent 目前最真實的狀態(tài):方向極度性感,但落地仍需時間打磨。
2 不造硬件的「第三條路」
在 AI 手機的浪潮中,一直存在兩種流派:一種是像 Google / Pixel 手機這樣,自研模型以及整套 AI 軟件產(chǎn)品體驗,并植入自家系統(tǒng);另一種則是純軟件廠商,試圖通過超級 APP 搶占入口。
圖片來源:Google
豆包選擇了第三條路:不做硬件,只做生態(tài)。
在發(fā)布預(yù)覽版的同時,豆包方面明確表示「沒有自研手機計劃」。他們的策略非常務(wù)實——通過與多家手機廠商洽談,以「操作系統(tǒng)層面合作」的形式,將豆包的大模型能力植入不同品牌的機型中。
這種「手機廠商 + 大模型廠商」的深度耦合,正在成為行業(yè)的一股新趨勢。
就像谷歌 Gemini 與三星的合作一樣,術(shù)業(yè)有專攻正逐漸成為共識。
對于手機廠商而言,從零打造一個具備頂級推理、視覺理解和復(fù)雜任務(wù)規(guī)劃能力的模型成本極高;而對于字節(jié)跳動這樣的互聯(lián)網(wǎng)巨頭,缺乏硬件載體則會讓 AI 始終隔著一層 APP 的玻璃墻,無法觸達用戶最核心的數(shù)據(jù)和場景。
目前的 nubia M153 工程機只是一個開始。售價 3499 元的門檻或許更多是面向開發(fā)者和極客人群的「邀請函」,旨在驗證這種跨界合作的技術(shù)可行性與用戶反饋。
或許,誰能率先解決「操作手機」的穩(wěn)定性難題,誰就能定義 AI 時代的「iPhone 時刻」。
光做一個APP,在 AI 時代已經(jīng)不夠了
豆包手機助手的出現(xiàn),本質(zhì)上或許是一次對移動互聯(lián)網(wǎng)交互邏輯的重構(gòu)。
大模型的能力越來越強,單純做一個 APP,在 AI 時代已經(jīng)不夠了。
AI Agent 需要接管更復(fù)雜的任務(wù)、感知更豐富的上下文,發(fā)揮一些真實的功能,才有更落地的價值,這意味著它必須走出軟件的圍墻,向下沉淀,與操作系統(tǒng)的底層權(quán)限和硬件能力進行深度整合。
過往,字節(jié)跳動一直是一支強大的“空軍”——擁有極致的算法和龐大的應(yīng)用生態(tài),但在操作系統(tǒng)和終端硬件上,相比擁有 Android 的谷歌或擁有全場景終端的華為,字節(jié)始終缺少一塊落地的“陣地”。
在移動互聯(lián)網(wǎng)時代,這或許不是問題,但在 AI 需要深度介入用戶場景的當(dāng)下,缺乏硬件載體可能意味著喪失對場景的感知力。
豆包手機助手的推出,像是字節(jié)在當(dāng)下階段拋出的一次探索。
從 Pico 到 Ola Friend,再到如今深入手機 OS 層的助手,字節(jié)正在小心補齊“硬件觸點”這塊短板。
這或許并不是未來兩三年行業(yè)的最終形態(tài),但至少可以確認的是:字節(jié)已經(jīng)意識到,想要讓 AI 真正跑通,必須邁出“軟硬結(jié)合”的這關(guān)鍵一步。