地瓜機(jī)器人發(fā)布 RDK X5 和 RDK S100,全場景覆蓋劍指具身智能時(shí)代
Gemini 陣容擴(kuò)大,生成式 AI 能力更強(qiáng)院塞,搜索重置更新遮晚,多模態(tài) AI 助理看點(diǎn)多
Google I/O 開幕演講回顧:整體來看驚喜不多,基礎(chǔ)建設(shè)穩(wěn)扎穩(wěn)打
谷歌 CEO 桑達(dá)爾·皮查伊為剛剛結(jié)束的 Google I/O 開幕演講做了總結(jié):
一個(gè)半小時(shí)的主題演講汹族,120 次提及「AI」萧求。不,是 121 次顶瞒,剛剛我又說了一次夸政,我甚至還想多說幾次,讓這個(gè)數(shù)字再擴(kuò)大一些……
甚至為了給 AI 讓路榴徐,Google Pixel 8a 在 I/O 大會(huì)前就開啟預(yù)售守问。而以往的重頭戲 Android 部分的解說,直接和谷歌大模型 Gemini 綁定坑资,變成以 AI 為內(nèi)核的操作系統(tǒng)耗帕。
繼上次 Sora 截胡 Gemini 1.5 之后,OpenAI 故伎重演袱贮,在 Google I/O 開幕前一天甩出了 GPT-4o仿便,免費(fèi)升級(jí)讓整個(gè)科技互聯(lián)網(wǎng)狂喜。
> 延伸閱讀:OpenAI 熱辣滾燙,Google 紅毯先生窑业,春節(jié)檔創(chuàng)紀(jì)錄
Gemini 不甘示弱,更新了多項(xiàng)大模型和工具枕屉,發(fā)布了諸多新功能常柄。在生成式 AI 方面,谷歌還展示了與 OpenAI 分庭抗?fàn)幍奈纳鷪D搀擂、文生視頻的新能力西潘。
此外,新的融合了多模態(tài) AI 能力的語音助手 Project Astra 也有很多看點(diǎn)哨颂。
Gemini 1.5 Pro 新增 200 萬 tokens 參數(shù)
去年 12 月喷市,Gemini 首次亮相,并發(fā)布了 Gemini 1.0 版本威恼。
今年 2 月品姓,Gemini 1.5 Pro 正式發(fā)布寝并,具有 100 萬 tokens 參數(shù)、長上下文處理能力腹备、多模態(tài)交互能力衬潦。
會(huì)上桑達(dá)爾·皮查伊公布了一組數(shù)據(jù),目前有超過 150 萬開發(fā)者使用 Gemini 模型植酥,Gemini 也已進(jìn)駐至 Android镀岛、iOS 系統(tǒng)。
隨著使用量的增加友驮,需求也發(fā)生著巨大的變化漂羊,比如用圖片提問,現(xiàn)在已經(jīng)變得越來越常見卸留。此次 Gemini 家族的諸多更新走越,即是為了響應(yīng)用戶需求。
首先迎來的是 Gemini 1.5 Pro 的功能改進(jìn)艾猜,在翻譯买喧、推理、編碼等關(guān)鍵用例上做了優(yōu)化匆赃,能夠勝任更復(fù)雜的任務(wù)處理淤毛。
新版本 Gemini 1.5 Pro 除了 100 萬 tokens 參數(shù)外,還新增了 200 萬 tokens 選項(xiàng)算柳,語言種類也擴(kuò)展至 36 種低淡。
基于新版本 Gemini 1.5 Pro 更新的 Gemini Advanced 能夠處理多個(gè)大型文檔,總計(jì) 1500 頁瞬项,或梳理 100 封電子郵件蔗蹋。
未來 Gemini 1.5 Pro 還將繼續(xù)擴(kuò)大適用范圍,預(yù)計(jì)將向全球 200 多個(gè)國家和地區(qū)提供使用囱淋。
輕量級(jí)模型 Gemini 1.5 Flash猪杭,主打短頻快
Gemini 1.5 Flash 是 Google 發(fā)布的一款新的輕量級(jí)模型,主要用于處理高頻妥衣、簡單任務(wù)皂吮,具備快速響應(yīng)能力。
和 Gemini 1.5 Pro 一樣税手,具有 100 萬 tokens 參數(shù)蜂筹,以及支持文本、圖像芦倒、語音艺挪、視頻等多模態(tài)交互能力。
端側(cè)模型 Gemini nano兵扬,與 Android 底層系統(tǒng)集成
Gemini nano 是一款端側(cè)輕量級(jí)大模型麻裳,將集成在 Android 底層系統(tǒng)口蝠,作為一項(xiàng)能力向設(shè)備提供,首先是自家的 Pixel 手機(jī)掂器。
Gemini nano 能支持語音理解亚皂、圖像識(shí)別,以及將消息国瓮、郵件和文檔灭必,提煉合成簡潔、可讀的摘要內(nèi)容乃摹。
具體用例方面禁漓,Gemini nano 可以讀懂手機(jī)界面上的信息、提煉 PDF 等文檔關(guān)鍵信息孵睬,并支持語音問答播歼。
另外,Gemini nano 還能根據(jù)陌生電話涉及的索要身份信息掰读、銀行賬號(hào)等敏感詞匯秘狞,識(shí)別詐騙電話。
開源模型 Gamma 2蹈集,性能是同尺寸模型 2 倍烁试,計(jì)劃今年 6 月發(fā)布
會(huì)上,谷歌還預(yù)告了開源模型 Gamma 2 的發(fā)布時(shí)間拢肆,如果一切進(jìn)展順利减响,6 月即會(huì)推出。
據(jù)悉 Gamma 2 具備 270 億訓(xùn)練參數(shù)郭怪,性能表現(xiàn)是同尺寸模型的 2 倍支示,并可在 GPU 或 Vertex AI 中的單個(gè) TPU 主機(jī)上運(yùn)行。
而當(dāng)前的 Gamma 則新增了 PaliGemma 視覺語言模型鄙才,并針對(duì)圖像字幕視覺問答和其他圖像標(biāo)簽任務(wù)進(jìn)行了優(yōu)化颂鸿。
文生圖模型 imagen 3,主打高清圖像
文生圖模型 Imagen 升級(jí)至 Imagen 3 版本攒庵,主要改進(jìn)了圖像質(zhì)量据途。
Imagen 3 模型帶來了更具細(xì)節(jié)特征的圖片,如動(dòng)物的胡須叙甸、人的頭發(fā),絲毫畢現(xiàn)位衩。
同時(shí)裆蒸,去除了圖像中常見的偽影、雜質(zhì)糖驴,使得圖片更加逼真僚祷。
文生視頻模型 Veo佛致,60 秒 1080P 的短視頻,很快會(huì)有消費(fèi)者版本
Veo 以 Google 多年生成式視頻模型為基礎(chǔ)構(gòu)建辙谜,包括 GQN俺榆、DVD-GAN、Imagen-Video装哆、Phenaki罐脊、WALT、VideoPoet蜕琴、Lumiere萍桌,能夠理解文本內(nèi)容,輸出高質(zhì)量凌简、高分辨率的視頻上炎。
Veo 可以生成 1 分鐘時(shí)長 1080P 分辨率的短視頻,并能理解文本中的「延時(shí)拍攝雏搂、航拍」鏡頭拍攝風(fēng)格藕施。
谷歌表示,目前正在邀請(qǐng)電影制片人和創(chuàng)作者測試 Veo凸郑,以打磨出適用于消費(fèi)者的版本裳食。
生成式音樂工具 Music AI Sandbox
Music AI Sandbox 基于生成式音樂模型 Lyria,并與 YouTube线椰、音樂家胞谈、創(chuàng)作者聯(lián)合打造。
利用 AI憨愉,音樂人可以在音樂中添加新的音樂元素烦绳、樂器聲,以生成全新的音樂曲目配紫。
AI 重構(gòu)搜索:全新 Overviews 亮相径密,視頻搜索在路上
以搜索見長的谷歌,這次索性用 AI 將搜索引擎折騰了個(gè)遍躺孝。
搜索引擎將支持語音享扔、圖片、圈選植袍,甚至是視頻搜索惧眠,給出的結(jié)果也將是多維度、極豐富的于个,谷歌稱這種新的呈現(xiàn)方式「Overviews 概覽」氛魁。
如簡單問題提問,搜索引擎可以給出帶有觀點(diǎn)性、內(nèi)容性的不同內(nèi)容回復(fù)秀存。
對(duì)于復(fù)雜問題捶码,AI 會(huì)將復(fù)雜問題分解為小問題,并按照順序或链,逐步呈現(xiàn)惫恼。
例如,當(dāng)提出:我想報(bào)一個(gè)離我家較近澳盐、價(jià)格適中的瑜伽班祈纯?
搜索引擎就會(huì)基于需求,從海量的真實(shí)商家信息中洞就,抽離出符合需求的課程盆繁。不僅如此,「Overviews 概覽」界面還會(huì)給出地圖旬蟋、商戶的評(píng)價(jià)油昂,甚至是瑜伽練習(xí)的要領(lǐng)提示等信息。
再比如倾贰,對(duì)于我們?nèi)粘]^為苦惱的飲食安排冕碟,你也可以在搜索引擎中直接提出:幫我安排為期七天的飲食菜譜,而即刻獲得包含圖片匆浙、文字安寺、做法的搜索內(nèi)容。
此外首尼,谷歌還預(yù)告了「視頻搜索」功能挑庶。
會(huì)上透過一段用戶拍攝的唱片機(jī)搖臂安裝問題發(fā)起搜索。AI 通過對(duì)視頻逐幀分析后软能,一份包含唱片機(jī)廠商迎捺、型號(hào),安裝方式等內(nèi)容的「Overviews 概覽」即出現(xiàn)在眼前查排。
Workspace 獲 Gemini 1.5 加持凳枝,主打一個(gè)高效、協(xié)同辦公
谷歌辦公應(yīng)用 Workspace 的更新跋核,倒是有些看點(diǎn)岖瑰。
Gmail、文檔砂代、幻燈片蹋订、表格的側(cè)面板中的 Gemini 將升級(jí)至全新的 Gemini 1.5 Pro,通過上下文窗口和更高級(jí)的推理刻伊,提供服務(wù)露戒。
如在 Gmail 中难礼,Gemini 可以對(duì)多封郵件,進(jìn)行關(guān)鍵信息提煉玫锋,形成一份待辦事項(xiàng)清單。
這當(dāng)中谷歌列舉了兩個(gè)有趣的例子:
其中之一讼呢,丈夫發(fā)給妻子希望修繕屋頂?shù)泥]件撩鹿。妻子利用 Gemini 在眾多供應(yīng)商回應(yīng)郵件中,快速尋找到合適價(jià)格悦屏、合理工期的供應(yīng)商节沦。并且 Gemini 還具體問題,生成了自動(dòng)回復(fù)础爬,這著實(shí)讓妻子大為滿意甫贯。
而另一個(gè)例子,是一個(gè)自由攝影工作者看蚜,在繁忙的工作中叫搁,收到各種出差時(shí)的差旅單據(jù)時(shí),通過 Gemini 將單據(jù)快速生成條目清晰的表格供炎。
另這位攝影工作者欣喜的是渴逻,Gemini 還能一鍵設(shè)置命令,Gmail 中所有同類單據(jù)都并入至一份表格音诫,而可統(tǒng)一管理惨奕。
另外,針對(duì)職場常見的拉群工作溝通竭钝,谷歌還打造了一個(gè)由 AI 驅(qū)動(dòng)的工作助理梨撞。
工作助理是一個(gè)虛擬同事,你甚至可以給它起名香罐。
在群組內(nèi)卧波,它可以學(xué)習(xí)群內(nèi)聊天內(nèi)容、項(xiàng)目背景信息穴吹,慢慢進(jìn)化到對(duì)項(xiàng)目了如指掌的狀態(tài)幽勒。
演示視頻中,工作人員向其發(fā)問:咱們的項(xiàng)目能如期上線嗎港令?
工作助理基于所掌握的信息啥容,瞬間列明項(xiàng)目進(jìn)度、待解決的重要事項(xiàng)顷霹,并且將任務(wù)發(fā)送給所負(fù)責(zé)的同事咪惠。
活脫脫一個(gè)項(xiàng)目經(jīng)理啊淋淀!
Gemini 手機(jī)版 App 上新遥昧,多模態(tài)入口設(shè)計(jì),可創(chuàng)作多角色聊天機(jī)器人
經(jīng)過全新設(shè)計(jì)的 Gemini APP,直接以語音炭臭、圖片永脓、視頻為輸入口,并能訪問 Gemini 最新的版本鞋仍。
谷歌表示常摧,Gemini APP 的愿景是成為最有用的個(gè)人 AI 助理。
基于此威创,Gemini APP 還提供支持創(chuàng)建 Gems 個(gè)性化聊天機(jī)器人落午,可讓用戶與不同角色的機(jī)器人對(duì)話。
會(huì)上 Google 就列舉了如瑜伽搭子肚豺、大廚溃斋、編碼伙伴等角色形象。
第六代 TPU Trillium 低調(diào)發(fā)布吸申,性能提升 4.7 倍
作為 Gemini 等大模型背后的硬件支柱梗劫,第六代 TPU Trillium 在會(huì)上也僅作為配角低調(diào)發(fā)布。
就性能而言呛谜,Trillium 還算夠強(qiáng)大在跳。會(huì)上谷歌表示,相比 TPU v5e隐岛,Trillium 每個(gè)芯片峰值計(jì)算性能提高了 4.7 倍猫妙,能效高出 67%。
其中 Trillium 還配備了第三代 SparseCore聚凹,一款處理超大嵌入的專用加速器割坠。同時(shí),Trillium TPU 可以更快速訓(xùn)練下一代基礎(chǔ)模型妒牙,并以比較短的延遲時(shí)間及低成本提供模型服務(wù)彼哼。
智能助理 Project Astra 和 AR 眼鏡
Project Astra 是谷歌最新的實(shí)時(shí)多模態(tài) AI 助理。
會(huì)上湘今,演示者手持 Pixel 手機(jī)敢朱,演示了 Astra 與各種事務(wù)的多模態(tài)交互能力。
與 Pixel 手機(jī)先后出現(xiàn)的摩瞎,還有首次亮相的一款新 AR 眼鏡拴签。
有關(guān)這部分的詳細(xì)解讀,參考今天推送的第二篇旗们。
主筆:達(dá)達(dá) / 深圳灣
審校:周森 / 深圳灣
編輯:陳述 / 深圳灣