#415926 post — cnBeta.COM中文業界資訊站 (@cnbeta_com

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

cnBeta.COM中文業界資訊站

12 Dec 2024, 04:06

Telegram'da ochish Ulashish Shikoyat qilish

Google深夜祭出Gemini2.0「硬剛」OpenAI Agent時代最強模型登場了？

據Google稱，這是Agent 時代迄今為止為最強大的 AI 模型，相比上一代 Gemini 模型，2.0 在速度上快兩倍，並且比更大的「專業」版 Gemini 1.5 更加強大。此外，該版本帶來了增強的性能、更多的多模態性和新的原生工具。相比上一代模型，Gemini 2.0 增加了什麼？Google行政總裁 Sundar Pichai 在一份聲明中表示：「如果 Gemini 1.0 致力於組織和理解信息，那麼 Gemini 2.0 則致力於讓信息變得更加有用。」Google最新的大語言模型在大多數用户請求領域都比其前代產品表現更好，例如代碼生成和根據用户請求提供事實正確響應的能力。在Google DeepMind CEO Demis Hassabis 和Google DeepMind CTO Koray Kavukcuoglu 代表 Gemini 團隊撰寫的博文中，詳細介紹了 Gemini 2.0 版本的具體特性。據他們稱，Gemini 2.0 Flash 以 1.5 Flash 的成功為基礎，是Google目前最受開發者歡迎的版本，在同樣快速的響應時間下具有增強的性能。值得注意的是，2.0 Flash 在關鍵基準測試中甚至比 1.5 Pro 更快，速度是 1.5 Pro 的兩倍。2.0 Flash 還具有新功能。除了支持圖像、視頻和音頻等多模式輸入外，2.0 Flash 現在還支持多模式輸出，例如與文本混合的原生生成的圖像和可操縱的文本轉語音 (TTS) 多語言音頻。它還可以原生調用 Google 搜索、代碼執行以及第三方用户定義函數等工具。過去一個月，Gemini 團隊一直在分享 Gemini 2.0 的早期實驗版本，並得到了開發人員的積極反饋。Gemini 2.0 Flash 現已作為實驗模型通過 Google AI Studio 和 Vertex AI 中的 Gemini API 向開發者提供，所有開發者均可使用多模式輸入和文本輸出，早期合作夥伴可使用文本轉語音和原生圖像生成功能。1 月份將全面上市，同時將推出更多模型尺寸。為了幫助開發人員構建動態和交互式應用程式，Google還發佈了新的 Multimodal Live API，它具有實時音頻、視頻流輸入以及使用多個組合工具的能力。要訪問實驗版本 Flash 2.0 的聊天優化版本，Gemini 用户可以在桌面和流動網絡上的模型下拉菜單中選擇它。該公司表示，它將很快在 Gemini 流動應用程式上提供。Gemini Flash 2.0 的多模版本將通過 Google 的 AI Studio 和 Vertex AI 開發者平台提供。該公司還表示，計劃在 2025 年初將 Gemini 2.0 擴展到更多Google產品。推出 Deep Search 新功能Google此次發佈的還不僅僅是大模型。Google宣佈將推出一項名為 Deep Research 的新功能，它使用高級推理和長上下文功能充當研究助手，探索複雜主題並代表用户編寫報告。它今日起已經 Gemini Advanced 中可用。據Google方面稱，Search 無疑是受到人工智能影響最深遠、變革最顯著的產品。如今，AI Overviews 已觸達 10 億用户，該功能使用户能夠提出全新的問題類型，迅速成為 Search 有史以來最受歡迎的功能之一。接下來，Google會將 Gemini 2.0 的高級推理能力融入 AI Overviews，以攻克更複雜的主題和多步驟問題，包括高等數學方程、多模態查詢和編碼。同時，Google還計劃明年將 AI Overviews 功能面向更多國家開放，適配更多語言。2.0 基於Google定製的硬件第六代 TPU Trillium 構建而成。TPU 為 Gemini 2.0 的訓練和推理提供 100% 算力支持，今天 Trillium 也全面向用户開放，以便他們能夠基於此進行開發。通過 Gemini 2.0 解鎖 Agent 體驗Gemini 2.0 Flash 已經進行了原生用户界面操作能力的改進，其他改進還包括多模式推理、長上下文理解、複雜指令跟蹤和規劃、組合函數調用、原生工具使用和改進的延遲等。自大模型誕生以來，AI Agent 的實際應用是一個非常火爆的研究領域。Google正在通過一系列原型探索這一新領域，這些原型可以幫助人們完成任務並完成工作。其中包括對 Project Astra 的更新，這是Google的研究原型，旨在探索通用人工智能助手的未來功能；新 Project Mariner，它從瀏覽器開始探索人機交互的未來；以及 Jules，一個可以幫助開發人員的 AI 代碼 Agent。Gemini API 集團產品經理 Shrestha Basu Mallick 和Google實驗室產品總監 Kathy Korevec 表示：「從今天開始（對於受信任的測試人員），你可以將 Python 和 JavaScript 編碼任務轉移給 Jules。Jules 可以異步工作並與你的 GitHub 工作流程集成，處理錯誤修復和其他耗時任務，而你則專注於你真正想要構建的內容。Google也表示，即便技術持續迭代，但 Gemini 系列模型仍處於開發的早期階段，他們很高興看到那些值得信賴的測試人員如何使用這些新功能以及他們可以從中學到什麼經驗，這樣就可以在未來的產品中更廣泛地使用它們。硬剛一眾 AI 獨角獸，Google更勝一籌？Gemini 2.0 是Google在科技行業日益激烈的人工智能競賽中的最新成果。Google正在與科技巨頭微軟、Meta 以及一眾 AI 明星獨角獸如 OpenAI、Perplexity 和 Anthropic 等初創公司展開激烈戰爭。Google這一波出手在技術社區引發了熱議，一名 Reddit 用户對 Gemini 2.0 的發佈表示震驚，他評論道：「我不知道我現在的感受是什麼。興奮、擔憂、不安、好奇以及對 AI 的絕對敬畏交織在一起。超現實的是，我們正在經歷這種改進，並且每次發佈的迭代都給我們留下了深刻的印象。我甚至都不敢想像 10 年後的情況。看看 2004 年到 2014 年的科技各個方面都取得了巨大進展，但與這兩年 AI 勢頭相比還有很大差距。」有用户調侃，Google甚至都等不及 OpenAI 把「瘋狂發佈周」過完再來炸場，結合前兩日 Sora 潦草發佈，有不少網友直接站隊Google：「Google的 Gemini 絕對是是 GPT-5 級別的威脅，我從未見過一家公司發佈如此強大的模型讓開發者免費試用。」隨着新 Flash 模型的發佈，這場 AI 軍備競賽已經進入白熱化階段。據Google公司稱，Agent 模型「可以更好地了解你周圍的世界，提前思考多個步驟，並在你的監督下代表你採取行動。」上周，在《紐約時報》 DealBook 峯會上與安德魯·羅斯·索爾金 (Andrew Ross Sorkin) 的對話中，Google CEO 皮查伊對微軟的人工智能進步提出了質疑，表示他「很樂意在任何時候」對兩家公司的模型進行並排比較。安德魯·羅斯·索爾金問皮查伊：「相對於其他參與者，你認為自己處於什麼位置？」皮查伊表示他很想進行並排比較，隨後他補充道：「他們使用了別人的模型。」「你這是在向我發起挑戰。」索金回答道。皮查伊笑着搖了搖頭，補充道：「我只是——我非常尊重他們和他們的團隊。」微軟當家人納德拉對於Google技術實力也給予了很高的肯定。早在今年 3 月份，微軟 CEO 納德拉在挪威銀行投資管理播客上表示：「Google本應就是大型科技公司 AI 競賽的默認贏家。Google是一家非常有能力的公司，他們既有人才，又有計算能力。他們是這個領域的垂直整合參與者。他們擁有從數據到晶片到模型到產品和分銷的一切。」 ...

PC: https://www.cnbeta.com.tw/articles/soft/1462336.htm
Mobile: https://m.cnbeta.com.tw/view/1462336.htm

Google深夜祭出Gemini2.0“硬刚”OpenAI Agent时代最强模型登场了？ - Google 谷歌 - cnBeta.COM

就在OpenAI“12天连续轰炸”的第五天，Google终于坐不住了。刚刚，Google正式发布了Gemini2.0系列人工智能模型的首个版本，该模型名为Gemini2.0Flash，提供聊天版本供全球用户使用，同时还有一个实验版的模型可供开发人员免费使用，该版本具有文本转语音和图像生成功能。

2 0 0