Google推出全新人工智能模型Gemini 2.0 用途更為廣泛
2.0 Flash 的實驗版本將從今天開始通過 Gemini API 和 Google 的人工智能開發者平台AI Studio 和Vertex AI 提供。 不過,音頻和圖像生成功能僅面向"早期訪問合作夥伴"推出,並將於 1 月份全面推出。Google表示,在未來幾個月內,它將為Android Studio、Chrome DevTools、Firebase, Gemini Code Assist等產品帶來各種版本的 2.0 Flash。第一代 Flash(1.5 Flash)只能生成文本,並不是為要求特別高的工作負載而設計的。 Google 表示,這種新模式更具通用性,部分原因在於它可以調用搜索等工具並與外部 API 進行交互。產品主管圖爾西-多希(Tulsee Doshi)在周二的發佈會上説:"我們知道,Flash 在速度和性能之間取得了平衡,因此深受開發人員的歡迎。有了 2.0 版 Flash,它的速度一如既往,而且功能更加強大。"Google聲稱,根據自己的測試,2.0 Flash 在某些基準測試中的速度是該公司 Gemini 1.5 Pro 模型的兩倍,而且在編程和圖像分析等方面有了"顯著"改進。 事實上,該公司表示,2.0 Flash 憑藉其卓越的數學能力和"事實性",取代 1.5 Pro 成為 Gemini 的旗艦模型。如前所述,2.0 Flash 可以生成並修改文本和圖像。 該模型還能採集照片和視頻以及錄音,以回答相關問題(例如"他説了什麼?)音頻生成是 2.0 Flash 的另一項主要功能,多希將其描述為"可操縱"和"可定製"。 例如,該模型可以使用針對不同口音和語言"優化"的八種聲音之一來敍述文本。她補充説:"你可以讓它説得慢一點,也可以讓它説得快一點,甚至可以讓它説像海盜一樣的話。"目前Google沒有提供 2.0 Flash 的圖像或音頻樣本。 至少在撰寫本文時,我們無法得知其質量與其他機型的輸出相比如何。Google 表示將使用其SynthID技術對 2.0 Flash 生成的所有音頻和圖像進行水印處理。 在支持 SynthID 的軟件和平台上(即選定的 Google 產品),模型的輸出將被標記為合成。這是為了消除對濫用的擔憂。 事實上,深度偽造是一種日益嚴重的威脅。 根據身份驗證服務公司Sumsub的數據,從2023年到2024年,全球檢測到的深度偽造增加了4倍。2.0 Flash 的正式版本將於 1 月份發佈。 但與此同時,Google將發佈一個應用程式接口(API)--多模態實時應用程式接口(Multimodal Live API),以幫助開發人員創建具有實時音頻和視頻流功能的應用程式。Google表示,通過使用多模態實時 API,開發人員可以創建實時、多模態的應用程式,並通過攝像頭或屏幕輸入音頻和視頻。 該 API 支持集成各種工具來完成任務,並且可以處理"自然對話模式",例如中斷,這與 OpenAI 的 Realtime API 大體一致。多模態實時 API 已於今天上午全面推出。 ...
PC:
https://www.cnbeta.com.tw/articles/soft/1462278.htmMobile:
https://m.cnbeta.com.tw/view/1462278.htm