首頁 > 科技 > 正文

硅谷競速:Meta版Sora來襲 萬億估值OpenAI祭出AGI交互系統(tǒng)

2024-10-05 17:35:46 21世紀經(jīng)濟報道 21財經(jīng)APP 孔海麗

21世紀經(jīng)濟報道記者孔海麗北京報道

硅谷巨頭的AI競賽愈發(fā)激烈,你來我往,全速出擊。

北京時間10月4日,OpenAI和Meta同時亮出了自己的新武器。

Meta公布了名為 Movie Gen 的全新 AI 模型。它是由視頻生成(Movie Gen Video)和音頻生成(Movie Gen Audio)兩個模型組成,可無縫生產(chǎn)出完整的多媒體內(nèi)容,實現(xiàn)從圖像、視覺到聽覺的全方位覆蓋。Meta稱,這是“迄今最先進的媒體基礎模型”。

OpenAI則重磅推出交互界面canvas,并稱“這是一種使用 ChatGPT 寫作和編程的新方式”,也是ChatGPT發(fā)布以來的重大視覺界面升級。用戶可以與ChatGPT 一起協(xié)作完成寫作和編碼項目,整個過程可考、可視,而不再局限于簡單的聊天。

可以預見的是,在未來一段時間里,科技巨頭將會不斷推陳出新,既包括有革命性意義的新產(chǎn)品、新技術,也有不斷掀起小高潮的持續(xù)性上新。

不確定這場AI競賽何時見分曉,但可以確定的是,巨頭們高居塔尖的算力資源和不斷延展的業(yè)務邊界,會導致AI創(chuàng)企的生存空間越來越小。

“馬太效應”,正在新興的AI領域里逐漸清晰。

Meta版Sora上線

有人將Movie Gen稱之為“Meta版Sora”,其實這并不準準,更應該說“青出于藍而勝于藍”,除了Sora具備的視頻生成功能,Movie Gen還可以為視頻生成配套的背景音樂和音效,并根據(jù)指令編輯視頻,直接一步到位。

具體來看,Movie Gen Video是一個30B參數(shù)的Transformer模型,可以從單個文本提示生成16秒、每秒16幀的高清視頻。同時發(fā)布的Movie Gen Audio接受視頻輸入以及可選的文本提示,生成與視頻同步的高保真音頻。

剛剛憑借“地表最強”全息AR眼鏡站上熱搜的扎克伯格,在社交平臺為Movie Gen站臺,將自己的靜態(tài)照片轉(zhuǎn)化為形式多樣的動態(tài)健身視頻,場景不乏幽默和科幻。

Meta放出來的其他示例視頻,展示了Movie Gen生成物體運動軌跡、保持主體物理運動規(guī)律、背景統(tǒng)一、栩栩如生的效果。

作為一體化的 AI 媒體工具,Movie Gen還具備視頻編輯功能,它可以執(zhí)行添加、刪除或替換元素,背景替換、樣式更改等全局修改。

有海外網(wǎng)友感慨說:“隨著大量創(chuàng)作者學會使用AI視頻編輯工具,很難想象幾年后TikTok(短視頻代表)和YouTube(長視頻代表)會變成什么樣?!?/p>

與Sora的推出節(jié)奏相似,Movie Gen也還需要一段時間才能面向公眾開放,但不同于OpenAI常被調(diào)侃的“close”,Meta爽快公布了一篇長達92頁的論文,介紹了其在架構、訓練方法、數(shù)據(jù)管理、評估、并行訓練和推理優(yōu)化以及音頻模型的信息。

據(jù)Meta介紹,視頻生成模型在 1 億個視頻和 10 億張圖像上進行了預訓練,而音頻生成模型則使用了約 100 萬小時的音頻數(shù)據(jù)。

此外,Meta還開源了多個基準測試數(shù)據(jù)集,包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,為后續(xù)研究者提供了權威的評測工具。

Movie Gen在OpenAI 今年2月展示的文生視頻Sora基礎上,朝著AI視頻編輯方向推進了一大步。先行一步的Sora至今仍未正式開放,不過,Sora能夠生成單次時長一分鐘的視頻,而Movie Gen 目前只有16秒。

文生視頻的時長延展進化很快。中國快手的可靈大模型,幾個月時間不斷迭代,單次文生視頻從5秒到10秒,如今使用該工具進行文生視頻以及圖生視頻,可支持生成長達3分鐘、1080p分辨率的高清視頻。

萬億OpenAI新動作不斷

Meta向OpenAI開了一槍,但后者并沒閑著。

此前的9月13日,OpenAI正式發(fā)布新的通用語言大模型o1,基于慢思考,在推理能力上完勝人類博士,并在數(shù)學、物理、化學、生物學等領域表現(xiàn)極為優(yōu)異。

其文本編輯系統(tǒng)也在進化。同在Movie Gen面世的10月4日,OpenAI宣布推出一個名為canvas的視覺產(chǎn)品,它實際上是一種新的人機交互界面。

canvas是一個內(nèi)置于ChatGPT的文檔和代碼編輯器。用戶不必再在ChatGPT和文檔編輯器之間來回切換,寫文檔時它會自動彈出,可直接在ChatGPT中編輯任何文檔或代碼,在一個界面內(nèi)完成從構思到成文的全過程,實現(xiàn)與AI的無縫協(xié)作,從而大大提升工作效率。

有業(yè)內(nèi)人士評論說,OpenAI借由canvas暗示,ChatGPT不僅僅是一個聊天機器人,而是要打造AI時代的操作系統(tǒng)。這暴露了其CEO薩姆·奧特曼(Sam Altman)的非凡野心。不過,canvas下周才會向Enterprise 和 Edu 用戶推出,Plus用戶則可以直接調(diào)用。

此前一天,當?shù)貢r間10月2日,OpenAI宣布完成新一輪66億美元融資,投后估值達到1570億美元(約合人民幣1.1萬億元)。這標志著OpenAI從“明星獨角獸”公司過渡到了不折不扣的人工智能巨頭。

本輪融資由風投巨頭Thrive Capital領投13億美元,微軟跟投7.5億美元,軟銀集團、英偉達分別投資了5億美元和1億美元,蘋果在最后時刻決定退出。此外,OpenAI還獲得了40億美元的新循環(huán)信用額度。據(jù)介紹,ChatGPT每周用戶數(shù)已超2.5億人,預計今年收入將達到37億美元。

據(jù)悉,OpenAI本輪融資資金以可轉(zhuǎn)換票據(jù)的形式提供,但如果它未能在兩年內(nèi)完成公司結構的重組(即公司架構由非營利型公司向營利型公司轉(zhuǎn)變),本輪融資的投資者將有權要求退回投資。

值得注意的是,OpenAI也被曝出要求參與融資的投資者“二選一”,即不得支持其競爭對手的初創(chuàng)公司,包括OpenAI前員工們創(chuàng)立的AI初創(chuàng)公司Anthropic,埃隆·馬斯克(Elon Musk)創(chuàng)立的xAI,OpenAI聯(lián)合創(chuàng)始人、前首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)成立的新公司SSI(safe superintelligence,安全超級智能)等。消息傳出,馬斯克在社交媒體再次向奧特曼開懟。

伴隨OpenAI公司性質(zhì)轉(zhuǎn)變和發(fā)展方向的分歧,是公司高管持續(xù)的大動蕩。

一周前的9月26日,OpenAI CTO(首席技術官)米拉·穆拉蒂(Mira Murati)、首席研究官鮑勃·麥格(BobMcGrew)、研究副總裁巴雷特·佐夫(Barret Zoph)同時宣布離職。幾天后的10月2日,OpenAI 聯(lián)合創(chuàng)始人杜爾克·金馬(Diederik Kingma)宣布加入Anthropic。而公司總裁格雷戈里·布羅克曼(Greg Brockman)仍在長期休假中。OpenAI最初的11名創(chuàng)始成員中,除了宮斗回歸的奧特曼,就只剩下語言和代碼生成團隊負責人沃伊切赫·扎倫巴(Wojciech Zaremba)。

似乎“多事之秋”不足以概括OpenAI的動蕩程度,一邊“著火”一邊“極速前行”,才是OpenAI的常態(tài)。

21財經(jīng)客戶端下載