從Sora到Suno,解鎖多模態(tài)大模型的可能性

2024-03-26 19:56:36 21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP 董靜怡

21世紀(jì)經(jīng)濟(jì)報(bào)道記者董靜怡上海報(bào)道

像年初的Sora一樣,這次AI的顛覆性影響傳入了音樂(lè)圈。

近日,AI音樂(lè)生成軟件Suno發(fā)布V3版本,僅需要簡(jiǎn)單的描述,就可以生成2min長(zhǎng)度、廣播質(zhì)量級(jí)別的音樂(lè)。正如Suno官網(wǎng)所顯示:“無(wú)論您是歌手還是排行榜藝術(shù)家,我們都會(huì)打破您與您夢(mèng)想創(chuàng)作的歌曲之間的障礙。不需要任何工具,只需要想象力。”

這為普通人打開(kāi)了音樂(lè)制作的大門。在社交媒體上,眾多網(wǎng)友參與討論,并曬出通過(guò)Suno制作的曲目,這些可以稱得上完整且好聽(tīng)的音樂(lè)作品令音樂(lè)圈內(nèi)外人感到頗為震撼,當(dāng)然,更震撼的還是AI生成能力的迭代速度。

在文生文模型的熱度逐漸平息之時(shí),文生圖、音頻、視頻等多模態(tài)大模型開(kāi)始了一輪又一輪的進(jìn)化。華泰證券的一份研報(bào)顯示,海外大模型迭代重視多模態(tài)能力拓展,相較于早期圖像、音頻、視頻模型,基礎(chǔ)模型能力顯著提升。

“大語(yǔ)言模型為AI產(chǎn)業(yè)帶來(lái)新的生機(jī),然而語(yǔ)言模型的應(yīng)用場(chǎng)景有限。要全面打開(kāi)生成式AI的想象力,還是要依托多模態(tài)大模型?!盜DC中國(guó)研究總監(jiān)盧言霞向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。

她曾預(yù)測(cè),未來(lái)5年,生成式AI生成的文本類文件、圖像類文件、視頻類文件、軟件代碼類文件數(shù)量將會(huì)越來(lái)越平均。而這其中,與圖像文件相關(guān)的數(shù)據(jù)量可能是文本文件的100倍,視頻文件是圖像文件的10倍。

當(dāng)見(jiàn)識(shí)過(guò)這些模型的能力后,生成式AI的想象空間已經(jīng)被全面打開(kāi)。盡管目前很多應(yīng)用尚未正式對(duì)外開(kāi)放使用,也無(wú)法了解到更多技術(shù)細(xì)節(jié),但可以確定的是,這一波技術(shù)迭代將為AI行業(yè)參與者帶來(lái)可觀的機(jī)遇。

音樂(lè)圈的ChatGPT時(shí)刻

曾有業(yè)內(nèi)專家認(rèn)為,考慮到成品的復(fù)雜性,可能需要數(shù)年時(shí)間才能出現(xiàn)一種通過(guò)簡(jiǎn)單的文本描述制作歌曲的工具。但位于馬薩諸塞州劍橋市的一家成立兩年的初創(chuàng)公司Suno已經(jīng)成功實(shí)現(xiàn)了這一目標(biāo)。

近日,Suno V3音樂(lè)生成模型發(fā)布,面向所有用戶開(kāi)放。Suno通過(guò)其先進(jìn)的AI算法,能夠理解和分析用戶的輸入,然后生成與之相匹配的音樂(lè)。這意味著用戶只需要提供一些簡(jiǎn)短的歌詞或者描述,Suno就能根據(jù)這些信息創(chuàng)作出一首歌曲。

隨著新版本的推出,Suno還引入了AI音樂(lè)水印系統(tǒng),每段由平臺(tái)生成的音樂(lè)都添加了人聲無(wú)法識(shí)別的水印,旨在保護(hù)用戶的創(chuàng)作,防止抄襲和濫用。

“相比起之前的版本,或是此前其他AI生成音樂(lè)的工具,V3生成的曲目是令人驚艷的?!庇幸魳?lè)博主在社交媒體上發(fā)出贊嘆,“它已經(jīng)不再是一小段不成熟的東西,而是有歌詞、前奏、間奏、副歌的完整歌曲?!?/p>

在V3版本中,音質(zhì)、咬字和節(jié)奏編排上都有了顯著提升,是Suno AI首次能夠生產(chǎn)出廣播質(zhì)量的音樂(lè)的模型,它能夠在幾秒鐘內(nèi)創(chuàng)作出完整的兩分鐘歌曲,就在半年前,這個(gè)時(shí)長(zhǎng)還僅有30秒。

為了激發(fā)人們的創(chuàng)作靈感,Suno V3還增加了更多音樂(lè)風(fēng)格和流派的選項(xiàng),包括古典音樂(lè)、爵士樂(lè)、Hiphop、電子等新潮曲風(fēng)。同時(shí),V3版本對(duì)于用戶輸入的提示詞,理解和響應(yīng)更加準(zhǔn)確,減少了“幻覺(jué)”現(xiàn)象,使得歌曲的結(jié)尾更加自然和高質(zhì)量。

“我認(rèn)為完成度很高,在樂(lè)器編排、風(fēng)格把控、歌詞與旋律的匹配度等等方面都做得不錯(cuò),甚至還有樂(lè)器solo?!蹦唱?dú)立樂(lè)隊(duì)成員向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,“尤其對(duì)沒(méi)有專業(yè)制作班底的獨(dú)立樂(lè)隊(duì)而言,提供了很好的編曲靈感?!?/p>

官方宣稱,不少知名的藝術(shù)家已經(jīng)在使用Suno,但其核心用戶群依然還是沒(méi)有任何音樂(lè)制作經(jīng)驗(yàn)的普通人。在互聯(lián)網(wǎng)上,越來(lái)越多的網(wǎng)友曬出了自己通過(guò)Suno生成的作品,其中不乏中文歌曲,如基于古詩(shī)詞的古韻歌曲《水調(diào)歌頭(明月幾時(shí)有)》、中文硬搖滾《We Go!》,甚至還有以菜譜作為歌詞的《宮保雞丁》等。

“這與AI繪畫(huà)給人的感覺(jué)是類似的,”有使用者向記者表示,“做不到特別好,但可以達(dá)到平均水平,甚至要更高?!?/p>

針對(duì)于其應(yīng)用場(chǎng)景,業(yè)內(nèi)普遍認(rèn)為,作為廣告、短視頻等背景音樂(lè)的“功能性音樂(lè)”,Suno生成的音頻有著很大的應(yīng)用前景,再往前發(fā)展,個(gè)性化定制音樂(lè)也會(huì)成為一種普遍的現(xiàn)象。

不過(guò),談AI替代人力還是為時(shí)過(guò)早。上述獨(dú)立樂(lè)隊(duì)樂(lè)手向記者表示,作品雖然有完成度,但結(jié)構(gòu)呆板,編排還是粗糙的、模塊化的,對(duì)于主流的音樂(lè)產(chǎn)業(yè)還構(gòu)不成威脅,“它確實(shí)降低了音樂(lè)制作的門檻,但還遠(yuǎn)沒(méi)有突破其天花板?!?/p>

Suno官方則表示,目前Suno模型仍處于早期階段,未來(lái)還將沿著質(zhì)量、可控和速度方向進(jìn)行改進(jìn),并透露V4已經(jīng)在開(kāi)發(fā)中。

多模態(tài)仍在發(fā)展初期

事實(shí)上,去年下半年以來(lái),由各類多模態(tài)大模型生成的作品已經(jīng)一次又一次帶來(lái)令人驚艷的效果,AI生成語(yǔ)音、圖片、視頻的進(jìn)程似乎比預(yù)想中走得更快。

去年年底,谷歌上線了文生圖模型Imagen 2,在圖像的真實(shí)性和語(yǔ)言理解的深度上取得了前所未有的成就,能夠生成高度逼真且與文本提示一致的高分辨率圖像,尤其在處理復(fù)雜細(xì)節(jié)如皮膚質(zhì)感和頭發(fā)方面表現(xiàn)出色,被稱為DALL?E 3和Midjourney的最強(qiáng)競(jìng)品。

年初,OpenAI的Sora模型帶來(lái)更大的震撼,它能夠根據(jù)文本描述生成長(zhǎng)達(dá)60秒的視頻,在此之前,同類產(chǎn)品生成的時(shí)長(zhǎng)只有幾秒鐘。同時(shí),它還具有精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng),使得Sora生成的視頻在視覺(jué)效果上更為連貫和逼真,與之前AI視頻生成模型產(chǎn)生的抖動(dòng)和失真的視頻效果形成了鮮明對(duì)比。

再加上近期Suno的火爆,各個(gè)領(lǐng)域都在迎來(lái)自己的ChatGPT時(shí)刻。業(yè)內(nèi)人士認(rèn)為,這類多模態(tài)大模型將最先應(yīng)用于短視頻、廣告、互娛、影視、媒體等領(lǐng)域。在這些領(lǐng)域采用多模態(tài)大模型能力,既可以提高生產(chǎn)速度又可以提高生產(chǎn)數(shù)量,還可以創(chuàng)造全新的視聽(tīng)感受,能夠幫助企業(yè)真正實(shí)現(xiàn)降本增效、提升用戶體驗(yàn)。

從更長(zhǎng)遠(yuǎn)的角度來(lái)看,多模態(tài)最接近于人對(duì)自然界的感知,智譜AI CEO張鵬在此前接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,多模態(tài)是走向通用人工智能(AGI)的起點(diǎn)。

“人大腦一定是各種感官融合到一起的,所以人的智力一定是多模態(tài)的?!睆堸i向記者表示,“多模態(tài)不僅是文到圖、圖到文這么一件事情,它更多的是探究人的認(rèn)知能力和各種感官之間的相互作用。”

東方證券的一份研報(bào)指出,多模態(tài)大模型一方面有利于形成圖片、視頻等更加生動(dòng)活潑、更具交互性的應(yīng)用,從而有助于C端爆款的誕生;另一方面,多模態(tài)大模型能真正打通物理世界和數(shù)字世界的障壁,實(shí)現(xiàn)與物理世界最自然的交互,從而對(duì)自動(dòng)駕駛、人形機(jī)器人等具身智能領(lǐng)域的突破提供有力支撐。

但從技術(shù)角度來(lái)看,多模態(tài)大模型仍面臨著多重挑戰(zhàn)。

多模態(tài)模型的技術(shù)難度主要在于如何有效地整合和處理不同類型的數(shù)據(jù),圖像、視覺(jué)和音頻等領(lǐng)域的數(shù)據(jù)具有更高的維度和更復(fù)雜的結(jié)構(gòu)?!芭cNLP相比,圖像、視覺(jué)、音頻的數(shù)據(jù)量更大,對(duì)算力的要求也更高,計(jì)算的速度、性能要求都會(huì)更高?!北R言霞向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。

她認(rèn)為,盡管在NLP領(lǐng)域取得了一定的進(jìn)展,但在圖像、視覺(jué)和音頻等其他模態(tài)上,大模型的發(fā)展仍然處于起步階段。

“很多應(yīng)用表面上看上去驚艷,但是如果我們按需按場(chǎng)景去使用,能滿足需求的時(shí)候仍是少數(shù)?!北R言霞向記者表示,真正的成熟需要至少多個(gè)場(chǎng)景都能有效使用,目前很明顯達(dá)不到這一點(diǎn)。

而人們對(duì)于多模態(tài)大模型的期望顯然不只限于單一的非文本模態(tài)。未來(lái)的多模態(tài)模型可能會(huì)朝著更加集成和協(xié)同的方向發(fā)展,不僅能夠處理單一模態(tài)的數(shù)據(jù),還能夠在多個(gè)模態(tài)之間進(jìn)行有效的信息融合和轉(zhuǎn)換。

但當(dāng)前一體化多模態(tài)大模型仍存在局限。復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,目前的多模態(tài)大模型通常以語(yǔ)言模型為中心,通過(guò)將其他模態(tài)的數(shù)據(jù)映射到語(yǔ)言模型的語(yǔ)義空間中來(lái)實(shí)現(xiàn)多模態(tài)理解,生成時(shí)則需要調(diào)用外部的插件或系統(tǒng)。這限制了模型的應(yīng)用場(chǎng)景和靈活性。

他認(rèn)為,新一代大模型的交互將實(shí)現(xiàn)任意模態(tài)到任意模態(tài)的內(nèi)生轉(zhuǎn)化,這將與更多實(shí)際生活場(chǎng)景相結(jié)合,賦能應(yīng)用場(chǎng)景和生產(chǎn)力變革。

目前來(lái)看,多模態(tài)整體的研究框架仍是非常開(kāi)放的,它并沒(méi)有一個(gè)非常清晰的、收斂的路線,這對(duì)于開(kāi)發(fā)者而言是巨大的挑戰(zhàn),但與此同時(shí),也意味著很多的可能性。

21財(cái)經(jīng)客戶端下載