AI爆“小型核彈” Sora 橫空面世
筆者去年曾就美國Open AI公司的ChatGPT人工生成聊天機器人面世,在本欄寫了一輯人工智能(AI) 的科普文章。在ChatGPT誕生後,全球各科技巨企也相繼推出類似的生成式聊天系統,如百度的“文心一言”,阿里的“通義千問”、谷歌的“Gemini”等,大家都希望在此領域爭一席位。本月十六日人工智能領域迎來了一個被稱為“小型核彈”的新聞,Open AI公司再率先推出全新視頻生成AI模型Sora,消息震撼全球科技業界。世界首富馬斯克(Elon Musk) 甚至在推特直接發文:“gg humans”(人類輸得心服口服)。
通過指令製作視頻
Sora取自日語,意思是“天空”,喻意有着無限的潛能和創造力。該模型是一個Text To Video Model,可以通過文本指令製作出長達一分鐘的視頻,它能生成非常詳細的場景,通過複雜的多角度攝像機運動,呈現出充滿活力和情感的多角色人物動作。Open AI公司官網公佈了48個用Sora生成的視頻,畫面的逼真和精細程度令人吃驚。AI技術已在文字和圖片生成方面大放異彩,如今又在視頻製作領域攻城略地,難怪有人驚呼:“不知未來十年會變成什麼世界?”
在Open AI官網公佈的應用案例中,其中一個文本指令如下(中文翻譯):“一位時尚的女士走在東京街上,街道上充滿了溫暖的霓虹燈和生動的城市標誌。她穿着黑色皮外衣、紅色長裙和黑色靴子,手裡拿着一個黑錢包,戴着太陽眼鏡並塗上口紅。她走路自信而隨意。街道潮濕且反光,形成了彩色燈光的鏡面效果。許多行人走來走去。”就憑這些指令,Sora生成一個質量可以媲美電影製作的長達60秒的視頻,有興趣的讀者可直接到www.openai.com 網站瀏覽。
能夠轉換多個鏡頭
Open AI其他公佈的應用案例,如指令以無人機去拍攝某指定著名景點,內容包括崎嶇懸崖、洶湧的海水和波浪、美麗的金色落日、遠方的小島……;又如指令製作一部電影預告片,講述一位30歲的太空人的冒險故事,他戴着紅色羊毛針織摩托車頭盔,藍天,鹽沙漠,電影風格,用35毫米膠片拍攝,色彩生動等,生成的影片大部分已能夠精準地展現出指令描述出來的細節,並能理解生成的相對應人和物的關係和信息,模擬出一個接近真實的“虛擬世界”。
Sora模型甚至可以在同一場景中對同一個角色轉換多個鏡頭,生成的視頻隨着攝像機移動和旋轉,人物和場景在三維空間中保持連貫的運動,猶如攝影師在現場真實拍攝一般。Sora 能理解生成人物的活動對世界狀態產生的一些影響,儘管目前還不是太“聰明”,畢竟它們只是虛擬世界中的人物,但模型可以知道和顯示出簡單的邏輯,如一個人吃漢堡時留下咬痕,或者畫家在畫布上會留下隨時間持續增加的新筆觸。
應用廣市場潛力大
去年Open AI推出的ChatGPT令世人驚豔,它明白人類的自然對話,聽懂各國不同語言,可以根據用戶輸入的問題,在廣泛的知識領域給出詳細的自動生成答案,筆者曾把它比喻為“萬能博士”和孔明。ChatGPT還可以根據用戶要求生成文本,如論文、故事、詩歌、企劃書等。但從投資者角度看,筆者仍未能找出市場必須使用ChatGPT,並能夠產生巨量營收的必然邏輯。Sora的應用範圍卻非常廣泛,從Youtube或抖音的製作、產品演示、各類廣告、內容營銷、電影取景等方面,都可以低成本製作出高質量的視頻產品,愚見認為其市場受眾潛力非常巨大,而製作人會很樂意付費使用。
衝擊力遠較GPT強
目前 Open AI還未全面開放Sora給普通用戶使用,只邀請行業內人士、藝術家、潛在客戶等體驗,但大眾都可以在其官方網址瀏覽Sora的應用功能。這個生成視頻AI對市場的衝擊力相信遠較ChatGPT強大,儘管仍有一些限制、缺點和不足,但隨着科技以驚人的速度不斷進步,這些問題也會逐步被解決。下周再談。
容永剛