文 / Peggy Chi,高級研究員,Irfan Essa,高級工程師,Google研究院
譯者 / Alpha
原文 / https://ai.googleblog.com/2020/10/experimenting-with-automatic-video.html
在Google,我們正在積極探索在制作多媒體內(nèi)容時,人們?nèi)绾问褂糜蓹C器學(xué)習(xí)和計算方法提供的創(chuàng)造性工具,從創(chuàng)作音樂、重新架構(gòu)視頻,到繪畫等等都涉及到了這方面內(nèi)容。尤其是視頻制作這樣一個頗具創(chuàng)意的過程,它可以很好地受益于這些工具,因為它需要做出一系列決策,確定哪些內(nèi)容最適合目標受眾,如何在視圖中妥善排布現(xiàn)有資源,以及怎樣進行時間安排能夠帶來最具吸引力的描述。但假如一個人能利用現(xiàn)有的資源,比如一個網(wǎng)站,來開啟視頻創(chuàng)作呢?大多數(shù)企業(yè)主辦的網(wǎng)站都呈現(xiàn)了關(guān)于其產(chǎn)品或服務(wù)豐富的視圖內(nèi)容,所有這些內(nèi)容都可以被重新應(yīng)用到其他多媒體格式,比如視頻,這可能使那些沒有大量資源的人能夠接觸到更廣泛的受眾。
2020年UIST上發(fā)表的“網(wǎng)頁端視頻的自動化制作”里,我們介紹了一種基于內(nèi)容所有者提供的時間和視圖限制,將網(wǎng)頁自動轉(zhuǎn)換為短視頻的研究原型——URL2Video。URL2Video從HTML源中提取資源(文本、圖像或視頻)及其設(shè)計風(fēng)格(包括字體、顏色、圖形布局和層次結(jié)構(gòu)),并將這些可視資源組合成一系列的快照,同時保持與源頁面相似的外觀和感覺,然后根據(jù)用戶指定的縱橫比和持續(xù)時間,將這些材料重新利用,渲染成一個適合產(chǎn)品和服務(wù)廣告的視頻。
URL2Video概述
假設(shè)用戶提供了一個闡述他們業(yè)務(wù)的網(wǎng)頁URL,URL2Video會自動從頁面中選擇關(guān)鍵內(nèi)容,并根據(jù)一組針對熟悉網(wǎng)頁設(shè)計和視頻廣告制作的設(shè)計師的訪談研究得到的啟發(fā)式算法,決定每個資源的時間和視圖展示。這些如設(shè)計師般熟知的啟發(fā)式算法捕獲常見的視頻編輯樣式,包括內(nèi)容層次結(jié)構(gòu),限制一個快照中的信息量及其持續(xù)時間,為品牌提供一致的顏色和樣式等等。利用這些信息,URL2Video解析網(wǎng)頁,分析內(nèi)容,選擇視覺突出的文本或圖像,同時保留它們的設(shè)計風(fēng)格,并根據(jù)用戶提供的視頻規(guī)范進行組合。
通過在輸入的網(wǎng)頁中提取結(jié)構(gòu)內(nèi)容和設(shè)計,URL2Video做出自動編輯決策,在視頻中呈現(xiàn)關(guān)鍵信息。它考慮到用戶定義的輸出視頻的時間限定(比如以秒為單位的持續(xù)時間)和空間限定(比如高寬比)。
網(wǎng)頁分析
一個網(wǎng)頁的URL,URL2Video會提取它的文檔對象模型(DOM)信息和多媒體材料。出于研究模型的目的,我們將域限制在靜態(tài)網(wǎng)上,這些頁面包含HTML層次結(jié)構(gòu)中保存的突出資源和標題,這些層次結(jié)構(gòu)遵循最近的網(wǎng)頁設(shè)計原則,鼓勵使用重點的元素、更清晰的部分以及引導(dǎo)讀者感知信息的視覺焦點順序。URL2Video將這些視覺上可區(qū)分的元素標記到資源組的候選列表,每個元素可能包含一個標題、一個產(chǎn)品圖象、詳細描述和調(diào)用操作按鈕,并捕獲每個元素的原始素材(文本和多媒體文件)和詳細的設(shè)計規(guī)范(HTML標簽、CSS樣式和呈現(xiàn)位置)。然后,通過根據(jù)每個資源組的視覺外觀和注釋,包括它們的HTML標簽、呈現(xiàn)的尺寸還有顯示在頁面上的順序?qū)γ總€組進行排序。這樣,在頁面頂部占據(jù)較大區(qū)域的資源組將獲得更高的分數(shù)。
限定型的資源選擇
在制作視頻時,我們考慮了兩個目標:(1)每個鏡頭都應(yīng)該提供簡潔的視頻信息;(2)視覺設(shè)計應(yīng)該與源網(wǎng)頁一致。基于這些目標和用戶提供的視頻限定條件,包括預(yù)期的視頻持續(xù)時間(以秒為單位)和高寬比(通常為16:9、4:3、1:1等),URL2Video自動選擇并命令資源組優(yōu)化總體優(yōu)先級分數(shù)。為了使內(nèi)容簡潔,它只顯示頁面中的主要元素,例如標題和一些多媒體資源。它限定了觀眾所感知內(nèi)容的每個視覺元素的持續(xù)時間。這樣,簡短的視頻強調(diào)了頁面頂部最突出的信息,時間長一些的視頻則包含了更多的商業(yè)活動或產(chǎn)品信息。
畫面構(gòu)圖與視頻渲染
根據(jù)基于DOM層次結(jié)構(gòu)的有序資源列表,URL2Video并行依照從訪談研究中獲得的設(shè)計啟發(fā),對時間和空間安排做出決策,將資源在單個鏡頭中展現(xiàn)出來。它將元素的圖形布局轉(zhuǎn)換為視頻的縱橫比,并應(yīng)用了包括字體和顏色在內(nèi)的樣式選擇。為了使視頻更具動感和吸引力,它調(diào)整了資源的顯示時間。最后,它將內(nèi)容渲染為MPEG-4格式的視頻。
用戶控制
研究原型界面允許用戶查看源網(wǎng)頁提取的每個視頻鏡頭中的設(shè)計屬性,以及重新排版材料,更改細節(jié)設(shè)計,如顏色和字體,并更改限制條件來生成新的視頻。
在URL2Video的創(chuàng)作界面(左)中,用戶指定源頁面輸入的URL、目標頁面視圖的大小以及輸出視頻參數(shù)。URL2Video分析網(wǎng)頁,并提取主要的視覺組件。由它組成了一系列的鏡頭,并將關(guān)鍵畫面可視化為一個故事板。這些組件滿足輸入時間和空間限定后輸出呈現(xiàn)為視頻。用戶可以播放視頻,檢查設(shè)計屬性(右下角),并進行調(diào)整以做視頻更改,例如重新排序鏡頭(右上)。
URL2Video用例
我們在現(xiàn)有的各種網(wǎng)頁上演示了端到端的URL2Video的性能。下面我們特別展示一個實例結(jié)果,其中URL2Video將嵌入多個短視頻剪接的頁面轉(zhuǎn)換為一個12秒的輸出視頻。請注意它如何在從源網(wǎng)頁面捕獲的視頻中對字體和顏色選擇、時間和內(nèi)容排序作出自動編輯決定的。
URL2Video從我們的Google搜索介紹頁面(頂部)識別關(guān)鍵內(nèi)容,包括標題和視頻資源。通過綜合考慮顯示流程、源設(shè)計和輸出限定,URL2Video將它們轉(zhuǎn)換為視頻(12秒的橫向視頻;底部)
下面的視頻作了進一步的演示:
https://xintu.youtube.com/watch?v=3yFYc-Wet8k&feature=youtu.be
為了評估自動生成的視頻,我們與Google的設(shè)計師進行了一項用戶研究。實驗結(jié)果表明,URL2Video能夠有效地從網(wǎng)頁中提取設(shè)計元素,并通過引導(dǎo)視頻創(chuàng)建的過程為設(shè)計師提供支持。
下一步
雖然目前的研究集中在視覺展示,但我們正在開發(fā)新的技術(shù),以在視頻編輯中支持音軌和畫外音??傊覀冊O(shè)想的未來是,創(chuàng)作者專注于做出高層決策,而機器學(xué)習(xí)模型配合其在多個平臺上為最終視頻的制作提供詳細的時間和圖形編輯建議。
致謝
我們非常感謝我們的論文合著者Zheng Sun(Research)和Katrina Panovich(YouTube)。我們還要感謝我們的同事,他們(按姓氏的字幕順序)-JordanCanedy, Brian Curless, Nathan Frey, Madison Le, Alireza Mahdian, Justin Parra,Emily Ryan, Mogan Shieh, Sandor Szego和Weilong Yang-為URL2Video作出了貢獻。我們感謝我們的領(lǐng)導(dǎo)人Tomas Izo, RahulSukthankar和Jay Yagnik的支持。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/14517.html