Google 慶祝巴哈生日,這是音樂AI Doodle 背後的技術 - 科技新報

文章推薦指數: 80 %
投票人數:10人

3 月21 日,Google 發表有史以來第一個人工智慧音樂AI Doodle,慶祝世界著名的德國作曲家和音樂家──Johann Sebastian Bach(約翰‧塞巴斯蒂安‧巴哈) ... X 科技新知時時更新 免費訂閱電子報 訂閱 退訂 ※此電子郵件已被使用! 請勾選您感興趣的類別(至少勾選一項) 產業科技 科技財經 網路趨勢 科技新知 科技新品 同意隱私權政策* 3月21日,Google發表有史以來第一個人工智慧音樂AIDoodle,慶祝世界著名的德國作曲家和音樂家──JohannSebastianBach(約翰‧塞巴斯蒂安‧巴哈)的生日! Doodle是GoogleMagenta和GooglePAIR團隊合作完成,是一種互動遊戲,玩家可創作自己選擇的兩種旋律音樂。

按下按鈕後,Doodle會使用機器學習將旋律協調為巴哈的音樂風格(如果你碰巧在Doodle發現非常特別的復活節彩蛋,那可能是巴哈時1680年代的混合搖滾風格)。

偉大的德國音樂家巴哈 1685年3月21日,巴哈出生在德國艾森納赫小鎮。

他在一個音樂大家庭長大:父親能用多種樂器演奏,還擔任鎮上樂隊的指揮。

大哥也是音樂家,巴哈10歲時父親去世了,從此跟著哥哥長大。

巴哈也是傑出的風琴手,他還懂得如何製作和修復複雜的管弦樂器。

巴哈是多產音樂家,每週都能創作一首大合唱曲,同時巴哈也非常謙遜,把自己的成功歸於天賜靈感和嚴格的職業道德。

他活著的時候只有幾部作品出版,但現在散於世界各地的手稿作品超過1,000部。

隨著19世紀「Bachrevival」,巴哈名聲一飛衝天,當時,音樂界開始認可和推崇他的四聲部和聲。

也許衡量音樂家的最好標準是對其他藝術家的影響,幾個世紀以來一直如此。

然而,音樂家並不是唯一受巴哈音樂影響的人。

「旅行者2號」太空探測器發射後,科學家兼作家LewisThomas建議將巴哈的音樂傳遞到太陽系最外層。

「我建議使用巴哈的音樂,所有巴哈的音樂」,他寫道。

Doodle背後的故事 我們可先看看下面的影片,了解Doodle誕生的經過。

開發Doodle的第一步是什麼?就是建立機器學習模型。

傳統的電腦程式設計是訂定一套規則讓電腦給答案,但機器學習是經過輸入大量資料,讓電腦學會找出答案。

今天Doodle使用的模型是由Magenta團隊的AnnaHuang開發,她開發了Coconet,是一種多功能模型,可用於各種音樂工作,如協調旋律或從頭開始作曲(可在Magenta部落格看到更多技術細節)。

具體來說,Coconet接受306次巴哈合唱協調訓練。

巴哈的合唱團總是有四聲部,每聲部都有自己的旋律線,同時演奏能創造出豐富悅耳的和聲。

這種簡潔架構成為機器學習模型良好的訓練資料。

PAIR團隊使用TensorFlow.js,使機器學習完全在Web瀏覽器進行,不需要像傳統機器學習使用大量伺服器。

如果某人電腦或裝置不夠快,無法使用TensorFlow.js執行Doodle,Doodle還可與Google新Tensor處理單元(TPUs)一起使用,就是在資料中心快速處理機器學習工作。

這些套件與Doodle團隊的工程相結合,創造了今天看到的Doodle。

BachDoodle背後的機器學習模型 Doodle背後的機器學習模型是Coconet。

3年前Magenta團隊成立時,開始研究這個模型。

當時他們只使用機器學習(ML)生成旋律。

寫出好旋律很難,更不用說和弦了。

但就像每個音樂系學生,他們想到了巴哈的音樂!使用巴哈306個合唱協調數據集,他們能訓練機器學習模型,以巴哈的風格生成複調音樂。

Coconet被訓練從殘缺片段回復巴哈的音樂:團隊從巴哈音樂裡取一片段,隨機移除一些音符,然後讓模型根據內文推測出缺失的音符。

結果是通用的對位模型,接受任意不完全的樂譜輸入,計算出完整的樂譜。

這設定涵蓋了各種各樣的音樂工作,例如協調旋律、建立平滑過渡、重寫和細化現有音樂及從頭開始創作音樂。

傳統的模型通常是按照開始到結束的時間順序生成音符,而Coconet可從任何時間開始,以任何順序開發音符。

這種彈性使它成為有效的輔助合成工具。

音樂家將這點使用於工作流程的方法是反覆讓Coconet填寫分數,每次都保留好內容並移除其餘內容。

事實上,這就是Coconet的內部工作機制:在迴圈生成材料,反覆重寫和移除自己的工作。

它從粗略的想法開始,然後反覆算出細節,並把材料調整成連貫的整體。

模型的工作原理 Coconet抓取不完整的樂譜並補充缺失的部分。

為了訓練它,團隊從巴哈的四聲部聖詠選出一段,隨機移除一些音符,並要求模型重建移除的音符。

巴哈作曲和Coconet作品間的差異有個學習訊號,透過這個訊號就可訓練模型。

透過隨機移除音符,團隊希望得到能處理任意不完整輸入的模型。

它相當於一次訓練多個模型,每個模型都適用不同場景。

在團隊看來,「樂譜」是3D的。

巴哈的合唱是為四聲部創作,分別是女高音(S)、女中音(A)、男高音(T)和男低音(B)。

每聲部的音樂都用鋼琴曲來表現:一個2D陣列,時間(離散)為行,音高為欄。

我們假設每聲部在任何給定的時間都只唱一個音。

因此對每聲部、每個時間點,都有一one-hot基音向量,除了一個單獨表示正在唱音高向量,其他元素都為零。

有不確定性的情況下(例如模型匯出),此基音向量將包含基音上的分類機率分布。

團隊把這疊鋼琴視為捲積特徵圖,時間和音高構成2D捲積空間,每聲部都提供一個通道。

由於他們輸入模型的音符不完整,於是為每聲部提供其餘的掩膜通道:二進位值指示每個時間點該聲部的音高是否已知。

故進入模型的是八通道特徵圖。

模型是非常簡單的捲積神經網路,有批量標準化和殘差連結。

對使用TensorFlow.js達成在瀏覽器執行模型的Doodle,可透過切換到非垂直可分離捲積來加快計算速度。

團隊訓練該模型,以提高分配音高給真正音符的機率,促使模型去理解接收的不完整樂譜的音樂含義──現在用什麼調,是什麼樂器,下個音符是什麼,前面的音符是什麼? 一旦模型訓練好,就可從模型產生的機率分布擷取音樂。

我們可根據每個音符的分部取樣每個音符。

然而,這無法解釋取樣音符之間的相互作用。

通常,確定其中一個音符會改變其他音符的分部。

計算互動作用的一種方法是取樣其中一個音高,添加到不完整的樂譜,然後再次透過模型傳遞結果,再重新計算剩餘音高的分散。

重複這個過程直到所有音符都確定,團隊考慮所有關聯同時完成樂譜。

實際上他們採用的方法更強大:將模型匯出視為粗略的草稿,然後反覆重寫、逐步細化。

具體地說,同時取樣所有音符,獲得完整的(但通常無意義)樂譜,然後將部分移除並再次傳給模型,然後重複此過程。

隨著時間推移,需要抹去和重寫的音符越來越少。

團隊建模的過程中,每次只建模一個變數。

同時,他們採用無序建模,且採用Gibbs取樣法,從多個順序生成樂譜,因此保證模型有效。

CelebratingJohannSebastianBach Coconet:theMLmodelbehindtoday’sBachDoodle (本文由雷鋒網授權轉載;首圖來源:Google) 延伸閱讀: 成為21世紀巴哈的接班人,讓GoogleAI助你一臂之力 科技新知,時時更新 科技新報粉絲團 訂閱免費電子報 關鍵字:Coconet,Google,GoogleDoodle,Magenta,TensorFlow.js,巴哈,機器學習 Postnavigation ←小米手機策略大轉彎,台灣新總座如何接招? 大同集團負債1,854億,台銀是最大苦主→ 我們偵測 到您有啟用 ADBlock 請您暫停使用ADBlock,以支持我們持續能提供更多新聞資訊與優質的閱讀環境。

贊助專欄 活動專區 研討會 CurrencyRate 本週熱門客戶是台積電!3M比利時冷卻劑廠「部分產品暫停產」,庫存最多撐3個月 「會呼吸的」全要了!半導體業急喊:大廠不要搶我的學生羨慕!員工人人都有停車位,群聯斥資10億元興建停車塔落成啟用三立、東森、TVBS將停止YouTube直播,新聞台數位轉型的阻礙要如何解決?合庫房貸利率調升1碼!董座雷仲達:年輕人貸款要有心理準備最高隔離賠3萬、確診5萬!一次看六家防疫保單賠償金再生能源掰了?未來世界恐為天然氣而戰自家產品不給力,聯發科首次打入三星高階手機處理器供應鏈 財訊快報 弘塑3月營收2.89億元 晶心科3月營收月增171.0% 緯穎3月營收242.81億元 旭隼3月營收16.72億元 宇瞻3月營收7.60億元 訊芯-KY3月營收月增44.3% 旺矽3月營收月增24.5% 嘉聯益3月營收月增78.4% 宜特3月營收月增7.1% 日電貿3月營收10.83億元 更多>> 編輯精選 [熱門]「會呼吸的」全要了!半導體業急喊:大廠不要搶我的學生 [熱門]客戶是台積電!3M比利時冷卻劑廠「部分產品暫停產」,庫存最多撐3個月 [熱門]傳旗艦晶片設計欠佳、轉單台積電仍耗能,高通瀉5% [專欄]銀行暫停房貸卻續承作土建融的做法,已違背金管會健全房市的初衷 [熱門]台積電4月年度調薪,劉德音:今年調幅大家會很開心 [推廣]為什麼要用VPN?4個關於VPN常見的問題 [獨家]長江存儲正式打入蘋果Flash供應鏈!傳供貨iPhoneSE [專題]【大南方崛起】扭轉重工業城市宿命,除了拉攏台積電高雄還有什麼招式 FB粉絲團 其它 登入 文章RSS訂閱 迴響RSS訂閱 WordPress台灣正體中文 請您暫停使用ADBlock,以支持我們持續能提供更多新聞資訊與優質的閱讀環境。



請為這篇文章評分?