Meta wprowadza nowe narzędzie AI do tworzenia muzyki z tekstu i melodii

MusicGen to prosty model języka, opracowany w ramach podejścia jednoetapowego z efektywnymi przeplatanymi wzorami symboli, co zmniejsza potrzebę stosowania wielu sekwencji modeli.

Meta wprowadziła MusicGen, łatwy w użyciu model sztucznej inteligencji (AI), który może generować wysokiej jakości muzykę z krótkiego opisu tekstu melodii.

Zapisz się do naszego newslettera

MusicGen to prosty model języka, opracowany w ramach podejścia jednoetapowego z wydajnymi przeplatanymi wzorami symboli — z kodekiem audio 32 Khz — który zmniejsza potrzebę łączenia wielu modeli, wyjaśniają naukowcy Audiocraft.

Dzięki temu podejściu MusicGen generuje wysokiej jakości próbki muzyczne o długości około dwunastu sekund, po prostu wprowadzając krótki opis tekstowy i wskazanie nuty, której szukasz.

Firma technologiczna opublikowała demo MusicGen na swoim portalu Hugging Face AI, za pomocą którego każdy użytkownik może stworzyć próbkę muzyczną. Dodaje również serię przykładowych opisów, którym w niektórych przypadkach towarzyszy opis melodyczny.

Naukowcy wykorzystali do treningu ponad 20 000 godzin licencjonowanej muzyki, w tym 10 000 wysokiej jakości utworów z wewnętrznej bazy danych oraz danych z Shutterstock i Pond5.

MusicGen został przeszkolony przy użyciu szerokiej gamy licencjonowanej muzyki, która obejmowała łącznie 20 000 godzin. Ta różnorodna kolekcja muzyki zawierała 10 000 wysokiej jakości utworów z wewnętrznej bazy danych, a także dodatkową bibliotekę utworów pochodzących z popularnych źródeł, takich jak Shutterstock i Pond5.

W wyniku tego procesu szkoleniowego powstały trzy wersje modelu o różnych możliwościach. Wersje te zawierają odpowiednio 300 milionów, 1,5 miliarda i 3,3 miliarda parametrów, co pozwala na większą elastyczność i precyzję w tworzeniu muzyki.