Nie tylko papież śpiewający Kiepskich. Covery AI zmienią rynek muzyczny?

Zobacz również:Sztuczna inteligencja tworzy utwory, maluje obrazy i... pisze wiersze. Krótki przegląd tego, jak AI weszła do kultury i sztuki
Taconafide 2 AI sztuczna inteligencja cover AI Taco Hemingway AI Quebonafide
fot. PanDAWID/YouTube

Covery AI zalewają internet, stając się jednym z głównych trendów internetowej twórczości. Ale wieść o tym, że utwór z wygenerowanym przez sztuczną inteligencję głosem ma szansę dostać Grammy, może okazać się dla tego nurtu przełomem.

Londyn, Egyptian Hall, 1846 rok. Nieistniejące już centrum wystaw. Austriacki wynalazca Joseph Faber wychodzi na jedną ze scen tego obiektu. Eksponuje wynalazek, nad którym pracował przeszło ćwierć wieku. Prezentował go rok wcześniej na Florydzie, tym razem jednak debiutuje przed angielską publicznością. Dzieło, które okazało się jego idée fixe, przypomina pianino. Gdy twórca wciska klawisze, głowa jego konstrukcji wypowiada słowa. Jako pierwsze wybrzmiewają frazy po angielsku i włosku. Wybaczcie, że mówię tak wolno. Dzień dobry, Panowie i Panie. Dzień był gorący, dzień był deszczowy. Buon Giorno, signori.

Zgromadzony tłum reaguje na to niezbyt entuzjastycznie. Wiemy o tym m.in. z zapisków w pamiętniku Johna Hollingsheada pracującego w Londynie jako kierownik teatru. Z jego relacji wynika, że twórca-performer sprawiał wrażenie, jakby spał w tym samym pokoju, co stworzona przez niego maszyna. Miał na myśli zaniedbany wygląd i zachowanie profesora Fabera. Warto dodać, że jego Euphonia – bo tak nazywał się wynalazek – była konstrukcją, na szczycie której znalazła się creeperska lalka poruszająca ustami, językiem i żuchwą. Hollingshead porównał ją do Frankensteina. A wydobywający się z głowy dźwięk, wywoływany przez klawiaturę, którą dotykał profesor, przypominał jego zdaniem ochrypły głos zza grobu.

Maszyna posiadała czternaście klawiszy od pianina, które kontrolowały ruchome elementy ust lalki. Z kolei rolę jej płuc i krtani pełnił miech, czyli urządzenie pompujące powietrze. Maszyna mówiła w kilku europejskich językach i potrafiła zmieniać ton głosu oraz akcent, gdy twórca przekręcał przymocowaną do niej śrubę. Świadkowie zapewniali, że urządzenie nie mogło być fejkiem. Zwracali uwagę, że podczas wystąpienia Fabera nie było miejsca, w którym mógłby ukryć się człowiek podkładający lalce głos. Mieli zatem okazję doświadczyć niespotykanego jeszcze powszechnie zjawiska uncanny valley. Czyli uczucia niepokoju wywoływanego obserwowaniem robota zbyt podobnego do człowieka. Czy to był przełom?

Czyj to głos?

W połowie XIX wieku powstawało tak naprawdę wiele wynalazków tego rodzaju. Ale to konstrukcja Austriaka zapisała się w historii na wielu kartach. I można określić ją jednym z najwcześniejszych przykładów generatora mowy – maszyny zamieniającej tekst w mowę. Jeśli zwrócimy uwagę na to, że to wszystko działo się 177 lat temu, możemy być nieco zaskoczeni. Dlatego nie bez powodu przytaczam całą tę historię. Bo performens Fabera przywodzi trochę na myśl to, czego świadkami jesteśmy też dzisiaj. Na przestrzeni ostatnich miesięcy znów obserwujemy zwiastun rewolucji, w której maszyny generujące ludzki głos budzą ogromne emocje. Z tym, że jakość i stawka nowych wynalazków może być nieporównywalnie bardziej wpływowa.

Oczywiście nie jest tak, że generatory mowy pozostawały przez ponad półtora wieku nieistotne. W latach 50. XX wieku zostały skomputeryzowane, natomiast w 1968 roku w Japonii powstał pierwszy elektroniczny system text-to-speech generujący mowę w języku angielskim. Takie systemy wkrótce zostały wykorzystywane w zabawkach czy urządzeniach elektronicznych. Jeśli chodzi o muzykę – tu istotny okazał się vocoder, który powstał już w 1938 roku. W latach 70. chętnie z tego urządzenia syntezy mowy i dźwięków korzystali Kraftwerk, Pink Floyd czy Giorgio Moroder. Natomiast szaleństwo wokół nowych narzędzi generowania mowy, a nawet śpiewu rozkręciło się w popkulturze – i nie tylko – na nowo na początku tego roku. Czyli tuż po dekadzie, w której artyści eksploatowali na wszystkie sposoby korektor głosu Auto-Tune (wszak ten okres chyba można uznać za zamknięty). Wszystko oczywiście za sprawą narzędzi voice AI, które nie tylko generują w realistyczny sposób ludzką mowę. One po prostu są w stanie uczyć się sposobu mówienia, rapowania czy śpiewania danej osoby i potem odtwarzać ją w dowolnym kontekście w niepokojący sposób. Wystarczy odpowiednia ilość próbek głosu w dobrej jakości.

Kanye, Taconafide i papież AI

Niedawno informowaliśmy, że producent i youtuber Yachu wspólnie z widzami stworzył nowy album Taconafide dzięki wykorzystaniu przede wszystkim głosowego AI. I to jeden z większych projektów tego typu w polskim internecie. Wcześniej eksplozje twórczego fermentu powodowane pojawiającymi się na rynku aplikacjami do imitacji wokalu owocowały skrawkami. Utworami memami, które viralowały głównie na TikToku. Dzięki temu usłyszeliśmy, jak Kanye West śpiewa Długość dźwięku samotności, Kizo zawodzi Chryzantemy złociste, a Jan Paweł II jedzie a capella czołówkę ze Świata według Kiepskich i z szelmowskim uśmiechem wchodzi na bit disco-polowego Tarzana. Realistyczne rezultaty, jaki przyniosły niektóre z tych coverów AI – zwłaszcza w przypadku wykorzystania głosu Westa – rodziły wiele komentarzy. I wciąż prowokują dyskusję na temat przyszłości muzyki. Czy zatem możemy powiedzieć, że wchodzimy w nową epokę? Epokę śmierci naturalnego głosu?

Skala wykorzystania AI rośnie z dnia na dzień. Chociaż można by przypuszczać, że boom już minął, osobiście widzę etap wdrażania w rzeczywistość i sądzę, że dopiero teraz zaczniemy odczuwać oddziaływania AI na własnej skórze. Te pozytywne i negatywne – mówi mi Adrian Kilar. To popularny twórca wideo, który prowadzi kursy MÓWI KAMERA oraz własne studio. Specjalizuje się w tematyce AI, na temat której nagrywa sporo filmów. Niedawno zaprezentował możliwości aplikacji Voicify, tworząc m.in. cover utworu Zenka Martyniuka w wykonaniu Elvisa Presleya. Wcześniej mogliśmy usłyszeć, jak za sprawą innej apki – Voice AI – przemawia głosem Roberta Makłowicza czy Morgana Freemana. Kilar przyznaje, że coraz częściej korzysta z narzędzi AI nie tylko do prezentowania ich możliwości widzom. Wykorzystuje je również podczas czynności związanych stricte z produkowaniem przez niego treści – choć w tej chwili jest to głównie ChatGPT.

Gdy dopytuję go o skalę korzystania z AI w branży kreatywnej czy artystycznej, mówi, że stało się to powszechne. Także wśród muzyków. Ba, uważa nawet, że korzysta z tych dobrodziejstw prawie każdy, ale nie każdy chce się do tego przyznać. – Które piosenki zostały napisane przy pomocy AI, nigdy się nie dowiemy. Nie mówię o całych tekstach. Ale znalezienie pasującego logicznie i zgodnie z naszą myślą słowa do wersu – to sztuczna Inteligencja robi rewelacyjnie – mówi Kilar.

Kto powinien się bać rewolucji?

Nadejście rewolucji sztucznej inteligencji w branży muzycznej wieszczył też w marcu w rozmowie z Filipem Kalinowskim Wojtek Urbański. Czyli producent i kompozytor znany z zespołu RYSY. Wspólnie z Piotrem Lenartowiczem i dr. inż. Mateuszem Modrzejewskim powołał nawet projekt badawczy Dyspensa.AI do monitorowania rozwoju sztucznej inteligencji w branży muzycznej. W jednym z niedawnych wywiadów dla Forsa.pl Urbański przypominał, że AI jest już w stanie samodzielnie tworzyć utwory od A do Z. Co zresztą ma swoją egzemplifikację w postaci wirtualnego zespołu k-popowego MAVE, którego utwór PANDORA cieszy się niemałą popularnością na YouTubie.

Oczywiście łatwiej na razie zamarkować działalność producencką z użyciem sztucznej inteligencji. Dużą popularnością cieszy się aplikacja Boomy, która jest w stanie generować w kilka sekund bity w określonym stylu. Twórcy narzędzia chwalą się, że z jego pomocą powstały już miliony utworów. Przyszły bitmejker może iść całkowicie na łatwiznę, ale i potraktować taką wygenerowaną ścieżkę jako bazę. I potem nadać jej autorskiego sznytu, przestawiając klocki czy bawiąc się efektami na bazie powstałej kompozycji.

Wracając jednak do samego voice AI – magazyn Billboard pisał jakiś czas temu, jak pomaga ono w branży autorom kawałków zaprezentować potencjalny utwór zespołowi znanego wokalisty czy wokalistki. Chodzi o to, że songwriter czy ghostwriter może nagrać szkicowy hit dla danej gwiazdy, prezentując demo z jej sztucznie stworzonym głosem.

Oczywiście ten, kto słyszał takie wirtualne imitacje śpiewu wokalistek czy wokalistów, mógł przekonać się, że nie każdy tembr jest łatwy do podrobienia. Zrozumiał to także Yachu i jego ekipa. Na filmie przedstawiającym burzę mózgów wokół projektu Taconafide 2 słyszymy, jak trudno było im stworzyć AI-ową wersję Quebonafide. Za to sztuczny Taco Hemingway w wielu utworach brzmi niemal jak żywy. Co, poza jakością próbek, ma na to wpływ?

Aktualnie narzędzia do tworzenia coverów najlepiej działają z angielskimi wykonawcami – mówi Adrian Kilar. – Zauważyłem, że AI ma jeszcze problem ze zmianą charakterystycznej i wysokiej barwy głosu na niską – dodaje. W przypadku jego eksperymentów sztuczna inteligencja miała bardzo duży problem ze zmianą głosu Zenona Martyniuka na Elvisa Presley’a. – Muszę jednak przypomnieć, że te narzędzia cały czas są rozwijane i nasze testy są paliwem do trenowania kolejnych modeli AI – podkreśla twórca.

Kilar uważa, że prawdziwą rewolucją w tym kontekście jest świeżo wprowadzona funkcja polskiej firmy ElevenLabs. Oferuje ona skopiowania naszego głosu, ale na naprawdę wysokim poziomie. – Na wytrenowanie go trzeba poczekać około 4 tygodni. Ale warto czekać, bo po tym czasie możemy stworzyć realistyczny voiceover tylko i wyłącznie z tekstu. Można przypuszczać, że podobnie kiedyś będzie z piosenkami. Każdy będzie mógł wygenerować (nie stworzyć) swoją płytę na podstawie ulubionych twórców, nawet zaśpiewaną przez nas samych. Podobnie jak dzisiaj jest z generowaniem obrazów olejnych w Midjouney promptami nawiązującymi do znanych malarzy – przewiduje założyciel Mówi Kamera.

Voice AI idzie po Grammy

Najlepszym dowodem na to, jak duże piętno na branży kreatywnej wywiera wpływ opisanych technologii, może być fakt, że jeden z utworów stworzonych przy pomocy voice AI został zgłoszony do nagrody Grammy. Chodzi o Heart on My Sleeve, w którym anonimowy twórca o ksywce ghostwriter977 wykorzystał wygenerowane wokale imitujące Drake’a i The Weeknda. Kawałek stał się viralem, ale za sprawą działań Universala został zdjęty z serwisów streamingowych. Na Grammy ma jednak szansę. Przedstawiciele Narodowej Akademii Sztuki i Techniki Rejestracji, którzy wprowadzili restrykcje związane z AI, jeśli chodzi o przyznawanie nagrody, potwierdzili, że w tym przypadku zgłoszenie jest jak najbardziej legalne. Wszystko dlatego, że kawałek nie został w całości napisany przez sztuczną inteligencję, a ghostwritera977 można wskazać jako autora. Twórca zresztą planuje kontynuować karierę i niedawno wypuścił track z imitacją głosów Travisa Scotta i 21 Savage.

Dlatego też nie bez powodu wspomniany wcześniej Wojtek Urbański w rozmowach z mediami zwraca wielokrotnie uwagę, że możliwości AI powinni obawiać się twórcy, którzy produkują generyczne dzieła. Stąd mocno fascynuje się nimi sektor reklamowy, który na potrzeby kampanii nie zawsze jest w stanie zatrudnić profesjonalnych muzyków.

Czarnych wizji dla branży muzycznej w obliczu popularności coverów AI nie snuje również Adrian Kilar. Wręcz przeciwnie. Jego zdaniem czeka nas era bardzo dobrych dzieł i wyrównania poziomu między twórcami. I zarazem uważa, że naturalność nie odejdzie na dalszy plan wraz z tym rozwojem. – Najlepsi, aby zostać na szczycie, będą musieli rynkowi zaoferować coś więcej. Coś czego AI nie będzie w stanie dać. Czyli osobowość i koncerty na żywo, oczywiście bez playbacku. W tej kwestii branża muzyczna może spać spokojnie – dodaje.

Zatem, czy tego chcemy, czy nie – AI już staje się nieodłączną częścią muzyki. Wieści o zgłoszeniu tworu ghostwritera977 do Grammy mogą tylko wzmocnić i legitymizować trend na utwory z voice AI czy covery AI. Kto wie, czy samo zjawisko nie zostanie wkrótce uznane za nowy podgatunek muzyki czy szeroko pojmowanej twórczości. Być może więc ci, którzy obawiają się całkowitej robotyzacji muzyki, nie powinni się obawiać.

Wiele osób twierdzi, że wprowadzenie AI jest nieludzkie i przerażające. Ja uważam, że sztuczna inteligencja jest naturalną częścią rozwoju i ewolucji człowieka – podsumowuje temat Kilar.

Cześć! Daj znaka, co sądzisz o tym artykule!

Staramy się tworzyć coraz lepsze treści. Twoja opinia będzie dla nas bardzo pomocna.

Podziel się lub zapisz
Pisze o memach, trendach internetowych i popkulturze. Współpracuje głównie z serwisami lajfstajlowymi oraz muzycznymi. Wydał książkę poetycką „Pamiętnik z powstania” (2013). Pracuje jako copywriter.
Komentarze 0