AI tworzy muzykę i idzie jej to coraz lepiej. Czy muzycy mają się czego obawiać?

przyszłość muzyka ai
+ 1 więcej
DALL-E 2/Open AI

„Czy to oznacza, że jako producent mam muzyki przejebane?" – zapytał Wojtek Urbański, patrząc na coraz większy wpływ AI na muzykę. Na to pytanie odpowiadają między innymi Steez83 z PRO8L3M'u czy Max Cooper, były wykładowca University College London.

Nikomu nieznane kompozycje Beethovena, nowe numery Elvisa Presley’a i do złudzenia podobna emulacja głosu Kendricka Lamara, to tylko kilka przykładów ze świata algorytmicznie generowanej muzyki współczesnej. Podobnie jak w przypadku demonicznych wypowiedzi chatbota GPT, deep fake’owych reklam z udziałem Joe Rogana czy kadrów z „Obcego” wyreżyserowanego w 1979 przez… Alejandro Jodorowskiego. Jednak nie o ciekawostki tu chodzi…

Wydaje mi się, że to, w jaki sposób wykorzystujemy dziś teorię obliczeń, jest jedynie wierzchołkiem góry lodowej. Komputery bardziej będą służyć do rozszerzania ludzkiej estetyki, niż do przetwarzania ciągów cyfr czy generowania fal sinusoidalnych. Kiedy komputery pojmą nasze człowieczeństwo, a nauczą się go tak, jak poznają algorytmy, to otworzy się przed naszą kreatywnością zupełnie nowy obszar – mówił pić lat temu podczas festiwalu Tauron Nowa Muzyka Max Cooper, powszechnie doceniany producent muzyki elektronicznej, a także doktor biologii obliczeniowej i bioinformatyki, który wykładał na University College London.

I choć pół dekady w rozwoju współczesnej technologii cyfrowej, a szczególnie jej segmentu zajmującego się AI, to… cała epoka, w wielu przewidywaniach autor zeszłorocznego albumu Unspoken Words (i ponowny gość tegorocznej edycji TNM) niewiele się pomylił.

Komputery zaczynają być wykorzystywane na coraz ciekawsze sposoby. Dzięki sieciom neuronowym i temu, że się uczą, zaczynają być coraz bardziej… ludzkie. To sprawia, że możemy współpracować z nimi jak z drugą jednostką. W tym momencie rozwijają wszystkie gałęzie technologii, ale również muzykę czy sztukę – z wyraźnym entuzjazmem w głosie kontynuował Cooper. To jednak nie wydarzy się w ten sam sposób jak w momencie wynalezienia syntezatora. Wtedy bardzo łatwo było usłyszeć różnicę pomiędzy oscylatorem w syntezatorze a jakimkolwiek naturalnym „oscylatorem”. Z komputerami to niekoniecznie będzie takie łatwe do porównania.

Co dzień budzę się w nowym świecie

To się dzieje od dłuższego czasu, ale mnie czy wiele innych osób z branży muzycznej dotykało to tylko w momencie, kiedy pojawiały się jakieś nowe programy do separacji ścieżek, przestrajania sampli czy zmian akordów. Programy pozwalały robić rzeczy wcześniej zupełnie niemożliwe, jednak efekty ich pracy brzmiały zwykle dosyć mizernie. Przez lata więc ten temat toczył się gdzieś obok, nie wpływał w żaden sposób na moje myślenie o muzyce, życiu i przyszłości. Nie budził we mnie żadnych obaw… aż któregoś dnia Kuba Matyka ze studia MELT pokazał mi wideoklip duetu RYSY, który powstał przy użyciu AI. A że internet w tym samym czasie zalała fala różnych generatywnych grafik, to rozmawialiśmy o tych wszystkich zabawkach, które przy głębszym zapoznaniu prędko okazują się być czymś więcej niż tylko zabawkami. Bo w tym wszystkim nie rozchodzi się przecież o to, żeby ludzie mogli wygenerować swój portret namalowany przez Velazqueza na modłę steam-punkową. To jest ogromna machina działająca na bazie rozlicznych projektów badawczych, a w praktyce mająca doprowadzić do powstania bardzo potężnego narzędzia; być może najpotężniejszego, jakie człowiek kiedykolwiek wynalazł.

Powiedziałem mu: „dobra, Kuba, rozumiem to zupełnie zrewolucjonizuje grafikę, a co z muzyką?” „Z muzyką będzie dokładnie tak samo!” – odpowiedział. I tak od słowa do słowa doszliśmy do wniosku, że na płaszczyźnie muzyki być może tak jeszcze tego nie widać, bo żyjemy w kulturze wizualnej i muzyka ma jednak mniejszy potencjał komercyjny niż grafika. To jednak dzieje się równolegle, wprost proporcjonalnie i nie chodzi tu o żadne strojenie głosów czy separację sampli, ale narzędzia służące generowaniu bardzo profesjonalne brzmiącej muzyki. Od pierwszej nutki, przez wychodzący z komputera głos, aż po miks i master – wszystkim zajmie się AI.

„Czy to oznacza, że mam jako producent muzyki przejebane?” – zapytałem. Na co powiedział tylko: „Raczej tak; nic tego nie zatrzyma” – z ogromnym przejęciem w głosie relacjonował Wojtek Urbański, kompozytor i producent muzyczny znany z duetu RYSY, współpracy z Julią Wieniawą, Tymkiem czy Jerzykiem Krzyżykiem. Tego dnia, jak sam wspomina, już nie zasnął. A to, czego się dowiedział ma spory wpływ na jego aktualny nastrój, podejście do pracy i potrzebę lepszego zrozumienia tematu.

Wtedy zacząłem śledzić te narzędzia. Ledwie pół roku wcześniej były jeszcze w miarę proste, działały na zasadach randomizacji, rachunku prawdopodobieństwa i agregacji danych wprowadzanych w konkretny algorytm. Efekty tych działań brzmiały tymczasem dosyć… gównianie, a ja, jako człowiek od zawsze skupiający się na brzmieniu, zyskałem wówczas trochę nadziei i pomyślałem sobie: „dobra, spoko, to nie jest takie groźne jak mogłoby się wydawać”. Im bardziej się w to jednak zagłębiałem, tym zyskiwałem większą pewność, że to idzie dwutorowo. Z jednej strony wszystkie te projekty badawcze skupiają się na kompozycji, a z drugiej – właśnie na brzmieniu.

Z Piotrkiem (Lenartowiczem), z którym pracujemy wspólnie nad Dyspensa Records, postanowiliśmy odezwać się do eksperta i znaleźliśmy Mateusza Modrzejewskiego z Instytutu Informatyki Politechniki Warszawskiej, który pracował za granicą przy różnych projektach Apple czy Google, a niedawno obronił pracę doktorską na temat wykorzystania AI w muzyce. Mateusz potwierdził nam, że to idzie właśnie dwutorowo i że… naprawdę nie jest dobrze. Sam będąc z wykształcenia fizykiem, a z pasji muzykiem-perkusistą, stwierdził, że to będzie totalna demolka układu sił, jaki aktualnie znamy. Od momentu naszego spotkania dwa miesiące temu wszystko rozwija się dużo szybciej niż przypuszczali eksperci…

Dlatego postanowiliśmy, że wspólnie powołamy do życia Dyspensa.AI, a więc swego rodzaju projekt badawczy, w ramach którego będziemy monitorować rozwój sztucznej inteligencji w muzyce. Jest to na pewno pierwsza taka inicjatywa w Polsce i jestem tym krokiem bardzo podekscytowany. Bo choć wiele z tych narzędzi jest wciąż w fazie różnych beta testów, to już potrafią one emulować głos Kendricka Lamara, tworzyć cały akompaniament do wrzucanych weń melodii wokalnych czy generować naprawdę rozbudowane kompozycje na bazie kilku zdań opisu. A dodatkowo jeszcze z miesiąca na miesiąc brzmi to coraz bardziej profesjonalnie. I choć wciąż nie jest to poziom, na który mogę wejść w moim studio przy pomocy wszystkich tych ARPów i Moogów, to jest to jedynie kwestia czasu. Czasu dosyć drastycznie obchodzącego się z wszelkimi ludzkimi przewidywaniami.

Jak bowiem u schyłku zeszłego wieku twierdził amerykański naukowiec, pisarz i futurolog – a dodatkowo też pionier syntezy mowy i rozpoznawania elektronicznych instrumentów – Ray Kurzweil: ludzka wynalazczość rozwijała się miarowo do czasu wymyślenia komputera. Od tamtej pory przyspieszyła nieporównywalnie, a w momencie pojawienia się tak zwanej osobliwości wszelkie człowiecze zdolności przyswajania, rozumienia i przewidywania okażą się niewystarczające, anachroniczne i chybione. To natomiast czy momentem osobliwości nie okaże się któreś stadium rozwoju AI i czy nie będzie to przypadkiem to, w którym znajdujemy się obecnie… jeszcze się okaże.

Outsourcing jeszcze bardziej nieludzki

Trwożny ton, który pobrzmiewa w głosie Wojtka Urbańskiego, wynika przede wszystkim z dwóch kwestii.Jedna jest w dużej mierze filozoficzna, a druga dużo bardziej przyziemna i realna. O ile bowiem homosapiens ma przemożną tendencję do przypisywania sztucznej inteligencji wszystkiego co najgorsze (Terminatora, pamiętamy!), to w kwestii rewolucji na rynku pracy, którą spowoduje rozwój AI, nie ma z czym dyskutować. W nieskończoność można gdybać o tym, czy ewentualne przyszłe pojawienie się zupełnie autonomicznej, samoświadomego AI będzie się wiązało z tym, że będzie ona wrogo nastawiona do ludzkości, zazdrosna albo chciwa… To natomiast, że jej zupełnie jeszcze nieautonomiczni i pozbawieni świadomości przodkowie, którzy obecnie istnieją, zastąpią w pracy ogromną liczbę dzisiejszych fachowców jest już właściwie faktem.

Uważam się za eksperta w dziedzinie oprawy dźwiękowej reklam. Robię to od piętnastu lat, zjadłem na tym zęby i świetnie wiem, jaka jakość jest w tym świecie potrzebna i jakie wymogi mają ludzie z agencji reklamowych. Przez minione półtorej dekady realizowałem bowiem briefy, wprowadzałem uwagi i dotrzymywałem deadline’ów. Naprawdę długo już żyję w tej presji i jestem święcie przekonany o tym, że AI całkowicie zresetuje te stosunki – mówi Urbański. Sztuczna inteligencja jest bowiem szybka i tania, nie narzeka i albo już jest wystarczająco jakościowa dla reklamy albo za moment będzie. Jeśli więc chodzi o rynek muzyki komercyjnej – jingle, oprawy dźwiękowe różnych realizacji wewnętrznych i zewnętrznych – to już jest pozamiatane. A, że ja żyję z reklam i moja wolność artystyczna jest w ogromnym stopniu od nich zależna, to… naprawdę nie wiem co będzie dalej. To, że w Dyspensie możemy sobie pozwolić na wydanie płyty zespołu xDZVØNx albo pojechać na kilkudniową sesję nagraniową z Jerzykiem Krzyżykiem do w pełni profesjonalnego i drogiego studia, wynika bowiem z tego, że płaci za to reklama.

Reklama w swojej późno kapitalistycznej, przeżartej przez outsourcing i brak jakichkolwiek standardów etycznych, obecnej formie (obok bankowości, przemysłu militarnego i pornografii) jest sektorem rynku, na który AI będzie miał wpływ najszybszy i największy. Bo choć ludziom długo się wydawało, że pierwsze pod młotek pójdą zawody nie opierające się na kreatywności – komunikacja z klientem [✓], stenografia czy też tłumaczenie symultaniczne [już za moment ✓] albo kierowanie pojazdami [jeszcze dłuższą chwilę nie ✓] – to nie brali pod uwagę tego, jak wiele z obecnej pracy kreatywnej jest po prostu rzemieślniczym wytwarzaniem dóbr cyfrowych względem któregoś briefu czy innych wytycznych.

To jest rewolucja przemysłowa, która się dokonuje w domenie cyfrowej; coś, co kiedyś zmieniło oblicze całego rynku pracy – rękodzieła, produkcji masowej i istniejących wtedy zawodów. To przewartościowało cały świat. Dziś dzieje się to samo i oczywiście, tak samo jak wtedy – nadal będą potrzebni ludzie obsługujący te maszyny, ale być może to już będą zupełnie inni ludzie. Szereg zawodów na pewno jednak zniknie bądź zejdzie do kompletnej niszy – zgodnie z wszystkimi przesłankami stwierdza Urbański, który pomimo swojego fatalistycznego tonu, patrzy na całą tę kwestię ze sporą ambiwalencją i jak sam twierdzi nie ma żalu

Jestem dzieckiem rewolucji komputerowej. To ona dała mi te -naście lat kreacji artystycznej i jeśli ma również odebrać kolejne, to… jestem z tym ok. Nie mogę być na to zły, bo robię muzykę tylko dzięki cyfryzacji i automatyzacji. Jeśli więc ma to za chwilę pójść na tyle daleko, że ja już nie będę potrzebny, to naprawdę nie mam żalu; mogę być tylko wdzięczny. Jeśli za mojego życia ma się wydarzyć największa rewolucja tej epoki, to się cieszę, że mogę to obserwować i jakoś w tym uczestniczyć. Współczuję tylko tym, którzy dopiero teraz wkroczyli na tę drogę. Wykształcili się do roli muzyków elektronicznych, wszystko postawili na tę jedną kartę i… co teraz?!?

Biorąc poprawkę na teorię osobliwości Raya Kurzweila, tego… nie wie nikt. Od kilku już lat bacznie śledzący rynek algorytmicznych narzędzi do obróbki i tworzenia muzyki Piotr Szulc ztj. Steez83, widzi tę zmianę w nieco mniej fatalistycznym świetle. Współtwórca duetu PRO8L3M, zakulisowy promotor stojący za takimi inicjatywami jak Revolume czy 2020, a także naczelny futurolog krajowego środowiska hiphopowego, twierdzi, że w obecnym momencie rozwoju AI są to narzędzia, z którymi należałoby się zapoznać i nauczyć je wykorzystywać.

Same w sobie nie są bowiem zdolne odebrać komukolwiek pracę. Jeśli chodzi o rozmaitą muzykę robioną pod brief, muzykę reklamową czy też niekiedy stockową, to wydaje mi się, że nastąpi na tym rynku pewna rotacja twórców. Część ludzi, którzy dotychczas się tym zajmowali i byli w tym bardzo profesjonalni zastąpią zapewne ludzie, którzy nie będą posiadali podobnej wiedzy praktycznej, ale będą dobrze promptowali soft. Ci, którzy będą umieli wprowadzać dane w taki sposób, żeby otrzymywać oczekiwane rezultaty, będą mieli nieporównywalnie krótszą ścieżkę. Będą bardziej wydajni, szybsi i być może też przez to tańsi, więc finalnie bardziej konkurencyjni na rynku. Jeśli ten sam brief przyjdzie do osoby, która jest świetnie zorganizowana w pracy z AI i do osoby, która od lat robi wszystko sama, to pierwsza z nich będzie w stanie przygotować dziesięć kompozycji w zupełnie różnych stylach w przeciągu godziny. Ktoś, kto robi to manualnie, w oparciu o swoje umiejętności kompozycyjne czy nawet pewne schematy, które sobie przez lata wypracował, spędzi natomiast nad tym kilka dni. I w tym wypadku rynek będzie preferował tych pierwszych, ale też nie widzę przeszkód, żeby ci, którzy zajmowali się „własnoręczną” produkcją tego typu muzyki, nauczyli się obsługi AI i wykorzystywali to narzędzie nieporównywalnie sprawniej niż inni. Bo to jest moim zdaniem kolejne narzędzie, których ludzkość stworzyła już ogrom. Co różni je od innych? To, że jego możliwości są zupełnie niesamowite, a dynamika jego ewolucji bardzo duża. To też wymusza na twórcach coraz większą specjalizację. Niebawem trzeba będzie się zająć tylko jedną konkretną działką, którą się wybierze, i za nią nadążać.

Dialog z maszyną

Na razie to jest trochę zabawa, a trochę fundament pod to co nadejdzie, ale naprawdę nie sądzę, żeby w najbliższym czasie jakikolwiek software był w stanie zastąpić twoich ulubionych twórców muzyki elektronicznej. Należy bowiem pamiętać o tym, że AI nie jest obecnie w stanie pracować w żaden inny sposób niż odtwórczy. Wszystkie te algorytmy są karmione pewnym inputem, uczą się go przerabiać i coś na tej bazie generować. Jeśli więc chodzi o zupełnie rewolucyjne koncepcje, a także różne niuanse – intrygujące brzmienia, kompozycyjne subtelności czy konteksty wyciągane z popkultury – to wydaje mi się, że w tych kwestiach wciąż jest przed nami jeszcze bardzo długa droga – mówi Steez83. I choć Ray Kurzweil z dużą nieufnością zapatrywałby się pewnie na podobne przewidywania, to w kontekście muzyki autorskiej, nic na razie nie wskazuje na to, żeby miało być inaczej. Zanim bowiem AI będzie zdolne generować w pełni osobną, intrygującą i jakościowo satysfakcjonującą muzykę rozrywkową bądź eksperymentalną, wpierw znajdzie swoje zastosowanie w muzyce komercyjnej.

Pierwszym bastionem, który upadnie, będzie zapewne reklama, potem przyjdzie czas na już dzisiaj mocno generatywną muzykę funkcjonalną (od rzemieślniczego ambientu, który tworzy dla Warnera AI zwane Endelem, aż po zupełnie powtarzalne, taśmowo tworzone (t)rapowe bity i techno rytmy). Kolejne będą najpewniej kopie już wcześniej znanych i sprawdzonych na rynku stylistyk od starego rock’n’rolla po współczesny pop (co też już się dzieje umożliwiając powstanie takich koszmarów jak chociażby Blue (Da Ba Dee) w wykonaniu… Elvisa Presley’a).

Mi się nie wydaje, żeby maszyny były kiedykolwiek zdolne przejąć muzykę czy też szerzej sztukę. Ludzie chcą przecież oglądać, słuchać i wchodzić w interakcje z innymi ludźmi. Oczywiście można też czasem sprawdzić, jak coś robi maszyna, ale to nigdy nie zdominuje rynku sztuki. Bo przecież muzyka to coś więcej niż to, co wychodzi z głośników; więcej niż waveform. Chodzi też o to, kim jest osoba, która tę muzykę stworzyła: skąd jest, jaki ma charakter i jakie szalone rzeczy w życiu zrobiła, jak wyglądają jej koncerty i jaka jest historia każdego z tych utworów, bo przecież każdy utwór ma swoją historię. I sam nie wiem, może maszyny będą kiedyś oglądać inne maszyny i ich maszynową sztukę. Będą miały własną scenę i ludzie będą mówili: „nie, nie lubię tego gówna”. Tylko samoświadome roboty będą chodziły na wystawy samoświadomych robotów. W sztuce zawsze przecież szukamy kontaktu osobistego i nawet jeśli będzie on zapożyczony czy też rozwinięty przez nasze maszynowe „rozszerzenia”, to nadal będzie on przede wszystkim ludzki – pięć lat temu dywagował Max Cooper.

Dotychczasowy rozwój sztucznej inteligencji i jej wykorzystania w świecie muzyki zdaje się potwierdzać jego słowa. Ludzkie interakcje z algorytmami w dziedzinie muzyki opierają się na nieustannym dialogu i rozszerzaniu człowieczych możliwości. Widzimy to zarówno przy kompozycji dla kwartetu smyczkowego, którą Lejarn A Hiller Jr. i Leonard M. Isaacson wygenerowali w… 1957 roku za pomocą komputera znajdującego się na Uniwersytecie w Illinois, jak i wydanym cztery lata temu albumie PROTO, który Holly Herdndon stworzyła we współpracy z AI-em.

To dosyć oczywiste. Sztuczna inteligencja i samouczące się systemy pozwolą ludziom robić szereg rzeczy, które dziś są bardzo trudne i czasochłonne, co będzie miało również ogromny wpływ na sztukę czy też konkretnie muzykę. Wydaje mi się, że efektem tego będzie wiele bardzo interesujących koncepcji. Jestem wręcz pewien, że ludzkość prędko znajdzie metody, by te nowe możliwości zaprząc w tryby swoich gustów czy preferencji – niespełna cztery lata temu mówił mi Robert Henke, producent elektroniczny ukrywający się pod aliasem Monolake, a także programista odpowiedzialny za sporą część kodu, który złożył się na przystępność i potencję narzędzia Ableton Live służącego generowaniu i obróbce dźwięku.

Artysta, który w pewnym momencie swojej kariery wypreparował już własny styl i znalazł pole swoich zainteresowań, spędza bowiem mnóstwo czasu na wyszukiwaniu konkretnych brzmień, budowaniu rytmów i tworzeniu struktury, a to nie na tym zasadza się, moim zdaniem, sedno jego twórczości. Jeśli więc byłbym w stanie wytrenować system, na którym bym pracował, żeby tworzył on samoistnie „utwory Monolake’a”, mógłbym je wtedy traktować nie jako gotowe, skończone kompozycje, ale jako punkt wyjścia do pracy twórczej. Jeśli taki system miałby świadomość wszystkiego, co zrobiłem przez lata mojej pracy artystycznej, mógłbym uwolnić moją głowę od robienia dokładnie tego samego w sposób nieporównywalnie mniej analityczny i wyczerpujący. Mógłbym skupić się tylko i wyłącznie na byciu kreatywnym i zastanawianiu się, w którą stronę mogę z tym całym moim bagażem dalej zmierzać. Zamiast więc szukać konkretnego dźwięku, który mam w głowie przy pomocy przeróżnych narzędzi, którymi dysponuję, mógłbym powiedzieć tej sztucznej inteligencji, czego potrzebuję, a ona przejrzałaby wszystkie moje utwory, cały dysk twardy i zaprezentowała mi kilka propozycji. I być może żadna z nich nie byłaby idealna, ale któraś po obniżeniu o kilka oktaw okazałaby się dokładnie tym, czego szukam. To by niesamowicie ułatwiło robotę większości producentów muzycznych zajmujących się szeroko pojętą muzyką elektroniczną.

Muzyka i inne komplikacje

Nie mam zbyt wielkich sukcesów z feedowaniem AI moją twórczością i generowaniem czegoś na tej bazie. Wydaje mi się, że te algorytm nie są jeszcze na tyle wrażliwe i precyzyjne, żebyś wrzucił w nie kilkadziesiąt swoich numerów i żeby one wyczuły w nich, czym jest ten twój styl. To było w ogóle pierwsze, co mi przyszło do głowy. Bierzesz całą swoją dyskografię, zamieniasz ją na ślady MIDI i pojedyncze ścieżki z brzmieniami, wgrywasz to wszystko, odpalasz AI i patrzysz co wyjdzie… Tylko ten software jeszcze tak nie działa. Nie potrafi przeprowadzić syntezy wielu utworów i na ich bazie stworzyć twojego profilu tworzenia muzyki. Potrafi to zrobić na bazie jednego numeru. I nawet jeśli byś wybrał ten jeden, najbardziej ikoniczny numer ze swojej dyskografii, to on nie oddaje w pełni twojego stylu, bo styl to jednak coś, co możesz poczuć dopiero na bazie wielu kawałków – mówi Steez83, który od ponad dwóch lat korzysta z platformy AIVA, czyli cyfrowego kompozytora (The Artificial Intelligence Virtual Artist).

W temat algorytmicznie generowanej muzyki wszedł głębiej w trakcie pandemii COVID-19, gdy uziemiony w swoim ówczesnym mieszkaniu w Los Angeles, wspólnie z zaprzyjaźnionym grafikiem Maćkiem Janickim zgłębiał twórcze możliwości AI. Aktualnie korzystam z tego trochę dla hecy. Podoba mi się koncepcja korzystania z sampli, które zostały wygenerowane przez sztuczną inteligencję, zamiast brania na warsztat tego, co zrobili ludzie, nieważne czy są to cudze nagrania czy paczki brzmień. Wydaje mi się to dużo ciekawsze i bardziej przewrotne, więc generuję sobie różne tego typu tematy i sprawdzam później, czy są one na tyle atrakcyjne, żeby coś z nimi dalej robić.

Z drugiej strony natomiast mając już jakieś swoje nowe kompozycje, rozbijam je na czynniki pierwsze i wgrywam w taki software, żeby wygenerował mi do tego jakieś nowe elementy, które mogę później wykorzystać albo nie. Tak to wygląda od strony czysto technicznej, ale narzędzie jest przede wszystkim niesamowicie przydatne w kwestii kreatywności. Kiedy na przykład masz jakiś blok twórczy, to możesz coś tam sobie wygenerować i zacząć się tym bawić. Ja na przykład w moim procesie twórczym często biorę na warsztat jakiś sampel, buduję na nim całą strukturę, a później go wyrzucam.

W kwestii generowania próbek do cięcia, efektowania i włączania w swoje kompozycje, AI przynosi kolejną rewolucję, bo nie dość, że – jak zapewnia strona softu z którego korzysta Steez – you own the full copyright of any composition created with AIVA, forever, to jeszcze w emulowaniu muzyki gatunkowej sztuczna inteligencja jest coraz bardziej zaawansowana i coraz lepiej brzmiąca. Im ta muzyka jest bardziej skomplikowana, tym wręcz lepiej. Nie bez kozery bowiem pierwsze jakkolwiek satysfakcjonujące, algorytmiczne próby kompozytorskie realizowały się w obrębie muzyki klasycznej, której matematyczna komplikacja i gęstość strukturalna jest wprost wymarzona pod analizę.

Przy pomocy AI łatwiej jest robić rzeczy, które są bardzo rozbudowane, skomplikowane i na pierwszy rzut ucha imponujące, niż coś, co jest bardzo stylowe i proste. Bo jak się wrzuci w ten algorytm kompozycje Beethovena, to jest w nich bardzo dużo danych, które jest w stanie przenalizować i stworzyć na ich bazie coś równie złożonego. Coś, co zapewne nie będzie równie ujmujące, nie będzie miało tego ducha i najprawdopodobniej okaże się zwyczajnie chujowe, ale będzie imponująco skomplikowane – mówi Steez83. A za potwierdzenie jego słów mogą służyć setki godzin algorytmicznie wygenerowanej muzyki klasycznej, której w sieci jest więcej niż wszystkich gatunków muzyki rozrywkowej razem wziętych.

Jeśli natomiast weźmiesz dwa bity: jeden od kogoś, kto dopiero zaczął swoją przygodę z robieniem muzyki i niewiele jeszcze z tego wszystkiego kuma, a drugi od producenta z kilkunastoletnim doświadczeniem, bardzo charakterystycznym brzmieniem i swoim własnym stylem, to zawarte w nich dane będą bardzo zbliżone. Ten matematyczny silnik na razie na pewno nie wyłapie jeszcze tego, że bit tego uznanego producenta będzie miał nieporównywalnie ciekawsze barwy, nietuzinkową melodię i specyficznie ułożony bas. Nieporównywalnie łatwiej jest więc takiemu AI-owi rozpisać utwór na kwartet smyczkowy, niż prosty, klimatyczny bit, bo tu wszystko właściwie opiera się na wrażeniowości, brzmieniu, doborze sampli czy odnajdywaniu się w konwencjach muzycznych, które są fajne, na czasie albo po prostu ciekawe.

O ile więc ogrom ludzi wciąż posługuje się hierarchią muzyki, względem której klasyka jest na miejscu pierwszym, jazz i rock progresywny na miejscu drugim, a później coraz niżej znajdują się nurty, które wymagają coraz mniejszej maestrii wykonawczej, to sztuczna inteligencja może zaraz wywrócić tę piramidę do góry nogami. AI bowiem kunszt niezbędny do nagrywania ciekawego rapu obnaża równie dobitnie jak uczestnictwo Andrzeja Dudy w #hot16challenge. No, chyba, że podpierdala flow…

Bo po co kserować i być powielaczem?!

Wyobraźmy sobie sytuację, w której jutro pojawia się w sieci dziesięć nowych płyt Rihanny. Wszystkie będą wygenerowane przez AI i zaśpiewane deep fake’owym głosem Riri. Żadna z nich nie trafi na oficjalne platformy streamingowe, ale będą w sieci dostępne na wyciągnięcie ręki i być może spodobają się ludziom bardziej niż oryginalne nagrania Rihanny, co nie tylko wpłynie na przychody samej Riri, ale też na zarobki jej wytwórni, a także udział amerykańskiej wielkiej fonografii w całym, światowym obiegu muzyki. Takie nowoczesne formy piractwa mogą całkowicie zrewolucjonizować rynek, który opiera się dziś w ogromnej mierze na marce, czymś co jeszcze chwilę temu wydawało się nie do podrobienia – mówi Wojtek Urbański, podnosząc temat, który już od jakiegoś czasu nurtuje biznes fonograficzny.

Ledwie kilka dni wcześniej inżynier dźwięku i producent studyjny Young Guru bił na instagramie na alarm, po tym jak usłyszał deep fake’owy filtr wokalny sprawiający, że każdy może brzmieć jak Kendrick Lamar. Realizator kanonicznych nagrań Jay’a Z, Beyoncé czy T.I.’a wnioskował w nim potrzebę wprowadzenia praw autorskich do ludzkiego głosu i ekstrapolował wyzwania, przed którymi stoi aktualnie branża muzyczna na wszelkie inne pola ludzkiej aktywności; z revenge pornem włącznie.

O ile jednak wiele podobnych wątpliwości czy lęków wprost paląco wymaga dziś odpowiedzi, to ich adresatami nie jest branża kreatywna, a władza ustawodawcza, wykonawcza i sądownicza. I choć nadzieję, że cały ten proces zajmie mniej czasu niż chociażby regulacja reklam w social mediach czy wciąż nierozwiązana kwestia tantiem z platform streamingowych, to nie mam żadnych wątpliwości, że nadchodzą dla nich bardzo trudne lata, pełne różnych pułapek i pomyłek.

Względem moich specyficznych gustów estetycznych i przyrodzonej antysystemowości, nie mogę natomiast doczekać się wszystkich tych dźwiękowych szaleństw, które dostarczy nam rozwój AI. Jako wielki admirator różnych fonograficznych sabotaży – w rodzaju niespodzianki jaką Banksy wyszykował w 2006 roku Paris Hilton – zupełnie nie martwię się o dobrobyt Rihanny. Jako pasjonat wszelkich stylistycznych zderzeń, nie mogę się już doczekać deep fake’owego K-Dota na jakimś przesterowanym i zwyrodniałym dancehallowymi bicie. Jako domorosły filozof po chmurze cieszę się natomiast z tego, że spotkanie z AI wyzwala aktualnie w ludziach potrzebę odpowiedzenia sobie na szereg zupełnie podstawowych pytań: czym tak naprawdę jest człowieczeństwo? Co składa się na ludzką wyobraźnię? Dlaczego jesteśmy tak chciwym, zazdrosnym i fatalistycznie myślącym gatunkiem? I może tymi właśnie starymi jak sama ludzkość dylematami, tekst ten w tym momencie zakończę. Wszystkich niepocieszonych brakiem jednoznacznych odpowiedzi odsyłam do Kurzweila, a tych dla których okazał się on zbyt ogólnikowy i w wielości poruszanych wątków nieco chaotyczny – do dalszego grzebania w sieci czy dyskusji z jakimś wiarygodnym chatbotem.

Bo na stację pojechał właśnie nowy pociąg i trzeba do niego wsiadać, bo zaraz nam spierdoli. Jednocześnie z tym lękiem i niepewnością, o której mówiłem wcześniej pojawiła się bowiem we mnie duża fascynacja i zacząłem w tym grzebać coraz głębiej, co już wyzwoliło we mnie sporo nowych pomysłów. Jednym z nich jest na pewno Dyspensa.AI, gdzie mamy już cały zespół ludzi zajmujących się zagadnieniami na styku muzyki i sztucznej inteligencji. Z tym wszystkim jest bowiem trochę tak jak z BDSM-em – trochę boli, a trochę sprawia przyjemność i być może musi trochę boleć, żeby naprawdę sprawić przyjemność – mówi na koniec naszej rozmowy Wojtek Urbański, a Steez83 dodaje jeszcze tylko: Jestem tym zupełnie zafascynowany, z mojej perspektywy to jest wszystko bardzo ciekawe, no i… nic, obserwujmy, co czas przyniesie. Na pewno będę eksperymentował na tym polu i zamierzam wiele efektów tych eksperymentów wykorzystywać w moich przyszłych produkcjach; zobaczymy tylko jeszcze z jakim skutkiem. Będę się starał być z tym wszystkim na bieżąco, bo jak to się w końcu rozwinie do takiego stopnia, że to naprawdę będzie COŚ, to fajnie będzie być na miejscu i móc z tego korzystać. A jeśli nie zrobisz tego dzisiaj, to jutro może być już za późno.