International scientific e-journal

ΛΌГOΣ. ONLINE

10 (June, 2020)

e-ISSN: 2663-4139
КВ №20521-13361Р

ARCHITECTURE AND ART

UDC 780.6

EOI 10.11232/2663-4139.10.04

ОСОБЛИВОСТІ ТА ІМПЛІКАЦІЇ ЗАСТОСУВАННЯ МАШИННОГО НАВЧАННЯ ДЛЯ СТВОРЕННЯ МУЗИЧНОГО МАТЕРІАЛУ

БУЛКА Богдан Артемович

аспірант факультету культури і мистецтв

Львівський Національний Університет ім. І. Франка

 

УКРАЇНА


Анотація. Автор змальовує ландшафт застосувань інформаційних технологій та штучного інтелекту у сфері мистецтва та музики. Вказує на необхідність використання аудіо-відображення у застосуванні штучного інтелекту у музиці, для вираження повного спектру експресивних можливостей музики. Пропонує задіювати принцип постійної інтеграції та подачі в організації роботи при розробці застосувань із задіянням підходів із області машинного навчання.

Ключові слова: музика; мистецтво; аудіо; штучний інтелект; машинне навчання; генеративні моделі.

Постановка проблеми. За останнє десятиріччя техніки машинного навчання почали використовувати для створення музичного матеріалу. Проте, результати таких застосувань є все ще дещо обмеженими естетично та змістовно.

Область машинного навчання є доволі динамічною і в будь-який момент може виникнути рішення, що може суттєво повпливати на результати роботи генеративних систем. За такої динаміки, при розробці програмних застосувань, що у своїй функції суттєво покладаються на можливості таких систем, складно обрати стратегію, яка б не упускала переваг використання таких технік а разом з тим – не покладала б занадто високих надій на них.

Аналіз  останніх досліджень  і  публікацій. В останні роки, технікам машинного навчання – зокрема, техніці “глибокого” навчання – знаходять використання у сторенні музичного матеріалу. Такі роботи як DeepBach [1], DeepJazz [2], Music Transformer [3], MuseNet [4] демонструють здатність генерувати цілі композиції на основі тренувальних даних. Однак у цих працях розглядається робота із символьним відображенням музичного матеріалу. Таке відображення не містить значної частини змісту музичного матеріалу, особливо - естетичного. Для створення повноцінного, змістовного, естетично багатого музичного матеріалу, необхідно працювати із відображенням, яке б містило повний спектр музичного змісту.

Мета. Визначити потенціал застосування машинного навчання для створення повноцінного змістовного, естетично багатого музичного матеріалу; визначити оптимальну стратегію розробницької діяльності, спрямованої на створення таких застосувань.

Виклад основного матеріалу. Роль технологій у музиці. Впродовж історії музики кілька разів траплялося так, що технічні засоби, задіяні у створенні, споживанні, розповсюдженні музики істотно впливали на властивості самої музики а також – на її місце у суспільстві. Можна сказати, що певний набір технічних засобів зумовлює певний набір властивостей, якостей музики. Духовна музика Середньовіччя, симфонічна музика, сучасний джаз чи стадіонний рок, електронна музика дещо відмінні між собою у змісті, формі й ефекті на слухача. Проте навряд чи можна впевнено стверджувати, що якийсь із цих типів музики – або інший, сформований, зокрема технічними засобами – не представляє естетичної, мистецької, утилітарної, чи хоча б гедоністичної цінності.

До того ж, зміни у технічних засобах можуть призводити до збагачення інтелектуального змісту, експресивних можливостей, різноманітності музики а також – впливати на її роль, проліферацію в суспільстві.

Що більше різноманітності у музичному доробку цивілізації, що більше змістовної музики, музики, що представляє мистецьку цінність, музики епохального значення, що краще музика виконує утилітарну функцію – то краще.

Інформаційна епоха та штучний інтелект. Сьогодні світ перебуває у процесі входження в інформаційну епоху. З появою комп’ютерів, зокрема й матеріали мистецького характеру перенеслися у сферу оперування інформаційних технологій: виник ряд нових підходів до створення та обробки таких матеріалів; цифрова “пам’ять” дозволяє фіксувати ці матеріали у небачених досі об’ємах та у формі, оптимальній для подальшого опрацювання; миттєва комунікація і висока обчислювальна потужність кластерних комп’ютерів створює логістичну можливість піддавати усю масу даних аналізу у різноманітних виробничих та дослідницьких цілях.

Паралельно, самі інформаційні технології стрімко розвиваються. Вже з появою комп’ютерів на основі кремнієвих мікросхем, наукове середовище – та й суспільство в цілому - почало розглядати ідею штучного інтелекту, абсолют якої – інтелект, еквівалентний, або переважаючий людський. Поширені сьогодні – підходи конекціоністської школи, зокрема такі, що нестрого імітують біологічний субстрат інтелекту. При достатній кількості тренувальних даних, системи машинного навчання, що зараз ефективно застосовуються у виробництві демонструють вражаючі результати, подекуди імітуючи когнітивні функції людини, та справляючись із відповідними завданнями часом краще ніж людина [5, 6].

Наразі, існують і певні обмеження: природу роботи таких систем можна охарактеризувати як подібну до роботи систем сприйняття у мозку: вони ефективно розпізнають об'єкти на картинці, букви у звуці, тощо, проте самі по собі не мають майже ніякого поняття про значення розпізнаваних об'єктів, контекст у якому знаходяться ці об'єкти, логіку їхніх взаємозв'язків а тим більше - про утворення, що виникають внаслідок таких зв'язків та можуть, в свою чергу мати самостійне значення. Але дослідницько-інженерна робота у напрямку вирішення подібних проблем активно ведеться.

Уже із дійсним станом технології формується нова концепція інтелектуального виробництва: тандем людини і подібної системи штучного інтелекту, де система надзвичайно ефективно виконує технічні завдання - збір та обробка даних, обробка робочих матеріалів - а роль людини – аналіз, генерування ідей, інтуїтивне судження, творчий підхід, прийняття рішень [7]. У таких системах важливим є тісний цикл віддачі між комп’ютером та людиною, що може забезпечуватися в тому числі досконалістю інтерфейсу – яка варіюється між, скажімо, двовимірним кнопковим інтерфейсом, тривимірним інтерфейсом, що розпізнає жести, погляд і т.д., інтерфейсом із мозком на рівні спалахів зон активності та інтерфейсом із мозком на рівні окремих нейронів або їх невеликих груп.

Складнощі інтеграції технологій машинного навчання. Характерною рисою області машинного навчання сьогодні є неабияка науково-технічна складність проблем а разом з тим, парадоксально – вражаюча стрімкість прогресу. За таких умов інтеграція технологій машинного навчання у застосування споживацького, виробничого характеру є складним завданням: якщо недооцінити темпи прогресу, можна вибрати технологію яка от-от буде замінена новішим і на порядок досконалішим рішенням; з іншого боку, якщо бути недостатньо обережним, можна покласти занадто великі ставки на технологію, яка у зародковому стані є багатообіцяючою але може не виправдати сподівання у середньо- та довготерміновій перспективі.

Застосування технологій машинного навчання для створення музичного матеріалу. У сфері музики також відбуваються перетворення: засоби виробництва дешеві, якість вихідного продукту висока; завдяки сервісам музичного стрімінгу на зразок Spotify, Soundcloud, на руках у слухача опиняється увесь музичний доробок людства, а у дослідника цей доробок перетворюється у дослідницький матеріал. Генеративні техніки машинного навчання демонструють певні успіхи, особливо у роботі з символьним відображенням музичного матеріалу.

Враховуючи ці успіхи, а також беручи до уваги тенденцію стрімкого розвитку засадничих технологій штучного інтелекту припускаю, що застосування технік машинного навчання у роботі із музичним матеріалом може внести вагомий вклад у музичне мистецтво, а також, подібно до того як це відбувається у інших сферах, спричинити перетворення у процесі споживання і виробництва музики.

Однак, лише аудіо може виразити повний спектр змістів, що містить у собі музика. Системи машинного навчання можуть працювати із “сирим” аудіо. Для прикладу, одновимірна конволюційна архітектура добре підходить для роботи із послідовністю значень, де кожне наступне значення є похідною усіх попередніх [8, 9]. Відомим недоліком застосування аудіо у машинному навчанні є висока обчислювальна затратність. Однак, перспектива автоматизації виробництва музичного продукту може послужити стимулом для алокації значних економічних ресурсів для задіяння великої кількості обчислювального ресурсу, який, до того ж, постійно дешевшає.

Враховуючи вищенаведені обставини, вважаю, що при розробці застосувань машинного навчання для створення музичного матеріалу, слід робити акцент на роботі із аудіо-відображенням музики: хоч поки-що й немає повноцінних рішень щодо роботи із аудіо (або вони недоступні для використання – як у випадку із WaveNet), але як вже зазначалося, область машинного навчання в цілому і у частині роботи із аудіо-даними та музичним матеріалом жваво розвивається і нові рішення з’являються ледь не щодня. Для того аби відразу ж задіювати такі рішення у застосуванні, що розробляється, в основу дизайну застосування та розробницької культури необхідно закласти принципи постійної інтеграції та постійної подачі.

Мислення, емоції, свідомість, трансценденція. Вчені вже зараз обговорюють шляхи вдосконалення технологій штучного інтелекту, аби вони могли здійснювати мислення, відчувати або принаймні імітувати емоції та свідомість [10, 11, 12]. Серйозно розглядається можливість розширення наших власних свідомості та інтелекту шляхом нейро-інтерфейсу [13]. А за масштабом та обсягом штучний інтелект потенційно може  на порядки разів перевищити людський.

У цьому світлі виникають усілякі філософські запитання, на які, тим не менше, варто шукати прикладні відповіді. Якщо, скажімо, сама свідомість перетворюється на медіум, то що це означає для мистецтва? Чи все ще існує музика поза медіумом звуку? Як створювати бажані переживання? Якщо, скажімо, штучний інтелект має здатність самостійно створювати шедеври музичного мистецтва епохального значення, то чи може участь людини покращити цей результат? Якщо ні, то що це означає для людини, яка любить створювати музику? Чи має це якісь вагомі імплікації щодо значення музики, створюваної таким штучним інтелектом для людини? Якщо, на естетичному рівні, музичний твір має мистецьке значення, то чи має значення той факт, що його творець – не людина і походження змісту твору – не людський життєвий досвід, не особисті переживання, не почуття і емоції (у всякому разі – не людські)? Якщо ж цей факт нівелює значення цього твору для людини, то чи нівелюється його значення для світу в цілому?

Висновок. Історично, технології впливали на зміст, естетичні характеристики музики, та її місце у суспільстві. Інформаційні технології проникають у сферу мистецтва та музики. Штучний інтелект застосовують для створення музичного матеріалу, але існують певні обмеження щодо експресивної та змістовної палітри такого матеріалу. Цю палітру можна розширити за рахунок використання аудіо-відображення музичного матеріалу у роботі із штучним інтелектом. Область штучного інтелекту є динамічною та стрімко розвивається, тому при розробці програмних застосувань, що задіюють підходи машинного навчання критично важливою є гнучкість, адаптивність – що забезпечується принципами постійної інтеграції та доставки у розробницькій роботі. У довготерміновій перспективі, за умови збереження темпів прогресу, ряд філософських запитань може знайти своє відображення у площині науки, технологій та суспільства, а відповідно – відігравати важливу роль у формуванні стратегій.


СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ:

 

  • Hadjeres, G., Pachet, F., & Nielsen, F. (2017). DeepBach: a Steerable Model for Bach Chorales Generation. Вилучено з https://arxiv.org/abs/1612.01010v2

  • Gillick, J., Tang, K., & Keller, R. M. (2010). Machine Learning of Jazz Grammars. Computer Music Journal, (34/3), 56-66. https://doi.org/10.1162/COMJ_a_00006

  • Huang, C. Z. A., Vaswani, A., Uszkoreit, J., Shazeer, N., Simon, I., Hawthorne, C., ... Eck., D. (2018). Music Transformer. Вилучено з https://arxiv.org/abs/1809.04281v3

  • Payne, Ch. (2019). MuseNet. OpenAI. Вилучено з https://openai.com/blog/musenet

  • AlphaGo. (n. d.). Вилучено з https://deepmind.com/research/case-studies/alphago-the-story-so-far

  • Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., ... Ng., A. Y. (2017). CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning. Вилучено з https://arxiv.org/abs/1711.05225

  • Schmidt, E., & Cohen, J., (2014). The New Digital Age: Transforming Nations, Businesses, and Our Lives. New York, NY: Vintage Books.

  • Roberts, A., Resnick, C., Ardila, D., & Eck, D. (2016). Audio Deepdream: Optimizing raw audio with convolutional networks. Вилучено з https://research.google/pubs/pub45859

  • Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., ... Kavukcuoglu, K. (2016). WaveNet: A Generative Model for Raw Audio. Вилучено з https://arxiv.org/abs/1609.03499v2

  • Bengio, Y. (2019). From System 1 Deep Learning to System 2 Deep Learning. Neural Information Processing Systems. December 11th, 2019, Vancouver, Canada. Вилучено з https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view

  • LeCun, Y., (2019). Energy-Based Self-Supervised Learning. Workshop IV: Using Physical Insights for Machine Learning. November 18th, 2019, Los Angeles, USA. Вилучено з http://helper.ipam.ucla.edu/publications/mlpws4/mlpws4_15927.pdf

  • Tegmark, M. (2015). Consciousness As a State of Matter. Вилучено з https://arxiv.org/abs/1401.1219v3

  • Musk, E., & Neuralink. (2019). An integrated brain-machine interface platform with thousands of channels. https://doi.org/10.1101/703801


SPECIFICS AND IMPLICATIONS OF APPLYING MACHINE LEARNING TO THE GENERATION OF MUSICAL MATERIAL

BULKA B.,
PhD student of the faculty of arts and culture
The Lviv National University named after I. Franko
UKRAINE

Abstarct.
Author describes the landscape of information technologies and machine learning applications in art and music. He points to the necessity of using raw audio representation in applying machine learning to music in order to comprehend the full range of musical expression. He proposes to employ the principle of continuous integration and delivery in the process of developing applications that engage machine learning techniques.


Keywords: music; art; audio; artificial intelligence; machine learning; generative models.

© Булка Б.А., 2020

© Bulka B., 2020

 

This work is licensed under a Creative Commons Attribution 4.0 International License.

PUBLISHED : 02.06.2020