Музыкальная машина

Если музыка подчиняется определенным правилам, нельзя ли создавать ее с помощью компьютера? На первый взгляд кажется, что да, ведь компьютер отлично воспроизводит стандартный набор действий.

Однако искусственный разум еще далек от того, чтобы уподобиться творческой личности музыканта, хотя без него уже невозможно представить современную жизнь.

На заре создания искусственного интеллекта многие полагали, что всего через несколько лет компьютер сможет понимать человеческую речь и служить переводчиком. Однако электронные переводы, сделанные при помощи Google, наглядно показывают, что и спустя 50 лет проблема далека от решения. Задачи, с которыми люди легко справляются, для компьютеров по-прежнему остаются неразрешимыми. И наоборот — машина может в доли секунды перемножить два 17-значных числа, что человеку вряд ли под силу. Отсюда следует вывод: если современные технологии сталкиваются с непреодолимыми трудностями, пытаясь автоматизировать деятельность человеческого духа, возможно, понимание речи или те же музыкальные способности — это нечто такое, что за сотни тысяч лет эволюционного развития зафиксировалось в нашем мозге в виде жестких структур.

Каждый провал программистов доказывает, какое это чудо — наша музыкальность.

Впрочем, «провал», пожалуй, слишком сильно сказано, ведь сегодня все средства передачи информации — как речевой, так и музыкальной — уже немыслимы без применения компьютеров: их оцифровывают и подвергают разного рода обработке. Рассмотрим такие возможности поподробнее.

Во-первых, запись. Технически запись речи и музыки отличаются незначительно. Применялись и будут применяться аналогичные системы — начиная от восковых валиков, виниловых дисков и магнитной ленты до современной дигитальной техники. Но изменения, вызванные ее внедрением, в музыке были наиболее революционными. Всего сорок лет назад для записи диска оркестр или рок-группа приходили в студию, исполняли свою программу, и специалисты ее записывали и монтировали, что в буквальном смысле означало разрезать пленку в нужном месте и затем склеить. При этом звук старались облагородить.

Все изменилось в 60-е годы, когда музыканты начали использовать записи в качестве самостоятельного инструмента для аранжировки своих композиций. Речь шла уже не об отображении живого исполнения, а о создании произведения совершенно нового качества. Символами этой эпохи стали альбом «Beatles» под названием «Stg. Pepper's Lonely Hearts Club Band» и альбом «Pet Sounds» группы «Beach Boys» (записанный Брайаном Уилсоном, в то время как остальные члены группы были в турне). Оба альбома вышли в 1966 году и ознаменовали собой новый путь развития поп-музыки — экспериментирование разнообразными шумами и технической обработкой традиционных звучаний. Финальный аккорд песни «A Day in the Life» альбома «Stg. Pepper's» исполнили пять пианистов на трех инструментах, и чтобы добиться длительного звучания, микшер перемещали во время записи все выше, так что звук производил впечатление нереального, а микрофоны позволяли слышать дыхание, шуршание бумаги и, как говорят, даже кондиционеры студии.

Этот совместный шедевр был записан в так называемой четырехдорожечной технике — то есть произведены четыре параллельные записи. Если бы понадобилось записать еще один инструмент, пришлось бы две или три дорожки свести на одну, что ухудшило бы качество звука каждой следующей копии. Сегодня в компьютерах можно использовать столько дорожек, сколько позволит жесткий диск, и запись поп-музыки представляет собой головоломку из множества дорожек и отрывков саунда. При этом каждая дорожка может быть снабжена специальными эффектами (реверберацией, эхом и так далее), а ритмические и звуковые огрехи легко устранить. А еще любую из этих операций можно отменить: не устроит продюсера конечный результат, можно начать заново, с чистого листа. Трудно представить, что могли бы записать «Beatles» в современной студии звукозаписи…

Во-вторых, звуки стало возможно вводить в компьютер так же, как и текст, с помощью клавиатуры — клавишу вниз, клавишу вверх, разной интенсивности нажатие (в зависимости от скорости) и употребление педали. Такие миди-файлы можно писать и непосредственно на компьютере, как ноты.

В отличие от обычной нотной записи миди-файлы в любой момент можно скорректировать, скажем, стереть ошибочные звуки, сделать темп медленнее или быстрее. А потом заставить музыку зазвучать в исполнении любых инструментов: к примеру, органа, фортепиано или струнного ансамбля. Звук духовых и струнных инструментов, которые мы слышим в поп-шлягерах, в редчайших случаях «настоящий», как правило, это миди-файлы, которые создал у себя дома на компьютере композитор.

«Живое» исполнение можно записать таким же образом, если музыкант использует электронный инструмент. Хорошие электронные фортепиано надежно фиксируют силу удара по каждой клавише, передавая индивидуальную манеру исполнения. Для ударных, духовых и струнных инструментов тоже есть интерфейсы, дающие возможность отразить нюансы исполнения.

В-третьих, воспроизведение звука: электронное преобразование текста в устную речь существует уже более двадцати лет, но звучит такая речь механически. Одна из причин такого положения вещей состоит в том, что письменный текст и устная речь отличаются друг от друга. Чтобы получить синтетический голос, необходимо все фонемы (составные элементы звука) данного языка записать поодиночке в различных регистрах и затем создать программу, которая будет безошибочно выбирать для каждого слова необходимые фонемы.

С появлением первых синтезаторов в 50-х — 60-х годах музыку начали создавать искусственно. Слово «синтетический» означает «образованный из составных элементов». Первые синтезаторы комбинировали простые сигналы в более сложные звуковые. Некоторых музыкантов новые возможности настолько вдохновили, что они стали записывать классическую музыку в исполнении на синтезаторах (например, голландская группа «Ekseption» или Вальтер Карлос, записавший диск «Switched On Bach»). Сегодня все это кажется нам уже устаревшим, как и инструментальный хит того времени «Popcorn».

С помощью синтезатора невозможно было получить богатые обертонами звуки, приближающиеся по тембру к естественным. Положение изменилось с появлением так называемой техники FM-синтеза от «Yamaha», которая давала возможность получить комплексный спектр частот.

Начиная с 80-х годов от генерирования искусственных звуков перешли к осуществлению близкой к оригиналу электронной реконструкции звучания традиционных инструментов. Выяснилось, что для последующей обработки на компьютере гораздо лучше подходят сигналы не синтезированные, но семплированные. То есть записываются все звуки, скажем, хорошего концертного рояля, с различной интенсивностью, и на их основе создаются электронные миди-сигналы. Однако в случае с духовыми инструментами, имеющими гораздо более сложный спектр частот, семплирование вызывало большие трудности. Что касается семплирования человеческого голоса, то в этом плане уже есть первые впечатляющие достижения.

В-четвертых, «понимание» звуков: существуют программы, записывающие текст под диктовку. Труднее всего при этом определять границы между словами. В настоящее время в распознавании речи есть серьезные достижения, в особенности если программа настроена на определенный голос, но пока еще невозможно взять интервью у случайного прохожего и затем преобразовать его на компьютере в текст.

Применительно к музыке соответствующая система позволила бы на основе записи исполнения получить партитуру. Но если человеческий слух способен дифференцировать на отдельные составляющие смешение звуков, то компьютеры в этом от нас отстают. Пока что программе удается уловить в акустическом сигнале такт и, так сказать, виртуально «притоптывать» ногой. Но исключение голоса вокалиста из шлягера, чтобы остальное можно было бы использовать в качестве аккомпанемента для караоке, — пока еще дело будущего. (Существуют способы получить подобный результат для отдельных записей, но проблема как таковая все еще не решена.)

Уже появились программы, позволяющие превратить в нотную запись одноголосие, но добиться того же, когда звучат одновременно голоса многих инструментов, пока не удается. Фирма «Melodyne» представила в 2008 году первую компьютерную программу, способную на зачаточном уровне разделять голоса в записи.

Никто не будет отрицать, что чтение (если, конечно, речь идет о достойном литературном произведении) воздействует на эмоции, особенно если читать вслух. Популярность аудиокниг объясняется не тем, что людям не нравится читать, а тем, что прослушивание текста вызывает у них более сильные чувства. Но для записи аудиокниг и по сей день нанимают профессиональных артистов, хотя понятно, что синтезированный голос позволил бы серьезно удешевить процесс.

В случае с музыкой ясно, что написать ноты — еще полдела. Даже не каждый профессиональный музыкант в состоянии, читая партитуру, мысленно слышать звучание музыки, не говоря уже о нас, дилентантах. Нотная запись содержит музыкальные идеи, какие-то указания композитора по поводу выразительных средств (грубо говоря: быстро она должна звучать или медленно, тихо или громко), но вдохнуть в нее жизнь в состоянии только музыкант во время исполнения. (Исключение составляет разве что музыка в стиле «техно».)

То, что привносит в композицию, исполняя ее, музыкант, называют выразительностью или интерпретацией. Что это такое? Для вокала — прежде всего тембр. К примеру, я так люблю голос Леонарда Коэна, что готов слушать в его исполнении даже телефонный справочник Монреаля. Человеческий голос настолько выразителен, что весь диапазон его возможностей трудно описать.

Проще описать этот процесс на примере пьесы для фортепиано. Пианист за хорошим концертным роялем играет правильные ноты в заданном темпе — что еще он может сделать, чтобы придать исполнению индивидуальность? И что из этого дойдет до публики? Он имеет возможность изменять громкость звука, сильнее или слабее ударяя по клавишам. Если просмотреть миди-файлы в компьютере, станет очевидно, что две ноты, собственно говоря, никогда не звучат одинаково громко — звук постепенно нарастает и угасает, причем при каждом исполнении по-разному. Это естественно, ведь человек не машина. Кроме того, пианист варьирует длительность звуков. Четвертная нота в партитуре может при стаккато (коротких, отрывистых звуках) звучать короче, а при легато — даже длиннее, чем указано в нотах, если музыкант стремится как можно лучше связать звуки друг с другом. В записи это видно, так как для каждой ноты фиксируется не только ее начало, но и конец, то есть момент, когда пианист клавишу отпускает. Ну и, наконец, — ритм. Произведение каждый следующий раз звучит быстрее или медленнее, и это зависит не только от эмоционального настроя исполнителя и целей, которые он перед собой ставит, но и просто от того, что человек никогда не сможет выдержать ритм с точностью механизма. Небольшие отклонения могут быть и преднамеренными, скажем, в трехчетвертном такте вторая доля всегда чуть длиннее, чем остальные.

Собственно, три эти параметра — динамика, длительность нот и ритмика — отличают бренчание от исполнения мастера, за билет на сольный концерт которого мы готовы отдать огромные деньги. Конечно, заманчиво проанализировать на компьютере стиль игры одного из этих великих пианистов и потом воспроизвести другое сочинение в его манере.

Фирма «Бёзендорфер», выпускающая высококлассные рояли, создала модель со встроенным электронным блоком. Механизм инструмента ничем не отличается от других роялей того же класса, но он может записывать игру пианиста в виде миди-файлов или, наоборот, их озвучивать (это напоминает старинные механические пианино, клавиши которых будто нажимают невидимые пальцы).

Один из таких роялей стоит в Институте искусственного интеллекта при Венском университете. Ученые из группы Герхарда Видмера пытаются с его помощью получить стилистические «отпечатки пальцев» пианистов и обобщить их в виде формул — то есть точно зафиксировать, в какой момент музыканты отклоняются от ритма. Они, к примеру, обычно замедляют ритм, когда быстрая последовательность коротких нот завершается более длинной — как будто пальцы, из последних сил одолев подъем на гору, переводят дух. Исследователи из Вены уже внесли в программу стиль таких пианистов, как Даниэль Баренбойм или Мариа Жоао Пиреш, и с большой вероятностью способны установить, кто исполняет данную композицию. Но имитировать стиль они еще не в состоянии.

Сможете ли вы отличить исполнение пианиста от компьютерного? На сайте к книге я разместил пример из лаборатории Дугласа Экка, экспериментирующего в Монреальском университете с электронным роялем фирмы «Бёзендорфер». Вы, несомненно, заметите отличия в исполнении этюда Шопена, ор. 10 № 3, который традиционно выбирают для исследования музыкальной выразительности, — фортепианная музыка эпохи романтизма значительно экспрессивнее, чем, скажем, фуга Баха.

Правда, в этом примере компьютерная версия специально исполняется на одной громкости. Я наблюдал, как две эти записи воспринимает публика. Многие места компьютерной интерпретации вызывали у нее смех, тем более, что пианист в своем исполнении нарочито сгустил краски. Как бы то ни было, люди в состоянии отличить исполненную компьютером фортепианную музыку от игры человека, — по крайней мере, если программисты не используют специальные эффекты, чтобы добавить электронной версии выразительности.

Стефан Кёльш ставил в Лейпцигском институте когнитивных и неврологических наук имени Макса Планка эксперименты с целью установить, слышим ли мы компьютерную музыку также, как «человеческую». Испытуемым, не имевшим музыкального образования, проигрывали фрагменты классической фортепианной пьесы, в которых композитор употребил непривычный аккорд. Реакцию фиксировали с помощью энцефалограммы. В одном варианте аккорд сделали более соответствующим ожиданиям, в другом — усилили его отличие от оригинального. Всплески на энцефалограмме проявлялись тем интенсивнее, чем непривычнее звучал аккорд.

Затем участникам эксперимента предлагалось прослушать два варианта одного и того же произведения — сначала в выразительном исполнении пианиста, потом — миди-файл, лишенный всякой ритмической и динамической выразительности. При прослушивании игры пианиста всплески на энцефалограмме проявлялись более отчетливо. «Это показывает, как музыканты могут своим исполнением усилить эмоциональный отклик на определенные аккорды, — сделал вывод Кёльш. — То есть в их игре действительно содержится определенное послание слушателю».

Тонкости, воспринимаемые нами при исполнении музыки человеком, этим не ограничиваются.

В 2009 году вышла работа Хенкьяна Нонинга и Оливии Ладиниг из Амстердамского университета. Исследователи выбрали по две интерпретации популярных пьес из классики, джаза или поп-музыки, темп исполнения которых отличался не менее чем на 20 процентов. Затем одну из версий с помощью технических средств приближали по темпу к другой. При этом не менялись ни высота звуков, ни их характер (для опытов отбирались только инструментальные пьесы). Один из вариантов звучал всего лишь несколько быстрее или медленнее, чем в оригинальной записи. Испытуемым предлагалось установить, какой из двух фрагментов представляет собой оригинальную версию, а с каким производили манипуляции.

Первые результаты показали, что слушатели это улавливают. Очевидно, при ускорении или замедлении воздействие композиции меняется. В невыразительном компьютерном исполнении уловить различия было бы невозможно. Наш слух очень чувствителен к таким тонким ритмическим вариациям. Эксперимент также показал, что дилетанты справляются с этим заданием не хуже профессионалов. Различия наблюдались лишь в зависимости от вкусов слушателей — то есть поклонники классики лучше разбирались в классических композициях, а любители джаза — в джазовых. Ученые сделали вывод: умение оценить тонкости интерпретации оттачивается за счет прослушивания соответствующей музыки, а не за счет теоретических знаний. И это еще одно доказательство выдающихся музыкальных способностей непрофессионалов.

Наделен ли компьютер творческими возможностями? Для того, чтобы выяснить это, вернемся к языку. Компьютеры с трудом распознают смысл предложений. Доказательство тому — неудовлетворительное качество электронного перевода. Автоматическое составление краткого содержания, предлагаемое некоторыми текстовыми редакторами, тоже оставляет желать лучшего. А уж когда речь идет о написании текста на какую-нибудь тему или о любом другом творческом процессе, компьютер вообще не в состоянии справиться с задачей.

А вот в музыке у компьютерных программ большое будущее. Разумеется, не стоит ждать от них гениальных сочинений и шлягеров. Но использовать компьютер для создания звуковых дорожек для фильмов или музыкального фона для торговых центров было бы выгодно: ведь сегодня приходится либо заказывать это композитору, либо оплачивать лицензию на уже существующую музыку. А так, задав программе жанр и несколько других параметров, скажем, темп и настроение, можно было бы получить минут десять подходящей музыки.

Вопрос о том, нельзя ли музыку «вычислить», люди задавали себе задолго до появления компьютеров. В фугах Баха многие усматривали тесную связь с математикой, философ и математик Готфрид Лейбниц писал в 1712 году: «Музыка — это когда душа занимается арифметикой, сама о том не подозревая», а Моцарт в свое время, бросая игральную кость, определял, в какой последовательности предварительно сочиненные им музыкальные фрагменты размером в один такт соединить в мелодию.

Но и сегодня, в эпоху бурного развития технологий, сочинять музыку компьютеру не под силу. Немецкая фирма «Chessbase» известна очень хорошей шахматной программой «Fritz», которая способна просчитывать огромное количество ходов и, отбрасывая часть из них, выбрать необходимый. В стратегии такого выбора и заключается «интеллект» программы. Фирма «Chessbase» разработала аналогичную программу под названием «Ludwig» для создания музыки: задается первая нота, для второй имеется большое количество вариантов, но не все из них в равной мере приемлемы. Мелодии подчиняются известным правилам, и выбор их возможного продолжения ограничен.

«Ludwig» уже сочинил кое-какие композиции в различных стилях, которые можно услышать на сайте программы (www.komponieren.de). Имеется даже бесплатная версия программы, которую можно скачать. И все же созданные таким образом композиции меня не впечатляют. Они звучат чисто, но плоско и немузыкально. Я уверен, что работа в этом направлении будет продолжена, и скоро саундтреки будут создаваться без участия человека. Понравится ли нам результат — это уже другой вопрос.

Может ли помочь компьютер в распознавании музыки? В Интернете можно найти все что угодно. Концерн «Google» завоевал рынок благодаря тому, что его основатели в 1998 году разработали лучшую в мире на тот момент поисковую систему. С тех пор в техническом плане изменилось не слишком много: пользователь ищет информацию по определенным ключевым словам и получает ссылки в первую очередь на те сайты, которые эти слова содержат. Страницу, которая нам необходима, но такого ключевого слова не содержит, таким способом не найти.

Поиск в музыкальных библиотеках — задача еще более сложная. Музыка хранится, как правило, исключительно в виде звуковых файлов, а значит, никакие ключевые слова тут не помогут. Если вы хотите отыскать название услышанной по радио композиции, надо напеть ее мелодию. У меня на мобильном телефоне, как я уже говорил, установлена такого рода программа-подчас она работает на удивление точно и выдает список, где искомое название идет первым (разумеется, вместе с переадресовкой на сайт, где можно купить диск), но иногда терпит неудачу. Проблема состоит в том, чтобы найти в звуковом файле характерные признаки конкретной песни — мелодию, ритм и текст.

Те, кто внимательно читал эту книгу, понимают, почему: человеческий мозг способен определять все музыкальные параметры звукового сигнала и распознает вокальное произведение в инструментальном исполнении или, допустим, симфоническое в стиле рок, свинг или рэгги. Совершенно очевидно, что у нас в памяти хранится огромный музыкальный «лексикон», и мы в состоянии очень эффективно им пользоваться. О том, каким образом функционирует эта музыкальная память, пойдет речь в следующей главе.