Как делать ИИ-музыку лучше 99% авторов. Путь к 160 000₽/мес на ИИ-артистах #2

Как делать ИИ-музыку

Привет! В 2026 году я поставил цельопубликовать на музыкальные площадки не менее 250 ИИ-треков и начать зарабатывать на ИИ-музыке от 160 тысяч рублей в месяц. Начал с абсолютного нуля – у меня нет ни опыта, ни связей в этой индустрии. Денег на продвижение музыки тоже нет, по большому счёту. И вообще, я работаю инженером на пятидневке, поэтому и свободного времени тоже мало.

На этом канале я раз в пару месяцев буду рассказывать о своих успехах в этом начинании. Если интересно следить за моими успехами – подписывайся на мой Telegram-канал про нейронки, там я рассказываю об этом больше.


 

Suno — секретный гайд

 

 
Сегодня я расскажу о том, как я генерирую музыку с помощью нейросетей — раскрою все свои секреты и лайфхаки. А в конце статьи расскажу о своём прогрессе и заработке по итогам 4 месяцев работы в этом направлении.

Секреты и лайфхаки, которые я расскажу – они очень ценные, на мой взгляд. Наверное, бесплатно такое не рассказывают. Ведь какой мне прок бесплатно раскрывать вам секреты, которые помогут вам делать вашу ИИ-музыку более крутой – это ведь убьёт мою же конкурентоспособность на рынке ИИ-музыки?!

Но я недавно решил, что нужно отдавать миру максимум всего, что можешь ему дать – поэтому сегодня я даю тебе знания. И может, когда-нибудь, ты, применив эти знания, станешь крутым ИИ-продюсером с миллионами ежемесячных слушателей. И тогда ты, быть может, вспомнишь, кто научил тебя основам, и предложишь дяде Игорю выпуск совместного релиза, который поможет дяде Игорю расширить свою аудиторию и заработать на кусок хлеба с маслом 🙂 Но даже если этого не случится, я всё равно счастлив поделиться с вами знаниями, друзья!
 

Схема работы

Процесс создания ИИ-музыки состоит из нескольких этапов:
 
1. Идея

2. Генерация текста

3. Генерация трека

4. Отбор лучшей генерации

5. Пост-продакшн
 
На каждом из этапов именно ты влияешь на то, насколько качественным и интересным получится трек. Так что, кто бы, что не говорил, но я считаю, что создание ИИ-музыки — это полноценное творчество.

Далее мы подробно рассмотрим каждый этап.
 

Процесс создания ИИ-музыки

 

1. Идея

Начинается всё с идеи. У тебя обязательно должна быть идея, любой степени зрелости – будь то зачаток, или же полностью созревшая идея. Так как я генерю музыку почти каждый день, у меня обычно всегда именно зачатки J Вот примеры идей различной степени сырости:
 

  • написать второй альбом, который покажет развитие героя
  •  

  • написать трек в тематике трека Кометы группы Грязь
  •  

  • написать фонк на популярную считалочку
  •  

  • написать летний альбом солнечного фонка
  •  

  • написать панк-песню про свежий мем
  •  

  • написать песню с припевом, который придумал я сам
  •  

  • написать фонк-ремикс на песню Широка река Надежды Кадышевой

 
При создании ИИ-музыки в качестве помощника я использую нейросеть Gemini. Она помогает моим идеям моментально «дозревать». Например, я описываю ей концепцию моей ИИ-группы и прошу выдать её идеи для 12 треков на целый альбом. Так я работаю с проектом Комфорт Плюс, и новый альбом AC1D K1SS, релиз которого планирую на июль, делал по такому же принципу. Но чаще в моих релизах каждый трек на альбоме – это отдельная идея.

Думаю, на разжёвывании понятия «идея» более не имеет смысла задерживаться. Берёшь идею и, если надо, допиливаешь её в текстовой нейронке (Gemini, ChatGPT, Claude или любой другой). С этим всё.
 

2. Текст

Следующий этап, пожалуй, самый сложный во всём процессе. От того, насколько крутым будет текст, во многом зависит, насколько слушателям понравится песня. А позитивный отклик на музыку – это одна из составляющих успеха. Возможно, кто-то думает, что единственная, но нет. В сегодняшних реалиях, даже если кто-то напишет шедевр уровня Beatles, Nirvana, Prodigy, Michael Jackson или Юрия Лозы, без качественного маркетинга массовый слушатель этот шедевр даже не услышит. Но вернёмся к тексту.

Как же написать крутой текст, если ты не умеешь писать тексты? Я покажу тебе как, но насколько твои тексты реально будут крутыми – будет зависеть от тебя.

Итак, для написания текста нам, конечно же, потребуется нейронка. Скажу сразу – не все нейронки умеют хорошо генерировать стихи. Лучшей в этом в своё время была музыкальная нейронка Riffusion, но потом она претерпела ребрендинг в Produscer AI и, по сути, канула в лету. Потому что Producer AI в плане написания текстов довольно плох, по моему опыту. В качестве замены для Riffusion я взял Gemini. Она пишет стихи хуже Riffusion, но получше большинства других нейронок.

Закидываем идею в Gemini и просим сгенерировать текст. Если текст не нравится, то пишем ей – что конкретно не нравится и просим перегенерировать. Бывает так, что не нравится всё. Тогда просим перегенерировать весь текст целиком. Повторяем это до момента, когда текст не будет удовлетворять нас более чем наполовину.

Затем работаем с конкретными строками, которые не нравятся – часто там или дурацкий смысл, или дурацкое сочетание слов (притянутое за уши ради рифмы), непопадание в стихотворный размер или слабая рифма. Выписываем все слабые строчки, объясняем — что не нравится, и просим подобрать другие варианты. Часто нейронка, как ни старается, не может придумать хорошие варианты – тогда мне проще придумать самому. Прибегаю к помощи сайта генератора рифм.
 

3.1 Где генерировать

Генерирую музыку я в Suno. До выхода версии 4.5+ вышеупомянутая Riffusion была для меня гораздо круче Suno,  но с выходом версии 4.5+ всё поменялось. Тогда я нашёл для себя идеальную связку – делать текста в Riffusion, а треки с этими текстами – в новых версиях Suno – 4.5+ и 5. Версии Suno до 4.5+ (по сути, все бесплатные на данный момент) – это полный шлак. В них вот этот узнаваемый мерзкий «суновский» вокал всё портит. Думаю, именно из-за этого вокала многие так не любят нейросетевую музыку, не зная, что Suno давно может и по-другому.

С версией 4.5+ всё понятно – она стала первой версией Suno, позволяющей генерить, действительно, крутую музыку. Но что с последующими версиями Suno?! Любой обыватель скажет, что они ещё лучше! Но так считать – большая и, я думаю, очень популярная ошибка. Я активно пользуюсь тремя версиями Suno в своих генерациях (4.5+, 5 и 5.5) и каждая из них хороша по-своему.
 
Объясню основные отличия:
 
Версия 4.5+ мой любимчик. Она выдаёт самый разнообразный и живой ассортимент вокала. Разнообразие генераций тоже поражает – часто нейронка этой версии выдаёт что-то интересное. Для генерации русского рэпа использую только её, ведь только она позволяет передавать эмоции. В одном из постов в своём Телеграм-канале про нейронки (подписывайся, кстати) я показывал это на примере в сравнении с версией 5. Там просто небо и земля. Сами послушайте. Основные минусы версии 4.5+ – часто ошибается с ударениями и в некоторых жанрах выдаёт какое-то грязное звучание.
 
Версия 5. Для русского рэпа совсем не подходит, потому что в версии 5 он всегда будет звучать как Jah Khalib. Хороша для электронной музыки, выдаёт более чистое звучание. С ударениями ошибается реже. Основные минусы – нет такого ассортимента живого вокала, треки звучат чуть более по-нейросетевому.
 
Версия 5.5. На мой взгляд, можно использовать только для электронной музыки. С ударениями почти не ошибается, звучит чисто. Но генерации сложно отличить друг от друга – если в версии 4.5+ каждая генерация имеет свой характер, то здесь они все звучат как-то одинаково. Да, звучат хорошо, но одинаково. Как фоновая музыка какая-то, мне сложно даже это объяснить. Что касается вокала, то он просто ужасен – снова в каждой генерации одни и те же «суновские» голоса, которые звучат так же, как они звучали в старых версиях Suno (до выхода 4.5+).
 
То есть, прогресс таков – после версии 4.5+ от версии к версии мы видим улучшение качества звучания и правильности произношения, но ухудшение эмоциональности, разнообразия и, скажем так, уникальности вокала.
 

3.2 Как генерировать

Для генерации, помимо текста нужен ещё промпт для музыки. Его тоже прошу придумать нейронку на этапе написания текста, но со временем у меня уже наработалась своя «библиотека промптов», которые хорошо показали себя в предыдущих треках. Часто подбираю именно из этой «библиотеки», в зависимости от того, какое настроение трека хочу получить.

Первые генерации выявляют недостатки текста – чаще всего это неправильное ударение, реже – опечатки, сложный стихотворный размер и прочее.

С ударением всё просто. Слушаем, где нейронка ошибается, и в последующих генерациях прописываем ударения в тексте с помощью спецсимволов, которые можно скопировать, набрав в гугле, например,  «ударение на а». Лучше копировать заглавную букву.
 
Или скопируй отсюда: А́, Е́, И́, О́, У́, Ы́, Э́, Ю́, Я́
 
Ещё, бывает, что нейронка произносит какое-нибудь слово не так, как оно произносится, а так как оно пишется. Тогда пишем его именно так, как оно ПРОИЗНОСИТСЯ, а не так как пишется. И на всякий случай в этом слове сразу проставляем ударение. Ты скажешь, что можно закинуть текст в нейронку и попросить её проставить все ударения – я пробовал, лучше так не делать. Когда у тебя слишком много слов подряд с проставленными ударениями, нейронка начинает косячить с ритмом. Поэтому соблюдаем баланс.

И ещё одна особенность – если написать слово или фразу на русском языке КАПСОМ, нейронка коверкает произношение. Если же слово или фраза, написано ЛАТИНСКИМ КАПСОМ – произносит нормально.

Так, генерация за генерацией, мы проставляем все места, где нейронка путает ударения (в некоторых местах они путают их не каждый раз – но лучше всё равно указать правильное ударение). Также, убираем опечатки, проблемы со стихотворными размерами и прочие недочёты. Иногда просто может прийти более интересная строка взамен уже придуманной.
 

4. Отбор

Обычно я генерирую около 20 вариантов трека (если генерации получаются хорошими — то меньше, если плохими – то больше).

На этом этапе я выступаю неким ди-джеем, определяя, какая из версий трека увидит свет.

Иногда ты сразу влюбляешься в одну из генераций и тогда проблемы выбора не стоит.

Но зачастую выбрать сложно. Либо тебе нравится сразу несколько вариантов. Либо не нравится ни один – все какие-то средненькие. Тогда я устраиваю отбор, который может отнять не один час времени. Сначала отсеиваю треки, которые точно не подходят. Потом сравниваю оставшиеся, и выбираю. У меня уже скопилось немало версий треков, которые мне очень нравятся, но для релиза мною были выбраны другие, не менее крутые варианты. Возможно, как-нибудь выпущу альбом таких версий.

Вообще, получается, что если моя цель выпустить за год от 250 треков, то это потребует около 5 000 генераций, ведь в релиз идёт лишь около 5% от сгенерированного.
 

5.1 Пост-продакшн: удаление косяков

Бывает так, что определённая генерация тебе понравилась, но в ней закрался какой-нибудь косячок – неправильное ударение или ещё какой-нибудь дефект речи, которыми нейронки иногда грешат. Совсем вкратце поговорим об устранении подобных косяков.

В случае, если ты работаешь через Suno, там есть масса способов обработки удачных генераций. Для этих целей я иногда использую функции кавера или замены голоса. Подробно на этом останавливаться не буду.

Но если ты генеришь не напрямую в Suno, а через агрегаторы типа Syntx, как я делал раньше – этот функционал будет тебе недоступен. Единственное, через Телеграм-бота Syntx можно сделать кавер или продление аудио, но эти генерации, судя по всему, производятся посредством старой версии Suno (версия не указывается, но звучит на уровне Suno 4.0, на мой слух). Но если нужно поправить одно слово, иногда этого достаточно.

Для работы с ошибками часто прибегаю к сервису Moises AI – он позволяет разбить трек на акапеллу и инструментал. Бесплатно даётся 5 разделений в месяц, а у меня 4 аккаунта, поэтому мне хватает. Suno, вроде, тоже позволяет разделять – но я пока не пробовал, пока, в основном публикую то, что нагенерил через Syntx.

Допустим, нейронка зажевала начала какого-то слова в треке, а данная генерация нам, ну очень нравится. Тогда разделяем её в Moises. Затем в аудиоредакторе обрезаем трек до нужного слова (я как динозавр пользуюсь Sony Vegas 13 Pro) и закидываем в Suno на продление (например, через Телеграм-бот Syntx). У нас получается новый отрывок трека с тем же словом, произнесённым тем же голосом, но произнесённым уже без косяков. Несём этот отрывок в Moises и тоже разделяем. В аудиоредакторе вырезаем из акапеллы правильно произнесённое слово и вставляем его взамен неправильного. Иногда оно начинает «выпирать», звуча немного инородно. Тогда делаем «сведение» старого слова с новым, чтобы звучало органично. В каждом конкретном случае там будут свои нюансы. Не часто приходится заморачиваться с исправлением произношения конкретного слова, чаще просто нужно что-то вырезать из акапеллы или заменить в череде повторений одной фразы одно неудачное повторение удачным. Это всё делается проще, но Moises  или любой аналог по отделению акапеллы – это мастхев для любого ИИ-продюсера (как я уже сказал, наверняка, достаточно функционала, который вшит в платную версию Suno, у меня просто пока до него руки не дошли – привык с Moises работать). Кстати, если просто удалить из трека часть дорожки с акапеллой, то инструментал в этом месте будет звучать грязно (потому что нейронка не идеально отделяет инструментал) и нужно такие дыры в акапелле «прикрывать» другими обрезками акапеллы.

В видеоверсии показал данный этап на примерах.
 

5.2 Пост-продакшн: мастеринг

С мастерингом всё намного проще, чем с удалением косяков. Загружаем готовую, почищенную от косяков (если они были) генерацию на сайт BandLab – выбираем понравившийся пресет и скачиваем отмастеренную версию. Это абсолютно бесплатно. В 99% случаев я использую универсальный пресет с силой 50% (по умолчанию).

В видеоверсии на примере показал, как выглядит мастеринг в BandLab.
 

Выводы по созданию ИИ-музыки

Если ты думал, что ИИ-музыка – это нажал кнопку и готово, то теперь ты видишь что процесс несколько сложнее:

Генерация идеи > Написание текста > Генерация версий > Отбор лучшей версии > Удаление косяков > Мастеринг (вот для мастеринга, действительно, достаточно просто нажать кнопку)

Так, на создание ИИ-трека, в среднем, уходит часа 3, наверное.

Потом прибавь к этому дистрибуцию – нужно сделать обложки, вписать текст (в случае с электронной музыкой его часто приходится транскрибировать, поскольку нейронка часто импровизирует с текстом – где-то добавляет повторения, а где-то что-то убирает).

На питчинги и прочий маркетинг у меня пока просто не хватает времени и сил (потому что у меня ещё есть основная работа по 8 часов в день и прочие приколы взрослой жизни). Но я всё равно не сдамся — до конца года буду пахать в этом направлении как Папа Карло 🙂
 

Про прогресс на пути к цели

За март и апрель удалось вырасти с 250 до 500 слушателей в месяц по всем вместе взятым артистам.

Что произошло за этот период?

Я выпустил первый альбом своего флагманского артиста AC1D K1SS, который является моим альтер-эго. А флагманский он потому, что его я задумывал под международную аудиторию.
 

 

***

В марте я восстановил на стримингах альбом ПАЦАНТРЭ, который был заблокирован дистрибьютором из-за того, что в одном из треков вскользь затрагивалась тема наркотиков. С помощью Moises и аудиоредактора заменил все смущающие слова на «ахи хахи» и восстановил альбом.

Теперь трек «Не твоя беда» звучит так:
 

 

***

В конце марта залил в тик-ток Нейросетевого Ансамбля им. Илона Маска ролик на песню «Пятница». Это единственный случай, когда я специально делал сначала песню под идею видео, а потом и само видео. Идея сработала – ролик в тик-токе быстро перевалил за 100 тысяч просмотров, но на прослушиваниях песни на стримингах это вообще никак не отразилось, к моему большому удивлению. Кстати, в запрещённой сети и на Ютубе этот же ролик не показал никаких выдающихся результатов.
 

 

***

В первой половине апреля летал с женой в отпуск во Вьетнам, там же отметил свой день рождения. В отпуске ежедневно находил время на генерацию новой музыки, чтобы совсем уж сильно не отстать от плана.

***

С апреля наладил регулярность релизов, теперь, каждую неделю, в среднем, у меня выходит по 5 треков (чаще всего выходит от 1 до 3, но иногда выходят целые альбомы – поэтому, в среднем, около 5 получается).

***

Первая серия моего реалити про заработок на ИИ-музыке снискала определённый успех – я вырастил количество подписчиков на Youtube-канале про нейронки с 14 до 67 (а за май количество подписчиков ещё кратно выросло, но не будем забегать вперёд – про май мы будем говорить в следующем выпуске).

***

В эти пару месяцев мы потеряли много полезных и суперполезных нейронок. Из полезного мы потеряли халявные генерации в Grok. Из суперполезного – в середине марта окончательно перестала работать Riffusion (даже после ребрендинга в Producer AI, там, по желанию можно было переключиться на Riffusion и работать как раньше). А самая большая потеря потерь – это закрытие Sora 2. Я в своё время получил доступ к оригинальной нейронке и генерил там «тик-токи» для своих артистов. Все «тик-токи», кроме залетевшего на сотню тысяч просмотров я делал именно в Sora 2. А где ещё бесплатно, всего за пару-тройку простейших промптов и час времени (с учётом монтажа) можно состряпать минутное видео?! Да, залетевший ролик я делал не в Sora 2, но он отнял у меня несколько часов времени – 8 генераций изображений и 8 генераций видео (и это речь только об удачных генерациях, а сколько ещё пришлось выбросить на помойку?!). Короче, Sora 2 – это невосполнимая потеря. По крайней мере, пока. Надеюсь, в ближайшем будущем ей на смену придёт что-то столь же крутое.

***

В конце апреля я перешёл с Syntx на оригинальный Suno, оплатив подписку через Telegram-бота (можно платить с российской карты – месячная подписка обходится в 1 290 рублей).

***

В конце апреля на основной работе я начал пусконаладку всех систем безопасности садика, который подвергся реконструкции – эта работа отнимает много времени и сил, закончить планирую не раньше середины лета. В этот период особенно тяжело успевать ещё и продюсированием ИИ-артистов заниматься, но потом должно стать полегче.

***

Если за январь-февраль я выпустил на стриминги 17 треков, то за март-апрель я выпустил на стриминги 23 трека. Итого, 40 треков за 4 месяца. Такими темпами мне до намеченной цели в 250 треков за год не дойти. Надо наращивать обороты.
 

Сколько же потрачено и сколько заработано?

Период Потрачено (руб) Заработано на музыке (руб) Заработано на реалити-шоу (руб)
Янв-Фев 11 370 1.52 0
Мар-Апр 2 980 (нейронки) 5.77 и $0.1 817.29
Итого: 14 350 7.29 и $0.1 817.29

 
На этом на сегодня всё! Следующий выпуск, ориентировочно, выйдет в июле (но это не точно) – подведу итоги первого полугодия и дам вам ещё какой-нибудь пользы! Подписывайся на мой Телеграм-канал про нейронки – там я, ясное дело, публикую контент чаще. В основном это анонсы релизов моих ИИ-артистов, обзор сложностей и достижений, иногда бывает что-нибудь полезное, а иногда и просто что-нибудь смешное. Пока!
 

Музыка и соцсети Ансамбля Маска

 

Музыка и соцсети ПАЦАНТРЭ

 

Музыка и соцсети AC1D K1SS

 

Музыка и соцсети Комфорт Плюс

 

Заказ музыки/клипов и сотрудничество

 

Хочешь быть в курсе новостей блога?
Тогда подпишись!

Введи e-mail:




 

Комментировать