Имитатор поэта, или как Пушкин писал бы через 200 лет

Доклад посвящён описанию двух алгоритмов работы автопоэта для русского языка, изначально создававшегося для соревнования, а потом ставшего чем-то большим. Первая часть рассказа будет о первом алгоритме автопоэта, который осуществлял поиск ключевых слов с помощью тематической модели LDA, обученной на корпусе википедии, подставлял их всеми возможными способами в рамках морфологических характеристик слов в исходные стихотворения автора и затем ранжировал по приближенности ритмы и рифмы к оригинальному стихотворению автора.

Вторая часть представит новый подход к созданию автопоэта, где это задание представляется как задача информационного поиска. Эта версия сначала находит в новостном корпусе все семантически близкие строчки к строкам исходного стихотворения автора с помощью эмбеддингов eLMO и метода k-ближайших соседей и из двух наиболее близких строит первую и третью строки будущего стихотворения, затем в корпусе идёт поиск наиболее фонетически близких строчек к двум уже полученным, и две самые близкие образуют вторую и третью строки. Таких вариантов генерируется несколько, и затем, с помощью логистической регрессии, осуществляется ранжирование получившихся стихотворений, и самое похожее на заданную тему выдаётся как итоговый вариант.

Имитатор поэта, или как Пушкин писал бы через 200 лет

Запись доклада

Презентация

Анна Мосолова

Другие спикеры секции Data Science:

Николай Шмырёв

Борис Лесцов

Андрей Кутузов

Леонид Кулигин

Владислав Лялин

Даниил Гаврилов

Имитатор поэта, или как Пушкин писал бы через 200 лет

Запись доклада

Презентация

Анна Мосолова

Другие спикеры секции Data Science:

Николай Шмырёв

Борис Лесцов

Андрей Кутузов

Леонид Кулигин

Владислав Лялин

Даниил Гаврилов

30—31 марта 2019, Новосибирск, Экспоцентр, Станционная, 104

Контакты

Мы в соцсетях

30—31 марта 2019,
Новосибирск, Экспоцентр, Станционная, 104