Рерайтерам – приготовиться к увольнению: интервью с создателем шведского «ИИ-автора» Monok

Опубликовано в

Стартап Monok, детище шведской компании Semsomi Ltd, готов заменить собой журналистов и копирайтеров низового уровня, которые зарабатывают на жизнь рутинным рерайтингом. Адам Сэм (Adam Sam), сооснователь и CEO компании, специалист в сфере искусственного интеллекта и лингвистики, рассказал блогу «Текстерры» о том, что умеет «ИИ-копирайтер», из-за чего его используют конечные потребители, и почему журналистам пора прекратить рерайтить и начать заниматься реальной работой.

Справка: Адам Сэм разбирается как в программировании, так и в устройстве естественных языков. Он изучал компьютерные науки в Королевском технологическом институте Стокгольма и параллельно – философию и лингвистику в Стокгольмском Университете. Руководитель Monok.com в своей работе опирается на научные исследования и поддерживает общение с представителями академических кругов. В частности – проводил в Гарвардском университете (США) совместное с одним из своих шведских коллег исследование дискриминации женщин на рабочих местах, для которого писал программный код и ставил эксперимент.

Адам запустил Monok вместе со своим братом по имени Сэм. Оба они живут и работают в Стокгольме (Швеция), но являются выходцами из семьи, когда-то жившей в Багдаде (Ирак). В 1997 году семья Адама покинула Ирак, спасаясь от ужасов войны.

В научной среде к ИИ стартапу Monok отнеслись вполне серьезно. Например, профессор Университета компьютерных наук, инженерного дела и математики в Брайтоне (Великобритания) Аня Бельц в свое статье «Полностью автоматизированная журналистика: мы должны поговорить о НЕ фейковой новостной генерации» сообщает, что Monok.com «…предоставляет рентабельный способ создания высококачественного фактического контента, который хорошо работает с точки зрения SEO».

Технически «ИИ-копирайтер» Monok – это экстрактивно-абстрактивный многодокументный мультимодальный сумматор, использующий в своей работе нейросеть. Для пользователей продукции этого сумматора создан WordPress-плагин, который поставляет готовые черновики новостных сообщений прямо в админки блогов. Тексты перед отправкой автоматически проверяются на плагиат.

Авторы разработки Адам и Сэм в некотором роде вундеркинды. Их более ранние проекты были замечены прессой в Китае, Бразилии и ОАЭ, еще до того, как парни начали учиться в старших классах школы.

– Адам, как вам пришла в голову идея создания «ИИ-рерайтера»?

– Она возникла, когда я жил какое-то время в Южной Корее – там я учился на последнем курсе университета. Я думал о Google и о том, как они, по сути, создают ценность для своих пользователей, работая в качестве метасайта.

Со временем мы с братом уволились с работы по найму и основали собственную компанию, чтобы реализовать свою задумку. Мы никогда не чувствовали себя комфортно в офисе. Лично я предпочитаю работать с учеными и академическими кругами. Я люблю исследования, и мне кажется, что это часть моей личной силы, которую я реализую в Monok. Ну, я так думаю. Надеюсь на это.

– Я почитал документацию Monok. Вот что увидел: в мире десятки тысяч журналистов низового уровня зарабатывают на жизнь рерайтом новостей. Кажется, ваш сервис собирается их всех оставить без работы. Почему?

– Это очень хороший вопрос. Мы видим, что компаниям нужно иметь на своих сайтах новости. Поэтому множество квалифицированных и образованных журналистов сидят и переписывают чужие тексты вместо того, чтобы заниматься реальной журналистикой, которая подразумевает личный поиск информации, расследования. Наша цель состоит в том, чтобы медиа-дома дали своим сотрудникам настоящие журналистские задачи.

Ситуация очень похожа на тот исторический момент, когда была изобретена фотокамера, и художники-портретисты потеряли заказы. Зато они смогли сфокусироваться на своей настоящей страсти, и в результате мы обрели импрессионизм и другие прекрасные формы искусства.

Monok открыто указывает источники информации, использованные при создании контента. Ваш WordPress-плагин тоже это делает? Клиенты видят источники?

– Да, мы посылаем эту информацию через плагин и через API. Некоторые клиенты все еще хотят указывать оригинальные источники.

– Некоторые, но не все?

– Часть клиентов предпочитает корректировать черновики, которые мы предоставляем, добавлять больше информации перед публикацией и удалять ссылки на источники. Но, возможно, они указывают их каким-то другим способом.

– Гипотетически, циничный издатель может представлять новости из ленты Monok на своем сайте, полностью удаляя информацию об источниках…

– Это возможно. И эта проблема обсуждается сейчас в научных кругах. Например, ее подняла AI-эксперт, профессор Университета Брайтона Аня Бельц, на конференции «Правда и доверие» в Лондоне.

– Вы могли бы объяснить, как ваш алгоритм умудряется писать естественным языком?

– Это текстовый сумматор. Он читает все статьи (кластеры) по одной теме и создает оригинальное резюме, не используя ни одного исходного предложения. Информация не извлекается только из единичных фраз (это было бы невозможно), вместо этого алгоритм извлекает ее из всех статей по теме, чтобы переписать каждую смысловую часть. Вот почему перефразировщик может расширить исходный текст и рассказать больше, чем конкретное оригинальное предложение. Мы используем специальные метрики, которые позволяют избежать плагиата. Во многом алгоритм работает как рерайтер-человек.

Что касается фото, которыми мы снабжаем публикации, то все они с правовой точки зрения являются публичным достоянием, либо имеют лицензию Creative Commons.

– Мне казалось, что в вашем алгоритме должна быть «замешана» знаменитая предсказательная нейросеть GPT-2.

– Нет, мы ее не используем, у нас собственная модель. Но мы собираемся подключить GPT-2, чтобы она действовала в комплексе с нашим алгоритмом, так как планируем расширяться и начинать работать с немецким, испанским и русским языками. Думаю, это произойдет примерно в конце текущего года. Также мы обсуждаем возможность задействовать французский язык.

– На каких еще языках Monok сможет писать в будущем?

– Мы собираемся увеличивать количество языков постепенно и надеемся со временем охватить языки всех стран, входящих в ООН.

На данном этапе мы более заинтересованы в достижении аккуратности обращения с фактами и повышении качества текстов, чем в языковом масштабировании.

– Проверяют ли работу алгоритма люди? Как оценивается естественность его письменной речи?

– В этом направлении мы работаем с журналистами из Великобритании. Прежде, чем самим использовать тексты, созданные алгоритмом, они читают и корректируют их. Также у нас наметилось сотрудничество с одним ученым из Калифорнийского университета в Лос-Анжелесе – мы планируем провести эксперимент по оценке естественности языка нашего алгоритма. К сожалению, из-за пандемии COVID-19 с ним вышла задержка.

– Скажите как эксперт, через сколько лет технологии, подобные вашей, смогу работать вообще без проверки результата человеком?

– Человеческий язык глубоко связан с чувствами и сознанием. Поскольку, кроме компьютерных наук, я изучал философию и лингвистику, могу сказать, что эта проблема очень и очень сложна. В отличие от фотографий или аудио, человеческий язык – это об абстракциях и об отсылках к тем или иным идеям.

Создание естественного AI-письма – одна из самых сложных проблем машинного обучения. Поэтому для разработки идеального сумматора-рерайтера понадобится еще примерно 5 лет, а идеального журналиста-обозревателя – возможно, 10 лет. Обозреватель ведь не только создает резюме из прочитанных текстов, но и делает выводы, открывает для себя новые вещи подобно журналисту, который специализируется на расследованиях.

– Сможет ли ваша технология заменить репортера-новостника? Например, в случае, когда алгоритм получает доступ к базам данных о происшествиях: полицейским, базам пожарных и так далее? Сможет ли алгоритм писать новости, основываясь на информации из них?

– Может быть, через несколько лет мы будем двигаться в этом направлении. Но сейчас наш приоритет – улучшение качества того, что наш алгоритм уже делает. Однако, если другая компания сфокусируется на технологии, о которой вы говорите, она сможет достичь цели быстрее, чем «несколько лет».

– Выходит, что алгоритмы готовятся заменить рутинную «служебную» журналистику. Должны ли журналисты в связи с этим задуматься об улучшении качества своей работы? О том, что им пора делать более сложные вещи?

– Я не имею права давать советы журналистам, которые знают в этой области гораздо больше, чем я. Ведь я в первую очередь компьютерный ученый. Но, по моему скромному мнению, все, что сделано с любовью и доведено до совершенства, всегда будет конкурентоспособным. Мне сложно представить, что переписывание чужих текстов делается с любовью, поэтому мы, люди, не должны заниматься этим в ближайшем будущем.

– Как монетизируется ваша технология?

– Мы предоставляем услугу текстового суммирования компаниям в Японии, Швеции, Великобритании и США, которые больше не заинтересованы в покупке новостных материалов у агентств вроде Associated Press или Reuters, но заинтересованы в SEO и, следовательно, хотят иметь уникальные статьи, которые Google сможет проиндексировать.

Некоторые из наших клиентов боятся пропаганды (которую люди недавно начали называть «фейковыми новостями»), поэтому им нравится подход нашего сервиса. Ведь ценность разработанного нами алгоритма в том, что он не просто переписывает новости с использованием нескольких источников, он отсекает упоминания о неких «фактах», которые не повторяются и выделяет факты, о которых рассказывается многократно. Это очень похоже на экспертную оценку. Многократные упоминания об одних и тех же фактах опровергают единичные лживые сообщения.

– Но как алгоритм способен проверить факты?

– Некоторые – вроде того, что «небо голубое» – проверяются легко. Другие трудно проверить даже людям. Фейковые новости – это не только упоминания о фактах, это еще и слова, которыми описывают кого-нибудь, кто связан с этими фактами. Кто они? «Мятежники» или «террористы»? Они «консерваторы» или «либералы»?

Наш алгоритм на основе источников создает нормализованную историю, отсекая экстремальные, крайние мнения с обеих сторон – такие оценки встречаются реже. Это не обещает правды, но тут философский вопрос. Скажем, у меня не было еще ни одного интервью без фактических ошибок журналиста, оставшихся в финальной статье.

Люди ошибаются, ошибаются и машины.

##READMORE_BLOCK_90904##

– Существует ли опасность, что в будущем Google научится отличать на сайтах алгоритмические ленты новостей от «естественных» и начнет пессимизировать в поиске сайты с алгоритмическими лентами?

– Уже упоминавшаяся мною профессор Бельц рассказывала в своей статье о том, как при помощи специального алгоритма GLTR-2 тестировались наши тексты и тексты, которые написали люди из Fox News. Наши тексты показали лучший результат в смысле «человечности». Однако в будущем некоторое соревнование между нами и Google может возникнуть.

– Этакая «война алгоритмов» …

– В конце концов важна ценность того, что ты создаешь, а не метод. Я верю, что машины будут так же хороши, как люди. Поэтому методология (человек vs машина vs другая машина) не будет иметь значения. Только ценность конечного продукта будет что-то значить для людей.

– Вы с братом уже стали миллионерами?

(Смеется) Пока еще нет, но мы вполне держимся на плаву. Спросите меня еще раз через пять лет.

– Вас только двое в проекте? Это маленький стартап?

– Мы с братом – единственные владельцы, но мы нанимаем людей в Португалии и Украине. В какой-то момент и в Стокгольме у нас работало 12 человек, но я все еще считаю нашу компанию небольшим стартапом.

Несколько инвесторов предлагали нам финансирование, но пока мы содержим себя сами.

– Почему отказываетесь от сторонних инвестиций? Слишком крутые перспективы, и вы хотите сохранить контроль над компанией?

– Я думаю, что важно создать хорошую базу, прежде чем начинать привлекать инвесторов – чтобы мы могли должным образом масштабироваться. Если мы привлечем инвесторов на экспериментальной стадии, то да, мы можем потерять контроль. Такой поворот есть в нашей дорожной карте, но сейчас не время для него. К счастью, мы в состоянии финансировать себя сами.

– Давайте еще про деньги. Представьте себе ситуацию: я компания, у меня есть блог, в котором я хочу публиковать новости, и я плачу рерайтеру 1 000 $ в месяц. Насколько дешевле мне будет «нанять» ваш алгоритм?

– В конечном итоге это зависит от того, сколько статей в месяц может создать ваш рерайтер в сравнении с тем, сколько статей вы сможете сгенерировать, пользуясь нашим сервисом. В данный момент работать с нами дешево. Вы можете получать статью по 1-3 € за штуку, и это принесет органический трафик на ваш сайт.

Для России цена составит порядка 87 р. При этом статья будет содержать, кроме текста, вставки из Twitter, Instagram, фото, видео с YouTube и так далее.

Кстати, сейчас мы экспериментируем с автогенерацией видео, этим у нас занимается новый человек. Качество пока не идеально, поэтому мы еще не выпустили это дополнение публично.

– Если говорить об органическом трафике – как вы проверяете уникальность заголовков?

– Так же, как и уникальность всего остального текста – используя метрику, которая известна в математике как «Расстояние Левенштейна». Это позволяет нам быть уверенными, что алгоритм не написал что-то слишком похожее на то, что написали источники. И, поскольку мы видим все статьи, посвященные тому или иному событию, мы можем генерировать нечто более уникальное, чем то, что уже есть онлайн.

На самом деле, благодаря нашей работе мы видим, как многие источники плагиатят друг друга. Мы этого не делаем.

– Я сейчас себя почувствовал тупицей с этим вашим расстоянием Левенштейна…

(Смеется) Нет, вы не тупица, это просто сложная тема. Если все это укоротить и упростить получится вот что: поскольку мы видим все источники, которые написали о конкретном событии, мы можем добиться того, чтобы наш текст выглядел по-другому.

Спасибо за разговор! Возможно, я задавал несколько однобокие вопросы – те, которые волнуют людей моей профессии.

– Нет, мне понравились вопросы. Конечно, мы делаем много больше, чем просто генерация текста, потому что мы просто любим ИИ-автоматизацию. Но в целом я рад тому, как прошло интервью.

Резюме интервьюера

Если внимательно послушать, что говорит Адам Сэм и почитать о результатах теста конечного продукта Monok, проведенного профессором Бельц, становится очевидно: в ближайшие годы рерайт в интернете потеряет всякий смысл. А многочисленные копирайтеры, которые им промышляют, лишатся работы.

Несмотря на то, что основатель Monok отказывается давать советы журналистам и бывает очень сдержан в своих оценках, цеху сетевых авторов следует признать: пора заниматься настоящим делом – создавать оригинальный контент. Потому что неоригинальный вот-вот заберут себе алгоритмы. Они начнут клепать его качественнее, быстрее и дешевле, чем люди.


0 комментариев

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *