Автоматическое резюме текста – Линкольн, Введение в автоматическое резюме – блог данных

Блог об данных, искусственном интеллекте и моих проектах

Автоматическое резюме состоит в том, чтобы взять длинный текст или даже набор текстов и автоматически генерировать гораздо более короткий текст, который содержит большинство информации. Простой ? Не так много. Во -первых, вы должны согласиться, какая информация действительно важна. Затем мы должны быть в состоянии извлечь их должным образом, реорганизовать их, все в грамматическом тексте и без вмешательства человека. И это не рассчитывает на большое количество вариантов возможных резюме !

Автоматическое резюме текста

С взрывом сбора и хранения текстур необходимость анализа и извлечения соответствующей информации из этой массы все больше и больше присутствует.

Кроме того, бум в моделях глубокого обучения для автоматической обработки естественного языка (TALN) облегчало использование текстовых данных в операционных вопросах. Автоматическое резюме текста, так же, как и ответ на вопрос, анализ сходства, классификация документа и другие задачи, связанные с талном, являются частью этих вопросов.

Именно в этом контексте Лабораторные инновации Де Линкольн решил выполнить работу над резюме автоматического текста. Эти работы позволили установить эталон автоматических сводных моделей, доступных для языка Французский, вызвать нашу собственную модель и, наконец, поместить ее в производство.

�� Модельное обучение

Автоматическое резюме мира

Данные

Прежде чем мы сможем начать нашу работу, нам сначала пришлось создать базу данных для обучения автоматическим сводным моделям. Мы обнаружили предметы прессы с нескольких французских новостных сайтов. Эта база содержит ~ 60 тыс. Статьи и постоянно обновляется.

Уровень развития

Алгоритмы автоматических резюме могут быть разделены на две категории: резюме добыча и резюме абстрактивный. В рамке добыча, Резюме построены из предложений, извлеченных из текста во время резюме абстрактивный генерируются из новых предложений.

Автоматические сводные модели довольно распространены на английском языке, но они гораздо меньше на французском языке.

Метрики

Для оценки моделей мы использовали следующие метрики:

КРАСНЫЙ : Несомненно, измерение чаще всего сообщается в обобщенных задачах, ориентированная на отзыв зандудий для расстояния оценки (LIN, 2004) вычисляет количество аналогичных N-граммов между оцененным резюме и резюме для человека.

Метеор: Метрика для оценки перевода с явным упорядочением (Banerjee and Lavie, 2005) был разработан для оценки результатов автоматического перевода. Он основан на среднем гармонике точности и отзыве на Unigrams, отзыв, имеющий взвешивание, превышающее точность. Метеор часто используется в автоматических общих публикациях (см. Et al al., 2017; Dong et al., 2019), в дополнение к красному.

Новинка: Было замечено, что некоторые абстрактные модели слишком много опираются на экстракцию (см. Et al al., 2017; Krysci ‘nski et al.‘, 2018). Следовательно, стало общим измерять процент новых N-граммов, произведенных в рамках полученных резюме.

Источник: перевод из Mlsum Paper [2].

Развертывание моделей

Для обучения модели мы использовали сервис Cloud Azure ML, который предоставляет полную среду для обучения, мониторинга и развертывания моделей.

Автоматическая сводная модель

Мы более точно использовали Python SDK, который позволяет вам программно управлять всей средой Azureml, от запуска «заданий» до развертывания моделей.

Тем не менее, мы инкапсулировали нашу окончательную модель в приложение для контейнеров, затем развернутые через конвейеры CI/CD в кластере Kubernetes

Результаты

Прежде всего, мы предприняли несколько попыток, возглавляя модели на 10 тыс. Статьи, изменяя количество токенов, приведенных в начале модели (512 или 1024) и различных архитектур.

Первое наблюдение: красные и метеорные метрики не кажутся очень подходящими для оценки эффективности наших моделей. Поэтому мы решили основать наши сравнения только на оценке новизны и выбранным архитектура предпочтительнее более абстрактных резюме.

После подготовки обучения нашей модели по элементам 700 тыс. Мы значительно улучшили результаты и подтвердили первую версию, которую вы найдете ниже.

Внимания внимания

Помимо производительности, этот эксперимент позволил нам выделить некоторые границы Автоматическое резюме:

В настоящее время размер текста в входах типовых моделей Преобразование ограничен способностью в памяти графических процессоров. Стоимость в памяти квадратична с размером текста в качестве ввода, это создает реальную проблему для задач автоматического резюме, в которой текст, подлежащий суммированию, часто достаточно длинна.

Очень трудно найти соответствующие метрики для оценки задач генерации текста.

Будь осторожен Вес экстрактора : Мы также столкнулись с несколькими проблемами, связанными с данными сами по себе. Основная проблема заключается в том, что статья статьи часто была перефразией или даже дубликатом первых предложений статьи. Это имело следствие того, что наши модели были более добывающими, чем абстрактные, просто возвращая первые предложения статьи. Поэтому было необходимо выполнить курирующую работу, удаляя проблемы, создавая проблему, чтобы избежать такого вида предвзятости.

Блог об данных, искусственном интеллекте и моих проектах.

Автоматическое резюме состоит в том, чтобы взять длинный текст или даже набор текстов и автоматически генерировать гораздо более короткий текст, который содержит большинство информации. Простой ? Не так много. Во -первых, вы должны согласиться, какая информация действительно важна. Затем мы должны быть в состоянии извлечь их должным образом, реорганизовать их, все в грамматическом тексте и без вмешательства человека. И это не рассчитывает на большое количество вариантов возможных резюме !

Я смог работать около года на эту захватывающую тему непосредственно перед докторской степенью, поэтому этот пост является возможностью для меня погрузиться в эту тему и подвести истину последние инновации в домене.

Итак, давайте рассмотрим эту тему, создавая, описывая различные типы существующих резюме, прежде чем немного подробно остановиться на двух типах систем: из ИИ и нейронных сетей, и те, которые довольно сосредоточены на оптимальном извлечении информация.

Различные типы резюме

Когда мы говорим о резюме, мы часто думаем о задней обложке книги или описании сценария для фильма. Как правило, они избегают портить конец, когда это именно то, что можно попросить инструмента классического автоматического резюме: рассказать об интриге, чтобы резюме было достаточно, чтобы узнать предметы первой необходимости. Вот о чем Монодокументированные резюме, То есть мы суммируем только один документ (фильм, книга, статья, …).

Напротив, мы могли бы хотеть Многодокументальное резюме, То, что мы встречаемся чаще в контексте обзоров прессы: мы хотим иметь краткое изложение наиболее важной информации, о которой сообщают различные организации прессы.

После того, как мы решили о типе данных, которые мы стремимся суммировать, моно или многодокументарный, у нас есть выбор между двумя подходами:добыча, который состоит в извлечении как информации, прежде чем вернуть ее для создания резюме и подхода Генеративный, что состоит в создании новых предложений, которые изначально не появляются в документах, чтобы иметь более плавную и свободную резюме.

В дополнение к этим критериям существуют различные стили резюме, к которым мы не будем подходить здесь: Сводки обновлений, которые состоят при суммировании информации, появляющейся в новом документе и который не был перечислен до сих пор, суммированные направленные, которые состоят в принятии точного угла дано пользователем, ..

ИИ и нейронные сети революционизируют автоматическое резюме

До середины -2010, большинство резюме были добывающими. Однако в этих алгоритмах уже существовало большое разнообразие, которые могли бы варьироваться от выбора и извлечения целых предложений до извлечения точной информации, повторной, затем в текстах с отверстиями, подготовленными заранее, называемыми шаблонами. Прибытие новых подходов, основанных на нейронных сетях, значительно изменило ситуацию. Эти алгоритмы гораздо более эффективны, чем предыдущие, чтобы генерировать грамматический и жидкий текст, например, что можно сделать с этой демонстрацией GPT.

Нейронные сети, однако, требуют обучения больших объема данных и относительно разоблачения. Они отлично работают, чтобы генерировать комментарии, для которых правдивость не имеет большого значения, но решительно может вызвать противоречивую или просто неверную информацию, которая проблематична в контексте резюме пресс -статей, например,. Многие исследовательские статьи заинтересованы в этих «галлюцинациях» нейронных сетей.

Пример гибридного инструмента: Потара

Автоматическое резюме стало первым предметом исследования, в котором меня интересовало, и у меня была возможность разработать во время моего мастера гибридную систему резюме путем извлечения/генерации для многодокументного подхода, то есть обобтить набор документов, говорящих той же предмета.

Идея состояла в том, чтобы начать с классической извлечения, а именно для определения наиболее важных предложений и собрать их для создания резюме. Проблема с таким подходом заключается в том, что наиболее важные предложения часто могут быть дополнительно улучшены. Например, в статье, в которой говорится о перемещении в президенты, фраза «Эммануэль Макрон встретил своего американского коллеги и обсуждала экономику» в «Эммануэле Макрон встретился с Джо Байденом и обсуждал экономику». Журналисты тщательно избегая репетиций, мы часто сталкиваемся с этим видом явления.

Чтобы преодолеть этот дефект, мы можем определить аналогичные предложения, присутствующие в разных документах, и попытаться объединить их, чтобы получить лучшее предложение. ANSI, из следующих двух предложений:

  • Эммануэль Макрон встретил своего американского коллеги в Вашингтоне и подробно рассказал об экономике.
  • Президент Франции встретился с Джо Байденом и обсуждал экономику.

Мы можем создать короткое и информативное предложение:

  • Эммануэль Макрон встретился с Джо Байденом в Вашингтоне и обсудил экономику.

Для достижения этого результата необходимо несколько шагов: поиск похожих предложений, поиск наилучшего слияния, проверка того, что слияние намного лучше, чем оригинальное предложение. Они принимают участие во многих технологиях: Word2 с нейронными сетями, чтобы найти аналогичные предложения, графики совместной оценки для их объединения, оптимизация ILP, чтобы выбрать лучшие слияния.

Если вы хотите увидеть больше, Potara-это открытый источник, но какое-то время не поддерживалась. Этот проект заметно служил витриной, когда меня выпустили, и поэтому имел документацию, тесты, непрерывная интеграция, развертывание на PYPI, ..

Что такое хорошее автоматическое резюме ?

Если определенные критерии кажутся очевидными и относительно простыми в оценке (например, грамматичность предложений), другие гораздо сложнее. Решение о том, какая самая важная информация текста сама по себе является очень субъективной задачей. Оценить плавность, правильный выбор используемых слов, возвращается к публикации работы и давайте не будем говорить о политической ориентации, которую может принять резюме !

Новые генеративные модели, основанные на нейронных сетях, вероятно, будут вводить уничижительные суждения или квалификаторы (или, дружелюбные пользователя), что запрашивается, когда речь заходит о создании кинематографического критика, но гораздо меньше, когда разговоры о программе кандидата в президенты !

Таким образом, автоматическое резюме остается очень активным предметом в исследованиях и может быть на мгновение, особенно в отношении способности направлять результат алгоритма, именно к конкретному чувству, конкретному стилю, политическому раскраске. В отрасли он просто начинает вводить очень конкретных руководителей (например, резюме встреч).

Президент 2022: на ваши данные !

3 примера проектов данных, которые будут выполнены на президентских выборах 2022 года.