Automatisk textöversikt – Lincoln, Introduktion till automatisk sammanfattning – databloggen

En blogg om data, artificiell intelligens och mina projekt

Den automatiska sammanfattningen är att ta en lång text, eller till och med en uppsättning texter och automatiskt generera en mycket kortare text som innehåller majoriteten av informationen. Enkel ? Inte så mycket. Först måste du komma överens om vilken information som är riktigt viktig. Då måste vi kunna extrahera dem ordentligt, omorganisera dem, allt i en grammatisk text och utan mänsklig ingripande. Och det är utan att räkna med det stora antalet varianter av möjliga sammanfattningar !

Automatisk textöversikt

Med explosionen av textursamling och lagring är behovet av att analysera och extrahera relevant information från denna massa mer och mer närvarande.

Dessutom underlättade bommen i djupa inlärningsmodeller för automatisk naturlig språkbehandling (TALN) användningen av textdata i operativa frågor. Den automatiska textöversikten, på samma sätt som svarsfrågan, likhetsanalysen, klassificeringen av dokument och andra uppgifter kopplade till TALN är en del av dessa frågor.

Det är i detta sammanhang som Labbinnovation De Lincoln har beslutat att utföra arbetet med den automatiska textöversikten. Dessa verk har gjort det möjligt att skapa ett riktmärke för de automatiska sammanfattningsmodellerna som finns tillgängliga för språket Franska, för att orsaka vår egen modell och slutligen sätta den i produktion.

�� Modellutbildning

Världens automatiska sammanfattning

Data

Innan vi kunde starta vårt arbete var vi först tvungna att bygga en databas för att lära dig automatiska sammanfattningsmodeller. Vi har återhämtat pressartiklar från flera franska nyhetssajter. Denna bas innehåller ~ 60k artiklar och uppdateras kontinuerligt.

Toppmodern

Automatiska sammanfattningsalgoritmer kan separeras i två kategorier: Sammanfattningar extraktiv och sammanfattningar abstrakt. I ramen extraktiv, Sammanfattningarna är byggda av meningar som extraheras från texten medan sammanfattningar abstrakt genereras från nya meningar.

Automatiska sammanfattningsmodeller är ganska vanliga på engelska, men de är mycket mindre på franska.

Metrik

För utvärdering av modeller använde vi följande mätvärden:

Röd: Utan tvekan den mätning som oftast rapporteras i sammanfattningsuppgifter, den återkallande orienterade understudien för gistiskutvärdering (Lin, 2004) beräknar antalet liknande N-gram mellan den utvärderade sammanfattningen och den mänskliga referensöversikten.

Meteor: Metriken för utvärdering av översättning med uttrycklig beställning (Banerjee och Lavie, 2005) designades för utvärdering av automatiska översättningsresultat. Det är baserat på det harmoniska genomsnittet av precision och återkallelse på unigram, återkallelsen har en viktning större än precision. Meteor används ofta i automatiska sammanfattande publikationer (se et al., 2017; Dong et al., 2019), förutom rött.

Nyhet: Det har noterats att vissa abstrakta modeller vilar för mycket vid extraktion (se et al., 2017; Krysci ‘nski et al.‘, 2018). Därför har det blivit vanligt att mäta procentandelen nya N-gram som produceras inom de sammanfattningar som genereras.

Källa: Översättning från MLSUM -papper [2].

Utplacering av modeller

För modellträning använde vi Cloud Azure ML -tjänsten som ger en komplett miljö för utbildning, övervakning och distribution av modeller.

Automatisk sammanfattningsmodell

Vi har mer exakt använt Python SDK som gör att du kan hantera hela Azureml -miljön på ett programmatiskt sätt, från lanseringen av “jobb” till utplacering av modeller.

Vi kapslade emellertid vår slutliga modell i en containeriserad kolvprogram som sedan distribueras via CI/CD -rörledningar på ett Kubernetes -kluster

Resultaten

Först och främst gjorde vi flera försök, ledde modellerna på 10K -artiklar, varierande antalet tokens som gavs i början av modellen (512 eller 1024) och olika arkitekturer.

Första observationen: Röda och meteormätningar verkar inte särskilt lämpliga för prestationsbedömningen av våra modeller. Vi valde därför att basera våra jämförelser på nyhetspoängen och valda arkitektur gynnar mer abstraktiva sammanfattningar.

Efter att ha drivit utbildningen av vår modell på 700K -artiklar förbättrade vi resultaten avsevärt och validerade en första version som du hittar nedan.

Uppmärksamhetspunkter

Utöver prestanda tillät detta experiment oss att lyfta fram vissa gränser Automatisk sammanfattning:

För närvarande är storleken på texten i ingångarna till typmodellerna Omvandla är begränsad av kapaciteten till minne av GPU: er. Kostnaden i minnet är kvadratiskt med storleken på texten som input, detta utgör ett verkligt problem för uppgifterna för automatisk sammanfattning där texten som ska sammanfattas ofta är tillräckligt lång.

Det är mycket svårt att hitta relevanta mätvärden för att utvärdera textgenereringsuppgifter.

Var försiktig Extraktorns vikt : Vi har också stött på flera problem relaterade till data i sig själva. Huvudproblemet är att artikeln i artikeln ofta var en parafras eller till och med ett duplikat av de första menarna i artikeln. Detta hade konsekvensen av att uppmuntra våra modeller att vara mer extraherande än abstraktiva genom att helt enkelt returnera artikelns första meningar. Det var därför nödvändigt att göra ett kurationsarbete genom att ta bort artiklarna som ställer problem för att undvika denna typ av förspänning.

En blogg om data, artificiell intelligens och mina projekt.

Den automatiska sammanfattningen är att ta en lång text, eller till och med en uppsättning texter och automatiskt generera en mycket kortare text som innehåller majoriteten av informationen. Enkel ? Inte så mycket. Först måste du komma överens om vilken information som är riktigt viktig. Då måste vi kunna extrahera dem ordentligt, omorganisera dem, allt i en grammatisk text och utan mänsklig ingripande. Och det är utan att räkna med det stora antalet varianter av möjliga sammanfattningar !

Jag kunde arbeta i ungefär ett år med detta spännande tema strax före min doktorsexamen, detta inlägg är därför en möjlighet för mig att fördjupa mig i detta ämne och att ta reda på de senaste innovationerna inom domänen.

Så låt oss ta en översikt över detta tema genom att skapa genom att beskriva de olika typerna av sammanfattningar som finns, innan du bor på två typer av system något i detalj: de från AI och neurala nätverk, och de som är ganska fokuserade på optimal extraktion av information.

De olika typerna av sammanfattning

När vi pratar om sammanfattning tänker vi ofta på baksidan av en bok eller beskrivningen av manuset för en film. I allmänhet undviker de att förstöra slutet, när det är just vad man skulle be om ett verktyg för klassisk automatisk sammanfattning: att berätta intrigen, så att sammanfattningen kan räcka för att veta det väsentliga. Här handlar det om Sammanfattningar av mono-dokument, Det vill säga att vi bara sammanfattar ett enda dokument (en film, en bok, en artikel, …).

Tvärtom, vi kan vilja ha en Sammanfattning av flera dokument, att vi möter oftare i samband med pressrecensioner: Vi vill ha en sammanfattning av den viktigaste informationen som rapporterats av olika pressorganisationer.

När vi har beslutat om vilken typ av data som vi försöker sammanfatta, mono eller multidokumentär, har vi valet mellan två tillvägagångssätt:extraktiv, som består i att extrahera som vad med informationen innan du sätter tillbaka den för att skapa en sammanfattning och tillvägagångssättet generativ, som består i att skapa nya meningar, som ursprungligen inte visas i dokumenten för att få en mer flytande och friare sammanfattning.

Utöver dessa kriterier finns det olika sammanfattningar av sammanfattningar, som vi inte kommer att närma sig här: uppdatera sammanfattningar som består i att sammanfatta informationen som visas i ett nytt dokument och som inte listades hittills, sammanfattade som består i att anta en exakt vinkel ges av användaren, ..

AI och neurala nätverk revolutionerar den automatiska sammanfattningen

Fram till mitten av -2010 -talet var de flesta sammanfattningar extraktiva. Emellertid fanns det redan stor mångfald i dessa algoritmer som kan sträcka sig från urval och utvinning av hela meningar till utvinning av exakt information som återupptogs och sedan i texter med hål tillagade i förväg som kallas mallar. Ankomsten av nya tillvägagångssätt baserade på neurala nätverk har förändrat situationen avsevärt. Dessa algoritmer är mycket effektivare än de tidigare för att generera grammatisk och flytande text, som vad som kan göras med denna GPT -demo.

Neurala nätverk kräver emellertid stora mängder data för att utbildas och är relativt oklädda. De arbetar perfekt för att generera kommentarer för vilka sanningsenhet är av liten betydelse, men kan starkt generera motstridiga eller helt enkelt felaktig information som är problematisk i samband med pressartiklar sammanfattningar till exempel. Många forskningsartiklar är intresserade av dessa “hallucinationer” av neurala nätverk.

Ett exempel på ett hybridverktyg: Potara

Den automatiska sammanfattningen var det första forskningsämnet där jag var intresserad av, och jag hade möjlighet att utveckla under min mästare ett hybridsystem av sammanfattning genom extraktion/generation för en multidokumentstrategi, det vill säga sammanfatta en uppsättning dokument som talar av samma ämne.

Tanken var att börja från en klassisk extraktion, nämligen att identifiera de viktigaste meningar och montera dem för att generera en sammanfattning. Problemet med detta tillvägagångssätt är att de viktigaste meningarna ofta kan förbättras ytterligare. I en artikel som talade om en presidentförskjutning mötte till exempel frasen “Emmanuel Macron sin amerikanska motsvarighet och diskuterade ekonomi” förbättras i “Emmanuel Macron träffade Joe Biden och diskuterade ekonomi”. Journalister undviker noggrant repetitioner, vi befinner oss ofta konfronterade med denna typ av fenomen.

För att övervinna denna defekt kan vi identifiera liknande meningar som finns i olika dokument och försöka slå samman dem för att få en bättre mening. Ansi, från följande två meningar:

  • Emmanuel Macron träffade sin amerikanska motsvarighet i Washington och pratade om ekonomi långt.
  • Den franska presidenten träffade Joe Biden och diskuterade ekonomi.

Vi kan skapa en kort och informativ mening:

  • Emmanuel Macron träffade Joe Biden i Washington och diskuterade ekonomi.

Flera steg är nödvändiga för att uppnå detta resultat: att hitta liknande meningar, hitta den bästa fusionen, kontrollera att fusionen är mycket bättre än en original mening. De tar en del av många tekniker: Word2 med neurala nätverk för att hitta liknande meningar, co-cccurence-grafer för att slå samman dem, ILP-optimering för att välja de bästa sammanslagningarna.

Om du vill se mer är Potara öppen källkod, men har inte hållits på ett tag. Detta projekt hade särskilt fungerat som en utställning när jag släpptes och hade därför dokumentation, tester, kontinuerlig integration, distribution på PYPI, ..

Vad är en bra automatisk sammanfattning ?

Om vissa kriterier verkar uppenbara och relativt enkla att bedöma (till exempel grammatiska meningar), är andra mycket mer komplexa. Att bestämma vad den viktigaste informationen i en text redan är en mycket subjektiv uppgift i sig själv. Utvärdera fluiditeten, det rätta valet av de ord som används, kommer tillbaka till publiceringsarbete och låt oss inte prata om den politiska inriktningen som en sammanfattning kan ta !

De nya generativa modellerna baserade på neurala nätverk kommer sannolikt att införa pejorativa bedömningar eller kval (eller användarvänlig), en effekt som söks när det gäller att generera en filmkritiker, men mycket mindre när man pratar om en presidentkandidatprogram !

Automatisk sammanfattning förblir därför ett mycket aktivt ämne i forskningen och kan vara ett ögonblick, särskilt med avseende på förmågan att vägleda resultatet av algoritmen, just mot en viss känsla, en specifik stil, en politisk färg som ges. I branschen börjar han bara gå in i mycket specifika chefer (sammanfattning av möten till exempel).

Presidential 2022: Till dina uppgifter !

3 exempel på dataprojekt som ska genomföras för presidentvalet 2022.