Microsoft Research creëert een systeem dat automatisch 'slimme' ondertiteling kan genereren

Inhoudsopgave:

Waar bestaat het uit

U bent vast wel eens een onderschrift tegengekomen dat verwarrend, incorrect of weinig zegt over de afbeelding waarnaar het verwijst; en het is zelfs mogelijk dat, als je je toelegt op het publiceren van je eigen artikelen, je het vervelend vindt om dit gedeelte in te vullen. Welnu, de mensen uit Redmond hebben een tool gemaakt die het u gemakkelijker wil maken.

Een werk gepubliceerd door Microsoft Research dat zichzelf omschrijft als een "systeem voor het genereren van ondertiteling" dat in staat is om de verhalende kenmerken van menselijke taal na te bootsen, dat wil zeggen een technologie die schermafbeeldingen kan beschrijven alsof het over een van ons gaat, met de bijbehorende context.Iets waar bedrijven als Facebook, Microsoft en Google al langer mee bezig zijn, maar deze keer overtreft het de verwachtingen.

Waar bestaat het uit

Hij had een geweldige tijd

Op deze manier heeft het systeem de mogelijkheid om zelfs een compleet verhaal te vertellen aan de hand van meerdere afbeeldingen, het te beschrijven en te vertellen alsof het was een boek. Een hulpprogramma dat volgens experts uiteindelijk een functie zou kunnen worden die een menselijker tintje geeft aan bepaalde toepassingen, spraakherkenningstoepassingen, automatisch beschrijvingen genereert in andere gebieden en nog veel meer.

En feit is dat de tool niet beperkt is tot het in het kort zeggen van wat het "ziet", maar eerder een breder context van de situatie die wordt weerspiegeld in het beeld, waardoor een "verhalende context en een unieke vertelstijl" wordt bereikt, legt Frank Ferraro, een van de auteurs van dit werk, uit.Om onszelf in een situatie te plaatsen, geeft hij ons een duidelijk voorbeeld

Zijn moeder was trots op hem

Daarom stellen het volgende geval voor: “Laten we ons voorstellen dat we een fotoalbum hebben van enkele vrienden die een verjaardag hebben gevierd in een Kroeg. Sommige van de eerste beelden laten mensen zien die bier bestellen en drinken, terwijl de laatste beelden iemand laten zien die op een sofa slaapt”, zegt hij.

Een conventioneel systeem "zou eenvoudigweg kunnen wijzen op zoiets als dat er een persoon op een bank ligt, terwijl ons systeem zou kunnen bevatten dat ze zich waarschijnlijk in die situatie bevinden omdat ze dronken zijn na een paar drankjes". Een toevoeging die zorgt voor begrip en een zekere emotionele lading die ook tot uiting komt in de afbeeldingen en fotobijschriften in dit artikel.

Via | MIT Technology Review

In Xataka Windows | Microsoft lanceert een app die het ras van je hond bepa alt

Inhoudsopgave:

Waar bestaat het uit

Bewerkers keuze