Como se treinam os sistemas informáticos para melhorar as suas competências em linguagem natural? Para investigadores do Institute for Language, Cognition and Computation, da universidade de Edimburgo, isso passou por analisar 39 episódios da série televisiva CSI Las Vegas.

Em “Whodunnit? Crime Drama as a Case for Natural Language Understanding“, eles defendem que a série é ideal para “aproximar o entendimento da linguagem natural do mundo real e as inferências complexas a ele associadas”.

Como cada episódio tem uma trama com uma “questão básica (ou seja, quem cometeu o crime) e naturalmente fornece a resposta” sobre a identidade do criminoso, é uma boa plataforma experimental para obter suposições fiáveis, bem como aprender de representações, juntando um conjunto de dados textuais, visuais e acústicos.

Esta base de “inputs” permite ao modelo LSTM prever se o criminoso “é ou não mencionado”, analisar o seu comportamento e culminar na sua identificação.

Os investigadores consideram que o seu modelo é, mesmo assim, menos consistente quando comparado com as deduções dos humanos. Estes “conjecturam cautelosamente no início mas são consistentes nas suas previsões quando têm uma forte suspeita”, ao contrário do modelo, que tem níveis muito elevados de resultados positivos iniciais mas perde em consistência.