Quando o jornalismo é “mordido” pela IA, isso é notícia?

No âmbito do seu “plano de acção em matéria de propriedade intelectual para reforçar a resiliência económica e a retoma da UE“, a Comissão Europeia revelou o relatório “Trends and Developments in Artificial Intelligence: Challenges to the Intellectual Property Rights Framework“, de investigadores do Joint Institute for Innovation Policy e do IViR – University of Amsterdam.

O documento, finalizado em Setembro, analisa as interacções entre inteligência artificial (IA) e sectores como os da ciência (meteorologia, em particular), investigação farmacêutica e media/jornalismo, nomeadamente no que se refere a “produções ou aplicações geradas por ou assistidas por sistemas, ferramentas ou técnicas de IA”.

Relativamente aos media, explica-se que o jornalismo algorítmico pode ser entendido como a agregação, produção e distribuição automatizada ou suportada por software de conteúdo de qualquer tipo (dados, texto, imagens, áudio, vídeo). Aplicações da área de IA – especialmente aprendizagem por máquina (ML de “machine learning”) – são frequentemente usadas ​​neste contexto. Uma distinção geral pode ser feita entre:
1. Tecnologias assistivas, que apoiam os jornalistas na criação de conteúdo de media.

2. Tecnologias gerativas, capazes de criar conteúdos mediáticos de forma amplamente autónoma e com muito pouca intervenção humana.

3. Distribuir tecnologias que também permitam a mediação e publicação, ou outra comunicação, de conteúdos gerados com o auxílio de algoritmos.

Diferentes formatos e requisitos formais podem ser usados em diferentes plataformas de media social. O jornalismo automatizado é actualmente a tecnologia geradora mais relevante.

https://narrativescience.com/wp-content/uploads/2020/04/lexio-covid-19-screenshot.png

Como funciona actualmente o jornalismo automatizado
A geração de texto é baseada em dois componentes principais: um estratégico, que geralmente usa estratégias de busca ou planeamento de IA para determinar que informação é relevante (“planeamento de conteúdo”), e um componente táctico, que também determina a forma linguística (“planeamento de linguagem”). A qualidade do texto gerado depende do desempenho dos componentes, bem como da combinação de conteúdo e planeamento de linguagem.

O ponto de partida para o uso da geração de texto – a chamada “geração em linguagem natural” (NLG) – é uma base de dados ou interface de aplicação que fornece dados constantemente actualizados e tematicamente relevantes. Esses dados são estruturados pelo software e organizados num denominado “plano de texto”. Dentro da estrutura de geração de linguagem, critérios de texto como comprimento e tonalidade do texto também são definidos. Os algoritmos seleccionam então os elementos relevantes de um conjunto de dados e determinam as estruturas linguísticas do texto. Na última etapa, um algoritmo treinado selecciona as palavras a serem utilizadas e, com base em regras gramaticais, coloca-as na ordem correcta com base na sintaxe.

Usando tecnologias NLG, é possível criar textos jornalísticos em grande parte automaticamente. Com excepção da alimentação do conjunto de dados relevantes (se a aplicação não possui uma interface), definição dos critérios do texto (comprimento, tonalidade, etc.) e, se necessário, controlo de qualidade, o processo de geração e publicação do texto geralmente ocorre sem intervenção humana.

Na prática, os textos gerados automaticamente são usados ​​principalmente para mensagens normalizadas e avisos para os quais dados actuais ou informações exclusivas podem ser acedidas ​​com base em regras. Isso deve-se ao facto de que as aplicações actuais referem-se principalmente a dados estruturados em formato legível por máquina. Um editor humano escreve um modelo (por exemplo, um texto publicitário para um telemóvel) e, em seguida, vincula palavras ou frases desse texto às colunas de uma tabela pré-concebida legível por máquina. A aplicação converte cada linha da tabela em texto.

Com base em métodos estatísticos, as informações actualizadas são inseridas em módulos de texto pré-escritos por humanos. Os módulos são fragmentos de texto reutilizáveis, o que torna a automação de texto particularmente adequada para tópicos de jornalismo com base em informações de reportagem, como desportos, finanças, clima ou eventos em que as informações e termos têm uma alta taxa de repetição de uma notícia para outra.

Ao contrário dos jornalistas humanos, os algoritmos são capazes de evitar a repetição sistematicamente, reduzindo assim o risco de formulações recorrentes ou tédio linguístico. As aplicações modernas também possuem um bom domínio da gramática, baseada em regras programadas por humanos, permitindo-lhes encontrar os artigos e terminações correctas para o conteúdo dos registos de dados. O software não aprende a escrever atirando-lhe milhares de textos, mas tem que ser programado com regras, com a ML a desempenhar um papel secundário. O esforço de configuração pode ser reduzido à medida que as aplicações analisam registos de dados e textos associados e, assim, aprendem quais campos de dados pertencem a quais posições no texto.

Fornecedores de tecnologia
Análises recentes de mercado identificaram 14 empresas em diferentes países que oferecem soluções de tecnologia para criação automatizada de conteúdo. É de notar que essas empresas não se vêem como organizações jornalísticas ou empresas de media; nem os seus nomes indicam uma relação com o jornalismo, nem os seus produtos estão apontados especificamente para o fornecimento de conteúdo jornalístico. As soluções tecnológicas oferecidas por essas empresas são de natureza genérica e podem ser aplicadas a dados de todos os sectores. As principais aplicações vão desde escrever descrições de produtos até preparar resumos de pacientes em hospitais.

Dessas 14, cinco estão na Alemanha (AX Semantics, Text-On, 2txt NLG, Retresco e TextOmatic), três na França (Syllabs, Labsense e Yseop), duas nos Estados Unidos (Narrative Science e Automated Insights) e uma no Reino Unido (Arria), na Federação Russa (Yandex), em Espanha (Narrativa) e na China (Tencent).

Dez das empresas oferecem criação automatizada de conteúdo em apenas um idioma, enquanto quatro oferecem os seus serviços em várias línguas. Os algoritmos da empresa alemã AX Semantics, por exemplo, funcionam até 110 idiomas.

As empresas de media que desenvolveram soluções internas para a geração de notícias automatizadas incluem: Xinhua News Agency e Tencent (China), MittMedia/United Robots (Suécia), NTB/Bakken & Baeck (Noruega), Washington Post, Los Angeles Times, Bloomberg e Thomson Reuters (todas nos EUA), Austria Press Agency (Áustria) e Berliner Morgenpost (Alemanha).

A agência de notícias chinesa Xinhua, por exemplo, lançou o projecto “Kuaibi Xiaoxi” em 2015, que se traduz como “Pequeno Xinhua que escreve rápido” e é usado para gerar automaticamente notícias desportivas e financeiras.

https://www.retresco.de/wp-content/uploads/2019/08/kuenstliche-intelligenz-unternehmen.png

Notícias automatizadas ou “robô-jornalismo”
Embora as notícias automatizadas sejam um campo bastante jovem, a sua ideia básica tem uma longa história, começando em 1963 com o programa BASEBALL. O princípio era que os utiliadores lhe pudessem fazer perguntas sobre jogos de basebol, recebendo respostas simples como informação.

Num estudo publicado em 1970, foi relatado um algoritmo simples que gerava previsões do tempo em quatro partes. Em 1992, essa capacidade foi estendida na forma do “Forecast Generator”, o que levou a previsões meteorológicas mais longas, que foram normalmente publicadas.

A aplicação da IA ​​para a geração de notícias é particularmente interessante nos casos em que a base de dados é suficientemente grande e de boa qualidade e onde a IA é assim fornecida com uma grande quantidade de texto para treinar. O jornalismo de notícias automatizado ou “robô-jornalismo” é especialmente útil para textos claramente estruturados que são actualizados constantemente, por exemplo, para tópicos muito localizados (hiperlocais). Os robô-jornalistas podem produzir textos sobre tópicos que os colegas humanos são incapazes de produzir devido à sua elevada especificidade e à necessidade de uma força de trabalho muito grande (por exemplo, para escrever dezenas de artigos por dia sobre a poluição por partículas em áreas específicas).

A BBC foi citada como prevendo que, em 2022, cerca de 90% de todos os textos de notícias serão escritos por robôs, mas isso não significa que 90% do que lermos serão textos produzidos por robôs. Textos criados automaticamente estarão principalmente em nichos de mercado. Por exemplo, actualmente ninguém relata partidas de escalão inferior num desporto pouco conhecido mas, no futuro, a IA pode preencher essa lacuna.

Na Europa, o jornal britânico The Guardian foi um dos pioneiros no uso da criação automatizada de conteúdo. Já em 2010, executou dois projectos de notícias desportivas automatizadas com foco nas estatísticas dos jogos e nas informações históricas de equipas e jogadores. Para compor as notícias breves, eles combinaram os dados com frases e conectores normalizados. Em 2014, iniciaram a aplicação de IA “Guarbot” que complementava as informações financeiras com dados complexos, evitando a necessidade de usar jornalistas para essa tarefa.

Desde 2016, a textOmatic publicou inúmeros textos sobre meteorologia para todas as grandes cidades e regiões da Alemanha na FOCUS Online. Desde 2018, o mesmo começou a ocorrer com notícias de economia.

Outros exemplos citados no relatório incluem a MittMedia e o “Homeowners Bot”, a agência Associated Press na informação financeira de empresas (mais de 4.000 notícias por trimestre), o Stuttgarter Zeitung e o seu diário “Particulate Matter Radar” com dados sobre a poluição local. Em 2019, a Associação Alemã de Futebol (DFB) apresentou um projecto para a cobertura do futebol amador, usando tecnologia da Retresco, uma empresa de IA analisada como “case study” no relatório.

Tendências futuras
No âmbito do conteúdo totalmente gerado automaticamente, a maioria dos desenvolvimentos recentes aponta na direcção desse tipo de processo. Além disso, tecnologias como voz para texto e reconhecimento facial de imagens estão a caminho de melhorar muito a velocidade do fluxo de trabalho dos jornalistas e agregar valor aos arquivos existentes, tornando-os pesquisáveis ​​por máquina de novas maneiras.

A Monok (Suécia) e a Radar AI (Reino Unido) publicam artigos sem pós-processamento humano (embora, neste último caso, os editores adicionem informações locais), indicando um nível de qualidade que os leitores acham difícil de distinguir daquele escrito por humanos. Embora a indústria ainda presuma “ninguém quer que a IA substitua totalmente os humanos na redacção e ninguém está a trabalhar activamente para isso”, start-ups como a Monok e a Radar já mostram que a geração automática de notícias está prestes a entrar na produção de notícias gerais.

No início de 2019, a American OpenAI Foundation, que lida com os perigos potenciais da IA, foi notícia quando investigadores desenvolveram uma linguagem de IA (chamada GPT-2) capaz de escrever textos jornalísticos e literários de forma independente. Embora a OpenAI divulgue sempre os seus próprios desenvolvimentos como código aberto, o GPT-2 permaneceu protegido, com apenas uma versão bastante reduzida publicada até ao momento. Os criadores chamam a IA de “deep fake for texts”, capaz de criar artigos que não podem ser claramente distinguidos dos escritos por humanos. Por exemplo, a IA poderia escrever pseudo-notícias com citações inventadas ou, de outra forma, fornecer comentários jornalísticos com cadeias de argumentação plausíveis. Em 2020, a American OpenAI Foundation lançou o GPT-3, que oferece outras aplicações.

Geração automatizada de texto como Software as a Service
Uma tendência crescente no mercado da área de jornalismo é a oferta de geração de texto automatizada com dados estruturados como solução SaaS (ou neste caso AIaaS) aos clientes. Várias das 14 empresas que estão actualmente no mercado já oferecem esse serviço aos seus clientes. No entanto, tais serviços não funcionam para todos os tipos de textos. O NLG como uma “solução de prateleira” para os clientes não é actualmente, e num futuro previsível, possível para textos que também incluem dados estruturados, pois estes podem ter formatos muito heterogéneos dependendo do domínio de aplicação específico. Existem, por exemplo, diferenças significativas entre a descrição do produto de uma máquina de lavar à venda numa loja online e o relatório de um médico num hospital. Enquanto os serviços de tradução online de acesso livre dependem principalmente de grandes conjuntos de termos que são desenvolvidos posteriormente em “crowdsourcing” pelos utilizadores, esse não é o caso da geração de texto automatizada que se baseia em modelos, pequenos trechos de texto e um conjunto de regras comuns.

Finalmente, nas conclusões, o relatório nota que, embora existam várias áreas de aplicação em potencial para a IA no jornalismo, apenas o jornalismo automatizado está a mostrar muitos usos. As tarefas executadas pela IA incluem, em particular, notícias de desportos, clima e finanças. Notícias locais também já são uma área de aplicação importante. Os sistemas de IA podem produzir textos sobre tópicos que os humanos podem ou não cobrir porque são muito específicos e exigem muitos recursos. No entanto, a intervenção humana ainda é necessária na instalação e supervisão de tais sistemas. Os desenvolvimentos mais recentes apontam na direcção de um processo altamente automatizado de geração de conteúdo.

A maior barreira para um desenvolvimento mais rápido do mercado de geração automatizada de texto é o baixo grau de digitalização da UE. Mesmo as empresas de media europeias precisam de comprar dados de fontes externas, o que actualmente leva a apenas cenários promissores muito limitados para a aplicação comercialmente bem-sucedida da geração de texto automatizada (por exemplo, desportos, notícias de trânsito, previsões do tempo, etc.). Consequentemente, o “robô-jornalismo” que oferece mais do que uma apresentação de texto e dados parece não ter perspectivas reais nos próximos cinco a dez anos.

* Texto adaptado do relatório “Trends and Developments in Artificial Intelligence: Challenges to the Intellectual Property Rights Framework” (CC BY 4.0). Fotos: deepak pal (CC BY 2.0), technovore (CC BY-NC-SA 2.0), Retresco e Narrative Science.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão /  Alterar )

Google photo

Está a comentar usando a sua conta Google Terminar Sessão /  Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão /  Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão /  Alterar )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.