Artigo

Um agregador de notícias para o Telegram: o que é, por que é necessário e como funciona

10 minutos de leitura

A ideia

Há pouco mais de um ano, Pavel Durov anunciou a criação de um agregador de notícias independente com base no conteúdo publicado no Telegram. Isso foi pensado no contexto das tentativas das autoridades russas de obter acesso irrestrito aos dados pessoais dos usuários do Yandex e da tendência contínua de pressão nos negócios das empresas de TI russas.

Na mesma mensagem, Pavel Durov chamou os desenvolvedores do Yandex para se juntarem à equipe do Telegram e ajudarem a criar algo como “um serviço de recomendação de notícias em escala global – e sem censura política“. Assim, o fundador do Telegram sugeriu que os algoritmos do Yandex seriam tendenciosos para agradar às autoridades russas (existem opiniões diferentes sobre isso ser realmente verdade, mas não vamos nos aprofundar neste tópico). Durov explicou ainda que a tecnologia de visualização instantânea de notícias, chamada Leitura Rápida, já permite ler notícias de mais de 6000 publicações em todo o mundo a partir de qualquer dispositivo, e as estatísticas de suas visualizações em cada país permitem calcular algoritmicamente os conteúdos mais relevantes no momento.

Temos a chance de criar o primeiro agregador de notícias gratuito e eficaz na história da Internet – Pavel Durov resumiu em seu post.

Concorrência

Publicamente, os funcionários do Yandex News não responderam a essa proposta e o Telegram não adiou a ideia de um agregador de notícias em segundo plano. Em novembro de 2019, foi anunciada uma competição para criar um algoritmo de classificação de notícias com um prêmio total de €100.000,00.

De acordo com informações de fontes anônimas, por trás do competitor de apelido Mindful Kitten está um desenvolvedor do Google, que no passado foi funcionário da Yandex. E Mindful Squirrel é Ilya Gusev, da Yandex News, e pelo menos outras 3 pessoas contribuem com este projeto no GitHub. Ilya indicou seu trabalho no Yandex em seu perfil do Linkedin. Ao mesmo tempo, os caras do Mindful Squirrel fizeram uma revisão técnica interessante de seu primeiro trabalho na competição, o qual recomendamos que você tenha interesse em conhecer.

A lista de tarefas para os participantes da competição incluía: destacar texto em russo e inglês, separar notícias de outros materiais, agrupar notícias por assunto e em tópicos, além de classificar tópicos nos resultados da pesquisa. Na segunda etapa, iniciada em maio de 2020, os participantes foram convidados a refinar seus algoritmos de agrupamento e criar um módulo com base no qual um agregador de notícias poderia ser lançado.

No momento, ambas as etapas estão concluídas e uma lista de vencedores com exemplos de seus trabalhos foi publicada no site contest.com, que já está trabalhando com notícias reais e em tempo real. Isso significa que agora você pode verificar como os algoritmos funcionam na prática e quão bem eles executam a análise, armazenamento e indexando os artigos recebidos.

Após o início dos testes e a identificação de bugs por todos, os juízes também adicionaram estimativas preliminares aos trabalhos da competição. Enquanto o júri verifica cuidadosamente o código e distribui €100.000,00 entre os vencedores, nós, no escritório editorial, colocamos a classificação dos participantes em uma tabela separada e decidimos olhar para o futuro, ou seja, para ver de que forma ele já funciona. Mas primeiro, um pouco de teoria.

Como as notícias entram no agregador?

Para que as notícias cheguem ao agregador, o site deve oferecer suporte à Leitura Rápida do Telegram. Para aparecer mais rapidamente no agregador, é desejável que o link para a notícia seja enviado pelo Telegram pelo menos uma vez – é assim que o algoritmo da Leitura Rápida o reconhecerá imediatamente. No entanto, mesmo que isso não aconteça, os rastreadores internos serão salvos, ignorando proativamente os links nos domínios da Leitura Rápida.

Obviamente, as notícias receberão uma melhor classificação quando forem publicadas, por exemplo, no canal oficial do Telegram de uma publicação com um grande número de assinantes, já que, neste caso, mais pessoas a lerão, e as visualizações através da Leitura Rápida são um dos principais fatores de classificação.

Como o agregador os organiza e classifica?

Essa é precisamente a principal tarefa dos participantes do concurso – desenvolver um algoritmo que filtra as notícias de todas as Leituras Rápidas “brutas”, agrupa-as por assunto e combine-as em tópicos – listas de notícias de diferentes fontes sobre o mesmo tópico. Ao mesmo tempo, tópicos e notícias também devem ser classificados nos resultados da pesquisa, e isso é influenciado por vários fatores ao mesmo tempo, por exemplo, o número de leituras, a autoridade da fonte e até mesmo o tamanho do artigo.

Conversamos com um dos concorrentes com o apelido Hip Hyena e descobrimos como a seleção e a classificação são realizadas em tais projetos.

Como os tópicos são definidos? Os tópicos combinam artigos que o algoritmo considera bastante semelhantes. Vários recursos podem ser usados ​​para avaliar a similaridade.

Por exemplo, existe um dicionário pré-preparado que transforma qualquer palavra em um determinado conjunto de números (vetor) – combinando esses conjuntos de números para todas as palavras do artigo, podemos obter o vetor de todo o artigo. Se dois artigos tiverem vetores semelhantes, provavelmente terão tópicos semelhantes.

Outra abordagem: você pode destacar em cada artigo as palavras-chave mais importantes usadas nele com mais frequência do que em outros artigos. A coincidência de tais palavras também é um sinal de que os artigos estão falando sobre o mesmo assunto e devem ser combinados em um tópico.

Como as categorias são definidas? Tudo é quase o mesmo que mesclar em threads, apenas aqui não são comparados artigos, mas cada artigo é identificado com um tópico específico. Por exemplo, para a categoria “esporte”, algumas palavras são mais frequentemente destacadas como palavras-chave, para o categoria “tecnologia” – outras. Para o caso de categorias próximas – essa categoria é então atribuída ao artigo.

Como está definida a classificação? Quanto mais publicações, maior o lugar no topo? A autoridade da publicação é levada em consideração? Também aqui são levados em consideração muitos fatores – tanto para classificar artigos em um encadeamento quanto para ordenar os próprios encadeamentos. O que importa é a autoridade da fonte, o número de publicações, o tempo de cada publicação e o grau de semelhança com o tópico inteiro, e até a extensão de cada artigo.

Com o que se parece?

De acordo com estimativas preliminares do júri, o melhor trabalho foi criado pela equipe do Mindful Squirrel. Neste exemplo, mostraremos o trabalho do agregador. Imediatamente, notamos que, do ponto de vista da visualização, todos os trabalhos são completamente idênticos – as únicas diferenças estão nos algoritmos de análise, agrupamento e classificação.

No cabeçalho da página principal, estão disponíveis uma escolha de idioma (EN/RU) e a data em que as notícias serão publicadas. No momento, você pode ver apenas notícias de hoje ou de 25, 27 e 29 de maio. Isso se deve ao fato de inicialmente os participantes terem acesso ao banco de dados da Leitura Rápida apenas nesse período e apenas agora terem aberto o calendário atual para seleção de artigos fora desse período.

Página principal do agregador de notícias (esta não deverá ser a aparência final da ferramenta).

Na página você pode escolher uma das 8 categorias:

  • Principal (os feeds de notícias mais importantes de todas as categorias estão aqui)
  • Sociedade
  • Economia
  • Tecnologia
  • Esporte
  • Entretenimento
  • Ciência
  • Outros (as notícias que não se encaixavam em nenhuma das categorias)

E aqui você pode especificar o intervalo de tempo – para o dia inteiro, nas últimas três horas ou na última hora.

Ao clicar no título de seu interesse, nos encontramos em um tópico – uma lista de todas as notícias sobre este tópico com uma indicação da fonte.

Um tópico aberto, com notícias semelhantes.

E já clicando em uma das linhas do tópico, a notícia abre em uma página adaptada para carregamento rápido. Quando o agregador é incorporado ao Telegram, as notícias são abertas em Leitura Rápida.

Notícia aberta, em formato Leitura Rápida.

Em geral, o trabalho de Mindful Squirrel e muitos outros participantes já pode ser usado para visualizar os resultados, apesar de algumas deficiências ainda serem encontradas.

Como esperado, os algoritmos ainda falham em alguns detalhes, por exemplo formando incorretamente tópicos ou analisando cabeçalhos de forma não optimizada. No entanto, deve-se ter em mente que esses são apenas trabalhos competitivos e, quando o agregador for implementado no Telegram, a equipe trabalhará definitivamente no “acabamento”. A propósito, vale destacar que é muito cedo para avaliar a parte visual – temos a certeza de que o agregador parecerá completamente diferente dentro dos aplicativos móveis e clientes para desktop. Mas de uma forma ou de outra, o significado geral é claro, restando apenas entender por que os usuários precisam dessa funcionalidade.

Por que isso é necessário?

Com o advento dos canais, o Telegram deixou de ser apenas um mensageiro. Para muitos usuários, inclusive eu, tornou-se a principal plataforma de leitura de notícias, substituindo completamente o Twitter e o RSS em algum momento. No entanto, no momento o Telegram não possui ferramentas para descobrir novas fontes interessantes dentro do próprio aplicativo (além da busca global). Esse problema também foi identificado pelo participante Hip Hyena, em nossa entrevista com ele:

Parece-me que o Telegram deveria pensar sobre o que é chamado de busca – maneiras de aprender sobre novos conteúdos e fontes interessantes. Agora o aplicativo está bem fechado: você pode criar um canal para atividade pública, mas só pode descobrir sobre isso por intermédio de terceiros.

Em nossa opinião, o agregador de notícias dentro do Telegram resolve parcialmente esse problema. E o fato de ele também ser independente é um grande bônus.

Quando esperar o lançamento?

A resposta para esta pergunta provavelmente não é conhecida nem pela equipe de Pavel Durov. Agora o júri precisa fazer um balanço, escolher os vencedores e depois integrar o agregador ao próprio Telegram, escolhendo a solução mais adequada. Existem tantos pormenores em um grande projeto como este que não nos comprometemos a tentar adivinhar uma data de lançamento. Mas estamos certamente ansiosos por isso!

Fonte.


Compartilhe este artigo!