Meio Bit » Baú » Internet » Cuidados com os filtros anti-spam do seu blog

Cuidados com os filtros anti-spam do seu blog

12/08/2006 às 20:39

Depois de ter escrito um post sobre o negócio fechado entre a maior ferramenta de busca e o maior sistema de relacionamentos do mundo, citando Google, MySpace e Orkut, aguardei a opinião dos leitores. Alguns dias depois e apenas 3 comentários. Hoje resolvi fazer a chatíssima tarefa de navegar pelos comentários-lixo que recebemos, filtrados de forma automática pelo plug-in anti-spam do Movable Type, o sistema onde o Meiobit está construído.

Lá, encontro os comentários, todos válidos, marcados como lixo e não-publicados. Até o Cardoso foi bloqueado e ele escreve aqui também. Teoricamente ele tem algo interessante para escrever, mas o SpamFilter achou ele um lamer e mandou o comentário pro saco... hehehe >:->O problema é que filtros de spam trabalham com estatísticas, palavras-chave, IPs e outros dados para classificar automaticamente um comentário de spam ou não. Ser avisado de cada comentário, aqui no Meiobit seria receber um fluxo enorme de e-mails, mas agora teremos que tomar mais cuidado com assuntos e comentários que naturalmente atrem comentários-lixo, como pedidos de convite do Orkut, GMail, MSN Live, etc.

Um leitor teve o azar de estar com seu IP dinâmico marcado como origem de um spammer e recebeu nota -6, foi automaticamente marcado como junk e não tomei notícia. Assim como todos os outros que mencionaram a palavra Orkut no comentário, recebem nota -4 e também possuem o mesmo destino. Todos fizeram
comentários válidos, mas dentro do mar de pedidos de "me manda convite do Orkut", a palavra repetiu-se de tal forma entre o mar de imbecilidade que virou palavra-chave para ser reciclado.

Um sistema automatizado está sempre passível de erros e hoje tive que navegar pelo oceano de spam e idiotismo para salvar os bons comentários. A não-publicação pode parecer screening, filtragem e que estamos ativamente bloqueando mensagens, não deixando passar opiniões contrárias ou negativas, mas longe disso.

Vamos observar um dos comentários marcados como junk:
Final Feedback Rating:......-0.67
SpamLookup Link Memory:.....+1.0
SpamLookup Email Memory:....+1.0
SpamLookup Keyword Filter:..-4.0 Word Filter match on 'orkut': 'Orkut'.

O comentário começa com uma certa quantidade de pontos. A ele foi acrescentado o link e o e-mail do leitor (previamente aprovados), ganhando +2 pontos. Mas ao mencionar a famigerada palavra-chave, ele levou uma bordoada de -4 pontos, ficando com o total de -0,67. A única forma de tirar esse comentário da lama é ler o texto e manualmente marcá-lo para publicação.

O filtro funciona em 90% do total de casos, mas os 10% na qual ele marca um falso positivo, valem a pena ser salvos, mesmo requerendo um pouco mais de trabalho do autor. No caso do post mencionado acima, foram salvos 6 do total de 9 comentários, 2/3 dos comentários válidos.

relacionados


Comentários