PROJETO ABERTO

Sobre o Atos de Fala

um projeto aberto pra ensinar a IA a entender a intenção em português

Por que existe

Quando você diz “você poderia revisar isso?”, não é uma pergunta — é um pedido. Esses são os atos de fala: o que a gente faz com as palavras (pedir, agradecer, discordar, prometer, se despedir). Modelos de IA erram isso o tempo todo em português, porque não existe — até onde sabemos — um corpus nem um modelo aberto que classifique atos de fala trecho a trecho (span-level) para o português brasileiro. O Atos de Fala existe pra mudar isso, com dado aberto e gente real.

A pergunta de pesquisa

Tem uma questão que ninguém respondeu pro PT-BR: pessoas de perfis diferentes percebem intenções diferentes na mesma frase? Um nordestino e um paulista, alguém de 20 e alguém de 50 — leem o mesmo “que tal?” como sugestão ou como cobrança? Por isso o jogo é anônimo, mas pergunta seu perfil (idade, gênero, região, escolaridade): a variação de percepção por perfil é o que torna esse dataset único.

Como funciona

Um modelo (BERTimbau ajustado) chuta o ato de cada trecho de uma frase. Você confirma, corrige, ou marca “não sei”. De vez em quando entra uma frase-isca com resposta conhecida — é o controle de qualidade: quem acerta as iscas tem o voto com mais peso na hora de fechar o “gold”. Quando várias pessoas concordam, o trecho vira dado confiável; quando discordam, isso é justamente o sinal de pesquisa.

Honestidade do v1

O texto que você anota hoje é sintético: foi gerado por um LLM (DeepSeek), que também deu o primeiro palpite dos atos. Funciona pra começar (não havia corpus pronto), mas tem o sabor e o viés de texto de máquina. É por isso que o jogo existe: as suas correções viram o gold humano que treina o v2 — melhor e mais real. O modelo erra; melhorar isso é um esforço coletivo.

Aberto de ponta a ponta

Código no GitHub
Modelo no Hugging Face
Demo (Space)
Dataset: será publicado sob licença CC BY 4.0 quando houver volume.

Quem

Feito por Lucian Fialho. Contato: lucian@metricasboss.com.br

O codinome interno do projeto é “chomsky” — uma ironia de propósito: a base teórica é a pragmática (Searle / ISO 24617-2), não a sintaxe chomskyana.

Participar