Skip to content

antrologos/Transcritorio

Repository files navigation

Transcritório

Release License Platforms Site

Transcreva entrevistas sem enviar seu áudio para a nuvem. Aplicativo desktop gratuito para transcrição automática e separação de falantes em português brasileiro.

  • 100% local — o áudio nunca sai da sua máquina; compatível com LGPD e com qualquer TCLE razoável.
  • Português brasileiro nativo — baseado no Whisper (modelo de transcrição de fala da OpenAI) treinado com ampla variação dialetal.
  • Gratuito e código aberto — licença MIT, desenvolvido no IESP-UERJ / CERES. Sem cadastro, sem assinatura, sem telemetria.

Site do projeto: antrologos.github.io/Transcritorio (passo a passo com imagens) Baixar: Releases

Sistema Arquivo Instrução rápida
Windows 10/11 Transcritorio-0.1.7-Setup.exe Clique duas vezes no .exe. Se tiver placa NVIDIA, o app detecta e oferece a aceleração CUDA opcional (+1 GB).
macOS (Apple Silicon M1–M4) Transcritorio.dmg Arraste para Aplicativos. Primeira vez: botão direito no ícone → Abrir (Gatekeeper). Aceleração Metal automática.
Linux (Ubuntu 22.04+, Fedora 40+) Transcritorio-x86_64.AppImage chmod +x e execute. Requer apenas libs X11 do sistema (veja docs/LINUX_INSTALL.md).

Avisos de antivírus / SmartScreen (Windows)

O Transcritório é distribuído sem assinatura digital (code signing custa €69/ano e ainda não fizemos esse investimento). Antivírus como AVAST, Norton, Kaspersky e o SmartScreen do Windows podem mostrar avisos genéricos de "fornecedor desconhecido" ou "ameaça" — é falso positivo, não há malware.

  • Como verificar autenticidade: o código-fonte está aqui no GitHub, é auditável.
  • SmartScreen ("o Windows protegeu seu computador"): clique em "Mais informações""Executar assim mesmo".
  • AVAST/Norton/Kaspersky: pode pedir para adicionar exceção para Transcritorio.exe e whisperx.exe (ambos em C:\Program Files\Transcritorio\ ou %LOCALAPPDATA%\Programs\Transcritorio\).
  • A instalação do bundle (~1.6 GB) usa compressão lzma2/ultra64 — a barra pode ficar parada em 99% por 5–15 minutos durante a fase final de extração. Não cancele; é normal.
  • Plano de longo prazo (code signing, eliminação dos avisos): ver docs/WINDOWS_CODE_SIGNING.md.

Para pesquisadores

O que você consegue fazer

  • Importar áudios e vídeos (MP3, WAV, M4A, MP4 e outros) — um arquivo, uma pasta, ou uma lista.
  • Transcrever em português brasileiro com alta acurácia (90–96% em áudios limpos).
  • Separar falantes automaticamente — identifica quem falou em cada trecho (entrevistador, entrevistado, etc.).
  • Revisar no Estúdio com player sincronizado, forma de onda interativa e edição por bloco.
  • Exportar em DOCX, MD, SRT, VTT, CSV, TSV e formato NVivo.
  • Tudo offline depois do download inicial dos modelos (~3 GB, uma única vez).

Requisitos mínimos

Mínimo Recomendado Ideal
CPU 4 núcleos 8 núcleos 8+ núcleos
RAM 8 GB 16 GB 16 GB+
Disco 5 GB livres 10 GB 10 GB
GPU NVIDIA com 6 GB+ VRAM ou Apple Silicon
1 h de áudio ~40–60 min ~20–30 min ~5–10 min

Primeiros passos

1. Baixe e instale. Use o arquivo da tabela acima. No Windows, o Defender pode exibir um aviso azul na primeira execução — clique em "Mais informações" → "Executar assim mesmo"; isso acontece porque o instalador não é assinado digitalmente, não porque tenha algo errado. No macOS, o botão direito → Abrir só é necessário na primeira vez.

2. Crie um projeto. Abra o Transcritório e vá em Projeto → Novo projeto… Dê um nome (ex.: tese-entrevistas-2026) e escolha uma pasta. O app cria uma estrutura .transcricao com áudios, transcrições e metadados lado a lado — fácil de fazer backup e arquivar.

3. Adicione os áudios ou vídeos. Clique em Adicionar mídia… (ou arraste arquivos para a janela). Use Editar propriedades… para definir idioma (Português brasileiro), número aproximado de falantes e rótulos (ex.: Entrevistador, Informante).

4. Clique em Transcrever e revise no Estúdio. O botão Transcrever faz o fluxo completo: prepara o áudio, transcreve, separa os falantes e monta o texto editável. Tempos realistas para 1 hora de entrevista: ~5–10 min em máquina com GPU NVIDIA ou Apple Silicon, ~20–30 min em notebook recente sem GPU, ~40–60 min em máquina modesta. Ao final, abra o Estúdio de Revisão para ouvir o áudio sincronizado com o texto, ajustar trechos com a forma de onda e exportar. Guia visual completo no site do projeto.

Modelos de IA no primeiro uso: o Transcritório baixa cerca de 3 GB de modelos de IA uma única vez; depois roda offline. No fluxo padrão isso acontece sem cadastro. Só é necessário um token da Hugging Face (plataforma que hospeda os modelos, gratuita) em cenários avançados. Wizard em português em Configurações → Configurar modelos…

Privacidade e ética

  • Processamento 100% local: o áudio da entrevista nunca é enviado a servidores externos.
  • Sem coleta de dados, sem telemetria: nenhum cadastro ou login é exigido para usar o aplicativo.
  • Código-fonte aberto sob licença MIT: auditável por qualquer pessoa, incluindo o setor de TI da sua instituição.
  • Compatível com LGPD e TCLE: você mantém controle integral sobre o áudio do informante e pode demonstrar a cadeia de custódia dos dados.

Texto pronto para submissão ao CEP (copie e cole no seu projeto de pesquisa):

A transcrição e a separação automática de falantes dos áudios coletados nesta pesquisa serão realizadas por meio do software Transcritório (Barbosa, 2026), uma aplicação de desktop gratuita e de código aberto (licença MIT), desenvolvida no IESP-UERJ/CERES. Todo o processamento ocorre localmente na máquina do pesquisador, sem envio do material a servidores externos, em conformidade com a Lei nº 13.709/2018 (LGPD) e com o TCLE assinado pelos participantes. O software utiliza os modelos Whisper (Radford et al., 2022) para transcrição e pyannote.audio (Bredin et al., 2020) para separação de falantes, ambos executados offline.

Como citar

Barbosa, R. J. (2026). Transcritório: transcrição local de entrevistas em português brasileiro (v0.1.7) [Software]. IESP-UERJ/CERES. https://github.com/antrologos/Transcritorio

@software{barbosa2026transcritorio,
  author    = {Barbosa, Rog{\'e}rio Jer{\^o}nimo},
  title     = {Transcrit{\'o}rio: transcri{\c{c}}{\~a}o local de entrevistas em portugu{\^e}s brasileiro},
  year      = {2026},
  version   = {0.1.7},
  publisher = {IESP-UERJ/CERES},
  license   = {MIT},
  url       = {https://github.com/antrologos/Transcritorio}
}

O GitHub também exibe o botão "Cite this repository" no menu lateral, com os mesmos dados em formato APA e BibTeX, lendo o arquivo CITATION.cff.

Modelos de IA utilizados:

  • Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust speech recognition via large-scale weak supervision. arXiv. https://arxiv.org/abs/2212.04356
  • Bredin, H., Yin, R., Coria, J. M., Gelly, G., Korshunov, P., Lavechin, M., Fustes, D., Titeux, H., Bouaziz, W., & Gill, M.-P. (2020). pyannote.audio: neural building blocks for speaker diarization. ICASSP 2020. https://arxiv.org/abs/1911.01255

Para desenvolvedores

Se você quer rodar do código-fonte, contribuir com pull requests ou auditar o pipeline:

Estrutura do repositório

transcribe_pipeline/    pacote Python principal (GUI, CLI, runners, render)
scripts/                wrappers CMD/PS1 para Windows
packaging/              spec do PyInstaller, Inno Setup, hooks, bundle filters
tests/                  toy tests (isolados) e smoke tests
docs/                   documentação completa
.github/workflows/      CI e release multi-plataforma

Status

Plataforma Estado Notas
Windows 10/11 Estável Aceleração CUDA opcional (pack separado, detecção automática).
Linux (AppImage) Estável CPU only no bundle distribuído. CUDA requer rodar do source (veja docs/DEVELOPMENT.md).
macOS (Apple Silicon) Em validação Aceleração Metal (MLX) integrada e embutida no .dmg; teste em hardware real pendente.

Roadmap e histórico em docs/STANDALONE_APP_ROADMAP.md.

Contribuir e reportar bugs

  • Bugs e sugestões: GitHub Issues.
  • Discussões de metodologia e uso em pesquisa qualitativa são bem-vindas no mesmo canal.
  • Pull requests: siga o estilo do código existente; toy tests passando em Windows/Linux/macOS; sem refatoração além do escopo.

Licença e autoria

Software distribuído sob licença MIT (veja LICENSE). Autor: Rogério Jerônimo Barbosa — IESP-UERJ / CERES — antrologos.github.ioORCID 0000-0002-6796-4547.

Agradecimentos às bibliotecas sobre as quais este projeto se apoia: WhisperX, faster-whisper, mlx-whisper, pyannote.audio, PySide6, FFmpeg.

O ffmpeg/ffprobe embutidos nos binários distribuídos são builds GPL de terceiros (BtbN para Windows, evermeet.cx para macOS, johnvansickle.com para Linux). Veja NOTICE para a lista completa de componentes bundled e seus termos.

About

App desktop local para transcricao automatica de entrevistas em portugues brasileiro

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors