YouTubeScrap: Uma ferramenta abrangente para raspagem de dados e transcrições do YouTube

Autores

DOI:

https://doi.org/10.5902/2357797592749

Palavras-chave:

Data scraping, Computação, Ciências sociais computacionais

Resumo

YouTubeScrap é uma ferramenta de código aberto que simplifica a coleta, análise e organização de dados de vídeos e transcrições do YouTube, projetada para pesquisadores, analistas e criadores de conteúdo. Desenvolvida para ser acessível e eficiente, esta ferramenta permite que os usuários realizem buscas direcionadas, extraiam metadados detalhados e recuperem transcrições multilíngues sem a necessidade de chaves de API - resolvendo as crescentes restrições ao acesso a dados. Operando perfeitamente no Google Colab, o YouTubeScrap utiliza uma infraestrutura baseada em nuvem para eliminar barreiras de instalação, oferecendo um ambiente pronto para uso, adequado para usuários com diferentes níveis de conhecimento técnico. A ferramenta integra bibliotecas Python, como yt_dlp, YouTubeTranscriptAPI e scrapetube, para automatizar buscas de vídeos, filtrar resultados por critérios como palavras-chave e intervalos de datas, e armazenar os resultados no Google Sheets, facilitando a colaboração e garantindo conformidade com padrões internacionais de privacidade de dados. Esta solução sem uso de APIs democratiza o acesso ao conteúdo digital, permitindo a coleta e análise de dados em larga escala para pesquisas acadêmicas, estudos de mídia e comunicação. Ao simplificar processos complexos de manipulação de dados, o YouTubeScrap capacita os usuários a navegar por vastos ecossistemas digitais de maneira ética e eficiente, promovendo um acesso mais equitativo a informações críticas online em uma era de restrições crescentes nas plataformas. Essa ferramenta se destaca como um recurso escalável e fácil de usar, ideal para fomentar e avançar pesquisas baseadas em dados.

Downloads

Não há dados estatísticos.

Biografia do Autor

Isabela Rocha, University of Brasília

PhD Candidate, University of Brasília, Brasília, Federal District, Brazil.

Ergon Cugler de Moraes Silva, Council for Sustainable Economic and Social Development

Ergon Cugler de Moraes Silva possui mestrado em Administração Pública e Governo pela Fundação Getulio Vargas (FGV EAESP), especialização em Data Science for Social and Business Analytics pela Universitat de Barcelona (UB FEE), MBA em Data Science & Analytics pela Universidade de São Paulo (USP ESALQ) e Graduação em Gestão de Políticas Públicas também pela Universidade de São Paulo (USP EACH). Colabora com o Observatório Interdisciplinar de Políticas Públicas “Prof. Dr. José Renato de Campos Araújo” (OIPP USP), o Grupo de Estudos em Tecnologia e Inovação na Gestão Pública (GETIP USP), o Monitor do Debate Político no Meio Digital (Monitor USP) e o Grupo de Trabalho em Estratégia, Dados e Soberania do Grupo de Estudos e Pesquisa em Segurança Internacional (GEPSI UnB). Atua como pesquisador de Desenvolvimento Tecnológico e Industrial (DTI) do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) (processo 381825/2025-6) no Laboratório de Estudos sobre Desordem Informacional e Políticas Públicas (DesinfoPop), associado ao Centro de Estudos em Administração Pública e Governo (CEAPG/FGV/EAESP). Website: https://ergoncugler.com/. Contato: contato@ergoncugler.com.c

Referências

Silva, Ergon Cugler de Moraes; Rocha, Isabela. YouTubeScrap: A comprehensive tool for scraping YouTube data and transcript. (Dec, 2024). Available at: https://github.com/ergoncugler/web-scraping-youtube.

Statista. Leading countries based on YouTube audience size as of July 2024 (in millions) (2024). Available at: https://www.statista.com/statistics/280685/number-of-monthly-unique-youtube-users/.

Statista. Leading social media platforms in Brazil 2023, by reach (2023). Available at: https://www.statista.com/statistics/1307747/social-networks-penetration-brazil/.

Downloads

Publicado

2025-09-30

Como Citar

Rocha, I., & Silva, E. C. de M. (2025). YouTubeScrap: Uma ferramenta abrangente para raspagem de dados e transcrições do YouTube. InterAção, 16(4), e92749. https://doi.org/10.5902/2357797592749