Extrator de dados do jupiterweb

Bruno Aricó

Last update: Nov 28, 2022

Related tags

Miscellaneous JupiterWebScrapper

Overview

Extrator de dados do jupiterweb

O programa é composto de dois arquivos:

Um constando apenas de classes complementares que representam as unidades e as disciplinas
Outro que executa o processo de extração dos dados do jupiterweb

Em essência o programa faz um get para a pagina do jupiterweb que contem a lista das unidades, onde extra quais sao as unidades ativas e algumas informçoes sovre elas (nome e código da disciplina).

A partir da informação, extrai-se quais as disciplinas são ministradas e, em caso de encerradas, foram ministradas pelas unidades. Destas disciplinas existem as informaçoes basicas (Codigo, nome, data de ativação e desativação) e informaçoes complementares, que podem ser obrigatorias ou não (Creditos, Metodo, Docente, Tipo de recuperação, etc)

No codigo principal existe um método toJson que importa os dados extraidos relativo a cada unidade e suas disciplinas para um arquivo no formato Json.

O formato do arquivo Json é:

{
codigo_da_unidade: {
nome: "nome da unidade",
code: "codigo_da_unidade",
disciplinas: {
codigo_da_disciplina: {
nome: "nome_da_disciplina",
codigo: "codigo_da_disciplina",
ativacao: "data_de_ativacao",
desativacao: "data_de_desativacao",
credito_aula: "numero_de_creditos",
credito_trabalho: "numero_de_creditos",
tipo: "semestral/anual",
objetivos: "objetivos_da_disciplina",
docentes: "docentes",
programa: "programa_da_disciplina",
programa_resumido: "programa_resumido_da_disciplina",
metodo: "metodo_de_avaliacao",
criterio: "criterio_de_aprovacao",
norma_de_recuperacao: "tipo_de_recuperacao",
bibliografia: "bibliografia_da_disciplina"
},
#Outras_disciplinas_da_unidade#
}
},
#outras_unidades#
}

Consta no repositório um arquivo extraído do jupiterweb no dia 02/12/2021 como exemplo. Lembrando que eventuais mudanças de layout no jupiterweb podem interferir no desempenho e bom funcionamento do algoritmo, ja que os dados são obtidos por meio de web scrapping e web crawling.

You might also like...

Script que realiza a identificação de todos os logins e senhas dos wifis conectados em uma máquina e envia os dados para um e-mail especificado.

getWIFIConnection Script que realiza a identificação de todos os logins e senhas dos wifis conectados em uma máquina e envia os dados para um e-mail e

3 Nov 27, 2022

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS Repositório para o Live Coding DIO do dia 24/11/2021 Serviços utilizados Amazon RDS AWS Lambda

4 Jul 30, 2022

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS.

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS Explorando o Amazon RDS, um serviço de provisionamente e gerenciamento de banco de dados relac

1 Dec 5, 2021

Análise de dados abertos do programa Taxigov.

Análise de dados do Taxigov Este repositório contém os cadernos Jupyter usados no projeto de análise de dados do Taxigov. Conjunto de dados O conjunto

1 Jan 10, 2022

Desenvolvendo as habilidades básicas de programação visando a construção de aplicativos por meio de bibliotecas apropriadas à Ciência de Dados.

Algoritmos e Introdução à Computação Ementa: Conceitos básicos sobre algoritmos e métodos para sua construção. Tipos de dados e variáveis. Estruturas

1 Jan 6, 2022

Visualização de dados do TaxiGov.

Visualização de dados do TaxiGov Este repositório apresenta uma visualização das corridas de táxi do programa TaxiGov do governo federal, realizadas n

5 Dec 20, 2022

Arquivos do curso online sobre a estatística voltada para ciência de dados e aprendizado de máquina.

Estatistica para Ciência de Dados e Machine Learning Arquivos do curso online sobre a estatística voltada para ciência de dados e aprendizado de máqui

1 Jan 10, 2022

Projeto de Jogo de dados em Python 3 onde é definido o lado a ser apostado e número de jogadas, pontuando os acertos e exibindo se ganhou ou perdeu.

Jogo de DadoX Projeto de script que simula um Jogo de dados em Python 3 onde é definido o lado a ser apostado (1, 2, 3, 4, 5 e 6) ou se vai ser um núm

1 Jul 10, 2021

Dados coletados e programas desenvolvidos no processo de iniciação científica

Extrator de dados do jupiterweb

Related tags

Overview

Extrator de dados do jupiterweb

You might also like...

Script que realiza a identificação de todos os logins e senhas dos wifis conectados em uma máquina e envia os dados para um e-mail especificado.

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS.

Análise de dados abertos do programa Taxigov.

Desenvolvendo as habilidades básicas de programação visando a construção de aplicativos por meio de bibliotecas apropriadas à Ciência de Dados.

Visualização de dados do TaxiGov.

Arquivos do curso online sobre a estatística voltada para ciência de dados e aprendizado de máquina.

Projeto de Jogo de dados em Python 3 onde é definido o lado a ser apostado e número de jogadas, pontuando os acertos e exibindo se ganhou ou perdeu.

Dados coletados e programas desenvolvidos no processo de iniciação científica

LaikaDB, banco de dados para projetos simples.

Projeto onde podes inserir notícias, ver todas as notícias guardas e filtrar por tag. A base de dados usada é o mongoDB.

Fluxos de captura e subida de dados no datalake da Prefeitura do Rio de Janeiro.

Owner

Bruno Aricó

Desenvolvendo as habilidades básicas de programação visando a construção de aplicativos por meio de bibliotecas apropriadas à Ciência de Dados.

Projeto de Jogo de dados em Python 3 onde é definido o lado a ser apostado e número de jogadas, pontuando os acertos e exibindo se ganhou ou perdeu.

Fluxos de captura e subida de dados no datalake da Prefeitura do Rio de Janeiro.

Esse script procura qualquer, dados que você queira na wikipedia! Em breve traremos um com dados em toda a internet.

Script de monitoramento das teclas do teclado, salvando todos os dados digitados em um arquivo de log juntamente com os dados de rede.

Dados Públicos de CNPJ disponibilizados pela Receita Federal do Brasil

Criando Lambda Functions para Ingerir Dados de APIs com AWS CDK

Usando o Amazon Textract como OCR para Extração de Dados no DynamoDB

Biblioteca Python que extrai dados de mercado do Bacen (Séries Temporais)

Script em python para carregar os arquivos de cnpj dos dados públicos da Receita Federal em MYSQL.