Repositorio com arquivos processados da CPI da COVID para facilitar analise

Breno Rodrigues Guimarães

Last update: Aug 16, 2021

Related tags

Miscellaneous cpi4all

Overview

cpi4all

Repositorio com arquivos processados da CPI da COVID para facilitar analise

Organização

No site do senado é possivel encontrar a lista de todos os documentos coletados pela CPI da COVID.

A tabela no site possui a seguinte estrutura:

No	Arquivos	Data de recebimento	Remetente	Origem	Descrição	Caixa	Em Resposta
1	Link1	...	...	...	...	...	...
2	Link2/link3	...	...	...	...	...	...

Esses links levam ao download de arquivos PDF com os documentos em questão.

Nesse repositorio você podera encontrar a versão txt desses arquivos. O nome do arquivo nesse repositorio é formado por <No do documento>_<numero do link>. Por exemplo:

link1 = 1_1 porque ele é relativo ao arquivo No 1, e é o primeiro link.

link2 = 2_1 porque ele é relativo ao arquivo No 2, e é o primeiro link dessa linha.

link3 = 2_2 porque ele é relativo ao arquivo No 2, e é o segundo link da linha.

A versão texto de todos os documentos está na pasta database/txts/.

Exemplos:

Arquivo No 1, primeiro link: 1_1

Arquivo No 4, quarto link: 3_4

Nota 1: Nem todos os arquivos foram convertidos ainda

Nota 2: A conversão usa reconhecimento de imagem e pode ficar bem ruim as vezes, gerando erros ortograficos ou palavras sem nexo algum.

Para desenvolvedores

Os scripts funcionam na seguinte sequencia:

extract_rows.py: Vai no site do senado e extrai as informações de cada linha da tabela. Todos os dados são salvos em database/rows.
extract_headers.py: Para cada link em cada linha, esse script pega metadados do arquivo (tamanho, tipo) que vão ser uteis depois. Esses dados são salvos em database/headers.
download_pdfs.py: Baixa todos os PDFs descritos em database/headers e salva em database/pdfs.
convert_pdf_to_jpg.py: Converte todos os PDFs em database/pdfs para imagens em database/jpgs.
convert_jpg_to_txt.py: Converte todos as imagens em database/jpgs para texto em database/txt.

Por motivos de performance, apenas as pastas database/rows, database/headers e database/txts sao salvas nesse repositorio.

TODO: 0. Melhorar esse readme :)

Usar o githubpages para gerar um site estatico que permite pesquisar em todos os txt
Terminar de converter todos os arquivos
Investigar arquivos em que a conversão ficou pessima.
Fazer extração automatica de datas e prover um json com a ordem cronologica dos arquivos.

Comments

Usar png ao inves de jpg

Notei que o conversor de PDF para PNG funciona muito melhor que de PDF pra JPG. A tarefa aqui é ajustar o pdf2jpg para ser um pdf2png e rerodar o OCR.

Notei tambem que o switch -flatten traz alguns problemas em arquivos com multiplas paginas. Elas ficam sobrepostas. Removendo esse switch, varios arquivos de imagem serão gerados (um pra cada pagina do documento). Será necessario ajustar os scripts para tratar documentos com multiplas paginas.

opened by brenoguim 0
Exibir mais dados para cada documento (descrição que vem do site do senado)

Na tabela do site do senado existe uma coluna com descrição de cada arquivo, nomes e tudo mais. Esses dados estão todos coletados e guardados em database/rows. Seria interessante mostrar nos resultados da pesquisa também.

opened by brenoguim 1
Script para facilitar que pessoas rodem OCR e contribuam pro projeto

Seria interessante prover um script pra quem quer apenas ajudar a rodar um OCR ou outro no tempo livre. A pessoa clona o repositorio, roda esse script com o numero de OCRs que quer rodar, e o script ira baixar o PDF, converter pra imagem, converter pro txt. O proprio script poderia abrir uma issue automaticamente (PR seria o ideal mas é mais burocratico para leigos)

opened by brenoguim 0
Melhorar o layout da pagina

A pagina é criada pelo docs/generate_content.py. É um python que gera o html/JS com todo o conteudo de todos os txts embutidos. Isso permite que nao seja necessario um server.

O layout parece de uma pagina de 1995. Qualquer melhoria na aparencia será muito bem-vinda.

opened by brenoguim 4
Usar algum software de dicionario para identificar conversões ruins

Como temos muitos arquivos, seria interessante usar algum software de dicionario pra medir a qualidade de cada conversão. Seria inclusive util para evitar regressões

opened by brenoguim 0

Owner

Breno Rodrigues Guimarães

GitHub

Análise do Aplicativo Prévias PSDB 2021

Análise do Aplicativo Prévias PSDB 2021 Com a recente polêmica sobre o aplicativo usado nas Prévias do PSDB de 2021, fiquei curioso para saber como er

18 Jul 31, 2022

Ontario-Covid-Screening - An automated Covid-19 School Screening Tool for Ontario

Ontario-Covid19-Screening An automated Covid-19 School Screening Tool for Ontari

0 Feb 20, 2022

Mangá downloader (para leitura offline) voltado para sites e scans brasileiros.

yonde! yonde! (読んで!) é um mangá downloader (para leitura offline) voltado para sites e scans brasileiros. Também permite que você converta os capítulo

8 Nov 28, 2021

En este repositorio pondré archivos graciositos de python que hago de vez en cuando

?? Apuntes de python ?? ¿Quién soy? ?? Saludos,mi nombre es Carlos Lara. Pero mi nickname en internet es Hercules Kan. Soy un programador autodidacta

3 Nov 16, 2021

En este repositorio realizaré la tarea del laberinto.

Laberinto Perfil de GitHub del autor de este proyecto: @jmedina28 En este repositorio queda resuelta la composición de un laberinto 5x5 con sus muros

1 Dec 11, 2021

Repositório do Projeto de Jogo da Resília Educação.

Jogo da Segurança das Indústrias Acme Descrição Este jogo faz parte do projeto de entrega do primeiro módulo da Resilia Educação, referente ao curso d

2 Apr 28, 2022

Repositório contendo atividades no curso de desenvolvimento de sistemas no SENAI

SENAI-DES Este é um repositório contendo as atividades relacionadas ao curso de desenvolvimento de sistemas no SENAI. Se é a primeira vez em contato c

4 Dec 6, 2022

Repositório do programa ConstruDelas - Trilha Python - Módulos 1 e 2

ConstruDelas - Introdução ao Python Nome: Visão Geral Bem vinda ao repositório do curso ConstruDelas, módulo de Introdução ao Python. Aqui vamos mante

8 Oct 14, 2022

🌍💉 Global COVID-19 vaccination data at the regional level.

COVID-19 vaccination data at subnational level. To ensure its officiality, the source data is carefully verified.

61 Sep 21, 2022

To check my COVID-19 vaccine appointment, I wrote an infinite loop that sends me a Whatsapp message hourly using Twilio and Selenium. It works on my Raspberry Pi computer.

COVID-19_vaccine_appointment To check my COVID-19 vaccine appointment, I wrote an infinite loop that sends me a Whatsapp message hourly using Twilio a

24 Dec 17, 2022

With the initiation of the COVID vaccination drive across India for all individuals above the age of 18, I wrote a python script which alerts the user regarding open slots in the vicinity!

cowin_notifier With the initiation of the COVID vaccination drive across India for all individuals above the age of 18, I wrote a python script which

13 Aug 1, 2021

Check COVID locations of interest against Google location history

Location of Interest Checker Script to compare COVID locations of interest to Google location history. The script produces a map plot (as shown below)

9 Mar 30, 2022

COVID-19 case tracker in Dash

covid_dashy_personal This is a personal project to build a simple COVID-19 tracker for Australia with Dash. Key functions of this dashy will be to Dis

1 Nov 30, 2021

Simple and easy to use python API for the COVID registration booking system of the math department @ unipd (torre archimede)

Simple and easy to use python API for the COVID registration booking system of the math department @ unipd (torre archimede). This API creates an interface with the official browser, with more useful functionalities.

4 Dec 24, 2021

Repositorio com arquivos processados da CPI da COVID para facilitar analise

Related tags

Overview

cpi4all

Organização

Para desenvolvedores

Comments

Usar png ao inves de jpg

Exibir mais dados para cada documento (descrição que vem do site do senado)

Script para facilitar que pessoas rodem OCR e contribuam pro projeto

Melhorar o layout da pagina

Usar algum software de dicionario para identificar conversões ruins

Owner

Breno Rodrigues Guimarães

Análise do Aplicativo Prévias PSDB 2021

Ontario-Covid-Screening - An automated Covid-19 School Screening Tool for Ontario

Mangá downloader (para leitura offline) voltado para sites e scans brasileiros.

En este repositorio pondré archivos graciositos de python que hago de vez en cuando

En este repositorio realizaré la tarea del laberinto.

Repositório do Projeto de Jogo da Resília Educação.

Repositório contendo atividades no curso de desenvolvimento de sistemas no SENAI

Repositório do programa ConstruDelas - Trilha Python - Módulos 1 e 2

🌍💉 Global COVID-19 vaccination data at the regional level.

To check my COVID-19 vaccine appointment, I wrote an infinite loop that sends me a Whatsapp message hourly using Twilio and Selenium. It works on my Raspberry Pi computer.

With the initiation of the COVID vaccination drive across India for all individuals above the age of 18, I wrote a python script which alerts the user regarding open slots in the vicinity!

Check COVID locations of interest against Google location history

COVID-19 case tracker in Dash

Simple and easy to use python API for the COVID registration booking system of the math department @ unipd (torre archimede)

We are building an open database of COVID-19 cases with chest X-ray or CT images.

Python NZ COVID Pass Verifier/Generator

Howell County, Missouri, COVID-19 data and (unofficial) estimates

🦠 A simple and fast (< 200ms) API for tracking the global coronavirus (COVID-19, SARS-CoV-2) outbreak.

Alerts for Western Australian Covid-19 exposure locations via email and Slack