Dados Públicos de CNPJ disponibilizados pela Receita Federal do Brasil

Overview

Dados Públicos CNPJ

  • Fonte oficial da Receita Federal do Brasil, aqui.
  • Layout dos arquivos, aqui.

A Receita Federal do Brasil disponibiliza bases com os dados públicos do cadastro nacional de pessoas jurídicas (CNPJ).

De forma geral, nelas constam as mesmas informações que conseguimos ver no cartão do CNPJ, quando fazemos uma consulta individual, acrescidas de outros dados de Simples Nacional, sócios e etc. Análises muito ricas podem sair desses dados, desde econômicas, mercadológicas até investigações.

Nesse repositório consta um processo de ETL para i) baixar os arquivos; ii) descompactar; iii) ler, tratar e iv) inserir num banco de dados relacional PostgreSQL.


Infraestrutura necessária:

  • Python 3.8 - libraries:

    • wget
    • pandas
    • ftplib
    • datetime
    • gzip
    • urllib
    • bs4
    • re
    • os
    • zipfile
    • sqlalchemy
    • psycopg2
    • time
  • Banco de dados:


How to use:

  1. Com o Postgre instalado, inicie a instância do servidor (pode ser local) e crie o banco de dados conforme o arquivo banco_de_dados.sql.

  2. Conforme o seu ambiente, substitua as variáveis abaixo no arquivo ETL_coletar_dados_e_gravar_BD.py:

    • output_files: diretório de destino para o donwload dos arquivos
    • user: usuário do banco de dados criado pelo arquivo banco_de_dados.sql
    • passw: senha do usuário do BD
    • host: host da conexão com o BD
    • port: porta da conexão com o BD
    • database: nome da base de dados na instância (Dados_RFB - conforme arquivo banco_de_dados.sql)
  3. Executar o arquivo ETL_coletar_dados_e_gravar_BD.py e aguardar a finalização do processo.

    • Os arquivos são grandes: dependendo da infraestrutura isso deve levar muitas horas para conclusão.
    • Arquivos de 08/05/2021: 4,68 GB compactados e 17,1 GB descompactados.

Tabelas geradas:

  • Para maiores informações, consulte o layout.

    • empresa: dados cadastrais da empresa em nível de matriz
    • estabelecimento: dados analíticos da empresa por unidade / estabelecimento (telefones, endereço, filial, etc)
    • socios: dados cadastrais dos sócios das empresas
    • simples: dados de MEI e Simples Nacional
    • cnae: código e descrição dos CNAEs
    • quals: tabela de qualificação das pessoas físicas - sócios, responsável e representante legal.
    • natju: tabela de naturezas jurídicas - código e descrição.
    • moti: tabela de motivos da situação cadastral - código e descrição.
    • pais: tabela de países - código e descrição.
    • munic: tabela de municípios - código e descrição.
  • Pelo volume de dados, as tabelas empresa, estabelecimento, socios e simples possuem índices para a coluna cnpj_basico, que é a principal chave de ligação entre elas.

Modelo de Entidade Relacionamento:

alt text

Comments
  • Erro em Wget.dowload

    Erro em Wget.dowload

    Boa tarde pessoal! Ao corrigir o erro do .env, o código ao ser rodado apresentou o seguinte erro: erro Por favor, peço ajuda esse código vai me ajudar muito!

    opened by tutalucena 17
  • Erro na decodificação

    Erro na decodificação

    Pessoal, está ocorrendo esse erro quando executo o python. Na tabela de empresas foi tudo ok mas quando inicia a tabela de estabelecimentos, depois de umas 15hrs executando ele da esse erro na imagem. Alguém saberia o que pode estar ocorrendo? Aparentemente é memória, apenas gostaria de confirmar. Obrigado

    image

    opened by adricaceres 9
  • UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: invalid continuation byte

    UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: invalid continuation byte

    Estou obtendo o erro UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: invalid continuation byte no linux ubuntu, conforme ilustrado na imagem a seguir:

    image

    Solução: a solução foi adicionar o parâmetro engine='python' em todas as chamadas para a função read_csv():

    image

    opened by jeff-pal 9
  • Erro Decodificar - Código UTF-8

    Erro Decodificar - Código UTF-8

    Preciso de um help pra resolver essa parte.

    Trabalhando no arquivo: K3241.K03200Y0.D11211.EMPRECSV [...] Traceback (most recent call last): File "C:\Users\alex.batista\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\IPython\core\interactiveshell.py", line 3444, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File "", line 100, in empresa = pd.read_csv(filepath_or_buffer=extracted_file_path, File "C:\Users\alex.batista\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\util_decorators.py", line 311, in wrapper return func(*args, **kwargs) File "C:\Users\alex.batista\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers\readers.py", line 586, in read_csv return _read(filepath_or_buffer, kwds) File "C:\Users\alex.batista\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers\readers.py", line 488, in _read return parser.read(nrows) File "C:\Users\alex.batista\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers\readers.py", line 1047, in read index, columns, col_dict = self._engine.read(nrows) File "C:\Users\alex.batista\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers\c_parser_wrapper.py", line 223, in read chunks = self._reader.read_low_memory(nrows) File "pandas_libs\parsers.pyx", line 801, in pandas._libs.parsers.TextReader.read_low_memory File "pandas_libs\parsers.pyx", line 857, in pandas._libs.parsers.TextReader._read_rows File "pandas_libs\parsers.pyx", line 843, in pandas._libs.parsers.TextReader._tokenize_rows File "pandas_libs\parsers.pyx", line 1917, in pandas._libs.parsers.raise_parser_error UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 137214: invalid continuation byte

    opened by ALEXBSAVMS 4
  • Download congelado

    Download congelado

    Segui todos os passos informados, porem ele congela no arquivo 09

    9 - K3241.K03200Y0.D11009.ESTABELE.zip Downloading: 6% [36741120 / 553078659] bytes -

    Já tentei várias vezes mas sempre fica assim!

    opened by abobre 3
  • Erro em PathLib

    Erro em PathLib

    Boa tarde! Estou tentando utilizar esta aplicação porém quando executo o algoritimo python ele dá o seguinte erro:


    Traceback (most recent call last): File "C:\Users\Tuta\PycharmProjects\pythonProject2\Receita_Federal_do_Brasil_-_Dados_Publicos_CNPJ-master\code\ETL_coletar_dados_e_gravar_BD.py", line 25, in output_files = Path(getEnv('OUTPUT_FILES_PATH')) File "C:\Users\Tuta\AppData\Local\Programs\Python\Python310\lib\pathlib.py", line 958, in new self = cls._from_parts(args) File "C:\Users\Tuta\AppData\Local\Programs\Python\Python310\lib\pathlib.py", line 592, in _from_parts drv, root, parts = self._parse_args(args) File "C:\Users\Tuta\AppData\Local\Programs\Python\Python310\lib\pathlib.py", line 576, in _parse_args a = os.fspath(a) TypeError: expected str, bytes or os.PathLike object, not NoneType


    Eu estou utilizando o mesmo código que você criou, seguindo a alteração sutíl de ajustar para meu ambiente e também de baixar o postgreSQL e criar a base de dados. Por favor, pode me ajudar? erro_1 erro_ao_debugar

    opened by tutalucena 2
  • Onde fica o dir code?

    Onde fica o dir code?

    Olá estou seguindo o tutorial mas não sei onde colocar o diretorio ou onde fica o diretório code , onde devo colocar o arquivo .env com minhas opções. Pode me ajudar? Obrigado.

    opened by ricardo-1908 2
  • psycopg2.OperationalError: could not connect to server: Connection refused

    psycopg2.OperationalError: could not connect to server: Connection refused

    Bom, meu postgre está configurado pela por 5433, eu testei uma conexão com o banco de dados usando Rstudio por exemplo e foi tudo certo. Não há problemas no banco. Mas com esse código não consigo.

    No .env inseri as seguintes info de teste

    DB_HOST=localhost DB_PORT=5433 DB_USER=cnpj_user DB_PASSWORD=senhaqualquer DB_NAME=cnpj_rfb

    Todos estes dados estão funcionando corretamente mas, dá sempre o seguinte erro:

    psycopg2.OperationalError: could not connect to server: Connection refused Is the server running on host "localhost" (127.0.0.1) and accepting TCP/IP connections on port 5432?

    opened by ronaldopadula 2
  • TypeError: unsupported operand type(s) for +: 'PosixPath' and 'str'

    TypeError: unsupported operand type(s) for +: 'PosixPath' and 'str'

    Eu criei uma pasta chamada download dentro da pasta code. E eu uso ubuntu. Verifiquei que há um erro na forma de colocar este diretório. Eu uso ubuntu.

    no .env coloquei da seguinte forma:

    OUTPUT_FILES_PATH=download EXTRACTED_FILES_PATH=download

    está correto?

    daí segui o seguinte:

    (base) ronaldo@rpo:~/Área de Trabalho/cnpj/code$ python ETL_coletar_dados_e_gravar_BD.py

    F.K03200$W.SIMPLES.CSV.D10814.zip F.K03200$Z.D10814.CNAECSV.zip F.K03200$Z.D10814.MOTICSV.zip F.K03200$Z.D10814.MUNICCSV.zip F.K03200$Z.D10814.NATJUCSV.zip F.K03200$Z.D10814.PAISCSV.zip F.K03200$Z.D10814.QUALSCSV.zip K3241.K03200Y0.D10814.EMPRECSV.zip K3241.K03200Y0.D10814.ESTABELE.zip K3241.K03200Y0.D10814.SOCIOCSV.zip K3241.K03200Y1.D10814.EMPRECSV.zip K3241.K03200Y1.D10814.ESTABELE.zip K3241.K03200Y1.D10814.SOCIOCSV.zip K3241.K03200Y2.D10814.EMPRECSV.zip K3241.K03200Y2.D10814.ESTABELE.zip K3241.K03200Y2.D10814.SOCIOCSV.zip K3241.K03200Y3.D10814.EMPRECSV.zip K3241.K03200Y3.D10814.ESTABELE.zip K3241.K03200Y3.D10814.SOCIOCSV.zip K3241.K03200Y4.D10814.EMPRECSV.zip K3241.K03200Y4.D10814.ESTABELE.zip K3241.K03200Y4.D10814.SOCIOCSV.zip K3241.K03200Y5.D10814.EMPRECSV.zip K3241.K03200Y5.D10814.ESTABELE.zip K3241.K03200Y5.D10814.SOCIOCSV.zip K3241.K03200Y6.D10814.EMPRECSV.zip K3241.K03200Y6.D10814.ESTABELE.zip K3241.K03200Y6.D10814.SOCIOCSV.zip K3241.K03200Y7.D10814.EMPRECSV.zip K3241.K03200Y7.D10814.ESTABELE.zip K3241.K03200Y7.D10814.SOCIOCSV.zip K3241.K03200Y8.D10814.EMPRECSV.zip K3241.K03200Y8.D10814.ESTABELE.zip K3241.K03200Y8.D10814.SOCIOCSV.zip K3241.K03200Y9.D10814.EMPRECSV.zip K3241.K03200Y9.D10814.ESTABELE.zip K3241.K03200Y9.D10814.SOCIOCSV.zip Arquivos que serão baixados: 1 - F.K03200$W.SIMPLES.CSV.D10814.zip 2 - F.K03200$Z.D10814.CNAECSV.zip 3 - F.K03200$Z.D10814.MOTICSV.zip 4 - F.K03200$Z.D10814.MUNICCSV.zip 5 - F.K03200$Z.D10814.NATJUCSV.zip 6 - F.K03200$Z.D10814.PAISCSV.zip 7 - F.K03200$Z.D10814.QUALSCSV.zip 8 - K3241.K03200Y0.D10814.EMPRECSV.zip 9 - K3241.K03200Y0.D10814.ESTABELE.zip 10 - K3241.K03200Y0.D10814.SOCIOCSV.zip 11 - K3241.K03200Y1.D10814.EMPRECSV.zip 12 - K3241.K03200Y1.D10814.ESTABELE.zip 13 - K3241.K03200Y1.D10814.SOCIOCSV.zip 14 - K3241.K03200Y2.D10814.EMPRECSV.zip 15 - K3241.K03200Y2.D10814.ESTABELE.zip 16 - K3241.K03200Y2.D10814.SOCIOCSV.zip 17 - K3241.K03200Y3.D10814.EMPRECSV.zip 18 - K3241.K03200Y3.D10814.ESTABELE.zip 19 - K3241.K03200Y3.D10814.SOCIOCSV.zip 20 - K3241.K03200Y4.D10814.EMPRECSV.zip 21 - K3241.K03200Y4.D10814.ESTABELE.zip 22 - K3241.K03200Y4.D10814.SOCIOCSV.zip 23 - K3241.K03200Y5.D10814.EMPRECSV.zip 24 - K3241.K03200Y5.D10814.ESTABELE.zip 25 - K3241.K03200Y5.D10814.SOCIOCSV.zip 26 - K3241.K03200Y6.D10814.EMPRECSV.zip 27 - K3241.K03200Y6.D10814.ESTABELE.zip 28 - K3241.K03200Y6.D10814.SOCIOCSV.zip 29 - K3241.K03200Y7.D10814.EMPRECSV.zip 30 - K3241.K03200Y7.D10814.ESTABELE.zip 31 - K3241.K03200Y7.D10814.SOCIOCSV.zip 32 - K3241.K03200Y8.D10814.EMPRECSV.zip 33 - K3241.K03200Y8.D10814.ESTABELE.zip 34 - K3241.K03200Y8.D10814.SOCIOCSV.zip 35 - K3241.K03200Y9.D10814.EMPRECSV.zip 36 - K3241.K03200Y9.D10814.ESTABELE.zip 37 - K3241.K03200Y9.D10814.SOCIOCSV.zip Baixando arquivo: 1 - F.K03200$W.SIMPLES.CSV.D10814.zip Downloading: 100% [158240034 / 158240034] bytes - Traceback (most recent call last): File "ETL_coletar_dados_e_gravar_BD.py", line 72, in wget.download(url, out=output_files, bar=bar_progress) File "/home/ronaldo/anaconda3/lib/python3.7/site-packages/wget.py", line 529, in download filename = outdir + "/" + filename TypeError: unsupported operand type(s) for +: 'PosixPath' and 'str'

    opened by ronaldopadula 2
  • _csv.Error: line contains NULL

    _csv.Error: line contains NULL

    A leitura de alguns dos arquivos de Estabelecimento gera o erro _csv.Error: line contains NUL, tanto no Linux quanto no Windows. Não consegui solucionar esse problema diretamente no código, o que funcionou para mim foi remover manualmente os caracteres NULL, através do comando Unix: sed -i 's/\x0//g' FILE_NAME.

    No Windows foi necessário instalar o Bash Ubuntu da Microsoft Store, que permite execução de comandos unix, através da Interoperabilidade do Windows com o Linux.

    O ideal seria não precisar de um fix manual, por isso, decidi abrir essa Issue, para reportar o problema, uma solução temporária, e deixar a questão em aberto para novas alternativas, preferencialmente resolvendo essa questão diretamente no código.

    Trabalhando no arquivo: K3241.K03200Y4.D10612.ESTABELE [...]
    Linhas no arquivo K3241.K03200Y4.D10612.ESTABELE: 4753435
    Este arquivo será dividido em 5 partes para inserção no banco de dados
    Iniciando a parte 1 [...]
    Arquivo K3241.K03200Y4.D10612.ESTABELE inserido com sucesso no banco de dados! - Parte 1
    Iniciando a parte 2 [...]
    Arquivo K3241.K03200Y4.D10612.ESTABELE inserido com sucesso no banco de dados! - Parte 2
    Iniciando a parte 3 [...]
    Traceback (most recent call last):
      File "D:\Base CNPJ 2021\base-cnpj-postgres\code\main.py", line 111, in <module>
        database.insert_data(
      File "D:\Base CNPJ 2021\base-cnpj-postgres\code\database.py", line 83, in insert_data
        table = pd.read_csv(
      File "C:\Users\anasi\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers.py", line 610, in read_csv
        return _read(filepath_or_buffer, kwds)
      File "C:\Users\anasi\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers.py", line 468, in _read
        return parser.read(nrows)
      File "C:\Users\anasi\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers.py", line 1057, in read
        index, columns, col_dict = self._engine.read(nrows)
      File "C:\Users\anasi\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers.py", line 2440, in read
        content = self._get_lines(rows)
      File "C:\Users\anasi\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pandas\io\parsers.py", line 3236, in _get_lines
        new_rows.append(next(self.data))
    _csv.Error: line contains NULL
    
    opened by jeff-pal 2
  • urllib.error.ContentTooShortError

    urllib.error.ContentTooShortError

    418] bytes - Downloading: 2% [3457024 / 165184418] bytes - Downloading: 2% [3465216 / 165184418] bytes - Downloading: 2% [3473408 / 165184418] bytes - Traceback (most recent call last): File "C:\Users\CTF 1\Desktop\Receita_Federal_do_Brasil_-_Dados_Publicos_CNPJ-master\code\ETL_coletar_dados_e_gravar_BD.py", line 72, in wget.download(url, out=output_files, bar=bar_progress) File "C:\Users\CTF 1\AppData\Local\Programs\Python\Python310\lib\site-packages\wget.py", line 526, in download (tmpfile, headers) = ulib.urlretrieve(binurl, tmpfile, callback) File "C:\Users\CTF 1\AppData\Local\Programs\Python\Python310\lib\urllib\request.py", line 280, in urlretrieve raise ContentTooShortError( urllib.error.ContentTooShortError: <urlopen error retrieval incomplete: got only 3473237 out of 165184418 bytes>

    Alguém sabe resolver? Vi um cara na internet falando que é só adicionar uma função de reiniciar / retomar download, vou dar uma pesquisada, mas se alguém puder ajudar agradeço !

    opened by Diglee147 1
  • Erro na tabela Estabelecimento

    Erro na tabela Estabelecimento

    Eai Galera, alguem pode me ajudar? Estou tentando realizar o procedimento na tabela estabeleciemento, porém acusa esse erro: OBS - Todas as outras tabelas subiram só essa dá esse erro meu pc tem 32gb de ram e acusa esse erro.

    Trabalhando no arquivo: K3241.K03200Y0.D20709.ESTABELE [...] Traceback (most recent call last): File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\base.py", line 1800, in _execute_context context = constructor( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\default.py", line 996, in _init_compiled self.compiled_parameters = [ File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\default.py", line 997, in compiled.construct_params( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\sql\compiler.py", line 992, in construct_params pd[escaped_name] = params[bindparam.key] MemoryError

    The above exception was the direct cause of the following exception:

    Traceback (most recent call last): File "C:\Users\guilh\Downloads\projeto\code\ETL_coletar_dados_e_gravar_BD.py", line 173, in estabelecimento.to_sql(name='estabelecimento', con=engine, if_exists='append', index=False) File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\core\generic.py", line 2951, in to_sql return sql.to_sql( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\sql.py", line 697, in to_sql return pandas_sql.to_sql( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\sql.py", line 1739, in to_sql total_inserted = sql_engine.insert_records( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\sql.py", line 1332, in insert_records raise err File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\sql.py", line 1322, in insert_records return table.insert(chunksize=chunksize, method=method) File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\sql.py", line 950, in insert num_inserted = exec_insert(conn, keys, chunk_iter) File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\sql.py", line 857, in _execute_insert result = conn.execute(self.table.insert(), data) File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\base.py", line 1380, in execute return meth(self, multiparams, params, _EMPTY_EXECUTION_OPTS) File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\sql\elements.py", line 333, in _execute_on_connection return connection._execute_clauseelement( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\base.py", line 1572, in _execute_clauseelement ret = self._execute_context( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\base.py", line 1806, in _execute_context self.handle_dbapi_exception( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\base.py", line 2124, in handle_dbapi_exception util.raise( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\util\compat.py", line 208, in raise raise exception File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\base.py", line 1800, in _execute_context context = constructor( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\default.py", line 996, in _init_compiled self.compiled_parameters = [ File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\engine\default.py", line 997, in compiled.construct_params( File "C:\Users\guilh\AppData\Local\Programs\Python\Python310\lib\site-packages\sqlalchemy\sql\compiler.py", line 992, in construct_params pd[escaped_name] = params[bindparam.key]

    opened by GuiInfo 1
  • Lentidão no acesso ao servidor

    Lentidão no acesso ao servidor

    Pessoal, é normal para vocês a lentidão no acesso no servidor dos dados públicos da receita? Não consigo acessar o endereço http://200.152.38.155/CNPJ nem pelo navegador

    opened by pedroroccon 2
  • Erro no meio do processo.

    Erro no meio do processo.

    Boa tarde! Deu um pico de internet no arquivo 33 e acredito que foi cancelado a operação conforme o que ele relatou:

    `Downloading: 61% [214335488 / 350698435] bytes - Traceback (most recent call last): File "C:\Hunter_CNPJ\code\ETL_coletar_dados_e_gravar_BD.py", line 87, in wget.download(url, out=output_files, bar=bar_progress) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\site-packages\wget.py", line 526, in download (tmpfile, headers) = ulib.urlretrieve(binurl, tmpfile, callback) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\urllib\request.py", line 270, in urlretrieve block = fp.read(bs) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\http\client.py", line 465, in read s = self.fp.read(amt) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\socket.py", line 705, in readinto return self._sock.recv_into(b) ConnectionAbortedError: [WinError 10053] Uma conexão estabelecida foi anulada pelo software no computador host

    C:\Hunter_CNPJ\code>`

    Como faço para retomar o download de onde parou, visto que se eu executar ele novamente ele vai reiniciar tudo do zero?

    opened by GleisonSette 4
  • Sistema Web para consultar os dados

    Sistema Web para consultar os dados

    Pessoal, usando o modelo de banco desse projeto e carga em Python criei uma aplicação web PHP para facilitar a consulta de pessoas sem grande conhecimento de consulta SQL. Espero que seja útil , mais uma vez quero agradecer todos que contribuíram de forma direta ou indireta

    https://github.com/bjverde/cnpjrfb

    image

    opened by bjverde 1
Owner
Aphonso Henrique do Amaral Rafael
Economist, accountant and data & analytics enthusiastic. Data science and statistics permanently student.
Aphonso Henrique do Amaral Rafael
Códigos pela Força Bruta e Algoritmo Genético para o Problema da Mochila

O problema da mochila é um problema de optimização combinatória. O nome dá-se devido ao modelo de uma situação em que é necessário preencher uma mochi

Hemili Beatriz 1 Jan 8, 2022
Criando Lambda Functions para Ingerir Dados de APIs com AWS CDK

LIVE001 - AWS Lambda para Ingerir Dados de APIs Fazer o deploy de uma função lambda com infraestrutura como código Lambda vai numa API externa e extra

Andre Sionek 12 Nov 20, 2022
Biblioteca Python que extrai dados de mercado do Bacen (Séries Temporais)

Pybacen This library was developed for economic analysis in the Brazilian scenario (Investments, micro and macroeconomic indicators) Installation Inst

null 42 Jan 5, 2023
Script que realiza a identificação de todos os logins e senhas dos wifis conectados em uma máquina e envia os dados para um e-mail especificado.

getWIFIConnection Script que realiza a identificação de todos os logins e senhas dos wifis conectados em uma máquina e envia os dados para um e-mail e

Vinícius Azevedo 3 Nov 27, 2022
Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS Repositório para o Live Coding DIO do dia 24/11/2021 Serviços utilizados Amazon RDS AWS Lambda

Cassiano Ricardo de Oliveira Peres 4 Jul 30, 2022
Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS.

Bancos de Dados Relacionais (SQL) na AWS com Amazon RDS Explorando o Amazon RDS, um serviço de provisionamente e gerenciamento de banco de dados relac

Lucas Magalhães 1 Dec 5, 2021
Análise de dados abertos do programa Taxigov.

Análise de dados do Taxigov Este repositório contém os cadernos Jupyter usados no projeto de análise de dados do Taxigov. Conjunto de dados O conjunto

Augusto Herrmann 1 Jan 10, 2022
Visualização de dados do TaxiGov.

Visualização de dados do TaxiGov Este repositório apresenta uma visualização das corridas de táxi do programa TaxiGov do governo federal, realizadas n

Ministério da Economia do Brasil 5 Dec 20, 2022
Script em python para carregar os arquivos de cnpj dos dados públicos da Receita Federal em MYSQL.

cnpj-mysql Script em python para carregar os arquivos de cnpj dos dados públicos da Receita Federal em MYSQL. Dados públicos de cnpj no site da Receit

null 17 Dec 25, 2022
Consulta de CPF e CNPJ na Receita Federal com Web-Scraping

Repositório contendo scripts Python que realizam a consulta de CPF e CNPJ diretamente no site da Receita Federal.

Josué Campos 5 Nov 29, 2021
Esse script procura qualquer, dados que você queira na wikipedia! Em breve traremos um com dados em toda a internet.

Buscador de dados simples Dependências necessárias Para você poder começar a utilizar esta ferramenta, você vai precisar da dependência "wikipedia", p

Erick Campoy 4 Feb 24, 2022
Script de monitoramento das teclas do teclado, salvando todos os dados digitados em um arquivo de log juntamente com os dados de rede.

listenerPython Script de monitoramento das teclas do teclado, salvando todos os dados digitados em um arquivo de log juntamente com os dados de rede.

Vinícius Azevedo 4 Nov 27, 2022
Este conversor criará a medida exata para sua receita de capuccino gelado da grandiosa Rafaella Ballerini!

ConversorDeMedidas_CapuccinoGelado Este conversor criará a medida exata para sua receita de capuccino gelado da grandiosa Rafaella Ballerini! Requirem

Arthur Ottoni Ribeiro 48 Nov 15, 2022
Desafio proposto pela IGTI em seu bootcamp de Cloud Data Engineer

Desafio Modulo 4 - Cloud Data Engineer Bootcamp - IGTI Objetivos Criar infraestrutura como código Utuilizando um cluster Kubernetes na Azure Ingestão

Otacilio Filho 4 Jan 23, 2022
Códigos pela Força Bruta e Algoritmo Genético para o Problema da Mochila

O problema da mochila é um problema de optimização combinatória. O nome dá-se devido ao modelo de uma situação em que é necessário preencher uma mochi

Hemili Beatriz 1 Jan 8, 2022
FLEX (Federated Learning EXchange,FLEX) protocol is a set of standardized federal learning agreements designed by Tongdun AI Research Group。

Click to view Chinese version FLEX (Federated Learning Exchange) protocol is a set of standardized federal learning agreements designed by Tongdun AI

同盾科技 50 Nov 29, 2022
CBO uses its Capital Tax model (CBO-CapTax) to estimate the effects of federal taxes on capital income from new investment

CBO’s CapTax Model CBO uses its Capital Tax model (CBO-CapTax) to estimate the effects of federal taxes on capital income from new investment. Specifi

Congressional Budget Office 7 Dec 16, 2022
Palestra sobre desenvolvimento seguro de imagens e containers para a DockerCon 2021 sala Brasil

Segurança de imagens e containers direto na pipeline Palestra sobre desenvolvimento seguro de imagens e containers para a DockerCon 2021 sala Brasil.

Fernando Guisso 10 May 19, 2022
Painel simples com consulta de cep,CNPJ,placa e ip

Painel mpm Um painel simples com consultas de IP, CNPJ, CEP e PLACA Início ?? apt update && apt upgrade -y pkg i python git pip install requests Insta

null 8 Feb 27, 2022
Empresas do Brasil (CNPJs)

Biblioteca em Python que coleta informações cadastrais de empresas do Brasil (CNPJ) obtidas de fontes oficiais (Receita Federal) e exporta para um formato legível por humanos (CSV ou JSON).

BR-API: Democratizando dados do Brasil. 8 Aug 17, 2022