GitHub - dansal0807/ocr-pdf at pythonrepo.com

Este programa tem o intuito de ser um modificador de arquivos PDF. Os arquivos PDFs podem ser 3: PDFs verdadeiros - em que podem ser selecionados o tipo de texto, PDFs-de-imagem - arquivos feitos de imagens e que o conteúdo é "aprisionado" e não pode ser acessado. Como terceiro tipo temos o PDFs-buscáveis: estes são os PDFs que resultam de aplicação OCR (Optical Character Recognition - Reconhecimento óptico de caracter), em que o documento é analizado e estruturado com uma nova camada de texto por detrás da camada de imagem do PDF-de-Imagem.

A criação do terceiro tipo de PDF a partir do segundo tipo é o intuito deste programa. Para isto é necessário a aplicação de alguns programas externos ao python.

Abaixo listarei o processo que utilizei para instalar estes programas externos:

Além de ter o python instalado e um ambiente virtual iniciado, é necessário utilizar o comando pip: pip install ocrmypdf. Esta biblioteca é um conjunto de pacotes que atuará sobre o PDF.

Primeiro de tudo, caso seja usuário de windows, é necessário ter um administrador de pacotes chamado Chocolotey . Após ter instalado ele, é necessário escrever os seguintes comandos:

choco install --pre tesseract
choco install ghostscript

Para mais informações sobre esse processo, caso utilizar MacOS ou Linux, acesse aqui.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore.txt		.gitignore.txt
README.md		README.md
ocr.py		ocr.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore.txt

.gitignore.txt

README.md

README.md

ocr.py

ocr.py

Repository files navigation

About

Releases

Packages

Languages

dansal0807/ocr-pdf

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Languages