O programa é projetado para extrair textos de arquivos de diferentes formatos. O texto extraído pode ser montado em um único arquivo e/ou distribuídos em vários arquivos. Ao texto podem ser aplicadas as regras dos dicionários de correção da pronúncia do programa Balabolka.
São suportados os seguintes formatos de arquivo: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX.
Realize o download do balabolka através do link :
Para o exemplo gerei 02 arquivos no formato PDF para demonstrar a extração dos textos :
Criar uma pasta nomeada como 100SECURITY para centralizar todos os arquivos :
WindowsCriar uma pasta nomeada como Texto para armazenar os textos extraídos :
WindowsUma das opções para realizar a extração do texto é utilizar o balabolka seguido do parâmetro -k informando um dos textos que estão dentro do arquivo PDF além do parâmetro %Firstline%
Ao ler o conteúdo do arquivo "Senha V1dXLjEwMFNFQ1VSSVRZLkNPTS5CUg==.txt" você pode observar que mais textos foram armazenados neste arquivo.
WindowsOutra opção para realizar a extração do texto é utilizar o balabolka seguido do parâmetro -k para cada texto em destaque que você deseja extrair.
Agora ao ler o conteúdo do arquivo "Senha V1dXLjEwMFNFQ1VSSVRZLkNPTS5CUg==.txt" você pode observar que o arquivo contém apenas o texto referente a Senha.
WindowsSe você necessita realizar uma extração de texto em massa você pode utilizar o for na execução do balabolka, para isso basta criar um arquivo pdf.txt contento a relação de todos os arquivos que deseja avaliar.
WindowsExecutando o for com o balabolka.
Windows