[GUFSC] pesquisa dentro de arquivos

Lauro Costa laurocgb em yahoo.com.br
Sábado Março 10 18:45:33 BRT 2007


 
 Pode usar o grep, o manual dele tem todas as opções
possíveis, mas de uma maneira geral o uso é: grep
"palavra" arquivo. Ele faz buscas recursivas, caso
queira procurar em um diretório, sem saber ao certo em
qual arquivo está a palavra, e também em arquivos
binários, que é o caso do pdf. Mas não vai ser tão
útil usar o grep com arquivos binários (arquivos
binários são aqueles que são difíceis de visualizar
com um editor de texto qualquer, que quando são
abertos mostram diversos caracteres estranhos,
explicando de maneira rápida). Lembro de uma
ferramenta chamada pdftotext, que converte os arquivos
gerando um arquivo texto ou se preferir jogando
diretamente para a saída padrão.
 A ferramenta de busca de arquivos do KDE 3.5 (talvez
em anteriores também) tem este recurso, procura em
diversos tipos de arquivos binários, talvez até mesmo
utilizando "por baixo" alguma dessas ferramentas de
modo texto, seja através da aplicação ou de biblioteca
compartilhada com esta funcionalidade de conversão.
Confesso que nunca utilizei essa funcionalidade do
KDE.

 Ex.:
pdftotext -layout lfm.pdf - |egrep Chomsky --context=4
--color=always

 Isso mostraria 4 linhas acima e abaixo da palavra,
destacando a palavra com alguma cor. Eu criaria um
script que busca por arquivos pdf, salva os resultados
em uma lista temporária em /tmp, depois para cada um
na lista converte para texto, e finalmente efetua a
busca com o grep.
 Em sistemas baseados no Debian (Ubuntu, Kurumin, etc)
pode usar o dpkg -S pdftotext para mostrar em qual
pacote está o pdftotext, e então instalar o pacote. A
ferramenta de busca do kde é o kfind.

 Lauro C.
 
--- Robinson Pizzio <rpizzio em gmail.com> escreveu:

> Pessoal,
> 
> existe alguma ferramenta (ou comando shell, ou sei
> lá o que) disponível no
> Linux
> que seja similar ao Google Desktop?
> O que eu quero, na verdade, é fazer pesquisa por
> palavra chave dentro dos
> arquivos
> disponíveis na máquina (pdf, por exemplo).
> Com o "locate" só é possível pesquisar palavras no
> nome do arquivo, mas não
> no seu conteúdo.
> 
> Alguma dica?
> 
> -- 
> Robinson Pizzio
> Ph.D. Candidate
> LPDS - Digital Signal Processing Research Lab
> Department of Electrical Engineering
> Federal University of Santa Catarina - Florianópolis
> - BRAZIL
> E-mail: rpizzio em ieee.org
> URL: http://eel.ufsc.br/~lpds/students/robinson.html
> > _______________________________________________
> GUFSC mailing list
> GUFSC em softwarelivre.ufsc.br
>
https://www.softwarelivre.ufsc.br/mailman/listinfo/gufsc
> 


"what we do in life echoes on eternity"

__________________________________________________
Fale com seus amigos  de graça com o novo Yahoo! Messenger 
http://br.messenger.yahoo.com/ 


Mais detalhes sobre a lista de discussão GUFSC