You are on page 1of 8

TEXT MINING

Jssica Karla Ribeiro da Silva* 1 Marcella Barbosa Cesar Figueiredo* * Robson Luiz Ramos Pereira Jnior** *

Palavras-chave: Text Mining, Sistemas de Informao, Minerao de Textos. Introduo No cenrio atual empresarial, com o avano tecnolgico, o nmero de documentos tem crescido demasiadamente, de modo a ser praticamente impossvel para uma pessoa acessar a informaes contidas em todos em tempo hbil. Desta forma, ferramentas foram criadas visando o auxilio e a rapidez da compreens o destes documentos em uma menor quantidade de tempo e sem que sua leitura na ntegra fosse feita, como por exemplo, o sistema Text mining . O presente artigo tem por objetivo trazer uma viso generalizada e introdutria da ferramenta text mining. Visa tambm apontar sua orige m, caractersticas, aplicao e exemplos utilizando as mesmas. Text Mining
Campo novo de estudos, o text mining, ou minerao de textos no portugus, uma rea multidisciplinar, que envolve conhecimentos da informtica, lingstica, estatstica e cincia cognitiva. Para compreender melhor o significado do text mining, primeiro preciso conhecer os tipos de informaes existentes. Comeamos pela informao estruturada, que aquela que pode ser encontrada armazenada em um banco de dados; Em seguida temos a informao semi-estruturada, que pode ser armazenada numa estrutura XML, por exemplo; Por ltimo, as informaes que no possuem nenhuma estrutura, estando em formato de texto simples. E com este ltimo tipo que iremos trabalhar utilizando o text mining, por ser o formato no qual mais encontramos informaes atualmente.

* UFPE. Graduanda em Gesto da Informao. E-mail: je_karla@hotmail.com **UFPE. Graduanda em Gesto da Informao. E-mail: marcella.figueiredo@hotmail.com *** UFPE. Graduando em Gesto da Informao. E-mail: robson.pereira9@hotmail.com

O text mining foi inspirado no data mining minerao de dados que segundo Fabio Vessoni, da MV2 Sistemas de Informao, o processo de explorao e anlise d grandes quantidades de e dados, com o objetivo de descobrir padres ou regras que permitam uma melhor compreenso da informao contida nos mesmos. O data mining capaz de revelar, automaticamente, o conhecimento que est implcito em grandes quantidades de informaes armazenadas do banco de dados (CARDOSO E MACHADO, 2008) Sendo assim podemos definir text mining como sendo um processo de navegao e organizao utilizado para localizar informao em bases escritas em linguagem natural. Como o prprio nome diz, um processo de minerao do texto, que faz uma extrao no trivial de informaes no explcitas,de grandes bases textuais, previamente desconhecidas e potencialmente uteis (FELDMAN E HIRSH, 1997). muito comum confundirmos o text mining com um mecanismo de busca, porm, preciso lembrar que em um mecanismo de busca o usurio recupera uma informao preparada por outros,ou seja,pronta, enquanto que o text mining ajudar o usurio a descobrir informaes que no so to bvias, utilizando tcnicas j conhecidas e consolidadas como a indexao (que permite fazer uma busca rpida atravs das palavras-chave), o processo de linguagem natural (atravs do qual possvel aproveitar ao mximo o contedo do texto) e a prpria minerao de dados (que permite identificar os conhecimentos relevantes da base textual, atravs de tcnicas como Classificao, Clusterizao e Otimizao. Para exemplificar o uso do text mining, iremos utilizar um modelo apresentado por ARANHA e PASSOS (2006), que utilizaram o seguinte texto como exemplo:

Neste quadro as entidades destacadas na cor azul, esto representando lugares, as destacadas na cor roxa referem-se a tempo, as amarelas a nmeros ou quantidades, as vermelhas destacam empresas e por ltimo, as destacadas em laranja representam nomes de pessoas. Essa extrao de entidades, objetiva responder questes como Quem, Quando, Como, Onde, visando associar essas entidades em seguida, que consiste na etapa de extrao da informao. Todas essas informa s e podem ser armazenadas e representadas em formato XML, para que algoritmos inteligentes preconcebidos de data mining possam ser aplicados para classificar os textos segundo as freqncias das entidades extradas na fase de pr-processamento (ARANHA e PASSOS, 2006)

Aplicabilidade Como dito, a ferramenta Text Mining est diretamente ligada informaes contidas em textos, pouco ou no-estruturadas. Por vezes um documento encontra-se estruturado, porm nem sempre est organizao est voltada para seu contedo, mas sim para seu formato. O text mining procura as informaes que no esto dispostas claramente a um primeiro momento, sendo um poderoso instrumento de vantagem competitiva, pois, o text mining elabora um ndice e a partir desse ndice pode-se comparar documentos que at ento, no pareciam ser semelhantes. Por exemplo, uma empresa que est fazendo uma seleo de empregados pode analisar o c urrculos dos candidatos atravs dessa ferramenta e compar-los encontrando o mais qualificado entre eles. Turban (2009), descreve a utilizao da ferramenta por uma companhia rea em incidentes , Aer Liguns , aonde todas as vezes que ocorre um incidente elaborava-se um relatrio, e atravs da ferramenta pode-se identificar os padres e as correlaes entre os incidentes, auxiliando a empresa a elaborar possveis teorias acerca do assunto.

Text Mining e a Gesto da informao Entrando no mbito da Gesto da Informao, vemos que o text mining uma ferramenta que grande utilidade para os profissionais dessa rea, uma vez que os mesmos trabalham com o tratamento da informao e neste ponto est incluso a estruturao de textos pouco ou no estruturados. Esta uma tecnologia que pode ser utilizada na captura do conhecimento em documentos de forma textual, como por exemplo, um simples e-mail. As organizaes no podem perder clientes, devendo atender cada usurio como se fosse nico. A utilizao do text mining facilita esse tipo de tratamento, pois possibilita ao gestor extrair conhecimento tcito dos documentos analisados. interessante salientar que a aplicabilida dessa tecnologia de vasto, por volta de 80%, j que boa parte de informaes que so geradas em uma organizao esto em formato textual, devido facilidade de elaborao. O text mining pode ainda ser implantado em um sistema de gerenciamento eletrnico de documentos, por exemplo. O mesmo possui basicamente duas entradas, so elas: a coleta de documentos e a utilizao de palavras chaves. A coleo de documentos recuperada composta apenas pelos documentos que sero analisados.

Softwares que utilizam o text mining Dentre os softwares existentes nesta rea, podemos encontrar: Cortex Competitiva (text mining aplicado inteligncia competitiva), Text Analyst (que gera uma rede de semntica do texto baseada em algoritmo de Hopfield), SAS Text Miner (que utiliza o famoso conjunto de ferramentas de data mining para text mining), Clementine (que utiliza as ferramentas do SPSS para text mining), Media Style (apresenta solues de extrao de informao baseadas em palavras -chave), Intext Mining (text mining sute para anlise de currculos) e WordStat (onde os textos so categorizados, automaticamente usando um dicionrio de palavras). A TextAnalyst, desenvolvida pela Megaputer, uma das ferramentas de text mining mais utilizadas atualmente. Essa ferramenta executa o text mining em documentos que contm linguagem

natural, identificando tanto os principais conceitos como as relaes semnticas e a importncia dessas relaes. Cria tambm uma base de conhecimento, no qual a recuperao dos documentos gil e eficiente, facilitando os gestores na hora de atender as neces sidades dos usurios/clientes. Outra funcionalidade que tambm uma caracterstica da ferramenta em questo a possibilidade de gerar resumo dos documentos. Isso se torna possvel relacionando a combinao lingstica dos conceitos extrados dos documentos analisados. Tambm so armazenados todos os resultados, de formas estatsticas, para que o usurio possa analisar se desejar. Alm de tudo isso, possui tambm uma ferramenta complementar, conhecida como VocEdit, que possibilita que o gestor crie um dicionrio que utilizado pela ferramenta principal. interessante que esse dicionrio seja criado por uma pessoa capacitada, no caso, um gestor da informao, pois a partir do mesmo que a ferramenta vai se basear para identificar os principais contextos e classificar o documento analisado. Muitos questionam o desempenho da ferramenta. H casos de estudo em que a mesma foi aplicada em um repositrio com mais de 100.000 palavras e a qualidade do servio ofer cido no foi e alterada, demonstrando eficincia e preciso. Por ter sua interface baseada na do Windows, a utilizao do programa bem simples, facilitando o manuseio do mesmo. As exigncias para execuo da ferramenta bem baixa, no sendo necessrio assim, um computador de grande porte. Pelo fato da tecnologia ser recente, muitos pontos precisam ser observados para que ela atinja o seu potencial mximo. Quando utilizada em conjunto com um sistema de GED e gesto do conhecimento, essa tecnologia pode ser bastante til, dando a organizao e ao gestor agilidade para satisfazer as necessidades dos usurios.

Concluso Os sistemas de Informao que utilizam tecnologias como text mining so cada vez mais importantes, levando em considerao a quantidade d informao elaborada atualmente. E no apenas isto, os e documentos criados so por vezes pouco estruturados e sua organizao est relacionada diretamente com seu formato e no com seu contedo. Desta forma, a ferramenta auxilia cada vez mais as empresas extraindo as informaes relevantes de um documento e representando, ajudando assim a poupar o tempo do gestor. Este trabalhou visou mostrar as vantagens em se utilizar tal tecnologia alm de apresent-la e caracteriz-la.

Referncias TURBAN, Efraim et. al. Business Inteligence: um enfoque gerencial para a inteligncia do negcio . Porto Alegre: Bookman,2009. CARDOSO, Olinda Nogueira Paes; MACHADO,Rosa Teresa Moreira.

Gesto do conhecimento

usando data mining: estudo de caso na Universidade Federal de Lavras. Disponvel em: <

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-76122008000300004> Acesso em 15
mai 2011.

ARANHA,Christian; PASSOS,Emmanuel. A Tecnologia de Minerao de Textos . Disponvel em:< http://revistas.facecla.com.br/index.php/reinfo/article/view/171/66> Acesso em 15 mai 2011.

LEITE, Felipe Gentil. Text Mining: Extraindo conhecimentos utilizando essa tecnologia . Disponvel em: < http://pessoal.utfpr.edu.br/arildo/arquivos/Mono_FelipeLeite%5B1%5D.pdf Acesso >
em 15 mai 2011. LAMBOIA, Fabiany; PEREIRA, Luciano Machado. Cascavel (Paran):2005. Disponvel

em:

<http://www.inf.unioeste.br/~olguin/4463-semin/g2-monografia.pdf> Acesso em 15 mai 2011.

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE ARTES E COMUNICAO DEPARTAMENTO DE CINCIA DA INFORMAO CURSO DE GRADUAO EM GESTO DA INFORMAO

JSSICA RIBEIRO MARCELLA FIGUEIREDO ROBSON PEIRERA

TEXT MINING

RECIFE MAIO, 2011

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE ARTES E COMUNICAO DEPARTAMENTO DE CINCIA DA INFORMAO CURSO DE GRADUAO EM GESTO DA INFORMAO

JSSICA RIBEIRO MARCELLA FIGUEIREDO ROBSON PEREIRA

TEXT MINING
Trabalho solicitado pela professora Sandra Siebra , como elemento de avaliao da 1 Unidade da disciplina de Sistema de Informao Digital , do curso Gesto da Informao, da UFPE no semestre 2011.1.

RECIFE MAIO, 2011

You might also like