Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database

Adriano Barbosa da Silva

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-8S4JGC

Type:	Tese de Doutorado
Title:	Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
Authors:	Adriano Barbosa da Silva
First Advisor:	Jose Miguel Ortega
First Referee:	Ana Tereza Ribeiro Vasconcelos
Second Referee:	Jurandir Vieira de Magalhaes
Third Referee:	Sergio Vale Aguiar Campos
metadata.dc.contributor.referee4:	Gloria Regina Franco
Abstract:	Este trabalho visa descrever as tecnologias utilizadas para o desenvolvimento da base de dados Plant Defense Mechanisms, uma base de dados sobre mecanismos de defesa em plantas contra estresse biótico e abiótico. Para isso desenvolvemos o programa LAITOR para identificar as coocorrências de nomes de proteínas e estímulos abióticos (biointities) na literatura científica juntamente com termos indicativos de uma ação biológica (bioactions), validado aquelas coocorrências na mesma frase apenas. A ferramenta NLPROT foi usada para a marcação inicial das bioentities que foram a posteriori validadas pelo LAITOR. Em seguida, para aqueles termos protéicos pertencentes a base de dados NCBI Gene que possuíam um registro correspondente na base de dados UniProtKB, foi realizado agrupamento de seqüências relacionadas nos outros organismos pertencentes a mesma base de dados, para isso desenvolvemos o software Seed Linkage. Este software explora as ligações múltiplas diretas e indiretas das seqüências desses outros organismos para com a seed inicialmente determinada. Encontramos os parâmetros de escore 400 (bruto) e 0.3 (relativo) como sendo os que maximizam a inclusão de seqüências corretas em clusters manualmente inspecionados. Depois de identificarmos 780 termos protéicos a partir da análise de 7.306 resumos científicos com o programa LAITOR, 1.390 identificadores únicos do UniProtKB foram utilizados para agrupar 15.669 seqüências nos 611 grupos que compõem a PDM. Desenvolvemos uma biblioteca, denominada SRS.php, para adquirir as informações referentes a cada umas destas proteínas a partir do servidor SRS instalado no EMBL utilizando a tecnologia de Web Services. Com o uso desta biblioteca, um cliente SOAP acessa o servidor e recupera, de maneira programática, os dados lá depositados. Depois de efetuarmos a análise de mineração de texto com o programa LAITOR, o agrupamento das seqüências através do método Seed Linkage e a aquisição subseqüente dos dados usando o protocolo SOAP, todas essas informações foram disponibilizadas num servidor HTML no sítio http://www.biodados.icb.ufmg.br/pdm. Neste sítio, os usuários podem efetuar uma busca utilizando palavras-chaves bem como busca por similaridade de seqüência pelo método BLAST. Após terem os registros desejados visualizados, um link é criado para as co-ocorrências dos termos protéicos na análise de mineração de texto, bem como para uma árvore filogenética das proteínas presentes em cada agrupamento da PDM. Além disso, implementamos o servidor SOAP da PDM, que faz com que seus dados sejam distribuídos por meio de Web Services. Criamos um método, denomidado query_pdm, onde todos os registros da base de dados podem ser consultados via SOAP. Em suma, apresentamos uma série de métodos implementados como componentes de softwares e programas propriamente ditos, que podem ser utilizados em aplicações semelhantes aquelas da PDM, sendo, todos eles, distribuídos gratuitamente a comunidade científica interessada nessas técnicas
Abstract:	This work aims to describe the technologies used for the Plant Defense Mechnaisms Database development, a database about the defense mechanisms against biotic and abiotic types of stresses in plants. For this purpose we have developed the program LAITOR, this is used in order to identify in the scientific literature the protein terms and names of biotic and abiotic stimuli (bioentities) along with terms indicating of a biological action (bioaction), nevertheless, validating those occurrences in the same sentence only. The tool NLPROT has been used for the initial bioentities tagging which were validated a posteriori by LAITOR. Later, for those protein terms which belong to the NCBI Gene database and with a corresponding record in the UniProtKB database, it was performed the clustering of sequences belonging to other organisms deposited in the same UniProtKB database, to achieve this aim we developed the Seed Linkage software. This software exploits direct and indirect multiple links from the sequences of these organisms to the initially determined seed. We found that the raw and relative scores of 400 and 0.3, respectively, are those which maximizes the inclusion of correct sequences in the rebuilding of a manually inspected clusters dataset. After the identification of 780 protein terms from the analysis of 7,306 scientific abstracts using the program LAITOR, 1,390 unique UniProtKB identifiers were used to cluster 15,669 sequences in the 611 clusters of the PubMed database. We have developed a software library, named SRS.php, to acquire the information referring to each of these proteins, using for this purpose the SRS server installed at the EMBL using the Web Services technology. With the usage of this library, a SOAP client accesses the server and retrieve, in a programmatic manner, the available data. After to perform the text mining analysis with the program LAITOR, the sequence clustering using the Seed Linkage software, and the subsequent data acquisition using the SOAP protocol, all these information were made available by a HTML server at http://www.biodados.icb.ufmg.br/pdm. In this website, users are able to perform a search using keywords or a BLAST-based similarity search. After the visualization of the retrieved records, a link is created for the co-occurrence of the protein terms in the text mining analysis, as well as for the phylogenetic tree of the proteins grouped in each PDM cluster. Furthermore, we have implemented the PDM SOAP server, which enables the distribution of PDM data through Web Services. We have created a method, named query_pdm, where any record deposited in this database can be accessed using SOAP. Summarizing, we present a set of methods implemented as software components, or programs in fact, which can be used in similar applications to PDM, being, therefore, freely available for the scientific community interested in such techniques
Subject:	Homologia (Biologia) Banco de dados Bioinformática Proteínas Mineração de dados (Computação)
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUOS-8S4JGC
Issue Date:	26-May-2008
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
adriano_2.pdf		7.21 MB	Adobe PDF	View/Open

Show full item record