Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/RVMR-7KXND4
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Alberto Henrique Frade Laenderpt_BR
dc.contributor.referee1Altigran Soares da Silvapt_BR
dc.contributor.referee2Wagner Meira Juniorpt_BR
dc.creatorMarcelo Dias Correapt_BR
dc.date.accessioned2019-08-09T15:13:20Z-
dc.date.available2019-08-09T15:13:20Z-
dc.date.issued2008-03-28pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/RVMR-7KXND4-
dc.description.abstractThe increasing demand for valuable information to be used in the analysis and decision-making processes favors the development of tools and methods that automate the extraction and treatment of web data. The rise in Web's popularity has given place for an enormous quantity of documents widely spread over the Web. The centralization of the data is important because it reduces the efforts on retrieving the useful information from the vast repositories, allowing the efforts to focus more on the analysis and decision-making processes rather than lower-level data-handling techniques. In many cases the interest resides in an effective way to search for information rather than visiting unstructured web pages hoping to find the right data.The motivation for this work started from the need to create a process that would permit the collection of web pages containing the desired user data and the extraction of the data based on a relational representation previously configured. The resulting relational database could be analyzed and manipulated according to the needs of many applications. In this context it was designed Web2DB, a tool that, giving a model for a web site, permits the configuration and execution of page data collection and then the extraction of the data to a database. The user can customize the types of pages to be collected, the extraction interest data and the way which the database will be populated. The tool also permits the generation of views so the extracted data can the visualized in the most convenient way.The tool uses the example-based data extraction strategy. The user participation in the process-mapping phase is intended to aggregate value from the business model into the process. The following activities after the mapping phase are done automatically by the tool. This is a practical approach to the data extraction problem aiming the analysis of a vast diffuse data spread on web sites. The tool is suitable for relational representations of big web sites and, for being customizable, can be applied in most electronic sites that meet a list of requisites for the extraction.pt_BR
dc.description.resumoA crescente demanda por informação de qualidade, para análise e tomada de decisão, favorece o crescimento de ferramentas e métodos de automação do processo de extração e tratamento de dados da Web. O advento da Web trouxe consigo uma infindável quantidade de documentos e dados que se encontram difusos na Web. A centralização desses dados é de suma importância, pois reduz esforços na obtenção de dados de grandes repositórios, permitindo que esses esforços sejam dispendidos na análise e tomada de decisão, ou seja, retirar informação dos dados. Em muitos casos o interesse reside em uma forma efetiva de buscar informação ao invés de navegar por páginas da Web procurando dados de interesse, que muitas vezes não estão estruturados da melhor forma.A motivação para este trabalho surgiu da necessidade de se criar um processo que permita a coleta de páginas contendo dados de interesse e efetue a extração desses dados a partir de uma representação relacional previamente criada pelo usuário. O banco de dados relacional gerado como resultado desse processo permite que dados contidos na Web possam ser analisados e manipulados de acordo com as necessidades de uma determinada aplicação. Neste contexto foi desenvolvida a Web2DB, uma ferramenta que, a partir da modelagem de um sítio eletrônico da Web, permite o planejamento e execução da coleta das páginas e posteriormente a extração dos dados, armazenando-os em um banco de dados relacional. O usuário configura os tipos de página a serem coletados, os dados de interesse para a extração e a forma de carregamento dos dados no banco de dados. A ferramenta permite ainda a geração de visões para que os dados extraídos das páginas possam ser visualizados de forma mais aderente às necessidades dos usuários da ferramenta.É utilizada uma estratégia de extração dos dados baseada em exemplos. O foco na participação do usuário, nas fases de mapeamento do processo como um todo, visa agregar valor com o conhecimento do negócio envolvido. O restante das atividades é feita de forma automática. Trata-se de uma nova abordagem prática para o problema de extração de dados da Web, quando o objetivo é a análise de uma grande massa de dados difusa em vários sítios eletrônicos na Web. A ferramenta permite a construção de representações relacionais de grandes sítios da Web e, por ser genérica, pode ser aplicada a qualquer sítio eletrônico que contemple os requsitos da ferramenta.pt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectwebpt_BR
dc.subjectRepresentações relacionaispt_BR
dc.subjectRecuperação de dadospt_BR
dc.subject.otherBanco de dados relacionaispt_BR
dc.subject.otherWorld Wide Web (Sistema de recuperação da informação)pt_BR
dc.subject.otherRecuperação de dados (Computação)pt_BR
dc.subject.otherComputaçãopt_BR
dc.titleWeb2DB : uma ferramenta para a construção de representações relacionais de sitios da webpt_BR
dc.typeDissertação de Mestradopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
dissertacao_marcelodias_correa.pdf1.82 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.