Classificação associativa sob demanda

Adriano Alonso Veloso

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/SLSS-7WFMGG

Tipo:	Tese de Doutorado
Título:	Classificação associativa sob demanda
Autor(es):	Adriano Alonso Veloso
primer Tutor:	Wagner Meira Junior
primer miembro del tribunal :	André Carlos Ponce de Leon Ferreira de Carvalho
Segundo miembro del tribunal:	Bianca Zadrozny
Tercer miembro del tribunal:	Mohammed J. Zaki
Cuarto miembro del tribunal:	Alberto Henrique Frade Laender
Quinto miembro del tribunal:	Marcos Andre Goncalves
Resumen:	O objetivo primordial das máquinas é o de ajudar pessoas a resolver problemas. As soluções para tais problemas são geralmente programadas por especialistas, de tal forma que as máquinas precisam apenas seguir os passos que foram especificados no programa.No entanto, as soluçõoes para alguns problemas são muito difíceis de serem programadas explicitamente. Nestes casos, ao invés de programar a máquina para solucionar o problema, a máquina é programada para aprender a solução de tal problema. A Aprendizagem de Máquina compreende o desenvolvimento de técnicas que possam ser usadas para programar máquinas a aprender. Uma abordagem para a aprendizagem de máquina é demonstrar para a máquina,repetidas vezes, como o problema é solucionado, e simplesmente deixá-la aprender com esses exemplos, de forma que ela possa generalizar regras sobre a solução, e finalmente transformar tais regras em um programa que solucione o problema. Este processo é denominado aprendizagem supervisionada. Neste caso, são fornecidos exemplos de entradas e suas respectivas saídas, de forma que a máquina possa, após absorver o máximo de informação desses exemplos, emular o mapeamento de entradas a saídas. Quandoas saídas assumem valores pre-especificados, esse processo é denominado classificação. Classificação é uma das tarefas mais tradicionais em mineração de dados. Alguns problemas de classificação são extremamente difíceis de solucionar, e motivamesta tese. A intuição explorada nesta tese é que um problema de difícil solução pode ser decomposto em vários sub-problemas mais simples. Esta tese mostra que, solucionar de forma independente sub-problemas mais simples, ao invés de solucionar umproblema difícil diretamente, geralmente leva a resultados melhores. Isto é mostrado empiricamente, através da solução de problemas úteis e importantes, usando os algoritmos apresentados nesta tese. Tais problemas incluem categorização de documentos e remoção de ambiguidade em bibliotecas digitais, ordenação de documentos retornados por máquinas de busca, otimização de renda, entre muitos outros. Ganhos em efetividade são reportados em todos estes problemas (em alguns casos com ganhos maiores que 100%). Além disso, apresentamos evidéncia teórica que suporta nossos algoritmos.
Abstract:	The ultimate goal of machines is to help humans to solve problems. The solutions for such problems are typically programmed by experts, and the machines need only to follow the specified steps to solve the problem. However, the solution of some problems may be too difficult to be explicitly programmed. In such difficult cases, instead of directly programming machines to solve the problem, machines can be programmed to learn the solution. Machine Learning encompasses techniques used to program machines to learn. It is one of the fastest-growing research areas today, mainly motivated by the fact that the advent of improved learning techniques would open up many newuses for machines (i.e., problems for which the solution is hard to program by hand). A prominent approach to machine learning is to repeatedly demonstrate how the problem is solved, and let the machine learn by example, so that it generalizes some rules about the solution and turn these into a program. This process is known as supervised learning. Specifically, the machine takes matched values of inputs (instantiations of the problem to be solved) and outputs (the solution) and absorb whatever information their relation contains in order to emulate the true mapping of inputs to outputs. When outputs are drawn from a pre-specified and finite set of possibilities, the process is known as classification, which is a major data mining task. Some classification problems are hard to solve, and motivate this thesis. The keyinsight that is exploited in this thesis is that a difficult problem can be decomposed into several much simpler sub-problems. This thesis is to show that, instead of directly solving a difficult problem, independently solving its sub-problems by taking into account their particular demands, often leads to improved classification performance. This is shown empirically, by solving real-world problems (for which the solutions are hard to program) using the computationaly efficient algorithms that are presented in this thesis. These problems include categorization of documents and name disambiguation in digital libraries, ranking documents retrieved by search engines, protein functional analysis, revenue optimization, among others. Improvements in classification performance are reported for all these problems (in some cases with gains of more than 100%). Further, theoretical evidence supporting our algorithms is also provided.
Asunto:	Computação Mineração de dados (Computação)
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/SLSS-7WFMGG
Fecha del documento:	9-mar-2009
Aparece en las colecciones:	Teses de Doutorado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
adrianoalonsoveloso.pdf		3.52 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas