Semi-supervised feature selection

Frederico Gualberto Ferreira Coelho

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/BUOS-97NJ9S

Tipo:	Tese de Doutorado
Título:	Semi-supervised feature selection
Autor(es):	Frederico Gualberto Ferreira Coelho
primer Tutor:	Antonio de Padua Braga
primer Co-tutor:	Michel Verleysen
primer miembro del tribunal :	Michel Verleysen
Segundo miembro del tribunal:	Hani Camille Yehia
Tercer miembro del tribunal:	Marley Maria Bernardes Rebuzzi Vellasco
Cuarto miembro del tribunal:	John Aldo Lee
Quinto miembro del tribunal:	Fabrice Rossi
Resumen:	Como a aquisição de dados tem se tornado relativamente mais fácil ebarata, o conjunto de dados tem adquirido dimensões extremamentegrandes, tanto em relação ao número de variáveis, bem como emrelação ao número de instâncias. Contudo, o mesmo não ocorre comos rótulos de cada instância. O custo para se obter estes rótulos é,via de regra, muito alto, e por causa disto, dados não rotulados sãoa grande maioria, principalmente quando comparados com a quanti-dade de dados rotulados. A utilização destes dados requer cuidados especiais uma vez que vários problemas surgem com o aumento da dimensionalidade e com a escassez de rótulos. Reduzir a dimensão dos dados é então uma necessidade primordial. Em meio às suas características mais relevantes, usualmente encontramos variáveis redundantes e mesmo irrelevantes, que podem e devem ser eliminadas. Na procura destas variáveis, ao desprezar os dados não rotulados, implementando-se apenas estratégias supervisionadas, abrimos mão de informações estruturais que podem ser úteis. Da mesma forma, desprezar os dados rotulados implementando-se apenas métodos não supervisionados é igualmente disperdício de informação. Neste contexto, a aplicação de uma abordagem semi-supervisionada é bastante apropriada, onde pode-se tentar aproveitar o que cada tipo de dado tem de melhor a oferecer. Estamos trabalhando no problema de seleção de características semi-supervisionada através de duas abordagens distintas, mas que podem, eventualmente se complementarem mais à frente. O problema pode ser abordado num contexto de agrupamento de características, agrupando variáveis semelhantes e desprezando as irrelevantes. Por outro lado, podemos abordar o problema através de uma metodologia multiobjetiva, uma vez que temos argumentos estabelecendo claramente esta sua natureza multiobjetiva. Na primeira abordagem, uma medida de semelhança capaz de levar em consideração tanto os dados rotulados como os não rotulados, baseado na informação mútua, está sendo desenvolvida, bem como, um critério, baseado nesta medida, para agrupamento e eliminação de variáveis. Também o princípio da homogeneidade entre os rótulos e os clusters de dados é explorado e dois métodos semissupervisionados de seleção de características são desenvolvidos. Finalmente um estimador de informaçã mútua para um conjunto misto de variáveis discretase contínuas é desenvolvido e constitue uma contribuição secundáriado trabalho. Na segunda abordagem, a proposta é tentar resolver oproblema de seleção de características e de aproximação de funções aomesmo tempo. O método proposto inclue a consideração de normasdiferentes para cada camada de uma rede MLP, pelo treinamento independente de cada camada e pela definição de funções objetivo quesejam capazes de maximizar algum índice de relevância das variáveis.
Abstract:	As data acquisition has become relatively easy and inexpensive, datasets are becoming extremely large, both in relation to the numberof variables, and on the number of instances. However, the same isnot true for labeled instances . Usually, the cost to obtain theselabels is very high, and for this reason, unlabeled data represent themajority of instances, especially when compared with the amountof labeled data. Using such data requires special care, since severalproblems arise with the dimensionality increase and the lack of labels.Reducing the size of the data is thus a primordial need. In the midstof its outstanding features, usually we found irrelevant and redundantvariables, which can and should be eliminated. In attempt to identifythese variables, to despise the unlabeled data, implementing onlysupervised strategies, is a loss of any structural information thatcan be useful. Likewise, ignoring the labeled data by implementingonly unsupervised methods is also a loss of information. In thiscontext, the application of a semi-supervised approach is very suitable,where one can try to take advantage of the best benefits that eachtype of data has to offer. We are working on the problem of semi-supervised feature selection by two different approaches, but it mayeventually complement each other later. The problem can be addressedin the context of feature clustering, grouping similar variables anddiscarding the irrelevant ones. On the other hand, we address theproblem through a multi-objective approach, since we have argumentsthat clearly establish its multi-objective nature. In the first approach, a similarity measure capable to take into account both the labeled and unlabeled data, based on mutual information, is developed as well, a criterion based on this measure for clustering and discarding variables. Also the principle of homogeneity between labels and data clusters is exploited and two semi-supervised feature selection methods are developed. Finally a mutual information estimator for a mixed set of discrete and continuous variables is developed as a secondary contribution. In the multi-objective approach, the proposal is try to solve both the problem of feature selection and function approximation, at the same time. The proposed method includes considering different weight vector norms for each layer of a Multi Layer Perceptron (MLP) neural networks, the independent training of each layer and the definition of objective functions, that are able to eliminate irrelevant features.
Asunto:	Engenharia elétrica
Idioma:	Inglês
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUOS-97NJ9S
Fecha del documento:	22-mar-2013
Aparece en las colecciones:	Teses de Doutorado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
maintese2_final.pdf		7.93 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas