Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-97NJ9S
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Antonio de Padua Bragapt_BR
dc.contributor.advisor-co1Michel Verleysenpt_BR
dc.contributor.referee1Michel Verleysenpt_BR
dc.contributor.referee2Hani Camille Yehiapt_BR
dc.contributor.referee3Marley Maria Bernardes Rebuzzi Vellascopt_BR
dc.contributor.referee4John Aldo Leept_BR
dc.contributor.referee5Fabrice Rossipt_BR
dc.creatorFrederico Gualberto Ferreira Coelhopt_BR
dc.date.accessioned2019-08-14T14:55:28Z-
dc.date.available2019-08-14T14:55:28Z-
dc.date.issued2013-03-22pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/BUOS-97NJ9S-
dc.description.abstractAs data acquisition has become relatively easy and inexpensive, datasets are becoming extremely large, both in relation to the numberof variables, and on the number of instances. However, the same isnot true for labeled instances . Usually, the cost to obtain theselabels is very high, and for this reason, unlabeled data represent themajority of instances, especially when compared with the amountof labeled data. Using such data requires special care, since severalproblems arise with the dimensionality increase and the lack of labels.Reducing the size of the data is thus a primordial need. In the midstof its outstanding features, usually we found irrelevant and redundantvariables, which can and should be eliminated. In attempt to identifythese variables, to despise the unlabeled data, implementing onlysupervised strategies, is a loss of any structural information thatcan be useful. Likewise, ignoring the labeled data by implementingonly unsupervised methods is also a loss of information. In thiscontext, the application of a semi-supervised approach is very suitable,where one can try to take advantage of the best benefits that eachtype of data has to offer. We are working on the problem of semi-supervised feature selection by two different approaches, but it mayeventually complement each other later. The problem can be addressedin the context of feature clustering, grouping similar variables anddiscarding the irrelevant ones. On the other hand, we address theproblem through a multi-objective approach, since we have argumentsthat clearly establish its multi-objective nature. In the first approach, a similarity measure capable to take into account both the labeled and unlabeled data, based on mutual information, is developed as well, a criterion based on this measure for clustering and discarding variables. Also the principle of homogeneity between labels and data clusters is exploited and two semi-supervised feature selection methods are developed. Finally a mutual information estimator for a mixed set of discrete and continuous variables is developed as a secondary contribution. In the multi-objective approach, the proposal is try to solve both the problem of feature selection and function approximation, at the same time. The proposed method includes considering different weight vector norms for each layer of a Multi Layer Perceptron (MLP) neural networks, the independent training of each layer and the definition of objective functions, that are able to eliminate irrelevant features.pt_BR
dc.description.resumoComo a aquisição de dados tem se tornado relativamente mais fácil ebarata, o conjunto de dados tem adquirido dimensões extremamentegrandes, tanto em relação ao número de variáveis, bem como emrelação ao número de instâncias. Contudo, o mesmo não ocorre comos rótulos de cada instância. O custo para se obter estes rótulos é,via de regra, muito alto, e por causa disto, dados não rotulados sãoa grande maioria, principalmente quando comparados com a quanti-dade de dados rotulados. A utilização destes dados requer cuidados especiais uma vez que vários problemas surgem com o aumento da dimensionalidade e com a escassez de rótulos. Reduzir a dimensão dos dados é então uma necessidade primordial. Em meio às suas características mais relevantes, usualmente encontramos variáveis redundantes e mesmo irrelevantes, que podem e devem ser eliminadas. Na procura destas variáveis, ao desprezar os dados não rotulados, implementando-se apenas estratégias supervisionadas, abrimos mão de informações estruturais que podem ser úteis. Da mesma forma, desprezar os dados rotulados implementando-se apenas métodos não supervisionados é igualmente disperdício de informação. Neste contexto, a aplicação de uma abordagem semi-supervisionada é bastante apropriada, onde pode-se tentar aproveitar o que cada tipo de dado tem de melhor a oferecer. Estamos trabalhando no problema de seleção de características semi-supervisionada através de duas abordagens distintas, mas que podem, eventualmente se complementarem mais à frente. O problema pode ser abordado num contexto de agrupamento de características, agrupando variáveis semelhantes e desprezando as irrelevantes. Por outro lado, podemos abordar o problema através de uma metodologia multiobjetiva, uma vez que temos argumentos estabelecendo claramente esta sua natureza multiobjetiva. Na primeira abordagem, uma medida de semelhança capaz de levar em consideração tanto os dados rotulados como os não rotulados, baseado na informação mútua, está sendo desenvolvida, bem como, um critério, baseado nesta medida, para agrupamento e eliminação de variáveis. Também o princípio da homogeneidade entre os rótulos e os clusters de dados é explorado e dois métodos semissupervisionados de seleção de características são desenvolvidos. Finalmente um estimador de informaçã mútua para um conjunto misto de variáveis discretase contínuas é desenvolvido e constitue uma contribuição secundáriado trabalho. Na segunda abordagem, a proposta é tentar resolver oproblema de seleção de características e de aproximação de funções aomesmo tempo. O método proposto inclue a consideração de normasdiferentes para cada camada de uma rede MLP, pelo treinamento independente de cada camada e pela definição de funções objetivo quesejam capazes de maximizar algum índice de relevância das variáveis.pt_BR
dc.languageInglêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectEngenharia Elétricapt_BR
dc.subject.otherEngenharia elétricapt_BR
dc.titleSemi-supervised feature selectionpt_BR
dc.typeTese de Doutoradopt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
maintese2_final.pdf7.93 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.