Semi-supervised feature selection

Frederico Gualberto Ferreira Coelho

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-97NJ9S

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Antonio de Padua Braga	pt_BR
dc.contributor.advisor-co1	Michel Verleysen	pt_BR
dc.contributor.referee1	Michel Verleysen	pt_BR
dc.contributor.referee2	Hani Camille Yehia	pt_BR
dc.contributor.referee3	Marley Maria Bernardes Rebuzzi Vellasco	pt_BR
dc.contributor.referee4	John Aldo Lee	pt_BR
dc.contributor.referee5	Fabrice Rossi	pt_BR
dc.creator	Frederico Gualberto Ferreira Coelho	pt_BR
dc.date.accessioned	2019-08-14T14:55:28Z	-
dc.date.available	2019-08-14T14:55:28Z	-
dc.date.issued	2013-03-22	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/BUOS-97NJ9S	-
dc.description.abstract	As data acquisition has become relatively easy and inexpensive, datasets are becoming extremely large, both in relation to the numberof variables, and on the number of instances. However, the same isnot true for labeled instances . Usually, the cost to obtain theselabels is very high, and for this reason, unlabeled data represent themajority of instances, especially when compared with the amountof labeled data. Using such data requires special care, since severalproblems arise with the dimensionality increase and the lack of labels.Reducing the size of the data is thus a primordial need. In the midstof its outstanding features, usually we found irrelevant and redundantvariables, which can and should be eliminated. In attempt to identifythese variables, to despise the unlabeled data, implementing onlysupervised strategies, is a loss of any structural information thatcan be useful. Likewise, ignoring the labeled data by implementingonly unsupervised methods is also a loss of information. In thiscontext, the application of a semi-supervised approach is very suitable,where one can try to take advantage of the best benefits that eachtype of data has to offer. We are working on the problem of semi-supervised feature selection by two different approaches, but it mayeventually complement each other later. The problem can be addressedin the context of feature clustering, grouping similar variables anddiscarding the irrelevant ones. On the other hand, we address theproblem through a multi-objective approach, since we have argumentsthat clearly establish its multi-objective nature. In the first approach, a similarity measure capable to take into account both the labeled and unlabeled data, based on mutual information, is developed as well, a criterion based on this measure for clustering and discarding variables. Also the principle of homogeneity between labels and data clusters is exploited and two semi-supervised feature selection methods are developed. Finally a mutual information estimator for a mixed set of discrete and continuous variables is developed as a secondary contribution. In the multi-objective approach, the proposal is try to solve both the problem of feature selection and function approximation, at the same time. The proposed method includes considering different weight vector norms for each layer of a Multi Layer Perceptron (MLP) neural networks, the independent training of each layer and the definition of objective functions, that are able to eliminate irrelevant features.	pt_BR
dc.description.resumo	Como a aquisição de dados tem se tornado relativamente mais fácil ebarata, o conjunto de dados tem adquirido dimensões extremamentegrandes, tanto em relação ao número de variáveis, bem como emrelação ao número de instâncias. Contudo, o mesmo não ocorre comos rótulos de cada instância. O custo para se obter estes rótulos é,via de regra, muito alto, e por causa disto, dados não rotulados sãoa grande maioria, principalmente quando comparados com a quanti-dade de dados rotulados. A utilização destes dados requer cuidados especiais uma vez que vários problemas surgem com o aumento da dimensionalidade e com a escassez de rótulos. Reduzir a dimensão dos dados é então uma necessidade primordial. Em meio às suas características mais relevantes, usualmente encontramos variáveis redundantes e mesmo irrelevantes, que podem e devem ser eliminadas. Na procura destas variáveis, ao desprezar os dados não rotulados, implementando-se apenas estratégias supervisionadas, abrimos mão de informações estruturais que podem ser úteis. Da mesma forma, desprezar os dados rotulados implementando-se apenas métodos não supervisionados é igualmente disperdício de informação. Neste contexto, a aplicação de uma abordagem semi-supervisionada é bastante apropriada, onde pode-se tentar aproveitar o que cada tipo de dado tem de melhor a oferecer. Estamos trabalhando no problema de seleção de características semi-supervisionada através de duas abordagens distintas, mas que podem, eventualmente se complementarem mais à frente. O problema pode ser abordado num contexto de agrupamento de características, agrupando variáveis semelhantes e desprezando as irrelevantes. Por outro lado, podemos abordar o problema através de uma metodologia multiobjetiva, uma vez que temos argumentos estabelecendo claramente esta sua natureza multiobjetiva. Na primeira abordagem, uma medida de semelhança capaz de levar em consideração tanto os dados rotulados como os não rotulados, baseado na informação mútua, está sendo desenvolvida, bem como, um critério, baseado nesta medida, para agrupamento e eliminação de variáveis. Também o princípio da homogeneidade entre os rótulos e os clusters de dados é explorado e dois métodos semissupervisionados de seleção de características são desenvolvidos. Finalmente um estimador de informaçã mútua para um conjunto misto de variáveis discretase contínuas é desenvolvido e constitue uma contribuição secundáriado trabalho. Na segunda abordagem, a proposta é tentar resolver oproblema de seleção de características e de aproximação de funções aomesmo tempo. O método proposto inclue a consideração de normasdiferentes para cada camada de uma rede MLP, pelo treinamento independente de cada camada e pela definição de funções objetivo quesejam capazes de maximizar algum índice de relevância das variáveis.	pt_BR
dc.language	Inglês	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Engenharia Elétrica	pt_BR
dc.subject.other	Engenharia elétrica	pt_BR
dc.title	Semi-supervised feature selection	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
maintese2_final.pdf		7.93 MB	Adobe PDF	View/Open

Show simple item record