SUELEN SARA MOREIRA
DESENVOLVIMENTO DE UMA METODOLOGIA
COMPARATIVA INTERATIVA PARA AVALIAÇÃO
SUBJETIVA DE VÍDEOS
Belo Horizonte
12 de maio de 2010
Universidade Federal de Minas Gerais
Escola de Engenharia
Programa de Pós-Graduação em Engenharia Elétrica
DESENVOLVIMENTO DE UMA METODOLOGIA
COMPARATIVA INTERATIVA PARA AVALIAÇÃO
SUBJETIVA DE VÍDEOS
Dissertação submetida ao Programa de Pós-
Graduação em Engenharia Elétrica da Univer-
sidade Federal de Minas Gerais como requisito
parcial para a obtenção do grau de Mestre em
Engenharia Elétrica.
Área de Concentração: Engenharia de Com-
putação e Telecomunicações
Linha de Pesquisa: Sistemas de Computação
SUELEN SARA MOREIRA
Belo Horizonte
12 de maio de 2010
UNIVERSIDADE FEDERAL DE MINAS GERAIS
FOLHA DE APROVAÇÃO
Desenvolvimento de uma metodologia comparativa interativa para
avaliação subjetiva de vídeos
SUELEN SARA MOREIRA
Dissertação defendida e aprovada pela banca examinadora constituída por:
Prof. Hani Camille Yehia – Orientador
Departamento de Engenharia Eletrônica / Escola de Engenharia
Universidade Federal de Minas Gerais
Dr. Hermes Aguiar Magalhães – Co-orientador
DSP Art Hardware e Software Ltda
Prof. Maurílio Nunes Vieira
Departamento de Física / Instituto de Ciências Exatas
Universidade Federal de Minas Gerais
Prof. Luciano de Errico
Departamento de Engenharia Eletrônica / Escola de Engenharia
Universidade Federal de Minas Gerais
Ma. Fabio da Silva Lacerda
Diretor de Tecnologia - ComunIP - Soluções de Mídia em Tempo Real S/A
Belo Horizonte, 12 de maio de 2010
Resumo
A proposta deste trabalho é o desenvolvimento de uma metodologia para a avaliação subjetiva
da qualidade de vídeos baseada na análise de pares formados por um vídeo de qualidade
conhecida e por um vídeo cuja qualidade deseja-se avaliar. Para isso, foram realizadas duas
fases de testes com informantes. Na primeira fase, foram realizados testes MOS (Mean Opinion
Score - Índice de Opinião Médio), os quais foram usados para a construção de um modelo
capaz de estimar o MOS de um vídeo em função da sua taxa de transmissão. Os resultados
obtidos indicam uma correlação elevada entre o MOS e o logaritmo da taxa de transmissão
(coeficiente de correlação > 0,9). Para a segunda fase, foi desenvolvida uma interface interativa
através da qual informantes decidiam qual de dois vídeos apresentados possuía qualidade
superior. Utilizando-se esta interface, foram realizados testes subjetivos, os quais consistiram
de comparações de pares compostos por um vídeo com MOS conhecido e um vídeo de teste.
Para cada par, foi solicitado a cada informante que decidisse qual dos vídeos apresentados
possuía qualidade superior. Caso o vídeo de teste tivesse qualidade superior à do vídeo
de referência, uma nova comparação era realizada entre o vídeo de teste e um vídeo com
MOS superior ao MOS do vídeo de referência anterior. Caso contrário, a nova comparação
era realizada entre o vídeo de teste e um vídeo com MOS inferior ao MOS do vídeo de
referência anterior. Realizando-se este processo de forma iterativa foi possível refinar os testes
comparativos tanto quanto possível. A metodologia comparativa mostrou-se eficaz, fornecendo
medições individuais com desvio padrão da ordem de um terço daquele obtido através dos
testes MOS realizados. Assim, torna-se possível realizar medições de qualidade subjetiva
utilizando-se um número reduzido de informantes, sem perda da precisão obtida através de
testes MOS convencionais.
i
Abstract
The purpose of this study is to develop a methodology for assessing subjective quality of
videos based on the analysis of pairs formed by a known quality video and a video whose
quality is wished to be avaluated. For that, two phases of subjective tests were carried out.
In the first phase, MOS (Mean Opinion Score) tests were performed. These tests were used to
construct a model to estimate the MOS of a video as a function of its transmission rate. The
results indicate a high correlation between MOS and the logarithm of the transmission rate
(correlation coefficient > 0.9). For the second phase, we developed an interactive interface
through which subjects decided which of two videos presented superior quality. Using this
interface, subjective tests, which consisted of comparisons of pairs composed of a MOS-known
video and a test video, were performed. For each pair, each subject was asked to decide which
of the videos had higher quality. If the test video had higher quality than the reference video,
a new comparison was performed between the test video and a video whose MOS was higher
than the MOS of the previous reference video. Otherwise, a new comparison was performed
between the test video and a video whose MOS was lower than the MOS of the previous
reference video. Performing this process iteratively it was possible to refine the comparative
tests as much as possible. The comparative methodology was effective, providing individual
measurements with a standard deviation of about one third of that obtained through the
MOS tests that were carried out. Thus, it becomes possible to perform measurements of
subjective quality using a reduced number of subjects, without loss of the accuracy attained
by conventional MOS tests.
ii
Dedico este trabalho aos meus pais, ao meu noivo e a minha filha, pessoas que amo muito
e que sempre me apoiaram incondicionalmente...
iii
Agradecimentos
Ao meu orientador, Prof. Dr. Hani Camille Yehia, pela paciência, compreensão e persistência
dispensados para realização deste trabalho.
Ao meu co-orientador, Prof. Dr. Hermes Aguiar Magalhães, pelo incentivo e auxílio.
À minha família, em especial aos meus pais José Feliciano e Mariângela, e as minhas irmãs
Mirellen e Shellen por todo incentivo, auxílio e paciência durante essa longa caminhada.
À minha pequena Luiza pelo carinho e compreensão mesmo com a constante ausência da
mamãe.
Ao meu noivo Marçal por toda amizade, paciência e companheirismo nestes anos.
Aos amigos do CEFALA e LABCOM, em especial João Pedro Hallack Sansão e Renata
Onety por toda força moral e intelectual, incentivo e auxílio nos vários momentos de dificul-
dades.
Aos amigos do Synergia, em especial Bárbara e Leonardo pelos incentivos e pensamentos
positivos.
À COMUNIP e à FINEP pela confiança e apoio financeiro proporcionados.
À todos que contribuíram para a concretização deste trabalho.
iv
Sumário
1 Introdução 1
2 Fundamentação Teórica 3
2.1 Percepção Visual e Codificação de Vídeo . . . . . . . . . . . . . . . . . . . . . 3
2.2 Princípios da Codificação de Vídeo . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.1 Compressão do Sinal de Vídeo . . . . . . . . . . . . . . . . . . . . . . 4
2.2.2 Padrões para Codificação de Vídeo . . . . . . . . . . . . . . . . . . . . 7
2.3 Qualidade de Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Medida Subjetiva de Qualidade . . . . . . . . . . . . . . . . . . . . . . 9
2.3.2 Medida Objetiva de Qualidade . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Síntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Metodologia e Configuração dos Experimentos 22
3.1 Primeira Fase de Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 Configuração do Ambiente de Teste . . . . . . . . . . . . . . . . . . . 22
3.1.2 Material de Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Especificações do Teste . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.4 Execução do Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Segunda Fase de Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Especificações do Teste . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Execução do Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Síntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Resultados 35
4.1 Primeira Fase de Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Segunda Fase de Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 Conclusão 48
Referências Bibliográficas 50
v
Lista de Figuras
1.1 Escala utilizada para avaliação subjetiva. . . . . . . . . . . . . . . . . . . . . . . 2
2.1 Amostragens temporal e espacial de uma sequência de vídeo. . . . . . . . . . . . 4
2.2 Esquema de realização de testes subjetivos segundo a metodologia DSCQS. . . . 13
2.3 Escala de avaliação utilizada na metodologia Double Stimulus Continuous Quality
Scale (DSCQS). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Esquema de realização de testes para metodologia DSIS. . . . . . . . . . . . . . . 14
2.5 Escala de avaliação utilizada na metodologia DSIS. . . . . . . . . . . . . . . . . . 15
2.6 Dispositivo de votação automático utilizado em testes segundo a metodologia SS-
CQE (Wolf e Pinson, 2007). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Exemplo da exibição dos vídeos durante a realização do teste SDSCE (BT.500-11,
2002). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.8 Sugestão de interface para realização de testes subjetivos utilizando a metodologia
SAMVIQ (BT.1788, 2007). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.9 Exemplo onde a qualidade percebida entre imagens com o mesmo PSNR é diferente
(Winkler, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1 Layout do laboratório onde foram realizados os testes. . . . . . . . . . . . . . . . 23
3.2 Relação entre a altura ou diagonal da tela e a distância em que o observador deve
se encontrar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Pedestrian Area, filmagem de um local destinado a pedestres. . . . . . . . . . . . 25
3.4 Rush Hour, hora do rush na cidade de Munique. . . . . . . . . . . . . . . . . . . 25
3.5 Riverbed, leito do rio visto através da água. . . . . . . . . . . . . . . . . . . . . . 26
3.6 Station2, vista para a estação de Munique. . . . . . . . . . . . . . . . . . . . . . . 26
3.7 T1 = exibição do vídeo de referência (10s) / T2 = intervalo (3s) / T3 = exibição
do vídeo a ser avaliado (10s) / T4 = período para avaliação e preenchimento do
questionário (5s). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.8 Formulário utilizado para avaliação da sequência Pedestrian Area. . . . . . . . . . 29
3.9 Modelo obtido para a sequência Pedestrian Area: MOS = 2, 78∗ log10(taxa)−5, 77. 30
vi
3.10 Interface criada, com auxílio do aplicativo “Kommander” (Laffoon et al., 2002),
para realização dos testes subjetivos utilizando uma metodologia de comparação
relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.11 Interface após a exibição do vídeo relativo ao botão Vídeo 5. Observe que a
decisão do observador define qual o próximo vídeo a ser assistido, ou seja, caso
o vídeo relacionado ao botão Vídeo 5 seja melhor que o vídeo relacionado ao
botão Tocar vídeo a ser avaliado o botão Vídeo 4 será a próxima escolha do
observador. Por outro lado, caso o vídeo relacionado ao botão Vídeo 5 seja pior
que o vídeo relacionado ao botão Tocar vídeo a ser avaliado o botão Vídeo 6
deverá ser a próxima escolha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.12 Formulário utilizado para avaliação das sequências Pedestrian Area, Rush Hour,
Riverbed e Station2 durante a segunda fase de testes. . . . . . . . . . . . . . . . . 33
4.1 Modelo para a sequência Pedestrian Area: MOS = 2, 78.log10(taxa)− 5, 77 . . . 39
4.2 Modelo para a sequência Rush Hour : MOS = 2, 20.log10(taxa)− 3, 71 . . . . . . 40
4.3 Modelo para a sequência Riverbed : MOS = 2, 66.log10(taxa)− 6, 52 . . . . . . . 40
4.4 Modelo para a sequência Station2 : MOS = 1, 82.log10(taxa)− 2, 21 . . . . . . . 41
4.5 Resultado obtido na avaliação subjetiva da sequência Pedestrian Area utilizando-se
a metodologia proposta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.6 Resultado obtido na avaliação subjetiva da sequência Rush Hour utilizando-se a
metodologia proposta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.7 Resultado obtido na avaliação subjetiva da sequência Riverbed utilizando-se a
metodologia proposta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.8 Resultado obtido na avaliação subjetiva da sequência Station2 utilizando-se a
metodologia proposta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.9 Comparação entre os resultados obtidos na primeira e segunda fases de testes para
a sequência Pedestrian Area. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
vii
Lista de Tabelas
2.1 Taxas de bits para aplicações que utilizam o codec H.264/AVC (Alvarez et al., 2005). 8
2.2 PVD sugerida pela recomendação BT.500-11. . . . . . . . . . . . . . . . . . . . . 12
2.3 Comparação entre as metodologias de avaliação subjetiva. . . . . . . . . . . . . . 19
3.1 Sequências utilizadas nos testes da primeira e segunda fases. . . . . . . . . . . . . 24
3.2 Parâmetros utilizados na codificação dos vídeos. . . . . . . . . . . . . . . . . . . . 27
3.3 Taxas utilizadas na codificação dos vídeos exibidos para os grupos 1, 2, 3 e 4 de
observadores, na primeira fase de testes subjetivos. . . . . . . . . . . . . . . . . . 28
3.4 Taxas utilizadas para codificação dos vídeos comparativos na segunda fase. . . . 34
3.5 Taxas utilizadas na codificação dos vídeos sob avaliação na segunda fase de testes. 34
4.1 Notas obtidas para os testes subjetivos realizados por 16 observadores que avaliaram
o vídeo Pedestrian Area codificado a 20 diferentes taxas. . . . . . . . . . . . . . . 36
4.2 Notas obtidas para os testes subjetivos realizados por 16 observadores que avaliaram
o vídeo Rush Hour codificado a 20 diferentes taxas. . . . . . . . . . . . . . . . . . 36
4.3 Notas obtidas para os testes subjetivos realizados por 16 observadores que avaliaram
o vídeo Riverbed codificado a 20 diferentes taxas. . . . . . . . . . . . . . . . . . . 36
4.4 Notas obtidas para os testes subjetivos realizados por 16 observadores que avaliaram
o vídeo Station2 codificado a 20 diferentes taxas. . . . . . . . . . . . . . . . . . . 37
4.5 Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.1 para os grupos de observadores 1, 2, 3 e 4 da sequência Pedestrian Area. . . . 38
4.6 Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.2 para os grupos de observadores 1, 2, 3 e 4 da sequência Rush Hour. . . . . . . 38
4.7 Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.3 para os grupos de observadores 1, 2, 3 e 4 da sequência Riverbed. . . . . . . . 38
4.8 Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.4 para os grupos de observadores 1 e 2 da sequência Station2. . . . . . . . . . . 39
4.9 Coeficientes da equação MOS = A.log10(taxa) + B, modelo encontrado para as
sequências de vídeo avaliadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
viii
4.10 Coeficientes de correlação entre o MOS e o logaritmo das taxas nas quais os vídeos
utilizados foram codificados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.11 Desvios padrão das notas obtidas para cada uma das sequências da primeira e
segunda fases de testes subjetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.12 Comparação entre as metodologias de avaliação subjetiva já existentes e citadas
anteriormente, e a metodologia comparativa proposta (MCP). . . . . . . . . . . . 47
ix
Capítulo 1
Introdução
Nos últimos anos tem sido notável o avanço e a popularização da tecnologia digital. Equipa-
mentos que antes não eram acessíveis à grande maioria da população têm se tornado comuns,
tais como televisores com telas de cristal líquido (LCD - Liquid Crystal Display) e equipamen-
tos leitores de mídia blu-ray. Acompanhando esta tendência, as pessoas cada vez mais têm tido
acesso a conteúdos refinados como os exibidos em alta definição, com auxílio, por exemplo, da
televisão digital (HDTV - High Definition Television). Esses sistemas permitem uma maior
fidelidade comparada aquela fornecida pelos sistemas de televisão padrão (SDTV - Standard
Definition Television) por exemplo. No entanto, todo esse avanço torna os espectadores ou
usuários finais cada vez mais exigentes. Com isso, surge a necessidade dos provedores não só
garantirem a qualidade do serviço prestado, mas também de alcançar a satisfação do usuário.
Portanto, uma forma de tentar prover uma melhor experiência para o espectador é medindo a
qualidade da imagem que está sendo transmitida, permitindo que o impacto visual no usuário
seja conhecido e consequentemente variáveis do sistema (relacionadas a codificação e trans-
missão) possam ser manipuladas para que sejam obtidos bons resultados quanto à qualidade
da imagem final recebida.
Devido à compressão exigida e a exibição em alta definição, os sistemas de imagem di-
gital podem conter artefatos (estruturas ou aparências não naturais, dados indesejáveis). A
quantidade e a nitidez destas distorções dependem fortemente do conteúdo mostrado (Win-
kler, 2005). Portanto, é importante avaliar os sistemas de vídeo determinando a qualidade
das imagens mostradas ao espectador e descrevendo assim a sensação causada nesses. Esta
avaliação pode ser realizada objetiva ou subjetivamente, sendo a segunda considerada a forma
mais fiel de medição, ou seja, a que mais se aproxima da percepção humana.
Métodos de avaliação subjetiva de vídeo, tais como aqueles descritos pelo International
Telecommunication Union nas recomendações BT.500-11 (2002) e P.910 (1999) são usual-
mente demorados e necessitam de muitos observadores, o que os torna trabalhosos e conse-
quentemente caros (Winkler, 2005). O objetivo desta dissertação é o de apresentar e validar
uma nova metodologia de avaliação subjetiva de vídeo que traga mais agilidade ao processo,
1
1. Introdução 2
mas sem comprometer a precisão dos resultados obtidos.
Sistemas multimídia podem ter sua qualidade mensurada subjetivamente através do Índice
de Opinião Média - MOS (Mean Opinion Score), o qual fornece uma indicação numérica da
qualidade percebida pelo espectador. O MOS é obtido, em testes subjetivos, através da
média das pontuações dadas pelos observadores. Estas notas são representadas por um único
número, variando de 1 a 5, como pode ser observado na Figura 1.1. Vídeos avaliados com
nota 5, excelente, são aqueles onde nenhum defeito pode ser percebido pelo observador, nota
4, bom, são aqueles onde o defeito é percebido e não causa desconforto ao observador, nota
3, aceitável, o defeito é percebido e causa desconforto ao observador, nota 2, ruim, apesar da
grande degradação no vídeo o observador consegue visualizar alguma informação, nota 1, o
vídeo torna-se ininteligível e o observador fica impossibilitado de extrair alguma informação
deste.
Figura 1.1: Escala utilizada para avaliação subjetiva.
Na metodologia proposta, o MOS é obtido através de comparações, ou seja, a avaliação
do vídeo de teste é feita comparando-o com outras sequências de vídeo que já possuem um
MOS pré-definido. Sendo assim, é necessário, a princípio, obter um modelo onde a relação
entre o MOS e a taxa de compressão das sequências de vídeo fica definida.
Esta dissertação, além desta introdução, Capítulo 1, possui mais quatro capítulos. O
Capítulo 2 apresenta uma fundamentação teórica onde são abordados o sinal de vídeo, a
compressão deste e a medição da qualidade. As metodologias de avaliação subjetiva e ob-
jetiva descritas na literatura também são abordadas neste capítulo. O Capítulo 3 descreve
as metodologias e configurações dos experimentos realizados na primeira e segunda fases de
testes subjetivos, sendo esta última fase a metodologia comparativa proposta. O Capítulo 4
apresenta os resultados obtidos, tanto na primeira, quanto na segunda fase de testes subje-
tivos, além de trazer uma discussão comparativa entre eles. Finalmente, no Capítulo 5, são
apresentadas as conclusões do trabalho juntamente com as propostas de trabalhos futuros.
Capítulo 2
Fundamentação Teórica
Este capítulo apresenta os fundamentos teóricos necessários para a compreensão da metodolo-
gia proposta e dos resultados obtidos. Uma breve descrição do sistema visual humano é colo-
cada no início do capítulo. Em seguida apresentam-se os princípios de codificação de vídeo.
Finalmente, as principais técnicas de medição de qualidade de vídeo são mostradas.
2.1 Percepção Visual e Codificação de Vídeo
Os mecanismos e os conceitos associados aos sinais de vídeo se baseiam no processo de per-
cepção de imagens pelo ser humano. O sistema de visão recebe estímulos luminosos e transfere
as informações ao cérebro, que as processa criando a percepção de imagens. É um processo
dinâmico com dependências temporal e espacial, pois a cada instante e em diferentes posições
dentro do campo visual os estímulos e a percepção se renovam.
O sistema visual humano (HVS - Human Visual System) possui um mecanismo complexo,
considerando-se que grande parte dos neurônios do cérebro humano estão envolvidos na per-
cepção visual (Winkler, 2005). A forma como percebemos cores e movimentos é a chave para
a definição da qualidade de vídeo. Sendo assim, o cálculo da diferença de duas imagens como
streams de dados é além de ineficiente, pouco realista. Em outras palavras, a distorção cal-
culada por uma métrica objetiva de qualidade como RMSE (Root Mean Squared Error) pode
não casar com a percepção subjetiva do ser humano. O RMSE, por exemplo, pode calcular
uma enorme distorção entre a imagem comprimida e a imagem original, embora esse valor
possa não representar nenhum problema para o espectador caso o artefato detectado esteja
em uma “região” que o HVS não perceba.
O HVS é mais sensível a informações de luminância (contraste claro/escuro) do que a
informações de crominância (distinção entre tonalidades de cor com mesma luminosidade
aparente). Sendo assim, os padrões de compressão de vídeo podem explorar esta característica
humana para aumentar a eficiência de codificação, através da redução da taxa de amostragem
dos componentes de crominância em relação aos componentes de luminância. No entanto,
3
2. Fundamentação Teórica 4
distorções espaciais e temporais podem ser percebidas através de diferenças no espaço e no
tempo e pela comparação com a referência (Webster et al., 1993).
2.2 Princípios da Codificação de Vídeo
Para que seja possível transmitir vídeo, utilizando de uma forma mais racional os recursos
de transmissão disponíveis, reduzindo assim os dados transportados, usualmente é necessário
que o material seja codificado (na fonte) e decodificado (no destino), processo referido pelo
acrônimo CODEC. Sendo assim, devido à limitação de banda do canal de transmissão, a
codificação de vídeo envolve sua compressão (na fonte) e descompressão (no destino), passos
essenciais para aplicações que manipulam vídeos digitais, em função da enorme quantidade
de informação necessária para representá-los sem nenhum tipo de compressão.
O vídeo digital é uma representação de cenas visuais naturais amostradas espacialmente e
temporalmente, como pode ser observado na Figura 2.1. Uma cena é amostrada em um ponto
do tempo para produzir um quadro (representação completa de uma cena visual em um dado
momento). As imagens são amostradas em intervalos (por exemplo, 1/25 ou 1/30 segundos)
para produzir a sensação de movimento exibida por uma sequência de vídeo (Richardson,
2003).
Figura 2.1: Amostragens temporal e espacial de uma sequência de vídeo.
2.2.1 Compressão do Sinal de Vídeo
As informações visuais, em geral, e as de vídeo, em particular, requerem grandes quanti-
dades de largura de banda e espaço de armazenamento. Como exemplo observa-se que uma
2. Fundamentação Teórica 5
sequência de vídeo sem compressão em resolução de SDTV (640x480) gera taxas que têm, tipi-
camente, centenas de Mbit/s. Já para vídeos em resoluções de HDTV (1920x1080) esse valor
pode chegar a Gbit/s, evidenciando que os métodos de compressão são vitais para facilitar o
manuseio de tais taxas. Sendo assim, um sistema para compressão de vídeo visa reduzir a taxa
de transmissão e trabalha removendo a redundância e/ou informações de menor importância
do sinal antes da transmissão. Fazer o processo de codificação de tal forma que a decodifi-
cação seja simples e leve também é muito importante, pois em muitas aplicações multimídia
o decodificador é um item usado em larga escala pelos consumidores. Esse é um dos motivos
pelo qual o decodificador é padronizado, deixando a cargo dos fornecedores, comerciais, por
exemplo, a implementação do codificador.
A compressão pode ser realizada sem perdas (lossless) ou com perdas (lossy). A primeira
garante a integridade da informação e, ao ser descomprimida no final do processo, ela é
uma cópia exata do conteúdo original. Contudo, esses métodos apresentam desempenhos
modestos quando aplicados diretamente a sinais de imagens ou vídeo. A compressão com
perdas é importante considerando-se que para obter uma redução considerável da taxa (da
ordem de dez a cinquenta vezes), aceita-se uma redução da qualidade. A compressão com
perdas apresenta resultados variando desde alta qualidade, com artefatos não detectáveis, até
visualização de degradação, tornando em alguns casos o material ininteligível.
As técnicas de compressão de vídeo difundidas são baseadas no paradigma da compressão
com perdas, em que grande compressão é atingida às custas de perda de qualidade do sinal
tratado, cuja versão decodificada agora passa a ser diferente, mas de certa maneira fiel à versão
original. Nesse conjunto de técnicas, quanto maior a degradação inserida no sinal, menor
será a versão comprimida; o desafio de um algoritmo de compressão de vídeo é comprimir
eficientemente minimizando a distorção inerente ao processo.
Todo algoritmo para compressão de vídeo utiliza idéias comuns como o processamento da
diferença entre quadros, estimativa preditiva do movimento e execução de uma transformação
do domínio do tempo para o domínio da frequência, simplificando a descrição das partes mais
frequentes da imagem. Quando se comprime vídeo, quatro tipos de redundância podem ser
exploradas:
• Redundância temporal e espacial: valores de pixels não são independentes, mas são
em grande parte correlacionados com seus vizinhos, tanto dentro do mesmo quadro (re-
dundância espacial) quanto entre quadros consecutivos (redundância temporal). Assim,
dentro de alguns limites, o valor de um pixel pode ser predito a partir dos valores dos
pixels vizinhos assim como regiões de um quadro futuro podem ser preditas a partir do
quadro atual.
• Redundância em entropia: para qualquer sinal digitalizado, alguns valores codi-
ficados ocorrem mais frequentemente que outros. Essa característica pode ser explo-
2. Fundamentação Teórica 6
rada através da codificação dos valores que ocorrem mais frequentemente com códigos
menores, enquanto que códigos maiores podem ser usados para valores mais raros em
ocorrência.
• Redundância psicovisual: esta forma de remoção de redundância resulta do princí-
pio de funcionamento do olho e do cérebro humanos (sistema visual humano). Tanto o
limite de definição fina de detalhes que o olho pode resolver (limites de resolução espa-
cial), quanto o limite relacionado a habilidade de acompanhar imagens que se movem
rapidamente (limites de resolução temporal), são utilizados como limiares para que seja
descartado aquele sub-conjunto do fluxo de informação de vídeo que ultrapassa esses
limites. Visto que o sistema visual humano não é capaz de perceber esse tipo de infor-
mação, não há razão para sua transmissão, resultando assim em compressão.
Para vídeos analógicos, as redundâncias espacial, temporal e psicovisual são exploradas
através de técnicas de codificação de cores e técnicas de entrelaçamento. Vídeos digitais ofe-
recem métodos adicionais de compressão, que podem ser classificados como métodos baseados
em modelos (compressão fractal, por exemplo) e métodos baseados em transformadas (Fourier
e Wavelet), entre outros. Muitos dos codificadores atuais, e os padrões que os especificam,
pertencem à última categoria e abrangem os seguintes estágios:
• Utilização de transformada: a fim de facilitar a exploração de redundâncias psicovisuais,
os quadros são convertidos para um domínio onde diferentes faixas de frequências, perce-
bidas distintamente pelo HVS, possam ser separadas, removendo assim, a redundância
espacial, através da concentração de energia em poucos coeficientes. Isso pode ser feito
através da Transformada Discreta do Cosseno (DCT - Discrete Cosine Transform) ou
pela transformada Wavelet, por exemplo (Winkler, 2005).
• Quantização: após a transformação, a precisão numérica dos coeficientes é reduzida de
forma a decrementar o número de bits do fluxo de bits. O grau de quantização aplicado
a cada coeficiente é normalmente determinado pela percepção da distorção resultante
por um observador humano. Coeficientes de alta frequência podem ser quantizados
mais grosseiramente que os coeficientes de baixa frequência. O estágio de quantização
acarreta perda de informação (Winkler, 2005).
• Codificação: ademais à quantização dos dados em um conjunto finito de valores, esses
podem ser codificados, sem perdas, através da exploração de redundância entre os coefi-
cientes do stream de bits quantizados. A codificação de entropia, que se apoia no fato de
que certos símbolos ocorrem com mais frequência que outros, é normalmente utilizada
neste processo (Winkler, 2005).
2. Fundamentação Teórica 7
2.2.2 Padrões para Codificação de Vídeo
O MPEG - Moving Picture Experts Group é um grupo de estudos do ISO - International
Organization for Standardization que desenvolve padrões internacionais para compressão de
vídeo. Esse grupo foi criado em Janeiro de 1988 e engloba os padrões mais populares para
codificação de vídeo, sendo eles:
MPEG-1: padrão mais antigo, lançado em 1992, foi desenvolvido para armazenar sinais
digitais de áudio e vídeo com qualidade VCR (Vídeo Cassete Recorder), com uma taxa
de transmissão máxima de 1,5 Mbps.
MPEG-2: padrão para televisão digital aprovado em 1994. Esse é a evolução do padrão
MPEG-1 permitindo resoluções mais altas e consequentemente exigindo recursos com-
putacionais melhores. Apesar do algoritmo de compressão no MPEG-1 e MPEG-2 ser
fundamentalmente o mesmo, o MPEG-2 trouxe algumas melhorias importantes. Como
exemplo podemos citar a capacidade de misturar trechos de qualidades diferentes den-
tro de um mesmo vídeo, permitindo que sejam usados menos bits nas cenas estáticas
e mais bits em cenas com muito movimento (taxa de bits variável, mantendo o vídeo
uniforme e diminuindo o tamanho do arquivo final), redução da redundância temporal
utilizando a técnica preditiva de compensação de movimento, estruturação de perfis e
níveis possibilitando maior compatibilidade e eficiência. Um perfil é definido como um
subconjunto da sintaxe completa do fluxo de bits ou seja, um subconjunto de ferramen-
tas de codificação. Todos os decodificadores compatíveis com determinado perfil devem
suportar as ferramentas de codificação correspondentes àquele. Além disso foram intro-
duzidas funcionalidades tais como escalabilidade, tratamento diferenciado para fontes
entrelaçadas e maior eficiência na decodificação.
MPEG-4: padrão desenvolvido para aplicações multimídia aprovado em 1998. O padrão
provê um conjunto de tecnologias para satisfazer as necessidades de autores, prove-
dores de serviços e usuários finais tais como: robustez em ambientes suscetíveis a erros,
funções de interatividade para conteúdos multimídia e alta eficiência de compressão a
baixas taxas de transmissão. Esse padrão fornece as seguintes funcionalidades: me-
lhor eficiência de codificação (ou seja, resultados melhores, em termos da qualidade da
sequência codificada (Koenen, 2002)), flexibilidade a erros possibilitando transmissões
robustas e possibilidade de interação áudio-visual. Avaliações subjetivas mostraram
que o ganho de eficiência de codificação do MPEG-4 em relação ao MPEG-2 varia de
15 a 20%, não sendo esse suficiente para justificar a substituição do MPEG-2 dada a
incompatibilidade entre estes dois padrões (Sunna, 2005).
MPEG-4 parte 10: As aplicações atuais e as emergentes, como vídeos em alta definição,
necessitam de uma qualidade melhor e ao mesmo tempo uma compressão mais eficiente
2. Fundamentação Teórica 8
do que aquelas obtidas com os padrões MPEG-2 e MPEG-4, por exemplo. Sendo assim,
o MPEG-4 parte 10, também conhecido como H.264 ou AVC - Advanced Video Coding,
foi definido com objetivo de prover uma maior eficiência na codificação de vídeo através
do uso de técnicas de compressão. Com esse propósito foram realizadas alterações
relativas a compensação de movimento, redução da redundância espacial, quantização
e codificação de entropia (Sunna, 2005). Além dessas, outras melhorias podem ser
visualizadas em de Queiroz et al. (2006).
Este padrão de compressão de vídeo foi desenvolvido em conjunto pelo ISO MPEG e
pelo grupo VCEG - Video Coding Experts Group do ITU-T - International Telecom-
munication Union, que juntos formaram o JVT - Joint Video Team. O H.264 atinge
as mais elevadas taxas de compressão dentre todos os padrões de codificação de vídeo
existentes (pode-se obter vídeos com a mesma qualidade obtida com o MPEG-2 mas
com praticamente a metade da taxa). A Tabela 2.1 mostra as taxas de bits mais comuns
para aplicações que utilizam o H.264. Assim como no MPEG-2, a especificação H.264
define perfis e níveis com o objetivo de maximizar a inter-operabilidade, tornando-o
capaz de atender vários tipos de aplicações, taxas, resoluções, qualidade e serviços e
consequentemente proporcionando uma boa aceitação do padrão.
Tabela 2.1: Taxas de bits para aplicações que utilizam o codec H.264/AVC (Alvarez et al.,
2005).
Aplicação Resolução Taxa de Quadros Taxa de bits sem Taxa de bits comcompressão compressão
HDTV 1280x720 25 270 Mbps 2-8 Mbps
DVD 720x576 25 121 Mbps 1-2 Mbps
Vídeo Conferência 352x288 25 30 Mbps 128-1000 kbps
Vídeo Celular 176x144 15 9 Mbps 50-1000 kbps
Ao avaliar o desempenho do decodificador de vídeo H.264/AVC, com ênfase para vídeos
em alta resolução, percebe-se que esse exige uma capacidade de processamento muito
maior que os codecs MPEG-4 e MPEG-2, necessitando assim de recursos computacio-
nais mais robustos (Alvarez et al., 2005). Apesar disso, testes subjetivos utilizando
sequências de vídeo em SD - Standard Definition e HD - High Definition, compara-
ndo o H.264 e o MPEG-2, mostram a superioridade do primeiro. Isto porque o H.264
possibilita a entrega de vídeos em boa qualidade a taxas tão baixas quanto 1,5Mbps
para sequências SD e 6Mbps para sequências HD (essa melhoria foi obtida devido a
aprimoramentos na compensação de movimento, por exemplo, como pode ser observado
em Sunna (2005)). Estas são taxas onde o MPEG-2 não entregaria sequências com
qualidade aceitável (Oelbaum et al., 2004).
2. Fundamentação Teórica 9
É importante notar que os padrões MPEG especificam somente a sintaxe do fluxo de bits
e o processo de decodificação, não especificando portanto o processo de codificação, estando
esse livre para propostas de novas técnicas de codificação que visem melhorar o desempenho
do sistema.
2.3 Qualidade de Vídeo
Para especificar, avaliar e comparar sistemas de vídeo é necessário determinar a qualidade das
imagens mostradas ao espectador. A qualidade visual é inerentemente subjetiva, tornando sua
medida difícil e frequentemente imprecisa devido a vários fatores que podem afetar os resulta-
dos, como, por exemplo, a opinião de um espectador. Isto ocorre porque esta pode depender
diretamente do tipo de vídeo que ele está assistindo: um filme em um DVD passivamente,
ativamente participando de uma videoconferência ou se comunicando usando linguagem de
sinais.
A avaliação da qualidade de vídeo pode ser realizada através de métodos objetivos ou
métodos subjetivos. As medidas subjetivas permitem capturar, através de apresentações
de sequências de vídeo, a percepção de qualidade pelo usuário, sendo esta a forma mais
confiável de se quantificar a qualidade de vídeo. Esse também é método mais eficiente de
testar a perfomance o desempenho de modelos que tentam simular o sistema visual humano
e também métodos de avaliação objetiva. Por outro lado, métodos de avaliação objetiva são
baseados em modelos matemáticos que objetivam prever, automaticamente, a qualidade das
sequências de vídeo. No entanto, a predição da qualidade de vídeo é uma tarefa difícil, devido
à complexidade do sistema visual humano.
2.3.1 Medida Subjetiva de Qualidade
A medida subjetiva de qualidade pode ser influenciada por vários fatores, como pode ser
observado abaixo:
Interesse individual e expectativas do observador: geralmente os espectadores pos-
suem preferências em relação ao conteúdo de vídeo exibido, seja ele através de sistemas
televisivos, DVD ou Internet. Isso implica no fato de que um espectador, fã de fute-
bol, que segue atentamente um jogo, pode ter uma necessidade de qualidade diferente
daquele que esporadicamente tem contato com esse tipo de conteúdo. Os observadores
também possuem expectativas diferentes em relação à qualidade de vídeo, de acordo com
o situação vivida por eles, ou seja, são esperadas qualidades diferentes para vídeos assis-
tidos em um cinema em relação àqueles exibidos por um telefone celular, por exemplo.
Ao mesmo tempo, os avanços tecnológicos também podem alterar as expectativas dos
2. Fundamentação Teórica 10
usuários, ou seja, filmes gravados em DVD são considerados por aqueles que possuem
um Blu-ray player inferiores àqueles gravados em mídias Blu-ray, por exemplo.
Tipo de display e suas características: atualmente existem varias tecnologias de displays
disponíveis, entre elas, CRT, LCD, Plasma e LED (Light Emitting Diode) . Todos
esses displays têm características diferentes em termos de brilho, contraste, tempo de
resposta, entre outras, que determinam a qualidade do vídeo exibido. Artefatos gerados
pela compressão, como o efeito bloco (blockness) são mais visíveis em monitores com
tecnologias diferentes da CRT, por exemplo (Winkler, 2005). A resolução do display,
juntamente com seu tamanho, também influenciam na percepção de qualidade. Displays
de cristal líquido e plasma, por exemplo, deixam distorções introduzidas pela compressão
mais visíveis quando comparados a displays com tecnologia CRT (Tourancheau et al.,
2007).
Segundo Pinson e Wolf (2004), equipamentos com tecnologia CRT com resoluções maio-
res (720x486) podem ser utilizados para emular a experiência subjetiva de observadores
utilizando equipamentos LCD (celulares, por exemplo) com baixas resoluções (352x288).
Além disso, a influência da tecnologia de displays LCD e CRT e de seus ajustes (tempo
de resposta, exibição de artefatos e resolução) pode ser reduzida, significativamente,
na avaliação subjetiva de sequências de vídeo, quando utilizadas as resoluções citadas
anteriormente. Além disso, Pinson e Wolf (2004) acreditam que o impacto introduzido
pela tecnologia do display utilizado pode ser reduzido através do emprego de testes sub-
jetivos onde dois estímulos são utilizados (avaliação da diferença entre um vídeo original
e outro processado) em detrimento de testes onde apenas um estímulo é utilizado (ava-
liação apenas do vídeo processado).
Condições de visualização: além da distância entre o observador e o display, a iluminação
do ambiente também afeta a percepção da qualidade. Apesar do observador estar apto
a se adaptar a vários níveis de luz, ambientes onde estes níveis estão sempre mudando
diminuem a sensibilidade a pequenas variações de contraste. Além disso, a luz externa
ao ambiente onde o observador se encontra pode diminuir a visibilidade da imagem na
tela devido as reflexões que ocorrem nesta (Winkler, 2005).
Presença do áudio: o áudio que acompanha o vídeo tem uma grande influência na quali-
dade percebida pelo usuário. Estudos mostram que as notas dadas por observadores, em
testes de avaliação subjetiva, são geralmente maiores quando as cenas são acompanhadas
por som de boa qualidade (Winkler, 2005).
Testes subjetivos para avaliação de qualidade visual têm sido formalizados nas recomen-
dações ITU-R BT.500-11 (BT.500-11, 2002) e ITU-T P.910 (P.910, 1999). Essas recomen-
dações sugerem condições gerais sob as quais a avaliação subjetiva de vídeo deve ser realizada
2. Fundamentação Teórica 11
(condições de observação, critérios para seleção de observadores e materiais utilizados nos
testes, procedimentos de avaliação e métodos para avaliação dos dados obtidos nos testes, por
exemplo). Portanto, as recomendações têm o objetivo principal de proporcionar aos cientistas
uma forma de obter resultados homogêneos, ou seja, úteis em futuras comparações.
A recomendação BT.500-11 tem uma história longa e foi escrita com objetivo de padronizar
metodologias de avaliação subjetiva para conteúdos televisivos. Ela vem sendo enriquecida ao
longo do tempo, sendo que nos últimos anos muitos métodos foram adicionados com o intuito
de melhorar a confiabilidade dos resultados (Baroncini, 2006).
No final dos anos 90 (1999), com a evolução da tecnologia dos computadores, surgiu
a necessidade de uma nova recomendação. Sendo assim, o setor de Telecomunicações do
ITU lançou a recomendação P.910, intitulada "Subjective video quality assessment methods
for multimedia applications" (Métodos de avaliação subjetiva de qualidade para aplicações
multimídia) que, como o próprio nome diz, foi criada com intuito de atender diversos tipos de
conteúdos como, por exemplo, videoconferência, vídeos utilizados em equipamentos portáteis
e na Internet, etc.
Na recomendação P.910 as metodologias de testes foram descritas utilizando termos mais
adequados às necessidades dos serviços de telecomunicações. Afora isso, as metodologias de
testes subjetivos mostraram-se uma cópia daquelas descritas na recomendação BT.500. Ou
seja, a nova recomendação não resolveu completamente os problemas que surgiram na ava-
liação subjetiva de vídeos utilizados em serviços multimídia, tais como: descrição do setup
de laboratórios para realização de testes utilizando monitores de computadores (ou seja, uti-
lizar um setup que se aproxime de situações reais) e possibilidade de utilização de displays
alternativos (projetores, por exemplo) (Baroncini, 2006).
As recomendações BT.500-11 e P.910 sugerem várias condições experimentais para que
sejam realizados os testes subjetivos. Algumas dessas condições serão brevemente discutidas
a seguir.
Condições de visualização: o setup do ambiente onde os testes são realizados pode
afetar os resultados experimentais. Sendo assim, alguns fatores devem ser especialmente ob-
servados durante a realização do experimento: iluminação do local, presença de ruídos no
ambiente, escolha e calibração do display utilizado (resolução, brilho, contraste, posiciona-
mento em relação ao espectador).
A distância do observador à tela e o tamanho desta, segundo a recomendação BT.500-11,
devem ser selecionados para satisfazer a PVD - Preferred Viewing Distance. Esta relação
pode ser observada na Tabela 2.2. Os valores exibidos podem ser usados para sistemas SDTV
e HDTV. Já a recomendação P.910 determina que a distância do observador à tela deve ser
definida não somente levando-se em consideração o tamanho desta, mas também o tipo de tela,
o tipo de aplicação e o objetivo do experimento. Para a recomendação P.910 essa distância
pode variar de 1 a 8 vezes a altura da imagem exibida.
2. Fundamentação Teórica 12
Tabela 2.2: PVD sugerida pela recomendação BT.500-11.
Seleção do material utilizado na realização do teste: os resultados obtidos através
de testes subjetivos dependem fortemente do conteúdos das sequências de vídeo assistidas
pelos observadores. As informações temporais e espaciais são importantes parâmetros que
devem ser observados nessa escolha. Esses parâmetros determinam o esforço realizado para
compressão e consequentemente o nível de artefatos introduzidos. Além disso, a duração das
sequências é também um fator a ser observado. Essa duração depende do objetivo do teste.
Por exemplo, a avaliação de CODECs geralmente é realizada utilizando-se sequências de vídeo
curtas. Por outro lado, se efeitos produzidos por erros de transmissão precisam ser avaliados
continuamente, sequências longas são mais indicadas.
Seleção dos observadores: este é um ponto importante para avaliação subjetiva de
vídeo. O número de observadores selecionados para participar dos testes pode variar de 4 a 40
(P.910, 1999), sendo normalmente utilizadas 15 pessoas (BT.500-11, 2002). A consistência dos
resultados e também a precisão desses é diretamente proporcional ao número de observadores
utilizados.
Antes da realização dos testes os observadores devem ser avaliados, a fim de determinar
se esses não possuem alguma anomalia relacionada ao sistema visual humano. Portanto, é
desejável que os observadores tenham acuidade visual normal (capacidade de discriminar dois
pontos próximos como elementos separados, o que corresponde à nitidez da visão) e percepção
normal das cores (ausência de daltonismo).
Os observadores selecionados para participar de testes subjetivos não devem estar envolvi-
dos com avaliação da qualidade de vídeo ou imagens em seu trabalho cotidiano. Ou seja, não
devem ser especialistas no assunto. Isso porque os não especialistas fazem parte de um grupo
mais representativo, quando comparados com os especialistas. Observadores não especialistas
assistem aos vídeos sob teste como se esses não estivessem sendo avaliados, de forma natural.
2. Fundamentação Teórica 13
Por outro lado, quando o teste tem a intenção de avaliar/procurar artefatos específicos pre-
sentes em uma sequência de vídeo, um grupo de avaliadores experientes realizaria melhor o
teste.
2.3.1.1 Métodos de Avaliação Subjetiva
A recomendação BT.500-11 ilustra vários procedimentos para realização de testes subjetivos,
sendo os mais utilizados:
Double Stimulus Continuous Quality Scale (DSCQS) - Escala de Qualidade
Contínua por Estímulo Duplo: é o procedimento mais comumente utilizado, onde são ap-
resentados ao observador múltiplos pares de sequências de vídeo, sendo uma delas a sequência
de teste e outra a referência. As sequências devem ser, preferencialmente, de curta duração
(em torno de 10 segundos).
Na metodologia DSCQS, a ordem de exibição entre as sequências de referência e teste é
aleatória, e o observador não é informado de qual tipo de sequência está assistindo, se teste
ou referência. As sequências de vídeo são exibidas duas vezes, como pode ser observado na
Figura 2.2, e em seguida avaliadas.
Figura 2.2: Esquema de realização de testes subjetivos segundo a metodologia DSCQS.
Após a apresentação, cada sequência é avaliada separadamente através de uma escala de
qualidade contínua variando de Péssimo a Excelente, de acordo com a Figura 2.3.
A análise dos resultados é baseada na diferença entre a pontuação de cada par avaliado, que
é calculada num equivalente numérico na faixa entre 0 (zero) e 100 (cem). Essa diferenciação
auxilia na remoção da subjetividade inserida devido à experiência do observador e também
ao conteúdo da cena. Além disso, uma outra forma de reduzir a influência desses fatores seria
através da repetição do teste, utilizando-se grupos diferentes de observadores e sequências, o
que aumenta o custo do experimento.
Esta metodologia é tipicamente utilizada para avaliações onde a diferença entre as sequên-
cias de teste e referência não é muito grande (Alpert et al., 1997), (Winkler, 2005).
2. Fundamentação Teórica 14
Figura 2.3: Escala de avaliação utilizada na metodologia Double Stimulus Continuous Quality
Scale (DSCQS).
Double Stimulus Impairment Scale (DSIS) - Escala de Deficiência por Estímulo
Duplo: nesta metodologia, diferentemente da anteriormente mostrada (DSCQS), a referência
é sempre mostrada antes da sequência de teste, não havendo repetição. O esquema do teste,
mostrado na Figura 2.4, prevê tempos definidos para cada apresentação, assim como tempo
de recuperação e descanso durante a transição (imagem cinza), e um tempo final para o
julgamento.
Figura 2.4: Esquema de realização de testes para metodologia DSIS.
Os observadores avaliam a qualidade da sequência de teste utilizando uma escala discreta
de cinco níveis, variando de Péssimo a Excelente tal qual mostrado na Figura 2.5.
Os níveis da escala da Figura 2.5 devem ser interpretados como:
2. Fundamentação Teórica 15
Figura 2.5: Escala de avaliação utilizada na metodologia DSIS.
• Excelente ou Imperceptível - a sequência de teste mostrada ao observador não aparenta
nenhuma diferença em relação à sequência de referência.
• Bom ou Perceptível, mas não irritante - neste caso o observador consegue perceber
alguma diferença entre a sequência de teste e a referência mas esta não o incomoda.
• Aceitável ou Levemente irritante - o observador percebe a presença de degradação na
sequência de teste, em relação à referência, e essa o incomoda.
• Ruim ou Irritante - o observador percebe que a sequência está bastante degradada mas
ainda visualiza alguma informação.
• Péssimo ou Muito irritante - neste caso, o conteúdo torna-se ininteligível, ou seja, o
observador não consegue extrair nenhuma informação do vídeo exibido.
Esse método é comumente utilizado para testar a fidelidade da transmissão em relação ao
sinal original, sendo um fator importante na avaliação de sistemas de alta qualidade (P.910,
1999).
Single Stimulus Continuous Quality Evaluation (SSCQE) - Avaliação de Qua-
lidade Contínua por Estímulo Simples: neste método são apresentados aos observadores
trechos de programas televisivos que tenham sido processados pelo sistema sob teste. A du-
ração mínima de cada trecho é de 5 minutos. A referência não é mostrada. Utilizando um
dispositivo armazenador de valores de qualidade (um sensor), enquanto assistem, os obser-
vadores avaliam continuamente a qualidade instantânea percebida. Um exemplo desse dispo-
sitivo pode ser observado na Figura 2.6. Nesse caso é utilizada uma escala contínua, como no
método DSCQS. Porém, naquele a nota era única no final de uma apresentação curta, neste
as notas são dadas de forma contínua durante o tempo da demonstração. Esse método está
mais adequado para medidas de qualidade de vídeo em sequências longas e reproduz situações
reais com a ausência da referência.
Simultaneous Double Stimulus for Continuous Evaluation (SDSCE) - Estímulo
Duplo Simultâneo para Avaliação Contínua: nesse teste os observadores assistem a duas
2. Fundamentação Teórica 16
Figura 2.6: Dispositivo de votação automático utilizado em testes segundo a metodologia
SSCQE (Wolf e Pinson, 2007).
sequências de vídeo ao mesmo tempo, sendo uma a referência e a outra o vídeo processado
(sob teste). Caso o formato das sequências seja SIF (Standard Image Format - 320x240) ou
menor, as duas podem ser exibidas lado a lado no mesmo monitor, como pode ser observado
na Figura 2.7. Caso contrário dois monitores devem ser utilizados.
Figura 2.7: Exemplo da exibição dos vídeos durante a realização do teste SDSCE (BT.500-11,
2002).
Os observadores avaliam as diferenças entre as duas sequências de vídeo continuamente uti-
lizando um dispositivo, semelhante ao utilizado pela metodologia SSCQE. Embora o método
seja simples, os resultados podem variar de acordo com os observadores (caso sejam otimistas
ou pessimistas, mais ou menos comprometidos). Isso pode ser evitado através de um processo
2. Fundamentação Teórica 17
mais elaborado de treinamento.
Subjective Assessment Methodology for Video Quality (SAMVIQ) - Metodolo-
gia de Avaliação Subjetiva para Qualidade de Vídeo: nos últimos anos, têm sido
realizados esforços no desenvolvimento de um método de avaliação subjetiva interativo ca-
paz de avaliar aplicações multimídia (Baroncini, 2006). A metodologia de avaliação subjetiva
SAMVIQ foi desenvolvida pela France Telecom R&D e padronizada pelo European Broadcast-
ing Union (EBU). Essa metodologia utiliza vários estímulos, os quais podem ser assistidos
aleatoriamente, diferindo significativamente dos testes subjetivos tradicionais em vários as-
pectos. O teste é realizado através da utilização de uma interface (Blin, 2002); (BT.1788,
2007) onde são apresentadas para avaliação subjetiva várias sequências de vídeo disponíveis
em vários níveis de qualidade, incluindo a referência explícita e a mesma referência oculta
entre os vídeos apresentados. O observador pode avaliar cada sequência na ordem desejada,
podendo ainda assisti-la várias vezes, o que possibilita uma comparação entre sequências e
também com a referência (essa liberdade auxilia na detecção de pequenos defeitos). A avalia-
ção da qualidade de cada sequência pode ser expressa através de uma escala contínua exibida
na tela do software (0-100), sendo que o observador pode alterar a nota atribuída várias vezes,
ou seja, a cada exibição da sequência de teste. Após a avaliação de todas as sequências de
um mesmo vídeo, um novo grupo é apresentado para avaliação.
A Figura 2.8 mostra a interface utilizada nesses experimentos. Ela apresenta uma série
de botões que permitem que as sequências de vídeo sejam exibidas.
Alguns testes foram realizados com o objetivo de avaliar esta nova metodologia; estes
podem ser encontrados em Huynh-Thu et al. (2007). Em Blin (2006) foram executados
testes com o objetivo de comparar as metodologias SAMVIQ e DSCQS. Mostrou-se que
testes subjetivos realizados utilizando-se SAMVIQ proporcionam resultados melhores do que
aqueles realizados utilizando-se a metodologia DSCQS para vídeos no formato CIF (resolução
352x288).
2.3.1.2 Comparação entre Métodos de Avaliação Subjetiva
As metodologias de avaliação subjetiva de vídeo mencionadas anteriormente são largamente
utilizadas e consideradas confiáveis. No entanto existem algumas diferenças importantes entre
estas metodologias, como por exemplo o uso de uma sequência de referência explícita ou oculta,
frequência da apresentação das sequências, exibição de uma ou duas sequências de vídeo
simultaneamente, votação contínua ou avaliação única, etc, as quais podem ser observadas na
Tabela 2.3 (Kozamernik et al., 2005).
2. Fundamentação Teórica 18
Figura 2.8: Sugestão de interface para realização de testes subjetivos utilizando a metodologia
SAMVIQ (BT.1788, 2007).
2.3.2 Medida Objetiva de Qualidade
Muitos métodos computacionais têm sido desenvolvidos com intuito de medir objetivamente
a qualidade de vídeo. Esses métodos são ditos objetivos por não haver interação humana, ou
seja, a sequência de vídeo original e a sequência a ser avaliada (vídeo que sofreu compressão,
por exemplo) alimentam um algoritmo computacional que calcula a distorção entre os dois. A
medida de qualidade visual utilizando critérios objetivos possibilita resultados precisos, apesar
de nenhum sistema de medida objetiva ser capaz de reproduzir a experiência do observador.
No entanto, a complexidade e o custo das medidas subjetivas tornam atrativas as medidas
realizadas com auxílio de algoritmos. Sendo assim, nos últimos anos têm sido desenvolvidas
várias pesquisas com o intuito de aprimorar esse tipo de medida de qualidade. Em Bovik
et al. (2003) podem ser encontrados vários algoritmos utilizados na obtenção da qualidade de
vídeo.
As métricas de qualidade objetiva de vídeo podem ser classificadas segundo a disponibili-
2. Fundamentação Teórica 19
Tabela 2.3: Comparação entre as metodologias de avaliação subjetiva.
Parâmetros DSIS DSCQS SSCQE SDSCE SAMVIQ
Referência Explicita Sim Não Não Sim Sim
Referência Oculta Não Sim Não Não Sim
Duração da Sequência 10s 10s 5min >10s 10s
Dois estímulos simultâ-
neos
Não Não Não Sim Não
Frequência de apresen-
tação do Material de
Teste
Uma vez ou
Duas vezes
sucessivas
Duas vezes
sucessivas
Uma vez Uma vez Várias
vezes
Votação Sequência
de Teste
Sequência
de Teste e
Referência
Sequências
de Teste
Diferença
entre Se-
quência
de Teste e
Referência
Mostradas
Simultanea-
mente
Sequência
de Teste e
Referência
Possibilidade de Mu-
dança da Nota
Não Não Não Não Sim
Avaliação Contínua da
Qualidade
Não Não Sim Sim Não
dade do sinal de vídeo original, o qual é considerado livre de distorções e pode ser utilizado
como referência; quando há presença deste, o sistema é conhecido como Referência Total (Full-
Reference - FR). Quando não há disponibilidade do vídeo original, a avaliação objetiva é dita
Sem Referência (No-Reference - NR). Existe ainda a avaliação objetiva de vídeo chamada
Referência Reduzida (Reduced-Reference - RR), onde certas características são extraídas do
sinal original e transmitidas para o sistema de avaliação de qualidade, com objetivo de auxiliar
na detecção de falhas.
As métricas FR são as mais desenvolvidas e estudadas. Elas são tipicamente baseadas
na comparação quadro a quadro entre a referência e a sequência distorcida, necessitando de
um alinhamento preciso dos dois vídeos, tanto espacialmente quanto temporalmente. Esse
alinhamento é importante para que os pixels de cada quadro do vídeo distorcido estejam
perfeitamente casados com os respectivos pixels dos quadros do vídeo de referência, isso para
permitir uma comparação quadro a quadro de boa qualidade.
Para as métricas NR, a obtenção objetiva de qualidade é realizada apenas através de
informações disponíveis na ponta do receptor (decodificador, por exemplo). Diferentemente
das métricas FR, as métricas NR não necessitam dos alinhamentos temporais e espaciais,
entre a referência e o vídeo distorcido, sendo que nenhuma comparação quadro a quadro é
realizada. A falta de referências normalmente se traduz em processos mais complexos e menos
2. Fundamentação Teórica 20
eficientes.
Na avaliação objetiva com referência reduzida certas características do sinal de vídeo
original assim como algumas medidas relacionadas a esse são extraídas e transmitidas com
intuito de auxiliar na avaliação de qualidade do vídeo sob teste. Consequentemente, esse tipo
de avaliação faz com que o sistema necessite de uma largura de banda adicional para que a
informação extra, sobre o vídeo original, seja enviada.
A métrica objetiva com referência total mais utilizada é o PSNR - Peak Signal-to-Noise
Ratio. O PSNR é medido em uma escala logarítmica e depende do erro quadrático médio
(MSE - Mean Squared Error), entre duas imagens (uma original e uma processada), relativo
ao valor (2n − 1)2, que representa o quadrado do maior valor possível que um pixel pode ter
(255 para uma imagem de 8 bits). O PSNR é expresso por:
PSNRdB = 10 log10
(2n − 1)2
MSE
(2.1)
Onde:
n = número de bits por pixel.
MSE = erro quadrático médio entre o vídeo original e vídeo avaliado.
Formalmente o MSE é dado por:
MSE =
∑M
i=1
∑N
j=1 [f(i, j)− F (i, j)]2
M.N
(2.2)
Onde f(i, j) é o valor do pixel na imagem original, F (i, j) é o valor do pixel na imagem
avaliada, M é o número de linhas e N o número de colunas do quadro.
O PSNR pode ser calculado de forma fácil e rápida e por isso é uma métrica de avaliação
objetiva de qualidade popular e bastante utilizada para avaliar a qualidade de imagens de
vídeo com e sem compressão (Richardson, 2003). Geralmente, um PSNR alto indica uma alta
qualidade e um PSNR baixo indica baixa qualidade. No entanto, nem sempre essa relação
pode ser considerada. Por ser baseado em comparações de imagens pixel a pixel, o PSNR
tem uma relação limitada com a qualidade percebida pelo sistema visual humano. Em certas
situações a qualidade subjetiva de uma imagem pode ser melhorada através da adição de ruído,
diminuindo, consequentemente, o PSNR. A Figura 2.9 mostra um exemplo onde imagens (b e
c) com mesmo PSNR possuem qualidades percebidas diferentes, ou seja, a imagem b parece ter
uma qualidade inferior a imagem c, observando a região superior ao telhado da casa exibida.
2. Fundamentação Teórica 21
Figura 2.9: Exemplo onde a qualidade percebida entre imagens com o mesmo PSNR é diferente
(Winkler, 2005).
As limitações do PSNR, como necessidade de utilização do vídeo original - que deve ser de
boa qualidade - e baixa correlação com medidas subjetivas, incentivam o desenvolvimento de
uma medida que se aproxime da resposta dos observadores humanos. Sendo assim nas últimas
décadas um grande esforço tem sido feito para desenvolver métodos de avaliação objetiva de
vídeo que incorporem a medida de qualidade percebida. Ou seja, métodos que considerem as
características do sistema visual humano, implementados através do desenvolvimento de um
sistema de avaliação objetiva da qualidade de vídeo que emule a percepção humana, utilizando
como base testes subjetivos previamente realizados (Webster et al., 1993).
Apesar das limitações da PSNR, esta pode ser usada como um bom indicador da variação
da qualidade de vídeo quando o conteúdo da sequência e o CODEC são fixos para uma dada
condição de teste, como por exemplo na comparação das características de otimização do
CODEC para um dado conteúdo de vídeo (Huynh-Thu e Ghanbari, 2008).
2.4 Síntese
Neste capítulo, foram apresentados métodos de medição objetiva e subjetiva de qualidade de
vídeo, os quais fornecem a fundamentação teórica para o desenvolvimento da metodologia
descrita no próximo capítulo.
Capítulo 3
Metodologia e Configuração dos
Experimentos
Este capitulo apresenta a nova metodologia para avaliação subjetiva de vídeo proposta assim
como os testes realizados para sua validação.
Os testes foram conduzidos em duas fases, sendo que em um primeiro momento, a partir
de um conjunto de vídeos de teste (Munique, 2002), comprimidos a diferentes taxas e apre-
sentados a uma audiência segundo a metodologia DSIS (apresentação do vídeo de referência
- apresentação do vídeo a avaliar - nota), determinou-se um modelo relacionando a taxa de
bits (kbit/s) a seus respectivos MOS (média das notas obtidas para vídeos codificados a uma
determinada taxa). Em um segundo momento, tal modelo foi usado para, a partir de alguns
MOS - coincidentes e não coincidentes com os obtidos na etapa anterior - determinar suas
taxas de compressão correspondentes. Os vídeos foram comprimidos nestas novas taxas e,
a seguir, apresentados à audiência para serem comparados com os vídeos de teste, também
apresentados. Implementou-se então desta forma a metodologia comparativa proposta neste
trabalho, detalhada a seguir.
3.1 Primeira Fase de Testes
O objetivo desta etapa é realizar a medição dos MOS para os vídeos de teste codificados a
taxas que varrem toda a escala MOS.
3.1.1 Configuração do Ambiente de Teste
Os testes subjetivos da primeira fase foram conduzidos em dois dias no Centro de Estudos da
Fala, Acústica, Linguagem e músicA (CEFALA) na Universidade Federal de Minas Gerais.
Foi configurada uma estação de teste no laboratório, cujo layout pode ser observado na Figura
3.1.
22
3. Metodologia e Configuração dos Experimentos 23
Figura 3.1: Layout do laboratório onde foram realizados os testes.
Neste trabalho, para a realização dos experimentos, a distância entre o observador e a
tela utilizada foi calculada para satisfazer as regras da Preferred viewing distance (PVD), de
acordo com a Figura 3.2, como sugerido pela recomendação do ITU-R BT.500-11 (BT.500-11,
2002).
Figura 3.2: Relação entre a altura ou diagonal da tela e a distância em que o observador deve
se encontrar.
O equipamento utilizado consiste em um televisor da marca PHILIPS, modelo 42PF7321/78,
com tela de plasma 42" e diagonal visual aproximada de 107 centímetros, e um computador
Intel Core2 Quad CPU Q9300 @ 2.50GHz. A conexão entre o televisor e o computador foi
realizada através da entrada HDMI do televisor. Os ajustes de cor, contraste, nitidez, níveis
de brilho, matiz e tom de cor do televisor foram obtidos automaticamente através da função
AutoPictureTM desse, onde estes parâmetros são configurados no processo de fabricação do
3. Metodologia e Configuração dos Experimentos 24
equipamento. Utilizou-se a opção Natural da função AutoPictureTM.
3.1.2 Material de Teste
As sequências utilizadas na realização dos testes subjetivos foram obtidas de vídeos na reso-
lução HD-720 (1280x720) disponíveis no arquivo da Universidade Técnica de Munique (Mu-
nique, 2002). Estes foram capturados com a utilização de uma câmera digital Sony HDW-F900
com resolução de 1920x1080 pixels, a uma taxa de 25 quadros por segundo, em varredura pro-
gressiva (progressive scan) e usando uma subamostragem de cores de 4:2:0. A Tabela 3.1
sumariza as principais características dos vídeos utilizados.
Tabela 3.1: Sequências utilizadas nos testes da primeira e segunda fases.
Sequências de
Teste Resolução N
o de Quadros Quadros/Segundo Descrição
Pedestrian
Area 1280x720 250 25
Filmagem de um local desti-
nado a pedestres. Câmera em
posição baixa, pessoas passando
bem próximas a ela. Alta pro-
fundidade de campo. Câmera
estática.
Rush Hour 1280x720 250 25
Hora do rush na cidade de Mu-
nique. Muitos carros se movi-
mentando lentamente. Alta
profundidade de foco. Câmera
estática.
Riverbed 1280x720 250 25 Leito do rio visto através daágua. Muito difícil de codificar.
Station2 1280x720 250 25
Vista para a estação de Mu-
nique. Filmagem noturna.
Zoom out longo. Muitos deta-
lhes, estruturas regulares (tri-
lhos).
As figuras 3.3, 3.4, 3.5 e 3.6 exibem snapshots dos vídeos utilizados nos testes.
Os vídeos utilizados nos testes também foram avaliados em Alvarez et al. (2007), com
exceção da sequência Station2, que nesse caso foi utilizada ao invés da sequência Blue Sky,
dado que essa última possuía um número insuficiente de quadros em relação ao desejado para
duração do teste.
Para obtenção das sequências de teste, os vídeos originais que se encontravam no formato
.y4m (extensão de vídeos sem codificação) foram editados com auxílio da ferramenta FFmpeg
- software livre / de código aberto que produz bibliotecas e programas para manipulação
de dados multimídia (FFmpeg, 2005), com objetivo de codificá-los com as características
observadas na Tabela 3.2, que também relaciona todas as taxas utilizadas na primeira fase de
testes.
3. Metodologia e Configuração dos Experimentos 25
Figura 3.3: Pedestrian Area, filmagem de um local destinado a pedestres.
Figura 3.4: Rush Hour, hora do rush na cidade de Munique.
3. Metodologia e Configuração dos Experimentos 26
Figura 3.5: Riverbed, leito do rio visto através da água.
Figura 3.6: Station2, vista para a estação de Munique.
3. Metodologia e Configuração dos Experimentos 27
Tabela 3.2: Parâmetros utilizados na codificação dos vídeos.
Taxas (bit/s) 300k 400k 500k 600k 700k 800k 900k 1000k 1100k 1300k 1500k1700k 2000k 2500k 3000k 3500k 4000k 6000k 8000k 10000k
CODEC H.264
Resolução 1280x720
Quadros/Segundo 25
Duração 10 segundos
Na codificação com o FFmpeg utilizou-se o x264 (VideoLAN, 2006) - um software de
código aberto para codificação de fluxos de vídeo para o formato H.264 - com objetivo de
obter vídeos com o padrão de compressão H.264 com o perfil High Profile (este perfil foi
criado para transmissão e armazenamento de dados, geralmente em alta definição). Desde
a padronização do H.264, vários codificadores têm sido implementados. Neste caso optou-se
pelo x264 por ele ter código aberto (open source), ter um ótimo desempenho em relação a
outros codificadores comerciais (Vatolin, 2009) e por ser usado em várias aplicações como
FFmpeg, MEncoder, etc. Apesar da taxa de codificação ser um dos parâmetros de entrada
para o FFmpeg, este nem sempre consegue alcançá-la, resultando em valores aproximados.
3.1.3 Especificações do Teste
A primeira fase de testes teve como objetivo a obtenção de dados (Opinion Scores) para o
cálculo do MOS relativo a sequências de vídeo codificadas a diferentes taxas. Para aquisição
destas “notas ” foi utilizada a metodologia de avaliação subjetiva DSIS (BT.500-11, 2002).
Esta foi escolhida devido as características dos vídeos utilizados e também por ser mais direta
e rápida.
Seguindo este procedimento foram apresentadas aos observadores pares de sequências de
vídeo, sendo que a referência, onde não ocorrem artefatos ou outros defeitos, sempre é exibida
antes da sequência em teste. Após a exibição de cada par, foi dado ao observador um período
de 5 (cinco) segundos para que ele pudesse avaliar a sequência em teste, tendo como base a
referência. Nesse momento uma imagem cinza foi exibida no televisor. Para a avaliação foi
utilizada a escala 1 (Péssimo), 2 (Ruim), 3 (Aceitável), 4 (Bom) e 5 (Excelente). A Figura
3.7 exemplifica esta metodologia adotada nos testes subjetivos da primeira fase.
3.1.4 Execução do Teste
Os testes subjetivos da primeira fase foram conduzidos em uma única sessão, por observador,
cuja duração foi de aproximadamente 19 (dezenove) minutos (a duração do teste foi a mesma
para todos observadores). As sessões foram iniciadas com uma fase de treinamento, onde
foram repassadas instruções, sendo que cada participante teve a oportunidade de conhecer
3. Metodologia e Configuração dos Experimentos 28
Figura 3.7: T1 = exibição do vídeo de referência (10s) / T2 = intervalo (3s) / T3 = exibição
do vídeo a ser avaliado (10s) / T4 = período para avaliação e preenchimento do questionário
(5s).
o teste, o formulário e tirar dúvidas. Para completar, uma breve prática da sessão de teste
foi conduzida como forma de familiarizar os participantes. A sequência de vídeo utilizada no
treinamento foi diferente das exibidas nas sessões de teste propriamente ditas.
As sessões foram assistidas, individualmente, por 16 (dezesseis) observadores. Cada um
deles preencheu quatro formulários, um para cada sequência de vídeo avaliada. Esses obser-
vadores tinham idades entre 20 e 44 anos e possuíam formação em Ciência da Computação ou
Engenharia. Nenhum deles possuía experiência na avaliação de vídeos. A Figura 3.8 mostra
um dos formulários utilizados durante a realização da primeira fase de testes.
Cada observador assistiu ao todo a 40 sequências de vídeo (quatro formulários preenchi-
dos), não sendo permitida a repetição de nenhuma delas.
Para não estender as sessões os observadores foram divididos em quatro grupos de quatro
pessoas. Os grupos 1 e 2 avaliaram vídeos codificados a taxas diferentes dos grupos 3 e 4.
Além disso, dentro dos respectivos pares de grupos, a ordem de apresentação também sofreu
alterações, como pode ser observado nas quatro colunas da direita da Tabela 3.3.
Tabela 3.3: Taxas utilizadas na codificação dos vídeos exibidos para os grupos 1, 2, 3 e 4 de
observadores, na primeira fase de testes subjetivos.
Videos Apresentados Ordem de Apresentação
Grupos 1 e 2 Grupos 3 e 4 Grupo 1 Grupo 2 Grupo 3 Grupo 4
(kbit/s) (kbit/s) (kbit/s) (kbit/s) (kbit/s) (kbit/s)
300 400 8000 4000 1300 1000
500 600 1100 700 10000 1300
700 800 500 2000 1700 800
900 1000 2000 1100 400 2500
1100 1300 3000 500 1000 3500
1500 1700 300 300 2500 400
2000 2500 4000 900 6000 600
3000 3500 700 1500 600 10000
4000 6000 1500 3000 3500 1700
8000 10000 900 8000 800 6000
3. Metodologia e Configuração dos Experimentos 29
Figura 3.8: Formulário utilizado para avaliação da sequência Pedestrian Area.
3. Metodologia e Configuração dos Experimentos 30
3.2 Segunda Fase de Testes
Na segunda fase foram realizados testes subjetivos utilizando a mesma configuração física
do ambiente de testes e também o mesmo material da primeira fase de testes, dado que as
sequências de vídeo avaliadas foram as mesmas. O objetivo agora é obter, iterativamente, a
qualidade subjetiva por meio de comparações de vídeos cuja qualidade deseja-se medir com
vídeos cujo MOS foi estimado com base nos modelos desenvolvidos a partir da primeira fase
de testes.
3.2.1 Especificações do Teste
A metodologia de avaliação subjetiva utilizada na segunda fase de testes foi proposta com
objetivo de agilizar o processo de avaliação, reduzindo o número de observadores e o tempo
utilizado para realização do teste.
Nesta nova metodologia aqui proposta, o observador realiza comparações relativas entre
o vídeo de teste e outros vídeos, que foram codificados a taxas segundo o modelo obtido na
primeira fase, o qual relaciona a taxa de codificação do vídeo com seu MOS. Como exemplo, a
Figura 3.9 mostra a relação MOS versus logaritmo da taxa de codificação obtida na primeira
fase de testes para o vídeo Pedestrian Area. Como pode ser observado, cada MOS possui,
segundo este modelo, uma taxa de codificação relacionada.
Figura 3.9: Modelo obtido para a sequência Pedestrian Area: MOS = 2, 78 ∗ log10(taxa) −
5, 77.
As comparações são feitas até que o observador encontre o vídeo que mais se assemelha ao
vídeo a ser avaliado, definindo assim o seu MOS. A Figura 3.10 ilustra a interface construída
para realização dos testes. Observe que segundo os botões habilitados, inicialmente, o obser-
3. Metodologia e Configuração dos Experimentos 31
vador assiste ao vídeo a ser avaliado e depois ao vídeo relativo ao MOS=3 (Vídeo 5) cabendo
a ele avaliar se o vídeo de teste é melhor ou pior que o vídeo exibido ao clicar no botão Vídeo
5 (MOS=3). Optou-se por iniciar pelo Vídeo 5 por estar este no meio da escala.
Figura 3.10: Interface criada, com auxílio do aplicativo “Kommander” (Laffoon et al., 2002),
para realização dos testes subjetivos utilizando uma metodologia de comparação relativa
.
Após assistir ao vídeo relacionado ao botão Vídeo 5, outros dois botões são evidenciados
(habilitados) para o observador. Sendo assim, ao realizar a comparação entre os dois vídeos
assistidos (Vídeo 5 e Tocar vídeo a ser avaliado) o observador deve decidir se assiste a
um vídeo melhor (vídeo relacionado ao botão Vídeo 6) ou pior (vídeo relacionado ao botão
Vídeo 4), quando comparados ao vídeo relacionado ao botão Vídeo 5. A Figura 3.11 mostra
a sequência em que os botões são habilitados, de acordo com o descrito anteriormente.
Esse procedimento comparativo é realizado pelo observador até que ele encontre, entre os
vídeos dos botões de 1 a 9, aquele que mais se aproxima do vídeo relacionado ao botão Tocar
vídeo a ser avaliado.
As taxas de codificação dos vídeos relacionados aos botões de 1 a 9 exibidos na interface
foram escolhidos a partir dos modelos MOS versus taxa de codificação resultantes das avali-
ações realizadas na primeira fase de testes. Os modelos para todos os vídeos utilizados são
mostrados no Capítulo 4, figuras 4.1, 4.2, 4.3 e 4.4.
Os valores das taxas de codificação das sequências de vídeo para cada MOS específico,
podem ser observados na Tabela 3.4.
3. Metodologia e Configuração dos Experimentos 32
Figura 3.11: Interface após a exibição do vídeo relativo ao botão Vídeo 5. Observe que
a decisão do observador define qual o próximo vídeo a ser assistido, ou seja, caso o vídeo
relacionado ao botão Vídeo 5 seja melhor que o vídeo relacionado ao botão Tocar vídeo a
ser avaliado o botão Vídeo 4 será a próxima escolha do observador. Por outro lado, caso o
vídeo relacionado ao botão Vídeo 5 seja pior que o vídeo relacionado ao botão Tocar vídeo
a ser avaliado o botão Vídeo 6 deverá ser a próxima escolha.
3.2.2 Execução do Teste
Os testes subjetivos da segunda fase também foram conduzidos em uma única sessão, cuja
duração por indivíduo foi de 10 a 14 minutos dependendo do observador. As sessões foram
iniciadas com uma fase de treinamento, onde foram repassadas instruções. Cada participante
teve a oportunidade de conhecer o teste, o formulário e tirar dúvidas. Para completar, uma
breve prática da sessão de teste foi conduzida como forma de familiarizar os participantes.
As sessões foram assistidas individualmente por 10 observadores, sendo que cada um
deles preencheu um formulário onde as sequências Pedestrian Area, Rush Hour, Riverbed e
Station2 foram avaliadas duas vezes. A Figura 3.12 mostra o formulário utilizado durante a
realização da segunda fase de testes. Nesse formulário o título “Vídeo 1 - Pedestrian_area ”
está relacionado ao primeiro vídeo a ser avaliado pelo observador o qual foi codificado a taxa
de 1100 kbit/s como mostra a Tabela 3.5 com todas as taxas em que os vídeos avaliados na
segunda fase de testes foram codificados.
Como pode ser observado na Figura 3.12, a escala utilizada para avaliação das sequências
diz respeito aos vídeos relacionados aos botões Vídeo 1 a Vídeo 9 que foram assistidos du-
rante as comparações. Caso o vídeo em avaliação no momento seja igual ao vídeo relacionado
ao botão Vídeo 2, por exemplo, em termos de qualidade, o quadrado número 2 da escala do
formulário deverá ser marcado.
3. Metodologia e Configuração dos Experimentos 33
Figura 3.12: Formulário utilizado para avaliação das sequências Pedestrian Area, Rush Hour,
Riverbed e Station2 durante a segunda fase de testes.
3. Metodologia e Configuração dos Experimentos 34
Tabela 3.4: Taxas utilizadas para codificação dos vídeos comparativos na segunda fase.
Pedestrian Area
Vídeo 1 Vídeo 2 Vídeo 3 Vídeo 4 Vídeo 5 Vídeo 6 Vídeo 7 Vídeo 8 Vídeo 9
MOS 1 1,5 2 2,5 3 3,5 4 4,5 5
Taxa (kbit/s) 272 412 624 944 1428 2160 3269 4946 7483
Rush Hour
Vídeo 1 Vídeo 2 Vídeo 3 Vídeo 4 Vídeo 5 Vídeo 6 Vídeo 7 Vídeo 8 Vídeo 9
MOS 1 1,5 2 2,5 3 3,5 4 4,5 5
Taxa (kbit/s) 138 233 394 665 1122 1894 3196 5393 9101
Riverbed
Vídeo 1 Vídeo 2 Vídeo 3 Vídeo 4 Vídeo 5 Vídeo 6 Vídeo 7 Vídeo 8 Vídeo 9
MOS 1 1,5 2 2,5 3 3,5 4 4,5 5
Taxa (kbit/s) 672 1035 1596 2460 3793 5847 9013 13895 21420
Sation2
Vídeo 1 Vídeo 2 Vídeo 3 Vídeo 4 Vídeo 5 Vídeo 6 Vídeo 7 Vídeo 8 Vídeo 9
MOS 1 1,5 2 2,5 3 3,5 4 4,5 5
Taxa (kbit/s) 58 109 206 387 729 1372 2583 4862 9153
Tabela 3.5: Taxas utilizadas na codificação dos vídeos sob avaliação na segunda fase de testes.
Pedestrian_area Riverbed
Vídeo 1 1100 (kbit/s) Vídeo 5 6000 (kbit/s)
Vídeo 2 6000 (kbit/s) Vídeo 6 2000 (kbit/s)
Rush_hour Station2
Vídeo 3 700 (kbit/s) Vídeo 7 1100 (kbit/s)
Vídeo 4 4000 (kbit/s) Vídeo 8 500 (kbit/s)
Em algumas situações o observador pode concluir que o vídeo sob teste possui qualidade
melhor que o vídeo relacionado ao botão Vídeo 6 e pior que o vídeo relacionado ao botão
Vídeo 7, ou seja, um valor intermediário, existindo, no formulário de avaliação também esta
opção, representada pelo quadrado branco entre os números 6 e 7.
Os testes subjetivos, segundo a metodologia comparativa, não possuem um número fixo
de exibições de cada sequência de vídeo, dado que os observadores têm liberdade para assistir
novamente tanto ao vídeo relacionado ao botão Tocar vídeo a ser avaliado quando os
vídeos relacionados aos botões Vídeo 1 a Vídeo 9.
3.3 Síntese
Neste capítulo, foi descrita a metodologia desenvolvida para medição subjetiva da qualidade
de vídeo. Os resultados obtidos experimentalmente são descritos a seguir.
Capítulo 4
Resultados
No capítulo anterior foram descritas as metodologias conduzidas nas duas fases de testes
subjetivos. Neste capítulo são apresentados os resultados obtidos na primeira fase de testes
e a forma como estes foram trabalhados a fim de se obter um modelo, o qual foi utilizado
para validar a metodologia de avaliação subjetiva proposta, objeto da segunda fase, cujos
resultados também são exibidos aqui.
4.1 Primeira Fase de Testes
Os resultados da primeira fase de testes subjetivos, para a sequência de vídeo Pedestrian Area,
podem ser visualizados na Tabela 4.1 onde são exibidas notas (Opinion Scores), que variam
de 1 a 5, para os vídeos codificados nas taxas selecionadas. Note que os 16 observadores
que participaram dos testes subjetivos da primeira fase estão divididos em 4 grupos de 4
observadores cada.
O primeiro e segundo grupos de observadores avaliaram a sequência de vídeo codificada a
10 taxas, distintas daquelas avaliadas pelo terceiro e quarto grupos de observadores. Apesar
de avaliarem vídeos a taxas iguais, a ordem de exibição desses foi diferente entre o primeiro
e segundo grupos assim como entre o terceiro e quarto, conforme exposto anteriormente na
Tabela 3.3.
O mesmo procedimento foi adotado para as sequências Rush Hour, Riverbed e Station2,
sendo que as notas (Opinion Scores) obtidas em relação a estas sequências podem ser visu-
alizadas, respectivamente, nas tabelas 4.2, 4.3 e 4.4. Observe nessas tabelas que as taxas de
codificação exibidas são próximas, mas ligeiramente diferentes daquelas mostradas na Tabela
3.3. Essa diferença ocorre devido a tolerância que o CODEC possui em relação a taxa de
codificação desejada.
35
4. Resultados 36
Tabela 4.1: Notas obtidas para os testes subjetivos realizados por 16 observadores que
avaliaram o vídeo Pedestrian Area codificado a 20 diferentes taxas.
Taxas (kbit/s) Taxas (kbit/s)
30
2
50
3
70
4
90
6
11
08
15
09
20
14
30
19
40
20
80
97
40
2
60
4
80
5
10
07
13
89
17
11
25
18
35
21
60
62
10
03
3
G
ru
po
1 2 2 3 2 3 4 4 5 5 5
G
ru
po
3 1 2 2 2 2 4 3 4 4 5
1 1 3 3 2 4 4 5 5 5 2 2 3 3 4 4 4 5 5 5
1 1 2 2 2 2 3 3 3 3 1 1 1 2 3 3 4 4 5 5
1 1 2 2 2 2 4 4 4 5 2 2 2 2 3 4 4 4 4 5
G
ru
po
2 1 1 2 2 2 4 4 5 4 5
G
ru
po
4 2 2 3 4 4 5 4 5 5 5
1 1 1 2 1 2 3 3 4 4 2 2 3 3 3 4 4 5 5 5
1 2 2 3 3 3 3 4 4 4 2 2 2 3 3 3 4 4 5 4
1 2 2 3 2 4 3 5 5 5 1 1 2 2 3 3 4 4 3 5
Tabela 4.2: Notas obtidas para os testes subjetivos realizados por 16 observadores que
avaliaram o vídeo Rush Hour codificado a 20 diferentes taxas.
Taxas (kbit/s) Taxas (kbit/s)
30
3
50
4
70
5
91
1
11
03
15
04
20
22
30
15
40
63
81
39
40
4
60
2
81
0
10
03
13
03
17
04
25
17
35
66
60
56
10
34
9
G
ru
po
1 2 2 4 3 4 4 4 5 5 5
G
ru
po
3 1 2 3 3 5 3 4 4 5 5
1 2 3 3 3 4 4 4 5 5 2 1 4 3 5 4 5 4 5 5
1 1 2 2 2 2 3 2 3 3 1 2 3 3 4 3 4 4 5 5
1 1 1 2 3 3 2 3 4 3 2 2 4 4 5 4 4 4 5 5
G
ru
po
2 1 1 3 3 4 3 4 5 4 5
G
ru
po
4 3 4 4 5 5 5 5 5 5 5
1 2 3 2 2 3 3 4 4 4 1 2 2 3 3 3 4 3 3 4
2 2 4 4 3 4 4 4 4 5 2 3 4 4 4 4 4 4 5 5
2 3 4 4 4 4 4 4 5 5 1 2 2 3 3 3 4 3 4 4
Tabela 4.3: Notas obtidas para os testes subjetivos realizados por 16 observadores que
avaliaram o vídeo Riverbed codificado a 20 diferentes taxas.
Taxas (kbit/s) Taxas (kbit/s)
54
4
57
3
70
6
91
2
11
09
15
14
20
26
30
38
40
42
80
75
55
7
60
5
80
9
10
11
13
07
17
15
25
31
35
42
60
63
10
09
3
G
ru
po
1 1 1 1 2 2 2 2 3 3 5
G
ru
po
3 1 1 1 1 2 1 2 2 3 3
1 1 1 1 1 1 2 2 3 5 1 1 1 1 2 2 2 2 4 5
1 1 1 1 1 1 2 2 2 3 1 1 1 1 2 1 3 4 5 5
1 1 1 1 1 1 1 2 3 3 1 1 1 1 1 1 1 3 4 5
G
ru
po
2 1 1 1 1 1 1 2 3 3 4
G
ru
po
4 1 2 2 2 3 3 4 5 5 5
1 1 1 1 1 1 2 2 2 4 1 1 1 1 1 2 2 2 3 3
1 1 1 1 1 2 2 3 3 4 1 1 2 2 2 2 3 2 4 4
1 1 1 2 2 2 3 4 4 5 1 1 1 2 2 2 2 2 4 4
4. Resultados 37
Tabela 4.4: Notas obtidas para os testes subjetivos realizados por 16 observadores que
avaliaram o vídeo Station2 codificado a 20 diferentes taxas.
Taxas (kbit/s) Taxas (kbit/s)
30
7
49
6
71
8
91
7
11
55
15
90
21
63
31
18
40
09
86
87
39
8
60
5
79
8
10
17
13
34
18
13
25
24
40
09
63
86
10
39
7
G
ru
po
1 2 3 4 5 5 4 4 5 5 5
G
ru
po
3 1 2 2 2 3 3 3 4 4 4
1 3 3 5 5 5 4 5 5 5 2 3 3 3 4 5 4 4 5 5
1 2 2 3 3 3 3 3 3 3 2 4 3 5 4 4 4 5 5 5
1 2 2 3 4 3 3 4 5 5 3 4 3 5 3 4 4 5 5 5
G
ru
po
2 1 2 2 3 3 4 4 5 5 5
G
ru
po
4 2 3 5 4 4 4 5 5 5 5
1 2 2 2 3 3 4 4 4 5 2 2 3 3 3 2 4 5 5 5
2 3 3 4 4 4 4 4 4 4 2 3 4 4 4 4 4 5 5 4
1 3 3 4 5 5 5 4 4 5 1 2 2 2 3 3 3 4 5 5
4.1.0.1 Cálculo do MOS e Definição do Modelo
Com base nas notas obtidas para cada sequência de vídeo na primeira etapa de testes, calculou-
se o Mean Opinion Score - MOS. O MOS é determinado através do cálculo da média dos
valores (notas) atribuídos aos vídeos, de acordo com a Equação 4.1:
u¯ij =
1
N
N∑
k=1
uijk (4.1)
onde,
uijk: pontuação do observador k, para a taxa j, do vídeo i.
N : número de observadores.
A Tabela 4.5 mostra os valores encontrados para o MOS da sequência Pedestrian Area. As
colunas 4 da Tabela 4.5 exibem a diferença entre o MOS para grupos que analisaram vídeos
codificados nas mesmas taxas. Apesar da mudança na ordem de exibição das sequências de
vídeo, em cada um dos grupos, este não parece ser um fator determinante para a avaliação
do observador.
As tabelas 4.6, 4.7 e 4.8 mostram o valor calculado para o MOS das sequências de vídeo
Rush Hour, Riverbed e Station2, respectivamente. Observe que em todas as tabelas foi calcu-
lada a diferença 4 entre os MOS para grupos que avaliaram vídeos com as mesmas taxas.
Obtenção do Modelo As figuras 4.1, 4.2, 4.3 e 4.4 mostram retas ajustadas através de
regressão linear, fornecendo um modelo que relaciona o logaritmo da taxa de codificação da
sequência com o MOS obtido através da primeira fase de testes.
4. Resultados 38
Tabela 4.5: Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.1 para os grupos de observadores 1, 2, 3 e 4 da sequência Pedestrian Area.
Taxas MOS 4 Taxas MOS 4(kbit/s) Grupo 1 Grupo 2 (kbit/s) Grupo 3 Grupo 4
302,3 1,25 1,00 -0,25 402,3 1,50 1,75 0,25
502,64 1,25 1,50 0,25 603,94 1,75 1,75 0,00
704,39 2,50 1,75 -0,75 805,13 2,00 2,50 0,50
905,74 2,25 2,50 0,25 1007,2 2,25 3,00 0,75
1108,1 2,25 2,00 -0,25 1388,6 3,00 3,25 0,25
1509,1 3,00 3,25 0,25 1710,7 3,75 3,75 0,00
2014,1 3,75 3,25 -0,50 2518,3 3,75 4,00 0,25
3019,4 4,25 4,25 0,00 3521,2 4,25 4,50 0,25
4019,5 4,25 4,25 0,00 6061,7 4,50 4,50 0,00
8096,8 4,50 4,50 0,00 10033 5,00 4,75 -0,25
Tabela 4.6: Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.2 para os grupos de observadores 1, 2, 3 e 4 da sequência Rush Hour.
Taxas MOS 4 Taxas MOS 4(kbit/s) Grupo 1 Grupo 2 (kbit/s) Grupo 3 Grupo 4
303,1 1,25 1,50 0,25 404,1 1,50 1,75 0,25
503,7 1,50 2,00 0,50 602,3 1,75 2,75 1,00
705,0 2,50 3,50 1,00 809,7 3,50 3,00 -0,50
910,5 2,50 3,25 0,75 1003,0 3,25 3,75 0,50
1103,0 3,00 3,25 0,25 1302,9 4,75 3,75 -1,00
1503,9 3,25 3,50 0,25 1704,4 3,50 3,75 0,25
2022,1 3,25 3,75 0,50 2516,6 4,25 4,25 0,00
3015,1 3,50 4,25 0,75 3566,0 4,00 3,75 -0,25
4063,3 4,25 4,25 0,00 6055,8 5,00 4,25 -0,75
8138,7 4,00 4,75 0,75 10349 5,00 4,50 -0,50
Tabela 4.7: Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.3 para os grupos de observadores 1, 2, 3 e 4 da sequência Riverbed.
Taxas MOS 4 Taxas MOS 4(kbit/s) Grupo 1 Grupo 2 (kbit/s) Grupo 3 Grupo 4
544,0 1,00 1,00 0,00 556,5 1,00 1,00 0,00
572,9 1,00 1,00 0,00 605,3 1,00 1,25 0,25
706,0 1,00 1,00 0,00 808,7 1,00 1,50 0,50
911,8 1,25 1,25 0,00 1011,0 1,00 1,75 0,75
1108,6 1,25 1,25 0,00 1306,7 1,75 2,00 0,25
1513,9 1,25 1,50 0,25 1715,2 1,25 2,25 1,00
2026,2 1,75 2,25 0,50 2530,9 2,00 2,75 0,75
3037,6 2,25 3,00 0,75 3541,8 2,75 2,75 0,00
4042,3 2,75 3,00 0,25 6063,3 4,00 4,00 0,00
8075,4 4,00 4,25 0,25 10093 4,50 4,00 -0,50
4. Resultados 39
Tabela 4.8: Valores do Mean Opinion Score calculados através da média dos valores da Tabela
4.4 para os grupos de observadores 1 e 2 da sequência Station2.
Taxas MOS 4 Taxas MOS 4(kbit/s) Grupo 1 Grupo 2 (kbit/s) Grupo 3 Grupo 4
307,1 1,25 1,25 0,00 398,4 2,00 1,75 -0,25
495,7 2,50 2,50 0,00 605,4 3,25 2,50 -0,75
717,8 2,75 2,50 -0,25 797,9 2,75 3,50 0,75
916,9 4,00 3,25 -0,75 1017,0 3,75 3,25 -0,50
1155,0 4,25 3,75 -0,50 1334,2 3,50 3,50 0,00
1590,0 3,75 4,00 0,25 1812,6 4,00 3,25 -0,75
2163,1 3,50 4,25 0,75 2523,7 3,75 4,00 0,25
3118,3 4,25 4,25 0,00 4008,6 4,50 4,75 0,25
4008,6 4,50 4,25 -0,25 6386,4 4,75 5,00 0,25
8687,4 4,50 4,75 0,25 10397 4,75 4,75 0,00
Figura 4.1: Modelo para a sequência Pedestrian Area: MOS = 2, 78.log10(taxa)− 5, 77
4. Resultados 40
Figura 4.2: Modelo para a sequência Rush Hour : MOS = 2, 20.log10(taxa)− 3, 71
Figura 4.3: Modelo para a sequência Riverbed : MOS = 2, 66.log10(taxa)− 6, 52
4. Resultados 41
Figura 4.4: Modelo para a sequência Station2 : MOS = 1, 82.log10(taxa)− 2, 21
Todos os gráficos apresentados permitem concluir que, dentro dos limites analisados, existe
uma relação de dependência linear entre o logaritmo da taxa de transmissão e o MOS corres-
pondente. A Tabela 4.9 mostra os coeficientes encontrados para os modelos obtidos.
Tabela 4.9: Coeficientes da equação MOS = A.log10(taxa) +B, modelo encontrado para as
sequências de vídeo avaliadas.
A B
Pedestrian Area 2, 78 −5, 77
Rush Hour 2, 20 −3, 71
Riverbed 2, 66 −6, 52
Station2 1, 82 −2, 21
Média (Desvio Padrão) 2, 37(0, 44) −4, 55(1, 92)
4.1.0.2 Coeficiente de Correlação
O coeficiente de correlação ρxy entre duas variáveis aleatórias x e y é uma medida do grau de
associação da relação linear entre essas duas variáveis (Bendat e Piersol, 2000) e é definido
por:
ρxy =
Cxy
σxσy
, onde (4.2)
Cxy: covariância de x e y, onde Cxy =
∑n
i=1
(xi−x¯)(yi−y¯)
n .
4. Resultados 42
σx: desvio padrão de x, onde σx =
√
1
n−1
∑n
i=1(xi − x¯)2.
σy: desvio padrão de y, onde σy =
√
1
n−1
∑n
i=1(yi − y¯)2.
O coeficiente de correlação pode ser estimado para dois conjuntos de dados xi e yi que são
realizações das variáveis aleatórias x e y, respectivamente, onde i vai de 1 até n através da
seguinte equação:
ρˆxy =
∑n
i=1(xi − x¯)(yi − y¯)√∑n
i=1 (xi − x¯)2
∑n
i=1 (yi − y¯)2
(4.3)
Assim como ρxy, o valor de ρˆxy estará sempre entre −1 e +1, com o valor de ρˆxy igual a
zero correspondendo à não-associação (não há uma dependência linear), o valor 1 indica uma
relação linear perfeita e o valor -1 também indica uma relação linear perfeita mas negativa,
ou seja, quando uma das variáveis aumenta, a outra diminui. Quanto mais próximo estiver
de 1 ou -1, mais forte é a dependência linear entre as duas variáveis.
Observe, através da Tabela 4.10 que, como já observamos nas figuras 4.1, 4.2, 4.3 e 4.4,
os valores próximos da unidade demonstram uma forte correlação entre o MOS e o logaritmo
das taxas de codificação.
Tabela 4.10: Coeficientes de correlação entre o MOS e o logaritmo das taxas nas quais os
vídeos utilizados foram codificados.
Vídeo ρˆMOS,log(taxa)
Pedestrian area 0,96
Rush hour 0,87
Riverbed 0,95
Station2 0,90
4.2 Segunda Fase de Testes
Em um segundo momento, foram realizados os testes subjetivos segundo a metodologia pro-
posta, que consistiu em uma série de comparações relativas onde o observador escolheu a
melhor entre duas sequências de vídeo. Obtiveram-se 20 avaliações para cada uma das qua-
tro sequências de vídeo utilizadas na primeira fase de testes, sendo 10 relativas a uma taxa
pré-definida e 10 relativas a outra. Os resultados obtidos podem ser verificados nas figuras
4.5 a 4.8.
Nas figuras 4.5 a 4.8 os valores indicados pelas setas mostram o MOS da sequência avaliada
pelos observadores, na segunda fase de testes subjetivos, que foi obtido pelo modelo. Já as
barras simbolizam os valores medidos, ou seja os resultados obtidos através das comparações,
4. Resultados 43
sendo que sua largura nas figuras é irrelevante, consistindo apenas artifício gráfico de apresen-
tação, pois os valores medidos variam em passos de 0,25. A Figura 4.8, por exemplo, mostra
os resultados obtidos para a sequência Station2 onde foram avaliados vídeos comMOS = 2, 7
e MOS = 3, 3. Observe que em relação ao vídeo com MOS = 2, 7 foram obtidas 7 notas
com MOS = 2, 75 e 3 notas com MOS = 2, 5. Para o vídeo com MOS = 3, 3 foram obtidas
3 notas com MOS = 3, 25, 2 notas com MOS = 3, 5, 1 nota com MOS = 3, 0 e 4 notas
com MOS = 4, 0. O resultado relativo à sequência Station2 foi bom, possivelmente devido
ao fato dessa possuir cenas com estruturas regulares que se tornam mais evidentes quando
codificadas em diferentes taxas.
Figura 4.5: Resultado obtido na avaliação subjetiva da sequência Pedestrian Area utilizando-
se a metodologia proposta.
Figura 4.6: Resultado obtido na avaliação subjetiva da sequência Rush Hour utilizando-se a
metodologia proposta.
4. Resultados 44
Figura 4.7: Resultado obtido na avaliação subjetiva da sequência Riverbed utilizando-se a
metodologia proposta.
Figura 4.8: Resultado obtido na avaliação subjetiva da sequência Station2 utilizando-se a
metodologia proposta.
Para comparar os resultados obtidos na primeira e segunda fase de testes subjetivos
calculou-se os desvios padrão das notas obtidas dos observadores, para cada uma das se-
quências e taxas utilizadas. Os valores encontrados para a primeira e segunda fase de testes
são mostrados na Tabela 4.11.
O desvio padrão indica a dispersão dos dados dentro da amostra, isto é, o quanto estes em
geral diferem da média. Quanto menor o desvio padrão, mais parecidos são os valores, ou seja,
menor a variabilidade. Sendo assim, a Tabela 4.11 mostra que a metodologia de avaliação
subjetiva proposta proporciona uma menor variabilidade dos resultados, ou seja, esta fornece
medições individuais com desvio padrão da ordem de um terço daquele obtido através dos
4. Resultados 45
testes MOS realizados na primeira fase.
Tabela 4.11: Desvios padrão das notas obtidas para cada uma das sequências da primeira e
segunda fases de testes subjetivos.
Vídeos Taxas Desvios padrão Desvios padrão(kbit/s) Primeira Fase Segunda Fase
Pedestrian Area 1100 0,64 0,216000 0,76 0,41
Rush Hour 700 1,07 0,214000 0,71 0,36
Riverbed 2000 0,53 0,166000 0,76 0,60
Station2 500 0,53 0,121100 0,93 0,34
À primeira vista, pode parecer que os resultados ilustrados pelos histogramas das figuras
4.5 a 4.8 são pouco consistentes pois, devido à representação gráfica escolhida, eles parecem
distantes do desejado. Entretanto, ao visualizar o histograma de uma das sequências uti-
lizadas com base nos dados obtidos na primeira fase de testes (medida de MOS convencional),
Figura 4.9, observa-se que este último apresenta resultados espalhados ao longo de uma faixa
mais extensa do que a observada nos resultados da segunda fase de testes, Figura 4.5. Este
fato é sintetizado de forma quantitativa na Tabela 4.11, que compara os desvios padrão dos
resultados das duas fases de testes.
Figura 4.9: Comparação entre os resultados obtidos na primeira e segunda fases de testes
para a sequência Pedestrian Area.
4. Resultados 46
4.3 Considerações Finais
Na primeira fase de testes alguns observadores deixaram transparecer um certo cansaço nos
momentos finais das avaliações (último questionário). Além disso, parte dos observadores
disseram sentir dificuldades na avaliação, principalmente nas sequências Riverbed e Pedestrian
Area. Neste caso as duas sequências de vídeo citadas possuem cenas bastante movimentadas,
deixando o observador confuso por muitas vezes não conseguir focar em apenas alguns pontos
de observação. Salienta-se que na primeira fase de testes não houve repetição de nenhuma
sequência, fato esse que fez com que alguns observadores se sentissem pressionados a votar.
Na segunda fase de testes, os observadores mostraram-se mais seguros e menos ansiosos.
Possivelmente estes sentimentos foram resultantes do controle que o próprio observador teve
da situação durante a realização dos testes, ou seja, não havia um tempo estipulado para
a avaliação e nem uma ordem de exibição definida, ficando estes parâmetros por conta do
observador.
Para obtenção do modelo utilizado na segunda fase de testes foi necessário excluir alguns
pontos, como forma de se alcançar um melhor ajuste: Pedestrian Area (20%), Rush Hour
(17,5%), Riverbed (5%) e Station2 (12,5%).
As metodologias de avaliação subjetiva descritas no Capítulo 2 deste trabalho podem ser
novamente comparadas considerando-se a metodologia comparativa proposta, como pode ser
observado na Tabela 4.12.
4. Resultados 47
Tabela 4.12: Comparação entre as metodologias de avaliação subjetiva já existentes e citadas
anteriormente, e a metodologia comparativa proposta (MCP).
Parâmetros DSIS DSCQS SSCQE SDSCE SAMVIQ MCP
Referência Ex-
plicita
Sim Não Não Sim Sim Sim
Referência Oculta Não Sim Não Não Sim Não
Duração da Se-
quência
10s 10s 5min >10s 10s 10s
Dois estímulos si-
multâneos
Não Não Não Sim Não Não
Frequência de
apresentação do
Material de Teste
Uma vez ou
Duas vezes
sucessivas
Duas vezes
sucessivas
Uma vez Uma vez Várias
vezes
Várias
vezes
Votação Sequência
de Teste
Sequência
de Teste e
Referência
Sequência
de Teste
Diferença
entre Se-
quência
de Teste e
Referência
Mostradas
Simultanea-
mente
Sequência
de Teste e
Referência
Sequência
de Teste
Possibilidade de
Mudança da Nota
Não Não Não Não Sim Não
Avaliação Con-
tínua da Quali-
dade
Não Não Sim Sim Não Não
Capítulo 5
Conclusão
Neste trabalho, estabeleceu-se, inicialmente, um modelo onde ficou configurada a relação
existente entre o MOS (Mean Opinion Score) e a taxa de codificação das sequências de vídeo
utilizadas. Foram obtidas equações do tipo MOS = A.log10(taxa) + B das quais foram
retirados os valores de taxa relativos a cada MOS específico.
A validação da metodologia para avaliação subjetiva proposta foi realizada em um segundo
momento onde foram utilizados os modelos obtidos na fase inicial de testes. Esta metodologia
comparativa foi avaliada e a variabilidade dos resultados comparada com aqueles obtidos
através do método DSIS.
Os resultados obtidos na primeira fase deixaram bastante evidente a relação logarítmica
existente entre o MOS e a taxa de codificação dos vídeos, fato este observado em gráficos e
também através do cálculo de coeficientes de correlação.
Os testes realizados segundo a metodologia comparativa mostraram-se eficazes no que
diz respeito ao menor tempo de execução e também a redução do cansaço evidenciado pelos
observadores, os quais, em sua maioria, mostraram-se interessados e aparentemente seguros
em suas avaliações.
A variabilidade dos resultados obtidos com a metodologia proposta foi menor em relação
aos testes subjetivos da primeira fase (cerca de um terço), mostrando ser essa mais precisa
na avaliação subjetiva da qualidade dos vídeos. Desse modo, a metodologia interativa com-
parativa proposta confirma a hipótese de que, para o ser humano, a tarefa de decidir se a
qualidade de um conteúdo é inferior, igual ou superior à qualidade de uma referência é mais
precisa do que a tarefa de atribuição de notas de 1 a 5 utilizada em testes MOS.
Trabalhos Futuros Neste trabalho, a configuração do ambiente experimental, utilizado
na primeira e segunda fase de testes, não foi completamente controlada como contempla a
recomendação BT-500 do ITU-R, sendo necessário, em experimentos futuros, melhorar este
aspecto.
48
5. Conclusão 49
Percebeu-se uma necessidade de acrescentar funcionalidades ao software desenvolvido para
realização dos testes subjetivos segundo a metodologia comparativa proposta, como por exem-
plo, fornecer ao observador a possibilidade de utilizar um formulário eletrônico e também
melhorar a usabilidade do software através de indicativos de qualidade na tela (indicativo da
variação de qualidade em relação aos botões Vídeo 1 → péssimo a Vídeo 9 → excelente).
Para obtenção de resultados mais precisos, na primeira fase de testes, e consequentemente
na segunda, seria interessante a realização de testes MOS com um número maior de obser-
vadores. Além disso a utilização de um grupo de observadores treinados (pessoas submetidas
a treinamento prévio para identificação de artefatos em imagens), poderia produzir resultados
mais precisos devido à percepção visual diferenciada.
Referências Bibliográficas
Alpert, T.; Baroncini, V.; Choi, D.; Contin, L.; Koenen, R.; Pereira, F. e Peterson, H. (1997).
Subjective evaluation of MPEG-4 video codec proposals: Methodological approach and test
procedures. Signal Processing: Image Communication, pp. 305–325.
Alvarez, M.; Salam, E.; Ramirez, A. e Valero, M. (2005). A performance characterization of
high definition digital video decoding using H.264/AVC. IEEE International, pp. 24 – 33.
Alvarez, M.; Salam, E.; Ramirez, A. e Valero, M. (2007). HD-VideoBench - a benchmark for
evaluating high definition digital video applications. IEEE 10th International Symposium
on Workload Characterization, pp. 120–125.
Baroncini, V. (2006). New tendencies in subjective video quality evaluation. Institute of
Electronics, Information and Communication Engineers, E89-A(11):2933–2937.
Bendat, J. S. e Piersol, A. G. (2000). Random Data - Analysis and Measurement Procedures.
Wiley Series in Probability and Statistics. John Wiley & Sons, INC.
Blin, J. L. (2002). SEOVQ software tool for quality, preference and acceptability evaluation
of multimedia images. Development division France Telecom R&D Human interaction’s
division.
Blin, J. L. (2006). New quality evaluation method suited to multimedia context - SAMVIQ.
Proceedings of the Second International Workshop on Video Processing and Quality Metrics.
Bovik, A. C.; Wang, Z. e Sheikh, H. R. (2003). Objective video quality assessment. In Press,
C., editor, The Handbook of Video Databases: Design and Applications, pp. 1041–1078.
BT.1788, R. I.-R. (2007). Methodology for the Subjective Assessment of Video Quality in
Multimedia Applications.
BT.500-11, R. I.-R. (2002). Methodology for the Subjective Assessment of the Quality of
Televisions Pictures. ITU-R.
de Queiroz, R. L.; Ortis, R. S.; Zaghetto, A. e Fonseca, T. A. (2006). Fringe benefits of the
H.264/AVC. VI International Telecommunications Symposium (ITS2006).
50
Referências Bibliográficas 51
FFmpeg (2005). The ffmpeg libavcoded [online]. http://ffmpeg.org/. Acessado em: maio
de 2010.
Huynh-Thu, Q.; Brotherton, M.; Hands, D.; Brunnström, K. e Ghanbari, M. (2007). Exami-
nation of the SAMVIQ methodology for the subjective assessmento of multimedia quality.
Proceedings of Third International Workshop on Video Processing for Consumer Electron-
ics.
Huynh-Thu, Q. e Ghanbari, M. (2008). Scope of validity of psnr in image/video quality
assessment. Electronics Letters, (44):800–801.
Koenen, R. (2002). Overview of the MPEG-4 standard. Technical report, WG11 (MPEG).
Kozamernik, F.; Sunna, P.; Wyckens, E. e Pettersen, D. I. (2005). Subjective quality of
internet video codecs - phase 2 evaluations using SAMVIQ. Technical report, EBU Technical
Review.
Laffoon, E.; Mantia, A.; Rudolf, M. e Britton, M. (2002). Kommander 1.3. http://docs.
kde.org/stable/en/kdewebdev/kommander/.
Munique, U. T. (2002). HD test sequences. ftp://ftp.ldv.e-technik.tu-muenchen.de/
pub/test_sequences/1080p/.
Oelbaum, T.; Baroncini, V.; Tan, T. K. e Fenimore, C. (2004). Subjective quality assessment
of the emerging AVC/H.264 video coding standard. International Broadcasting Conference
(IBC).
P.910, R. I.-T. (1999). Subjective Video Quality Assessment Methods for Multimedia Appli-
cations. ITU-T.
Pinson, M. H. e Wolf, S. (2004). The impact of monitor resolution and type on subjective
video quality testing. Technical report, NTIA Technical Memorandum.
Richardson, I. E. G. (2003). H.264 and MPEG-4 Video Compression- Video Coding for Next-
generation Multimedia. John Wiley & Sons Ltd.
Sunna, P. (2005). AVC/H.264 - an advanced video coding system for SD and HD broadcasting.
Technical report, EBU Technical Review.
Tourancheau, S.; Callet, P. L. e Barba, D. (2007). Impact of the resolution on the difference of
perceptual video quality between CRT and LCD. IEEE International Conference on Image
Processing.
Vatolin, D. (2009). MPEG-4 AVC/H.264 video codecs comparison. Technical report, CS MSU
Graphics&Media Lab Video Group.
Referências Bibliográficas 52
VideoLAN (2006). x264 - a free H264/AVC encoder. http://www.videolan.org/
developers/x264.html.
Webster, A. A.; Jones, C. T.; Pinson, M. H.; Voran, S. D. e Wolf, S. (1993). An objective video
quality assessment system based on human perception. In SPIE Human Vision, volume
1913, pp. 15–26. Visual Processing and Digital Display.
Winkler, S. (2005). Digital Video Quality - Vision Models and Metrics. John Wiley & Sons
Ltd.
Wolf, S. e Pinson, M. H. (2007). Application of the NTIA general video quality metric (VQM)
to HDTV quality monitoring. In The Third International Workshop on Video Processing
and Quality Metrics for Consumer Electronics (VPQM).