IMAGEM DIGITAL
>>>> Imagens vectoriais vs bitmaps: a) vantagens das imagens vectoriais: tempo de renderização menor, excepto quando o número de objectos é muito elevado; espaço em disco menor; tempo de transferência via Web menor; mudança de escala não altera a qualidade da imagem; mais manipuláveis: cada elemento pode ser controlado individualmente; b) limitações: limitações: impossível visualizar imagens foto-realisticas; tempo de renderização elevado se forem muitos objectos; c) Vectorial para bitmap: fácil; na prática, uma imagem vectorial é renderizada no ecrã como um bitmap, e basta fazer o grabbing da imagem no ecrã – software de dição permite guardar em formatos bitmap; d) Bitmap para vectorial: difícil; software de auto-tracing detecta formas básicas no bitmap com base em regiões de cor homogénea e aproxima essas formas por polígonos. >>>> PALETES DE COR ou mapas de cores – tabelas matemáticas que definem mapeamentos de cores; cada uma das cores a uti lizar é representada por um í ndice; a) Vantagens – visualização em sistemas com poucos recursos gráficos; compressão; b) Desvantagens: Desvantagens: perdas cromáticas, que podem ser minoradas com paletes adaptativas (quantetização da cor) + dithering – processo que cria a ilusão de cores inexistentes numa dada palete pela difusão das cores existentes na palete em causa (sistema visual humano mistura as cores se os pontos estiverem suficientemente próximos; diferentes algoritmos de dithering produzem diferentes resultados; limitações dithering: ing: imagens aparentam ter grão); >> tipos de paletes: a) estáticas: estáticas: paletes universais, que representam com qualidade razoável imagens de qualquer tipo; deve abarcar todo o espaço RGB, ainda que com pouca definição; Exemplo: paletes de sistema (Windows System Palete) – cores aceitáveis para a maior parte dos programas; útil em ícones em sistemas com pouca profundidade de cor e palete Web – util izada pelos Web browsers; b) Adaptativas: Evitam uma elevada distorção cromática, porque a indexação de cores é definida adequadamente em relação à imagem em causa; Palete contem as cores estatisticamente mais relevantes, obtidas através de um algoritmo de quantetização de cores adequado; Exemplo: Exemplo: imagem RGB sem canal B – palete de 16 cores; ideia é encontrar o centroide de cada região. >>Vantagem das paletes adaptativas: escolher as cores, não de forma estática, mas de forma optimizada contendo aquelas estatisticamente mais relevantes, ou seja, as mais frequentes, na imagem original. Por exemplo, se uma imagem apenas contém apenas, tonalidades de azul, defini-se uma palete optimizada com os 256 tons de azul mais relavantes (não faz sentido usar uma palete com tons de vermelho: estaríamos a desperdiçar cores) >> Vantagem do dithering: criar a ilusão de cores inexistentes na palete pela difusão de cores da palete, i .e., pela combinação de duas ou mais cores. Como a distância entre os pixeis é muito pequena, o cérebro humano interpola as cores presentes numa dada área, criando a il usão de uma nova cor. É esse o mecanismo de formação de cores nos ecrãs apenas com pontos vermelhos, verdes e azuis. >>>> ASPECTOS A CONSIDERAR NA COMPRESSÃO: a) características do sinal: diferentes algoritmos para diferentes tipos de dados; b) técnicas de compressão e descompressão: têm de ser adequadas ao tipo de sinal, eficientes computacionalmente...; c) taxa de compressão atingida / a atingir: algoritmo, grau de redundância; d) qualidade do sinal descompactado: compressão compressão destrutiva ou não destrutiva?; e) Complexidade de custo computacional: tempo real? Utilizável em dispositivos moveis? Tempo Tempo e custo de compressão semelhante ao de descompressão? Hardware especifico requerido? Facilidade de implementação? >> resultados de compressão diferentes para o mesmo codec? em geral, apenas o processo de descodificação é especificado com detalhe, de forma a possibilitar interoperabilidade; a) processo de codificação não é habitualmente especificado: implementadores têm liberdade de desenvolver o codificador da forma que considerem melhor, desde que o sinal possa ser descodificado em conformidade com o standard. Por exemplo, exemplo, em imagens indexadas, escolhem os algoritmos de quantização de cor e o dithering; b) a qualidade do sinal descodificado e a dimensão do ficheiro comprimido poderão diferir notoriamente de algoritmo para algoritmo dentro do mesmo codec. >>>> CLASSIFICAÇÃO DE CODECS:lossless CODECS: lossless (não destrutivos): vantagem vantagem:: sinal reconstruído é matematicamente equivalente ao original; limitação limitação:: taxa de compressão mais baixas; Lossy (destrutivos): Vantagem Vantagem:: taxas de compressão mais elevadas; Desvantagem:: sinal reconstruído apresenta alguma degradação de qualidade (técnicas vantagem são irreversíveis), o que idealmente não é perceptível; Objectivo: maximizar o grau de compressão mantendo a qualidade da imagem virtualmente “lossless” ////// CODECS >> BMP : Windows Bitmap - sistema padrão do Windows; 1 >> Modelo de cor: RGB com 24 bits (cor final depende do color profile); 2 >> Compressão: a) Tipicamente sem compressão; b) Representação de dados segundo o padrão PCM (Pulse-Code Modulation); 3 >> Dimensão: Ficheiros muito grandes: muito espaço em disco, inadequado para transmissão via internet; 4 >> Qualidade: True Color : Qualidade foto-realística; Não há destruição da imagem; 5 >> Variantes: a) BMP com compressão Run-Lenght Encoding (RLE); b)BMP com especificação do número de cores. /// JPEG>>Algoritmos JPEG>>Algoritmos de compressão perceptual (destrutiva): tira partido das limitações da visão humana, descartando informação não perceptível >> Algoritmos de compressão entrópica (não destrutiva); n suporta transparência pq é um codec destrutivo: a reconstrucao n é perfeita e uma cor definida cm transparente aparece sem o ser; Compressao JPEG deve ser o ultimo passo, pq os efeitos da compressao sao acumulativos; de cd x q se salva comprime-se +; 1. Modelo de Cor >> YCbCr (tipica/ obtido a partir de i magem RGB com 24 bits); 2. Dimensão >> 2. 1. Ficheiros significativamente mais pequenos que BMP (10:1); 2.2) Depende do factor de qualidade (Q) especificado: Alto = pouca compressão = dimensão elevada; Baixo = muita compressão = dimensão baixa (possível compressões de 100:1); 3. Qualidade >> em termos perceptuais será qualidade foto-realística: utiliza métodos de compressão pensados para img fotográficas, funcionando particular/ bem em i mg c/transições suaves entre as cores; 3.1) depende do factor de qualidade especificado: alto = qualidade elevada; baixo = qualidade baixa; 3.2) apresenta piores resultados em elementos do tipo gráficos vectoriais porque: incluem geralmente transições abruptas entre cores; tende a introduzir algum ruído nas zonas de transição; 4. Utilizações: >> utilizado na compressão de imagens em fi cheiros pdf e padrão para compressão de imagens fotográficas; 5. Modos de operação >> 5.1.) Sequencial: img codificada n1passagem (esq, drt, cima, baixo); 5.2.) Progressivo: img codificada por varrimentos múltiplos,c/detalhe progressivamente mais elevado; exemplo: primeira passagem descodifica apenas o coeficiente DC do bloco.Vantagens bloco. Vantagens:: apresentação em browsers de imgs com menor detalhe em ligações de rede lentas; visão prévia razoável antes da chegada da totalidade dos dados; Desvantagem Desvantagem:: suporte não é genérico (?); 5.3) Hierárquico: Imagem codificada a várias resoluções. Algoritmo >> 1.) Converter imagem RGB para o espaço de cor YCbCr: o modelo de cor YCbCr separa a imagem nas suas componentes de luma ( Y) e crominância (Cb e Cr). Como olho humano é menos sensível à crominância, o detalhe nesses dois canais poderá ser reduzido (através de sub-amostragem) – compressão perceptual inicial da imagem. No modelo RGB, a correlação entre os 3 canais é elevada (nomedamente no que toca a luminância). Convertendo para o modelo YCbCr a redundância em cada canal diminui, de modo que a entropia em cada um deles também diminui. Isto possibilita melhor compressão entrópica. No entanto, a compressão entrópica é só aplicada sobre os coeficientes da DCT e não directamente sobre os canais Y, Cb e Cr. A vantagem da separação é reduzir-se detalhe na crominância; 2.) Sub-amostragem (downsampling espacial): 2.1) olho humano mais sensível a variações de l uma do que de crominancia: baixa a resolução em Cb e Cr (reduz a taxa de amostragem); 2.2) diversas variantes: 4:4 (sem downsampling); 4:2:2: taxa de amostragem de Cr e Cb reduzida para metade na direcção horizontal; 4:2:0: taxa de amostragem reduzida para metade em ambas as direcções; 2.3) A partir deste ponto o brilho e a cor são processados separada/e de maneira mt similar. A sub-amostragem da cor diminui de 33% a 50 % do espaço ocupado pela imagem; A DCT é então aplicada sobre os dados obtidos do downsampling; 3) Aplicação da DCT: cada canal separado em blocos 8x8 (permite uma execução mais eficiente do DCT): 3.1) Na compressão JPEG a img da entrada é decomposta em blocos e após isso estes são transformados para o domínio da frequência, através da DCT. A DCT separa as componentes de alta e baixa frequência da img, sendo que as de alta frequência podem ser seleccionados e suprimidas, dependendo da qualidade a ser alcançada no processo; 3.2) baixas frequências no canto superior esquerdo da matriz e altas frequências no canto i nferior direito; 3.3) propriedades de compactação de energia: imagem suave – maior parte da energia nas baixas frequências: poucas células de frequência contêm a maior parta da energia da imagem (nas baixas frequências); 3.4) Coeficientes típicos da DCT: Valores negativos porque os valores de cada bloco são centrados em zero, antes do cálculo da DCT; DCT aumenta o número de bits por pixel, temporariamente, devido aos cálculos necessários; Nos diferentes blocos é aplicado o algorit mo DCT que gera as matrizes Coeficientes de DCT, que têm muitos valores próximos de 0. O valor médio da matriz está no canto superior esquerdo e representa a cor fundamental desses 64 px – é a componente DC; 3.5) Só a DCT não faz grande compressão, compressão, porque a matriz resultante têm o mesmo tamanho que a original e poucos valores a zero – só possibilita a quantização; a compactação acontece na quantetização; Este tipo de compressão é recomendada apenas para imagens fotográficas, uma vez que as imagens de desenhos são ricas em regiões de alta freq, que ficam distorcidas com a aplicação da compressão JPEG JPEG;; 4) Quantetização: 4.1. olho humano não tem tanta sensibilidade para distinguir a intensidade exacta da variação em componentes de alta frequência (transições abruptas): usar menos bits na sua representação – maior operação destrutiva do processo; 4.2. Representar coeficientes da DCT com mais ou menos bits, consoante a sua frequência: Altas frequências quantetizadas mais fortemente (menos bits); Resultado: muitos valores de altas frequências representados com valor zero; 4.3. 4.3. Aqui entra o factor de qualidade; 4.4. Operação de quantetização típica: Dividir cada coeficiente da DCT por uma constante (especifica para esse coeficiente) e arredondar para o inteiro mais próximo. Esta operação força os valores a aproximarem-se de zero – como a divisão é inteira, existem perdas; 5.a) Codificação diferencial do Coeficiente DC: 1.coeficiente 1.coeficiente no canto superior esq: média dos bits do bloco 8x8; 2.img 2.img em blocos
adjacentes com correlação elevada; 3.DC 3.DC codificado como a diferença face ao DC do bloco anterior; 4.Gama 4.Gama de valores reduzida; 5b) Codificação entropica dos restantes 63 /// CODECS N DESTRUTIVOS coeficientes: converter a matriz para vector, lendo em zig-zag – para que os primeiros /// Pulse Code Modulation (PCM) a) Padrão básico de representação digital de sinais analógicos em dispositivos digitais: a amplitude do sinal é amostrada a intervalos de tmp valores a serem lidos sejam diferentes de zero (quando começam a aparecer os uniformes e quantizada para um conjunto de valores num código digital; b) sem compressão; zeros ignora-se a leitura); 5c) Codificação entropica e repetições: 1.RLE : tira partido c) dimensão: ficheiros mt grandes (mt espaço em disco e inadequado para transmissão Web); dos muitos zeros nas altas frequências; 2.Huffman ou aritmética: menos bits para d) Qualidade: depende da frequência de amostragem, do nº de bits de quantização e do nºde representar os símbolos mais frequentes – diminuir a quantidade de bits necessários canais – qualidade de CD: 44.1 kHz, 16 bits para representar o resultado da quantização. /// Differencial PCM (DPCM) a) são codificadas as diferenças entre amostras reais e os va /// GIF (n destrutivo) -era preciso diminuir o tamanho dos ficheiros p transmitir p/linhas telefónicas; >> Modelo de Cor: Palete de 256 cores; >> Compressão: Entrópica não destrutiva c/base no LZW (baseado em dicionários dinâmicos), q comprime o conj. d índices da img – só elimina redundâncias; >> Dimensão: Ficheiros pequenos – taxa de compressão depende da img original; >> Qualidade: Limitações em fotografias – 256 cores; >> Possibilidades: 1. Transparência: Transparência: pixéis identificados por 1índice na paleta, n é transp.alpha; 2. Suporta formas simples de animação – mts imagens no mm stream; 3. Progressivo ou Entrelaça/ - a img n é armazenada em linhas sucessivas, m de maneira entrelaçada;tem-se noção da figura inteira que será apresentada e que vai se definindo até se completar totalmente. >> LZW: 1.Utilizado 1.Utilizado em imgs em q n se pode perder a definição original; 2.Imgs 2.Imgs c padrões bem definidos(c/grd blocos de cor contínua ou repetidas de cores) podem reduzir para 1/10 o tamanho original do arquivo (m o normal é 1/3, ou 1/4); 3. Problemas: memoria necessária – qts + dados, + sequências; espaço de endereça/ – códigos das entradas tb crescem co dicionário; 4. Algoritmo: Dicionário contém entradas para tds os símbolos do alfabeto; P = {} // C = próximo carácter // P + C existe? // Se sim, P=P+C // Se não: SC = SC + índice (P) ; Adiciona P+C ao dicionário; P = C // Enquanto houver mais caracteres, volta a 2; no fim SC = SC + índice(ultimoLido). ///////////////////////////////////////////// CONVERSÃO GIF - JPEG 1. Converter imagem indexada para RGB: JPEG precisa de RGB. Ao converter de GIF para RGB é necessário descompactar a sequencia LZW, obtendo-se assim uma matriz de cores indexadas. Não é esta matriz que vai servir de base ao JPEG (se assim fosse, este assumia uma imagem em tons de cinza). É necessário converter os índices para cor RGB (resultando 3 matr izes); izes); 2. Lidar com dithering: O JPEG interpreta os pixéis utilizados no processo de dithering do GIF como transições de alta frequência (abruptas). Deste modo, todas as cores perceptuais formadas a partir de dithering resultarão em ruído. É importante, então, converter esses pixéis para a cor desejada, antes de converter para JPEG. Este processo nem sempre é tr ivial. Existem diversos algoritmos, com diferente desempenho. /// PNG (n destrutivo)destrutivo)- surge na sequencia do GIF; >> Modelo de cor: RGB com canal alpha (8 ou 16 bits por canal); Níveis de cinza com alpha; RGB sem alpha / cinza sem alpha; Palete;Nº de bits por canal ou palete pode variar (?); >> Compressão: a) Compressão entrópica de resíduos com base em modelos de previsão – visam eliminar a redundância de informação entre pixéis vizinhos, sendo q o valor de cada pixel pode ser predito pela sua vizinhança; codifica só a diferença ou o resíduo entre o valor original e o previsto para esse pixel – Codificação DPCM de resíduos: erro (resíduo) = valor original – valor previsto; os dados são pré-comprimidos por um modelo de previsão: é usado um filtro (p td a img) e para cada linha da img é escolhido um tipo de filtro (baseia-se no px à esq, ou à drt, etc) q transforma os dados de forma a que sejam + f ácil/comprimidos. O filtro prevê o valor de cada px baseando-se nos vizinhos, e subtrai a cor prevista ao valor real: cada byte é previsto com base nos valores de bytes anteriores (explora correlação entre amostras consecutivas); gama de valores diminui; melhores possibilidades de compactação (probabilidade de uma linha ser idêntica a outra adjacente aumenta); b) Compressão entrópica não destrutiva dos resíduos: algoritmo Deflate Deflate,, baseado em dicionários Dinâmicos; >> Dimensão e Qualidade: Possibilidade de imagens foto-realisticas; Para a mesma qualidade, ficheiro menores que GIF (10 a 50%) e muito maiores de JPEG; >> Possibilidades: Uma cor transparente; Transparência Transparência alpha (imagens indexadas); Não permite animação – é formato de imagem única (alternativa: MNG, extensão do PNG); Entrelaçamento;>> Entrelaçamento;>> Suporte de Software: Generalizado, mas algumas aplicações não implementam todas as funcionalidades do compressor; >> Suporte Web: Adopção lenta – GIF continua a prevalecer (só Opera, FireFox e Safari apresentam compatibilidade total) e browsers antigos nem sequer suportam PNG // JPEG Lossless (n destrutivo)destrutivo)- semelhante ao PNG: compressão não destrutiva baseada em previsão e compressão de resíduos – filtros; >> Compressão: Cálculo de resíduos (erros de previsão) e compressão entropica (Huffman ou aritmética); >> Dimensão e qualidade: Taxa de compressão inferior a PNG; >> Suporte: Actualmente, obsoleto; Poucas aplicações aplicações o suportaram – nunca foi popular por PNG ser melhor // TIFF (n destrutivo) - projectado para ser um formato universal de bitmaps, flexível e extensível; - tags possibilitam extensibilidade; - mesmo formato pode ter várias imagens; - funciona como um contentor: pode ter imagens comprimidas por codecs diferentes e conter gráficos vectoriais; >>Modelo de cor: RGB com 24 bits; >> Compressão: várias possibilidades de compressão nao destrutiva (RLE, LZW – pouco utilizado por causa da patente); >> Dimensão e qualidade: imagens foto-realisticas; muito maior que JPEG e um pouco que PNG (com a mesma qualidade); maior que GIF (profundidade de cor é muito diferente);>> diferente); >> Possibilidades: Suporte multi-página: várias imagens no mesmo ficheiro (ex. Digitalização de várias páginas num só ficheiro); >> Suporte Web: em geral não é suportado pelos browsers FORMATOS // SVGSVG- vectorial aberto, baseado em XML; - suporta imagens vectoriais, bitmaps e texto; >> Compressão: XML – muitos fragmentos de texto repetidos – Deflate; >> Suporte Web: dificuldades na adopção: utilização geral de formatos bitmap ou outros; suporte de browsers não é generalizado; // Adobe Flash - formato proprietário, mas uti lização esmagadora na Web (Plug-in incorporado de raiz na maioria dos browsers; >>>>IMAGENS E INTERNET: INTERNET: a) Diversidade de computadores na Web – cuidados com a profundidade de cor; b) Limitações de largura de banda – 1. tempos de transmissão dentro de limites aceitáveis (limitar o tamanho das paginas); 2. Tamanho das imagens tem que ser baixo – utilização de formatos comprimidos (GIF, PNG ou JPEG); c) Preparação de imagens para a Web: 1. Trabalhar com imagens grandes e de elevada profundidade de cor (quanto estiverem prontas reduzir ambas); 2. paletes – usar 256 cores e preferencialmente padrão; 3. tamanhos de imagem de 320 x 240 (?); 4. numero de imagens em cada página não deve ser muito elevado; Qualidade da imagem deve ser elevada, com baixo espaço de armazenamento: profundidade de cor, taxa de compressão, imagens vectoriais (se possível) >>>> COMPARAÇOES - PNG suporta vários níveis de transparência (GIF só transparência binária); - PNG integra informações sobre a gama da imagem que permite corrigir diferenças entre o brilho da imagem em monitores de diferentes plataformas; - em imgs pequenas, GIF pode conseguir + compressão q PNG (tem q ver c/ GIF usar LZW e PNG Deflate + filtro; - PNG tem + opções de transparência e de profundidade de cor; - JPEG: imgs + pequenas se fotográficas q c/PNG; - PNG melhor se img contiver texto ou imgs c/transições abruptas; - PNG suporta trueColor, greyscale e paleta; GIF apenas paleta e JPEG trueColor e greyscale; - PNG e JPEG: + precisão de cor q GIF; - PNG + fácil de i mplementar q GIF; - JPEG: + tmp de computação; PNG pouco divulgado e suportado; - GIF é único q suporta animação; - JPEG perde qualidade aqd alterado; - PNG melhor q GIF: melhores técnicas de compressão - PNG pode ser mt maior q GIF se imgs forem criadas c/alta qualidade, pq PNG armazena + inf de profundidade de cor e transparência; p imgs de 8bits, PNG é típica/+pequeno pq usa técnicas de compressão + eficientes (Deflate combina LZ77 c/Huffman, o q é 10 a 30% + eficiente q LZW); - JPEG é a mlh escolha p fotos, m em monitores de 8-bits há uma conversão forçada p um paleta de 8bits; a compressão JPEG é para dados de 24bits, independente/das cores na img original. Assim, ao reduzir uma img de 24 p 8 a qualidade será pior; - JPEG introduz ruído em áreas de cores solidas
lores previstos segundo um modelo de previsão: são codificados resíduos (erros de previsão); b) baseado na elevada correlação entre amostras sucessivas; c) taxa de compressão de cerca de 25% + q PCM – depende do modelo de previsão. /// Adaptive DPCM (ADPCM) a) varia o tamanho do passo de quantização de forma adaptativa: quando as diferenças são baixas, reduz o numero de bits; b) compressão na ordem dos 50% mas com alguma perda de qualidade – usada em Voice Over IP /// u-law PCM e a-law PCM a) transmissão de sinais de voz; b) reduz a gama dinâmica do sinal PCM –reduz o nº de bits por amostra, c/alguma perda de qualidade (13 bits em PCM, aqui são 8) / // FLAC (não destrutivo) (livre) 1 >> Compressão: a) Compressão middle/ side
(mid: x = (L+R) /2 e side: y = L-R); b) Modelos de predição linear - erro de predição codificado: valores pequenos – os resíduos; menos bits necessários; c) resíduos codificados pelo algoritmo de Golomb-Rice (alfabeto de resíduos segue uma distribuição qs geométrica e os resíduos baixos são + frequentes que os altos – menos bits; d) RLE utilizado em blocos com valores idênticos, como o silencio; 2 >> Dimensão: a) Ficheiros resultantes a cerca de 40, 50 %; b) Maior compressão para fala; 3 >> Possibilidades: a) Streaming; b) Tagging; Tagging; c) Imagens associadas; d) open source; 4 >> Limitações : a) Suporte para dispositivos moveis limitado /// ALAC (não destrutivo) (proprietário) 1 >> Compressão: a) Baseado no FLAC, com melhor desempenho na descodificação; 2 >> Dimensão: 1:1.67 a 1:1.25; 3 >> possibilidades: a) DRM – N suporta, embora seja possível devido ao contentor; b) Armazenamento num contentor MPEG 4; 4 >> Vantagens: a) Descodificação rápida (argumenta-se que é mais leve que o FLAC); b) Utilizável em iPods; c) Codec crackado (????); d) Tags ID /// Monkey’s Áudio (não destrutiva) (proprietário) 1 >> Compressão: a) Codificação middle / side; b) Modelo de predicção linear; c) Codificação do erro com Golomb-rice; 2 >> Dimensão: 1:2 a 1:4; 3 >> Limitações: a) Descodificação mais lenta que FLAC; b) Limitado fora de Windows /// MPEG-4 (não destrutivo) 1 >> Compressão: semelhante a FLAC; 2 >> Possibilidades: a) até 32 bits de quantização; b) frequências de amostragem arbitrárias; c) Streaming /////////////////////////// CODECS DESTRUTIVOS >> Codificação perceptual: a) base dos codecs áudio destrutivos; b) banda-crítica: ouvido humano comporta-se como detector de frequências em que células diferentes respondem a frequências de formas diferentes, sendo que cada célula tem uma gama de frequências à qual responde – a banda critica. O ouvido nao distingue tão bem sons na mesma banda critica, o que é a base das mascaragem de sons c) tira partido das limitações da audição descartando informação não perceptível; >> Mascaragem de sons: a) mascaragem simultânea (frequência) – um som de amplitude elevada tende a mascarar um som de menor intensidade na mesma gama de frequências; sempre que um som é mais forte, mascara outros mais baixos. Quando uma forte batida do prato em uma música executada por uma orquestra nos chega ao ouvido, por um momento, apenas esse som é percebido, mascarando o som dos demais instrumentos. Esse princípio fundamenta a eliminação de todos os sons mascarados em um determinado arquivo; b) mascaragem temporal – um som de amplitude elevada tende a mascarar durante um período temporal sons com amplitude inferior numa região vizinha de frequências. /// MP3 (destrutivo) 1 >> Compressão: Compressão: 1. Compressão perceptual: redução da redundância perceptual; 2. Modelos psicoacústicos p identificar os sons menos relevantes: 2.1 componentes de alta frequência (ouvido só distingue sons muito intensos); 2.2 sons mascarados por outros de maior intensidade; 2.3 conversão para sinal mono durante os períodos em que pelas características do som o ouvido não consegue perceber a direcção de onde provém;3. provém; 3. Quantização adaptativa – os sons menos relevantes são descartados ou codificados com menor precisão, o que reduz o número de bits necessários para os representar – principal operação destrutiva!; 4.Semelhante 4.Semelhante aos princípios utilizados no JPEG; 2 >> Dimensão: A) mt + pequenos q PCM c/qualidade de CD (1:8 a 1:12); B) Depende da bit rate: se for alta tem pouca compressão logo tem dimensão elevada, mas existem várias possibilidade – CBR, VBR, ABR; C) Frequência de amostragem: Qualidade: A) Em termos perceptuais será qualidade de CD (mé16 a 48 kHz; 3 >> Qualidade: todos de compressão pensados para música); B) Tipicamente, 128 kbps aceitável, m + comum é 192 pelo aumento de espaço em disco, e o máximo é 320 kpbs (a partir daí é lossless); C) Distorções podem ser captadas: c1) componentes de alta frequência; c2)ruído c2)ruído de quantização;c3) quantização;c3)sons sons sibilantes; c4)clips c4)clips com ataques abruptos – pré-eco; c5) Bit rate: alta > pouca compressão destrutiva > qualidade elevada; c51) CBR – simples e mais rápida, mas menos flexível; c52) VBR – tira partido do dinamismo do som: bit rates mais altas em regiões mais complexas, qualidade global aumenta; c53) AVR; D) Encoder: liberdade de implementação desde que em conformidade com a especificação (o resultado deve ser interpretável por qualquer descodificador) de velocidades e qualidades diferentes; alguns são optimizados para bit rates elevadas, outros para baixas; 4 >> DRM: a) Dados encriptados; b) escuta apenas possível nos computadores autorizados; 5 >> Algoritmo: 1. sinal dividido em frames de curta duração passa por um banco de filtros q o divide em 32 bandas de frequência dentro do espectro audível, o q aumenta a probabilidade de remoção de sons redundantes; 2. ao mesmo tempo o sinal passa por um modelo psicoacústico que determina o SMR (Signal to Mask Ratio) para cada banda; 2.1 Através de uma transformação MDCT cada frame é convertida para o domínio da frequência, o que permite maior precisão no cálculo dos limiares de mascaragem; 2.2 Depois determina o limiar de mascaragem (L) para cada banda, o que é equivalente às bandas criticas; 2.3 Então determina o SMR (S/L) e o noise-to-mask ratio (S/N – necessário porque existe sempre ruído de quantização já que o sinal original passa a ser representado por um conjunto de valores discretos). Se o ruído for mantido abaixo de L de cada sub-banda, o resultado da compressão não deve ser distinguido do original; 2.4. depois junta os dois canais num só quando não forem precisos os dois, através de codificação middle / side (se as diferenças forem baixas) ou L/R se forem altas – joint stereo, que é aplicado a todas as bandas ou a nenhuma; 3. Alocação de bits: quantização dos coeficientes da MDCT (que vão ser depois codificados com Huffman), em função do NMR (se este for baixo utiliza mais bits de quantização; só atribui os necessários para que o ruído de quantização não seja audível) e usa menos bits para informação menos relevante; para alem disto, o nº de bits tem por base a bit rate definida; 4. Outros mecanismos: – reserva de bits: como algumas frames são muito simples, não é preciso usar todos os bits, reservando-os para frames mais complexas. Quando a reserva é nula existe uma notória degradação da qualidade em zonas complexas; 6 >> Limitações: A) Dimensão das frames pouco pré-eco: erro na MDCT propaga-se por toda a janela temporal e existe flexível – pré-eco: ruído antes do próprio sinal: o ruído de quantização é imposto sobre um coeficiente de componente de frequência. No domínio do tempo, este erro está espalhado sobre todo o frame em causa. Assim, e especialmente no caso de transições temporais súbitas pode-se ouvir ruído significativo mesmo antes do evento que o causa. Como forma de evitar este efeito, a MDCT pode utilizar janelas de 6 ou de 18 pontos. A janela de 6 pontos sacrifica resolução de frequência para ganhar resolução temporal e deve ser utilizada quando o modelo perceptual detecta a possibilidade de pré-eco; B) Joint Stereo em todas as bandas; C) Esquema híbrido de transformação: filtragem filtragem /// AUDIO DIGITAL 1 >> AMOSTRAGEM: AMOSTRAGEM: um computador n é capaz de representar directa/1onda sonora: sinal passa-banda + MDCT: compatibilidade com mp1 e mp2 (filtragem inversa com tem de ser amostrado e cada amostra representada digital/ - amostragem; a freq a que a onda reconstrução imperfeita); codecs agora usam MDCT directamente. é amostrada é freq de amostragem – teorema de Nyquist (sinal com freq max.de 5 kHz deve /// Mp3PRO: Mp3PRO: MP3 + spectral band replication (SBR) – descarta componentes de ser amostrado c/freq> q 10kHz); alternativa/poderá aplicar-se um filtro passa-baixo e amostrar alta frequência, mas essas componentes têm que ser reconstruídos durante a a 1 freq + baixa. descodificação, o que é uma tarefa algo exigente em termos computacionais. Qd 2 >> QUANTIZAÇÃO: Cd amostra é representada por 1 valor digital: o nº de valores posos recursos em termos de capacidade de processamento são limitados (CPU, sível de representar depende do nºde bits empregue na sua representação – qt > + fiel é a representação; a) valor de cada amostra é arredondado para o valor digital + próximo; b) Ruído energia, memória) é dificil/impossível a utilização do mp3PRO dada a complexidade do descodificador. de quantização: diferença entre os valores quantizados e os reais; 3 >> CANAIS: a) Sinal estereofónico – 2 canais, semelhante aos ouvidos humanos e cada canal pode ter elementos /// AAC (destrutivo): (destrutivo): Sucessor do mp3 – também é destrutivo e também se baseia áudios distintos; b) Sinal monoaural – 1 canal, menos realista e mais amorfo que o stereo; 4 >> em compressão perceptual; 1 >> Melhoria face ao mp3: a) Melhor qualidade QUALIDADE DO SOM : depende do equipa/, sujeito, parâmetros ut ilizados na gravação original média para a mesma bit rate; b) Usa directamente MDCT, sem banco de filtros, e tipo de compressão; 5 >> QUALIDADE DE CD: padrão projectado com o obj.de possibilitar o que resulta numa inversão perfeita; c) Bit rates arbitrárias e janelas de duração a reprodução de tds os sons q o humano consegue ouvir; a) freq de amostragem necessária é mais pequenas em zonas transitórias e maiores em zonas estacionárias; d) Maior 44.1 Khz (cm o ouvido só capta até 20Khz 1 freq superior era inútil); b) quantização – 16 bits; frequência de amostragem; e) Até 48 canais; f) Joint Stereo mais flexível – por c) 2 canais; 6>> STREAMING: permite começar a reprodução do ficheiro pc dp do inicio da transmissão – a) download de buffer inicial; b) inicio da escuta enqt continua o download; c) tmp bandas de frequência; g) Temporal Noise Shaping (TNS): objectivo de melhorar o tratamento de transitórios muito rápidos, controlando o pré-eco; obtém modelo do de espera até que o buffer encha depende da velocidade da ligação; d) baseado em protocolos específicos, assentes em UDP (RTP e RTCP ) ou nao; e) aplicações – rádios online; f) formatos ruído de quantização através de uma abordagem preditiva no domínio da frequência ficheiros típicos: MP3 e variantes, ASF, real áudio (destrutivos ou não). – a forma do sinal de ruído será semelhante à do sinal original h) Perceptual Noise Substitution (PNS): bandas de frequência em que o sinal seja tipo ruído usa o mod /// MIDI: a) protocolo p descrição detalhada dos elementos musicais: objectos sonoros elo de ruído; a vantagem é que são codificados os parâmetros do modelo em vez de representáveis de forma pseudo-simbólica (não correspondem a áudio digitalizado m a factos todos os da MDCT; i)Long-Term Prediction (LTP): i1) modelos de previsão conduz musicais q fornecem 1 descrição do som a reproduzir); b) ficheiros consistem numa lista de a maior eficiência de codificação, principalmente para sinais estacionários; i2) reduz comandos que inclui a especificação do instrumento, o volume, a frequência básica, etc; inclui redundância em frames sucessivas; i3) armazenam-se os coeficientes do modelo de 16 canais, cada um podendo tratar um instrumento (identifica 128 instrumentos); 1 >> MIDI previsão em vez do sinal; 2 >> Possibilidades: suporte de DRM vs aúdio digital : 1. Vantagens Midi : a) Espaço em disco <: 200 a 1000 xs + pequenos que ficheiros digitais c/qualidade de CD e 20 a 100 q mp3; b) Tmp de transferência via Web menor; /// WMA (destrutivo ou não) - codec perceptual para competir com mp3; c) + manipuláveis (cada elemento pode ser m anipulado individual/); Limitações: a) Som - não é muito popular, embora usado em site devido a possibilidade de DRM artificial; b) Áudio gerado depende do dispositivo; c) Difícil a síntese de voz: dispositivos MIDI >> Possibilidades: a) CBR e VBR; b) Compressão não destrutiva; >>Qualidade: podem sintetizar voz mas a qualidade de som é baixa; d) Utilização requer conhecimentos Semelhante a mp3 mas melhor em bit rates até 64 kbps e inferior a AAC de teoria musical; 2 >> Conversão MIDI – digital : Fácil, porque na prática um ficheiro MIDI é /// FORMATOS FORMATOS /// WAVE : a) Armazenamento de dados em blocos etiquetados; actua renderizado cm áudio digital; Conversão digital – MIDI: Software de transcrição automática como wrapper de diversos codecs; b) 1ª parte do ficheiro contém informação de procura detectar elementos básicos no sinal digital (notas, instrumentos), m os resultados são formatação (id.do codec, nºde canais, freq.de amostragem, tamanho dos blocos); satisfatórios apenas em sinais monofónicos (e mesmo assim mudanças de timbre poderão c) 2ª parte: inf.dependente do codec – em PCM é só o nºde bits de quantização; ser notórias).
pode ser incluído um conj.de marcas, a def.de 1ordem de execução à custa dessas relativa ao áudio (em WAVE) é entrelaçada c/a do vídeo – entre a inf a cada 2 marcas e inf.relativa a cada marca; valores de amostragem. frames aparece a relativa ao áudio; c) multi plataforma // QuickTime a) igual a AVI mas no entrelaça/ usa espaços maiores (inf áudio a /// ASF – encapsula dados codificados com WMA possibilitando DRM e streaming cada segundo ou ½ seg); b) versões + recentes suportam streaming >>>>Motivação para a utilização de modelos de predição linear em codecs áudio não destrutivos: Codificar apenas os erros de predição (valor real – valor previsto, VIDEO E INTERNET a) mpeg e variantes; b) streaming: codecs baseados nos i.e, resíduos), os quais apresentam uma gama de valores mais reduzida. Assumindo ITU-T q define normas de codificação – 1) base no protocolo RTP (q assenta um intervalo de quantização fixo, são precisos menos códigos para representar em UDP); 2) formatos típicos – ASF, RealVideo, mpeg-4; c) codificação valores entre -0.1 e 0.1 do que entre -10 e 10, por exemplo. Porque motivo resulta de vídeo p aplicações em tmp real; VIDEO EM PROJ - quais os custos de bem na prática: Só faz sentido codificar os resíduos se estes forem pequenos. Isso produção e armazena/? ; quais os benefícios p transmissão da msg?; custos só acontece se for simples prever a sequência de valores numa onda sonora. Ora, justificam-se? em sinais áudio, amostras consecutivas apresentam valores semelhantes (em geral Programas de edição >> Windows movie maker: conj. De funcionalidades não há transições abruptas), pelo que modelos de predição funcionam bem. Deste restrito: captura, montagens simples na timeline, cortar, colar, transições e modo, as diferenças entre amostras consecutivas apresentarão valores baixos. efeitos simples, gravação em wmv; >>Adobe Premiere – vasta gama de Seria possível usar apenas as diferenças entre amostras. Porém, calculando-se os possibilidades resíduos, consegue-se uma gama de valores a codificar ainda mais baixa. Edição de Áudio - captura de vídeo; edição de vídeo (simples cm cortar, >>>> Vinil: som analógico, i.e., a onda sonora real, contínua, é impressa no disco de copiar, colar); efeitos especiais e títulos; mistura e sincronização de bandas vinil. Com equipamento adequado (boa gama de frequências, ressonâncias, satura- sonores; efeitos de remapea/ (cm slow motion); melhorar qualidade (cor, ções, disco em bom estado) a experiência de som será próxima do ideal (assumindo luminosidade, filtros áudio); gravação em diferentes formatos que os meios de gravação também foram os mais adequados), uma vez que não há grande perda de detalhe. CD: som digital, i.e., a onda analógica é amostrada e >>Frames I_são os maiores e têm a informação completa; devem aparecer quantizada. Em qualidade de CD, a frequência de amostragem é de 44100 Hz, o que em intervalos regulares com frequência alta para evitar grandes perdas se um permite som com frequência máxima de 22050 Hz (Teorema de Nyquist). Quanto à for perdido.; >>Frames P_baseiam-se na anterior; numero de Ps entre cada quantização, com 16 bits o ruído de quantização é baixo mas existe. A população par I limitado para evitar propagação de erros;>>Frames B_nc são usadas audiófila “exige” som perto da perfeição. Como há sujeitos, mesmo com mais idade, como referência pq têm mt pc informação e não propagam erros pq não estão com acuidade auditiva suficiente para discernir componentes de frequência acima envolvidos na descodificação de outras; de 22050 Hz, assim como o ruído de quantização, conseguem uma experiência de >>>> Codec MPEG: frames I (keyframes) são responsáveis pelo acesso audição mais pura em vinil, se usarem em equipamentos de qualidade superior. aleatório (vídeo pode ser apenas reposicionado nos locais onde haja >>>> Freq e num bits = qualidade: Frequência de amostragem (fs): - Qualidade: keyframes) . No caso do DayliMotion, as frames I estão intervaladas mais de pelo teorema de Nyquist, a fs deve ser pelo menos o dobro da frequência máxima no 10 segundos (ao contrario dos 0.4-0.5seg recomendados, i.e., 10 a 15 frames). sinal. Assim, se a fs aumenta, a frequência máxima que o sinal pode conter também A DailyMotion tomou essa decisão para diminuir o tamanho dos ficheiros, de aumenta. Se o sinal analógico original tiver frequências muito altas, o aumento da modo a diminuir-se a largura de banda necessária para transferir os ficheiros e fs leva a uma melhoria da qualidade do sinal digitalizado (particularmente relevante o espaço em disco necessário para os armazenar. Como as frames I são as de para ouvidos apurados). - Dimensão do ficheiro: aumentando-se a frequência de maior dimensão, optou-se por reduzir o seu número, aumentando o número de amostragem, aumenta o número de amostras por segundo. Logo, a dimensão do frames P e B cujas taxas de compressão são bastante mais elevadas. ficheiro aumenta; Nr. de bits de quantização (nb): - Qualidade: aumentando-se nb, o >>>>MPEG-4, 2 seg: Frames P: No intervalo de tempo em que uma imagem é valor digital de cada amostra recolhida fica mais próximo do original analógico, i..e, apresentada, todas as frames são exactamente iguais. Assim sendo, após uma o erro de quantização diminui. Como tal, a qualidade do sinal melhora - Dimensão dada keyframe, ao codificar-se uma frame P, todos os n vectores de movimento do ficheiro: com mais bits para representar cada amostra, a dimensão do ficheiro serão nulos. Neste caso, todos os macro-blocos são marcados como skipped aumenta macro-block, pelo que os resíduos não precisam de ser calculados. Temos então n vectores de movimento nulos a codificar via DPCM. Como são constantes e iguais a zero, os erros de predição são nulos. Essa sequência /// VIDEO DIGITAL de erros é depois representada por meio de um codificador entrópico (e.g., >> Possibilidade de fluxo variável – CBR (vídeo em tmp real, sem buffer);VBR (+ bits Huffman). Como há apenas um símbolo, será representado apenas por um em cenas de transição rápida e – em variações lentas) bit, tipicamente com o valor 0. Temos agora uma sequência de n bits a zero. >> Método geral: reduzir redundância a) espacial (correlação entre px vizinhos Esta sequência é representada via RLE com recurso a apenas um símbolo do – compressão intra-frame); b) espectral (freq as quais o olho é – sensível; comgénero <0, n>, em que 0 representa o código e n o comprimento da sequência. pressão intra-frame); c) temporal (correlação entre frames vizinhas – compressão >>>> MPEG-4, a 24fps durante 30seg: Frames I: A 1ª frame terá que ser inter-frame: codifica c/base nas diferenças entre frames) sempre I, para servir de referencia ao futuro. Além disso, para acesso aleatório >> Codecs Lossless (2:1 e 5:1) >> 1. compressão intra-frame, c/base em algorité importante adicionar uma frame I a cada 10-15 frames. Para simplificar mos n destrutivos de img; >> 2. utilidade: arquiva/ e tmp real os cálculos, podemos considerar uma frame I a cada 12 frames (considerei >> Codecs Lossy (100:1 / 30:1 a 40:1) >> 1.compressão intra-frame, c/base em correcto qualquer outro valor). Resultado: 2 frames I / segundo x 30 segundos algoritmos destrutivos de img; >>2. compressão inter-frame; >> 3. utilidade: difusão = 60; Frames B: Como o vídeo é estático, a utilização de frames B não traz de TV, home cinema qualquer; compressão adicional face às frames P (nas frames P, todos os mac /// MPEG - requisitos: a) compressão elevada (intra-frame não chega); b) acesso ro-blocos serão marcados como skipped, pelo que o seu custo será próximo aleatório a frames; c) fforward e freverse; d) reverse playback; e) editabilidade do bit de zero). Como a análise levada a cabo nas frames B é mais complexa que stream comprimido. nas frames P, as frames B não são utilizadas. Resultado: 0; Frames P: Todas as - Codificação intra-frame: Frames I: codificadas de forma semelhante a JPEG; restantes. Total de frames = 24 x 30 = 720. Resultado: 720 –60 = 660 keyframes;Codificação inter-frame: a) Frames P – compensação de movi/ relativa/ a frames P ou I; b) Frames B – compressão máxima; c) explora redundância tempoPROJECTO // Etapas // 1. Planeamento : 1. a ideia >> recolha da ideia do cliente ral (diferenças entre frames e compensação de movi/); Downsampling temporal: – definição da big Picture (rsp às questões o quê, pq, como e perceber se vale a pena redução do nº de fps; avançar) >> compreender o cliente e a sua cultura; >> clarificar informação menos clara; /// MPEG-1 a) aplicações multimédia em CD-ROM; b) bit rate: 1.5 Mbps; c) com>> recolher inf.suficiente p escrever 1proposta >> explicar questões q o cliente possa ter; pressão: 50:1 a 100:1; d) qualidade: semelhante a VHS; e) eficiência computacional: >> analise do mercado – publico alvo; >> formulários para recolher td a informação descompactação – requisitos satisfeitos (só reordenar frames) ; compactação mt relevante >> Request For Proposal (RFP) – proposta + formal, c/ documentos detalhados típica/ por empresas q fzm outsourcing do desenvolvi/ multimédia; conteúdo habitual: lenta por software – problemas em tmp real; f) áudio: mp3; g) vantagens: ficheiros descrição do prob, objectivos e mot ivações; audiência; modelo de comunicação – qual a pequenos e baixos custos de produção; h) desvantagens: qualidade relativa/ baixa para aplicações HD; Algoritmo >> a) compensação de movi/ entre frames consecu- msg a passar e como; 2. determinação das tarefas essenciais: >> estratégia do tipo tivas: dado um MC (16x16), procura correspondência numa frame passada ou futura; divide & conquer: big Picture; fases de produção; definição de tarefas e itens + varias iterações típica/ necessárias; 3. definição dos conteúdos >> ideia b) DCT para representar blocos c/ dados reais (frames I e diferenças entre frames); específicos; geral do ambiente sonoro, visual e textual – q tipo de com ponentes áudio, vídeo, c) DPCM para codificar componente DC dos coeficientes da DCT e vectores de animações?; >> selecção de meios: definir condicionantes à utilização de meios e movi/; - cada MC é dividido em luminância e crominância (YUV); - Compressão das técnicas; compreender e tirar partido das virtudes e limitações de cada meio; envolver Frames I: codificação intra-frame; DCT em blocos 8x8; quantização dos coeficientes especialistas de cada meio (se o orça/ der); manter como parâmetro principal as necessidades do utilizador; 4.definição da plataforma >> plataforma do utilizador final e da DCT ([] de valores + reduzido e mt valores=0); zig-zag; codificação entropica (Huffman e RLE); - Compressão das Frames P: baseia-se na estimação de movi/ plataforma de desenvolvimento: discutir c/cliente as plataformas de desenvolvi/ e utilização; aconselhar sobre meios de distribuição; compreender e explicar as entre frame N e N-1 (do tipo I ou P); se tds os elementos sofrerem um desloca/ implicações da escolha de plataforma; >> analise da distribuição – de q forma será semelhante, as frames podem ser descritas por vectores de movi/ - para estimar entregue o produto final? >> que ferramentas para edição de som, vídeo, etc? Estão o vector procura um bloco (algoritmo de pesquisa); regiões estáticas = matching disponíveis? >> ferramentas de apoio à gestão de projectos, design colaborativo, perfeito; p regiões dinâmicas a predição n é perfeita, pq os vectores podem n pré-authoring; 5. selecção da equipa >> listar o pessoal necessário em função das corresponder ao desloca/ efectivo – solução é guardar resíduos (imgs c/erros de caractristicas do proj; >> verificar os recursos disponíveis e os q será necessário previsão); - Comp.d Frames B: usa vector backward, forward e codificam erro c/ contratar; >> seleccionar os elementos >> definir as funções e responsabilidades de cada membro; >> inteirar os elementos das suas funções no proj; 6. escalona/ temporal base em interpolação( substrair ao bloco a média do passado e futuro) – dp DCT, Quant, RLE; Compensação de Movimento // Tipos de blocos Codifica-se imgs de das tarefas e atribuição de funçoes >> qual a disponibilidade de tempo? >> diagrama de gantt: fluxo temporal das tarefas - algumas tem q esperar o término de tarefas resíduos e vectores de movi/ c/ DCT, Q, RLE. (vectores de movi/ é Huffman!) .. em pré-requeridas; algumas etapas podem começar antes do fim das etapas anteriores; MB q podem ser de 3 tipos: a) Skipped MB (variação inferior a limiar – assume-se pré-requisitos de cada tarefa; estimação da duração de cada tarefa e seus responsáveis; q bloco n sofreu alterações e p/isso n precisa ser codificado (zero motion vector)); 7. analise de risco: >> quais os riscos de cada tarefa e quais os planos de contingência; b) Inter MB (bloco codificado c/compensação de movi/); c) Intra MB – erro elevado: 8. elaboração da proposta >> 8.1. orientações gerais >> elaborar uma proposta realista codifica-se sem previsão, cm nas frames I. Se houver mts intraMB codifica-se a e justa, tt p o cliente cm p a equipa de desenvolvi/: a) custos: (estimação geral dos custos frame como I; - DPCM: componente DC e vectores de movi/ codificados via DPCM envolvidos: recursos humanos, hardware, software;qual a verba necessária? Compatível com as restrições orçamentais?); b) tempo de desenvolvi/; >> nao fzr promessas difíceis (codifica as diferenças); Codificação entrópica: coeficientes da DCT, resíduos e de cumprir: por vezes sabe-se q a proposta estará em competição c/outras, o q cria parâmetros de quantização – Huffman e RLE /// RESUMO: 1. conversão RGB – YUV; 2. Downsampling:Y na totalidade, U e V em metade em ambas as direcções; 3. pressão p + do q o razoável – riscos p o desenvolvi/; balancea/: necessário reajustar 1ª frame: tipo I; 4. Frames seguintes – analise dos MB e codificação no tipo de frame objectivos em função dos recursos disponíveis – reavaliação; >> tomar decisões baseado em factos e no julga/ de riscos; >> propor alternativas ao cliente; 8.2. conteúdo + adequado (qd é mt variação ou é preciso keyframe é I; compensação de movi/ genérico da proposta: >> sumariar as decisões de desenvolvi/, tendo por base: backward é P; compensação de movi/ backward / forward é B); 5. DCT: blocos 8x8 informação recebida do cliente; experiencia do gestor de projectos; discussões c/ nas frames I (Y,U e V) e blocos 8x8 nas imgs de resíduos (P e B) 6. Quantização dos membros da equipa; alternativas de desenvolvi/ 8.3. conteúdo especifico da proposta: coeficientes da DCT; 7. DPCM aplicada aos vectores de movi/ e componentes DC; 8. introdução geral; indicação do q o cliente quer; indicação das necessidades do utilizador; Codificação Huffman e RLE aos coeficientes da DCT quantizados e aos da DPCM; descrição geral do q se propõe; variações possíveis; diagrama da estrutura proposta; descrição dos recursos humanos envolvidos; divisão do trabalho e calendarização; ///MPEG-2 a) aplicações para difusão de TV digital, DVD; b) melhor resolução e qualidade nas imgs q MPEG-1; c) suporta vídeo entrelaçado (adequado ao sinal da estrutura de custos e pagamentos; indicação das limitações da proposta;9. definição de questões contatuais >> detalhar os custos do projecto de modo a facilitar o seu TV); d) bit rate mt superior a de MPEG-1; e) taxa de compressão: 50:1 a 100:1 >> definir responsabilidades (fornecedor de serviço; cliente); >> definir c/cliente >>Melhorias face MPEG-1 a) + precisão nos vectores de movi/; b) precisão selec- controlo; formas de trabalho em comum; >> clarificar questões legais (politica qt a licenças de cionável na DCT (até 10 bits de quantização); c) escalabilidade: Scalable Vídeo terceiros; drt a apresentar créditos pelo desenvolvi/; exclusividade; copyright – proprieCoding (permite adequar-se a ≠ receptores) dade sobre o código fonte, politica de reutilização); 2. Design >> 1. pré-testes >> >>Profiles e Levels a) implementação total é mt complexa e p/isso usam-se profiles definição detalhada dos objectivos; definição detalhadas das competências necessárias definição dos conteúdos; criação de um protótipo simples; analise da estragia de – subconj da implementação total orientados p aplicações específicas; b) levels: marketing e vendas; 2. definição de conteudos >> 2.1. orientações gerais: gama de parâmetros suportados (p.ex p TV digital n é escalável) assegurar-se q os conteúdos são adequados p a msg e p a audiência; definir limites p a >> Organização – Parts a) Part 2: Vídeo; b) Part 3: Áudio – mp3 c/+ q 2canais, pesquisa de conteúdos; influenciar a selecção de conteúdos feita pelo cliente; manter outras taxas de amostragem e bit rates; c) Part 7: AAC uma visão global do projecto, mm enqt se trabalham os detalhes;guiar o cliente na >>MPEG-3 integrou-se em MPEG-2 através de novos profiles e levels; avaliação de conteúdos; acordar tmps de analise nºde revisões; providenciar q sjm ///MPEG-4 a) extensão p suporte de obj.audio e vídeo, conteúdo 3D, DRM, stream- assinados acordos de conteúdos; 2.2. definição de conteúdos: scripting : tomar ing de vídeo, representação simbólica de música; b) pouco aceite pq tem melhorias decisões sobre os materiais adequados ao propósito do proj (áudio, vídeo, animações); pc notórias em relação aos custos de desenvolvi/ e tmp computacional estudar impacto das escolhas dos utilizadores na estrutura do proj; comunicar c/ programador; organizar material num doc.de especificação q possa ser entendido pela MPEG-4 Part 2 // Melhorias face MPEG-2 (m c/efeito negativo na velocidade) equipa; 3. prototipagem >> 3.1. objectivo: estudo de conceito ou prova de adequação a) global motion compensation: estimação do movi/ global através de um modelo (experimentação c/ abordagens, formas de navegação); 3.2. diagrama de navegação paramétrico; b) Qpel – vectores de movi/ + precisos (precisa + bits) – esquema geral das ligações entre unidades, p dar coesão ao projecto: esquema geral MPEG-4 Part 10 >> 50% de ganho em bit rate sobre o Part 2, sem complexidade das ligações entre as varias unidades da aplicação; ajudam a organizar o conteúdo e as excessiva:a) compensação de movi/ até 16 frames de referencia; b) blocos de interacções; >> metodologias: linear – navegação sequencial entre ecrãs; hierárquica dimensão variável; c) vários vectores por MB (tem várias imgs de ref); d) Qpel; e) – navegação ao longo dos ramos de uma arvore, atendendo à natureza lógica co Frames B podem servir de referencia conteúdo; nao-linear – navegação livre, sem restrições de sequencia: importante p os ≠
/// Outros ///DivX - ≠ implementação da MPEG-4 Part 2 ///WMV - ≠ implementação da MPEG-4 Part 2; utilizado como wrapper do ASF; para DRM e streaming; /// MJPEG >> cada frame é codificada separada/ cm JPEG; n usa inter-frame – menos capacidade de compressão mas + facilidade de edição de vídeo Possibilidades: a) taxa de compressão entre 2:1 e 12:1; b) vídeo de alta qualidade = ficheiros mt grandes; c) codec simétrico; d) utilização: câmaras de vigilância ///DVI >> quantização vectorial: a) + flexível q a escalar; b) utiliza dicionário q permite > compressão; >> compressão inter-frame pela quantização da magnitude e direcção de movi/ de cd pixel; >> DCT, RLE...; Possibilidades Compressões 80:1 mas qualidade n mt elevada; /// Indeo Vídeo codec assimétrico (compressão mt superior a descompressão); ///IVI >> a) evolução do Indeo: suporta transparências; b) descodificação localizada permite descodificar só uma parte; c) escalabilidade q evita perda de frames se o poder computacional é insuficiente; d) ajuste de parâmetros (brilho, contraste) durante execução; e) codec assimétrico se > taxa de compressão e simétrico se menor taxa de compressão (pode-se utilizar em tmp real) ///Cinepak >> a) quantização vectorial e compressão inter-frame; b) qualidade média (bom p CD-ROM?); c) codec assimétrico (comp = 300*descomp); d) utilização: vídeos com mt movimento; e) em relação ao Indeo: vantagens – 1) sequencias c/ elevado dinamismo; 2) reprodução de vídeo com prof.de cor de 16 ou 24 bits; desvantagens – sequencias c /movi/ lento. FORMATOS /// AVI a) arquitectura aberta q permite vários codecs; b) informação
utilizadores (escolha); composta – navegação livre mas, ocasional/, restrição a navegação linear; >> estrutura: a) profundidade: mapa de navegação completo e explícito, c/ tds as ligações entre unidades; b) superfície: navegação real pelo utilizador (utilidade: olhar p o produto segundo a óptica do utilizador; empresas de marketing usam-nas no estudo do comporta/ de utilizadores através de Web site, de forma a analisar os seus perfis, avaliar a eficácia do design e conduzir o utilizador para um dado percurso); 3.3. storyboard – versão do diagrama de navegação, organizado sequencial/, ecrã a ecrã, em cada ecrã contem layout genérico e notas de design; 3.4. design de interface – mecanismos de interactividade; a) conhecer vários tipos de interfaces e a sua adequação a diversos tipos de aplicações; b) compreender os vários componentes de uma interface e o seu significado p os utilizadores (ex.codigo de cores); c) em mapas de navegação n-lineares há demasiada liberdade q pode or iginar perda de unidade e coesão: guiar utilizador, dando indicações relativas a importância, ênfase e direcção (variação de fontes, cores, indentação) e definir ancoras seguras – botões q levem a locais de referencia (menu principal, help); d) minimizar a curva de aprendizagem: botões c/sentido, ícones intuitivos, dicas textuais; botões interactivos (realçados qd rato se sobrepõe); consistência ao longo da aplicação; manter metáforas de sucesso (ampulheta para pausas); formas alternativas de navegação – mapas cronológicos, QTVR c/hotspots clicáveis; e) interface áudio – musica de fundo com sentido, on/off; f) texto – fonte adequada ao contexto; g) analisar interface à luz do publico alvo, tendo em vista identificar possíveis problemas de interpretação – testas a interface c/ representantes do publico alvo; 3.5. desenvolvi/ das msgs – textos, animações, vídeo; 3.6. teste do protótipo – tecnologia, custo, mercado; selecção de um grupo de teste: utilizadores potenciais; 3. Produção >> 1. aspectos gerais a considerar: 1.1. tarefas contínuas de re-organização - imprevistos devem ser considerados parte do plano: avaria de disco, etc; 1.2. questões de design n contempladas – voltar a reunir c/cliente
p esclareci/: definir modelo de comunicação adequado c/cliente e equipa: definir modelos de ciclos de aprovação e mecanismo de alterações; incluir aprovação formal de tarefas já terminadas; 1.2. monitorização permanente do evoluir da produção: manter organização e n deixar o prazo e custo escorregarem – gestor de projecto tem de definir milestones do proj e para cada elemento; 1.3. verificar motores antes do inicio da corrida: Organização administrativa e de recursos humanos ok? hardware e software de desenvolvi/ ok? Rede em funcionamento, computadores e monitores, adequados, versões actualizadas de software?; Múltiplos monitores e de dimensão adequada? a) Sistemas autor multimédia (e.g., Director, Flash) contêm várias janelas que, idealmente, deverão ser visíveis em simultâneo; b) Edição de conteúdos requer a utilização de várias janelas em simultâneo (e.g., diferentes resultados de edição de imagem no Photoshop); c) Produtividade aumenta: menos tempo a minimizar e maximizar janelas, conteúdos visíveis em simultâneo, etc; 1.4. Análise de risco: Ter alternativas planeadas, em caso de impacto negativo; 1.5. Orientações gerais: n gastar + recursos q necessários; 2. Desenvolvimento alpha >> produto corresponde à primeira versão preliminar do projecto – Poderá conter erros e imprecisões no design e comportamentos implementados; Tipicamente disponível apenas para circulação interna; >> definição detalhada do storyboard e mapas de navegação; >> finalização de scripting; >> definição de uma politica de controlo de versoes (Para restauração de alterações realizadas sem sucesso, mudança de ideias, recuperação de erros, etc); >> produção audio: a) finalidade: criação de contexto emocional - efeitos especiais, som ambiente, narrações; cuidados na adição de som/v ideo aos projectos: finalidad, qualidade, questoes tecnicas (formato, compressao, sincronização – cue points); b) tarefas: contratar estudio e artista; assegurar-se que os guiões estão prontos na data combinada ; Assegurar-se que a sessão de gravação decorre sem problemas; Verificar que o material é produzido de acordo com as especificações ; adquirir e tratar audio conforme necessario: normalização de volume, filtragem; >> [ produçao de video: a) finalidade:ferramenta poderosa p aproximar utilizadores do mundo real; metodo eficinte p apresentação de 1msg a uma audiencia habituada à TV (elemento multimedia c/elevado poder de imersao – msg passada de forma + eficiente; menos q realidade virtual); aumento da capacidade de retençao; b) dificuldades: caso n seja bem planeado, poderá ter um efeito negativo (fraca resolução ou frame rate); requisitos de desempenho + elevados (CPU e m emoria): espaço de armazena/ elevado e numa maquina lenta rendering pode demorar horas; ponderar bem os custos e benefícios; c) Tarefas: Contratar equipas de produção, artistas, entrevistados, etc; Explicar aos c lientes as limitações de utilização do vídeo; Assegurar-se que as sessões de filmagens decorrem sem problemas; Verificar que o filme resultante é editado de acordo com as necessidades; Adquirir e tratar vídeos conforme necessário (dimensão, cor, som); Escolher o método de compressão mais adequado para a aplicação]; >> [ produção de arte gráfica: [finalidade: Impacto visual é fundamental num produto multimédia; Ícones intuitivos guiam o utilizar de forma imediata; Imagens são uma ferramenta importante na imersão do utilizador (80% do conhecimento humano é através da visao);]; Qualidade deve ser elevada, com baixo espaço de ar mazenamento: profundidade de cor, taxa de compressão, imagens vectoriais (se possível); [tarefas: Formar equipa gráfica; Verificar se a especificação de necessidades é correctamente transmitida à equipa ; Efectuar a ligação entre a equipa gráfica e o cliente, relativamente a alterações ou outros problemas; Criar componentes necessários; Fotos, desenhos, ícones; Adquirir e tratar imagens conforme necessário; Melhoria de contraste, cor, filtragem, etc; Arquivar os ficheiros gráficos num formato de alta qualidade]; Produção de texto: Assegurar-se que o texto existente é verificado - Erros de typeset, OCR, consistência na formatação, etc; Utilização de fontes adequadas ao contexto; Texto legível - Fonte, dimensão, cor, contraste ; Propriedade intelectual: Assegurar-se que existe permissão de utilização de todos os meios utilizados no projecto. Em caso de necessidade, consultar especialistas na matéria; [I ntegração: Formar equipa de software; Assegurar-se que a especificação é correctament e entendida pela equipa; Controlar o desenvolvimento da aplicação e efectuar a ligação com o cliente; Definir questões de copyright de código em cada ficheiro e incluir nota no início – entrega de codigo fonte ou apenas executavel? Quais os direitos do cliente na sua manipulação;]; Teste do protótipo functional - Verificação do cumprimento dos objectivos do cliente (operacionais, estéticos, usabilidade, desempenho, ...)]; 3. desenvolvimento beta: 3.1. Ideia - Produto próximo da versão final do projecto - Poderá conter alguns bugs, mas não erros de fundo (requisitos, design); 3.2. Circulação externa restrita (Distribuição a um conjunto restrito de testers externos; Cuidados redobrados: reputação externa começa a ser criada); 3.3. Teste da versão beta; 3.4. Preparação da documentação para utilizadores; 3.5. Preparação do pacote final; 3.6. Publicidade (imprensa, listas de distribuição, ...) /// Notas finais: 1. A fase de produção é habitualmente alvo de feedback e modificações : 1.1. Projectos que “congelam” o design demasiado cedo t ornam-se frágeis porque desperdiçam a oportunidade de melhorias incrementais: O design e a produção vão, habitualmente, de mãos dadas - processo iterativo aberto e não estanque; 1.2. Mas... Equilíbrio necessário! - Demasiadas modificações geram instabilidade, o que pode conduzir ao fracasso do projecto (custo temporal e monetário dispara; balanceamento “modificação vs custo” ); 2. Metodologias híbridas: clássicas vs ágeis; 3. Designers e implementadores devem trabalhar de forma próxima - Ideias dos designers são exequíveis na prática? Implementadores devem ser fiéis às ideias dos designers; TESTE: 1. Definição dos testes a serem efectuados e supervisão do processo (Funcionais, estéticos, usabilidade, desempenho); 2. Constituição da equipa de teste: deve ser exigente e “agressiva”: todos os aspectos do trabalho deverão ser postos em causa para que a qualidade do produto final seja a melhor – Aspectos positivos reforçados; negativos melhorados; tarefa r equer personalidade muito específica: indivíduos com capacidade acima da média de olhar para o detalhe, minuciosos, rigorosos e pacientes ; Beta test ing : Não deverá envolver pessoas envolvidas na produção do projecto (ideias pré-concebidas são prejudiciais); 3. Resposta a relatórios de erros - Formulários devem permitir a replicação exacta das condições de erro, para a sua análise e correcção: Plataforma de software e hardware, Passos executados, Comentários e sugestões; 4. Demonstração junto do cliente - Testes exaustivos concluídos antes da demonstração: poderá ser difícil recuperar de uma situação de perda de reputação por apresentação prematura - preferível negociar adiamento, se necessário e possível; 5. Entrega: 5.1. Escolha do meio de distribuição - CD, net,... ; 5.2. Preparação do programa de instalação (e seu teste...) - Documentação de instalação e requisitos da plataforma: ficheiro README.txt (CPU, memória, resolução gráfica, disco, software (e.g., codecs de vídeo, Flash Player, e como os obter em caso de necessidade)); 5.3. “Packaging”: a) Efeito psicológico: tal como num livro, o aspect o da capa é importante - 1ª impressão é sempre impor tante: Volume da caixa do CD, aparência do site do jogo, estilo, peso, etc., influenciam a percepção de valor pelos utilizadores - Utilizadores e ambiente pagam custos de aparência, Actualmente, custos ambientais com mais impacto; Manual de instalação e utilização; b) Marketing ((Resultados no topo no Google; Título deve ser bem visível numa estante)); 5.4. Preparação do apoio técnico (Web site c om páginas de apoio técnico (FAQs, resolução de bugs, upgrades e relatórios de alterações)); 5.5. Criação de uma equipa de vendas; 5.6. Pagamento de prémios e bónus; 5.7. Festa de lançamento (FIM) /////////////////////////////////// 1. Gestão da equipa ; 1.1. Negociar em nome da equipa; 1.2. Motivar e dirigir a equipa; 1.3. Criar bons meios de comunicação entre os membros da equipa; 1.4. Utilizar estilos de gestão adequados a cada momento e à equipa: Directivo, Consultivo, Colaborativo, Descentralizador; 1.5. Identificar e corrigir dificuldades no funcionamento da equipa (funcionais, de decisão e de relacionamento); 1.6 Identificar e resolver problemas externos que afectem a equipa. Há dois tipos fundamentais de transparência em imagens: por definição de cor transparente (e.g., GIF) ou por utilizar de um canal alpha (e.g., PNG). Cor transparente: o JPEG não a suporta por ser um codec destrutivo, o qual não garante que a cor original se mantenha inalterada. Canal alpha: Nos canais alfa temos, tipicamente, valores máximos ou mínimos para cada pixel (i.e., valores 0 ou 255). Assim sendo, a matriz correspondente ao canal alpha conterá transições abruptas, as quais apresentam as dificuldades conhecidas: Q alto pouca compressão; Q baixo muita distorção. Pelos motivos enunciados, a especificação do JPEG não suporta nenhum tipo de tranparência. Frequência de amostragem (fs): - Qualidade: pelo teorema de Nyquist, a fs deve ser pelo menos o dobro da frequência máxima no sinal. Assim, se a fs aumenta, a frequência máxima que o sinal pode conter também aumenta. Se o sinal analógico original tiver frequências muito altas, o aumento da fs leva a uma melhoria da qualidade do sinal digitalizado (particularmente r elevante para ouvidos apurados). - Dimensão do ficheiro: aumentando-se a frequência de amostragem, aumenta o número de amostras por segundo. Logo, a dimensão do ficheiro aumenta Nr. de bits de quantização (nb): - Qualidade: aumentando-se nb, o valor digital de cada amostra recolhida fica mais próximo do original analógico, i..e, o erro de quantização diminui. Como tal, a qualidade do sinal melhora - Dimensão do ficheiro: com mais bits para representar cada amostra, a dimensão do ficheiro aumenta a) Imagem true color = 24 bits (e não 32 bits porque o canal alpha, i.e., transparência, não é utilizado em vídeo) TF = Tamanho de cada frame = 300x200x3 bytes = 180000 bytes = 180 KB TS = Tamanho por segundo = TFx25 fps = 180 KB x 25 fps = 4500 KBps = = 4.5 MBps Dimensão do ficheiro = 4.5 MBs * 120s = 540 MB Bit rate = 4.5 MBps = 4.5 x 8 bits = 36 Mbps b) bitrate = 36 Mbps / 100 = 0.36 Mbps = 360 kbps c) O codec MPEG explora redundância espacial, espectral e temporal, com base em três tipos de frames utilizadas: · Frames I: compressão intra-frame o Exploram redundância espectral e espacial, de forma semelhante ao JPEG, i.e., eliminação de informação com menor relevância perceptual (presente na crominância, Cb e Cr), quantização dos resultados da DCT e codificação entrópica (RLE, Huffman) · Frames P e B: compressão inter-frame o Exploram redundância temporal o Compressão adicional pela utilização de mecanismos de previsão e não apenas pela detecção das diferenças entre blocos em frames consecutivas compensação de movimento “Nokia 5300 Xpress Music” possibilita som com qualidade de CD no formato AAC a 128 kbps. V ou F? · Em termos estritamente objectivos e quantitativos, a afirmação é falsa: o Bit rate da qualidade de CD: Frequência de amostragem = 44100 Hz Quantização = 16 bits Nº de canais = 2 (stereo) Bit rate = 44100 x 16 x 2 = 1411200 bps ~ 1411 kbps, o que émuito superior a 128 kps! o AAC elimina, de forma irreversível, informação contida no sinal original, pelo que o sinal áudio nunca será igual ao sinal obedecendo aos requisitos referidos de qualidade de CD · Subjectiva e qualititativamente, a afirmação poderá ser verdadeira: o O AAC é um codec perceptual, de modo que a informação eliminada é, em geral, imperceptível ao “comum dos mortais” (componentes de alta frequência, sons mascarados no tempo ou no espectro), como o confirmam testes de audição realizados em vários indivíduos o Porém: As perdas poderão ser detectadas por indivíduos com maior acuidade auditiva A detecção de perdas é também influenciada pela qualidade do equipamento de reprodução de som · Assim sendo, a afirmação, sendo objectivamente falsa, é aceitável do ponto de vista subjectivo