Jorge Duarte Antonio Barros Organizadores
Métodos e Técnicas de Pesquisa em Comunicação
Material do Portal Atlas
SÃO PAULO EDITORA ATLAS S.A � 2012
Sumário 26 � ANÁLISE E MINERAÇÃO DE TEXTOS E DADOS, 3 O desenvolvimento de bases e análises de dados e textos nas organizações, 4 Coleta e armazenagem: os supermercados de dados, 5 Tratamento e preparação de dados e textos: condição de qualidade, 5 Mineração de dados, 6 Exemplos de aplicações inteligentes de mineração de dados, 7 Relacionamento com clientes, 7 Fraldas e cerveja, 7 Mineração de textos, 7 Exemplos práticos de mineração de textos, 9 Coorte 2 (25 a 34 anos), 11 Coorte 5 (mais de 55 anos), 11 Desenvolvimento de produtos (transferência, tecnologia, negócios), 11 O nível dos especialistas, 13 Competências em risco, 14 Uma aplicação na comunicação, a midiametria, 14 A base clipping, 15 Resultados, 16 Características das coberturas, 16 O esforço dos centros de pesquisa, 19 Análise das palavras chaves e temas, 21 Conclusão, 23 Referências bibliográficas, 24 Anexo 1, 26
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
2
26 � Análise e mineração de textos e dados Roberto Penteado1 Há uma tendência universal para uma “superoferta de informação”. Naisbitt (Apud Faria e Quoniam, 2002) foi quem melhor resumiu esta situação: “estamos afogados em informação mas sedentos de conhecimento”. Faria e Quoniam (2002) assinalam que a cada ano o conhecimento humano dobra de volume. Por ano se editam, no mundo, mais de 700 mil livros - quase 2 mil por dia - e de 100 a 300 mil revistas científicas trazendo perto de 10 milhões de novos artigos científicos. São geradas mais de 1 milhão de patentes por ano. Já na Internet existiam mais de 2,5 bilhões de páginas com 550 bilhões de documentos linkados, acima de 8 mil bases de dados disponíveis para acesso e se contava em centenas as diferentes ferramentas de busca. Esta realidade cria um dilema e uma necessidade que contribuem para o inevitável desenvolvimento da análise e mineração de textos e dados nas organizações. O dilema diz respeito às diferenças entre a informação disponível e a informação necessária: “a informação disponível é abundante, incompleta, duvidosa, pública e confusa. Já a informação necessária é sintética, completa, confiável, confidencial e precisa” (Faria e Quoniam, 2002). O uso da informação disponível é limitado. Quanto mais bruta estiver a informação, mais lentamente o Decisor pode se apropriar dela. Enquanto para tirar sentido da informação bruta pode-se levar mais de um dia, a informação estratégica processada e validada pode ser entendida e apropriada pelo Decisor em apenas um minuto. Quoniam (2001) afirma que esta deve ser “a informação certa, na hora certa, entregue na forma certa, à pessoa certa e deve resultar na decisão certa”. O uso é que determina seu real valor. Se a informação não for usada, seu valor é zero. A necessidade refere-se ao fato de que, para permanecerem viáveis e saudáveis, as organizações devem dominar metodologias e técnicas e ter recursos humanos e materiais capazes de realizar as operações exigidas para criar a informação necessária . Por isso, Levet (2001, p. 38) afirma que “não é mais o acesso à informação que é a mola do crescimento e do emprego mas a aptidão dos atores em transformar, compreender, interpretar e utilizar a informação”. E isto foi reconhecido pela comunidade internacional nas normas de qualidade ISO. A norma ISO 14000, de 1996, cria um sistema de gestão ambiental que requer registro e análise de informações sobre legislação ambiental, processos e produtos, subcontratantes e fornecedores, situações de crise e capacidade de reação, além de aspectos ambientais significativos. Dou (1999) identifica que as organizações precisam se antecipar em relação aos concorrentes. Carecem, portanto, de uma informação do presente ou do futuro próximo e devem usá-la o mais rápido possível. O que está em jogo é sua capacidade de analisar, em tempo real, o máximo de informações possíveis e estabelecer, a partir desta massa, um número significativo de inteligências econômicas, financeiras, jurídicas, diplomáticas, culturais, sociais, científicas e políticas. Perceber, antes dos concorrentes, sinais fracos, indicando uma oportunidade de negócio ou uma tecnologia e agir neste sentido pode resultar em grandes vantagens competitivas. Estas metodologias e técnicas para “construir, associar, tratar e utilizar informações para fins 1
Roberto Penteado é jornalista prossional há 33 anos e trabalha na Embrapa. Cursou Relações Internacionais, no Instituto de Estudos Políti cos de Paris, Mestrado em Comunicação de Massa, na Universidade da Flórida e o Diploma de Estudos Aprofundados em Inteligência Com petitiva, na Universidade du Sud, Toulon-Var. É Doutor em Ciência da Informação e da Comunicação pela Universidade du Sud Toulon-Var.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
3
operacionais, de pesquisa, de agregar valor ou de conquista comercial” (Dou, 1999) são o principal objeto deste artigo. Referem-se a um processo bem definido que tem sua produtividade ampliada com as novas tecnologias de armazenagem de dados, surgidas nas últimas décadas, e não dispensa a preparação e reformatação dos dados e textos antes das análises, realizadas em duas vertentes, a mineração de dados e a mineração de textos.
O desenvolvimento de bases e análises de dados e textos nas organizações Uma das melhores descrições gráficas do processo de mineração de dados e de textos para gerar a informação necessária foi feita por Faria e Quoniam (2002, p. 10). No caso, eles se referem ao Ciclo de Inteligência. Veja na Figura 1.
Como chegar à informação necessária ?
Aplicação, Avaliação e Atualização
Disseminação
Diagnóstico
Planejamento
Tratamento, Coleta e Análise e Armazenagem Síntese
FIGURA 1: O processo de geração da informação necessária: o Ciclo da Inteligência (Faria e Quoniam, 2002)
Trata-se de um processo de seis etapas: Diagnóstico; Planejamento; Coleta e Armazenagem; Tratamento, Análise e Síntese; Disseminação; Aplicação, Avaliação e Atualização. Não cabe neste artigo dar uma explicação detalhada sobre todas estas etapas até mesmo porque as denominações são autoexplicativas. O leitor deve saber, no entanto, que este é um processo geral, a ser utilizado para cada operação de mineração e análise de dados e textos. Duas observações são necessárias: a primeira, sobre a etapa de Coleta e Armazenagem, e a segunda, sobre o Tratamento.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
4
Coleta e Armazenagem: os supermercados de dados Quoniam (1999)alerta que, na conquistada informaçãonecessária, uma dasprimeirasprovidências seria a integração de todas as informações em um sistema único para “informação à inteligência”. Esta necessidade de integrar informações foi um dos fatores que contribuíram para o desenvolvimento de um novo conceito de organização de dados, os supermercados de dados ( Datawarehouse-DW). Sua origem foi nas grandes cadeias de lojas de departamentos dos Estados Unidos (EUA). Para ficarem um degrau acima da concorrência, elas montaram supermercados de dados, as datawarehouses, agregando bases de dados financeiros, jurídicos, políticos, administrativos, recursos humanos, comerciais, técnicos e científicos, entre outros. Em termos técnicos, o supermercado de dados representa um espaço computacional onde as informações reunidas nos sistemas operacionais se tornam disponíveis para acesso online. São criados dois ambientes separando, em computadores diferentes, os sistemas online operacionais e os sistemas online analíticos. A orientação do supermercado de dados (DW) é para a decisão, por meio de uma interface amigável e amplamente disponível. A palavra-chave é democratização do acesso aos dados. Para Nóbrega (2001, p. 286), o DW significa “conceder autonomia ao usuário para que ele próprio obtenha seus relatórios, sem precisar encomendá-los ao pessoal de informática”.
Tratamento e preparação de dados e textos: condição de qualidade A etapa de tratamento e preparação dos dados e textos influi diretamente na qualidade e na confiabilidade das análises. Jambu (2000, p. 68) assinala que a taxa mais ou menos elevada de dados faltantes (que deveriam ter sido informados mas não foram) ou incoerentes determina a maior ou menor qualidade do resultado. Qualquer análise que incorpore uma grande quantidade de dados faltantes produz resultados “errôneos em cadeia e, no final desta cadeia, o Decisor não saberá mais em que confiar”. A regra de ouro da mineração de dados e textos é que minerar lixo dá lixo. Em consequência, esta etapa intermediária de tratamento, preparação, limpeza e, alguns ainda acrescentam, enriquecimento dos dados, é essencial. Em geral, as bases de dados não são desenvolvidas para permitir análises. A ênfase, na maioria delas, é permitir uma rápida recuperação da informação. São raros os casos em que dados recuperados de uma base podem ser diretamente utilizados pelos softwares de análise (Quoniam et al., 1993; Mogee, 1997). Muitas vezes, a estrutura da informação recuperada não é compatível com o padrão necessário para o uso dos softwares e também é preciso incorporar dados externos. Então, antes de analisar, é preciso preparar e integrar dados de diferentes origens e bases, padronizar nomes, agrupar conceitos e reorganizar campos, entre outras opções. Existem ferramentas de software específicas para isto. Veja mais detalhes no exemplo adiante e no Anexo 1. A preparação, tratamento e limpeza dos dados demanda, via de regra, a maior parte do tempo gasto num processo de tratamento automatizado da informação. Leeds (2000) estima que na preparação dos dados são gastos até 60% de todo o esforço empreendido no tratamento automatizado de dados. Antes da preparação, cerca de 20% do tempo total seria dedicado à identificação das necessidades de informação. Após a preparação, 10% do tempo vai para o tratamento dos dados e outros 10% para a análise dos resultados e assimilação do conhecimento .
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
5
Mineração de dados Para Jambu (2000, p. 8) mineração de dados (Datamining-DM) é um processo que combina vários métodos matemáticos, estatísticos ou com origem em algoritmos, para determinar uma solução para um problema, em um universo decisional. Porter (2003, p. 3) descreve outra característica do processo: no geral, ao minerar dados, tratamos de extrair informações úteis de quaisquer tipo de dados. No entanto, o mais comum é utilizarmos dados numéricos e, portanto, quantitativos. Exige, assim, bom conhecimento de Estatística. Esta característica geral influi na escolha das ferramentas para minerar dados, que são também orientadas para o tratamento quantitativo. Mais detalhes no Anexo 1. Sulaiman e Souza (2001, p. 267) citam cinco formas de gerar resultados via mineração de dados: regras associativas; hierarquias de classificação; padrões sequenciais; padrões de séries temporais; categorização e segmentação. 1) Regras associativas; elas visam “encontrar itens em uma transação que podem determinar a presença de outros itens na mesma transação”. Exemplo: quem compra leite e pão também costuma comprar manteiga. 2) Hierarquias de classificação; criam “um modelo baseado em dados conhecidos” e ajudam a explicar o porquê de uma dada classificação e também permitem “classificar novos dados a partir de uma classificação existente”. Exemplo: criar limites para concessão de crédito baseados no histórico de transações de crédito anteriores (Sulaiman e Souza, 2001, p. 267). 3) Padrões sequenciais; indicam comportamentos ou sequência de comportamentos. Exemplo: “sempre que uma mulher jovem compra sapatos de couro, comprará cintos e bolsas nos próximos trinta dias” (Sulaiman e Souza, 2001, p. 268). 4) Padrões em séries temporais; mostram ocorrências similares num espaço de tempo. Aos dados acima, acrescenta-se a estação do ano: no inverno, mulheres jovens compram sapatos de couro, bolsas e cintos. No verão este padrão se inverte para sandálias, bolsas e chapéus. 5) Categorização e segmentação; reúnem registros com características semelhantes. Exemplo: um grupo de consumidores pode ser classificado como “pouco comprador”, “medianamente comprador” ou “muito comprador” para um produto determinado. Em geral trabalha-se em mineração de dados buscando identificar perfis dos diferentes usuários ou clientes e seus diversos padrões de consumo ou de comportamento. Em seguida, trabalhando por segmentos, pode-se identificar o perfil dos melhores clientes; os produtos e serviços consumidos por ou características de cada segmento de clientes; os padrões de consumo de produtos, como e quando dois ou mais produtos ou características se associam ou se agrupam numa única compra ou evento e também o padrão de consumo/comportamento de uma região, bairro, idade ou sexo. Jambu (2000, p. 93) lista os campos de aplicação típicos da mineração de dados: estudos de caso, melhoria da qualidade e da eficiência do negócio, satisfação do cliente, satisfação dos empregados, relacionamento com o cliente, marketing dirigido, marketing local, indicadores de negócios, previsão, tendências, monitorar concorrência, compras, tecnologia da informação, controle de gastos, faturamento e processos de gestão.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
6
Exemplos de aplicações inteligentes de mineração de dados No Brasil existem casos clássicos como os sistemas de mineração de dados criados para administrar as carteiras de clientes de instituições financeiras e de operadoras de telefonia fixa e celular que resultaram em importantes melhorias do serviço e aumentos de receita.
Relacionamento com clientes A Telemar uma das maiores empresas de telecomunicações da América Latina, com uma cobertura de 64% do território brasileiro em 16 dos 27 estados, oferecendo serviços de telefonia fixa, celular, Internet, banda larga, dados corporativos, centros de contato e telefonia interurbana, implantou uma datawarehouse para integrar sua base de cerca de 25 milhões de clientes (Balaj, 2005a). Segundo Balaj (2005b, p.24-27), o sistema permitiu aumentar vendas, diminuir os desligamentos e reduzir custos. Entre 2003 e 2005, a participação da empresa no mercado de banda larga passou de 7% para 25%. A empresa também foi capaz de “antecipar o potencial de crescimento do mercado de telefonia móvel, mantendo a expansão da base de clientes” (p.26). A participação dos novos serviços (móvel, dados, banda larga e longa distância), em oposição aos serviços tradicionais (fixo, redes e telefones públicos), no total das receitas aumentou de 30% em 2003 para 39% em 2005, mesmo com um crescimento real das receitas no último ano da ordem de 9% (p.27).
Fraldas e cerveja Este é outro caso clássico. Foi descoberto que o perfil do consumidor de cerveja era semelhante ao do consumidor de fraldas: homens casados com 25 a 30 anos que compravam os dois produtos nas sextasfeiras, período da tarde/noite. A Wal-Mart � loja de departamentos que já existe no Brasil � decidiu então colocar as gôndolas de fraldas ao lado das de cervejas. Resultado; as vendas de fraldas e cervejas cresceram 30% nas sextas-feiras. Procter & Gamble � P&G (Reynolds, 1992, p. 344)
Esta multinacional de produtos de consumo utiliza um serviço da empresa de pesquisa de mercado Nielsen que recolhe dados de todos os produtos que passam pelos scanners das caixas registradoras dos supermercados associados. Esses dados permitem estimar o consumo e verificar preço em cada região geográfica dos EUA. Com eles, a P&G monitora a concorrência e cruza com seus relatórios de venda. Extrai indicadores como a sua participação no mercado, por produto, por região. Os resultados são monitorados com lupas já que uma mudança de 1% em um grande mercado significa dezenas de milhões de dólares a mais ou a menos, em volume de vendas.
Mineração de textos A mineração de textos surgiu e desenvolveu-se a partir de trabalhos de alguns precursores como Derek de Solla Price, Henry Small, Antony van Raan, Donald Swanson, Henry Dou e Alan Porter, em textos estruturados, em oposição a textos não estruturados ou livres. Ou seja, usar bases de dados internas
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
7
ou externas, como a Dialog2, Pascal3 ou Francis, com uma estrutura de registros indicando, por exemplo, “autor”, “título”, “data de publicação”, “palavras-chave”, e delas extrair informações sobre evolução e desenvolvimento de atividades científicas, gestão, avaliação e produtividade de atividades de C&T, construir indicadores (citação), redes (comunidades) e monitorar inovações, tecnologias e concorrentes. Uma ressalva é fundamental: todas estas informações são de domínio público ou podem ser compradas em bases de dados públicas. Dou (1999) e Quoniam (1999) explicam que mais de 85% das informações necessárias estão disponíveis e são acessíveis de uma forma legal e ética. Aqueles que são capazes de recolhê-las, analisá-las e administrá-las adquirem uma vantagem competitiva em relação a seus concorrentes. Daí a denominação de “inteligência competitiva”. Trata-se de uma atividade inovadora que nada tem a ver com “espionagem”. A legalidade é justamente o divisor de águas entre “inteligência competitiva” e “espionagem”. Quando se trata de informações obtidas de forma ilegal e antiética este é o domínio dos espiões. Quando se trabalha, de uma forma ética, com informações legais e públicas e se consegue delas extrair informações relevantes e estratégicas o domínio é o da “inteligência competitiva”. Espionagem não compensa. Não vale a pena ir atrás de informações não públicas de forma ilegal quando se pode utilizar o estoque de informações públicas. Os trabalhos de mineração de textos se inscrevem em campos como bibliometria, cientometria, infometria, midiametria, museometria e webometria. Tratam de diferentes aspectos da informação e de sua qualidade. Sua principal matéria-prima é a palavra. Esta pode representar, entre outras coisas, um conceito ou tema, um indivíduo, uma organização, ou ainda um conjunto de temas, indivíduos ou organizações. Os métodos de análise envolvem estatísticas unidimensionais (quantos são e o que significam os valores/palavras), estatísticas bidimensionais (como é e quanto mede a relação entre dois valores/palavras), estatísticas multidimensionais (como são e quanto medem as relações entre várias variáveis/palavras) e estatísticas probabilísticas (detectar comportamentos emergentes ou atípicos, ou ainda como se comportarão estas variáveis/palavras). A maior diferença para a mineração de dados é que, como a matéria-prima são as palavras, os programas tradicionais de estatística (que tratam basicamente de números) não são confortavelmente aplicados. Por isso, vários softwares surgiram para cumprir funções específicas da análise como a exploração, posicionamento, estruturação e prospecção de textos estruturados. A maioria destes programas surgiram na década passada e têm origem no sistema operacional DOS. Em versão Windows existem, pelo menos, três softwares, VantagePoint4, Matheo Analyser5 e WinIDAMS6. Os dois primeiros permitem a integração das funções de tratamento bibliométrico, tratamento estatístico e representação gráfica num único ambiente. O terceiro faz parte de uma família de softwares desenvolvida pela Unesco e disponibilizada gratuitamente � IsisAscII/WinISIS/GenIsisWeb/WinIDAMS � que permite, respectivamente, a importação, geração, disponibilização na Internet e análise de bases de dados e de textos. 2 A Dialog, do grupo Thomson, do Canadá, é o maior servidor de dados do mundo (http://www.dialog.com/). Sediado na Carolina do Norte (EUA) ela foi criada ainda antes da Internet, em 1966, por Roger Summit. Foi o primeiro sistema de recuperação de informações online do mundo. A Dialog reúne 900 bases com mais de 1,4 bilhão de registros, cerca de12 Terabytes de informação. Uma boa parcela do conhecimento mundial
está disponível lá para 20 milhões de clientes em uma centena de países 3 A Pascal é uma base de dados multidisciplinar e multilíngue. Cobre as Ciências, as Tecnologias e a Medicina. A Francis cobre as áreas de Ciências Humanas e Sociais. Ambas são produzidas pelo Institut de l’Information Scientique et Technique da França (INIST-CNRS). Por serem multilíngues, suas coberturas são mais “variadas” do que a Dialog, que é uma base em Inglês. 4 O VantagePoint foi lançado em 2000 pela Search Technology Inc. 5 A
família do Matheo Analyser, lançado em 2003, inclui também o Matheo Patent para análises especícas em bases de patentes (no caso, a base de patentes EPO � European Patent Ofce, acessível gratuitamente pela Internet). As patentes reúnem informações únicas, não encontradas em nenhum outro lugar. Por exemplo: (a) que empresas estão realizando trabalhos de ponta; quem são os líderes; (b) que indivíduos estão realizando trabalhos de ponta; (c) que países estão à frente de uma tecnologia; (d) quanto tempo as empresas levam para utilizar uma patente; quanto tempo de P&D necessitam para se transformar em lucro; (e) que tecnologias estão crescendo ou decaindo; onde o dinheiro de P&D está sendo aplicado entre os líderes da indústria; e (f) relacionamento entre empresas ligadas a P&D similares ou produzindo os mesmos produtos; relacionamento de pesquisa entre empresas subsidiárias. Veja exemplo na Figura 4.
6 O WinIDAMS da Unesco foi lançado em 1998 e vem sendo aperfeiçoado dentro do conceito software livre. Está na versão 1.2 (2004). Está
disponível em Inglês, Francês e Espanhol.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
8
Exemplos práticos de mineração de textos Os exemplos a seguir envolvem diversas etapas da mineração de textos: preparação e limpeza, construção de indicadores unidimensionais, bidimensionais e construção de redes (multidimensionais) com o objetivo de extrair a informação necessária. Os softwares utilizados são Infotrans (IuK), Dataview7 e Matrisme (U.Marseille/CRRM/LePont) e Excel (Microsoft). O primeiro exemplo foi extraído do artigo � Da criação de bases de dados ao desenvolvimento de sistemas de inteligência para a organização (Penteado, Dou, Boutin e Quoniam, 2003) � apresentado no 4 Workshop Brasileiro de Inteligência Competitiva e Gestão do Conhecimento. A análise combina uma base de dados interna, com informações do setor de pessoal da Embrapa 8 e uma base pública, um repositório de competências de pesquisadores da Embrapa, o Guia de Fontes9. Ela tem a seguinte estrutura: º
NOME : JOSE IVO BALDANI DATN. : 12/2/1953 FORM : AGRONOMIA, 1976; MESTRADO: CIÊNCIA DO SOLO, UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO, 1984; DOUTORADO: CIENCIA DO SOLO, UNIVERSIDADE DO TEXAS A&M � ESTADOS UNIDOS, 1990. APSQ : BIOLOGIA MOLECULAR; BACTÉRIAS FIXADORAS DE NITROGÊNIO; CONTROLE BIOLÓGICO; GRAMÍNEAS PROD. : BIOINSETICIDAS, BIOFERTILIZANTES , BIOTECNOLOGIA UNID. : EMBRAPA AGROBIOLOGIA
Os campos documentais são os seguintes: NOME = Nome DATN = Data de nascimento FORM = Formação APSQ = Área de pesquisa PROD = Produtos e temas em que trabalha UNID = Unidade (Centro de Pesquisa) da Embrapa
Um primeiro tratamento foi a criação do campo COOR � Coorte, a partir da data de nascimento. Penteado� et al. (2003) dividiram este campo em 5 Coortes: N 1 menos de 25 anos � N 2 entre 25 e 34 anos � N 3 entre 35 e 44 anos � N 4 entre 45 e 54 anos � N 5 mais de 55 anos. Separaram ainda o ano de nascimento de cada pesquisador no campo ANON. Uma segunda reformatação foi realizada no campo FORM � Formação. Ele indica, a partir do nome do pesquisador, sua formação mas não, por exemplo, quais se formaram nas mesmas Universidades. Desta forma, Penteado et al. (2003) partiram o campo FORM em Tipo de Diploma; Ano de Obtenção; Lugar de Obtenção; País de Obtenção. A base reformatada ficou assim: º
º
7 O
º
º
º
Dataview e o Infotrans são softwares que funcionam em DOS
8 Empresa Brasileira de Pesquisa Agropecuária. 9 Disponível em <“http://www.embrapa.br/embrapa/pesquisadores/”>.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
9
NOME : JOSE IVO BALDANI DATN : 12/2/1953 COOR : 4 ANON : 1953 FORM. : AGRONOMIA
formação inicial
QDFORM :1976 data da formação inicial MESTRADO : CIÊNCIA DO SOLO tipo de diploma e especialidade QDMEST :1984 data de obtenção do diploma UNIVMEST : UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO Universidade de obtenção DOUTORADO : CIÊNCIA DO SOLO DOUEST : 1990 UNIVDOU : UNIVERSIDADE DO TEXAS A&M PAIS DOU : ESTADOS UNIDOS país de obtenção do diploma APSQ : BIOLOGIA MOLECULAR; BACTERIAS FIXADORAS DE NITROGENIO; CONTROLE BIOLÓGICO; GRAMÍNEAS PROD : BIOINSETICIDAS, BIOFERTILIZANTES, BIOTECNOLOGIA UNID : EMBRAPA AGROBIOLOGIA
A partir desta preparação, diversas análises foram efetivadas num único campo, por exemplo, ANON � Ano de Nascimento, que gerou a pirâmide de idade da Embrapa ou cruzando-se dois ou mais campos, Coorte e Unidade, para analisar as diferenças do perfil de idade dos pesquisadores nos diferentes Centros de Pesquisa. Veja, na Figura 2, a pirâmide de idade dos pesquisadores da Embrapa. O maior número de pesquisadores (o ponto culminante da pirâmide) tem idade entre 51 e 55 anos. 100 90 80 70 60 50 40 30 20 10 0 7 3 0 3 3 3 6 3 9 4 2 4 5 4 8 5 1 5 4 5 7 6 0 6 3 6 6 6 9 7 3 2 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
10
FIGURA 2: A pirâmide de idade dos pesquisadores da Embrapa.
Coorte 2 (25 a 34 anos)
Em quatro Centros de Pesquisa o número de pesquisadores mais jovens é significativamente superior à média: EMBRAPA UVA E VINHO EMBRAPA INFORMÁTICA AGROPECUÁRIA EMBRAPA RORAIMA EMBRAPA ACRE
Coorte 5 (mais de 55 anos)
Em três Unidades, o número de pesquisadores seniores é significativamente superior à média. EMBRAPA AMAZONIA ORIENTAL EMBRAPA CLIMA TEMPERADO EMBRAPA SEDE
À exceção da Sede, onde Penteado et al. (2003) indicam que “é natural encontrar pessoas com mais idade”, a análise indica locais onde pode-se prever a necessidade de contratar pesquisadores a médio prazo.
Desenvolvimento de produtos (Transferência de tecnologia, negócios) O campo PROD revela quais produtos ou atividades podem ser transferidas pelos pesquisadores, quais são suas competências, ou seja, a capacidade geral de transferência de tecnologia da Embrapa. Este campo é diferente do campo APSQ (áreas de pesquisa) que indica o conhecimento fundamental. Penteado et al. (2003) criaram uma matriz quadrada reunindo todos os pares de termos contidos no campo PROD. Tal matriz foi trabalhada em um software bibliométrico especializado, o Matrisme, que a transformou num mapa (Figura 3).
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
11
FIGURA 3: Representação geral da rede de competências econômicas por produtos trabalhados pela Embrapa Amazônia Oriental.
Este mapa pode ser interpretado nos níveis macro, médio (um ou mais grupos) e micro (nós em cada grupo). Pode-se analisar a configuração de um grupo, sua densidade, a conectividade de um indivíduo/ produto, a centralidade de um nó da rede, a intensidade das ligações de um grupo e os istmos de ligação entre dois ou mais grupos (ex. pimenta-do-reino). O fato de dois domínios estarem ligados significa que existe pelo menos um pesquisador que domina aquelas competências. Tais mapas são bastante úteis, não só para um trabalho de transferência, ou para responder a uma demanda. Indicam também, quando associados a séries temporais, a evolução de um campo científico durante décadas, e ainda, quando cruzadas as competências com os locais de trabalho, a distribuição de um campo científico � quais organizações trabalham com quais áreas e assim por diante (Polity e Rostaing, 1997). A mesma técnica pode ser utilizada na análise de patentes. Eric Boutin (2001) descreve, por exemplo, como de um universo de 400 patentes selecionadas num banco de dados público se extraiu os inventores (IN) e estes foram relacionados, em seguida, numa matriz quadrada de colaborações que resultou, ao final, numa rede de inventores. Veja na Figura 4.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
12
FIGURA 4: Representação geral do processo de criação da informação necessária, no caso, a rede de inventores de
turbinas à gás da Rolls Royce (Boutin, 2001).
O nível dos especialistas
A Figura 3 põe em evidência a capacidade de resposta da Embrapa mas não determina com quais especialistas. Assim, Penteado et al. (2003) executaram um tratamento bibliométrico por pares, associando o campo NOME ao campo PROD, conforme o quadro abaixo:
NOME ADRIANO VEN TURIERI ADRIANO VEN TURIERI ADRIANO VEN TURIERI ADRIANO VEN TURIERI ALFREDO KINGO OYAMA HOMMA ALFREDO KINGO OYAMA HOMMA ALFREDO KINGO OYAMA HOMMA ALFREDO KINGO OYAMA HOMMA ALFREDO KINGO OYAMA HOMMA ALTEVIR DE MATOS LOPES ALTEVIR DE MATOS LOPES ANGELA MARIA LEITE NUNES ANGELA MARIA LEITE NUNES ANGELA MARIA LEITE NUNES ANGELA MARIA LEITE NUNES
COMPETÊNCIA ZONEAMENTO SENSORIAMENTO REMOTO LEVANTAMENTOS FLORESTAIS ANÁLISE AMBIENTAL SISTEMAS AGROFLORESTAIS SILVICULTURA PIMENTA-DO-REINO ECOLOGIA AGROFLORESTA ARROZ RECURSOS GENÉTICOS ARROZ MELHORAMENTO PIMENTA-DO-REINO FRUTICULTURA PRAGAS CUPUAÇU CONTROLE DE PRAGAS
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
13
Uma lista Umacomo lista como esta pode esta pode ser classificada ser classificada por por ordem ordem alfabética alfabética tanto tanto nana coluna coluna COMPETÊNCIA COMPETÊNCIA como na coluna NOME e permite oo acesso acesso rápido rápidoàs àsmulticompetências multicompetênciasde deuma umaorganização. organização.Ela Ela pode ajudar a definir quem participa de uma negociação ou lidera uma operação de transferência. Competências em risco
Um cruzamento da Coorte 5 (Pesquisadores mais experientes) com o campo PROD (Figura 5) indica quais competências estão em risco de se perderem, em função da futura aposentadoria de seus detentores. No caso, as três primeiras foram: pastos e forrageiras, economia agrícola e fruticultura. Tal análise permite uma gestão mais fina das equipes de pesquisa (Penteado e Quoniam, 2001).
Competências dos com mais de 55 anos (em risco)
40 30 20 10 0
pastos econom sistema bovinos\ controle soja\ma fruticultu bovinos\ sement bovinos\ e ia s de pastage de nejo e ra leite es nutricao forrageir agricola produca ns pragas ratos
caju
desenv irrigaca milho\m difusao planeja olviment oe anejo e de mento o rural drenage ratos ecnolo estrateg
25 a 34
1
0
3
0
0
0
0
0
0
0
2
1
0
0
0
0
35 a 44
23
6
20
9
10
7
2
3
7
4
8
3
12
4
5
1
45 a 54
38
21
32
18
25
16
17
11
19
8
14
5
27
11
10
6
55 acima
30
18
17
14
12
12
11
10
9
9
8
8
8
8
8
8
FIGURA 5: Competências em risco na Embrapa (Penteado e Quoniam, 2001).
Uma aplicação na comunicação, a midiametria A aplicação desta metodologia de análise de textos na análise dos meios de comunicação de massa permite gerar tendências e determinar as preferências dos diversos veículos, assim como fazer estudos prospectivos sobre a evolução histórica de um tema, um produto, um político ou uma empresa na mídia e retirar desta análise conclusões para orientar e aperfeiçoar um relacionamento, em suma criar laços mais profundos e relações melhores e mais produtivas do sujeito de pesquisa com a mídia. A função de Clipping, de acompanhar o que sai na imprensa, está presente em organizações nos cinco continentes. O objetivo específico das análises midiamétricas aqui demonstradas é de verificar o desempenho de uma organização, no caso, a Embrapa, na mídia impressa e eletrônica e identificar a política editorial destes jornais de maneira a qualificar, ampliar e melhorar esta cobertura.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
14
A base Clipping A criação e a alimentação da Base de Dados de Clipping é o diferencial apresentado por este trabalho. São as seguintes as variáveis analisadas no Banco de Dados de Clipping:
1. Título da matéria (TIT) 2. Data da matéria (DTP) 3. Nome do Veículo (VEI) 4. Estado do Veículo (UF) 5. Assunto ou Tema (classificado segundo lista de palavras-chaves controladas pela Embrapa) (TEM) 6. Gênero jornalístico de cada matéria (notícia, editorial, reportagem, entrevista, artigo, nota de opinião, nota informativa, carta do leitor, crônica) (GEN) 7. Tipo e qualidade da presença da Organização na matéria (Capa/1 Página, Manchete de página, Título, Destaque no texto (Lead), Citação, Rodapé/Legenda) (PRE) ª
8. Fonte mencionada na matéria (dirigente, chefe de centro, pesquisador, outros empregados, não citada) (FON) 9. Página de publicação (par, ímpar, 2 páginas, 3 páginas, 4 ou + páginas) (PAG) 10. Tratamento gráfico, número de elementos presentes (1 elemento � texto, 2 elementos � texto e foto ou ilustração, 3 elementos � texto, foto/ilustração e box, 4 elementos � texto, foto, ilustração e box, 5 ou mais elementos) (CGR) 11. Unidade(s) da Embrapa(s) mencionada(s) (UD) 12. Palavras-chave da matéria (PCH)
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
15
Veja na Figura 6, um exemplo de uma página do clipping antes da digitalização.
FIGURA 6: Página digitalizada do Clipping Eletrônico
Resultados Para este artigo, os registros do clipping dos anos de 2003 e 2004, num total de 16.999 foram reformatados no software Infotrans10 e analisados no software VantagePoint11. A base pode se categorizada em diversas dimensões. Por exemplo, a matriz Veículos/Unidades indica a política de publicação dos jornais ou das unidades. A matriz Veículos/Ano de Publicação indica a evolução da cobertura da organização, por jornal no tempo, a Veículos/Palavras Chave indica qual jornal prefere ou prioriza qual tema, a Veículos/ Gênero indica qual jornal dá mais editorial, artigo, reportagem ou noticias por exemplo e a matriz Veículos/ Presença indica qual jornal dá mais espaço nobre. Estas são algumas amostras da riqueza das análises permitidas pelo cruzamento das diversas variáveis desta base de clippings.
Características das coberturas
Dos 20 veículos que mais publicaram sobre a Embrapa e suas unidades, 13 reduziram e 7 aumentaram a quantidade de matérias de 2003 para 2004, entre estes o Estado de S. Paulo (de 366 para 374), o Jornal de Brasília (de 244 para 311), o Popular (de 216 para 301), a Gazeta-MT (de 152 para 192), Zero Hora (de 119 para 173) e a Tarde (de 116 para 128). Eles estão marcados por um asterisco. As características de cada veículo estão assinaladas em cinza. Por exemplo, “O Estado de S. Paulo” é um jornal nacional e pertence à região Sudeste. A notar ainda que o primeiro veículo especializado 10 Da IUK GmbH � . 11 Da Search Technologies � .
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
16
em agronegócio aparece em décimo nono lugar. No início dos anos 1990 a Embrapa publicava a maioria de suas notícias em veículos especializados em agronegócio. Veja os detalhes na Figura 7: 2003 2004 1
366
2 3
Total Veículo
Jornais nacionais
Principais jornais
Journais Agroneestaduais gócio
374
740
O Estado de S. Paulo*
304
293
597
Correio do Povo
244
311
555
Jornal de Brasilia*
4
310
225
535
Diario da Amazonia
1
5
216
301
517
O Popular*
1
6
308
197
505
Gazeta Mercantil
7
152
192
344
A Gazeta-MT*
8
183
154
337
9
64
240
304
10
159
144
11
152
12
Norte
Nordeste
Centro- Sudeste Oeste
1
Sul
1 1
1
1
1 1 1
1
1 1
1
Folha do Estado
1
1
Diario da Manha*
1
303
Diario do Nordeste
1
1
141
293
Meio Norte
1
1
119
173
292
Zero Hora*
1
13
153
133
286
Estado de Minas
1
14
162
124
286
O Estadao
1
1
15
158
97
255
Folha de Rondonia
1
1
16
140
112
252
Correio Braziliense
1
17
117
128
245
A Tarde*
1
18
124
114
238
Folha de S. Paulo
19
125
104
229
Globo Rural
20
120
108
228
O Progresso
1
1 1
1 1
1
1 1
1
1
1
FIGURA 7: Evolução de 2003 para 2004 dos veículos que mais publicaram.
Quando o volume de matérias publicadas em 2003 e 2004 pela Embrapa é analisado sob a ótica do Tipo de Presença Editorial, houve um crescimento em todos os itens em especial de 89,1% das citações em manchetes e de 34,3% em primeiras páginas. Veja os detalhes na Figura 8: # Registros
Tipo de presença
2003
2004
%
4414
5330
20,7
9744
Citação
2053
Título
904
1149
27,1
1820
Destaque no texto (Lead)
783
1037
32,4
808
Rodapé/Legenda
378
430
13,7
232
Capa/1a Página
99
133
34,3
133
Manchete de página
46
87
89,1
14790
Total
7967
9028
13,3
2209
Campo Vazio
1343
862
-55,8
FIGURA 8: Tipo de Presença Editorial por Ano.
Evolução semelhante foi registrada para o tipo do tratamento gráfico. Observa-se que 57% das matérias têm mais de um elemento gráfico o que é bastante desejável em termos de tratamento editorial dado à organização. Indica que a Embrapa recebe um tratamento distinto. A notar ainda que as matérias Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
17
com quatro elementos ou mais tiveram um aumento significativo. Estes valores estão marcados em negrito na Figura 9. # Registros
Tipo de tratamento gráfico
2003
2004
%
6374
1 elemento (texto)
3062
3312
8,1
5132
2 elementos (texto + foto/ilustracao)
2385
2747
15,1
1335
3 elementos (texto + foto/ilustracao + box)
519
816
57,2
593
4 elementos (texto + foto + ilustracao + box)
208
385
85
1354
5 ou mais elementos
451
903
100,2
Total
7967
9028
13,3
Campo Vazio
1342
865
-55,1
14788
2211
FIGURA 9: Tipo de tratamento gráco por Ano.
Continuando a analisar tratamento gráfico agora por veículo verificamos que os quatro veículos que dão melhor tratamento gráfico às matérias publicadas sobre a Embrapa são “Jornal de Brasília” e “O Estado de S. Paulo”, dois jornais, e “Panorama Rural” e “Globo Rural”, duas revistas. Também merecem menção como “grandes veículos da Embrapa” as revistas “Cultivar”, “Balde Branco”, “DBO Rural”, “Suinocultura Industrial”, “Rural”, “Agroanalysis”, “A Granja”, “Bahia Agrícola” e “Veja” (24 ). E os jornais “O Popular”, “Estado de Minas”, “A Tarde”, “Folha de S. Paulo”, “Correio Braziliense” e “O Globo”, entre outros. Os veículos especializados em agronegócio, como esperado, estão bem representados entre aqueles que dão o melhor tratamento editorial às informações da Embrapa. ª
# Regis tros
Ve ículo
1 2 elemento elementos
3 elementos
4 5 ou mais elementos elementos
1
555
Jornal de Brasilia
185
167
102
30
71
2
740
O Estado de S. Paulo
298
282
62
28
64
3
150
Panorama Rural
15
51
20
10
54
4
229
Globo Rural
55
109
19
8
36
5
225
DBO
69
78
22
12
36
6
161 Cultivar
22
54
19
13
36
7
517
O Popular
270
162
32
17
31
8
110
Balde Branco
21
39
8
6
31
9
286
Estado de Minas
93
136
20
9
28
10
245
A Tarde
81
98
25
14
25
11
238
Folha de S. Paulo
132
49
22
9
23
12
73
Suinocultura Industrial
13
16
11
2
22
13
344
A Gazeta-MT
161
118
30
8
21
14
252
Correio Braziliense
127
68
23
13
21
15
61 Agroanalysis
11
16
10
4
20
16
60
Revista Rural - SP
12
15
7
6
20
17
141
O Globo
51
52
16
2
19
18
92
A Granja
7
37
17
7
18
19
38
Cultivar Grandes Culturas
2
13
4
1
18
20
27
Bahia Agricola
4
2
2
2
17
FIGURA 10: Veículos que dão melhor tratamento gráco às matérias da Embrapa.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
18
O esforço dos centros de pesquisa
Quantificando o esforço editorial dos centros de pesquisa e da Sede nos dois anos estudados constatamos que 12 centros apresentaram queda na quantidade de matérias publicadas e 28 centros ampliaram o número de matérias publicadas. A Embrapa Soja (901), Embrapa Trigo (624) e Embrapa Pecuária Sudeste (604) são as unidades que mais publicaram matérias na imprensa no período estudado. A tabela veículos por unidade de pesquisa permite duas visões: Com a primeira, ordenada na forma decrescente do número de matérias por Unidades, identificamos os jornais que publicam mais matérias de uma unidade específica. As matérias da Sede da Embrapa, por exemplo, são publicadas no Estado de S. Paulo (355), Gazeta Mercantil (342), Correio do Povo (290), Diário da Amazônia (232) e O Popular (203). A lista de jornais preferidos da Embrapa Soja é diferente; Folha de Londrina (82), Jornal de Londrina (58), Cultivar (36), Estado de S. Paulo (30) e Correio do Povo (24). Veja os detalhes na Figura 11: # Registros
Veículo
Sede Embrapa
# Registros
Veículo
Soja
1
740
O Estado de S. Paulo
355
1
123
Folha de Londrina
82
2
505
Gazeta Mercantil
342
2
69
Jornal de Londrina
58
3
597
Correio do Povo
290
3
161 Cultivar
40
4
535
Diario da Amazonia
232
4
740
30
5
517
O Popular
203
5
597 Correio do Povo
25
6
252
Correio Braziliense
197
6
150
Panorama Rural
25
7
303
Diario do Nordeste
194
7
128 Gazeta do Povo
24
8
344
A Gazeta-MT
182
8
337
Folha do Estado
23
9
555
Jornal de Brasilia
180
9
39
Anuario Brasileiro da Soja - RS
22
10
337
Folha do Estado
176
10
36
Informativo Meridional
22
11
292
Zero Hora
170
11
517
O Popular
21
12
238
Folha de S. Paulo
166
12
344
A Gazeta-MT
21
13
286
Estado de Minas
155
13
42
Mercosul
19
14
222
O Liberal
155
14
32
Jornal Coamo
19
15
190
Folha de Boa Vista
146
15
238
Folha de S. Paulo
17
16
178
Valor Economico
144
16
555
Jornal de Brasilia
16
17
293
Meio Norte
137
17
92
A Granja
16
18
193
Tribuna do Brasil
130
18
60
Revista Rural - SP
16
19
202
Diario do Comercio e Industria
128
19
38
Cultivar Grandes Culturas
16
20
255
Folha de Rondonia
126
20
505 Gazeta Mercantil
O Estado de S. Paulo
14
FIGURA 11: Unidades da Embrapa por Veículos � visão 1.
Estas matrizes podem ser utilizadas por um centro de pesquisa para criar uma lista de veículos mais importantes, para definir prioridades para pautas ou para escolher a quem mandar um press-release. Com uma visão exclusiva do centro, o gerente de comunicação pode acompanhar a evolução da cobertura em cada veículo e proceder a correções ou a mudanças de ênfase. No caso, ele deve se esforçar para eliminar os
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
19
espaços vazios. Veja o exemplo da lista de veículos da Embrapa Soja durante o segundo semestre de 2004 na Figura 12. # Registros Veículo
dez/04 nov/04 out/04
set/04 ago/04
jul/04
1
82
Folha de Londrina
6
5
6
3
2
8
2
58
Jornal de Londrina
3
3
7
2
2
5
3
25
Correio do Povo
2
2
3
1
4
24
Gazeta do Povo
4
1
2
1
5
23
Folha do Estado
3
1
1
6
21
A Gazeta-MT
1
1
2
7
21
O Popular
8
19
Mercosul
9
14
Diario da Amazonia
1
10
12
Diario do Comercio e Industria
3
1
2
2
2
1
1
1
2
FIGURA 12: Evolução da cobertura por veículo por centro. Exemplo, Embrapa Soja.
Uma outra visão dos dados é pelo número de matérias publicadas por jornal. Assim, identificamos os centros de pesquisa preferidos de cada jornal. O Estado de S. Paulo, por exemplo, publica praticamente a metade da produção da Embrapa Monitoramento por Satélite (CNPM) e mais Embrapa Pecuária Sudeste (CPPSE), Embrapa Soja (CNPSO), Embrapa Recursos Genéticos e Biotecnologia (Cenargen) e Embrapa Gado de Corte (CNPGC). Veja os detalhes na Figura 13: # Veículo por Centro de pesquisa Registros
7990
O Estado de S. Paulo
Embrapa Sede
355
197
Monitoramento por Satelite
104
604
Pecuaria Sudeste
35
901
Soja
30
443
Recursos Geneticos e Biotecnologia
29
325
Gado de Corte
19
389
Suinos e Aves
16
199
Milho e Sorgo
16
455
Gado de Leite
15
462
Cerrados
14
FIGURA 13: Unidades da Embrapa por Veículos � visão 2.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
20
Análise das palavras-chave e temas
A análise das palavras chave pode indicar, entre outras coisas, os assuntos preferidos dos diversos veículos e orientar, por este meio, a proposição de pautas e sugestões de reportagens pelos centros de pesquisa. Um tema polêmico como os transgênicos (488) é a sétima palavra-chave mais citada dentre todos os jornais. Quando examinamos cada jornal em particular há uma variação que pode nos trazer informações preciosas. Nós isolamos os quinze primeiros veículos que publicaram mais matérias sobre transgênicos. “O Estado de S. Paulo” e “Folha de S. Paulo”, dois jornais nacionais se posicionaram nos primeiros lugares. Nós também calculamos a porcentagem que as notícias sobre transgênicos representam em relação ao número total de matérias publicadas por cada um destes 15 veículos. Encontramos uma grande variância, de 14% para a “Gazeta do Povo” jornal de um estado fortemente agrícola como o Paraná, a 2% para o “Jornal de Brasília”, do Distrito Federal. Eles estão marcados em cinza na Figura 14. # Registros
Veículos / Palavras chave
O Estado de S. Paulo
Folha de S. Paulo
Gazeta Mercantil
Correio do Povo
Gazeta do Povo
Valor Economico
O Globo
O Liberal
Zero Hora
O Povo
Jornal do Brasil
Correio Braziliense
A GazetaMT
O Popular
Jornal de Brasilia
492
transgenicos
35
20
19
19
18
18
16
16
16
13
12
12
12
11
11
Total
740
238
505
597
128
178
141
222
2 92
165
141
252
344
517
555
%
4,6
8,4
3,7
3,1
14
10,1
11,3
7,2
5,4
7,8
8,5
4,7
3,5
2,1
2
FIGURA 14: Veículos por Palavras-chave (transgênicos) por número de notícias.
O próximo passo foi ordenar a lista dos 15 veículos pela importância que eles concedem a este tema representada pelas maiores percentagens relativas ao número total de notícias publicadas. Uma pequena surpresa surgiu. Ao lado da “Gazeta do Povo” apareceram “O Globo”, “Valor Econômico”, “Jornal do Brasil” e “Folha de S. Paulo”, três jornais nacionais e um especializado em economia. Seu interesse pelos transgênicos é de duas a quatro vezes maior do que o dos jornais do final da lista. Eles foram marcados em cinza na Figura 15. # Registros
Veículos / Palavras chave
Valor Economico
Jornal do Brasil
Folha de S. Paulo
O Povo
492
transgenicos
18
16
18
12
20
13
16
16
Total
128
141
178
141
238
165
222
%
14
11,3
10,1
8,5
8,4
7,8
7,2
Gazeta O do Povo Globo
O Estado de S. Paulo
Gazeta Mercantil
12
35
19
12
292
252
740
505
5,4
4,7
4,6
3,7
O Zero Correio Liberal Hora Braziliense
A Correio Gazeta-do MT Povo
O Popular
Jornal de Brasilia
19
11
11
344
597
517
555
3,5
3,1
2,1
2
FIGURA 15: Veículos por Palavras-chave (transgênicos), importância relativa das notícias.
Nós observamos que os veículos do final da lista são de estados com uma forte agricultura. A questão colocada então foi. Será que há uma valorização do tema transgênicos por veículos de um estado em particular? Decidimos então comparar as coberturas dos três principais estados da região Sudeste (RJ, SP e MG), dos dois principais da região Sul (RS e PR) e dois estados da região Centro-Oeste (MT e GO). Nos seus territórios são plantados mais de 75% da produção agrícola nacional. Veja os detalhes na Figura 16.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
21
# Registros 439
5109
709
585
2491
731
613
1
2
3
4
5
6
7
8
9
10
11
12
producao
transgenicos
biotecnologia
tecnologia
soja
pesquisa
projeto
clone
sementes
cultivo
gestao
biosseguranca
35
34
22
21
19
19
17
11
11
11
9
9
producao
soja
tecnologia
projeto
pesquisa
leite
evento
transgenicos
agronegocio
safra
produtividade
mercado
477
340
272
263
234
212
203
171
134
108
108
107
producao
leite
soja
milho
cafe
transgenicos
mercado
projeto
pesquisa
sementes
frutas
tecnologia
75
50
39
28
27
25
24
24
21
19
17
17
soja
producao
ferrugem
pesquisa
agronegocio
safra
trigo
evento
bio tecnolo gia
projeto
145
44
28
28
27
25
24
22
22
20
17
16
producao
soja
evento
trigo
pesquisa
safra
seminario
projeto
tecnologia
mercado
transgenicos
sementes
229
201
146
121
119
91
87
85
78
63
62
60
producao
soja
pesquisa
evento
tecnologia
algodao
ferrugem
cultura
mercado
projeto
plantio
transgenicos
71
60
36
35
31
31
26
22
22
22
21
19
soja
producao
pesquisa
tecnologia
algodao
leite
cerrado
cultura
frutas
contatos
safra
transgenicos
46
42
28
26
21
20
20
19
18
17
16
16
RJ
SP
MG
tecnolo gia transgenicos
PR
RS
MT
GO
FIGURA 16: Veículos por Estado e Palavras-chave.
A resposta da Figura 16 é cristalina. Na cobertura das notícias de pesquisa agropecuária da Embrapa, os veículos do estado do Rio de Janeiro concedem aos transgênicos uma relevância especial, bastante diferente daquela dos outros estados analisados. Uma observação geral sobre a publicação total de notícias por estados. São Paulo abriga cinco centros de pesquisa da Embrapa, Rio Grande do Sul quatro, Rio de Janeiro três, Paraná dois, Minas Gerais dois e Goiás um. O estado do Mato Grosso não tem nenhum centro mas se coloca num merecido terceiro lugar quanto à quantidade de notícias publicadas sobre a Embrapa. Este é um forte indicador de uma grande valorização da ciência e da tecnologia e das inovações agropecuárias em Mato Grosso que está se tornando também o principal estado agrícola do Brasil.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
22
Conclusão Estas metodologias, técnicas e ferramentas de análise e mineração de textos e de dados são utilizadas para processar a enorme massa de informações disponível no dia a dia em uma organização e criar inteligência, identificar as informações mais estratégicas que permitirão e capacitarão uma organização a melhor cumprir sua missão. Um ponto importante é que estas informações estão presentes nas organizações. Com as metodologias e ferramentas apropriadas podem se tornar “inteligência” organizacional e competitiva. Uma parcela significativa e não medida das bases de dados das organizações foram criadas para recolher e guardar informações com a geração de relatórios predefinidos durante o processo de criação e montagem da base. Tais fases têm uma função operacional importante nas organizações. A esta função operacional deve adicionar-se, no entanto, uma função de análise que permite a criação de sistemas de inteligência mais eficientes com a opção de reunir em um único ambiente computadores, dados internos e externos, metodologias e ferramentas específicas para a finalidade de análise. Os resultados da base Clipping demonstram com convicção a eficiência do sistema de trabalho de comunicação da Embrapa para a divulgação de seus trabalhos científicos. Eles estabelecem também metodologias e ferramentas de análise para gerar inteligência sobre os meios de comunicação de massa e o comportamento de seus editores, fazer o monitoramento de coberturas da imprensa e auditorias sobre o trabalho de comunicação. Estas metodologias e ferramentas permitem também traçar a evolução de um tema, de um produto, de uma pessoa ou de todo um setor da economia na mídia, por um período determinado. Uma ressalva deve ser feita. É possível que o número total de notícias sobre os transgênicos em todos os veículos seja muito maior do que aquele registrado neste artigo porque ele inclui apenas as notícias deste universo que mencionam a Embrapa. Estes resultados não representam o comportamento geral dos veículos quanto a temas específicos. Eles refletem o comportamento dos veículos com referência a um tema específico na cobertura da Embrapa. No entanto, acreditamos que a generalização destas metodologias e a criação de bases Clipping diversificadas poderão dar ao estudo do jornalismo e de sua prática diária em todo o mundo, às relações públicas, à comunicação empresarial, ao marketing e também ao segmento de consultorias de mídia, metodologias e ferramentas que permitem dar um salto de qualidade e de produtividade em muitas das análises de mídia realizadas. Instrumentos para criar laços mais profundos e proveitosos, relações mais profundas e melhores entre as organizações e sujeitos de todas as afiliações com a mídia e seus editores.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
23
Referências Bibliográficas BALAJ, Sérgio T. (2005a). Telemar Boots Sales and Satisfaction with Powerful Performance if Informatica PowerCenter. DMReview. September 2005. Disponível em . Acesso em 25 out. 2005. BALAJ, Sérgio T. (2005b). Telemar “Projeto Business Intelligence em DW”. In: Inteligência organizacional 2005 Rio de Janeiro. Brasil, Rio de Janeiro: IDETI, 24-25 Out. 2005. BOUTIN, E., A cadeia de tratamento da informação do CRRM . In: SEMINÁRIO “TECNOLOGIAS PARA TRATAMENTO DA INFORMAÇÃO NA EMBRAPA”. Embrapa/Cendotec/CRRM/LePont/Universidade de Toulon et du Var, Brasília � DF, 10 a 14 de dezembro de 2001. DOU, H., Sistemas de Inteligência Competitiva. In: Curso de Especialização em Inteligência Competitiva. Brasília: MCT/INT, CNPq/IBICT, UFRJ/ECO, 1999. FARIA, L. I. L. ; QUONIAM, L., Ferramentas para Estudos Prospectivos � Tutorial. In 3 WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, São Paulo � SP, 16 a 18 de setembro de 2002. º
JAMBU, M., Introduction au Dataminig: Analyse intelligente des donnees. França. Paris: Editions Eyrolles, 2000, 120p. LEEDS, S., Data Mining: Beware of the shaft . Direct Marketing. Jan. 2000. Disponível em: . Acesso em 10 jul. 2002. LEVET, J. L., L’Intelligence Economique: mode de pensée, mode d’action. França, Paris: Economica, 2001, 155p. MOGEE, M. E., Patents and technology intelligence . In: ASHTON, W.B.; KLAVANS, R.A., Keeping abreast of science and technology: technical intelligence for business, Battelle Press, p.560, 1997. NOBREGA, R. G., Data Warehousing . In: TARAPANOFF, K., Inteligência Organizacional e Competitiva . Brasília: Editora Universidade de Brasília, p.285-302, 2001. PENTEADO, R.; DOU, H.; BOUTIN, E.; QUONIAM, L., Da criação de bases de dados ao desenvolvimento de sistemas de inteligência para a organização. In: 4 WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, Salvador - BA, 20 a 22 de outubro de 2003. º
PENTEADO, R.; FARIA, L. I. L.; VIEIRA, J. L.; KURIHARA, M. H.; AVILA. A. F. D.; QUONIAM, L., Aplicação da bibliometria na construção de indicadores sobre a produção cientíca da Embrapa. In: 3 WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, São Paulo � SP, 16 a 18 de setembro de 2002. º
PENTEADO, R.; QUONIAM, L., Aplicação da bibliometria na análise estratégica das competências da Embrapa . In: 2 WORKSHOP BRASILEIRO DE INTELIGÊNCIA COMPETITIVA E GESTÃO DO CONHECIMENTO, Florianópolis � SC, 03 a 05 de outubro de 2001. º
POLITY, Y.; ROSTAING, H., Cartographie d’un champ de recherche à partir du corpus des thèses de doctorat soutenues pendant 20 ans: Les sciences de l’information et de la communication en France: 1974-94. In: Actes du Colloque: Les systèmes d’informations élaborées (SFBA), Ile Rousse, França, 14 a 16 junho de 1997.
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
24
PORTER, A. L., Text Mining for Technology Foresight. In: Futures Research Methodology-V2.0, The Millennium Project . American Council for the United Nations University, CD-ROM, 2003. QUONIAM, L. et al. Bibliometric analysis of patent documents for R&D management. Research Evaluation, v. 3, n 1, p. 13-18, avr. 1993. º
QUONIAM, L., Datamining. In: Curso de Especialização em Inteligência Competitiva. Brasília: MCT/INT, CNPq/ IBICT, UFRJ/ECO, 1999. QUONIAM, L. Datamining, teoria e prática. In: SEMINÁRIO TECNOLOGIAS PARA TRATAMENTO DA INFORMAÇÃO NA EMBRAPA. Brasília: EMBRAPA, CRRM/LePont, Cendotec, dec. 2001. REYNOLDS, G. W., Information systems for managers . Estados Unidos, St. Paul: West Publishing Co, 1992. SULAIMAN, A. e SOUZA, J. M., Data Mining Mineração de dados . In: TARAPANOFF, K., Inteligência Organizacional e Competitiva , Brasília: Editora Universidade de Brasília, p.265-278, 2001. SWANSON, D. R., ASIST Award of Merit acceptance speech: on fragmentation of knowledge, the connection explosion, and assembling other people’s ideas, Bulletin of the American Society for Information Science and Technology, v. 27, n 3, 2001. º
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
25
Anexo 1 Algumas ferramentas de mineração de dados e textos Preparação de dados
Infotrans � http://www.ever-germany.de/start.aspx Folio Search and Replace- http://www.nextpage.com/publishing/folio/ Dataview � Matrisme �
Mineração de textos
Temis � Matheo Anayzer, Matheo Patent � VantagePoint � WinIDAMS � Data Mining, Technology Watch � SAS Enterprise Miner �
Mineração de dados
SPSS Clementine � Oracle Mining Suite � Gomining � Weka �
Métodos e Técnicas de Pesquisa em Comunicação | Duarte | Barros
26