INICIA INIC IAR R
▼
M VP
Ande A nders rson on Kerlly Kerl ly Rod Rodrigu rigues es De Sous Sou s a
O uso de m ineração de texto texto é import im portante ante para o process o de ex extr tração ação de conhecim ento em bas bases es tex textuais. tuais. Contudo, é importante importante avaliar avaliar se s e o conhecimento extr extraído aído ou gerado é relevante relev ante ou não para o us uário. Neste artigo artigo avaliam avaliamos os a performa performance nce de algoritmos de m ineração de texto texto da ferramenta ferramen ta Tex TextM tMining ining.. A dis cus cusss ão apres entada nes te artigo artigo é útil pois é cada vez vez mai maiss comum com um a neces s idade de descobrirmos descobrirmo s informação útil a partir partir de dados tex textuais. tuais. Atr Atrav avés és do es tudo de caso cas o apresentado apres entado será se rá possív pos sível el entender o im pact pacto o que difer di ferentes entes algoritmos de m ineração de tex texto to traz trazem em a es ta atividade. atividade. Esta informação poderá apoiar a tomada de de cisão s obre qual es tr tratégia atégia de mineração mine ração utiliz utilizar ar..
Grandes Gr andes mas sas de dados são geradas diariamente diariamente pelos pelos s istemas que apoiam as atividades ativ idades rot rotineiras ineiras das organiz organizações, ações, dificultando a tarefa tarefa analítica dos gestores. Diante desss a necess idade, surgiram os Sistemas de Apoio des Apoio à Decisão (SADs) (SADs) que permitem apoiar apoi ar,, contribuir contr ibuir e influenciar no process o de tomada toma da de decis ão. Os Os SA SADs Ds permitem, a partir dos dados tr trans ansacionais acionais da organização, organização, gerar informações gerenciais que q ue facilitam facilitam o referido referido processo. Como Com o grande parte parte dos dados man manipulados ipulados pelas organiz organizações ações es tá em formato formato textual, textual, torna-se tor na-se fundamental o us o da técnica de mineração m ineração de texto texto (tamb (também ém conhecido por Knowledge Discovery i n Texts, Texts, KDT ) para identificar identificar padrões e conhecimentos conhecim entos para aux auxiliar iliar
nas decisões. O conhecim conhecimento ento gerado pode ser avaliado avaliado para determinar s e o mes m esmo mo é relevante relevante ou não para o usuário, ou seja, avaliar avaliar o desem penho do process o de mineração min eração para a geração geração do conhecimento. Ex Exis istem tem várias várias m étr étricas, icas, sendo as principais relacionadas ao desempe dese mpenho, nho, à acurácia, precis precisão ão e cobert cobertura. ura. Neste Nes te artigo artigo iremos irem os apresentar um es estudo tudo de caso realiz realizado ado em uma organiz organização ação ABC. ABC. A
INICIA INIC IAR R
▼
M VP
Ande A nders rson on Kerlly Kerl ly Rod Rodrigu rigues es De Sous Sou s a
O uso de m ineração de texto texto é import im portante ante para o process o de ex extr tração ação de conhecim ento em bas bases es tex textuais. tuais. Contudo, é importante importante avaliar avaliar se s e o conhecimento extr extraído aído ou gerado é relevante relev ante ou não para o us uário. Neste artigo artigo avaliam avaliamos os a performa performance nce de algoritmos de m ineração de texto texto da ferramenta ferramen ta Tex TextM tMining ining.. A dis cus cusss ão apres entada nes te artigo artigo é útil pois é cada vez vez mai maiss comum com um a neces s idade de descobrirmos descobrirmo s informação útil a partir partir de dados tex textuais. tuais. Atr Atrav avés és do es tudo de caso cas o apresentado apres entado será se rá possív pos sível el entender o im pact pacto o que difer di ferentes entes algoritmos de m ineração de tex texto to traz trazem em a es ta atividade. atividade. Esta informação poderá apoiar a tomada de de cisão s obre qual es tr tratégia atégia de mineração mine ração utiliz utilizar ar..
Grandes Gr andes mas sas de dados são geradas diariamente diariamente pelos pelos s istemas que apoiam as atividades ativ idades rot rotineiras ineiras das organiz organizações, ações, dificultando a tarefa tarefa analítica dos gestores. Diante desss a necess idade, surgiram os Sistemas de Apoio des Apoio à Decisão (SADs) (SADs) que permitem apoiar apoi ar,, contribuir contr ibuir e influenciar no process o de tomada toma da de decis ão. Os Os SA SADs Ds permitem, a partir dos dados tr trans ansacionais acionais da organização, organização, gerar informações gerenciais que q ue facilitam facilitam o referido referido processo. Como Com o grande parte parte dos dados man manipulados ipulados pelas organiz organizações ações es tá em formato formato textual, textual, torna-se tor na-se fundamental o us o da técnica de mineração m ineração de texto texto (tamb (também ém conhecido por Knowledge Discovery i n Texts, Texts, KDT ) para identificar identificar padrões e conhecimentos conhecim entos para aux auxiliar iliar
nas decisões. O conhecim conhecimento ento gerado pode ser avaliado avaliado para determinar s e o mes m esmo mo é relevante relevante ou não para o usuário, ou seja, avaliar avaliar o desem penho do process o de mineração min eração para a geração geração do conhecimento. Ex Exis istem tem várias várias m étr étricas, icas, sendo as principais relacionadas ao desempe dese mpenho, nho, à acurácia, precis precisão ão e cobert cobertura. ura. Neste Nes te artigo artigo iremos irem os apresentar um es estudo tudo de caso realiz realizado ado em uma organiz organização ação ABC. ABC. A
Anders Ande rson on Kerlly Kerl ly Rod Rodrigu rigues es De Sous Sou s a m ecanism os que tornem efet e fetiv ivas as as atividades atividades de auditoria. Auditoria Auditoria é a atividade atividade que INICIA INIC IAR R
▼
M VP
realiza realiz a a validação das informações , verif verificação icação da obediência às normas e recomendações e avaliações avaliações dos cont controles roles em bus busca ca dos res ultados da ges tão. Objet Objetiv ivando ando atender as necess idades da ABC, ABC, desenvolv desenvolvem emos os uma aplicação que realiza realiza a m ineração de texto texto em qualquer campo descritivo de um sistema, a ferramenta TextMining. A apl aplica icação ção perm pe rmite ite determ ina inarr se um u m a des crição é ou o u não ev e vidê idência ncia de d e irregula irreg ularida ridade, de, tornando tor nando efet e fetiv ivo o o tr trabalho abalho do auditor audi tor na identificação identificação de irregularidades. Para class ificar uma um a des criç crição, ão, a ferram ferramenta enta dispõe dispõ e de um algoritmo, Naïve Naïve Bayes Bayes,, de forma param etr etriz izada, ada, especific es pecificando ando um lim limiar iar mínimo para auxiliar auxiliar no process o class ificat ificatório. ório. É importante importante des tacar que exis existem tem três m étodos para o Naïve Naïve Bayes Bayes:: “Híbrido” “Híbrido” (utilização (utilização da frequência frequênci a do termo ter mo da am ostra com tf, term frequency , da s entença), “Frequê “Frequência ncia Inv Invers ersa” a” (tfidf, (tfidf, term frequency – inverse document frequency , da amostra am ostra com tf da s entença) e “Frequência” “Frequência”
(frequência (f requência da am os ostr tra a com fr frequência equência da s entença) entença).. Este trabalho introduz introduziu iu um se segundo gundo algoritmo, Similaridade, Sim ilaridade, na ferram ferramenta enta citada citada e for foram am avaliadas av aliadas as m étr étricas icas de qualidade e des emp empenho enho para as duas abordagens. A av avaliação aliação s e deu por meio m eio da coleta de métricas de tem po médio, m édio, acurácia, acurácia, cobert cobertura, ura, me medida dida F e precisão de cada algoritmo algoritmo.. Ass s im , este artigo A artig o objetiva obj etiva comparar comp arar o des de s em pen penho ho e quali qu alidad dade e de dois do is alg algoritm oritmos os de m ineração de texto texto aplicados a his tór tóricos icos de cont contas as públicas custodiadas pela organização organização ABC. A BC. A aná anális lis e compara com parativ tiva a determ ina inará rá o melh m elhor or algoritm alg oritm o da ferram enta Text TextM Mini ining ng e, consequentemente, consequ entemente, o conhecim conhecimento ento gerado por ess a abordagem s erá efetiv efetivo o e relevante relevante para os auditores na des cobert coberta a de irregularidades com o a identificação identificação de uma des crição de motiv m otivo o de viagem viagem para a qual não é perm itida o pagamento pagame nto de diárias.
Descoberta de Conhecimento em Bases de
INICIA INIC IAR R
▼
M VP
Ande A nders rson on Kerlly Kerl ly Rod Rodrigu rigues es De Sous Sou s a
Knowledge ledge Discover Discovery y in Databases ) é o process o não-trivial KDD (Know não-trivial de identif identificar icar padrões
válidos , novos, novos, potencialmente úteis úteis em e m dados, dado s, ou seja, se ja, é o process process o de descobert des coberta a de conhecimento conhec imento ou padrões padrões úteis úteis e des conhe conhecidos cidos em grandes m ass as de dados. O process process o de KDD consis te de várias várias etapas, etapas , as quais env envolv olvem em preparação dos dados dados,, busca bus ca por padrões, avaliação avaliação do conhecimento conhecim ento e refinam refinamento, ento, todos repetidos em múl múltiplas tiplas iteraç ite rações. ões. Esse proc process ess o é compos to por cinco cinco pass os bem definidos: seleção, pré-proces pré-proc essa samento, mento, transformação, transformação, mineração de dados, análise / ass im imilação, ilação, conf conforme orme é mos tr trado ado na Figura 1 .
abrir imagem em nova janela janela
process o de KDD. KDD. Figura 1. 1 . Passos que compõem o process Na etapa s eleção serão definidas as font fontes es de dados relev relevantes, antes, ou seja, as bas es de dados imp import ortantes antes para o problema em ques questão, tão, o qual se s e deseja des eja resolver. resolver. No pré-proc préprocess ess amento, os dados s erão trat tratados, ados, pois como ess es dados podem ser oriundos de diversas diversas font fontes, es, os mes m os podem cont conter er divergência divergência de valores valores e outr outras as
Anders Ande rson on Kerlly Kerl ly Rod Rodrigu rigues es De Sous Sou s a estr es trutur utura a compatí com patívvel com o algoritmo de mi mineração neração escolhido. Já na etapa m ineração de INICIA INIC IAR R
▼
M VP
dados,, objetiv dados objetivo o do processo proces so de KDD, é escolhida e execut executada ada um a técnica e algoritmo algoritmo de m ineração de acordo acordo com o problem a em questão, que stão, por ex exem emplo, plo, clas classs ific ificação, ação, regress regress ão, agrupamento agrupamen to e sum ariz arização. ação. E, E, por fim fim,, na etapa etapa de anális e/ass e/assim imilação, ilação, o conhecim conhecimento ento gerado será avaliado avaliado se s e é útil ou não para a tomad tomada a de decisão. Como é m ostrad ostrado o na Figura 1 , o process o de KDD é um proces p rocesss o iterativo iterativo e interativo, interativo, em que o usuário participa e realiz realiza a decisões nas diversas etapas do proces so so,, as quais quai s podem também s er repetidas, repetidas, dependendo do conhecimento conhecimento gerado ou pela ausência do mesm me sm o. O process process o de KDD pode ser aplicado em div diversas ersas áreas, incluindo market ma rketing, ing, finanças finanças,, detecção detecç ão de fraudes, m anufat anufaturas uras e telecomunicações. Um ex exemp emplo lo cláss clás s ico de utilização utilização de KDD é o conhecimento des cobert coberto o nos dados da rede de s upermercados Walm almart art.. Foi Foi descobert des coberto o que a maioria dos pa is que iam comprar fraldas fraldas para seus s eus filhos acabav a cabavam am comprando cerveja. cerveja. Em uma um a jogada de m arket arketing, ing, as fraldas foram colocadas próx próxim imas as da cerveja, cerv eja, sendo que as batat batatas as fr fritas itas es tav tavam am entr entre e elas . Consequentemente, Consequen temente, houve houve um aumento aum ento das vendas vendas dos do s três produtos. Outro Outr o exem exemplo plo de utilização do proces s o de KDD foi o us o do s is istema tema ADVA ADVANCED SCOUT da IBM para ajudar ajud ar os treinadores treina dores da NBA, NBA, no ano de 1996, a procurar e des cobrir padrões interessantes interess antes nos dados dad os dos jogos da NBA. NBA. Com es se conhecim ento obtido, obtido, os treinadores treinadores podiam av avaliar aliar a eficácia eficácia das decis ões de d e táticas táticas e formular estr es tratégias atégias de jogo para jogos futuros. fut uros. O sis tema foi dis tr tribuído ibuído para dezes dezessei seiss das vinte e nove nove equipes da NBA, NBA, sendo usado us ado de forma forma efetiv efetiva a por algumas equipes para a preparação preparação de jogadas e process os analíticos, analít icos, como foi o caso do d o time Seattle Seattle Supersonics , o qual atingiu as finais da NBA NBA..
Miner Min eração ação de Texto
Anderson Kerlly Rodrigues De Sousa previamente desconhecimento, em bas es de dados deses truturadas, ou seja, extração de INICIAR
▼
M VP
conhecimento útil para o usuário em bas es textuais. O processo de mineração de texto é dividido em quatro etapas bem definidas: seleção, pré-processamento, mineração e ass imilação, conforme é mos trado na Figura 2 .
Figura 2. Processo de mineração de texto.
Na seleção, os documentos relevantes devem ser es colhidos, os quais s erão processados . No pré-process amento ocorrerá a conversão dos documentos em uma estrutura compatível com o minerador, bem com o ocorrerá um tratamento especial do texto. Na mineração, o minerador irá detectar os padrões com bas e no algoritmo escolhido. E por fim, na ass imilação, os us uários irão utilizar o conhecimento gerado para apoiar as suas decisões. É notório a semelhança entre os process os de KDD e KDT, sendo que o KDT não pos sui a etapa de transformação. O fato da ausência da etapa transformação, etapa no proces so de KDD que converte os dados pré-process ados para uma estrutura utilizada na etapa de mineração de dados , é justificada pelo fato de que a etapa de pré-process amento no KDT, além de realizar um tratamento no texto, permite definir uma estrutura compatível com as entradas dos algoritmos de m ineração.
Anderson Kerlly Rodrigues De Sousa conflação, normalização de s inônimos e indexação. Na etapa remoção de s topwords os INICIAR
▼
M VP
termos com pouca ou nenhum a relevância para o documento s erão removidos. São palavras auxiliares ou conectivas, ou seja, não s ão discriminantes para o conteúdo do docum ento. São, em s ua maioria, pronomes , preposições, artigos, numerais e conjunções . Para auxiliar na remoção das stopwords, geralmente, utiliza-se uma lista destas predefinida. Para facilitar o entendimento, na Figura 3 é apresentado um exemplo de remoção de stopwords.
Figura 3. Exemplo de remoção de StopWords
. Na etapa s eguinte, conflação, realiza-se uma normalização m orfológica, ou s eja, realiza-se uma combinação das palavras que s ão variantes morfológicas em uma única forma de representação. Um dos procedimentos m ais conhecidos de conflação é a radicalização (Stemming). Nela as palavras s ão reduzidas ao s eu radical, ou seja, as palavras variantes morfologicamente serão com binadas em uma única representação, o radical. A radicalização pode s er efetuada com o auxílio de algoritmos de radicalização, sendo os mais utilizados o algoritmo de Porter (Porter Stemming Algorithm) e algoritmo de Orengo (Stemmer Portuguese ou RLSP). A Figura 4 exemplifica o processo de radicalização de um texto utilizando o algoritmo de Porter.
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
Figura 4. Exemplo de radicalização utilizando o algoritmo de Porter.
Existem dois problem as no processo de radicalização: · Overstemming : quando a string removida não é um sufixo, mas sim parte do radical da palavra. Isso possibilita a combinação de palavras não relacionadas ; · Understemming : quando parte do s ufixo não é removido, ocasionando numa falha de conflação de palavras relacionadas . Após a conflação, na etapa de normalização de sinônim os , os term os que possuem significados similares s erão agrupados em um único termo, por exemplo, as palavras ruído, tumulto e barulho serão s ubstituídas ou representadas pelo termo barulho. Na normalização de sinônimos, é formado um vocabulário controlado que s e refere à utilização de termos adequados para representar um docum ento, sendo ess es termos pré-definidos e específicos a um determinado assunto de uma área. Isso facilita a busca, pois os termos são comum ente utilizados pelos usuários da área. E, por fim, na etapa indexação atribui-se um a pontuação para cada termo, garantindo um a única instância do termo no documento. No process o de atribuição de pesos devem s er considerados dois pontos: (a) quanto mais vezes um termo aparece no documento, mais relevante ele é para o do cumento; (b) quanto mais vezes um termo aparece na coleção de
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
Existem várias formas de determinar o pes o de um termo (pontuação). Os principais métodos são: · Booleano ou Binário: o peso para um determinado termo será 1 s e o mesm o aparece no documento. Caso contrário, o peso s erá 0. Indica a presença ou ausência do termo no documento; · Frequência do Termo ( term frequency ou tf ): o peso é a frequência do termo no documento. Consiste da razão entre a quantidade de vezes que o termo apareceu no documento e a quantidade total de termos contidos no docum ento, como é m ostrado na Figura 5 , onde ni é a quantidade de ocorrências do termo i no documento e
a quantidade total de termos no documento;
Figura 5. Fórmula para calcular a frequência do termo.
· Frequência do Documento (Document Frequency ou df ): é o número de documentos que poss ui um determinado termo;
Anderson Kerlly Rodrigues De Sousa importância de um termo em um conjunto de documentos . Quanto maior o idf , mais INICIAR
▼
M VP
representativo é o termo para o documento. Consiste no logaritmo da razão entre o número total de docum entos e a frequência do documento, conforme é demonstrado na Figura 6 , onde
é a quantidade total de docum entos e df(termo i) a frequência do documento para o termo i ;
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
Figura 6. Fórmula para calcular a frequência inversa do termo.
· tfidf (Term Frequency – Inverse Document Frequency ): o peso para o termo é ass ociado na proporção da frequência do termo no documento e na proporção inversa do número de documentos na coleção em que o termo aparece pelo men os um a vez, ou seja, combina o tf com idf , como é mostrado na Figura 7 , onde tf(termo i) e idf(termo i) são, respectivamente, o tf e idf do termo i. Obtém-se, assim, o índice de m aior representatividade do termo.
Figura 7. Fórmula para calcular o tfidf do termo.
As s ubetapas do pré-processam ento permitem um a redução da dim ens ionalidade do texto, pois um docum ento pode ser representado por um vetor de termos . Como um termo representa uma dimensão do texto, quanto maior a dim ensionalidade do texto, mais complexa será a anális e feita pelo algoritmo de m ineração. Assim como no KDD, o processo de m ineração de texto possui divers as aplicações, como extração de palavras-chave, determinação de s istemas representacionais preferenciais, class ificação de documentos por categoria, filtro de documentos, entre outras.
Similaridade de documentos
Anderson Kerlly Rodrigues De Sousa considerado uma coordenada dimensional e os documentos podem s er colocados num INICIAR
▼
M VP
espaço euclidiano de n dimens ões onde n é o número de termos . A posição do documento em cada dim ensão é dada pelo pes o (pontuação calculada na fase de indexação). A distância entre um docum ento e outro é o grau de sim ilaridade. Documentos que possuem os m esm os termos acabam s endo colocados numa mes ma região no espaço euclidiano, ou seja, são similares. A similaridade entre dois documentos também pode ser obtida pelos termos que ocorrem em am bos, ou seja, pelos termos compartilhados. Os documentos mais sim ilares são os que possuem m ais termos em comum . No cálculo da sim ilaridade, são ignorados os termos que ocorrem em um documento e que não ocorrem no outro. Em outras palavras, só interessam os termos que ocorrem nos dois, isto é, a ocorrência positiva dess e em ambos . Similaridade é considerada o coração do m étodo de class ificação K-Nearest-Neighbor. A diferença entre ambos é que no K-Nearest-Neighbor consideram-s e os k documentos m ais similares. A depender do valor de k, podem s er considerados os documentos com score inferior aos de maior score para determinar a classe do novo documento. Similaridade considera apenas os documentos com m aior score e a classe do novo documento será a class e que mais ocorre ness es. É importante frisar que para o cálculo do grau de sim ilaridade (score), devem ser apenas considerados os termos em comum. Existem várias formas de calcular o grau de similaridade, isto é, as funções de s imilaridade. Depois de calcular os s cores, podemos criar uma lis ta em forma de ranking, em que os documentos mais sim ilares estão no topo da lista. As principais funções de sim ilaridade são: · Contagem de palavras: é considerada a função mais s imples de mensurar a sim ilaridade, pois s e baseia apenas na contagem de termos que ocorrem em ambos documentos, isto é,
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
· Contagem de palavras com bônus: de forma análoga à contagem de palavras, serão contabilizados os termos em com um aos vetores com apenas um diferencial: para cada termo analisado, se ess e termo ocorre em am bos documentos, será adicionado um bônus ao score conforme é visto na Figura 8 , onde K é a quantidade total de termos do novo documento, w(j) a pontuação para o termo j, D(i) o documento i da coleção e a express ão 1/df(j) o bônus para o termo j. O bônus é considerado uma variação do idf . Se o termo ocorre
em m uitos documentos, o valor do bônus é baixo. Já se o termo aparece em poucos, o bônus é alto;
Figura 8. Fórmula para a contagem de palavras com bônus.
· Cosine similarity : função de sim ilaridade m ais utilizada na área de recuperação de informação (RI) para comparar documentos. Representa o coss eno do ângulo formado p or dois vetores, como é mos trado na Figura 9 , onde d1 e d2 são os documentos cuja sim ilaridade s erá calculada,
INICIAR
▼
M VP
o peso do termo j em d1 ,
o peso do termo j em d2 ,
Anderson Kerlly Rodrigues De Sousa
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
a normalização de d2 . Quanto mais próximo de zero for o valor do coss eno, menos sim ilares são os documentos. Já quando for mais próximo de um , mais s imilares eles são;
Figura 9. Fórmula para a cosine simi larity .
· Distância euclidiana: representa a menor dis tância entre dois vetores de termos no espaço euclidiano, como é visto na Figura 10 , em que d1 e d2 são os documentos, K o número de termos,
INICIAR
▼
M VP
o peso do termo j em d1 e
o peso do termo j em d2 ;
Figura 10. Fórmula para a distância euclidiana.
Anderson Kerlly Rodrigues De Sousa
Anderson Kerlly Rodrigues De Sousa Corresponde à distância a s er percorrida para se chegar de um ponto a outro, em que o INICIAR
▼
M VP
caminho é percorrido em quadras , conforme é m ostrado na Figura 11 , onde d1 e d2 são os documentos, K o número de termos,
o peso do termo j em d1 e
o peso do termo j em d2 ;
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
Figura 11. Fórmula para a dis tância manhattan.
· Produto escalar: corresponde ao s omatório do produto dos pesos de um termo em dois documentos , como é visto na Figura 12 , onde d1 e d2 são os documentos, K o número de termos,
o peso do termo j em d1 e
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
o peso do termo j em d2 .
Figura 12. Fórmula para o produto escalar.
Para facilitar o entendimento sobre s imilaridade, a Figura 13 demonstra o cálculo da similaridade entre um novo documento e todos os documentos do dicionário, utilizando a função de sim ilaridade contagem de palavras. Como podem os ver, foi calculado o s core entre o novo documento e todos do dicionário por meio da contagem de palavras cuja ocorrência em ambos foi positiva, isto é, a contabilização delas que ocorre em am bos, ignorando as que ocorrem apenas em um e as ausentes em ambos . Existem dois documentos que pos suem o maior s core, grau de sim ilaridade igual a 2. Como os dois documentos com m aior score possuem classe igual a um (última coluna do dicionário), a classe do novo documento também s erá um.
INICIAR
▼
Anderson Kerlly Rodrigues De Sousa
M VP
Figura 13. Cálculo de sim ilaridade dos documentos.
Avaliação de desempenho e qualidade Existem diversas formas de se avaliar a capacidade de predição de um class ificador para determinar a class e de vários regis tros. A “matriz de confusão” é a forma m ais s imples de analis ar o desempenho e qualidade de um class ificador em reconhecer registros de diferentes clas ses . Ela é um recurso que permite demons trar o desempenho de um class ificador, ou seja, a frequência com que os registros de clas se X foram corretamente class ificados como class e X ou, até mes mo, class ificados erroneamente como outras classes. Para n class es, a matriz de confusão é um a tabela de dimensão n x n. Para cada class ificação pos sível existe uma linha e coluna correspondente, ou seja, os valores das class ificações s erão distribuídos na m atriz de confusão de acordo com os resultados, assim gerando a matriz de confusão para as clas sificações realizadas. As linhas correspondem às classificações corretas e as colunas representam as classificações realizadas pelo classificador. Por exemplo, na Tabela 1 , o valor V1,1 corresponde ao número de regis tros de classe 1 que foram classificados com class e 1 pelo class ificador. Classificado como Classe Atual
Classe 1
Classe 1
Classe 2
...
Classe n
V1,1
V1,2
...
V1,n
INICIAR
▼
Anderson Kerlly Rodrigues De Sousa
M VP
...
...
...
...
...
Classe n
Vn ,1
Vn ,2
...
V n ,n
Tabela 1. Matriz de confusão para n classes .
Quando existem apenas duas class es, uma é cons iderada como “positive” e a outra como “negative”. Os valores da m atriz de confusão s ão referenciados com o true e false positives e true e false negatives, como é visto na Tabela 2 .
Predicted class Actual class Positiv e
Negativ e
Positive
True Posi ti ve (TP)
Fal se Ne gati ve (FN)
Negative
Fal se Po si ti ve (FP)
True Negati ve (TN)
Tabela 2. Matriz de confusão para duas class es.
Assim , exis tem quatro situações : · True Positive (TP): é o número de instâncias de class e positive que foram clas sificadas como positive ; · False Positive (FP) : é o número de instâncias de class e negative que foram clas sificadas como positive ; · False Negative (FN): é o número de instâncias de class e posi tive que foram classificadas como negative ; · True Negative (TN): é o número de instâncias de class e negative que foram clas sificadas
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
A avaliação de um clas sificador se dará pela análise dos valores nela contidos , bem como na verificação do somatório dos elem entos das diagonais principal e secundária. Um bom classificador é aquele que poss ui a s oma da diagonal principal maior que a da s ecundária. Um clas sificador é considerado ideal quando a som a da diagonal secundária é igual a zero, contudo esse será considerado um pés sim o classificador se poss uir o somatório da diagonal principal igual a zero. De posse dos valores da matriz de confusão, podem s er utilizadas as m étricas de avaliação de desem penho e qualidade de um class ificador. As principais m étricas de desempenho e qualidade são: · Acurácia (accuracy ): é o percentual de ins tâncias class ificadas corretamente; · Precisão ( precision): é o percentual de instâncias classificadas como posi tive que são realmente positive ; · Cobertura ou Revocação (recall ): é o percentual de ins tâncias posi tive que foram classificadas corretamente como posi tive; · Medida F (F1 Score): é a m edida que combina a precisão e revocação (cobertura), ou seja, é a média harmônica da precisão e revocação.
Ferramenta TextMining O TextMining perm ite determinar se informações são ou não evidências de irregularidades , ou seja, se um a descrição está ou não de acordo com a lei e com o que se es pera dos jurisdicionados . Desta forma, a ferram enta tem com o objetivo tornar efetivo o trabalho do auditor na identificação de irregularidades. Suas principais funcionalidades são o gerenciamento de perfis, de dicionários e de class ificações. Considera-se gerenciamento o
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
informações. Iniciando pelo gerenciamento de perfis, este é um m ecanism o que auxilia nas cons ultas por meio dos filtros anexados aos perfis. Conforme é m ostrado na Figura 14 , é por meio deles que o usuário poderá determinar dinamicam ente os campos que deseja filtrar nas telas, nas quais poderá es colher o perfil. Na TextMining, está dis ponível para o us uário as funcionalidades de cadastro, consulta e exclusão.
abrir imagem em nova janela Figura 14. Tela Perfil (Ferramenta TextMining)
A criação de um perfil poderá ocorrer só uma vez e pode ser compartilhado por todos os usuários. Como o custo da operação é m uito baixo, se houver a necess idade de alteração dele, basta excluí-lo e criar outro novamen te. Esta característica torna a aplicação flexível e
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
campos contidos na bas e de dados. Dados es tes entendimentos s obre perfis, outra funcionalidade im portantíss ima é o gerenciamento de dicionários, que são os m odelos de conhecimento que servem de bas e para tornar poss ível a descoberta de evidências de fraudes semelhantes em toda base de dados ou em unidades e cidades específicas. Um dicionário é criado por meio da seleção de amostras que são dados s elecionados pelo auditor como “Evidência” (poss ível evidência de irregularidade) e “Em Conformidade” (descrição que es tá de acordo com a lei), bem como o auditor pode informar amostras avulsas, as quais são especificadas manualmente e class ificadas como “Evidência” ou “Em Conformidade”, como é m ostrado na Figura 15 . A seleção de amostras para criação do dicionário deve ser balanceada, para cada evidência informada, deverá existir um ou mais registros que s ão exemplos de conformidade. Na ferramenta estão disponíveis para o usuário as funcionalidades de cadastro, consulta, edição, exclusão e desbloqueio de dicionários. É importante ress altar que o dicionário criado poderá ser utilizado por todos os auditores, permitindo maior eficiência ao process o de auditoria.
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
abrir imagem em nova janela Figura 15. Tela Dicionário (Ferramenta TextMining).
A partir do perfil s elecionado, dos filtros anexados a esse e do dicionário escolhido, o auditor poderá escolher os dados a s erem class ificados pela ferramenta, ou s eja, o local em que serão buscadas novas evidências s emelhantes às do dicionário criado. A aplicação dispõe de dois algoritmos de m ineração de texto, Naïve Bayes e Similaridade, para class ificar os regis tros, como é mostrado na Figura 1 6 . Naïve Bayes é um algoritmo de anális e estatística e foi implem entado de forma param etrizada, especificando um lim iar mínimo para auxiliar na classificação dos registros. Para realizar a class ificação de um registro, o algoritmo calcula a probabilidade des se registro ser ou não um a evidência de irregularidade. Este algoritmo dis põe de três formas para realizar o cálculo da probabilidade: “Híbrido”, “Frequência Inversa” e “Frequência”. Na primeira abordagem, é considerada a frequência do termo na am ostra e o tf desse na sentença. Já na segunda é levado em conta
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
frequências do termo na am ostra e na sentença. Já o algoritmo de s imilaridade, também de análise estatística, calcula a similaridade entre uma s entença e um conjunto de amos tras, por meio dos termos que am bos pos suem em comum para determinar s e a sentença é ou não uma evidência. Na ferramenta, estão disponíveis para o usuário as funcionalidades de cadastro, consulta, exclusão e visualização de clas sificações.
abrir imagem em nova janela Figura 16. Telas Clas sificação sobrepos tas mos trando os algoritmos disponíveis
(Ferramenta TextMining). Após a anális e da aplicação foram efetuadas alterações no código objetivando melhoria no uso da ferramenta, inclusão de novas funcionalidades , prevenção e correção de problemas . A seguir temos as principais alterações realizadas : · Modelo de Dados:
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
“DIM_CLASSIFICACAO”. · Módulo Dicionário: o A tela de criação de dicionários foi alterada para permitir a inclusão de amostras avulsas ; o A tela de consulta de dicionários foi alterada para que os botões “Editar” e “Excluir” ficass em desabilitados quando não existissem dicionários cadastrados; o A tela “Dicionários Bloqueados” foi alterada para que o botão “Liberar” ficass e des abilitado quando não existissem dicionários bloqueados. · Módulo Classificação: o Criação da class e sim ilaridade, algoritmo de classificação; o Criação da clas se abstrata Class ificador, superclass e das classes Similaridade e NaiveBayes. A class e Clas sificador possui um método estático Clas sificadorFactory que retorna um objeto do tipo Class ificador, o qual pode s er uma ins tância das class es NaiveBayes ou Sim ilaridade; o Na tela “Classificação”, o algoritmo “Similaridade” foi incluído nas opções de métodos de classificação; o Na tela “Classificação”, foram adicionados os percentuais 51 e 55 ao componente “Limiar Classificação %”; o A tela “Classificação” foi alterada para os componentes “Dicionários”, “Perfil”, “Limiar Classificação %”, “Método”, “Medidas”, “Filtros”, “Class ificar” e “Descrição da Classificação” serem desabilitados quando um process o class ificatório foss e iniciado;
Anderson Kerlly Rodrigues De Sousa ficass em desabilitados quando não existissem classificações cadastradas; INICIAR
▼
M VP
o As alterações da tela “Dados da Clas sificação” foram: § Criação do com ponente “Tempo de Clas sificação” para visualizar o tempo da class ificação realizada; § Atribuição do valor “---“ para o com ponente “Limiar de Classificação %” quando o algoritmo de mineração utilizado não for o Naïve Bayes, porque este é o único que utiliza limi ar; § Parametrização da tabela “Evidências”, em que o label e os valores da coluna do Limiar/Score serão formatados de acordo com o algoritmo utilizado na clas sificação. Por exemplo, caso o algoritmo s eja Naïve Bayes, o label da coluna s erá “Limiar” e os valores da coluna estarão formatados em porcentagem, mas se for escolhido Similaridade, o label da coluna será “Score” e os valores da coluna es tarão formatados em núm eros com cas as decimais. Implementamos uma adaptação do algoritmo de sim ilaridade de documentos. O método convencional de similaridade realiza um cálculo de s imilaridade entre todos os documentos do dicionário e o documento a ser clas sificado, apenas levando em conta os termos que ocorrem em ambos . Para class ificar o novo documento, o algoritmo convencional apenas considera as ocorrências do maior score, ignorando todos os outros. Nessa abordagem, existe a possibilidade de não class ificar um novo documento quando a quantidade de documentos com m aior score para diferentes classes , é a mes ma, como é m ostrado na Figura 17 .
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
Figura 17. Exemplo de quatro situações de clas sificação do algoritmo convencional de
similaridade. Visando performance e melhoria do process o de clas sificação, foi des envolvida uma adaptação do algoritmo de similaridade. As adaptações efetuadas foram: · Será realizada uma poda, onde não serão analis ados todos os docum entos (amos tras) do
Anderson Kerlly Rodrigues De Sousa a ser classificado para determinar o grau de sim ilaridade; INICIAR
▼
M VP
· Serão utilizados os outros scores quando não for possível class ificar com o m aior score. O score para um a determinada am ostra (documento do dicionário) pode s er obtido através do som atório da multiplicação do tfidf do termo da amos tra com o tf da sentença (novo documento) para todos os termos comuns entre a amos tra e a sentença, como pode s er visto na Figura 18 , onde k é o número de termos que a amos tra e a s entença possuem em comum.
Figura 18. Fórmula para o cálculo do score utilizado no algoritmo im plementado.
Para facilitar o entendimento do algoritmo im plementado, é apresentado o seu passo a pass o a seguir. Entrada: sc , sentença a ser classificada como “Evidência” ou “Em Conformidade” dic , dicionário utilizado para clas sificar a s entença
Saída: result , resultado da classificação da s entença, ou seja, objeto ResultadoGenerico contendo a
classe e o s core da s entença class ificada
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
2. Para cada amos tra que contenha pelo menos um termo de sc , calcular o score para cada amostra, criar um objeto ResultadoGenerico para cada amos tra analisada, contendo nes se objeto a class e da amostra e o score calculado e, por fim, armazenar o objeto no vetor de ResultadoGenerico. 3. Ordenar o vetor de ResultadoGenerico em ordem crescente pelo score. 4. Se o vetor es tiver vazio Então Retorne um objeto ResultadoGenerico com classe igual a falso e score igual a zero.
Senão
5. Se o vetor possuir apenas um elemento Então Retorne o único objeto ResultadoGenerico dentro do vetor.
Senão
6. Se dentre os objetos Res ultadoGenerico no vetor existe apenas uma ocorrência de um objeto com o maior score Então Retorne o objeto ResultadoGenerico com m aior score.
Senão
7. Para todas as ocorrências dos objetos Res ultadoGenerico com maior score, realizar a contagem de objetos que poss uem class e igual a falso (“Em Conformidade”) e também os que pos suem class e igual a verdadeiro (“Evidência”). 8. Se a quantidade de verdadeiro for maior que a de falso Então
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
score.
Senão
9. Se a quantidade de falso for maior que a de verdadeiro Então Retorne um objeto ResultadoGenerico com classe igual a falso e score igual ao m aior score.
Senão
10. Enquanto não for poss ível classificar a sentença (quantidade de verdadeiros e falsos forem iguais) e nem todos os objetos do vetor foram analis ados, realizar os pas sos 6 a 9, considerando que o novo maior score será o score do objeto Res ultadoGenerico que antecede a primeira ocorrência do objeto que pos sui o atual maior score. 11. Se não foi poss ível class ificar analisando todos os elementos do vetor Então Retorne um objeto ResultadoGenerico com classe igual a falso e score igual a zero.
Estudo de caso A realização do es tudo de caso teve por objetivo principal a validação dos res ultados emitidos pela ferramenta TextMining para detecção de irregularidades nos pagamentos de diárias contidos nos históricos de contas públicas sob custódia da organização ABC. Para atingir este objetivo, é necessária a efetivação dos s eguintes pas sos: · Selecionar os participantes e objetos do es tudo de caso; · Definir o dicionário a s er utilizado; · Executar o process o classificatório nas amos tras dos participantes envolvidos para cada
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
· Verificar e validar os resultados obtidos por m eio das métricas de Tempo Médio de Execução, Acurácia, Precis ão, Cobertura e Medida F; · Realizar alterações na ferramenta, se necessários. Primeiramente foram s elecionados os participantes e objetos, em s eguida, a definição do dicionário utilizado, a determinação das métricas para a avaliação de desem penho e qualidade dos algoritmos e, por fim, foi realizada a execução do es tudo. Para a seleção dos participantes, foi necessário analisar dois critérios: os participantes devem ser unidades gestoras cadastradas e que poss uam uma quantidade considerável de registros cadas trados. De acordo com o DW cedido, existem 481 unidades gestoras cadastradas, sendo as sim, serão escolhidas, aleatoriamente, três unidades para a realização do estudo. Por questão de sigilo das informações, os nom es das unidades gestoras não serão revelados . As unidades escolhidas, com a quantidade de registros especificados entre parêntes es, foram: Unidade A (8872), Unidade B (625) e Unidade C (1855). É importante ressaltar que para as unidades A e C, também foram escolhidas dentro da quantidade de registros, aleatoriamente, amostras de 500 regis tros para o estudo. É fundamental frisar que a bas e de treinamento será cons tituída pela Unidade A, já a bas e de teste será formada pelas unidades B e C. Após a es colha das unidades, é fundamental determinar o atributo na tabela de fato a ser minerado, ou seja, o cam po des critivo. De acordo com a Figura 1 9 , existem cinco campos des critivos: IdDw_Fato_Diaria, Matricula_Funcionario, Des tino_Viagem, Motivo_Viagem e Numero_Empenho. Dentre estes, para detectar irregularidades no pagam ento de diárias, o atributo mais significativo é Motivo_Viagem, porque o mesmo representa a justificativa da
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
Diária é um a espécie de auxílio financeiro ou ajuda de cus to para um colaborador prestar algum serviço fora da localidade do órgão ao qual es teja vinculado. Em outras palavras, é um auxílio recebido pelo colaborador com o intuito de cus tear seus gastos para a realização de serviço fora do local de trabalho. A concess ão de diárias é diversificada, pois abrange ga stos referentes à capacitação, viagens para reuniões com superiores, entre outras. Diante do exposto, é proibida a concess ão de diárias para fins que não s ejam relacionados à prestação de s erviço. Existem inúm eras justificativas consideradas evidências de irregularidades para conces são de diárias como realização de uma viagem particular. Ass im, para a definição do dicionário a ser utilizado neste estudo, optou-se em restringir ess e conjunto para evidências relacionadas ao us o de diárias para tratamento de saúde. O modelo de conhecimento (dicionário a s er utilizado) pos suirá, no total, 60 s entenças constituídas de am ostras da própria base e de amos tras avulsas para class ificar registros. Para as amos tras da própria base foram es colhidas, aleatoriamente, 40 sentenças da Unidade A, sendo 20 clas sificadas como “Evidência” e as outras 20 como “Em Conformidade”. Para as amos tras avulsas , foram definidas 20 s entenças, sendo 10 class ificadas como “Evidência” e as outras 10 como “Em Conformidade”. As sentenças avulsas class ificadas como “Em Conformidade” são s imilares às da própria base, as quais foram formuladas por meio de um a análise das am ostras dos dados das unidades gestoras envolvidas. Já das s entenças avulsas classificadas como “Evidência”, apenas duas são s imilares às da própria base, por meio da anális e da amostra dos dados da Unidade A. Para formular as sentenças avulsas restantes, com o intuito de obter termos da Medicina sobre procedimentos, tratamentos e cirurgias m édicas, profissionais da s aúde, doenças e exames, foram realizadas algum as pes quisas s obre “Medicina”.
Anderson Kerlly Rodrigues De Sousa apenas os termos mais comuns e relevantes, a exemplo de doenças m ais comuns e INICIAR
▼
M VP
exames de rotinas m ais solicitados. Nas Tabelas 3 e 4 são apresentadas as amos tras que constituem o m odelo de conhecimento. AMOSTRAS DA PRÓPRIA BASE Sentença – “Em Conformidade”
Sentença – “Ev idência” ACOMPANHAMENT O DE TRATAMENT O DE
A DISPOSIÇÃO DA JUSTIÇA ELEITORAL SAÚDE DE SUA FILHA ACOMPANHANTE DA SRA DEP. CELIA A SERVIÇO DA ASSEMBLEIA FRANCO P/TRATAMENTO MEDICO ACOMPANHAR A DEPUTADA PARA A SERVIÇO DESTE PODER TRATAMENTO DE SAÚDE ACOMPANHAR A FILHA EM TRATAMENTO A T RABAL HO MÉDICO ACOMPANHAR O SR.PRIM EIRO SECRETARIO
ATENDER PROCEDIMENTOS M ÉDICOS
ACOMPANHAR PROCESSOS E REUNIÕES CONSULTA MEDICA PARLAMENTARES ASSUNTO DE INTERESSE DESTE PODER
DESPE SAS MÉDICA FAZER EXAMES PARA LIBERAÇÃO DE
AUTORIZADA PELO PRIMEIRO SECRET ÁRIO TRANSPLANTE DE RINS PARA A FUNCIONARIA A T RATAMENTO DE ENCONTRO DO PARTIDO PROGRESSISTA SAÚDE
INICIAR
▼
Anderson Kerlly Rodrigues De Sousa
M VP
CLÍNICO INTEGRAR COMITIVA DO GOVERNO DO REVISÃO MEDICA ESTADO PARA O SR. DEPUTADO PARTICIPAR DE SUBMETER-SE A CONSULTA MÉDICA REUNIÃO DO PARTIDO PARTICIPAR DE REUNIÃO DE CUNHO SUBMETER-SE A EXAMES MÉDICOS POLÍTICO PARTIDÁRIO PARTICIPAR DA CONVENÇÃO NACIONAL DO SUBMETER-SE A T RATAMENTO M ÉDICO DEM PARTICIPAR DA POSSE DO PRESIDENTE DA TRATAMENTO MEDICO PETROBRAS DISTRIBUIDORA PARTICIPAR DE ATO PUBLICO CONTRA TRATAMENTO DE SAÚDE REFORMA SINDICAL PARTICIPAR DO I CONGRESSO TRATAMENTO DE SAÚDE INTERMUNICIPAL DE SAÚDE REUNIÃO DE CUNHO POLITICO PARTIDÁRIO
TRATAMENTO DE SAÚDE
TRATAR DE ASSUNTO DE INTERESSE DESTE TRATAMENTO DE SAÚDE PODER VISITAR A SUPERINTENDÊNCIA DA CAIXA TRATAMENTO DE SAÚDE ECONÔMICA FEDERAL
Tabela 3. Amos tras da bas e.
AMOSTRAS “AVULSAS”
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa 25-HIDROXIVITAMINA D OU 25 (OH)D; ACIDO ÚRICO NO SANGUE; ALB UMINA; ALTERAÇÕES DO FERRO E DE SUA CAPACIDADE DE FIXAÇÃO; AUDIOMET RIA VON BEKE SY; BILIRRUBINA NA URINA;
Complementação de di ária para funcionário BILIRRUBINA NO SANGUE (DIRETA, INDIRETA realizar trabalho. E TOTAL). PROVAS DE FUNÇÃO HEPÁTICA (BILIRRUBINAS, ELETROFORESE DE PROTEÍNAS. FA, T GO, TGP E GAMA-PGT); CÁLCIO NO SANGUE; CARDIOLIPINA, AUTO-ANTICORPOS IGG; ... ABL ATIVA; ABORTO; ACUPUNTURA; ALOPATIA; AMPUTAÇÃO; ANESTESIA; ANTI-SEPSIA; AP ENDICECTOM IA; ASSEPSIA; Conduzir pacien tes para hospital
AUSCULTAÇÃO; AUTÓPSIA; BARIÁTRICA; BIÓPSIA; CABEÇA; CARDÍACA; CAUTERIZAÇÃO; CHECK-UP; CIRURGIA; COLUNA; COSTURA; DRENO; ... AMBULATÓRIO; ASSIST ÊNCIA M ÉDICA; ATENDIMENT O M ÉDICO; CARDIOGRAMA; CLÍNICA; CONSULTA MÉDICA; CONSULTÓRIO;
Pagamento de diária para servidor ou
DIAGNÓSTICO MÉDICO; DESPESA MÉDICA;
funcioná rio reali zar serviços fora desta un ida de
ELETROENCEFALOGRAMA; EMERGÊNCIA; EXAMES MÉDICOS; HISTÓRICO DE SAÚDE; HOSPITAL; LAUDO; PERÍCIA MÉDICA;
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa PRONTO-SOCORRO; QUADRO CLÍNICO; RADIOGRAFIA; REVIS ÃO M ÉDICA; VACINA
Viage m pa ra real ização d e serviço desta
REALIZAÇÃO DE EXAMES MÉDICOS DA
unidade
ESPOSA E FILHOS.
Viage m p ara tratar de assuntos de saúde públ ica REALIZAR PROCEDIMENT O CIRÚRGICO. e obter recursos finan ceiros.
Tabela 4. Amos tras avuls as .
Medidas de desem penho e qualidade para avaliação dos algoritmos Para analisar o desem penho e qualidade dos algoritmos de m ineração de texto em questão será utilizado o recurso “matriz de confusão”, bem como as métricas de acurácia, cobertura, precisão e m edida F e tempo de execução. De acordo com o contexto deste trabalho, devemos considerar quatro situações: · NSCCE: número de sentenças class ificadas corretamente como “Evidência” (True Positive ). · NSCCC: número de sentenças class ificadas corretamente como “Em Conformidade” (True Negative ).
· NSCEE: número de s entenças class ificadas erroneamente como “Evidência” (False Positive).
· NSCEC: número de sentenças class ificadas erroneamente como “Em Conformidade” (False Negative ).
A matriz de confusão que contem pla essas situações pode ser vis ta na Tabela 5 .
INICIAR
▼
Anderson Kerlly Rodrigues De Sousa
M VP
ass caç o orre a Ev idência
Em Conformidade
Evidência
NSCCE
NSCEC
Em Conformidade
NSCEE
NSCCC
Tabela 5. Matriz de confusão utilizada.
Com a m atriz de confusão criada, podemos definir as m étricas a s erem utilizadas: · Acurácia é o percentual de s entenças classificadas corretamente pelo clas sificador; · Cobertura é o percentual de evidências que foram clas sificadas corretamente como “Evidência”; · Precisão é o percentual de sentenças clas sificadas como “Evidência” que são realm ente evidências; · Medida F, também conhecida como Média Harmônica da Precisão e Cobertura, é a m edida que combina a precisão e cobertura; · Tempo de Execução é o tempo de duração de um a classificação, compreendida pela diferença entre o tempo de término e o tempo de início da class ificação. A etapa de execução consis tirá na realização do processo clas sificatório nas am ostras dos participantes envolvidos para cada algoritmo de m ineração de texto, utilizando o modelo de conhecimento definido. Foram efetuadas três class ificações nas am ostras dos participantes envolvidos para cada algoritmo. É neces sário frisar que para cada execução do Naïve Bayes foi utilizado cada método desse algoritmo (“Híbrido”, “Frequência Inversa” e “Frequência”), bem como o limiar de 51 % foi utilizado em todas as execuções do Naïve Bayes. Após o término do process o class ificatório, as matrizes de confusão foram geradas a partir dos
INICIAR
Anderson Kerlly Rodrigues De Sousa
M VP
▼
para cada algoritmo.
Resultados Após a realização do es tudo de caso, foram coletados os valores das matrizes de confus ão de cada execução para cada algoritmo e unidade es colhida. Com os valores das matrizes de confusão foi pos sível coletar as m étricas para avaliar todas as abordagens. Vale ressaltar que para um mesmo algoritmo e unidade ges tora, a matriz de confusão foi a mes ma para as três execuções (process os clas sificatórios). Nas Tabelas 6 e 7 é apresentado um resumo dos valores das matrizes de confusão por algoritmo e unidade. Valores da M atriz de Confusão – Diagonal Principal NSCCE (TP)
NSCCC (TN)
Unidades N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
SIM. F.I.
H.
F.
Unidade A
136
137
137
Unidade B
0
1
Unidade C
3
3
SIM. F.I.
H.
F.
137
363
363
363
362
1
0
613
603
603
588
3
2
457
449
449
430
Tabela 6. Valores da m atriz de confusão por algoritmo e unidade gestora – Diagonal
Principal. Valores da M atriz de Confusão – Diagonal Se cundária NSCEE (FP)
NSCEC (FN)
Unidades N.B.
N.B.
N.B.
N.B. SIM.
N.B.
N.B. SIM.
INICIAR
Anderson Kerlly Rodrigues De Sousa
M VP
▼
Unidade A
0
0
0
1
1
0
0
0
Unidade B
11
21
21
36
1
0
0
1
Unidade C
40
48
48
67
0
0
0
1
Tabela 7. Valores da matriz de confusão por algoritmo e unidade gestora – Diagonal
Secundária. Inicialmente foram analis ados os resultados das três clas sificações realizadas para cada algoritmo na Unidade A. Conforme é visto nas Tabelas 8 a 10 , os algoritmos Naïve Bayes – Híbrido (N.B.H.) e Naïve Bayes – Frequência (N.B.F.) são as melhores abordagens para es sa unidade, pois possuem as melhores porcentagens de acurácia (100%), precisão (100%), cobertura (100%) e m edida F (100%). Similaridade (SIM) obteve um melhor desempenho do que os demais na métrica tempo de execução. Comparando similaridade e Naïve Bayes – Frequência Inversa (N.B.F.I.), sim ilaridade s upera es se nas métricas de cobertura, medida F e tempo de execução, mas ambos poss uem a mes ma porcentagem de acurácia. É importante verificar que o algoritmo s imilaridade pos sui precisão inferior em relação às demais abordagens. Métricas de Desempenho e Qualidade Acurácia
Precisão
Execuções N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
SIM. F.I.
H.
F.
99,80
99,80
H.
F.
99,80
%
2ª Exec.
F.I.
100 % 100 %
1ª Exec.
SIM.
99,28 100 % 100 % 100 %
%
100 % 100 %
99,80
%
100 % 100 % 100 %
99,28
INICIAR
Anderson Kerlly Rodrigues De Sousa
M VP
▼
99,80
99,80 100 % 100 %
3ª Exec.
99,28 100 % 100 % 100 %
%
%
%
99,80
99,80
99,28
Média
100 % 100 % %
100 % 100 % 100 % %
%
Tabela 8. Comparativo das métricas acurácia e precis ão para cada algoritmo n a Unidade A.
Métricas de Desempenho e Qualidade Cobertura
Medida F
Execuções N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
SIM. F.I.
H.
F.
99,27
SIM. F.I.
%
99,64 100 % 100 %
%
99,27
%
99,63 100 % 100 % 100 %
2ª Exec.
F.
99,63 100 % 100 % 100 %
1ª Exec.
H.
99,64 100 % 100 %
%
%
%
99,27
99,63
99,64
100 % 100 % 100 %
3ª Exec.
100 % 100 %
%
%
%
99,27
99,63
99,64
Média
100 % 100 % 100 % %
100 % 100 % %
%
Tabela 9. Comparativo das métricas cobertura e medida F para cada algoritmo na Unidade A.
Métricas de Desempenho e Qualidade Execuções Tempo de Execução
INICIAR
M VP
▼
. F.I.
H.
F.
1ª Exec.
135,88 s 133,49 s 146,79 s 84,78 s
2ª Exec.
135,24 s 139,28 s 153,68 s 83,39 s
3ª Exec.
134,64 s 134,81 s 156,64 s 82,22 s
135,25
135,86
Anderson Kerlly Rodrigues De Sousa
152,37
Média
83,46 s s
s
s
Tabela 10. Com parativo da métrica tempo de execução para cada algoritmo na Unidade A.
A próxima unidade analis ada foi a Unidade B. Também foram analis ados os resultados das três class ificações realizadas para cada algoritmo na referida unidade. De acordo com as Tabelas 11, 13 e 13, o algoritmo sim ilaridade obteve um m elhor desem penho do que os
demais apenas na m étrica de tempo de execução. Já o Naïve Bayes – Frequência Inversa obteve um melhor desempenho na m étrica acurácia (98,08 %). Já Similaridade obteve a menor porcentagem de acurácia. É importante verificar que todas as abordagens tiveram um péssimo desempenho na m étrica precisão (valor abaixo de 50 %), mas Naïve Bayes – Híbrido e Naïve Bayes – Frequência tiveram des empenho melhor que os demais. Apes ar dos pés sim os resultados, Naïve Bayes – Frequência Inversa foi a melhor abordagem, pois o m esm o class ificou, erroneamente, um núm ero muito inferior de evidências do que os outros algoritmos , como é mostrado nas Tabelas 8 e 9. Em outras palavras, comparando-se o res ultado da som a entre NSCCE e NSCCC (soma da diagonal principal da matriz de confusão) de cada algoritmo, o resultado de Naïve Bayes – Frequência Inversa foi superior aos resultados das demais abordagens, portanto, Naïve Bayes – Frequência Inversa foi o algoritmo que apresentou m elhor desem penho e qualidade na classificação das sentenças dess a unidade.
INICIAR
Anderson Kerlly Rodrigues De Sousa
M VP
▼
Acurácia
Precisão
Execuções N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
SIM. F.I.
H.
F.
98,08
96,64
96,64
%
%
98,08
SIM. F.I.
H.
F.
94,08
0,00
4,55
4,55
0,00
%
%
%
%
%
%
96,64
96,64
94,08
0,00
4,55
4,55
0,00
%
%
%
%
%
%
%
%
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
%
%
%
%
%
%
%
%
98,08
96,64
96,64
94,08
0,00
4,55
4,55
0,00
%
%
%
%
%
%
%
%
1ª Exec.
2ª Exec.
3ª Exec.
Média
Tabela 11. Comparativo das métricas acurácia e precisão para cada algoritmo na Unidade B.
Métricas de Desempenho e Qualidade Cobertura
Medida F
Execuções N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
SIM. F.I.
H.
F.
H.
F.
8,70
8,70
%
%
%
0,00
8,70
8,70
%
%
8,70
8,70
0,00
F.I.
100 % 100 % 0,00 %
1ª Exec.
100 % 100 % 0,00 %
2ª Exec. %
3ª Exec.
SIM.
0,00
100 % 100 % 0,00 %
INICIAR
Anderson Kerlly Rodrigues De Sousa
M VP
▼
0,00 Média
8,70
8,70
%
%
100 % 100 % 0,00 % %
Tabela 12. Comparativo das métricas cobertura e medida F para cada algoritmo na Unidade
B. Métricas de Desempenho e Qualidade Tempo de Execução Execuções N.B.
N.B.
N.B. SIM.
F.I.
H.
F.
1ª Exec.
256,01 s 2 68,4 9 s 27 6,44 s 159 ,55 s
2ª Exec.
259,67 s 2 58,2 6 s 26 6,54 s 158 ,14 s
3ª Exec.
254,64 s 2 71,7 6 s 29 1,13 s 159 ,16 s
256,77
266,17
278,04
158,95
s
s
s
s
Média
Tabela 13. Com parativo da métrica tempo de execução para cada algoritmo na Unidade B.
Encerrando a prim eira anális e, a próxima unidade analisada foi a Unidade C. Também foram analisados os resultados das três classificações realizadas para cada algoritmo ness a unidade. Conforme é visto nas Tabelas 14, 16 e 16, similaridade obteve um m elhor desem penho do que os demais apenas na m étrica de tempo de execução, bem como obteve os menores percentuais nas outras métricas. Já o Naïve Bayes – Frequência Inversa obteve as melhores porcentagens de acurácia, precisão, cobertura e medida F, seguido das abordagens Naïve Bayes – Híbrido e Naïve Bayes – Frequência. Sendo assim, o algoritmo
Anderson Kerlly Rodrigues De Sousa dessa unidade. Contudo, é importante observar que, apesar do ótimo des empenho, Naïve INICIAR
M VP
▼
Bayes – Frequência Inversa class ificou, erroneamente, uma quantidade considerável de sentenças como “Evidência”, como é m ostrado na Tabela 7 . Métricas de Desempenho e Qualidade Acurácia
Precisão
Execuções N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
SIM. F.I.
H.
F.
92,00
90,40
90,40
%
%
92,00
SIM. F.I.
H.
F.
86,40
6,98
5,88
5,88
2,90
%
%
%
%
%
%
90,40
90,40
86,40
6,98
5,88
5,88
2,90
%
%
%
%
%
%
%
%
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
%
%
%
%
%
%
%
%
92,00
90,40
90,40
86,40
6,98
5,88
5,88
2,90
%
%
%
%
%
%
%
%
1ª Exec.
2ª Exec.
3ª Exec.
Média
Tabela 14. Comparativo das métricas acurácia e precisão para cada algoritmo na Unidade C.
Métricas de Desempenho e Qualidade Cobertura
Medida F
Execuções N.B.
N.B.
N.B.
N.B.
N.B.
N.B.
SIM. F.I.
H.
F. 66,67
1ª Exec.
100 % 100 % 100 %
SIM. F.I.
H.
F.
13,04
11,11
11,11
5,56
INICIAR
2ª Exec.
3ª Exec.
Média
Anderson Kerlly Rodrigues De Sousa
M VP
▼
66,67
13,04
11,11
11,11
5,56
%
%
%
%
%
66,67
13,04
11,11
11,11
5,56
%
%
%
%
%
66,67
13,04
11,11
11,11
5,56
%
%
%
%
%
100 % 100 % 100 %
100 % 100 % 100 %
100 % 100 % 100 %
Tabela 15. Comparativo das métricas cobertura e medida F para cada algoritmo na Unidade
C. Métricas de Desempenho e Qualidade Tempo de Execução Execuções N.B.
N.B.
N.B. SIM.
F.I.
H.
F.
1ª Exec.
184,19 s 20 1,97 s 245,13 s 117,3 7 s
2ª Exec.
212,91 s 18 5,20 s 3 11 ,77 s 114,6 1 s
3ª Exec.
187,70 s 19 4,69 s 256,87 s 119,11 s
194,93
193,95
271,26
117,03
s
s
s
s
Média
Tabela 16. Comparativo da m étrica tempo de execução para cada algoritmo na Uni dade C.
Encerrando a anális e comparativa dos algoritmos, foi feita uma anális e por métrica utilizada. Verificando o gráfico da Figura 20 , correspondente à métrica acurácia, é notável os ótimos desempenhos dos Naïve Bayes – Híbrido e Naïve Bayes – Frequência na Unidade A e o
Anderson Kerlly Rodrigues De Sousa Bayes – Frequência Inversa e Similaridade na Unidade A. Em m édia, Naïve Bayes – INICIAR
▼
M VP
Frequência Inversa possui a melhor porcentagem de acurácia, consequentemente, é a melhor abordagem em termos de acurácia.
abrir imagem em nova janela Figura 20. Gráfico da métrica acurácia.
No gráfico apresentado na Figura 21 podemos observar o bom desempenho do Naïve Bayes – Frequência Inversa na maioria das unidades, apesar do péssim o des empenho na Unidade B. Em média, Naïve Bayes – Híbrido e Naïve Bayes – Frequência foram m elhores do que Naïve Bayes – Frequência Inversa. Mesmo as sim, Naïve Bayes – Frequência Inversa é a melhor abordagem em termos de precisão, pois, como foi dito anteriormente, class ificou erroneamente um núm ero inferior de s entenças em relação aos demais algoritmos .
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
abrir imagem em nova janela Figura 21. Gráfico da m étrica precisão.
Observando o gráfico apres entado na Figura 22 , concluímos o ótimo des empenho de Naïve Bayes – Híbrido e Naïve Bayes – Frequência, poss uindo 100 % em todas as unidades . Assim como é perceptível o baixo desem penho de s im ilaridade na m étrica cobertura. Portanto, Naïve Bayes – Híbrido e Naïve Bayes – Frequência, por pos suírem as melhores porcentagens de cobertura, são os m elhores algoritmos em termos desta métrica.
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
abrir imagem em nova janela Figura 22. Gráfico da m étrica cobertura.
Analis ando o gráfico da Figura 23 , é notável a qualidade de Naïve Bayes – Híbrido e Naïve Bayes – Frequência, apesar de pos suir a média harmônica um pouco inferior à de Naïve Bayes – Frequência Inversa na Unidade C. Já sim ilaridade possui, em média, a menor porcentagem de medida F. Assim, Naïve Bayes – Híbrido e Naïve Bayes – Frequência possuem, em m édia, as m elhores porcentagens de medida F, consequentemente, são os melhores algoritmos para esta medida.
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
abrir imagem em nova janela Figura 23. Gráfico da m étrica medida F.
Observando o gráfico da Figura 24 fica evidente o ótimo desempenho do algoritmo de sim ilaridade por possuir os menores tempos de execução em todas as unidades gestoras.
abrir imagem em nova janela
INICIAR
▼
M VP
Anderson Kerlly Rodrigues De Sousa
Na tentativa de des cobrir o motivo de todos algoritmos terem class ificado erroneamente uma quantidade considerável de evidências nas unidades B e C, foram analisadas as class ificações de duas conformidades que foram consideradas como evidências por todas as abordagens: “INAUGURACAO DE CONJUNTO HABITACIONAL,CLINICA DE SAUDE E CEN” (Unidade B) e “LEVAR PACIENTES P/REALIZACAO DE EXAMES” (Unidade C). Para class ificar a primeira s entença, foi considerado apenas um termo cujo radical é “saud”, sendo 06 e 09 as quantidades de am ostras “Em Conformidade” e “Evidência”, respectivamente. Já para a segunda s entença, foram cons iderados dois termos de radicais “pacient” e “exam”, sendo 01 a quantidade de “Em Conformidade” para o radical “pacient” e 06 a quantidade de “Evidência” para o radical “exam”. Portanto, o process o de Stemm ing influenciou na class ificação errônea dess as s entenças, podendo até ter influenciado nas demais sentenças classificadas de forma errada. Finalizando a anális e, na maioria das métricas e unidades analis adas, conclui-se que Naïve Bayes – Frequência Inversa, para o contexto abordado neste artigo, foi o algoritm o que obteve melhor desempenho e qualidade para classificar sentenças, consequentemente, possibilitando melhores res ultados para apoiar a decisão dos auditores na detecção de irregularidades no pagame nto de diárias. De posse do melhor algoritmo, ess e pode s er utilizado para tornar mais efetivo o trabalho do auditor na identificação de irregularidades, auxiliando-o na tomada de decis ão.
DevMedia A DevM edia é um po rtal para analistas, desenvo lve do res de sistem as, gerente s e DBA s com mi lhares de artig os, di cas, cursos e vide oau la s gratui tos e exclu sivo s para a ssin ante s. Publicado em 2016
INICIAR
▼
Gostei (1)
+
Anderson Kerlly Rodrigues De Sousa
M VP
(0)
Mais conteúdo s obre SQL
Não há comentários
Meus comentarios
Publicidade
Mais posts Artigo
Oracle Data Guard com Fast-Start Failover Artigo
Postar dúvida / Comentário