Google BigQuery 1 - O que é? O Google BigQuery é um serviço s erviço de armazenamento de d e dados num data warehouse , disponibilizado mediante o pagamento de um valor de acordo com o volume de informação processada. [2] Esta solução, totalmente gerida pela Google, em cloud , permite ao cliente executar consultas (queries ) a grande velocidade e minimiza o investimento em tempo e dinheiro a nível do hardware e dos recursos recur sos humanos necessários para processar process ar a enorme e complexa quantidade de dados (Big Data) Data) que existe actualmente. O Google BigQuery permite BigQuery permite a integração com outras soluções soluções da Google e outro software(através de bibliotecas). [2] Segundo a Google [2] o Google BigQuery BigQuery liberta os seus clientes das preocupações de gerir os SGBD’s, quer a nível de hardware quer a nível da equipa de técnicos e outros profissionais que são necessários para a boa gestão e manutenção destes tipos de sistemas, o que lhes permite dedicar mais do seu tempo à análise e visualização dos dados e a retirar desta os insights que poderão maximizar os lucros l ucros e identificar potenciais áreas de negócio. [3] A análise e visualização dos dados pode ser feita mediante o uso de queries de SQL simples, conforme mostrado na figura 1 ou através de outras ferramentas (ver 2.2 e 2.3).
Figura 1 – Query de SQL na Google BigQuery. BigQuery. Fonte:[4] 2 - Dos dados até aos insights Deixando de parte, neste âmbito, as tecnologias que estão por detrás do Google BigQuery, BigQuery, sejam elas relativas ao número de núcleos do CPU dos servidores dos datacenters da Google, à largura de banda que utiliza ou até mesmo a própria arquitectura interna, explicase aqui o processo desde o carregamento dos dados para a Cloud até à sua visualização. 2.1 Carregament Carregamento o de dados A primeira etapa deste processo é o carregamen carregamento to de dados para o datawarehouse , que pode ser feito a partir de várias fontes: ficheiros CSV, JSON, SQL, biblioteca cliente da API Google para a linguagem de programação em uso ou através da interface de utilizador do próprio Google BigQuery. BigQuery. [5] Nas figuras 2 e 3 são apresentados dois exemplos de formas de carregamento de dados.
Figura 2 - Carregamento de dados por biblioteca cliente da API Google. Fonte:[1]
Figura 3 - Carregamento de dados através da UI do Google BigQuery. Fonte:[1] 2.2 Consulta dos dados Após o carregamento dos dados estes estão disponíveis para consulta, o que pode ser feito também de várias ferramentas, à semelhança da etapa descrita no ponto anterior (API, BigQuery UI, etc.) e usando o dialecto SQL do BigQuery. A consulta dos dados pode ainda ser classificada de acordo com a forma como é executada: síncrona, assíncrona, interactiva ou em lote. Na consulta síncrona só é devolvido o resultado depois de concluída a consulta. No caso da consulta assíncrona é devolvido o resultado imediatamente, ainda que a consulta não esteja concluída. O resultado deste tipo de consultas é guardado em tabela(s) temporária(s) que terão de ser consultadas posteriormente para verificar se a conclusão da consulta já ocorreu. As consultas interactivas ou em lote, que geralmente envolvem grandes quantidade de dados, são executadas de acordo com a disponibilidade de recursos e de acordo com as cotas definidas para o utilizador em questão [7]. 2.3 Visualização dos dados
Pode-se dizer que visualização dos dados é a fase mais importante de todo o processo, afinal é nesta fase que se vão obter insights (valor dos dados). Existem várias ferramentas de visualização de dados no mercado pelas quais se pode optar. Existem desde as mais simples, como por exemplo a folha de cálculo do Google ou do Ms Excel, até ferramentas mais completas/complexas tais como o QlikView, o BIME, ou Google Data Studio 360. Na figura 4 e 5 apresenta-se o aspecto de uma visualização de dados com a ferramenta QlikView e Google Data Studio 360, respectivamente.
Figura 4 - Visualização de dados com o QlikView. Fonte: https://www.informatec.com/de/technologien/qlik/qlikview
Figura 5 - Visualização de dados com o Google Data Studio 360. Fonte: https://www.e-nor.com/blog/google-analytics/google-analytics-360-suite-frommeasurement-to-optimization
Referências: [1] Boyd R. (2012). Crunching Big Data with BigQuery. (Consultado em 21/10/17). Disponível em https://www-conf.slac.stanford.edu/xldb2012/talks/xldb2012_tue_1415_RyanBoyd.pdf . [2] GOOGLE. (s/d). BIGQUERY Um serviço de armazenamento de dados rápido, econômico e totalmente gerenciado para análise de dados em grande escala. (Consultado em 21/10/2017). Disponível em https://cloud.google.com/bigquery/. [3] Marrs M. (2010). The Difference Between Data, Analytics, and Insights. (Consultado em 21/10/2017). Disponível em http://info.localytics.com/blog/difference-between-dataanalytics-insights. [4] Sato K. (2012). An Inside Look at Google BigQuery. (Consultado em 21/10/2017). Disponível em: https://cloud.google.com/files/BigQueryTechnicalWP.pdf . [5] BigQuery Carregamento de dados. (Consultado em https://cloud.google.com/bigquery/loading-data. [6] BigQuery Consulta de dados. (Consultado em https://cloud.google.com/bigquery/querying-data. [7] BigQuery Política de cotas. (Consultado em https://cloud.google.com/bigquery/quota-policy.
em
em
em
21/10/17).
Disponível
21/10/17).
Disponível
21/10/17).
Disponível