!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
CHECKLIST DE HABILIDADES DE UM
CIENTISTA DE DADOS
!
/234'.#
)/)+*$34$$ 5 06$078(91 *$ 6/#(8(*/*$9 *$ .% 0($)1(91/ *$ */*+9
#$%&'()*+ - .*/0(12
#$%&'()*+ - .*/0(12 ! #$%&'() * +,% -.%(%/01,% 02.'23 3 4.05%. $3 %-132$'6%$0 &02(72+0 8+3 &023&(% 3$+&%9:0 3 ,31&%$0; 0/313&32$0 %0< 3<(+$%2(3< %< =%5'.'$%$3< que precisam para se preparar para as prossões do futuro, hoje. >0<<0< -1041%,%< >%20$34133 -10-01&'02%, &13$32&'%'< 13&02=3&'$%< -3.% '2$?<(1'% 3, &+1<0< 02.'23 <0513 $'@31<0< %<<+2(0<; $3 @37&+.0< autônomos à inteligência articial, data science e marketing digital. A<(3< &+1<0< <:0 &02<(1+7$0< 3, -%1&31'% &0, %< -1'2&'-%'< 3,-13<%< globais de tecnologia e negócios, incluindo Google, Facebook, Amazon, BCD E%(<02 3 >@'$'%; 2% '2(329:0 $3 /3&=%1 %< .%&+2%< $3 (%.32(0< $0 mercado. F0, <3$3 20 G%.3 $0 H'.7&'0; A<(%$0< #2'$0<; (%,5*, 0-31%,0< 20 C1%<'.; Europa, China, Índia, Egito e nos Emirados Árabes Unidos. São mais de 40 mil estudantes ativos estudando com a Udacity no mundo todo. O Brasil já representa hoje o segundo maior mercado para a Udacity, atrás apenas dos norte-americanos. Além de mais de 40 prossionais na equipe sediada em São Paulo, temos um time de 250 revisores para cerca de 5,7 mil projetos entregues pelos estudantes brasileiros a cada mês. (0"1%$ ,* *('$ ), 234 5(6$,$
!"#$%$ !#'()%$ !%* +",* -(. % -"/"#%
"
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
()14+*.;<+ I ,3$'$% 8+3 0 +<0 $3 $'<-0<'('@0< -3<<0%'< $3&0.0+; +,% 3J-.0<:0 $3 coleta de dados foi imediatamente gerada. É através de uma boa gestão $3<<3< $%$0< 8+3 %< 3,-13<%< &02<34+3, %-1',01%1 % 3J-31'K2&'% $0 usuário. Resultados práticos incluem resultados mais precisos nas buscas feitas no Google, recomendações mais adequadas de produtos na Amazon e na Netix, exibição de conteúdo alinhado aos interesses de cada usuário do Facebook, otimização do design de uma página e desenvolvimento de novos produtos, entre outras coisas. Isso signica que estamos diante de uma oportunidade única, tanto para empresas quanto para prossionais capacitados. Cientistas de dados já <:0 0< ,%'< -10&+1%$0< 20< A<(%$0< #2'$0< 3 (%,5*, 3<(:0 3, %.(% 20 Brasil: há diversas oportunidades incríveis para quem embarcar nessa carreira. Na Udacity, há uma trilha de cursos em data science feita para que você aprenda as principais habilidades citadas neste checklist. Construídos em -%1&31'% &0, 41%2$3< 3<-3&'%.'<(%<; 20<<0< -1041%,%< >%20$34133 <:0 constantemente atualizados para reetir o que há de mais moderno na área. L< &+1<0< (%,5*, %51%243, $'/3132(3< 27@3'< $3 3J-31('<3; $3 M)(=02 para análise de dados % HNO 3 (1%(%,32(0 $3 $%$0< 3 5'4 $%(% 3 (*&2'&%< $3 ,%&='23 .3%12'24. A<(%,0< /3.'63< -01 @0&K (31 $%$0 0 -1',3'10 -%<<0 -%1% +,% -10,'<<01% carreira em data science! Seja bem-vindo(a) ao checklist de habilidades de um cientista de dados.
:
()14+*.;<+
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
+ >.$ /#+4*/4$%+9
!"#!$%&'( *# "+,&%&*+*#' *# -. !/(&'(+ *# *+*0' A<(%< <:0 %< =%5'.'$%$3< 3 &0,-3(K2&'%< ',-01(%2(3< -%1% <31 +, &'32('<(% de dados completo. Reserve um tempo para analisar esta lista com calma. Quantas das opções descritas você domina? Quais você ainda precisa dominar?
FOBN#A AD F!P! #D PLH QR MBFLH M!S! ATMOLS!S MAIS DETALHES.
=
M1041%,%9:0 M)(=02 S M.%2'.=%<
06 06 07 07
A<(%(7<('&% A<(%(7<('&% '2/3132&'%. 0+ $3<&1'('@% P3<'42 3J-31',32(%.
08 08 09
D%&='23 O3%12'24 !-132$'6%43, <+-31@'<'02%$% !-132$'6%43, 2:0 <+-31@'<'02%
%$10 10 UU
M10&3<<%,32(0 $3 $%$0< M)(=02 H'<(3,%< $3 5%2&0< $3 $%$0< HNO
UV UV UV UV
G'<+%.'6%9:0 3 &0,+2'&%9:0 $3 $%$0< Codicação visual !-13<32(%9:0 $0< $%$0< F02=3&',32(0 $0 -?5.'&0
UW UW UW UW
Intuição analítica (pensando como um cientista de dados) Gerenciamento de projetos F02=3&',32(0 $0 <3(01
14 14 14
S3&+1<0< $3 %-132$'6%$0 F0,+2'$%$3< $3 M)(=02 20 C1%<'. Inuenciadores de data science e Python M1041%,%< >%20$34133 F+1<0< %531(0<
16 16 16 20 VV
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
+ >.$ /#+4*/4$%+9
Em cada item das habilidades, você poderá observar cores diferentes nas caixas de seleção. Essas cores indicam qual o curso da Udacity que ensinam tais habilidades. Observe o exemplo a seguir: >%20$34133 X+2$%,32(0< $3 P%(% H&'32&3 B >%20$34133 X+2$%,32(0< $3 P%(% H&'32&3 BB >%20$34133 P%(% H&'32('<(
?
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
A4+34/%/;<+ Programar será grande parte do seu dia a dia. É essa competência que diferenciará você de um analista de dados ou um estatístico. Em algum momento, será necessário desenvolver programas que extraem informações de bancos de dados ou que executem algoritmos de machine learning. M01(%2(0; * ',-13<&'2$7@3. &02=3&31 +,% 0+ ,%'< .'24+%432< $3 -1041%,%9:0; %.*, $3 (31 /%,'.'%1'$%$3 &0, %< 5'5.'0(3&%< 3 -%&0(3< ,%'< utilizados em ciência de dados. Tanto R como Python são boas linguagens $3 -1041%,%9:0 -%1% '2'&'%2(3
5789:; M)(=02 * % .'24+%43, $3 -1041%,%9:0 ,%'< +('.'6%$% 20 +2'@31<0 $3 $%(% science e machine learning. Por isso, há muitas bibliotecas úteis criadas especicamente para essa linguagem. Conheça algumas delas: /12345 biblioteca otimizada para análises numéricas amplas e
matrizes multidimensionais. 3678695 biblioteca otimizada para análise de dados. .6:;<=:<>?5 5'5.'0(3&% $3 -.0(%43, WP &%-%6 $3 431%1 %(* ,3<,0
visualizações interativas. '@>345 biblioteca voltada para a computação cientíca e computação
técnica. 9@>A>:B
NumPy, SciPy e Matplotlib. 0;@>=76>95 &34:E=75 <=3.. '2(31%('@0 -%1% M)(=02 &0, /311%,32(% -%1%
&0,-.3(%1 0 &Z$'40 $'4'(%$0 3 3$'9:0 %+J'.'%$% -3.0 ='<(Z1'&0 de comandos. F1;4:CD /=:C?==A5 '2(31/%&3 $3 -1041%,%9:0 '2(31%('@% 8+3
permite a união de código com relatório. +76@=7865 43132&'%$01 $3 5'5.'0(3&%< $3 M)(=02 -%1%
ciências, matemática, engenharia e análise de dados, voltado à simplicação e manutenção da compatibilidade entre as diferentes bibliotecas. GG;<=:5 esta se baseia na gramática dos grácos para a
criação de representações grácas.
@
A4+34/%/;<+
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
# Linguagem gratuita criada em 1993 com foco em análise de dados e estatística. Muito utilizada academicamente, a linguagem ainda é bastante relevante para o mercado de data science. Conheça algumas bibliotecas $3 SY GG;<=:H5 5'5.'0(3&% -%1% % @'<+%.'6%9:0 $3 $%$0< 8+3 -0$3 <31
complementada por ggally e ggpairs. 8;<4D I=1 ;<4DJ5 um conjunto de ferramentas para a manipulação
eciente de conjuntos de dados em R. DC9E6;CH5 biblioteca que auxilia no redimensionamento de dados.
<=>=;?@AB:> B= CDA;@D9AE F?:G: : ,H?=DI Ferramentas que apresentam dados em linhas e colunas, permitindo fácil manipulação das informações. Muitas organizações analisam, gerenciam e comunicam seus dados por meio de planilhas. F1'3 -%'2*'< 3 13.%(Z1'0< &0, (%53.% $'2[,'&% -%1% &0,-%1('.=%1 com analistas de dados.
B
A4+34/%/;<+
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
$91/1D91(0/ É primordial que um cientista de dados conheça, ao menos, o básico de estatística. Por exemplo: se você for executar um teste A/B, é preciso (31 %.4+, &02=3&',32(0 3, 3<(%(7<('&% -%1% '2(31-13(%1 0< $%$0< 8+3 forem coletados. Você deve estar familiarizado com testes estatísticos, distribuições, estimadores de máxima verossimilhança, etc. Um dos aspectos mais importantes de seu conhecimento em estatística será entender quando técnicas diferentes são (ou não são) uma abordagem válida.
,E8A8JE8@?A @;K=>=;?@AD :L B=E?>@8@MA Um dos conceitos essenciais para entender estatística é a amostragem. N+%2$0 @0&K &0.3(% 8+%.8+31 $%$0; ,+'(%< @363<
C
$91/91D91(0/
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
)=E@N; =HC=>@G=;8AD Distribuir corretamente as informações de uma análise ajuda a garantir a veracidade das conclusões extraídas desses resultados. Design 3J-31',32(%. * 0 -10&3<<0 8+3 3<&0.=3 0< $'/3132(3< -%1[,3(10< 8+3 inuenciam uma análise e tornam os resultados válidos e relevantes. B<<0 '2&.+' % $3&'<:0 $3 8+%2(%< %,0<(1%< -13&'<%, <31 &0.3(%$%<; &0,0 $'/3132(3< /%(013< $3@3, <31 '2(31&%.%$0<; &02=3&31 0< 3/3'(0< de cada alteração, etc. Os termos formais utilizados para descrever os 3J-31',32(0< <:0 ?(3'< -%1% (1%2<,'('1 $3 /01,% <+&'2(% 3 '238+7@0&% 0< parâmetros de cada projeto. Q31,0< $3 $3<'42 3J-31',32(%.Y Teste A/B. Gestão das variáveis e determinação dos melhores grupos de controle e de teste. Dimensionamento da amostra e lei de potência. Teste de hipóteses, hipótese de testes. Nível de conança. Experimentos.
E
$91/91D91(0/
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
%/06()$ 8$/4)()3
%/06()$ 8$/4)()3 Machine learning é uma ferramenta poderosa para cálculo de previsões e sugestões usando como base a análise de dados. Não será preciso criar 20@0< %.401'(,0< $3 ,%&='23 .3%12'24; ,%< * ',-13<&'2$7@3. $0,'2%1 0< %.401'(,0< ,%'< &0,+2<; $3<$3 13$+9:0 $3 $',32<'02%.'$%$3 % (*&2'&%< supervisionadas e não supervisionadas. Alguns exemplos incluem a análise de componentes principais, redes neurais, máquinas de suporte vetorial e algoritmo de cluster k-means. Não se preocupe em conhecer a teoria e os detalhes de implementação por trás desses algoritmos. Mas é preciso conhecer os prós e contras para denir com exatidão a aplicabilidade de cada um.
(C>=;B@OAN=G ELC=>M@E@:;ABA ! %-132$'6%43, <+-31@'<'02%$% * ?('. 20< &%<0< 3, 8+3 +,% -10-1'3$%\ de – geralmente conhecida como rótulo – está disponível para um deter\ minado conjunto de dados (conjunto de treinamento), mas não existe e precisa ser prevista para outras instâncias (um conjunto de testes dessas instâncias é utilizado para medir e renar a ecácia de uma algoritmo de aprendizagem). Observe que o rótulo pode ser tanto um valor numérico quanto uma categoria ou classe. D*(0$0< $3 %-132$'6%43, <+-31@'<'02%$%Y Árvores de decisões. Algoritmo Naive Bayes. Método dos mínimos quadrados. Regressão logística. Redes neurais. Máquinas de vetor suporte (SVM). Métodos ensemble.
!F
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
%/06()$ 8$/4)()3
(C>=;B@OAN=G ;P: ELC=>M@E@:;ABA Nem sempre o objetivo é prever o valor de uma propriedade especíca. Em alguns casos, é preciso descobrir as relações ocultas dentro de um determinado conjunto de dados. O exemplo mais comum disso é o agrupamento de itens usando como base suas similaridades e diferenças. Em situações como essas, o conjunto de dados não dene os grupos e, como resultado, os itens não podem ser pré-designados. Nesses casos, o conjunto de dados é chamado de não rotulado (quando a atribuição de cluster pode ser considerada como um rótulo) e o processo de aprendizagem correspondente é conhecido como não supervisionado. D*(0$0< $3 %-132$'6%43, 2:0 <+-31@'<'02%$%Y Algoritmos de clustering. Análise do componente principal (PCA, na sigla em inglês). Decomposição em valores singulares (SVD, na sigla em inglês). Análise de componentes independentes (ICA, na sigla em inglês).
!!
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
A4+0$99/%$)1+ *$ */*+9
A4+0$99/%$)1+ *$ */*+9 ! -%1(3 ,320< 32&%2(%$01% $3 $%(% <&'32&3 * % &0.3(% ,%2+%. 3 % depuração desses dados. Mas é esse processo, conhecido como “data wrangling” ou “data munging” dentro da comunidade cientíca, que facilita a consequente exploração analítica. Embora não seja tão elegante quanto construir modelos sosticados de machine learning, o processamento de dados é uma tarefa na qual os cientistas de dados passam entre 50 e 80% do tempo. Qual é o motivo para processarmos dados? Muitas vezes, os dados que você está analisando serão confusos e difíceis de trabalhar. Por isso, é realmente importante saber como lidar com suas imperfeições. Isso é mais importante em empresas menores, onde você será o primeiro a .'$%1 &0, 0 5%2&0 $3 $%$0<; 0+ 3, 3,-13<%< 01'32(%$%< % $%$0< 02$3 0 produto não é relacionado a dados (especialmente por conta do histórico de pouca atenção a esse tipo de informação). >0 32(%2(0; 3<<% =%5'.'$%$3 * 3<<32&'%.; '2$3-32$32(3,32(3 $0 .+4%1 onde você trabalhe. Veja os conhecimentos que exige abaixo: 34:E=75 ideal para processamento de dados.J<
Uso da biblioteca String do Python para manipulações dessas strings. Análise de formatos de arquivo comuns, como csv e xml. Expressões regulares. Transformações matemáticas. '>9:C269 8C ?69C 8C 868=9 I?69C68=9 C2 'K% C /='K%J5 0<
5%2&0< $3 $%$0< %(+%, &0,0 +, -02(0 &32(1%. $3 %1,%632%,32(0 de informações. C%2&0< $3 $%$0< 13.%&'02%'<; &0,0 M0<(413HNO; ,)HNO; Netezza, Oracle, etc. Opcional: Hadoop, Spark, MongoDB. 'K% I':D1@:1DC8 K1CD4 %67G16GCJ5 * +,% .'24+%43, $3 -3<8+'<%
$3&.%1%('@% -%1% %&3<<%1 3 ,%2'-+.%1 5%2&0< $3 $%$0< 13.%&'02%'< (RDBMS).
!"
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
'(9./8(G/;<+ $ 0+%.)(0/;<+ *$ */*+9
'(9./8(G/;<+ $ 0+%.)(0/;<+ *$ */*+9 Como cientista de dados, sua função é interpretá-los e comunicar efetivamente suas conclusões. Dessa forma, os envolvidos no processo podem tomar decisões embasadas em referências sólidas. Muitos gestores ignoram os detalhes técnicos por trás de suas análises. Por isso, é muito ',-01(%2(3 8+3 @0&K -0<<% &0,+2'&%1 3 %-13<32(%1 <+%< $3<&0531(%< $3 forma didática, tanto para técnicos como para não técnicos. Além disso, é importante estar familiarizado com os princípios por trás da codicação visual desses dados, bem como informações de comunicação. L>916<>M6NO= C @=217>@6NO= 8C 868=95 <%531 %-13<32(%1 0< $%$0<
$3 +,% /01,% &0,-1332<7@3. * &1+&'%. -%1% 0 32(32$',32(0 $% análise. Compreenda a codicação visual e comunique o que deseja de forma precisa para o público. H%'5% -1041%,%1; +('.'6%2$0 5'5.'0(3&%< &0,0 ,%(-.0(.'5 3 ggplot. Faça apresentações convincentes de suas análises. F02(3J(+%.'63 %< 23&3<<'$%$3< $0 234Z&'0 %0< $%$0< analisados. Esteja sempre cinco passos à frente e tente prever de que forma o público desaará suas hipóteses e conclusões. Antes da apresentação nal, faça leituras introdutórias e reuniões prévias com as partes interessadas. !D>678= 6;DC9C7:6NPC95 &'32('<(% $3 $%$0< -13&'<%, <%531 &0,0
criar apresentações dinâmicas que envolvam os interessados. Q%,5*, -13&'<%, 32(32$31 0< $'/3132(3< ('-0< $3 -?5.'&0\%.@0 -%1% &%$% %-13<32(%9:0 3 -31<02%.'6%1 0 (1%5%.=0 $3 %&01$0 &0, essa distinção.
!:
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
()1.(;<+ /)/8D1(0/ H A$)9/)*+ 0+%+ .% 0($)1(91/ *$ */*+9
()1.(;<+ /)/8D1(0/ H A$)9/)*+ 0+%+ .% 0($)1(91/ *$ */*+9 H3+ 43132(3 0+ <3+< &0.34%< $3 (1%5%.=0; &0,0 32432=3'10< 0+ 43132(3< $3 -10$+(0<; -0$3, $3,%2$%1 %501$%432< &02&.+<'@%< 5%<3%$%< 20< dados analisados – mas talvez você não tenha tempo suciente para solucionar todas as questões propostas ou analisar todos os dados coletados. Assim sendo, é primordial ter senso intuitivo para denir o que é, de fato, relevante e o que não é. M01 3J3,-.0; @0&K 32(32$3 8+%'< ,*(0$0< -0$3, <31 +('.'6%$0< 0+ quando aproximações fazem sentido? Isso evitará armadilhas e permitirá que sua concentração permaneça nas questões mais importantes. ! ,3.=01 ,%23'1% $3 (1%5%.=%1 '<<0 * -1%('&%1 3<<% '2(+'9:0 %2%.7('&% &0, o maior número de conjuntos de dados que puder. Competições de análise de dados como Kaggle também podem ajudar a desenvolver esse tipo de intuição. Q6N6 69 ;CDG17:69 @CD:695 0 &'32('<(% $3 $%$0< -13&'<% (31 %
perspicácia de entender qual é o cerne da questão. Ou seja, qual é a real e exata necessidade de uma empresa que está pautando uma análise de dados especíca. Reita sobre o que é importante e o que não é. RCDC7@>C ;D=SC:=95 o gerenciamento de projetos envolve a
014%2'6%9:0 $3 38+'-3<; 43<(:0 $% &0,+2'&%9:0 3 3J-3&(%('@%< entre os vários departamentos e grupos envolvidos em qualquer projeto de análise de dados. F0,+2'8+3\<3 %$38+%$%,32(3 &0, (0$0< 0< 32@0.@'$0
=%5'.'$%$3 * $3<32@0.@'$% -01 ,3'0 $% 3J-31'K2&'% 3, +,% determinada indústria. Cada conjunto de dados é diferente e vem com certas hipóteses e conhecimentos especícos de cada setor. M01 3J3,-.0Y +, &'32('<(% $3 $%$0< 3<-3&'%.'6%$0 3, ,31&%$0 $3 ações precisaria de tempo para desenvolver conhecimento técnico de data science no ramo de restaurantes.
!=
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
RECURSOS DE APRENDIZADO
!?
/234'.#
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
4$0.49+9 *$ /A4$)*(G/*+
4$0.49+9 *$ /A4$)*(G/*+ Parabéns! Você chegou ao m da lista. Se você conseguiu identicar habilidades que já possui ou se vai começar a explorar a lista desde o primeiro item, orgulhe-se: você já está progredindo. E, como mencionamos no início, estamos aqui para guiá-lo nessa jornada de aprendizado.
FLD#>BP!PAH PA M]Q^L> >L CS!HBO !< &0,+2'$%$3< $3 $3<32@0.@3$013< $% .'24+%43, $3 -1041%,%9:0 M)(=02 <:0 ,+'(0 /01(3< 3 20 C1%<'. 2:0 * $'/3132(3Y 3<(:0 3<-%.=%$%< por todas as regiões do país e utilizam redes sociais, listas de e-mails e aplicativos para criar projetos coletivamente, marcar eventos e aprender com troca livre de informações. ! ,%'01 &0,+2'$%$3 51%<'.3'1% * 0 M)(=02 C1%<'., que tem 27 núcleos locais. Dentro de cada comunidade regional, há ainda outra divis ão: o Grupo de Usuário. Os membros são responsáveis por organizar eventos, encontros para bate-papo e mini-cursos abertos para qualquer integrante. Há também a PyLadies, voltada para mulheres desenvolvedoras, a Python H0/(_%13 X0+2$%('02; 8+3 13?23 0 ,%'01 41+-0 @'1(+%. $3 $3<32@0.@3$013< e ainda tem a vantagem do network internacional. De maneira geral, ingressar numa comunidade é uma ótima – e gratuita – oportunidade para progredir em suas habilidades. Qualquer pessoa pode participar, independente de nível de conhecimento. Pronto para começar? No site da comunidade Python Brasil, é possível checar % %432$% &0,-.3(% com todos os eventos que ocorrerão em 2018 no País.
B>XO#A>FB!PLSAH PA P!Q! HFBA>FA A M]Q^L> Toda tecnologia aberta possui uma característica: nunca haverá um ponto nal ou uma fase nal. Um código aberto pressupõe que sempre poderá ser incrementado com uma nova lógica, um novo combinado de comandos. A, 431%.; 3<<%< 20@'$%$3< <:0 5%<3%$%< 2% 3J-31'K2&'% $3 8+3, %(+% &0, % (3&20.04'% 3; % -%1('1 $'<<0; (012%\<3 &%-%6 $3 &02(1'5+'1 -%1% 0 aperfeiçoamento das ferramentas.
!@
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
4$0.49+9 *$ /A4$)*(G/*+
A riqueza de ecossistemas colaborativos como estes encontra-se no know how de quem coloca a mão na massa diariamente para identicar pontos de atenção e propor melhorias contínuas. Ser prossional de data science hoje exige atualização e conhecimento do que está em voga, o que não dá mais certo e também das melhores práticas do mercado. É por isso que vale a pena seguir os especialistas de Python em data science e aproveitar o acesso a inuenciadores que não medem esforços -%1% 32<'2%1 3 %-132$31; 3, +, &'&.0 @'1(+0<0 02$3 (0$0< 4%2=%,Y experts e iniciantes, teóricos e práticos, amadores e prossionais. TU V6784 0<9=7
S%2$) L.<02; &'32('<(% $3 $%$0< $0 M322 B2<('(+(3 /01 C'0,3$'&%. Informatics, é especialista em inteligência articial na Life Epigenetics e .7$31 $% &0,+2'$%$3 P%(%B<6D4 .69=7
A jovem e experiente cientista de dados Hilary Mason é cofundadora do X%<( X01_%1$ O%5< ` +,% 3,-13<% $3 -3<8+'<% $3 &0,-+(%9:0 &042'('@% ` 3 13/31K2&'% &0,0 32(+<'%<(% $%< (3&20.04'%< @0.(%$%< -%1% % 43<(:0 de dados. A, <3+ $'<&+1<0; 3.% <3,-13 $3<(%&% 0 -0(32&'%. (3&20.Z4'&0 % <31 utilizado em prol do desenvolvimento de soluções para as empresas e para a sociedade. Seu foco está na estratégia de dados como força motriz para organizações, aceleradoras, comunidades de pesquisa e desenvolvimento de aplicações digitais.
!B
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
4$0.49+9 *$ /A4$)*(G/*+
WU XC9 .@$>77C4
L &1'%$01 $3 -%2$%<, a biblioteca Python mais utilizada para análise de dados, também é autor do livro Python Para Análise de Dados, publicado pela O’Reilly. A obra apresenta ferramentas de modelagem, exemplos de análise de dados coletados, conceituação e dicas avançadas para quem já adota pandas. A desenvoltura de McKinney com o ecossistema Python vem desde 2007, quando ele criou padrões fáceis e rápidos para exploração de ferramentas estatísticas. P3-0'< $3 -%<<%1 -01 $'@31<%< 3,-13<%< '20@%$01%<; <(%1(+-< 3 '2&+5%$01%<; 0 -1041%,%$01 201(3\%,31'&%20 %401% %(+% &0,0 @'&3\ -13<'$32(3
F0, +, (0, ,0$3<(0; S3233 Q3%(3 <3 %-13<32(% &0,0 +, 3(3120 aprendiz da ciência de dados. Mas o Engenheiro de Sistemas é especialista em estatística avançada, simulações complexas, programação linear e design de banco de dados. !(+%.,32(3; 3.3 &02(1'5+' &0, % a%,3< D%$<02 #2'@31<'(); 20< A<(%$0< Unidos, onde ele coloca seu conhecimento em prática no desenvolvimento de ferramentas de análise web e aplicações de gerenciamento de dados. Seu discurso sempre permeia o “Do It Yourself”, incentivando o %+(0$'$%('<,0 ` &0,0 3.3 ,3<,0 3J-31',32(% 0 (3,-0 (0$0 %-3<%1 $3 ser dedicado também aos estudos acadêmicos. Em relação ao Python, suas publicações no blog C3&0,'24 P%(% H&'32('<( 32%.(3&3, % &%-%&'$%$3 8+3 0 50, $3<32@0.@3$01 -13&'<% (31 -%1% %-132$31 -01 &02(% -1Z-1'% % -%1('1 $0 conhecimento compartilhado em bibliotecas e comunidades abertas. Para seguir Renee Teate no Twitter: @becomingdatasci. ZU F6AC L678CD3<69
Com diversas publicações sobre Ciência da Computação voltada para o mundo da Astronomia e Astrofísica, Jake VanderPlas também é autor de Python Data Science Handbook. !(+%.,32(3; 3.3 * $'13(01 $0 3H&'32&3; '2<('(+(0 $3 -3<8+'<% $% Universidade de Washington. Formado em física e com doutorado em Astronomia, seus estudos abordam temas especícos, como gravidade e distribuição da matéria no universo, a partir da exploração de aplicações astronômicas e banco de dados SciDB.
!C
Apaixonado pela pesquisa cientíca, seu reconhecimento no meio acadêmico e no mercado é aproveitado para incentivar práticas replicáveis da ciência aberta, tendo se rmado como um ativista open source, principalmente em relação às bibliotecas Python.
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
4$0.49+9 *$ /A4$)*(G/*+
[U '6D6E R1>8=
H%1%= b+'$0 %(+% 2% D%<=%5.3 &0, (3&20.04'%< $'<1+-('@%< @0.(%$%< para análise do comportamento do usuário a partir de algoritmos de machine learning. A cientista de dados é fortemente envolvida com % &0,+2'$%$3 M)(=02; <32$0 +,% $%< 014%2'6%$01%< $0 >]F M)(=02 D33(+-, considerado o maior evento mundial sobre a linguagem. Q%,5*, * %+(01% $0 B2(10$+&('02 (0 D%&='23 O3%12'24 _'(= M)(=02; +, @31$%$3'10 4+'% -%1% &'32('<(%< $3 $%$0< '2(313<<%$0< 3, M)(=02 -%1% 0 desenvolvimento de aplicações de aprendizado de máquina. A, <3+ .'@10; * -0<<7@3. ` '2&.+<'@3; '2'&'%2(3< ` %&3<<%1 (*&2'&%< -%1% construir soluções de machine learning. Todas as etapas são bem descritas: desde o levantamento da necessidade, avaliação de modelos e ajuste de -%1[,3(10< %(* 0 $3<32@0.@',32(0 $3 %-.'&%('@0< &0, %.401'(,0< $3 %.(% complexidade. \U %=DC76 .C96
! $'13(01% $% X+2$%9:0 M)(=02 H0/(_%13 * (%,5*, &0014%2'6%$01% $% M)O%$'3< F='&%40 3 $% Q3&= O%$'3<; &0,+2'$%$3< %531(%< -%1% ,+.=313< desenvolvedoras — e focadas em Python. O0132% D3<% (%,5*, %(+% &0,0 32432=3'1% $3 <0/(_%13 20 H-10+( H0&'%.; uma poderosa ferramenta de gestão de mídias sociais, que já conta com mais de 19 mil marcas como clientes. ! -.%(%/01,% <3 $'/3132&'% -3.% 0/31(% $3 13&+1<0< 8+3 -31,'(3, 0 32@0.@',32(0 $0< -?5.'&0< $3 '2(313<<3 $%< 3,-13<%< 3 0 3<(%53.3&',32(0 de um relacionamento duradouro com eles.
!E
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
4$0.49+9 *$ /A4$)*(G/*+
MSLbS!D!H >!>LPAbSAA ! #$%&'() -13-%10+ +, (1'.=% $3 &+1<0< 02.'23 -%1% 8+3 @0&K <3 (0123 +, cientista de dados completo. Durante os programas Nanodegree, você realizará projetos que colocam em prática seus novos conhecimentos e receberá feedback de especialistas para acelerar sua curva de aprendizado. Ao nal, terá um portfólio completo para mostrar suas habilidades ao mercado. >%20$34133 X+2$%,32(0< $3 P%(% H&'32&3 B G0&K @%' %-132$31 $3 /01,% 3<(1+(+1%$% % -1041%,%1 3, M)(=02; % linguagem de programação mais popular deste mercado – e deixar de gastar horas no Excel para fazer uma boa análise. ü
!-132$% % 13<0.@31 -105.3,%< +('.'6%2$0 -1041%,%9:0c
ü
Domine o processo de análise de dados;
ü
F02<(1+% <3+ -1',3'10 &Z$'40 -%1% '2(31-13(%1 $%$0
ü
D%2+<3'3 >+,M) 3 M%2$%<; %< -1'2&'-%'< 5'5.'0(3&%< -%1% .',-%1 3 ,%2'-+.%1 $%$0
ü
Aprenda a utilizar o iPython Notebook;
ü
Entenda o uxo de trabalho em data science para aplicá-lo no seu dia a dia.
>%20$34133 X+2$%,32(0< $3 P%(% H&'32&3 BB Construído em parceria com Tableau – líder em business intelligence e analytics do mundo –, este Nanodegree ensina SQL, estatística e (1%(%,32(0 3 @'<+%.'6%9:0 $3 $%$0<; &02=3&',32(0< 3<<32&'%'< -%1% qualquer prossional de data science.
"F
ü
H%'5% &0,0 .',-%1; ,%2'-+.%1 3 %2%.'<%1 $%$0< &0, HNOc
ü
Aprenda de forma prática conceitos importantes de estatística &0,0 -105%5.'$%$3; $'<(1'5+'9:0 5'20,'%. 3 (3013,% $3 C%)3
ü
Realize testes A/B de maneira correta, aprendendo a validar 3<(%('<('&%,32(3 <+%< ='-Z(3<3
ü
A2(32$% &0,0 &0.3(%1 3 (1%(%1 $%$0< %531(0< $% '2(3123( &0, P%(% E1%24.'24c
ü
F02<(1+% $%<=50%1$< 3 &02(3 ='<(Z1'%< %(1%@*< $0< $%$0< &0, Q%5.3%+c
ü
Seja introduzido a machine learning e crie seus primeiros algoritmos preditivos.
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
4$0.49+9 *$ /A4$)*(G/*+
>%20$34133 P%(% H&'32('<( G0&K @%' %-132$31 % ,%2'-+.%1 3 %2%.'<%1 3201,3< 8+%2('$%$3< $3 $%$0<; %.*, $3 &1'%1 ,0$3.0< -13$'('@0< -%1% 431%1 '2<'4=(< 3 &1'%1 soluções de negócio inovadoras. Entre os principais conceitos:
"!
ü
Como o big data se diferencia das demais análises de dados;
ü
L< -1'2&7-'0< $0 ^%$00-; -1'2&'-%. /311%,32(% -%1% -10&3<<%,32(0 $3 5'4 $%(% 20 ,+2$0c
ü
D%-S3$+&3; ,0$3.0 '2@32(%$0 -3.0 b004.3 8+3 -0<<'5'.'(0+ o avanço em big data que vemos hoje;
ü
H3+< -1',3'10< -%<<0< -%1% -1041%,%1 3, S; +,% $%< .'24+%432< $3 -1041%,%9:0 ,%'< +('.'6%$%< 3, $%(% <&'32&3c
ü
^%5'.'$%$3< $3 32432=%1'% $3 <0/(_%13 3<<32&'%'< -%1% &'32('<(%< $3 $%$0
ü
Aprendizagem supervisionada (machine learning): redes neurais, árvores de decisão, SVMs;
ü
Aprendizagem não-supervisionada (machine learning): clustering (agrupamento de dados), PCA, seleção e manipulação de atributos.
!"!#$%&'%% ) *+%*,-./0 $% +"1.-.$"$%/ $% 23 *.%!0./0" $% $"$#/
4$0.49+9 *$ /A4$)*(G/*+
F#SHLH !CASQLH H3 3<('@31 3, 5+<&% $3 +, -.%20 $3 %-132$'6%$0 &0, +,% $3,%2$% menor de tempo ou algo que preencha uma lacuna especíca dentro de <+%< =%5'.'$%$3< %(+%'<; @0&K -0$3 %&3<<%1 20<<0< &+1<0< %531(0
&7:D=81NO= ] !>^7@>6 8C *68=9 - O que faz um cientista de dados?
>3<(3 &+1<0; @%,0< -3<8+'<%1 3 3<(+$%1 % /+2$0 %< =%5'.'$%$3< necessárias para se tornar um cientista de dados! ü
(D6:62C7:= 8C *68=9 @=2 .=7G=*, \ F'32('<(%< $3 $%$0< -%<<%, %
maior parte do tempo depurando dados. Neste curso, você aprenderá a manipular e converter dados desconexos em material de análise. ü
Análise de Dados com R \ Q+$0 431% $%$0<; ,%< 8+%<3 2%
%$é explorado. Aprenda a investigar, resumir conjuntos de dados utilizando R e, eventualmente, criar sua própria análise. ü
&7:D=81NO= 6 .6@E>7C %C6D7>7G \ A<<3 &+1<0 32<'2% (0$0 0 -10&3<<0
de investigação dos dados sob a lógica do machine learning. Além disso, você poderá aplicar os conceitos em um conjunto de dados do mundo real. ü
L>916<>M6NO= 8C *68=9 C *WUS9 \ !-132$% 0< /+2$%,32(0<
%$visualização de dados e aplique conceitos de design e de narrativa. ü
Q17862C7:=9 86 3D=GD626NO= @=2 34:E=7 \ F0,3&3 % %-132$31
Python e conceitos de orientação a objeto. ü
*C9>G7 8C 3D=GD6269 - Aprenda algoritmos clássicos extremamente
relevantes atualmente.
""
CHECKLIST DE HABILIDADES DE UM
CIENTISTA DE DADOS
IJKLMNOPQRKOST U 0VWQJNX MV /YLMN
":