Descrição detalhada do produto
Introdução ao Stata (08 horas)
Objetivos:
Capacitar os participantes para o manuseio e aplicação de análises básicas de datasets por meio do software Stata.
Conteúdo Programático:
- Importância do do-file e do log using.
- Importação de bases de dados (import, infix) em csv, Stat/Transfer.
- Comandos preserve e restore.
- Criação de variáveis (gen, egen, replace, rename etc).
- Exclusão e manutenção condicional de variáveis (keep if, drop if).
- Manipulação de variáveis (bysort e suas funções, duplicate, tostring, destring, encode etc).
- Organização de base (drop, order, sort etc).
- União de bases (merge, append etc).
- Alteração do nível da base (collapse).
- Organização de do-file (loop etc).
- Descrição da base de dados (desc, codebook) e introdução à estatística descritiva (tab, sum).
- Aplicação de exemplos e casos reais e práticos.
Análise Descritiva de Dados em Stata (08 horas)
Objetivos:
Capacitar os participantes para o entendimento e a aplicação de técnicas descritivas e de diagnóstico para análises de bases de dados em Stata.
Conteúdo Programático:
- Tabelas de distribuição de frequências.
- Medidas de posição ou localização.
- Identificação de outliers univariados.
- Medidas de dispersão ou variabilidade.
- Tabela de distribuição conjunta de variáveis (crosstabs).
- Associação entre variáveis qualitativas.
- Correlação entre variáveis quantitativas.
- Distribuições de probabilidade.
- Testes de hipóteses paramétricos.
- Testes de hipóteses não paramétricos.
- Aplicação de exemplos e casos reais e práticos.
Elaboração de Gráficos no Stata (08 horas)
Objetivos:
Capacitar os participantes para elaborações de gráficos por meio do uso de um dos principais softwares de modelagem utilizado por empresas e universidades de todo o mundo, o Stata.
Conteúdo Programático:
- Introdução à elaboração de gráficos em Stata.
- Gráficos bidimensionais:
- Gráficos de dispersão (scatterplot).
- Line, lfit e mspline.
- Fits com intervalos de confiança.
- Timelines.
- Gráficos de pizza
- Gráficos de barra.
- Gráficos de distribuição.
- Gráficos de matriz.
- Boxplots únicos e por grupo.
- Apresentação de gráficos combinados.
- Visualização: legendas, cores, elementos textuais e dimensões.
- Aplicação de exemplos e casos reais e práticos.
Análise Exploratória de Dados em Stata (08 horas)
Objetivos:
Capacitar os participantes para o entendimento e a aplicação de técnicas exploratórias (técnicas de interdependência, também conhecidas por técnicas não supervisionadas) de análise de dados por meio do Stata.
Conteúdo Programático:
- Introdução e Visão Geral das Técnicas Exploratórias de Análise de Dados.
- Análise de Clusters ou de Agrupamentos:
- Definição de Medidas de Distância ou de Semelhança em Análise de Clusters.
- Esquemas de Aglomeração.
- Análise de Clusters com Esquemas de Aglomeração Hierárquicos.
- Análise de Clusters com Esquemas de Aglomeração não Hierárquicos k-means.
- Escalonamento Muldimensional e Elaboração de Mapas.
- Análise Fatorial por Componentes Principais (PCA):
- Correlação Linear de Pearson e Conceito de Fator.
- Adequação Global da Análise Fatorial: KMO e Teste de Bartlett.
- Cargas Fatoriais e Comunalidades.
- Rotação de Fatores.
- Elaboração de Mapas de Cargas para Variáveis e Fatores.
- Análise de Correspondência Simples e Múltipla (Anacor e ACM):
- Associação entre Variáveis Categóricas.
- Implementação de Anacor e ACM.
- Definição de Coordenadas (Scores) de Categorias de Variáveis Qualitativas.
- Elaboração de Mapas Perceptuais.
- Aplicação de exemplos e casos reais e práticos.
Análise de Dados e Modelos de Regressão em Stata (16 horas)
Objetivos:
Capacitar os participantes para o entendimento e a aplicação de técnicas confirmatórias (técnicas de dependência, também conhecidas por técnicas de aprendizagem supervisionada) de análise de dados por meio do Stata.
Conteúdo Programático:
- Introdução aos Modelos Lineares Generalizados (GLM) e Estruturas de Bancos de dados para Estimação destes Modelos.
- Regressão Simples e Múltipla:
- Estimação do Modelo de Regressão Linear por Mínimos Quadrados Ordinários.
- Poder Explicativo do Modelo de Regressão.
- A Significância Geral do Modelo e dos Parâmetros.
- Intervalos de Confiança dos Parâmetros para Previsão.
- Variáveis Dummy em Modelos de Regressão.
- Pressuposto da Normalidade dos Resíduos e Transformação de Box-Cox.
Regressão Logística Binária:
- A Significância Geral do Modelo e dos Parâmetros.
- Cutoff e Análise de Sensibilidade.
- Eficiência Global do Modelo, Sensitividade e Especificidade.
- Curva ROC.
- Modelos de Risco de Crédito e de Probabilidade de Default.
Regressão Logística Multinomial:
- A Significância Geral do Modelo e dos Parâmetros.
- Elaboração de Gráficos Multinomiais.
Regressão para Dados de Contagem:
- Regressão Poisson e Superdispersão em Dados de Contagem.
- Regressão Binomial Negativa.
- Aplicação de exemplos e casos reais e práticos.
Dados em Painel e Modelagem Multinível (16 horas)
Objetivos:
Capacitar os participantes para o entendimento e a aplicação de importantes técnicas de analytics para datasets com estrutura de dados multinível e/ou em painel, a partir do uso de um dos principais softwares de modelagem utilizado por empresas e universidades de todo o mundo, o Stata.
Conteúdo Programático:
- Generalized Linear Models (GLM): Overview.
- Generalized Estimating Equations (GEE):
- Caracterização de um Painel de Dados.
- Modelos Longitudinais para Dados em Painel.
- Estimação de Parâmetros e Análise.
- Análise de Efeitos overall, within e between.
- Modelos POLS, Efeitos Fixos e Efeitos Aleatórios.
- Testes para Definição do Modelo mais Adequado para Efeitos Preditivos.
- Generalized Linear Latent and Mixed Models (GLLAMM):
- Caracterização de Aninhamento e Agrupamento nos Dados.
- Modelos Multinível para Dados em Painel.
- Estimação de Parâmetros e Análise.
- Efeitos Fixos e Aleatórios em Modelos Multinível.
- Modelos Hierárquicos Lineares HLM2.
- Modelos Hierárquicos Lineares HLM3 com Medidas Repetidas.
- Aplicação de exemplos e casos reais e práticos.
Data Mining, Machine Learning e Big Data em Stata (08 horas)
Objetivos:
Capacitar os participantes para o entendimento e a aplicação de técnicas de data mining e machine learning em grandes volumes de dados por meio do software Stata.
Conteúdo Programático:
- Data Mining e Machine Learning: Overview.
- Regression Trees.
- Random Forests.
- Algoritmo Bagging.
- Algoritmo Boosting:
-Boosted Gaussian Regression.
-Boosted Logistic Regression.
-Boosted Poisson Regression.
- Validação Cruzada.
- Aplicação de exemplos e casos reais e práticos.