
Eduardo Dutra Moresi, Universidade Católica de Brasília (Brasil)
Graduado em Engenharia Eletrónica pelo Instituto Militar de Engenharia (1989), Mestrado em Engenharia Elétrica (1994) e Doutorado em Ciência da Informação (2001), ambos pela Universidade de Brasília. Desde 1997, é professor e pesquisador da Universidade Católica de Brasília (UCB), atuando nos programas Stricto Sensu de Mestrado Profissional em Governança, Tecnologia e Inovação (PPGTI) e de Mestrado e Doutorado em Educação.
Para usar o ChatGPT de forma eficaz em análises exploratória e explicativa para contar histórias com dados, será apresentada uma sequência de etapas com os respectivos prompts. É importante ressaltar que os melhores resultados são obtidos na versão 4o do ChatGPT. A versão gratuita não gera os gráficos e as tabelas das análises.
1. Preparação e Contextualização
- Defina o objetivo: Antes de começar, seja claro sobre o que você deseja descobrir ou comunicar com seu conjunto de dados. Quais perguntas de negócio ou de pesquisa você quer responder?
- Forneça contexto ao ChatGPT: Quando você for usar o ChatGPT, explique brevemente o que é o seu conjunto de dados, qual o tamanho aproximado, de onde ele vem e o que você espera dele. Isso ajuda o modelo a direcionar as respostas.
Exemplo de prompt:
Leia todos os dados da planilha anexa e crie um enunciado analisar os dados focado em Data Storytelling para aplicar os conceitos de análise exploratória de dados <EDA> e de análise explicativa de dados <ADE>, além da identificação de todas as variáveis numéricas e categóricas.
<EDA>
A análise exploratória de dados (EDA) é o processo de investigar dados para entender suas principais características, identificar padrões, detectar valores discrepantes (outliers), avaliar a distribuição de variáveis, encontrar correlações e levantar hipóteses iniciais. Antes de qualquer modelagem, a EDA ajuda o cientista de dados a compreender a estrutura do conjunto de dados e a se familiarizar com seus problemas e oportunidades.
</EDA>
<ADE>
A análise explicativa é o processo de transformar dados e resultados analíticos em histórias e insights que podem ser facilmente compreendidos e usados por stakeholders. Trata-se de organizar e apresentar os dados de maneira que eles contem uma história relevante, respondam a perguntas específicas ou solucionem problemas previamente identificados. Essa abordagem requer não apenas conhecimento técnico, mas também habilidades em comunicação, design e Data Storytelling.
</ADE>
2. Análise Exploratória de Dados (EDA)
A análise exploratória é o processo de investigar variáveis, detectar padrões, valores ausentes, outliers e relacionamentos entre colunas.
- Pedir sugestões de limpeza de dados: Você pode usar o ChatGPT para obter dicas sobre como lidar com valores ausentes, outliers e formatação de dados.
- Estrutura de EDA: Peça ao ChatGPT para listar etapas ou pontos de atenção na sua Análise Exploratória. Ele pode elencar medidas estatísticas (média, mediana, moda, desvio-padrão, etc.), formas de analisar cada tipo de variável (categórica, numérica, temporal) e tipos de gráficos comuns (histogramas, boxplots, scatterplots, etc.).
- Descoberta de padrões: O ChatGPT pode ajudar a identificar padrões a partir da análise de variáveis numéricas e categóricas.
Exemplo de prompt:
Para a análise exploratória de dados execute as seguintes tarefas:
- Compreensão Geral: verificar o tamanho do conjunto de dados, tipos de variáveis (numéricas, categóricas, temporais, etc.) e se os dados estão organizados em um formato utilizável.
- Sumarização Estatística de variáveis numéricas: crie uma tabela com estatísticas descritivas de cada variável numérica incluindo Medidas de Tendência Central (média, mediana, moda), Medidas de Dispersão (desvio padrão, amplitude e Coeficiente de Variação) e Medidas de Assimetria e Curtose.
- Sumarização Estatística de variáveis categóricas: crie uma tabela para cada variável categórica com a sumarização estatística incluindo Medidas de Tendência Central (média, mediana, moda), Medidas de Dispersão (desvio padrão, amplitude e Coeficiente de Variação) e Medidas de Assimetria e Curtose.
- Análise Estatística Bivariada das variáveis categóricas: analise a relação entre todas as variáveis categóricas utilizando os seguintes tipos de análises: correlação e tabelas cruzadas.
- Descoberta de Padrões: execute a análise das variáveis categóricas para identificar padrões e tendências. Isso pode incluir padrões sazonais, dependências entre variáveis ou clusters de comportamento.
3. Visualização dos resultados
- Sugestão de gráficos: Peça ao ChatGPT indicações de gráficos e bibliotecas para criar visualizações que melhor ilustrem suas descobertas (por exemplo, histogramas para distribuição, gráficos de barras para categorias, gráficos de linha para séries temporais).
- Destaque de insights: Peça ajuda para transformar análises técnicas em linguagem clara que destaque os achados mais relevantes.
Exemplo de prompt:
Crie uma visualização dos dados executando as seguintes tarefas:
- Visualizações Univariadas: crie gráficos como histogramas e boxplots para entender a distribuição de todas as variáveis numéricas e categoróricas.
- Visualizações Bivariadas: crie gráficos do tipo Scatterplots, gráficos de linha e heatmaps para identificar relações entre duas variáveis categóricas. Use cores diferentes para identificar cada variável categórica.
- Destaque de insights: apresente os principais insights a partir das visualizações univariadas e bivariadas.
4. Análise Explicativa
Após a exploração inicial, a análise explicativa foca em comunicar claramente os insights ao público. O objetivo é “contar uma história” baseada nos dados, de forma convincente e compreensível.
- Seleção de insights principais: Peça ao ChatGPT para ajudá-lo a escolher quais insights ou métricas são mais importantes para o público-alvo.
- Contextualização de resultados: Utilize o ChatGPT para adicionar contexto adicional e comparações que reforcem a conclusão (por exemplo, dados históricos, comparações com benchmarks ou metas de mercado).
- Refinamento da mensagem: O ChatGPT pode sugerir como simplificar (ou detalhar, dependendo do caso) os resultados para tornar a explicação mais intuitiva e interessante.
Exemplo de prompt:
Para a análise explicativa, execute as seguintes tarefas:
- Definição do Objetivo: propor um objetivo para a análise explicativa e as perguntas que precisam ser respondidas e o impacto esperado.
- Escolha das Visualizações e Métricas: selecionar os gráficos gerados na análise <EDA> e métricas que melhor transmitam os insights.
- Validação e Refinamento: revisar os resultados para garantir precisão. Sugerir feedbacks de colegas ou stakeholders pode ajudar a identificar lacunas na comunicação.
5. Narrativa dos dados
Estruturas comuns para a construção de narrativas com dados:
1. Modelo Clássico: Início, Meio e Fim
- Início: Apresente o contexto e o problema.
- Meio: Mostre a análise e as descobertas.
- Fim: Proponha soluções ou conclusões.
2. Modelo PIR (Problema, Insight, Resolução)
- Problema: Identifique a questão principal.
- Insight: Compartilhe a análise que responde à questão.
- Resolução: Apresente recomendações baseadas nos dados.
Exemplo de prompt do Modelo Clássico:
Elabore a narrativa de Data Storytelling seguindo o modelo clássico:
- Início (Contexto e Problema), com no mínimo 200 palavras.
- Meio (Evidências, Explicações e Insights), com no mínimo 500 palavras.
- Fim (Conclusões e Recomendações), com no mínimo 300 palavras.
Exemplo de prompt do Modelo PIR:
Elabore a narrativa de Data Storytelling seguindo o modelo PIR:
- Problema: Identifique a questão principal, com no mínimo 200 palavras.
- Insight: Compartilhe a análise que responde à questão, com no mínimo 500 palavras.
- Resolução: Apresente recomendações baseadas nos dados, com no mínimo 300 palavras.
6. Conclusão
A metodologia de narrativa de história com dados apresentada destaca a importância de se unir análise de dados e técnicas narrativas de forma estratégica, tendo o ChatGPT como um parceiro para agilizar e facilitar todo o processo. Primeiramente, o método realça a etapa de preparação e contextualização dos dados, em que é fundamental compreender o objetivo da análise e as perguntas de negócio ou de pesquisa que se deseja responder. Essa clareza inicial direciona tanto a exploração quanto a forma final de apresentação, já que o conteúdo precisa ser adaptado ao público-alvo e ao contexto específico.
Em seguida, a análise exploratória de dados (EDA) surge como momento crucial para detectar padrões, outliers e possíveis correlações. O apoio do ChatGPT nessa fase inclui sugestões de limpeza e organização, indicação de estatísticas básicas e guias para a elaboração de gráficos iniciais. Esse suporte automatizado permite um mergulho mais rápido no conjunto de dados, encurtando a distância entre a descoberta de insights e a verificação de hipóteses.
Posteriormente, a análise explicativa (ADE) refina os resultados, evidenciando o “porquê” por trás dos padrões encontrados. É nessa etapa que as correlações e relações causais ganham destaque, tornando-se mais claras para a tomada de decisão. Além disso, o método enfatiza a importância de escolher visualizações e métricas adequadas para o público, tornando a apresentação dos achados mais convincente.
Por fim, a construção da narrativa combina recursos de storytelling com a capacidade analítica adquirida. O uso de modelos como o Clássico (Início, Meio e Fim) ou PIR (Problema, Insight, Resolução) torna a história mais estruturada e memorável. Dessa forma, o método, ao integrar ChatGPT, EDA, ADE e estratégias narrativas, oferece um roteiro completo para transformar dados brutos em histórias de alto valor informativo, contribuindo para uma comunicação mais eficaz.
Referências Bibliográficas
Batch, A., & Elmqvist, N. (2018). The Interactive Visualization Gap in Initial Exploratory Data Analysis. IEEE Transactions on Visualization and Computer Graphics, 24(1), 278–287. https://doi.org/10.1109/TVCG.2017.2743990
Behrens, J. T. (1997). Principles and procedures of exploratory data analysis. Psychological Methods, 2(2), 131–160. https://doi.org/10.1037/1082-989X.2.2.131
Berenguel, M., Klempous, R., Maciejewski, H., Nikodem, J., Nikodem, M., & Valenzuela, L. (2005). Explanatory analysis of data from a distributed solar collector field. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 3643 LNCS, 621 – 626.
Dai, Y., Song, W., Bai, Y., & Zhuang, J. (2021). Palo Alto 5000 Firewall Classification Pattern Based on Decision Tree and Simulated Firewall Attack. 2021 IEEE 3rd International Conference on Communications, Information System and Computer Engineering, CISCE 2021, 592 – 600. https://doi.org/10.1109/CISCE52179.2021.9445894
de Souza, W. M., Buss, L. F., Candido, D. da S., Carrera, J.-P., Li, S., Zarebski, A. E., Pereira, R. H. M., Prete, C. A., de Souza-Santos, A. A., Parag, K. V, Belotti, M. C. T. D., Vincenti-Gonzalez, M. F., Messina, J., da Silva Sales, F. C., Andrade, P. dos S., Nascimento, V. H., Ghilardi, F., Abade, L., Gutierrez, B., … Faria, N. R. (2020). Epidemiological and clinical characteristics of the COVID-19 epidemic in Brazil. Nature Human Behaviour, 4(8), 856–865. https://doi.org/10.1038/s41562-020-0928-4
Garg, S., Mitra, S., Yu, T., Gadhia, Y., & Kashettiwar, A. (2023). Reinforced Approximate Exploratory Data Analysis. Proceedings of the AAAI Conference on Artificial Intelligence, 37(6), 7660-7669. https://doi.org/10.1609/aaai.v37i6.25929
Garjan, Y. S., & Ghaneezabadi, M. (2020). Machine learning interpretability application to optimize well completion in montney. Society of Petroleum Engineers – SPE Canada Unconventional Resources Conference 2020, URCC 2020. https://doi.org/10.2118/200019-MS
Ghosh, A., Nashaat, M., Miller, J., Quader, S., & Marston, C. (2018). A comprehensive review of tools for exploratory analysis of tabular industrial datasets. Visual Informatics, 2(4), 235–253. https://doi.org/https://doi.org/10.1016/j.visinf.2018.12.004
Gordienko, N., Gang, P., Gordienko, Y., Zeng, W., Alienin, O., Rokovyi, O., & Stirenko, S. (2018). Open source dataset and machine learning techniques for automatic recognition of historical Graffiti. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 11305 LNCS, 414 – 424. https://doi.org/10.1007/978-3-030-04221-9_37
Kumar, D., & Bezdek, J. C. (2020). Visual Approaches for Exploratory Data Analysis: A Survey of the Visual Assessment of Clustering Tendency (VAT) Family of Algorithms. IEEE Systems, Man, and Cybernetics Magazine, 6(2), 10–48. https://doi.org/10.1109/MSMC.2019.2961163
Lee, B., Kazi, R. H., & Smith, G. (2013). SketchStory: Telling More Engaging Stories with Data through Freeform Sketching. IEEE Transactions on Visualization and Computer Graphics, 19(12), 2416–2425. https://doi.org/10.1109/TVCG.2013.191
Mesfin, B. G., Sun, D., & Peng, B. (2022). Impact of COVID-19 on Urban Mobility and Parking Demand Distribution: A Global Review with Case Study in Melbourne, Australia. International Journal of Environmental Research and Public Health, 19(13). https://doi.org/10.3390/ijerph19137665
Milo, T., & Somech, A. (2020). Automating Exploratory Data Analysis via Machine Learning: An Overview. Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data, 2617–2622. https://doi.org/10.1145/3318464.3383126
Ojo, A., & Heravi, B. (2017). Patterns in Award Winning Data Storytelling: Story Types, Enabling Tools and Competences. Digital Journalism, 6, 1–26. https://doi.org/10.1080/21670811.2017.1403291
Saini, M., Adebayo, S. O., Singh, H., Singh, H., & Sharma, S. (2023). Sustainable development goals for gender equality: Extracting associations among the indicators of SDG 5 using numerical association rule mining. Journal of Intelligent and Fuzzy Systems, 44(3), 5151 – 5162. https://doi.org/10.3233/JIFS-222384
Salashenko, T., Rubino, A., Khaustova, V., Lippolis, S., Ilyash, O., & Capozza, C. (2023). Identification of the energy crisis in the EU electricity markets. IOP Conference Series: Earth and Environmental Science, 1269(1). https://doi.org/10.1088/1755-1315/1269/1/012008
Segel, E., & Heer, J. (2010). Narrative Visualization: Telling Stories with Data. IEEE Transactions on Visualization and Computer Graphics, 16(6), 1139–1148. https://doi.org/10.1109/TVCG.2010.179
Shin, M., Kim, J., Han, Y., Xie, L., Whitelaw, M., Kwon, B. C., Ko, S., & Elmqvist, N. (2023). Roslingifier: Semi-Automated Storytelling for Animated Scatterplots. IEEE Transactions on Visualization and Computer Graphics, 29(6), 2980–2995. https://doi.org/10.1109/TVCG.2022.3146329
Tennakoon, S., Robinson, D., & Shen, S. (2009). Decision support system for temporal trend assessment of water quality data. In A. R.S., B. R.D., & N. L.T.H. (Eds.), 18th World IMACS Congress and MODSIM 2009 – International Congress on Modelling and Simulation: Interfacing Modelling and Simulation with Mathematical and Computational Sciences, Proceedings (pp. 2443 – 2449). Modelling and Simulation Society of Australia and New Zealand Inc. (MSSANZ). https://www.scopus.com/inward/record.uri?eid=2-s2.0-85086242233&partnerID=40&md5=81c2d038fd29517b14a4ad21436023da
Weber, W., Engebretsen, M., & Kennedy, H. (2018). Data stories. Rethinking journalistic storytelling in the context of data journalism. Studies in Communication Sciences, 18(1), 191–206. https://doi.org/10.24434/j.scoms.2018.01.013
Xia, Y., Liu, C., & Liu, N. (2017). Cost-sensitive boosted tree for loan evaluation in peer-to-peer lending. Electronic Commerce Research and Applications, 24, 30 – 49. https://doi.org/10.1016/j.elerap.2017.06.004
Zhang, Y., Reynolds, M., Lugmayr, A., Damjanov, K., & Hassan, G. M. (2022). A Visual Data Storytelling Framework. Informatics, 9(4). https://doi.org/10.3390/informatics9040073
Zhao, Z., & Elmqvist, N. (2022). The Stories We Tell About Data: Media Types for Data-Driven Storytelling. CoRR, abs/2202.00047. https://arxiv.org/abs/2202.00047