Como usar o ChatGPT para elaborar narrativas de histórias com dados – Parte 1 – Narrativa de histórias com dados

Como usar o ChatGPT para elaborar narrativas de histórias com dados – Parte 1 – Narrativa de histórias com dados

Artigo QNOW Como usar o ChatGPT para elaborar narrativas de histórias com dados – Parte 1 - Narrativa de histórias com dados

Eduardo Dutra Moresi, Universidade Católica de Brasília (Brasil)

Graduado em Engenharia Eletrónica pelo Instituto Militar de Engenharia (1989), Mestrado em Engenharia Elétrica (1994) e Doutorado em Ciência da Informação (2001), ambos pela Universidade de Brasília. Desde 1997, é professor e pesquisador da Universidade Católica de Brasília (UCB), atuando nos programas Stricto Sensu de Mestrado Profissional em Governança, Tecnologia e Inovação (PPGTI) e de Mestrado e Doutorado em Educação.

Narrativa de histórias com dados (Data storytelling) é uma prática emergente que combina visualização de dados, técnicas narrativas e elementos interativos para transmitir informações complexas de maneira envolvente e compreensível (Segel & Heer, 2010; Zhao & Elmqvist, 2022). Tem ganhado destaque no jornalismo digital e é cada vez mais adotado pelas empresas de mídia para apresentar histórias baseadas em dados ao seu público (Ojo & Heravi, 2017).

O conceito de narrativa de história com dados vai além da visualização de dados tradicional, pois incorpora mecanismos narrativos familiares, como apresentações de slides, vídeos e histórias em quadrinhos, para tornar fenômenos complexos mais acessíveis (Zhao & Elmqvist, 2022). Envolve um equilíbrio entre o fluxo narrativo pretendido pelo autor e a descoberta da história pelo leitor, frequentemente facilitado por meio de exploração interativa (Segel & Heer, 2010). As histórias baseadas em dados podem assumir diversas formas, incluindo dashboards, gráficos e visualizações mais avançados que integram ambientes semelhantes a narrativas e elementos de entretenimento (Zhang et al., 2022).

Portanto, a narrativa de história com dados é uma poderosa ferramenta que combina análise de dados, narrativa e design visual para comunicar insights de forma clara e impactante. Porém, para que essa combinação seja bem-sucedida, é essencial começar com uma compreensão profunda do contexto e do público-alvo.

Esses elementos são fundamentais para determinar o que e como será contado e, sobretudo, para quem a história será narrada. Nesse sentido, é importante diferenciar análises exploratórias e explanatórias, bem como técnicas práticas para estruturar e transmitir histórias de dados.

A análise exploratória de dados (Exploratory Data Analysis – EDA) é uma etapa fundamental no processo de narrativa de história com dados, envolvendo a exploração interativa de conjuntos de dados desconhecidos por meio de diversas operações de análise, como filtragem, agregação e visualização (Milo & Somech, 2020). Ela serve como uma fase inicial na descoberta de conhecimento, permitindo que cientistas de dados obtenham insights e compreendam as características básicas de um conjunto de dados antes de desenvolver modelos estatísticos complexos ou testar hipóteses (Kumar & Bezdek, 2020).

A EDA é caracterizada como um processo de tomada de decisão sequencial, em que os analistas escolhem as consultas subsequentes com base em resultados anteriores para descobrir insights interessantes (Garg et al., 2023). Ela utiliza técnicas de representação visual para revelar padrões e gerar inferências a partir dos conjuntos de dados, tornando-se especialmente útil para compreender informações complexas, como dados relativos à COVID-19 (De Souza et al., 2020). Curiosamente, embora a visualização interativa seja frequentemente associada à fase de disseminação da narrativa de história com dados, cientistas de visualização argumentam que ela também pode ser benéfica durante a análise exploratória em si, potencialmente reduzindo o “gap de visualização” na análise exploratória inicial (Batch & Elmqvist, 2018).

A EDA desempenha um papel vital na narrativa de história com dados ao fornecer ferramentas conceituais e computacionais para descobrir padrões e fomentar o desenvolvimento de hipóteses (Behrens, 1997). Ela complementa a análise confirmatória de dados e ajuda na interpretação de resultados, potencialmente revelando padrões inesperados. À medida que os conjuntos de dados se tornam maiores e mais complexos, as ferramentas modernas de EDA estão evoluindo para lidar com desafios como escalabilidade, duração da análise e facilidade de uso para usuários com conhecimento analítico limitado (Ghosh et al., 2018).

Essa etapa exploratória é crucial para compreender o conjunto de dados e identificar padrões ou tendências significativas (Lee, Kazi & Smith, 2013). Uma vez que os insights são descobertos, a próxima etapa é construir uma narrativa em torno dessas descobertas, transformando os dados brutos em uma história coesa (Lee, Kazi & Smith, 2013; Weber et al., 2018). Isso envolve estruturar a história, determinar a função comunicativa e decidir a relação entre texto e elementos visuais (Weber, Engebretsen & Kennedy, 2018).

A outra etapa é a análise explicativa de dados (Explanatory Data Analysis), que pode ser compreendida como um processo que visa compreender e comunicar de forma clara os insights contidos em um conjunto de dados, enfatizando a explicação dos fenômenos e a identificação de relações causais ou funcionais (Berenguel et al., 2005).

Diferentemente de análises puramente exploratórias ou descritivas, a etapa explicativa busca não apenas mapear padrões, mas também fornecer fundamentação sobre por que tais padrões ocorrem, utilizando conhecimento de domínio e técnicas de modelagem para justificar os resultados (Dai et al., 2021; Garjan & Ghaneezabadi, 2020).

Em muitos casos, a análise explicativa faz uso de estatísticas descritivas, visualização de dados e algoritmos de aprendizado de máquina para evidenciar as variáveis-chave que melhor explicam determinado fenômeno (Saini et al., 2023). De acordo com Gordienko et al. (2018), essa abordagem inclui, por exemplo, a identificação de características que dificultam ou facilitam a distinção entre classes de dados (caso de reconhecimento de caracteres históricos), enquanto Mesfin, Sun e Peng (2022) a aplicam para relacionar variáveis (como restrições de mobilidade ou dados de sensores) a variações na demanda de estacionamento. Além disso, a análise explicativa pode ser combinada a técnicas de clusterização, regressão ou classificação, sempre com o intuito de compreender os motivos que sustentam os padrões identificados (Salashenko et al., 2023; Tennakoon, Robinson & Shen., 2009).

Assim, a essência da análise explicativa de dados é oferecer interpretações mais robustas e contextualizadas para as correlações e padrões detectados, permitindo que os decisores entendam não apenas o “o quê”, mas também o “porquê” das tendências e relações presentes nos dados (Xia, Liu & Liu, 2017). Desse modo, a análise explicativa exerce papel fundamental no apoio à tomada de decisão, fornecendo subsídios para otimizações, ajustes de políticas e melhor planejamento em contextos como processos industriais, gestão de recursos, segurança de redes ou até mesmo finanças e saúde pública (Berenguel et al., 2005; Dai et al., 2021).

A etapa final é comunicar essa narrativa ao público, o que muitas vezes inclui o uso de vários tipos de mídia e técnicas de visualização (Lee, Kazi & Smith, 2013; Zhao & Elmqvist, 2022). Isso pode envolver elementos interativos, efeitos visuais e ramificações temporais para aumentar o engajamento e a compreensão (Shin et al., 2023).

Referências Bibliográficas

Batch, A., & Elmqvist, N. (2018). The Interactive Visualization Gap in Initial Exploratory Data Analysis. IEEE Transactions on Visualization and Computer Graphics, 24(1), 278–287. https://doi.org/10.1109/TVCG.2017.2743990

 

Behrens, J. T. (1997). Principles and procedures of exploratory data analysis. Psychological Methods, 2(2), 131–160. https://doi.org/10.1037/1082-989X.2.2.131

 

Berenguel, M., Klempous, R., Maciejewski, H., Nikodem, J., Nikodem, M., & Valenzuela, L. (2005). Explanatory analysis of data from a distributed solar collector field. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 3643 LNCS, 621 – 626. 

 

Dai, Y., Song, W., Bai, Y., & Zhuang, J. (2021). Palo Alto 5000 Firewall Classification Pattern Based on Decision Tree and Simulated Firewall Attack. 2021 IEEE 3rd International Conference on Communications, Information System and Computer Engineering, CISCE 2021, 592 – 600. https://doi.org/10.1109/CISCE52179.2021.9445894

 

de Souza, W. M., Buss, L. F., Candido, D. da S., Carrera, J.-P., Li, S., Zarebski, A. E., Pereira, R. H. M., Prete, C. A., de Souza-Santos, A. A., Parag, K. V, Belotti, M. C. T. D., Vincenti-Gonzalez, M. F., Messina, J., da Silva Sales, F. C., Andrade, P. dos S., Nascimento, V. H., Ghilardi, F., Abade, L., Gutierrez, B., … Faria, N. R. (2020). Epidemiological and clinical characteristics of the COVID-19 epidemic in Brazil. Nature Human Behaviour, 4(8), 856–865. https://doi.org/10.1038/s41562-020-0928-4

 

Garg, S., Mitra, S., Yu, T., Gadhia, Y., & Kashettiwar, A. (2023). Reinforced Approximate Exploratory Data Analysis. Proceedings of the AAAI Conference on Artificial Intelligence37(6), 7660-7669. https://doi.org/10.1609/aaai.v37i6.25929

 

Garjan, Y. S., & Ghaneezabadi, M. (2020). Machine learning interpretability application to optimize well completion in montney. Society of Petroleum Engineers – SPE Canada Unconventional Resources Conference 2020, URCC 2020. https://doi.org/10.2118/200019-MS

 

Ghosh, A., Nashaat, M., Miller, J., Quader, S., & Marston, C. (2018). A comprehensive review of tools for exploratory analysis of tabular industrial datasets. Visual Informatics, 2(4), 235–253. https://doi.org/https://doi.org/10.1016/j.visinf.2018.12.004

 

Gordienko, N., Gang, P., Gordienko, Y., Zeng, W., Alienin, O., Rokovyi, O., & Stirenko, S. (2018). Open source dataset and machine learning techniques for automatic recognition of historical Graffiti. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 11305 LNCS, 414 – 424. https://doi.org/10.1007/978-3-030-04221-9_37

 

Kumar, D., & Bezdek, J. C. (2020). Visual Approaches for Exploratory Data Analysis: A Survey of the Visual Assessment of Clustering Tendency (VAT) Family of Algorithms. IEEE Systems, Man, and Cybernetics Magazine, 6(2), 10–48. https://doi.org/10.1109/MSMC.2019.2961163

 

Lee, B., Kazi, R. H., & Smith, G. (2013). SketchStory: Telling More Engaging Stories with Data through Freeform Sketching. IEEE Transactions on Visualization and Computer Graphics, 19(12), 2416–2425. https://doi.org/10.1109/TVCG.2013.191

 

Mesfin, B. G., Sun, D., & Peng, B. (2022). Impact of COVID-19 on Urban Mobility and Parking Demand Distribution: A Global Review with Case Study in Melbourne, Australia. International Journal of Environmental Research and Public Health, 19(13). https://doi.org/10.3390/ijerph19137665

 

Milo, T., & Somech, A. (2020). Automating Exploratory Data Analysis via Machine Learning: An Overview. Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data, 2617–2622. https://doi.org/10.1145/3318464.3383126

 

Ojo, A., & Heravi, B. (2017). Patterns in Award Winning Data Storytelling: Story Types, Enabling Tools and Competences. Digital Journalism, 6, 1–26. https://doi.org/10.1080/21670811.2017.1403291

 

Saini, M., Adebayo, S. O., Singh, H., Singh, H., & Sharma, S. (2023). Sustainable development goals for gender equality: Extracting associations among the indicators of SDG 5 using numerical association rule mining. Journal of Intelligent and Fuzzy Systems, 44(3), 5151 – 5162. https://doi.org/10.3233/JIFS-222384

 

Salashenko, T., Rubino, A., Khaustova, V., Lippolis, S., Ilyash, O., & Capozza, C. (2023). Identification of the energy crisis in the EU electricity markets. IOP Conference Series: Earth and Environmental Science, 1269(1). https://doi.org/10.1088/1755-1315/1269/1/012008

 

Segel, E., & Heer, J. (2010). Narrative Visualization: Telling Stories with Data. IEEE Transactions on Visualization and Computer Graphics, 16(6), 1139–1148. https://doi.org/10.1109/TVCG.2010.179

 

Shin, M., Kim, J., Han, Y., Xie, L., Whitelaw, M., Kwon, B. C., Ko, S., & Elmqvist, N. (2023). Roslingifier: Semi-Automated Storytelling for Animated Scatterplots. IEEE Transactions on Visualization and Computer Graphics, 29(6), 2980–2995. https://doi.org/10.1109/TVCG.2022.3146329

 

Tennakoon, S., Robinson, D., & Shen, S. (2009). Decision support system for temporal trend assessment of water quality data. In A. R.S., B. R.D., & N. L.T.H. (Eds.), 18th World IMACS Congress and MODSIM 2009 – International Congress on Modelling and Simulation: Interfacing Modelling and Simulation with Mathematical and Computational Sciences, Proceedings (pp. 2443 – 2449). Modelling and Simulation Society of Australia and New Zealand Inc. (MSSANZ). https://www.scopus.com/inward/record.uri?eid=2-s2.0-85086242233&partnerID=40&md5=81c2d038fd29517b14a4ad21436023da

 

Weber, W., Engebretsen, M., & Kennedy, H. (2018). Data stories. Rethinking journalistic storytelling in the context of data journalism. Studies in Communication Sciences18(1), 191–206. https://doi.org/10.24434/j.scoms.2018.01.013

 

Xia, Y., Liu, C., & Liu, N. (2017). Cost-sensitive boosted tree for loan evaluation in peer-to-peer lending. Electronic Commerce Research and Applications, 24, 30 – 49. https://doi.org/10.1016/j.elerap.2017.06.004

 

Zhang, Y., Reynolds, M., Lugmayr, A., Damjanov, K., & Hassan, G. M. (2022). A Visual Data Storytelling Framework. Informatics, 9(4). https://doi.org/10.3390/informatics9040073

 

Zhao, Z., & Elmqvist, N. (2022). The Stories We Tell About Data: Media Types for Data-Driven Storytelling. CoRR, abs/2202.00047. https://arxiv.org/abs/2202.00047

Publicações relacionadas

Share

Notícias Relacionadas

A metodologia de narrativa de história com dados apresentada destaca a importância de se unir análise de dados e técnicas narrativas de forma estratégica…
A humanização da IA envolve aspectos tecnológicos, educacionais, éticos e sociais. Isto reforça a importância de pesquisas que integrem diferentes áreas do conhecimento…
A relação entre a solicitação da Chain of Thought (CoT) e a ferramenta STORM está enraizada no seu objetivo comum de melhorar as capacidades…