Estimativas de incertezas, prever o futuro baseado em dados, antecipar acontecimentos para tomada de decisões assertivas – esses são alguns dos poderes da estatística que mais encantam e despertam interesse de diversas áreas.
Pense na crise mundial que estamos vivendo devido à pandemia do Covid-19. À medida que o vírus foi se espalhando ao redor do mundo, previsões, gráficos, estimativas e análises foram sendo produzidos e divulgados para conhecimento da população em geral.
Tudo isso para ajudar no combate a essa pandemia!
Legenda: Dashboard do número de casos do Covid-19 distribuídos no Brasil
Para que todas essas análises fossem possíveis, foi preciso estudar o comportamento da variável referente ao número de novos casos registrados de Covid-19. Para a estatística, a análise desse tipo de variável pode ser considerada uma análise de séries temporais.
O que são séries temporais?
Quando utilizamos um modelo de regressão linear para fazer previsões, a ordem com a qual as observações são inseridas no modelo é irrelevante. Ou seja, a variável de interesse é independente e não tem nenhuma estrutura de correlação associada.
Em séries temporais, é importante destacar que a correlação dos dados não pode ser desconsiderada, devido a uma possível dependência dos dados que estão organizados no tempo. Essa organização ou estrutura dos dados é gerada uma vez que os dados variam no tempo.
A variável referente ao número de casos do Covid-19 pode ser representada na escala do tempo como uma série temporal. Ou seja, se eles forem apresentados de forma independente, sem levar em consideração o tempo, eles não fazem sentido. Isso porque o número de casos de um determinado dia é dependente do dia anterior, e podemos aprender com esse passado.
A apresentação gráfica de uma série temporal é bem familiar, como vemos a seguir:
Figura 1: Série temporal do número de casos do Covid-19 no Brasil em 2020
Podemos enumerar muitas outras áreas onde este tipo de dado pode aparecer e ter destaque devido a essa capacidade preditiva.
Na economia, com dados semanais referentes a bolsa de valores e taxas de interesse, vendas mensais e índices de preços. O comportamento e possíveis previsões de uma série temporal da bolsa de valores pode movimentar e estimular investidores. Os dados econômicos de um país como o IPCA, índice nacional de preços ao consumidor amplo, organizados em uma série temporal, podem fornecer insights econômicos e movimentar tomadas de decisões do governo.
Em climatologia, quando observamos a temperatura diária ou índice pluviométrico mensal estruturados em uma série temporal, podemos prever seu comportamento a longo prazo. Isso pode ajudar, por exemplo, um agricultor a desenvolver medidas protetivas contra desastres naturais e a tomar decisões, como determinar a melhor hora de colher e plantar.
Uma lista extensa de outras áreas, geofísica, engenharia, controle de qualidade e etc, podem ser beneficiadas com a análise de séries temporais.
Características de uma série temporal
Uma série temporal sempre carrega consigo componentes associados como tendência e sazonalidade, e podem ser estacionárias ou não estacionárias. A forma de análise dessa série, isto é, o tipo de modelo a ser utilizado, é dependente dessas características. Vamos entender cada um desses componentes a seguir.
- Tendência
A tendência de uma série temporal é definida com base em seu crescimento/decrescimento em um determinado período de tempo. Isto é, para esse período de tempo estabelecido, a tendência indica se a série cresce, decresce ou permanece estável.
Para o número de casos do Covid-19, é de extrema importância saber qual a sua tendência a curto, médio e longo prazo e, assim, ter um insight sobre a demanda hospitalar, por exemplo.
- Sazonalidade
Quando é possível identificar na série temporal padrões de comportamento, ou seja, oscilações de subida ou descida, que ocorrem em períodos específicos, seja semana, mês ou ano.
Ainda não existem registros a longo prazo do Covid-19, nem o que esperar do seu comportamento a longo prazo. Mas podemos pensar em uma série temporal referente a uma gripe comum, que relaciona a queda de temperatura com o aumento no número de casos. Então a série temporal terá um comportamento sazonal, com aumento de casos no outono/inverno e decaimento de casos na primavera/verão.
- Estacionariedade
Se uma série temporal se comporta de forma aleatória ao longo do tempo e em torno de uma média constante, ela é dita estacionária.
Na prática, é mais comum que encontremos séries não estacionárias, como a série do Covid-19 apresentada na Figura 1, que não tem um comportamento sazonal, mas tem uma tendência crescente.
Séries temporais que possuem algum tipo de tendência e/ou sazonalidade são não estacionárias!
Antes da modelagem, além de entender as características descritas acima antes da modelagem é preciso entender a função de autocorrelação de uma série temporal.
A autocorrelação indica o valor de correlação de variável da série temporal em um determinado instante de tempo. A função de autocorrelação, FAC, contém os valores da autocorrelação em função do intervalo de tempo em que foi calculado.
Ou seja, os valores da função de autocorrelação são organizados em ordens, de acordo com a distância entre as observações. A autocorrelação de primeira ordem indica a dimensão da correlação se as observações estão distantes em uma unidade de tempo e a correlação de segunda ordem indica a dimensão da correlação nas quais as observações distantes em duas unidades de tempo. A unidade de tempo seria o período durante o qual a série está sendo observada.
No exemplo apresentado do Covid-19, em que temos uma série temporal diária, a unidade de tempo é o dia. Mas a unidade de tempo pode ser a semana, mês, ano, etc.
A definição de séries temporais implicou em uma literatura focada em sua análise, seja para modelagem ou para previsão. Para os interessados a se aprofundar no tema, você pode começar pelo livro “Análise de Séries Temporais” escrito por Pedro A. Morettin e Clélia M. C. Toloi.
Você também pode aprender mais com a gente sobre análises de séries temporais em nosso artigo ‘Séries Temporais – Modelagem e Previsão’.
DataSprints é um consultoria de inteligência de dados que utiliza estatística e ciência de dados em conjunto com Inteligência Artificial para responder essas questões para sua empresa.
Autor(a): Jéssica Assunção, MSc – Estatística na DataSprints
Revisores(as):
Luis Martins – CEO na DataSprints
Danilo Costa – Cientista de Dados Líder na DataSprints
Rodrigo Araújo, PhD – Redator Técnico e Cientista de Dados na DataSprints