Capítulo 4 Interpretabilidade Global

Algumas técnicas de interpretabilidade de modelos opacos facilitam o entendimento dos seus resultados de uma perspectiva global, ou seja, as relações aprendidas entre a variável resposta e as variáveis explicativas do ponto de vista de um conjunto de dados e o modelo previamente ajustado.

4.1 Gráfico de Dependência Parcial (Partial Dependence Plot) - PDP

O gráfico de dependência parcial mostra um resumo da relação de uma ou duas variáveis explicativas do modelo e sua dependência com o predito, por meio do efeito marginal. Com ele podemos observar, por exemplo, se existe uma relação entre as variáveis e se ela é linear, quadrática ou mais complexa (Friedman 2001).

No caso de construir o gráfico com uma variável explicativa temos os valores preditos pelo modelo plotados para cada valor correspondente da variável explicativa. Se a variável for categórica, temos um gráfico de barras em que cada barra representa uma categoria diferente. Quando construímos com duas variáveis explicativas temos um gráfico tri-dimensional, e podemos analisar pelas diferentes perspectivas dele para entender a relação com os valores preditos. Nessa análise não é comum considerarmos mais que duas variáveis, pois precisaríamos avaliar mais que três dimensões.

Para definirmos o PDP temos \(x_S\), um subconjunto das variáveis explicativas \(X\) que utilizaremos no gráfico. Como já citamos anteriormente, geralmente esse subconjunto é de uma ou duas variáveis.

\[x_S \in X\]

e \(x_C\) o subconjunto complementar das variáveis utilizadas no ajuste do modelo

\[x_S \cup x_C= X.\]

Como esperado, o predito do modelo \(\hat{f}\) depende dos dois subconjuntos de variáveis

\[\hat{f}(X) = \hat{f}(x_S, x_C).\]

O conceito da dependência parcial baseia-se em marginalizar o predito pelo modelo sobre a distribuição das variáveis no subconjunto \(C\), de modo que a função mostre a relação entre o predito e as variáveis no conjunto \(S\) nas quais estamos interessados.

A função de dependência parcial para regressão é definida como:

\[\hat{f}_{x_S} (x_S) = E_{x_C }[\hat{f}(X)] = \int \hat{f}(x_S,x_C) \delta P(x_C) .\]

Ao marginalizar sobre as variáveis do conjunto \(C\), temos uma função que depende apenas das variáveis em \(S\). Assim, observamos que a função parcial nos diz: para determinado valor das características \(S\) qual é o efeito marginal médio na previsão do modelo.

4.1.1 Vantagens e Desvantagens

A fácil implementação do PDP é uma de suas vantagens. Matematicamente ele não é uma método complexo. Além disso o gráfico é intuitivo e simples de ser interpretado.

Por outro lado, com o PDP, não temos a noção da distribuição da variável, o que pode levar a tirar conclusões sobre um intervalo que tem um baixo volume de dados na base originalmente considerada no desenvolvimento do modelo.

Outro ponto importante é a suposição de independência: supõe-se que as variáveis para as quais a dependência parcial é calculada não estão correlacionados com outras variáveis. Por exemplo, temos que prever o número de sapatos vendidos por um período, considerando idade, altura e tamanho do calçado. Para o gráfico PDP do tamanho do calçado, consideramos que a altura não está relacionada com o número. Assim, para o tamanho \(42\), por exemplo, calculamos a média da distribuição marginal da altura que pode incluir uma pessoa abaixo de \(1,50 m\), o que não é realista para um tamanho \(42\) de sapato. Na vida real, é improvável que uma pessoa com altura abaixo de \(1,50 m\) use esse tamanho de sapato, ou seja, criamos pontos de dados em área da distribuição das variáveis para os quais é muito baixa a probabilidade real de acontecer. Uma solução para esse problema seria considerar a distribuição condicional da variável, que é o método abordado pelo gráfico de efeito local acumulado, ou gráficos ALE (Apley and Zhu 2016) que tratamos também nesse trabalho.

4.2 Esperança Condicional Individual (Individual Conditional Expectation) - ICE

Um gráfico equivalente ao PDP, mas com uma visão individual para cada observação da base de dados é o ICE, apresentado em (Goldstein et al. 2015). Enquanto o PDP tem uma curva média para representar o efeito de uma ou duas variáveis, no ICE temos uma curva para cada indivíduo.

O cálculo do ICE é realizado mantendo os valores das demais variáveis e modificando apenas o da variável escolhida para obter as novas predições através do modelo já ajustado.

É interessante utilizar o ICE em análise conjunta com o PDP, pois o PDP mostra como é a relação média entre uma variável e a predição, mas como já discutimos, ele funciona bem se as interações são fracas entre as variáveis para as quais o PDP é calculado e as demais variáveis. Entretanto, se houver o cenário de fortes interações, ele omite o relacionamento heterogêneo com diferentes grupos de observação que pode ser observado no ICE.

Definindo matematicamente as curvas ICE, seria que para cada elemento \(i\) em \(\{(x_S^{(i)},x_C^{(i)}\}_{i=1}^N\) uma curva \(\hat{f}_S^{(i)}\) é calculada em \(x_S^{(i)}\), enquanto \(x_C^{(i)}\) é mantido fixo.

Vemos também em (Goldstein et al. 2015) uma recomendação de utilizar um agrupamento das curvas ICE, ou seja, ao invés de considerar uma curva para cada indivíduo consideramos \(k\) curvas dos indivíduos similarmente agrupados. Essa clusterização está disponível no pacote ICEbox, implementado pelos autores do artigo. No presente trabalho, seguimos essa recomendação e utilizamos a visualização considerando clusters na análise dos gráficos ICE.

4.2.1 Vantagens e Desvantagens

Uma vantagem desse método é o quanto ele é de fácil compreensão, sendo que cada linha representa diretamente uma observação da base de dados. O método trás também uma visão sobre o conjunto das observações, podendo agregar informações de subgrupos mais similares, por exemplo.

Dependendo do tamanho do conjunto de dados e de sua distribuição, e por trazer uma visualização do comportamento individual, os gráficos ICE podem ficar com muita informação no gráfico, sendo pouco informativos nesse cenário. Por esse mesmo motivo, analisar mais que uma variável com relação ao predito não é recomendado.

4.3 Efeitos Acumulados Locais (Accumulated Local Effects) - ALE

Em (Molnar 2019) temos uma comparação muito interessante e didática das técnicas PDP e ALE. No PDP, há o cenário de mostrar o que, em média, é predito pelo modelo quando cada observação tem um valor \(v\) de determinada variável, independentemente se aquele valor \(v\) faz sentido no contexto das demais varáveis ou não. No entanto, com o ALE, o cenário é analisar como o valor predito pelo modelo muda considerando uma ``pequena janela’’ da variável em torno de um valor \(v\), fixando as demais variáveis.

Se no PDP calculamos a média das previsões condicionais para cada valor da variável explicativa em análise, no cálculo do ALE, consideramos a distribuição marginal em cada valor do intervalo que ela varia. Em outras palavras, isso significa que temos que definir uma vizinhança. Por exemplo, para o cálculo do efeito de um sapato tamanho \(40\) no valor predito das vendas, podemos calcular a média das previsões de todos os sapatos vendidos entre \(38\) e \(42\).

Na Figura é ilustrado exatamente o cenário em que temos duas variáveis correlacionadas. Nesse caso, \(x_1\) é correlacionada com \(x_2\). Primeiro, a variável \(x_1\) é separada em intervalos representados pelas linhas verticais, \(([z_{0,1},z_{1,1}],[z_{1,1},z_{2,1}])\), por exemplo. Para os pontos em um determinado intervalo, é calculada a diferença na predição substituindo tais pontos originais pelos extremos do intervalo em que eles estão. Essas diferenças são posteriormente acumuladas e centralizadas.

Em outras palavras, os gráficos de ALE calculam a média das alterações nas previsões e as acumulam nesse intervalo definido, que é menor que o intervalo de possíveis valores que a variável assume (Apley and Zhu 2016).

Retomando os subconjuntos de variáveis \(x_S\) e \(x_C\), tal que \(x_S\) é um subconjunto das variáveis explicativas de \(X\) que utilizaremos no gráfico, e \(x_C\) o subconjunto complementar das variáveis utilizadas no ajuste do modelo, temos:

\[ \hat{f}_{x_S,ALE} (x_S) = \int_{z_{0,1}}^{x_S} E_{x_C|x_S}[\hat{f}^S(X)|x_S = z_S] \partial_{z_S} - constant \\ = \int_{z_{0,1}}^{x_S} \int_{x_C} \hat{f}^S(z_S,x_C)P(x_C|z_S) \delta_{z_S}\delta_{z_S} - constant \]

Com a integral sobre \(z\), acumulamos os gradientes locais ao longo do intervalo do subconjunto \(x_S\), o que nos trás o efeito das alterações na predição. Outro ponto é que ao subtrairmos uma constante dos resultados, centralizamos o gráfico ALE, assim o efeito médio sobre os dados é zero.

Uma das vantagens desse método é a facilidade de entendimento. Visualmente, ele representa o efeito relativo na predição quando alteramos uma variável, condicionado em um determinado valor. Outra vantagem é que os gráficos ALE não são enviesados, pois funcionam quando variáveis são correlacionadas.

Entretanto, dependendo do número de intervalos, os gráficos ALE podem ficar um pouco instáveis. Um número alto de intervalos tendem a ter muitos pequenos altos e baixos. Reduzir o número de intervalos seria uma alternativa, pois torna as estimativas mais estáveis. Entretanto, ele pode suavizar a complexidade do modelo de predição. Temos então um entre um número alto ou baixo de intervalos e não existe uma solução perfeita para definir o número de intervalos .

Outro ponto interessante é que, se compararmos ao PDP, temos as curvas ICE que o complementa e ajuda a entender a variação das predições na individualidade do conjunto de dados, observando o efeito diferente para subconjuntos dos dados. Nos gráficos ALE, só se pode verificar por intervalo se o efeito é diferente, e não é possível analisar individualmente com um gráfico auxiliar o mesmo efeito.

References

Apley, Daniel W., and Jingyu Zhu. 2016. “Visualizing the Effects of Predictor Variables in Black Box Supervised Learning Models.”

Friedman, Jerome H. 2001. “Greedy Function Approximation: A Gradient Boosting Machine.” The Annals of Statistics 29 (5). Institute of Mathematical Statistics: 1189–1232. http://www.jstor.org/stable/2699986.

Goldstein, Alex, Adam Kapelner, Justin Bleich, and Emil Pitkin. 2015. “Peeking Inside the Black Box: Visualizing Statistical Learning with Plots of Individual Conditional Expectation.” Journal of Computational and Graphical Statistics 24 (1): 44–65. https://doi.org/10.1080/10618600.2014.907095.

Molnar, Christoph. 2019. Interpretable Machine Learning: A Guide for Making Black Box Models Explainable. Online.