Naturalizando o determinante

É comum ouvir por aí que determinante de matrizes é algo arbitrário com propriedades mágicas, o que contrasta com a suposta simplicidade do conceito, que é ensinado até mesmo no ensino médio. Mas ao contrário do que muitos dizem, a Matemática não é o reino da abstração sem sentido. Então resolvi escrever essa publicação descrevendo uma abordagem em que a definição surge naturalmente a partir de algumas considerações geométricas e todas as boas propriedades se tornam triviais. Essa abordagem pode ser encontrada parcialmente neste vídeo do 3B1B e nestas notas de aula do Prof. Sheel Ganatra da University of Southern California. Infelizmente, desconheço referências em português.

A fórmula padrão de determinante é simples nos casos de matrizes $2\times 2$ e $3\times 3$: \begin{equation}\label{det-2x2} \det \begin{pmatrix}a&b\\ c&d\end{pmatrix} = ad-cb \ , \end{equation} \begin{equation}\label{det-3x3} \det \begin{pmatrix} a & b & c \\ d & e & f\\ g & h & i \end{pmatrix} = aei+bfg+cdh-gec-hfa-idb \ . \end{equation}

A partir disso, a situação fica meio insustentável. Para uma matriz $n\times n$ \begin{equation*} A = \begin{pmatrix}a_{1,1} & \dots & a_{1,n}\\ \vdots & \ddots & \vdots\\ a_{n,1} & \dots & a_{n,n}\end{pmatrix} \ , \end{equation*} temos que \begin{equation}\label{det-A} \det (A) = \sum \limits_{\sigma \in S_n}\mathrm{sgn}(\sigma)\prod_{i=1}^n a_{i,\sigma(i)} \ , \end{equation} onde $S_n$ é o grupo de permutações do conjunto $\{1,...,n\}$, ou seja, $\sigma \in S_n$ se, e somente se, $\sigma:\{1,...,n\}\to \{1,...,n\}$ é uma bijeção, e $\mathrm{sgn}(\sigma)$ é o sinal de $\sigma$, i.e., \begin{equation} \mathrm{sgn}(\sigma) = \begin{cases}1 \ , \ \mbox{se} \ \sigma \ \mbox{\'e par}\\ -1 \ , \ \mbox{se} \ \sigma \ \mbox{\'e \'impar}\end{cases} \ . \end{equation} As expressões \eqref{det-2x2} e \eqref{det-3x3} são facilmente deduzidas da equação \eqref{det-A}.

Agora vamos abandonar tudo isso e começar do começo: nunca ouvimos falar de determinante, só estamos interessados em estudar geometria plana e vamos usar o poderoso ferramental da Álgebra Linear. Faremos tudo do jeito mais pedestre possível.

Queremos desenvolver uma noção de volume em $\mathbb R^n$. Pra isso, vamos construir um mapa $\mathrm{vol}_n:\mathbb R^n\to \mathbb R$ tal que $\mathrm{vol}_n(v_1,...,v_n)\ge 0$ é o volume do paralelepípedo \begin{equation*} p(v_1,...,v_n) = \left\{\sum_{i=1}^n a_i\, v_i:0\le a_i\le 1 \right\} \end{equation*} gerado pelos vetores $v_1,..., v_n \in \mathbb R^n$.

O paralelepípedo gerado pela base canônica $\{e_1,...,e_n\}$ – onde $e_1 = (1,0,0,...,0)$, $e_2 = (0,1,0,...,0)$ e assim por diante… – é um cubo de aresta unitária, de modo que faz sentido tomá-lo como unidade de referência, i.e., \begin{equation} \mathrm{vol}_n(e_1,...,e_n) = 1\ . \end{equation}

De maneira geral, se o conjunto $\{v_1,...,v_n\}$ é l.d., então o paralelepípedo gerado por eles é uma figura de dimensão menor que $n$. Nesse caso, queremos que seu volume seja nulo da mesma forma que um segmento de reta tem área nula e uma figura plana tem volume tridimensional nulo. Por outro lado, se $\{v_1,...,v_n\}$ é l.i., então faz sentido que $p(v_1,...,v_n)$ tenha volume estritamente positivo. Assim, \begin{equation} \mathrm{vol}_n(v_1,...,v_n) > 0 \iff \{v_1,...,v_n\} \ \mbox{\'e l.i.} \end{equation}

Além disso, se esticarmos ou encolhermos um dos vetores que geram o paralelepípedo, também é de se esperar que o volume seja alterado na mesma escala: \begin{equation} \mathrm{vol}_n(v_1,...,a\,v_i,...,v_n) = |a|\mathrm{vol}_n(v_1,...,v_i,...,v_n) \ . \end{equation}

Vejamos o caso de $\mathbb R^2$ onde $\mathrm{vol}_2$ é a área. Dados $v_i = (x_i,y_i)\in\mathbb R^2$, $i=1,2$, um mero desenho revela que \begin{equation} \mathrm{vol}_2(v_1,v_2) = |x_1y_2-x_2y_1| \ . \end{equation}

No caso de $\mathbb R^3$, o desenho fica um pouco mais complicado, mas ainda é possível deduzir com alguns rabiscos que, dados $v_i = (x_i,y_i,z_i)\in \mathbb R^3$, $i = 1,2,3$, o volume canônico é dado por \begin{equation} \mathrm{vol}_3(v_1,v_2,v_3) = |x_1y_2z_3+y_1z_2x_3+z_1x_2y_3-z_1y_2x_3-x_1z_2y_3-y_1x_2z_3| \ . \end{equation}

Nos dois casos, temos \begin{equation} \mathrm{vol}_n(v_1,...,v_n) = |f(v_1,...,v_n)|\, , \end{equation} onde $f:(\mathbb R^n)^n\to \mathbb R$ é uma forma multilinear alternada que satisfaz $f(e_1,...,e_n) = 1$.

Como estamos trabalhando com espaços vetoriais, é sempre interessante buscar coisas que manifestem linearidade. Em analogia ao uso de produto interno pra construir uma noção de tamanho definindo a norma $||v|| = \sqrt{\langle v, v\rangle}$, convém usar uma estrutura multilinear pra construir $\mathrm{vol}_n$.

Por uma questão de completeza, vamos definir multilinearidade e alternância em geral. Sejam $V$ e $W$ espaços vetoriais sobre $k$. Um mapa $f: V^m\to W$ é multilinear se é linear em todas as coordenadas: \begin{equation} f(v_1,...,a\,v_i+v_i',...,v_m) = a\,f(v_1,...,v_i,...,v_m)+f(v_1,...,v_i',...,v_m) \end{equation} para $i=1,...,m$. Se $W = k$, então $f$ é uma forma multilinear.

Dizemos que o mapa $f$ é alternado se é nulo sempre que duas entradas distintas recebem o mesmo vetor: \begin{equation} \exists\, i\ne j: v_i=v_j\implies f(v_1,...,v_m) = 0 \ . \end{equation}

Uma alternativa à definição de mapa alternado é a definição de mapa antissimétrico: \begin{equation} f(v_1,...,v_m) = \mathrm{sgn}(\sigma)f(v_{\sigma(1)},...,v_{\sigma(m)}) \end{equation} para $\sigma \in S_m$. Se $k$ tem característica diferente de $2$, uma forma multilinear $f$ é alternada se, e somente se, é antissimétrica: \begin{equation}\label{alt-sse-antissim} f(v_1+v_2,v_1+v_2,...,v_m) = 0 \iff f(v_1,v_2,...,v_m) = -f(v_2,v_1,...,v_m) \ . \end{equation} Pra $k$ com característica igual a $2$, alternância implica em antissimetria, mas a recíproca pode falhar (abrindo as contas da equivalência \eqref{alt-sse-antissim} fica claro que o sentido $\Leftarrow$ precisa que $1+1\ne 0$). Formas antissimétricas são de particular interesse porque indicam orientação: uma permutação ímpar nos elementos de uma base corresponde a uma mudança de orientação.

A partir de agora, vamos muito oportunamente economizar notação e denotar por $\{e_1,...,e_n\}$ uma base de $V$.

A existência é óbvia. A unicidade pode ser provada com algumas contas, mas vamos aplicar um outro método de demonstração que é bem recorrente na Matemática: apelar pra definições que trivializam o resultado. No caso, vamos recorrer ao produto cunha.

Dado $1\le m\le n$, o $m$-ésimo produto cunha de $V$ é o espaço quociente \begin{equation*} \bigwedge^m V = \left(\bigotimes^m V\right) /\, U\ , \end{equation*} onde $U\subset \bigotimes^m V$ é o subespaço gerador por tensores $u_1\otimes ... \otimes u_m$ em que existem $i\ne j$ tais que $u_i = u_j$. Denotamos a classe de equivalência de $v_1\otimes...\otimes v_m$ por $v_1\wedge ...\wedge v_m \ .$

Operacionalmente, $\bigwedge^m V$ é gerado por vetores da forma $v_1\wedge ...\wedge v_m$, onde $\wedge$ é um produto multilinear alternado tal que \begin{equation} \{v_1,...,v_m\}\ \mbox{l.i.} \iff v_1\wedge...\wedge v_m\ne 0 \end{equation} e o conjunto $S = \{e_{i_1}\wedge...\wedge e_{i_m}: i_1,...,i_m \mbox{ é crescente}\}$ é uma base de $\bigwedge^m V$. Tal base é formada por todas as possíveis escolhas de $m$ elementos distintos dum conjunto com $n$ elementos, logo, \begin{equation} \dim \bigwedge^m V = \binom{n}{m} \ . \end{equation}

A existência e a unicidade de $F$ é garantida por construção. A transformação é completamente determinada pelos seus valores na base $S$: $F(e_{i_1}\wedge...\wedge e_{i_m}) = f(e_{i_1},...,e_{i_m})$.

Estamos interessados em formas multilineares alternadas definidas em $V^n$. O produto cunha $\bigwedge^n V$ é um espaço vetorial unidimensional, com base $e_1\wedge...\wedge e_n$. Dessa forma, dados quaisquer $v_1,...,v_n\in V$, temos que \begin{equation}\label{lambda} v_1\wedge ... \wedge v_n = \lambda\, e_1\wedge...\wedge e_n\ . \end{equation} para algum $\lambda \in k$.

Sejam $f, f': V^n\to k$ formas multilineares alternada satisfazendo $f(e_1,...,e_n) = f'(e_1,...,e_n) = 1$. Sejam $F, F': \bigwedge^n V\to k$ as formas lineares induzidas respectivamente por $f$ e $f'$ segundo a Propriedade Universal. Em particular, $F(e_1\wedge...\wedge e_n) = F'(e_1\wedge ... \wedge e_n) = 1$. Então, por \eqref{lambda}, \begin{equation} \begin{cases} f(v_1,...,v_n) = F(v_1\wedge...\wedge v_n) = F(\lambda\, e_1\wedge...\wedge e_n) = \lambda\\ f'(v_1,...,v_n) = F'(v_1\wedge...\wedge v_n) = F'(\lambda\, e_1\wedge...\wedge e_n) = \lambda \end{cases}\, . \end{equation} Ou seja, $f(v_1,...,v_n) = f'(v_1,...,v_n)$

Pronto! Agora temos que $\mathrm{vol}_n:\mathbb R^n\to \mathbb R$ dado por $\mathrm{vol}_n(v_1,...,v_n) = |f(v_1,...,v_n)|$, onde $f:(\mathbb R^n)^n\to \mathbb R$ é a única forma multilinear alternada que satisfaz $f(e_1,...,e_n)=1$, está bem definido e dá o que já conhecemos em $\mathbb R^2$ e $\mathbb R^3$.

Isso, por si só, já é o suficiente pra definir determinante de uma matrizes quadrada real $A$ de ordem $n$ como $f(A(e_1),...,A(e_n)) = F(A(e_1)\wedge...\wedge A(e_1))$, onde $F:\bigwedge^n\mathbb R^n\to \mathbb R$ é a forma linear induzida por $f$. Esse número, cujo sinal indica se $A$ preserva ou não orientação, nada mais é do que uma medida da deformação de volume gerada por $A$. Mas, pra evitar ficar dando voltas e causar confusão, vou definir determinante de forma mais geral. Este pequeno comentário serve para motivar a definição que trago abaixo.

Uma transformação linear $T: V\to V$ induz uma transformação linear $\widehat T:\bigwedge^n V\to \bigwedge^n V$ dada por $\widehat T(v_1\wedge...\wedge v_n) = T(v_1)\wedge ... \wedge T(v_n)$. Como $\bigwedge^n V$ é unidimensional, $\widehat T$ é multiplicação por um escalar, tal escalar é precisamente $\det(T)$, i.e., \begin{equation} T(v_1)\wedge...\wedge T(v_n) = \det(T) \, v_1\wedge...\wedge v_n \ . \end{equation}

Voltando a $\mathbb R^n$, usando $f$ e $F$, é fácil verificar que \begin{equation} \mathrm{vol}_n(T(v_1),...,T(v_n)) = |\det (T)|\mathrm{vol}_n(v_1,...,v_n) \ , \end{equation} e \begin{equation} \det (T) > 0 \iff T \ \mbox{preserva orienta\c{c}\~{a}o} \ . \end{equation}

Usando o fato de que a entrada $(i,j)$ da representação matricial de $T$ na base $\{e_1,...,e_n\}$ é a componente de $T(e_j)$ nada direção de $e_i$, obtemos a fórmula geral de determinante \eqref{det-A}. Só que a definição não depende de base, então não importa a base na qual escrevemos a representação matricial de $T$, seu determinante é o mesmo.

Feito tudo isso, algumas propriedades se tornam óbvias. Primeiro, se $I$ é a identidade, então \begin{equation} \det (I) = 1 \ . \end{equation} Em segundo lugar, algo que já estava implícito há algumas linhas: \begin{equation} \det (T) \ne 0 \iff T \ \mbox{é invertível} \ , \end{equation} afinal $\det (T) \ne 0$ equivale a dizer que existem $latex v_1,...,v_n \in V$ tal que $T(v_1)\wedge...\wedge T(v_n) \ne 0$, i.e.,