Fiz um código aqui, mais precisamente uma implementação do RLS para identificação dos parâmetros de um sistema, de terceira ordem.
Testei num stm32f103, através do arduino (compilador GCC) e ele demora em torno de 415 us para uma iteração com clock de 84 MHz.
Testei no keil, para um stm32f407 e o resultado foi de 185 us para uma iteração do mesmo código, com o hw de FPU ativo e clock de 168 MHz.
Alguém que tenha experiência com o 407, não era pra rodar mais rápido?