Paulo, cada camera tem seu modo de envio de dados. É muito dificil trabalhar com isso, embora muitas sao baseadas numa familia de chips, existem diferenças, sem falar no caminhao de dados.
Veja um exemplo:
Uma webcam que tem video desta configuracao:
640x480 pixels
com 256 cores (1 byte) para cada pixel.
Sem som!
16 quadros por segundo.
640x480x1 = 307,202 bytes ! (300Kb) (Sem Som)
Isso para cada quadro.
Multiplica por 16 para se ter qts kb por segundo
4,915,200 bytes ou 4800 kb ou quase 5Mb !
Algumas possuem um esquema de compressão de dados baseado em mpeg. Vc tem um quadro chave por exemplo a cada segundo. Os outros 15 quadros contem uma versao compactada do quadro chave. Isso diminui bem a quantidade de dados para enviar. Se vc perde o quadro chave vc tem um monte de borroes até o proximo quadro chave (Quem ja assistiu video pela internet a alguns anos atras conhece isso)
Se vc assistir um vcd riscado tb tem esse problema.
O audio entao ...
Para tentar diminuir a quantidade de dados que sao enviados para o PC a cada segundo, cada fabricante inventa uma moda diferente. Por esse problema é dificil achar um protocolo simples ou uma receita de bolo.
As Vezes é mais facil voce comprar um sensor CCD e estuda-lo. Pega as imagens e grave na memoria do seu mcu.
http://www.datasheetcatalog.com/datashe ... LV01.shtml
isso vai te dar ideia do que estou falando. É um datasheet de um chip que le o ccd e envia pro PC via firewire