Pasar de flotante a int8 o mixto ahorra memoria y acelera multiplicaciones. Pero conviene calibrar rangos con datos reales, proteger capas sensibles y validar extremos. La cuantización posentrenamiento y la cuantización consciente durante el entrenamiento, combinadas con escalas bien elegidas, conservan separaciones de clase críticas y evitan degradaciones silenciosas. Se mide por caso de uso, no por moda técnica.
Eliminar canales, filtros o bloques enteros, en lugar de pesos aislados, simplifica despliegues e incrementa paralelismo. La poda guiada por sensibilidad y regularizada durante el entrenamiento permite mantener rutas informativas. Después, una reentrenada breve recupera precisión. El resultado son kernels más pequeños, memoria intermedia reducida y un modelo que respira con naturalidad en microcontroladores sin sufrir cuellos de botella.
All Rights Reserved.