ここでいう「音量の最大化」とは、ピーク時の音量が最大になるようにすることをさす。
公式の方法だと、volumedetect でピークの音量を取得→その音量を volume change して音声だけ再エンコード という2ステップ必要。 https://trac.ffmpeg.org/wiki/AudioVolume
これは面倒!!
ということで、ffmpeg-normalize というのを導入すると良い。 https://github.com/slhck/ffmpeg-normalize
ffmpeg-normalize [input] -nt peak -t 0 -c:a aac -o [output]