Optimize voice components

- [x] VAD -> more sensitive towards pauses
- [ ] ASR -> online recognizer
- [ ] SID: look at configuration
- [ ] Diarization 2nd-pass -> combine segments + reassign/group speaker
- [ ] fastapi result gather
  - [ ] easier logic + non-blocking
  - [ ] use pydantic typing for results