Expand spkv1 card functionality

需要拓展 spkv1 音色文件的功能

几个目前觉得需要支持的能力：
1. 应该支持可以指定推理模型，这样可以在 xtts_v2 接口中透明的切换模型或者指定模型
2. 增加 `无token` 音色支持，无token的需求是因为，某些模型（比如index tts）拥有一种特别的内置音色设计，以prompt形式启动内置音色，而非固定token
3. 拓展可配置参数，因为还有 类似 f5 这样的非gpt模型
4. 应该可以做一个优化器，使用 enhancer 模型自动优化音色卡片中的音频数据
5. editor webui #233