|
|
发表于 2007-6-11 19:29:02
|
显示全部楼层
Post by sysnotdown
1: 这不是个大众化的题目, 很多人做不了, 所以很难找同好;
2: 分词不算难, 前两天有个家伙开源了一个, 总体还不错;
3: 语音的工程量大, 楼主自己朗读还是请播音员朗读? 要么按开源社区的思路, 大家分工朗读,呵呵, 一句话可能是8个人的音.
4: 朗读软件用的人少, 质量不高用的人就更少.
5: 其实这东西代码量很少, 不带图形界面估计不会超过10000行, 前提是用开源分词代码, 很好写, 就是语音库的问题. 分完词后调用语音库读出来而已. 所以楼主自己写就好了.
6. 语音库嘛, 让开源社区协助建立. 先建立字库, 词库可以先用字库连接起来, 以后再建词库.
不知道这位做过tts没有,事先声明,我没做过,但是我想没有这位想的这么简单,
首先字组成词,词组成句,但是如果换到语音的话,这个就没法成立了,
比如语音有音调(不同的环境语调不同),有上下文环境,句应该也有句调,
简单的比如“你好”,如果是单独的字的话,两个都是三声,你试着读一下看看什么效果?但是实际上听起来确不是这样。
还有一些延迟的控制,还有就是
要让语音听起来自然连贯,而不是连起来的单字,我觉得有很多积累的东西在里面,比如大量的统计和测试。
之前我也想做一个来,但是实在不知道从什么地方下手,感觉这个东西理论性的东西比较强,比如可能我想有些tts不是靠单个字音合成的,而是有一些语素,不然tts引擎就太大了。 |
|