版本开发

Q1. 内核版本是什么,在哪里生效?

A:语音内核是语音交互过程中由DUI提供的语音对话服务核心逻辑、算法以及对话需要的依赖资源,SDK运行时,会通过内核版本去加载对应版本的语音内核资源,从而调用识别、合成、唤醒等各项语音服务。

在开发全链路语音交互产品时,您需要在控制台上选择和当前SDK版本对应的内核版本,否则SDK使用时,就无法调用正确的资源。请注意,控制台上的内核版本号和SDK版本号为一一对应,即SDK版本号同内核版本号一致。

您可以参照如下步骤找到控制台上内核版本号以及SDK的版本号:

Step1. 点击导航条上的【产品接入】进入产品列表,在列表页,点击【查看】按钮,进入产品详情页。


Step2. 如果是开发中的版本,可以点击【开发】按钮,进入产品版本开发页。如果是已发布的版本,您可以跳转到3.

在版本开发页,您可以看到内核版本及对应的版本说明。


Step3. 或者您也可以在产品详情页,点击版本列表中的【查看】按钮,进入版本详情页。


在版本详情页的基本信息部分,您可以看到当前版本使用的内核版本。


Step4. 您下载到本地的SDK是一个压缩包,压缩包的名字格式中包含了SDK的版本号,如下图:


Step5. 如果您的内核版本号和使用的SDK版本号不一致,您可以在step2中的版本开发页面,切换内核版本后发布即可。

 

Q2. 如何选择语音识别引擎?

A:语音识别技术是指将声音信息转文字信息的能力,而DUI提供的语音识别引擎立足于当前语音交互产品主流应用领域(家居、车载、语音助手、机器人),应用语音识别核心算法及依赖的相关资源,提供更精准、专业的识别效果。

如果您接入的是全链路语音技术产品,您可以在开发产品版本时选择识别引擎,如下图:


那么如何选择需要的识别引擎呢?

  1. 如果您需要开发类似手机语音助手、语音输入法等适用于日常手机使用环境近讲场景的应用时,建议您选择通用识别引擎;
  2. 如果您需要开发智能音箱、智能空调等适用于家庭环境远距离拾音场景、且支持双麦和多麦克阵列的设备,具备声源定位和角度锁定功能,推荐您选择家居识别引擎;
  3. 如果您需要开发智能后视镜、中控车机等适用于车载环境近讲场景,您可以选择针对汽车噪声和车载垂直领域的识别做了优化的车载识别引擎;
  4. 如果您需要开发儿童故事机、家庭陪伴机器人等适用于日常环境较远距离的拾音场景、且支持多麦克组合的设备,您可以选择根据不同年龄的用户做了更专业的识别优化的机器人识别引擎。

如果您的设备或应用只需要接入DUI的语音识别技术,不需要接入其他语音技术,则您可以根据您产品的运行环境(离线/在线)和操作系统(Android/ios/server),选择对应的识别SDK进行接入,从而获取语音识别能力。DUI开放的语音识别技术的操作系统和运行环境如下表:

 

Q3. 接入语音识别单项技术时上传的说法和词库有什么用?

A:在接入语音识别单项技术时,如果您接入的是在线语音识别技术,那么您可以上传需要识别的说法词库(如下图)。

上传说法和词库后,在产品发布版本时,DUI系统会利用云端资源对您上传的内容进行训练,从而提升您说法的识别率。当您的用户在设备端说出您定制的说法时,会比较容易被识别出来,出错率会大幅度降低。


Q4. 唤醒词被判断成敏感词怎么办?

A:在DUI控制台上配置唤醒词时,设置的唤醒词对应的拼音包含不文明、涉黄、涉政、血腥暴力等方面的词,则会被检测为敏感词。如果出现唤醒词被判断成敏感词的情况,您需要更改唤醒词。

如果您的唤醒词只是部分拼音匹配上敏感词,而您确实需要使用该唤醒词,您可以提交工单联系我们来处理。

Q5. 设置唤醒词高级阈值配置后需要在客户端做什么?

A:唤醒阈值是用来衡量唤醒灵敏度的一个标准,阈值越高,唤醒越难,即灵敏度越低。

一般来说在配置唤醒阈值时,需要不断在设备端对不停的阈值进行测试,以选择最适合的一个数值。然而通过DUI唤醒词高级阈值配置功能,可以大大降低工作量。

唤醒词高级阈值配置是指:根据您配置的唤醒词和一定时长允许的误唤醒次数,为您计算在该范围内唤醒词适合的唤醒阈值。

使用该功能后:

  1. DUI系统会根据您配置的信息以及DUI在语音方面多年的经验,计算一个适合您的唤醒阈值;
  2. 您在控制台开发产品时,修改您设置的唤醒词的阈值为DUI系统计算的阈值后,您可以在设备端测试该阈值并进行微调,减少了大量的测试调整工作;
  3. 产品版本发布后配置即生效,无需在SDK端进行任何附加操作。

在设置误唤醒次数时长和次数时,需要注意的是:一定时间内,允许误唤醒次数越高,则唤醒越灵敏,同时误唤醒概率也越大。

Q6. 唤醒词设置规则?

A:您的设备或应用(手机、音箱、IOT设备等)在休眠或锁屏状态下,一旦检测到用户说设置好的特定的语音指令(即唤醒词),那么设备或应用会直接进入到等待指令状态,开启语音交互第一步。

DUI系统支持使用快捷唤醒词,即在使用唤醒词唤醒设备的同时,让设备执行指令操作,打造自然流畅的对话。

您可以为您的设备配置多个唤醒词,设备规则如下:

  1. 您可以根据设备或应用的个性化属性来设置唤醒词,例如设备是思必驰公司生产的,您可以设置唤醒词为“你好小驰”,又例如您的设备是手机助手类型的,您可以设置唤醒词为“小驰助手”
  2. 唤醒词只支持中文,3-5个汉字,4个字最佳;
  3. 请避免使用敏感词:包含政治,伟人名字等等;

  4. 避免使用口语化的词汇,口语词汇日常使用频率很高,容易导致误唤醒,如“早安啊”;

  5. 唤醒词发音应选择易开口,响度大,发音清晰易分辨的词;

  6. 避免使用多音字,唤醒词的音节覆盖应尽量多,差异大,避免使用叠字,避免连续使用零声母的词;

Q7. 如何体验、测试唤醒词效果?

A:如果您的设备/应用接入了语音唤醒功能,需要配置唤醒词,您可以通过如下方式体验、测试唤醒词效果:

方法一:您可以在DUI网站的语音唤醒介绍页进行唤醒词评估,会给出一星到五星不等的评估结果,您可以更根据评估结果修改唤醒词;

方法二:产品开发时,您可以为唤醒词配置唤醒阈值(唤醒的灵敏度,阈值越高越难唤醒),并且发布产品后,在设备端测试您配置的唤醒词;

方法三:您可以通过商务合作的方式,定制个性化的唤醒词,具有唤醒时间短、唤醒率更高和误唤醒率更低的三大特点

Q8. 产品既要用离线合成音,又要用在线合成音,要怎么做?

A:如果您的产品既需要使用离线合成音,,又需要离线合成音,那您可以在SDK中进行合成音设置。

如果您接入的是全链路语音技术,您可以查看文档《AndroidSDK集成:3.16.2 TTS 参数设置》或者《IOS SDK集成:1.15.4 设置TTS模式》完成合成音设置;

如果您接入的是语音合成单项技术,那您需要同时为您的设备集成离线语音合成SDK和在线语音合成SDK。

Q9. 目前有哪些合成音可以用?在哪体验?

A:使用语音合成技术,将输出的文本信息转化为有高自然度的语音,这些听起来在音色和自然度方面都接近甚至超过人声、具备一定韵律的声音,就是合成音。

目前DUI提供多种合成音,可以运行在本地和云端, 合成音类型和风格如下表:

其中,推荐使用自然音色,效果相对传统音色会更加自然。

 
合成音参数 合成音说明 合成技术
aningf 标准女声安宁;女声;温婉;中英混合 自然音色
anonyf 标准平和小佚;女声;传统;中英混合 传统音色
anonyg 标准女童佚佚;女童;传统;中文 传统音色
boy 标准男童堂堂;男童;憨厚;中英混合 自然音色
cyangf 女学生初阳;女声;可爱;中英混合 自然音色
feyinf 女老师风吟;女声;威严正式;中英混合 自然音色
gdgm 沉稳幽默纲叔;男声;传统;中英混合 传统音色
geyou 淡定风趣葛爷;男声;传统;中英混合 传统音色
gqlanf 温柔女声小兰;女声;温柔、邻家;中英混合 自然音色
hyanif 邻家女声小妮;女声;温柔亲切;中文 自然音色
hyanifa 邻家女声小妮;女声;温柔亲切;中英混合 自然音色
jjingf 知性女声晶晶;女声;知性大方;中英混合 自然音色
jlshim 男声季老师;男声;成熟稳重;中英混合 自然音色
juyinf_guigushi 鬼故事绝音;女声;自然;中英混合 自然音色
kaolaf 清纯女声考拉;女声;端庄优雅;中英混合 自然音色
kaolam 标准男声考拉;男声;标准;中英混合 自然音色
lanyuf 标准女声蓝雨;女声;温柔甜美;中英混合 自然音色
lili1f_diantai 电台女声璃璃;女声;电台、安静;中英混合 自然音色
lili1f_shangwu 商务女声璃璃;女声;商务大气;中英混合 自然音色
lili1f_yubo 娱报女声璃璃;女声;娱乐播报、活力;中英混合 自然音色
linbaf_gaoleng 高冷女声零八;女声;自然;中英混合 自然音色
linbaf_qingxin 清新女声零八;女声;自然;中英混合 自然音色
lucyf 标准女声小浩;女声;干练;中英混合 拼接音色
lucyfa 标准女声小浩;女声;干练;中英混合 自然音色
lzliaf 可爱男童连连;男声;活泼可爱;中英混合 传统音色
lzliafa 可爱男童连连;男童;活泼可爱;中英混合 自然音色
lzyinfa 清脆女生小颖;女声;自然;中英混合 自然音色
qianranf 可爱女童然然;女童;天真俏皮;中英混合 传统音色
qianranfa 可爱女童然然;女童;天真俏皮;中英混合 自然音色
qiumum 标准男声秋木;男声;活泼开朗;中英混合 自然音色
smjief 清亮女声小洁;女声;亲和;中英混合 自然音色
tzruim 标准男声小睿;男声;活力朝气;中英混合 自然音色
wjianm 标准男声小江;男声;亲切友善;中英混合 自然音色
xijunm 标准男声小军;男声;新闻播报;中英混合 自然音色
xiyaof 标准女声小妖;女声;慵懒烟嗓;中英混合 自然音色
xiyaof_laoshi 女老师小妖;女声;自然;中英混合 自然音色
xiyaof_qingxin 清新女声小妖;女声;清新甜美;中英混合 自然音色
xizhef 女老师行者;女声;严肃;中英混合 自然音色
xjingf 飘逸女声小静;女声;商务知性;中英混合 自然音色
xjingf_gushi 故事女声小静;女声;自然;中英混合 自然音色
yaayif 女声杨阿姨;女声;和蔼可亲;中英混合 自然音色
yukaim_all 磁性男声俞老师;男声;自然;中英混合 自然音色
zhilingf 甜美女神小玲;女声;甜美、自然、性感;中英混合 传统音色
zhilingfa 甜美女神小玲;女声;甜美、自然、性感;中英混合 自然音色
zxcm 风趣幽默星哥;男声;传统;中文 传统音色
zzherf 标准女声朱株儿;女声;故事;中英混合 自然音色
zzhuaf 故事女声砖砖;女声;自然;中英混合 自然音色

如需体验合成音,您可以前往DUI语音合成介绍页,在页面上选择合成音、调节音量、语速和合成文本,体验合成音效果。

如上述合成音都不满足您的需求,您可以联系商务定制符合您要求的合成音。

Q10. 可以个性化设置合成音吗?

A:在为您的设备或应用开发语音交互系统过程中,您可以为您的系统配置个性化的合成音。

如果您接入的是全链路技术产品,那您可以通过以下方式个性化设置合成音,以获得更丰富的听觉效果

  1. 在DUI控制台上开发产品时,可以在页面上直接调节合成音的语速、音量和码率;
  2. 您也可以直接在SDK集成时,设置合成音的参数,包括合成音的语速、音量、设备抢焦点等。了解SDK集成说明(Android  iOS嵌入式

如果您的设备或应用只接入了语音合成技术,那么您可以在SDK集成时,设置合成音的参数,定制个性化合成。您可以根据设备或产品适用的操作系统和运行环境查看相关的集成说明:

 

Q11. 现有的合成音不满足要求,有定制服务吗?
A:除现有提供的多种合成音外,DUI还提供合成音定制服务。

您可以通过以下几种方式提交申请:

方式一:在语音合成介绍页上提交申请;

方式二:拨打热线400-006-1314;

方式三:邮件至marketing@aispeech.com

方式四:提交工单;

您可以在DUI控制台(还没有账号的话可以先注册哦)反馈问题里选择问题类型为“商务合作”,填写问题描述为:定制合成音需求,我们在收到您的反馈后会尽快与您取得联系。我要怎么反馈问题?

Q12.怎么为嵌入式设备配置离线合成音?

A:目前控制台只支持为嵌入式设备配置在线合成音,如需配置离线合成音,您可以通过提交工单的方式联系我们,工单类型为【商务合作】;或者直接联系商务

Q13. 怎么为不同的场景配置对话回复和错误播报内容?

A:目前暂时不支持为不同的场景配置对话回复和错误播报内容;

但是您可以为产品配置全局性的对话回复和错误播报内容

Q14. 我是IOT厂商,怎么通过语音控制家居设备?

A:如果您是IOT厂商(直接生产空调、冰箱、洗衣机、油烟机、电视机等家居设备),希望您的用户可以通过语音指令控制家居设备,那么您可以通过DUI系统为您生产的家居设备赋予语音交互能力。

您可以先了解下DUI系统如何实现语音技术在设备端生效

为了让您的用户能够通过语音控制您生产的家居设备,您需要做如下几件事:

  1. 在控制台创建语音技能:您可以创建任务型技能或者自定义技能,模拟用户的语音对话场景和过程,在技能中配置用户可能提出的请求、指令、询问以及设备需要执行的操作或回复;(开发任务型技能、 开发自定义技能
  2. 在控制台创建产品:您需要在控制台创建全链路语音技术产品,从而开发设备需要的语音交互系统;(产品开发
  3. 将技能添加到产品中:技能只有添加到产品中才能被使用,且产品需要发布,才能在设备端生效;
  4. 本地SDK集成:您需要根据您应用的操作系统,下载SDK并且进行开发集成。(Android SDK集成iOS SDK集成嵌入式SDK集成

 

如果你希望您的用户通过您的AI设备来控制家居设备,您可以参考:我是AI设备商,怎么用我的设备控制家居设备?

 

Q15. 我是AI设备商,怎么用我的设备控制家居设备?

A:AI设备商是指,生产音箱、耳机、机器人、故事机等语音设备的厂商。

如果您是AI设备商,希望您的用户您的设备来控制多种家居设备,那么您可以通过DUI系统将您的设备作为家居设备的中控管理,并且赋予您的设备调用其他家居设备的能力。以打开卧室插座为例,主要工作流程如下:

  1. 发现智能家居设备:用户需要将卧室的插座连接到对应IOT厂商设备云上。
  2. 发起请求:用户请求打开卧室插座,用户对您的AI设备说“xxxx,打开卧室插座”。
  3. 请求处理:DUI系统解析用户请求,将相应的指令发送到智能家居技能。
  4. 请求响应:智能家居技能打开卧室插座。
  5. 状态更新:智能家居技能向DUI返回卧室插座的状态。
  6. 返回结果:DUI系统向您的用户返回处理结果,AI设备会说“好的,卧室的插座已经打开”。


由工作流程可以看出,在整个过程中,指令的执行由智能家居技能完成。那么,什么是智能家居技能呢?

智能家居技能就是让用户可通过语音来控制家居设备以及查看设备的状态的语音交互技能,由IOT设备厂商在DUI上开发、并提供给AI设备商使用。

因此,为了让您的用户能够通过您的设备对家居设备下达指令,您需要做如下几件事:

  1. 在控制台创建全链路产品:您需要在控制台创建全链路语音技术产品,从而开发设备需要的语音交互系统;(产品开发
  2. 打开智能家居技能配置:只有开启配置后,您才能使用由IOT设备厂商开发的智能家居型技能;开启后可直接使用;
  3. AI设备配套APP集成 DCA SDK:您的用户需要在AI设备配套app上进行账号授权后,才可以获取和查看可操控的家居设备列表,而DUI 提供的DCA SDK中集成有智能家居相关的接口,您需要为您的配套APP集成DCA SDK。您可以根据您设备使用的操作系统平台查看对应的集成开发文档:AndroidiOS
  4. 客户账号对接:如果您的用户使用的账号不是思必驰账号,那么您还需要将用户账号和思必驰账号打通。打通后,用户在app上无需登录思必驰账号,可以无感知地使用家居技能。对接操作参考:客户账号对接说明

 

Q16. 产品版本详情页出现按钮点击无反应时怎么办?

A:在产品的版本详情页,如果出现按钮点击无反应的情况,您可以按照如下方式排除:

1、确认是否有未保存的内容;

2、确认是否是浏览器兼容性问题,推荐使用Chrome浏览器进行操作;或者,您可以提供浏览器类型和版本号,通过提交工单(或者联系项目经理)的方式,联系我们来排查问题。

3、确认是否是单独账号的问题,如果是,您可以提供账号和密码,通过提交工单(或者联系项目经理)的方式,来解决问题。

 

目录

Q1.内核版本是什么?

Q2.如何选择语音识别引擎?

Q3.控制台接入语音识别单项技术时,定制说法上传的说法和词库有什么用?

Q4.我需要的唤醒词被判断成敏感词怎么办?

Q5.设置唤醒词高级阈值配置后,我需要在客户端做什么吗?

Q6.唤醒词设置规则?

Q7.我如何体验、测试唤醒词效果?

Q8.我的产品既要用离线合成音,又要用在线合成音,要怎么做?

Q9.目前有哪些合成音可以用?我要怎么体验?

Q10.合成音可以进行个性化设置吗

Q11.如果现有的合成音不满足要求,可以提供定制服务吗?

Q12.我要为嵌入式设备配置离线合成音,要怎么做?

Q13.我怎么为不同的场景配置对话回复和错误播报内容?

Q14.我是IOT厂商,怎么通过语音控制家居设备?

Q15.我是AI设备商,怎么用我的设备控制家居设备?

Q16.产品版本详情页出现按钮点击无反应时怎么办?