CN115942035A 审中 音视频播放方法、装置、系统、电子设备及存储介质
技术领域 [0001]本公开涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于虚拟对象(例如,虚拟人)、3D视觉等场景。 背景技术 [0002]目前,虚拟对象的音视频播放通常是:在服务器中生成待播放语音和待播放视频,其中,待播放语音包括多个音频数据,待播放视频包括多个视频帧;通过建立多个音频数据与多个视频帧的对应关系,获得同步的音视频数据;通过网络将音视频数据发送给终端设备进行播放。 [0003]然而,采用以上方案播放虚拟对象音视频存在稳定性较差的问题。 发明内容 [0004]本公开提供了一种音视频播放方法、装置、系统、电子设备及存储介质。 [0005]根据本公开的一方面,提供了一种音视频播放方法,包括: [0006]获取待播放语音,待播放语音包括至少两个音频数据; [0007]按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据; [0008]从未播放的第一视频片段中确定待播放的第二视频片段; [0009]在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0010]根据本公开的第二方面,提供了一种音视频播放装置,包括: [0011]语音获取单元,用于获取待播放语音,待播放语音包括至少两个音频数据; [0012]视频生成单元,用于按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据; [0013]待播确定单元,用于从未播放的第一视频片段中确定待播放的第二视频片段; [0014]同步播放单元,用于在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0015]根据本公开的第三方面,提供了一种电子设备,包括: [0016]至少一个处理器; [0017]与至少一个处理器通信连接的存储器; [0018]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面所提供的方法。 [0019]根据本公开的第四方面,提供了一种音视频播放系统,包括播放设备,以及第三方面所提供的电子设备; [0020]电子设备用于获取待播放语音,待播放语音包括至少两个音频数据;按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据;从未播放的第一视频片段中确定待播放的第二视频片段;通过播放设备,在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0021]根据本公开的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行第一方面所提供的方法。 [0022]根据本公开的第六方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现第一方面所提供的方法。 [0023]采用本公开可以提高虚拟对象音视频播放的稳定性。 [0024]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。 附图说明 [0025]附图用于更好地理解本方案,不构成对本公开的限定。其中: [0026]图1为现有技术中一种音视频播放方法的场景示意图; [0027]图2为本公开实施例提供的一种音视频播放方法的流程示意图; [0028]图3为本公开实施例提供的一种第一视频片段的生成过程示意图; [0029]图4为本公开实施例提供的一种第二视频片段的确定过程示意图; [0030]图5为本公开实施例提供的一种目标视频帧的播放过程示意图; [0031]图6为本公开实施例提供的一种音视频播放方法的完整性流程示意图; [0032]图7为本公开实施例提供的一种音视频播放方法的场景示意图; [0033]图8为本公开实施例提供的一种音视频播放装置的示意性结构框图; [0034]图9为本公开实施例提供的一种电子设备的示意性结构框图。 具体实施方式 [0035]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。 [0036]虚拟对象是指具有数字化外形的虚拟人,其依赖显示设备存在、且拥有类人的生理构造(模仿人的形象、肢体构造)、人的行为(能说话、能运动)以及人的思想(基本的逻辑能力、并可以出输出内容)。此外,虚拟对象也可以是具有数字化外形的虚拟动物,或支持语言功能的其他对象。 [0037]请结合图1,如背景技术所述的,目前,虚拟对象的音视频播放通常是:在服务器中生成待播放语音和待播放视频,其中,待播放语音包括多个音频数据,待播放视频包括多个视频帧;通过建立多个音频数据与多个视频帧的对应关系,获得同步的音视频数据;通过网络将音视频数据发送给终端设备进行播放。 [0038]然而,采用以上方案,由于是在服务器中生成同步的音视频数据,再通过网络将音视频数据发送给终端设备进行播放的。因此,会受到网络状态等因素的影响,使得虚拟对象音视频播放存在稳定性较差的问题。 [0039]基于以上背景,本公开实施例提供了一种音视频播放方法,该音视频播放方法可以应用于电子设备。以下,将结合图2所示流程示意图,对本公开实施例提供的一种音视频播放方法进行说明。需要说明的是,虽然在流程示意图中示出了逻辑顺序,但是,在某些情况下,也可以以其他顺序执行所示出或描述的步骤。 [0040]步骤S201,获取待播放语音,待播放语音包括至少两个音频数据; [0041]步骤S202,按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据; [0042]步骤S203,从未播放的第一视频片段中确定待播放的第二视频片段; [0043]步骤S204,在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0044]其中,待播放语音可以是虚拟对象需要播放的语音。在一具体示例中,待播放语音可以是虚拟对象主动播放的语音,例如,新闻、天气预报、产品宣传等语音。在另一具体示例中,待播放语音也可以是虚拟对象在接收到用户实时发出的语音信息之后,通过深度学习技术进行语音预测,获得的应答语音。此外,如前所述的,本公开实施例中,虚拟对象可以是具有数字化外形的虚拟人、虚拟动物,或支持语言功能的其他对象。 [0045]本公开实施例中,待播放语音可以是多段话、一段话,或一句话,具体可以包括至少两个音频数据,每个音频数据可以对应一个汉字或外文单词。基于此,可以理解的是,本公开实施例中,每个音频数据又可以包括至少一个音频元素。该音频元素可以理解为:根据语音的自然属性划分出来的最小语音单位,若根据音节里的发音动作来分析,则一个发音动作构成一个音频元素。因此,音频元素是构成音节的最小单位,是从音质的角度划分出来的最小线性语音单位。例如,汉字“啊”所对应的音频数据为(ā),其仅包括一个音频元素,汉字“爱”所对应的音频数据为(ài),其包括两个音频元素,汉字“代”所对应的音频数据为(dài),其包括三个音频元素。 [0046]在获取到待播放语音之后,可以按照其包括的至少两个音频数据的播放时间顺序,依次生成音频数据对应的虚拟对象的至少两个视频片段,每个视频片段对应至少一个音频数据。在一具体示例中,可以按照播放时间顺序,每预设数量个音频数据,对应生成虚拟对象的一个视频片段。例如,针对任一音频数据,都仅对应生成一个视频帧,再将预设数量个音频数据对应的所有视频帧,组成虚拟对象的一个视频片段。再例如,针对任一音频数据,为该音频数据中的任一音频元素都对应生成一个视频帧,再将预设数量个音频数据对应的所有视频帧,组成虚拟对象的一个视频片段。其中,预设数量可以是1个、10个、20等,具体可以根据实际应用需求设定,本公开实施例对此不作限制。此外,视频帧可以包括图像背景、虚拟对象,以及虚拟对象的肢体动作、唇形等,本公开实施例对此同样不作限制。 [0047]在按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段的过程中,可以响应于确定未播放的第一视频片段的片段数量大于或等于可播放数量,从未播放的第一视频片段中确定生成时间最靠前的第一视频片段,作为待播放的第二视频片段。其中,可播放数量可以是1,本公开实施例对此不作限制。 [0048]在从未播放的第一视频片段中确定待播放的第二视频片段之后,可以通过双线程方式,在播放待播放语音的过程中,同步播放对应的第二视频片段。例如,由音频播放线程,按照播放时间顺序,连续播放待播放语音,同时,由视频播放线程,同步播放对应的第二视频片段。 [0049]采用本公开实施例提供的音视频播放方法,可以获取待播放语音,待播放语音包括至少两个音频数据;按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据;从未播放的第一视频片段中确定待播放的第二视频片段;在播放待播放语音的过程中,同步播放对应的第二视频片段。一方面,由于本公开实施例中,待播放语音的获取、第一视频片段的生成,以及音视频数据的同步都不需要在服务器中进行,也就不需要通过网络获取同步的音视频数据,可以避免受到网络状态等因素的影响,因此,相对于现有技术而言,可以提高虚拟对象音视频播放的稳定性。另一方面,由于本公开实施例中,并未对待播放语音本身进行分段处理,而是从未播放的第一视频片段中确定待播放的第二视频片段之后,在播放待播放语音的过程中,同步播放对应的第二视频片段。因此,能够提高待播放语音的播放连贯性,也就能够间接提高第二视频片段本身,以及相邻的两个第二视频片段之间的播放连贯性,从而进一步提高虚拟对象音视频播放的稳定性。 [0050]在一些可选的实施方式中,“按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段”,可以包括:基于动态规划策略,按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,以控制每个第一视频片段所包括的视频帧数量。如此,可以使得每个第一视频片段所包括的视频帧数量不被固定,而是动态变化的。 [0051]在一具体示例中,基于动态规划策略可以实现:根据未播放的第一视频片段的片段数量,控制每个第一视频片段所包括的视频帧数量,也即,片段长度,从而控制生成每个第一视频片段所消耗的时间。具体地,可以控制当前生产片段所包括的视频帧数量与片段数量呈正相关关系,其中,当前生产片段为执行“按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段”过程中,正在生成的第一视频片段。例如,在片段数量相对较多的情况下,说明剩余播放时间较长,因此,可以控制当前生产片段包括相对较多的视频帧数量,也即,具有一相对较长的片段长度,相反的,在片段数量相对较较少的情况下,说明剩余播放时间较短,因此,可以控制当前生产片段包括相对较少的视频帧数量,也即,具有一相对较短的片段长度。如此,可以避免生成当前生产片段时消耗较多时间,以使在剩余播放时间清零之前,已成功生成当前生产片段。 [0052]基于“按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段”包括的以上步骤,本公开实施例中,可以使得在第一视频片段的剩余播放时间清零之前,成功生成当前生产片段,因此,能够使得在第二视频片段播放完成、且无其他未播放的第一视频片段的情况下,可以无缝衔接地将当前生产片段作为第二视频片段,并播放该第二视频片段,从而进一步提高相邻的两个第二视频片段之间的播放连贯性,以进一步提高虚拟对象音视频播放的稳定性。 [0053]在一些可选的实施方式中,“按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段”,可以包括以下步骤: [0054]按照播放时间顺序,生成音频数据对应的虚拟对象的视频帧; [0055]将视频帧添加至预设存储空间; [0056]响应于确定视频帧添加至预设存储空间,获取预设存储空间的数据存储状态参数; [0057]根据未播放的第一视频片段的片段数量,确定可休眠基准,可休眠基准与片段数量呈正相关关系; [0058]响应于确定数据存储状态参数满足可休眠基准,根据预设存储空间中的视频帧,生成第一视频片段。 [0059]其中,预设存储空间可以是预先从电子设备中划分出的,用于存储视频帧的数据空间,而数据存储状态参数包括以下至少一者: [0060]预设存储空间中已添加视频帧的当前数量、待分析音频片段的语义完整度。 [0061]其中,待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据。 [0062]请结合图3,本公开实施例中,在按照播放时间顺序,生成音频数据对应的虚拟对象的视频帧的过程中,可以每生成一个视频帧,则将该视频帧添加至预设存储空间。此后,响应于确定视频帧添加至预设存储空间,获取预设存储空间的数据存储状态参数,并响应于确定数据存储状态参数满足可休眠基准,进入生产休眠、且暂停生成视频帧,再获取预设存储空间中的视频帧,组成一个第一视频片段。最后,删除预设存储空间的视频帧。其中,可休眠基准可以根据未播放的第一视频片段的片段数量确定、且可休眠基准与片段数量呈正相关关系。此外,本公开实施例中,在数据存储状态参数从满足可休眠基准转变为不满足可休眠基准的情况下,表示生产休眠结束,可以继续生成视频帧,以生成下一个第一视频片段。 [0063]其中,可休眠基准与片段数量呈正相关关系,也即,片段数量越多,可休眠基准越高,对应的,片段数量越少,可休眠基准越低。具体地,可以在确定片段数量之后,根据预设对应关系,确定对应该片段数量的待选基准,作为可休眠基准。 [0064]此外,基于以上描述,可以理解的是,本公开实施例中,还可以预先建立预设对应关系,用于表征片段数量所在的数量区间与多个待选基准之间的对应关系。其中,数量区间的区间粒度可以是1个、2个、3个等,具体可以根据实际应用需求设定,本公开实施例对此不作限制。在一具体示例中,数量区间的区间粒度为2,那么,在片段数量位于数量区间[1,2]的情况下,可以根据预设对应关系,确定对应数量区间[1,2]的待选基准A1,作为可休眠基准,在片段数量位于数量区间[3,4]的情况下,可以根据预设对应关系,确定对应数量区间[3,4]的待选基准A2,作为可休眠基准,其中,待选基准A2高于待选基准A1,以此类推。 [0065]需要说明的是,本公开实施例中,在响应于确定数据存储状态参数满足可休眠基准,进入生产休眠、且暂停生成视频帧之后,可休眠20毫秒(Ms),具体可以根据实际应用需求设定,本公开实施例对此不作限制。此外,本公开实施例中,每生成一个第一视频片段,则可以将该第一视频片段添加至缓存队列的队尾位置,以通过缓存队列,对该第一视频片段进行存储。 [0066]基于“按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段”包括的以上步骤,本公开实施例中,一方面,可以在按照播放时间顺序,生成音频数据对应的虚拟对象的视频帧的过程中,可以每生成一个视频帧,则将该视频帧添加至预设存储空间,以提高视频帧的存储及时性和数据安全性。另一方面,可休眠基准与片段数量呈正相关关系,提高了在第一视频片段的剩余播放时间清零之前,成功生成当前生产片段的概率,能够使得在第二视频片段播放完成、且无其他未播放的第一视频片段的情况下,可以无缝衔接地将当前生产片段作为第二视频片段,并播放该第二视频片段,从而进一步提高相邻的两个第二视频片段之间的播放连贯性,以进一步提高虚拟对象音视频播放的稳定性。 [0067]在一些可选的实施方式中,“按照播放时间顺序,生成音频数据对应的虚拟对象的视频帧”,可以包括以下步骤: [0068]获取虚拟对象的底版图像; [0069]按照播放时间顺序,获取音频数据对应的待处理唇形图像; [0070]将待处理唇形图像与底版图像进行融合,获得视频帧。 [0071]本公开实施例中,可以从预设的虚拟对象素材库中,获取虚拟对象的底版图像。底版图像可以包括图像背景、虚拟对象,以及虚拟对象的肢体动作。此后,可以按照播放时间顺序,根据预设音图对应关系,依次获取对应待播放语音所包括的至少两个音频数据的待处理唇形图像。以音频数据“zuì”为例,其包括三个音频元素,在为该音频数据中的任一音频元素都对应生成一个视频帧的情况下,可以先获取对应音频元素“z”的待处理唇形图像z1,再获取对应音频元素“u”的待处理唇形图像u1,最后,获取对应音频元素“ì”的待处理唇形图像i1。 [0072]每获取一个待处理唇形图像,则将该待处理唇形图像与底版图像进行融合,获得视频帧。具体地,可以通过Flycv图像处理技术,将待处理唇形图像与底版图像进行融合,获得视频帧。 [0073]基于“按照播放时间顺序,生成音频数据对应的虚拟对象的视频帧”包括的以上步骤,本公开实施例中,可以获取虚拟对象的底版图像;按照播放时间顺序,获取音频数据对应的待处理唇形图像;将待处理唇形图像与底版图像进行融合,获得视频帧。由于底版图像是可以直接获取、且共用的,不需要实时制作,因此,能够提高视频帧的生成效率,进而提高第一视频片段的生成效率,从而进一步提高相邻的两个第二视频片段之间的播放连贯性,以进一步提高虚拟对象音视频播放的稳定性。 [0074]对于“根据未播放的第一视频片段的片段数量,确定可休眠基准”,本公开实施例中,作为一种可选的实施方式,其可以包括以下步骤: [0075]在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第一状态参数; [0076]在片段数量大于或等于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第二状态参数; [0077]其中,第二状态参数大于第一状态参数。 [0078]其中,预设数量可以是任意合理值,具体可以根据实际应用需求设定,本公开实施例对此不作限制。 [0079]基于“根据未播放的第一视频片段的片段数量,确定可休眠基准”包括的以上步骤,本公开实施例中,可以在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第一状态参数,在片段数量大于或等于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第二状态参数,从而实现“根据未播放的第一视频片段的片段数量,确定可休眠基准”的简化处理,提高可休眠基准的确定效率,进而提高第一视频片段的生成效率,从而进一步提高相邻的两个第二视频片段之间的播放连贯性,以进一步提高虚拟对象音视频播放的稳定性。 [0080]此外,如前所述的,本公开实施例中,数据存储状态参数包括预设存储空间中已添加视频帧的当前数量,以及待分析音频片段的语义完整度中的至少一者,其中,待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据。也即,数据存储状态参数至少可以有三种情况: [0081]数据存储状态参数包括预设存储空间中已添加视频帧的当前数量; [0082]数据存储状态参数包括待分析音频片段的语义完整度; [0083]数据存储状态参数同时包括预设存储空间中已添加视频帧的当前数量,以及待分析音频片段的语义完整度。 [0084]以下,将分别针对这三种情况,对“根据未播放的第一视频片段的片段数量,确定可休眠基准”包括的以上步骤作进一步说明。 [0085]对于第一种情况,也即,数据存储状态参数包括预设存储空间中已添加视频帧的当前数量的情况,本公开实施例中,可以: [0086]在片段数量小于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第一状态参数,第一状态参数为第一帧数; [0087]在片段数量大于或等于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第二状态参数,第二状态参数为第二帧数; [0088]其中,第二帧数大于第一帧数。 [0089]如前所述的,本公开实施例中,每生成一个第一视频片段,则可以将该第一视频片段添加至缓存队列的队尾位置,以通过缓存队列,对该第一视频片段进行存储。基于此,在一具体示例中,片段数量小于预设数量可以是片段数量小于缓存队列的最大存储容量N,也即,片段数量位于数量区间[0,N),相反的,片段数量大于或等于预设数量可以是片段数量等于缓存队列的最大存储容量N,也即,片段数量位于数量区间[N,+∞)。那么,在片段数量位于数量区间[0,N)的情况下,确定可休眠基准指示当前数量大于或等于第一帧数,在片段数量位于数量区间[N,+∞)的情况下,在片段数量大于或等于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第二帧数。其中,第二帧数大于第一帧数,例如,第一帧数可以是25帧,第二帧数可以是50帧。可以理解的是,本公开实施例中,数量区间的区间粒度也可以不为N,而具有其他区间粒度,具体可以根据实际应用需求设定,本公开实施例对此不作限制。 [0090]对于以上第一种情况,可以在片段数量小于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第一帧数;在片段数量大于或等于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第二帧数、且第二帧数大于第一帧数,从而实现“根据未播放的第一视频片段的片段数量,确定可休眠基准”的进一步简化处理。如此,可以进一步提高可休眠基准的确定效率,进而提高第一视频片段的生成效率,从而进一步提高相邻的两个第二视频片段之间的播放连贯性,以进一步提高虚拟对象音视频播放的稳定性。 [0091]第二种情况中,数据存储状态参数包括待分析音频片段的语义完整度;第三种情况中,数据存储状态参数同时包括预设存储空间中已添加视频帧的当前数量,以及待分析音频片段的语义完整度。其中,待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据。这两种情况下,“响应于确定视频帧添加至预设存储空间,获取预设存储空间的数据存储状态参数”可以包括以下步骤: [0092]响应于确定视频帧添加至预设存储空间,确定对应于预设存储空间中各已添加视频帧的音频数据,组成待分析音频片段; [0093]获取待分析音频片段的语义完整度。 [0094]在一具体示例中,可以将待分析音频片段输入预先训练好的语义完整度分析模型,并获取语义完整度分析模型的输出结果。其中,输出结果可以是待分析音频片段所包括的完整短句数量,以用于表征待分析音频片段的语义完整度。其中,完整短句可以是有意义的语音单元,具体可以是短句子,也可以是能够表征不同的主题或潜在意图的其他语音单元。 [0095]示例性的,待播放语音包括“最近两天温度下降剧烈,尤其上午时段降雨频繁,人们外出应注意预防。下面请收看城市天气预报”,其具体包括4个完整短句、40个音频数据,其中,每个音频数据又包括至少一个音频元素。例如,“最”所对应的音频数据为“zuì”,其包括三个音频元素,“近”所对应的音频数据为“jìn”,其包括三个音频元素,“两”所对应的音频数据为“liǎng”,其包括五个音频元素,以此类推,“烈”所对应的音频数据为“liè”,其包括三个音频元素,“繁”所对应的音频数据为“fán”,其包括三个音频元素。 [0096]假设,以上任一音频元素都对应生成一个视频帧。那么,首先,会生成音频数据“zuì”中音频元素“z”对应的视频帧z1,再将视频帧z1添加至预设存储空间,并确定对应于预设存储空间中视频帧z1的音频数据,也即,音频元素“z”,组成待分析音频片段B1,最后,获取待分析音频片段B1的语义完整度C1——0个完整短句。接着,生成音频数据“zuì”中音频元素“u”对应的视频帧u1,再将视频帧u1添加至预设存储空间,并确定对应于预设存储空间中视频帧z1和视频帧u1的音频数据,也即,音频元素“z”和音频元素“u”,组成待分析音频片段B2,最后,获取待分析音频片段B2的语义完整度C2——依旧为0个完整短句。以此类推,直至生成音频数据“liè”中音频元素“è”对应的视频帧e1,再将视频帧e1添加至预设存储空间,并确定对应于预设存储空间中视频帧z1、视频帧u1……视频帧e1的音频数据,也即,音频元素“z”、音频元素“u”……音频元素“è”,组成待分析音频片段B3,最后,获取待分析音频片段B3的语义完整度C3——1个完整短句。此后,若继续生成视频帧,则在直至生成音频数据“fán”中音频元素“n”对应的视频帧n1时,将视频帧n1添加至预设存储空间,并确定对应于预设存储空间中视频帧z1、视频帧u1……视频帧e1……视频帧n1的音频数据,也即,音频元素“z”、音频元素“u”……音频元素“è”……音频元素“n”,组成待分析音频片段B4,最后,获取待分析音频片段B4的语义完整度C4——2个完整短句。 [0097]进一步地,对于第二种情况,也即,数据存储状态参数包括待分析音频片段的语义完整度、且待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据的情况,本公开实施例中,可以: [0098]在片段数量小于预设数量的情况下,确定可休眠基准指示语义完整度大于或等于第一状态参数,第一状态参数为第一完整度; [0099]在片段数量大于或等于预设数量的情况下,确定可休眠基准指示语义完整度大于或等于第二状态参数,第二状态参数为第二完整度; [0100]其中,第二完整度大于第一完整度。 [0101]如前所述的,本公开实施例中,每生成一个第一视频片段,则可以将该第一视频片段添加至缓存队列的队尾位置,以通过缓存队列,对该第一视频片段进行存储。基于此,在一具体示例中,片段数量小于预设数量可以是片段数量小于缓存队列的最大存储容量N,也即,片段数量位于数量区间[0,N),相反的,片段数量大于或等于预设数量可以是片段数量等于缓存队列的最大存储容量N,也即,片段数量位于数量区间[N,+∞)。那么,在片段数量位于数量区间[0,N)的情况下,确定可休眠基准指示语义完整度大于或等于第一完整度,在片段数量位于数量区间[N,+∞)的情况下,确定可休眠基准指示语义完整度大于或等于第二完整度。其中,第二完整度大于第一完整度,例如,第一完整度可以是1个完整短句,第二完整度可以是2个完整短句。可以理解的是,本公开实施例中,数量区间的区间粒度也可以不为N,而具有其他区间粒度,具体可以根据实际应用需求设定,本公开实施例对此不作限制。 [0102]对于以上第二种情况,可以在片段数量小于预设数量的情况下,确定可休眠基准指示语义完整度大于或等于第一状态参数,第一状态参数为第一完整度;在片段数量大于或等于预设数量的情况下,确定可休眠基准指示语义完整度大于或等于第二状态参数,第二状态参数为第二完整度、且第二完整度大于第一完整度。如此,由于生成的第一视频片段对应的是至少一个有意义的语音单元,因此,在将该第一视频片段作为第二视频片段进行播放时,即使该第二视频片段与其他第二视频片段之间的播放连贯性出现问题,也可以保证该第二视频片段具有完整语义,以助于用户理解。 [0103]对于第三种情况,也即,数据存储状态参数同时包括预设存储空间中已添加视频帧的当前数量,以及待分析音频片段的语义完整度、且待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据的情况,本公开实施例中,可以: [0104]在片段数量小于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第一状态参数中包括的第三帧数、且语义完整度大于或等于第一状态参数中包括的第三完整度; [0105]在片段数量大于或等于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第二状态参数中包括的第四帧数、且语义完整度大于或等于第二状态参数中包括的第四完整度; [0106]其中,第四帧数大于第三帧数。 [0107]如前所述的,本公开实施例中,每生成一个第一视频片段,则可以将该第一视频片段添加至缓存队列的队尾位置,以通过缓存队列,对该第一视频片段进行存储。基于此,在一具体示例中,片段数量小于预设数量可以是片段数量小于缓存队列的最大存储容量N,也即,片段数量位于数量区间[0,N),相反的,片段数量大于或等于预设数量可以是片段数量等于缓存队列的最大存储容量N,也即,片段数量位于数量区间[N,+∞)。那么,在片段数量位于数量区间[0,N)的情况下,确定可休眠基准指示当前数量大于或等于第三帧数、且语义完整度大于或等于第三完整度,在片段数量位于数量区间[N,+∞)的情况下,确定可休眠基准指示当前数量大于或等于第四帧数、且语义完整度大于或等于第四完整度。其中,第四帧数大于第三帧数,例如,第三帧数可以是25帧,第四帧数可以是50帧。可以理解的是,本公开实施例中,数量区间的区间粒度也可以不为N,而具有其他区间粒度,具体可以根据实际应用需求设定,本公开实施例对此不作限制。 [0108]此外,需要说明的是,本公开实施例中,第三完整度可以根据第三帧数要求实时确定。在一具体示例中,可以在当前数量刚好达到第三帧数的情况下,即时获取第一语音片段的第一可选完整度,其中,第一语音片段包括当前数量刚好达到第三帧数时,对应于预设存储空间中各已添加视频帧的音频数据。此后,再根据第一可选完整度,获取第三完整度。具体地,可以确定大于第一可选完整度一个完整度单位的下一阶语义完整度,作为第三完整度。例如,在通过待分析音频片段所包括的完整短句数量用于表征待分析音频片段的语义完整度、且第一可选完整度为1个完整短句的情况下,可以确定第三完整度为2个完整短句。 [0109]同样,本公开实施例中,第四完整度也可以根据第四帧数实时确定。在一具体示例中,可以在当前数量刚好达到第四帧数的情况下,即时获取第二语音片段的第二可选完整度,其中,第二语音片段包括当前数量刚好达到第四帧数时,预设存储空间中各已添加视频帧的音频数据。此后,再根据第二可选完整度,获取第四完整度。具体地,可以确定大于第二可选完整度一个完整度单位的下一阶语义完整度,作为第四完整度。例如,在通过待分析音频片段所包括的完整短句数量用于表征待分析音频片段的语义完整度、且第二可选完整度为2个完整短句的情况下,可以确定第四完整度为3个完整短句。 [0110]对于以上第三种情况,可以在片段数量小于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第一状态参数中包括的第三帧数、且语义完整度大于或等于第一状态参数中包括的第三完整度;在片段数量大于或等于预设数量的情况下,确定可休眠基准指示当前数量大于或等于第二状态参数中包括的第四帧数、且语义完整度大于或等于第二状态参数中包括的第四完整度、且第四帧数大于第三帧数。一方面,数据存储状态参数同时包括预设存储空间中已添加视频帧的当前数量,以及待分析音频片段的语义完整度,因此,可以通过双重结合调控,增加每个第一视频片段所包括的视频帧数量的可调控性,以满足个性化的应用需求。另一方面,由于生成的第一视频片段对应的是至少一个有意义的语音单元,因此,在将该第一视频片段作为第二视频片段进行播放时,即使该第二视频片段与其他第二视频片段之间的播放连贯性出现问题,也可以保证该第二视频片段具有完整语义,以助于用户理解。 [0111]对于“根据未播放的第一视频片段的片段数量,确定可休眠基准”,本公开实施例中,作为另外一种可选的实施方式,也可以包括以下步骤: [0112]在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第三状态参数; [0113]在片段数量大于或等于预设数量的情况下,确定可休眠基准指示第二视频片段的播放状态为播放完成,或确定可休眠基准指示第二视频片段的播放状态为播放完成、且待分析音频片段的语义完整度大于或等于目标完整度; [0114]其中,待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据。 [0115]其中,预设数量可以是任意合理值,具体可以根据实际应用需求设定,本公开实施例对此不作限制。 [0116]此外,如前所述的,本公开实施例中,数据存储状态参数至少可以有三种情况。在这三种情况下,对于“在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第三状态参数”,其具体实施可参见前面针对“在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第一状态参数”的相关描述,在此不作赘述。 [0117]本公开实施例中,在片段数量大于或等于预设数量的情况下,可以确定可休眠基准指示正在播放的第二视频片段的播放状态为播放完成,或可以确定可休眠基准指示正在播放的第二视频片段的播放状态为播放完成、且待分析音频片段的语义完整度大于或等于目标完整度。 [0118]需要说明的是,本公开实施例中,目标完整度可以根据播放状态刚好为播放完成时,第三语音片段的第三可选完整度实时确定,其中,第三语音片段包括播放状态刚好为播放完成时,对应于预设存储空间中各已添加视频帧的音频数据。具体地,可以确定大于第三可选完整度一个完整度单位的下一阶语义完整度,作为目标完整度。例如,在通过待分析音频片段所包括的完整短句数量用于表征待分析音频片段的语义完整度、且第三可选完整度1个完整短句的情况下,可以确定目标完整度为2个完整短句。 [0119]基于“根据未播放的第一视频片段的片段数量,确定可休眠基准”包括的以上步骤,本公开实施例中,可以在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第三状态参数,从而实现“根据未播放的第一视频片段的片段数量,确定可休眠基准”的进一步简化处理。如此,可以进一步提高可休眠基准的确定效率,进而提高第一视频片段的生成效率,从而进一步提高相邻的两个第二视频片段之间的播放连贯性,以进一步提高虚拟对象音视频播放的稳定性。 [0120]本公开实施例中,也可以在片段数量大于或等于预设数量的情况下,确定可休眠基准指示第二视频片段的播放状态为播放完成,或确定可休眠基准指示第二视频片段的播放状态为播放完成、且待分析音频片段的语义完整度大于或等于目标完整度。如此,由于生成的第一视频片段对应的是至少一个有意义的语音单元,因此,在将该第一视频片段作为第二视频片段进行播放时,即使该第二视频片段与其他第二视频片段之间的播放连贯性出现问题,也可以保证该第二视频片段具有完整语义,以助于用户理解。 [0121]此外,如前所述的,本公开实施例中,每生成一个第一视频片段,则可以将该第一视频片段添加至缓存队列的队尾位置,以通过缓存队列,对该第一视频片段进行存储。基于此,请结合图4,在一些可选的实施方式中,“从未播放的第一视频片段中确定待播放的第二视频片段”可以包括以下步骤: [0122]将生成的第一视频片段添加至缓存队列的队尾位置; [0123]响应于确定缓存队列中第一视频片段的片段数量大于或等于可播放数量,从缓存队列中获取位于队首位置的第一视频片段,作为第二视频片段。 [0124]其中,可播放数量可以是1,本公开实施例对此不作限制。此外,需要说明的是,本公开实施例中,在缓存队列中第一视频片段的片段数量小于可播放数量,而无法从缓存队列中获取位于队首位置的第一视频片段,作为第二视频片段的情况下,可以获取由等待帧组成的缓冲片段,作为第二视频片段。其中,等待帧可以包括图像背景、虚拟对象,以及虚拟对象的肢体动作、唇形等、且其中,唇形可以是微笑形唇。 [0125]基于“从未播放的第一视频片段中确定待播放的第二视频片段”包括的以上步骤,本公开实施例中,可以基于缓存队列提供的先进先出的存储方式,实现第一视频片段的异步处理。如此,可以进一步提高相邻的两个第二视频片段之间的播放连贯性,以进一步提高虚拟对象音视频播放的稳定性。 [0126]在一些可选的实施方式中,“在播放待播放语音的过程中,同步播放对应的第二视频片段”,可以包括以下步骤: [0127]在播放待播放语音的过程中,每播放一个音频数据,则获取音频数据的音频同步标签; [0128]根据音频同步标签,对第二视频片段中的目标视频帧进行同步播放,目标视频帧具有对应音频同步标签的视频同步标签。 [0129]其中,音频同步标签可以是基于虚拟时钟记录的播放时间点,也可以是预先设置的音频播放编码。 [0130]在一具体示例中,音频同步标签为基于虚拟时钟记录的播放时间点。那么,对应的,在生成视频帧时,需要为每个视频帧添加对应的视频同步标签,也即,时间戳。具体地,可以根据待播放语音的播放频率,为每个视频帧添加对应的时间戳。 [0131]示例性的,待播放语音包括“最近两天温度下降剧烈,尤其上午时段降雨频繁,人们外出应注意预防。下面请收看城市天气预报”,其具体包括40个音频数据,这40个音频数据又具体包括“zuìjìn liǎng tiān wēn dùxiàjiàng jùliè,yóu qíshàng wǔshíduàn jiàng yǔpín fán,rén men wài chūyīng zhùyìyùfáng。xiàmiàn qǐng shōu kàn chéng shìtiān qìyùbào”这128个音频元素。假设,这128个音频元素都各自对应生成一个视频帧。那么,在待播放语音的播放频率为10Ms/音频元素的情况下,在生成音频数据“zuì”中音频元素“z”对应的视频帧z1时,可以为视频帧z1添加对应的时间戳0Ms,在生成音频数据“zuì”中音频元素“u”对应的视频帧u1时,可以为视频帧u1添加对应的时间戳10Ms,在生成音频数据“zuì”中音频元素“ì”对应的视频帧i1时,可以为视频帧i1添加对应的时间戳20Ms,在生成音频数据“jìn”中音频元素“j”对应的视频帧j1时,可以为视频帧j1添加对应的时间戳30Ms,以此类推。 [0132]此后,每播放一个音频数据,则获取该音频数据的播放时间点,具体地,每播放该音频数据中的一个音频元素,则获取虚拟时钟记录的、该音频元素的播放时间点,最后,根据该播放时间点,对第二视频片段中的目标视频帧进行同步播放。其中,目标视频帧具有对应于该播放时间点的时间戳。请结合图5,也即,在待播放视频帧具有对应于该播放时间点的时间戳的情况下,将待播放视频帧作为目标视频帧,进行播放,否者,进入休眠等待状态。其中,待播放视频帧为第二视频片段中,还未播放、且生成时间最靠前的视频帧,“具有对应于该播放时间点的时间戳”可以是时间戳小于或等于播放时间点,在进入休眠等待状态之后,可休眠40Ms,具体可以根据实际应用需求设定,本公开实施例对此不作限制。 [0133]此外,如前所述的,本公开实施例中,在缓存队列中第一视频片段的片段数量小于可播放数量,而无法从缓存队列中获取位于队首位置的第一视频片段,作为第二视频片段的情况下,可以获取由等待帧组成的缓冲片段,作为第二视频片段。基于此,在检测到第二视频片段为缓冲片段、且还存在未播放完成的音频数据的情况下,可以暂停播放音频数据。同时,在音频同步标签为基于虚拟时钟记录的播放时间点的情况下,也可以控制虚拟时钟暂停记录,也即,暂停计时。 [0134]基于“在播放待播放语音的过程中,同步播放对应的第二视频片段”包括的以上步骤,本公开实施例中,可以基于音频同步标签和视频同步标签,实现音视频数据的同步播放。如此,可以提高同步准确性,以进一步提高虚拟对象音视频播放的稳定性。 [0135]在一些可选的实施方式中,“在播放所述待播放语音的过程中,同步播放对应的所述第二视频片段”,可以包括以下步骤: [0136]响应于针对目标应用程序的音视频播放请求,调用音视频播放控制函数,目标应用程序由支持跨平台的图形用户界面(User lnterface,UI)应用程序开发框架开发; [0137]执行音视频播放控制函数,以在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0138]其中,图形UI应用程序开发框架可以是Qt框架,其可以支持Linux、Windows、Mac和统信UOS等操作系统。 [0139]本公开实施例中,音视频播放控制函数可以包括QT QaudioPlayer、QTQVirtualHumanGLWidget和Q VirtualHumanClock。其中,QT QaudioPlayer用于在音频播放线程中,按照播放时间顺序,连续播放待播放语音,QT QVirtualHumanGLWidget用于在视频播放线程中,播放第二视频片段,QVirtualHumanClock用于实现音视频数据的同步播放控制,也即,用于控制在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0140]基于“在播放所述待播放语音的过程中,同步播放对应的所述第二视频片段”包括的以上步骤,本公开实施例中,可以实现虚拟对象音视频数据的跨平台播放,因此,能够支持更多的操作系统和硬件设备,有助于扩展音视频播放方法应用市场。 [0141]以下,将结合图6,对本公开实施例提供的一种音视频播放方法的完整性流程进行说明。 [0142]首先,在控制线程中,获取包括至少两个音频数据的待播放语音,再按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据。在此过程中,会为每个第一视频片段包括的任一视频帧添加对应的时间戳。此后,将待播放语音发送给音频播放线程,以及将时钟类(mClock)调用给音频播放线程,同时,每生成一个第一视频片段,则将该第一视频片段添加至缓存队列的队尾位置,并确定缓存队列中的第一视频片段的片段数量,再在该片段数量大于或等于可播放数量的情况下,从缓存队列中获取位于队首位置的第一视频片段,作为待播放的第二视频片段,发送给视频播放线程,以及将mClock调用给视频播放线程。 [0143]在将待播放语音发送给音频播放线程,以及将mClock调用给音频播放线程之后,在播放第一帧视频帧时,开始播放待播放语音,具体是从待播放语音中第一个音频数据的第一个音频元素开始播放,在播放第一个音频元素时,启动虚拟时钟,开始记录播放时间点。 [0144]此后,音频播放线程获得播放时间点,并作为mClock的实体对象——get ClockTime,调用给视频播放线程。在待播放视频帧的时间戳(dpts)小于或等于该实体对象时,将待播放视频帧作为目标视频帧,进行播放。其中,待播放视频帧为第二视频片段中,还未播放、且生成时间最靠前的视频帧。 [0145]在以上过程中,还可以通过控制线程,对目标视频帧进行播放控制。例如,控制目标视频帧的图像背景、虚拟对象、虚拟对象的肢体动作、是否添加图文标志,以及图文标志的添加位置等。同时,还可以通过控制线程,对待播放语音进行播放控制。例如,控制待播放语音的频率、音量、音色,以及是否添加背景音等。 [0146]请参阅图7,为本公开实施例提供的一种音视频播放方法的应用场景示意图。 [0147]如前所述的,本公开实施例提供的音视频播放方法应用于电子设备。其中,电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机,例如,中控设备。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外,需要说明的是,本公开实施例中,电子设备可以是不包括播放设备(例如,显示设备)的第一类设备,例如,中控机,电子设备也可以是包括播放设备的第二类设备,本公开实施例对此不作限制。 [0148]本公开实施例中,电子设备可以用于执行音视频播放方法: [0149]获取待播放语音,待播放语音包括至少两个音频数据; [0150]按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据; [0151]从未播放的第一视频片段中确定待播放的第二视频片段; [0152]在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0153]可以理解的是,本公开实施例中,在电子设备为第一类设备的情况下,可以通过播放设备,在在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0154]需要说明的是,本公开实施例中,图7所示的场景示意图仅为示意性而非限制性的,本领域技术人员可以基于图7示例进行各种显而易见的变化和/或替换,获得的技术方案仍属于本公开实施例的公开范围。 [0155]为了更好地实施以上音视频播放方法,本公开实施例还提供一种音视频播放装置800,该音视频播放装置800体可以集成在电子设备中。以下,将结合图8所示结构示意图,对公开实施例提供的一种音视频播放装置800进行说明。 [0156]该音视频播放装置800,包括: [0157]语音获取单元801,用于获取待播放语音,待播放语音包括至少两个音频数据; [0158]视频生成单元802,用于按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据; [0159]待播确定单元803,用于从未播放的第一视频片段中确定待播放的第二视频片段; [0160]同步播放单元804,用于在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0161]在一些可选的实施方式中,视频生成单元802用于: [0162]按照播放时间顺序,生成音频数据对应的虚拟对象的视频帧; [0163]将视频帧添加至预设存储空间; [0164]响应于确定视频帧添加至预设存储空间,获取预设存储空间的数据存储状态参数; [0165]根据未播放的第一视频片段的片段数量,确定可休眠基准,可休眠基准与片段数量呈正相关关系; [0166]响应于确定数据存储状态参数满足可休眠基准,根据预设存储空间中的视频帧,生成第一视频片段。 [0167]在一些可选的实施方式中,视频生成单元802用于: [0168]在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第一状态参数; [0169]在片段数量大于或等于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第二状态参数; [0170]其中,第二状态参数大于第一状态参数。 [0171]在一些可选的实施方式中,视频生成单元802用于: [0172]在片段数量小于预设数量的情况下,确定可休眠基准指示数据存储状态参数大于或等于第三状态参数; [0173]在片段数量大于或等于预设数量的情况下,确定可休眠基准指示第二视频片段的播放状态为播放完成,或确定可休眠基准指示第二视频片段的播放状态为播放完成、且待分析音频片段的语义完整度大于或等于目标完整度; [0174]其中,待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据。 [0175]在一些可选的实施方式中,数据存储状态参数包括以下至少一者: [0176]预设存储空间中已添加视频帧的当前数量、待分析音频片段的语义完整度; [0177]其中,待分析音频片段中包括:对应于预设存储空间中各已添加视频帧的音频数据。 [0178]在一些可选的实施方式中,视频生成单元802用于: [0179]获取虚拟对象的底版图像; [0180]按照播放时间顺序,获取音频数据对应的待处理唇形图像; [0181]将待处理唇形图像与底版图像进行融合,获得视频帧。 [0182]在一些可选的实施方式中,待播确定单元803用于: [0183]将生成的第一视频片段添加至缓存队列的队尾位置; [0184]响应于确定缓存队列中第一视频片段的片段数量大于或等于可播放数量,从缓存队列中获取位于队首位置的第一视频片段,作为第二视频片段。 [0185]在一些可选的实施方式中,同步播放单元804用于: [0186]在播放待播放语音的过程中,每播放一个音频数据,则获取音频数据的音频同步标签; [0187]根据音频同步标签,对第二视频片段中的目标视频帧进行同步播放,目标视频帧具有对应音频同步标签的视频同步标签。 [0188]在一些可选的实施方式中,同步播放单元804用于: [0189]响应于针对目标应用程序的音视频播放请求,调用音视频播放控制函数,目标应用程序由支持跨平台的图形用户界面应用程序开发框架开发; [0190]执行音视频播放控制函数,以在播放待播放语音的过程中,同步播放对应的第二视频片段。 [0191]具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的音视频播放方法实施例,在此不作赘述。 [0192]采用本公开实施例提供的音视频播放装置800,可以获取待播放语音,待播放语音包括至少两个音频数据;按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据;从未播放的第一视频片段中确定待播放的第二视频片段;在播放待播放语音的过程中,同步播放对应的第二视频片段。一方面,由于本公开实施例中,待播放语音的获取、第一视频片段的生成,以及音视频数据的同步都不需要在服务器中进行,也就不需要通过网络获取同步的音视频数据,可以避免受到网络状态等因素的影响,因此,相对于现有技术而言,可以提高虚拟对象音视频播放的稳定性。另一方面,由于本公开实施例中,并未对待播放语音本身进行分段处理,而是从未播放的第一视频片段中确定待播放的第二视频片段之后,在播放待播放语音的过程中,同步播放对应的第二视频片段。因此,能够提高待播放语音的播放连贯性,也就能够间接提高第二视频片段本身,以及相邻的两个第二视频片段之间的播放连贯性,从而进一步提高虚拟对象音视频播放的稳定性。 [0193]本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。 [0194]根据本公开的实施例,本公开还提供了一种电子设备、音视频播放系统、存储介质及计算机程序产品。 [0195]图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。 [0196]如前所述的,本公开实施例中,电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。 [0197]图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(Read-Only Memory,ROM)902中的计算机程序或从存储单元908加载到随机访问存储器(RandomAccess Memory,RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM903通过总线904彼此相连。输入/输出(Input/Output,I/O)接口905也连接至总线904。 [0198]电子设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如,键盘、鼠标等;输出单元907,例如,各种类型的显示器、扬声器等;存储单元908,例如,磁盘、光盘等;以及通信单元909,例如,网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。 [0199]计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、各种专用的人工智能(ArtificialIntelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如,音视频播放方法。例如,在一些可选的实施方式中音视频播放方法可分别被实现为计算机软件程序,其被有形地包含于非瞬时计算机可读存储介质,例如,存储单元908。在一些可选的实施方式中,计算机程序的部分或全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的音视频播放方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行音视频播放方法。 [0200]本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用标准产品(ApplicationSpecific Standard Product,ASSP)、芯片上系统的系统(System On Chip,SOC)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或多个计算机程序中,该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。 [0201]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。 [0202]在本公开的上下文中,非瞬时计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。非瞬时计算机可读存储介质可以是机器可读信号介质或机器可读储存介质。非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或前述内容的任何合适组合。非瞬时计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光学储存设备、磁储存设备、或前述内容的任何合适组合。 [0203]为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管(Cathode Ray Tube,CRT)显示器或液晶显示器(Liquid Crystal Display,LCD));以及键盘和指向装置(例如,鼠标或轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或触觉反馈);并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。 [0204]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或包括中间件部件的计算系统(例如,应用服务器)、或包括前端部件的计算系统(例如,具有图形用户界面或网络浏览器的用户计算机,用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local AreaNetwork,LAN)、广域网(Wide Area Network,WAN)和互联网。 [0205]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或是结合了区块链的服务器。 [0206]本公开实施例还提供了一种音视频播放系统,包括播放设备和前述电子设备。 [0207]电子设备用于获取待播放语音,所述待播放语音包括至少两个音频数据;按照所述音频数据的播放时间顺序,生成所述音频数据对应的虚拟对象的至少两个第一视频片段,每个所述第一视频片段对应至少一个所述音频数据;从未播放的第一视频片段中确定待播放的第二视频片段;通过所述播放设备,在播放所述待播放语音的过程中,同步播放对应的所述第二视频片段。 [0208]其中,播放设备可以是显示设备。 [0209]需要说明的是,本公开实施例中,以上音视频播放系统包括的电子设备为前述不包括播放设备的第一类设备,例如,可以是中控机。 [0210]本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述音视频播放方法。 [0211]本公开实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述音视频播放方法。 [0212]采样本公开实施例提供的电子设备、音视频播放系统、存储介质及计算机程序产品,可以获取待播放语音,待播放语音包括至少两个音频数据;按照音频数据的播放时间顺序,生成音频数据对应的虚拟对象的至少两个第一视频片段,每个第一视频片段对应至少一个音频数据;从未播放的第一视频片段中确定待播放的第二视频片段;在播放待播放语音的过程中,同步播放对应的第二视频片段。一方面,由于本公开实施例中,待播放语音的获取、第一视频片段的生成,以及音视频数据的同步都不需要在服务器中进行,也就不需要通过网络获取同步的音视频数据,可以避免受到网络状态等因素的影响,因此,相对于现有技术而言,可以提高虚拟对象音视频播放的稳定性。另一方面,由于本公开实施例中,并未对待播放语音本身进行分段处理,而是从未播放的第一视频片段中确定待播放的第二视频片段之后,在播放待播放语音的过程中,同步播放对应的第二视频片段。因此,能够提高待播放语音的播放连贯性,也就能够间接提高第二视频片段本身,以及相邻的两个第二视频片段之间的播放连贯性,从而进一步提高虚拟对象音视频播放的稳定性。 [0213]应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。 [0214]前述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
现在,一起体验智慧芽的产品和服务
自动注册,无需人工审核,即可立即开始查询专利
立即注册
澳门正版图库

AI助手