『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览本期内容,祝您阅读愉快。
策划 / LiveVideoStack
架构
阿里巴巴开源语音识别声学建模技术
本文介绍了DFSMN,一种改进的前馈顺序存储器网络(FSMN)架构,适用于大型词汇表连续语音识别。我们发布了基于流行的Kaldi语音识别工具包的DFSMN的源代码和训练配方,并证明DFSMN可以在LibriSpeech语音识别任务中实现最佳性能。
HDR转换曲线比较
随着显示技术的发展以及消费者对更极致观影体验的追求,超高清电视(UHDTV)逐渐成为热点话题,高分辨率、高帧率、高动态范围(HDR)、宽色域(WCG)是超高清电视的主要特征,其中高动态范围是近年的热点研究问题。
美拍短视频成本减半及毫秒起播优化实践
本文将从成本优化,成功率优化,播放体验优化等几个方面,整体介绍下美拍短视频成本减半以及毫秒起播优化实践之路。
心随手动,快手抖音的特效是怎么来的?
本文将从编辑的原理,预览功能,视频预处理,特效的制作等几个方面,介绍了抖音短视频背后的技术故事。
STUN/TURN/ICE协议在P2P SIP中的应用(一)
本文详细描述了基于STUN系列协议实现的P2P SIP电话过程,其中涉及到了SIP信令的交互,P2P的原理,以及STUN、TURN、ICE的协议交互。
STUN/TURN/ICE协议在P2P SIP中的应用(二)
本文详细描述了基于STUN系列协议实现的P2P SIP电话过程,其中涉及到了SIP信令的交互,P2P的原理,以及STUN、TURN、ICE的协议交互。
50种机器学习和预测应用的API,你想要的全都有
API 是一套用于构建软件程序的协议和工具。对于应用开发者而言,有了开放的 API,就可以直接调用其他公司做好的功能为我所用,这在很大程度上提升了工作效率。本文整理了以下四大类共 50 种 API,为你节省了寻找资源的时间。
音频/视频技术
腾讯视频全网清晰度提升攻坚战
腾讯视频移动端播放内核技术负责人李大龙围绕Codec,详细解读了腾讯为提升视频质量做的种种工作,包括播放器、编码与解码端、Codec优化、AI内容分类等。本文来自李大龙在LiveVideoStackCon 2017大会的分享,由LiveVideoStack整理。
WebRTC-Native 源码导读(十一):混音
本文主要介绍了WebRTC 混音模块的相关内容与实践:AudioMixer 的实现原理、AudioMixer 的产品化、工程化要点等内容。
直播全流程探索
近年来,直播兴起,QQ音乐也接入了直播能力,支持演唱会的直播和主播、明星直播,根据互动方式的不同,我们可以分为互动直播和推流直播。本文主要对web部分的直播流程进行介绍。
GPUImage详细解析(十三)多路视频绘制
本文主要介绍了用GPUImage进行多路视频的渲染的几种不同的方案,通过分析,发现其对应的应用场景。
编解码
IBM Cloud Video工程师Scott Grizzle谈流媒体协议和Codec
Streaming Media特约编辑Tim Siglin在Streaming Media East 2018采访了IBM Cloud Video工程师Scott Grizzle。LiveVideoStack对本文进行了摘译。
H264/SVC Temporal Scalability
在多人远程会议或直播系统中,参与的用户可能处于不同的网络环境(有线、wifi、3G、4G)中,网络质量各不一致,为了所有用户可进行远程会议或者直播的观看,简单的做法就是降低发送端的视频码流,这样不管网络质量好坏,参与的用户都将观看低码率的视频流。这种方案缺点在于大部分网络较好的用户会被少数的网络较差的用户给拖累。这里介绍 H264 编码器中的 Temporal Scalability 机制来优化该方案。
webrtc 视频编码之 h264 自动调节分辨率一
webrtc 内部支持 vp8,vp9,h264 视频编码,由于业务需要和出于通用性考虑,我选择了 h264 编码,webrtc集成了openh264,ffmpeg用于h264的编解码。本文主要介绍openh264 是如何动态调整分辨率的。
webrtc 视频编码之 h264 自动调节分辨率二
webrtc 内部支持 vp8,vp9,h264 视频编码,由于业务需要和出于通用性考虑,我选择了 h264 编码,webrtc集成了openh264,ffmpeg用于h264的编解码。本文主要介绍openh264 是如何动态调整分辨率的。
AI智能
深度学习AI美颜系列----基于抠图的人像特效算法
美颜算法的重点在于美颜,也就是增加颜值,颜值的广定义,可以延伸到整个人体范围,也就是说,你的颜值不单单和你的脸有关系,还跟你穿什么衣服,什么鞋子相关,基于这个定义(这个定义是本人自己的说法,没有权威性考究),本文主要介绍基于人体抠图来做一些人像特效算法。
一文概览主要语义分割网络:FCN,SegNet,U-Net...
本文作者总结了 FCN、SegNet、U-Net、FC-Densenet E-Net 和 Link-Net、RefineNet、PSPNet、Mask-RCNN 以及一些半监督方法,例如 DecoupledNet 和 GAN-SS,并为其中的一些网络提供了 PyTorch 实现。在文章的最后一部分,作者总结了一些流行的数据集,并展示了一些网络训练的结果。
身份采集、活体检测、人脸比对...旷视是如何做FaceID的?
本文讲述了深度学习在互联网身份验证服务中的应用以及人脸识别活体检测(动作、炫彩、视频、静默)技术应用场景及实现方式。
图像
图像处理之Canny边缘检测(一)
Canny边缘检测算法是1986年有John F. Canny开发出来一种基于图像梯度计算的边缘检测算法,同时Canny本人对计算图像边缘提取学科的发展也是做出了很多的贡献。尽管至今已经许多年过去,但是该算法仍然是图像边缘检测方法经典算法之一。
图像处理之Canny边缘检测(二)
Canny边缘检测算法是1986年有John F. Canny开发出来一种基于图像梯度计算的边缘检测算法,同时Canny本人对计算图像边缘提取学科的发展也是做出了很多的贡献。尽管至今已经许多年过去,但是该算法仍然是图像边缘检测方法经典算法之一。
浅析Android平台图像压缩方案
本文重点分享Android平台的压缩方案,并简单介绍了Bitmap的几个主要概念:像素密度、色彩模式以及Bitmap的计算方式。
图像处理之线性滤波
本文主要介绍了如何应用不同的线性过滤器来使用OpenCV函数来平滑图像。