热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

指导5:同步视频

2019独角兽企业重金招聘Python工程师标准如何同步视频前面整个的一段时间,我们有了一个几乎无用的电影播放器。当然,它能播放视频,

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

如何同步视频

 

前面整个的一段时间,我们有了一个几乎无用的电影播放器。当然,它能播放视频,也能播放音频,但是它还不能被称为一部电影。那么我们还要做什么呢?

 

PTS和DTS

 

幸运的是,音频和视频流都有一些关于以多快速度和什么时间来播放它们的信息在里面。音频流有采样,视频流有每秒的帧率。然而,如果我们只是简单的通过数帧和乘以帧率的方式来同步视频,那么就很有可能会失去同步。于是作为一种补充,在流中的包有种叫做DTS(解码时间戳)和PTS(显示时间戳)的机制。为了这两个参数,你需要了解电影存放的方式。像MPEG等格式,使用被叫做B帧(B表示双向bidrectional)的方式。另外两种帧被叫做I帧和P帧(I表示关键帧,P表示预测帧)。I帧包含了某个特定的完整图像。P帧依赖于前面的I帧和P帧并且使用比较或者差分的方式来编码。B帧与P帧有点类似,但是它是依赖于前面和后面的帧的信息的。这也就解释了为什么我们可能在调用avcodec_decode_video以后会得不到一帧图像。

所以对于一个电影,帧是这样来显示的:I B B P。现在我们需要在显示B帧之前知道P帧中的信息。因此,帧可能会按照这样的方式来存储:IPBB。这就是为什么我们会有一个解码时间戳和一个显示时间戳的原因。解码时间戳告诉我们什么时候需要解码,显示时间戳告诉我们什么时候需要显示。所以,在这种情况下,我们的流可以是这样的:

   PTS: 1 4 2 3

   DTS: 1 2 3 4

Stream: I P B B

通常PTS和DTS只有在流中有B帧的时候会不同。

 

当我们调用av_read_frame()得到一个包的时候,PTS和DTS的信息也会保存在包中。但是我们真正想要的PTS是我们刚刚解码出来的原始帧的PTS,这样我们才能知道什么时候来显示它。然而,我们从avcodec_decode_video()函数中得到的帧只是一个AVFrame,其中并没有包含有用的PTS值(注意:AVFrame并没有包含时间戳信息,但当我们等到帧的时候并不是我们想要的样子)。然而,ffmpeg重新排序包以便于被avcodec_decode_video()函数处理的包的DTS可以总是与其返回的PTS相同。但是,另外的一个警告是:我们也并不是总能得到这个信息。

不用担心,因为有另外一种办法可以找到帖的PTS,我们可以让程序自己来重新排序包。我们保存一帧的第一个包的PTS:这将作为整个这一帧的PTS。我们可以通过函数avcodec_decode_video()来计算出哪个包是一帧的第一个包。怎样实现呢?任何时候当一个包开始一帧的时候,avcodec_decode_video()将调用一个函数来为一帧申请一个缓冲。当然,ffmpeg允许我们重新定义那个分配内存的函数。所以我们制作了一个新的函数来保存一个包的时间戳。

当然,尽管那样,我们可能还是得不到一个正确的时间戳。我们将在后面处理这个问题。

 

同步

 

现在,知道了什么时候来显示一个视频帧真好,但是我们怎样来实际操作呢?这里有个主意:当我们显示了一帧以后,我们计算出下一帧显示的时间。然后我们简单的设置一个新的定时器来。你可能会想,我们检查下一帧的PTS值而不是系统时钟来看超时是否会到。这种方式可以工作,但是有两种情况要处理。

首先,要知道下一个PTS是什么。现在我们能添加视频速率到我们的PTS中--太对了!然而,有些电影需要帧重复。这意味着我们重复播放当前的帧。这将导致程序显示下一帧太快了。所以我们需要计算它们。

第二,正如程序现在这样,视频和音频播放很欢快,一点也不受同步的影响。如果一切都工作得很好的话,我们不必担心。但是,你的电脑并不是最好的,很多视频文件也不是完好的。所以,我们有三种选择:同步音频到视频,同步视频到音频,或者都同步到外部时钟(例如你的电脑时钟)。从现在开始,我们将同步视频到音频。

 

写代码:获得帧的时间戳

 

现在让我们到代码中来做这些事情。我们将需要为我们的大结构体添加一些成员,但是我们会根据需要来做。首先,让我们看一下视频线程。记住,在这里我们得到了解码线程输出到队列中的包。这里我们需要的是从avcodec_decode_video函数中得到帧的时间戳。我们讨论的第一种方式是从上次处理的包中得到DTS,这是很容易的:

  double pts;

 

  for(;;) {

    if(packet_queue_get(&is->videoq, packet, 1) <0) {

      // means we quit getting packets

      break;

    }

    pts &#61; 0;

    // Decode video frame

    len1 &#61; avcodec_decode_video(is->video_st->codec,

                                pFrame, &frameFinished,

              packet->data, packet->size);

    if(packet->dts !&#61; AV_NOPTS_VALUE) {

      pts &#61; packet->dts;

    } else {

      pts &#61; 0;

    }

    pts *&#61; av_q2d(is->video_st->time_base);

如果我们得不到PTS就把它设置为0。

好&#xff0c;那是很容易的。但是我们所说的如果包的DTS不能帮到我们&#xff0c;我们需要使用这一帧的第一个包的PTS。我们通过让ffmpeg使用我们自己的申请帧程序来实现。下面的是函数的格式&#xff1a;

int get_buffer(struct AVCodecContext *c, AVFrame *pic);

void release_buffer(struct AVCodecContext *c, AVFrame *pic);

申请函数没有告诉我们关于包的任何事情&#xff0c;所以我们要自己每次在得到一个包的时候把PTS保存到一个全局变量中去。我们自己以读到它。然后&#xff0c;我们把值保存到AVFrame结构体难理解的变量中去。所以一开始&#xff0c;这就是我们的函数&#xff1a;

uint64_t global_video_pkt_pts &#61; AV_NOPTS_VALUE;

 

 

int our_get_buffer(struct AVCodecContext *c, AVFrame *pic) {

  int ret &#61; avcodec_default_get_buffer(c, pic);

  uint64_t *pts &#61; av_malloc(sizeof(uint64_t));

  *pts &#61; global_video_pkt_pts;

  pic->opaque &#61; pts;

  return ret;

}

void our_release_buffer(struct AVCodecContext *c, AVFrame *pic) {

  if(pic) av_freep(&pic->opaque);

  avcodec_default_release_buffer(c, pic);

}

函数avcodec_default_get_buffer和avcodec_default_release_buffer是ffmpeg中默认的申请缓冲的函数。函数av_freep是一个内存管理函数&#xff0c;它不但把内存释放而且把指针设置为NULL。

现在到了我们流打开的函数&#xff08;stream_component_open&#xff09;&#xff0c;我们添加这几行来告诉ffmpeg如何去做&#xff1a;

    codecCtx->get_buffer &#61; our_get_buffer;

    codecCtx->release_buffer &#61; our_release_buffer;

现在我们必需添加代码来保存PTS到全局变量中&#xff0c;然后在需要的时候来使用它。我们的代码现在看起来应该是这样子&#xff1a;

  for(;;) {

    if(packet_queue_get(&is->videoq, packet, 1) <0) {

      // means we quit getting packets

      break;

    }

    pts &#61; 0;

 

    // Save global pts to be stored in pFrame in first call

    global_video_pkt_pts &#61; packet->pts;

    // Decode video frame

    len1 &#61; avcodec_decode_video(is->video_st->codec, pFrame, &frameFinished,

              packet->data, packet->size);

    if(packet->dts &#61;&#61; AV_NOPTS_VALUE

       && pFrame->opaque && *(uint64_t*)pFrame->opaque !&#61; AV_NOPTS_VALUE) {

      pts &#61; *(uint64_t *)pFrame->opaque;

    } else if(packet->dts !&#61; AV_NOPTS_VALUE) {

      pts &#61; packet->dts;

    } else {

      pts &#61; 0;

    }

    pts *&#61; av_q2d(is->video_st->time_base);

技术提示&#xff1a;你可能已经注意到我们使用int64来表示PTS。这是因为PTS是以整型来保存的。这个值是一个时间戳相当于时间的度量&#xff0c;用来以流的time_base为单位进行时间度量。例如&#xff0c;如果一个流是24帧每秒&#xff0c;值为42的PTS表示这一帧应该排在第42个帧的位置如果我们每秒有24帧&#xff08;这里并不完全正确&#xff09;。

我们可以通过除以帧率来把这个值转化为秒。流中的time_base值表示1/framerate&#xff08;对于固定帧率来说&#xff09;&#xff0c;所以得到了以秒为单位的PTS&#xff0c;我们需要乘以time_base。

 

写代码&#xff1a;使用PTS来同步

 

现在我们得到了PTS。我们要注意前面讨论到的两个同步问题。我们将定义一个函数叫做synchronize_video&#xff0c;它可以更新同步的PTS。这个函数也能最终处理我们得不到PTS的情况。同时我们要知道下一帧的时间以便于正确设置刷新速率。我们可以使用内部的反映当前视频已经播放时间的时钟video_clock来完成这个功能。我们把这些值添加到大结构体中。

typedef struct VideoState {

  double          video_clock; ///

下面的是函数synchronize_video&#xff0c;它可以很好的自我注释&#xff1a;

double synchronize_video(VideoState *is, AVFrame *src_frame, double pts) {

 

  double frame_delay;

 

  if(pts !&#61; 0) {

 

    is->video_clock &#61; pts;

  } else {

 

    pts &#61; is->video_clock;

  }

 

  frame_delay &#61; av_q2d(is->video_st->codec->time_base);

 

  frame_delay &#43;&#61; src_frame->repeat_pict * (frame_delay * 0.5);

  is->video_clock &#43;&#61; frame_delay;

  return pts;

}

你也会注意到我们也计算了重复的帧。

 

现在让我们得到正确的PTS并且使用queue_picture来队列化帧&#xff0c;添加一个新的时间戳参数pts&#xff1a;

    // Did we get a video frame?

    if(frameFinished) {

      pts &#61; synchronize_video(is, pFrame, pts);

      if(queue_picture(is, pFrame, pts) <0) {

    break;

      }

    }

对于queue_picture来说唯一改变的事情就是我们把时间戳值pts保存到VideoPicture结构体中&#xff0c;我们我们必需添加一个时间戳变量到结构体中并且添加一行代码&#xff1a;

typedef struct VideoPicture {

  ...

  double pts;

}

int queue_picture(VideoState *is, AVFrame *pFrame, double pts) {

  ... stuff ...

  if(vp->bmp) {

    ... convert picture ...

    vp->pts &#61; pts;

    ... alert queue ...

  }

现在我们的图像队列中的所有图像都有了正确的时间戳值&#xff0c;所以让我们看一下视频刷新函数。你会记得上次我们用80ms的刷新时间来欺骗它。那么&#xff0c;现在我们将会算出实际的值。

我们的策略是通过简单计算前一帧和现在这一帧的时间戳来预测出下一个时间戳的时间。同时&#xff0c;我们需要同步视频到音频。我们将设置一个音频时间audio clock&#xff1b;一个内部值记录了我们正在播放的音频的位置。就像从任意的mp3播放器中读出来的数字一样。既然我们把视频同步到音频&#xff0c;视频线程使用这个值来算出是否太快还是太慢。

我们将在后面来实现这些代码&#xff1b;现在我们假设我们已经有一个可以给我们音频时间的函数get_audio_clock。一旦我们有了这个值&#xff0c;我们在音频和视频失去同步的时候应该做些什么呢&#xff1f;简单而有点笨的办法是试着用跳过正确帧或者其它的方式来解决。作为一种替代的手段&#xff0c;我们会调整下次刷新的值&#xff1b;如果时间戳太落后于音频时间&#xff0c;我们加倍计算延迟。如果时间戳太领先于音频时间&#xff0c;我们将尽可能快的刷新。既然我们有了调整过的时间和延迟&#xff0c;我们将把它和我们通过frame_timer计算出来的时间进行比较。这个帧时间frame_timer将会统计出电影播放中所有的延时。换句话说&#xff0c;这个frame_timer就是指我们什么时候来显示下一帧。我们简单的添加新的帧定时器延时&#xff0c;把它和电脑的系统时间进行比较&#xff0c;然后使用那个值来调度下一次刷新。这可能有点难以理解&#xff0c;所以请认真研究代码&#xff1a;

void video_refresh_timer(void *userdata) {

 

  VideoState *is &#61; (VideoState *)userdata;

  VideoPicture *vp;

  double actual_delay, delay, sync_threshold, ref_clock, diff;

 

  if(is->video_st) {

    if(is->pictq_size &#61;&#61; 0) {

      schedule_refresh(is, 1);

    } else {

      vp &#61; &is->pictq[is->pictq_rindex];

 

      delay &#61; vp->pts - is->frame_last_pts;

      if(delay <&#61; 0 || delay >&#61; 1.0) {

 

    delay &#61; is->frame_last_delay;

      }

 

      is->frame_last_delay &#61; delay;

      is->frame_last_pts &#61; vp->pts;

 

 

      ref_clock &#61; get_audio_clock(is);

      diff &#61; vp->pts - ref_clock;

 

 

      sync_threshold &#61; (delay > AV_SYNC_THRESHOLD) ? delay : AV_SYNC_THRESHOLD;

      if(fabs(diff)

    if(diff <&#61; -sync_threshold) {

      delay &#61; 0;

    } else if(diff >&#61; sync_threshold) {

      delay &#61; 2 * delay;

    }

      }

      is->frame_timer &#43;&#61; delay;

 

      actual_delay &#61; is->frame_timer - (av_gettime() / 1000000.0);

      if(actual_delay <0.010) {

 

    actual_delay &#61; 0.010;

      }

      schedule_refresh(is, (int)(actual_delay * 1000 &#43; 0.5));

 

      video_display(is);

 

 

      if(&#43;&#43;is->pictq_rindex &#61;&#61; VIDEO_PICTURE_QUEUE_SIZE) {

    is->pictq_rindex &#61; 0;

      }

      SDL_LockMutex(is->pictq_mutex);

      is->pictq_size--;

      SDL_CondSignal(is->pictq_cond);

      SDL_UnlockMutex(is->pictq_mutex);

    }

  } else {

    schedule_refresh(is, 100);

  }

}

我们在这里做了很多检查&#xff1a;首先&#xff0c;我们保证现在的时间戳和上一个时间戳之间的处以delay是有意义的。如果不是的话&#xff0c;我们就猜测着用上次的延迟。接着&#xff0c;我们有一个同步阈值&#xff0c;因为在同步的时候事情并不总是那么完美的。在ffplay中使用0.01作为它的值。我们也保证阈值不会比时间戳之间的间隔短。最后&#xff0c;我们把最小的刷新值设置为10毫秒。

&#xff08;这句不知道应该放在哪里&#xff09;事实上这里我们应该跳过这一帧&#xff0c;但是我们不想为此而烦恼。

我们给大结构体添加了很多的变量&#xff0c;所以不要忘记检查一下代码。同时也不要忘记在函数streame_component_open中初始化帧时间frame_timer和前面的帧延迟frame delay&#xff1a;

    is->frame_timer &#61; (double)av_gettime() / 1000000.0;

    is->frame_last_delay &#61; 40e-3;

 

同步&#xff1a;声音时钟

 

现在让我们看一下怎样来得到声音时钟。我们可以在声音解码函数audio_decode_frame中更新时钟时间。现在&#xff0c;请记住我们并不是每次调用这个函数的时候都在处理新的包&#xff0c;所以有我们要在两个地方更新时钟。第一个地方是我们得到新的包的时候&#xff1a;我们简单的设置声音时钟为这个包的时间戳。然后&#xff0c;如果一个包里有许多帧&#xff0c;我们通过样本数和采样率来计算&#xff0c;所以当我们得到包的时候&#xff1a;

 

    if(pkt->pts !&#61; AV_NOPTS_VALUE) {

      is->audio_clock &#61; av_q2d(is->audio_st->time_base)*pkt->pts;

    }

然后当我们处理这个包的时候&#xff1a;

 

      pts &#61; is->audio_clock;

      *pts_ptr &#61; pts;

      n &#61; 2 * is->audio_st->codec->channels;

      is->audio_clock &#43;&#61; (double)data_size /

    (double)(n * is->audio_st->codec->sample_rate);

一点细节&#xff1a;临时函数被改成包含pts_ptr&#xff0c;所以要保证你已经改了那些。这时的pts_ptr是一个用来通知audio_callback函数当前声音包的时间戳的指针。这将在下次用来同步声音和视频。

现在我们可以最后来实现我们的get_audio_clock函数。它并不像得到is->audio_clock值那样简单。注意我们会在每次处理它的时候设置声音时间戳&#xff0c;但是如果你看了audio_callback函数&#xff0c;它花费了时间来把数据从声音包中移到我们的输出缓冲区中。这意味着我们声音时钟中记录的时间比实际的要早太多。所以我们必须要检查一下我们还有多少没有写入。下面是完整的代码&#xff1a;

double get_audio_clock(VideoState *is) {

  double pts;

  int hw_buf_size, bytes_per_sec, n;

 

  pts &#61; is->audio_clock;

  hw_buf_size &#61; is->audio_buf_size - is->audio_buf_index;

  bytes_per_sec &#61; 0;

  n &#61; is->audio_st->codec->channels * 2;

  if(is->audio_st) {

    bytes_per_sec &#61; is->audio_st->codec->sample_rate * n;

  }

  if(bytes_per_sec) {

    pts -&#61; (double)hw_buf_size / bytes_per_sec;

  }

  return pts;

}

你应该知道为什么这个函数可以正常工作了;)

 

这就是了&#xff01;让我们编译它&#xff1a;

gcc -o tutorial05 tutorial05.c -lavutil -lavformat -lavcodec -lz -lm&#96;sdl-config --cflags --libs&#96;

最后&#xff0c;你可以使用我们自己的电影播放器来看电影了。下次我们将看一下声音同步&#xff0c;然后接下来的指导我们会讨论查询。



转:https://my.oschina.net/u/555002/blog/79324



推荐阅读
  • 在Android平台中,播放音频的采样率通常固定为44.1kHz,而录音的采样率则固定为8kHz。为了确保音频设备的正常工作,底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时,需要通过重采样(resample)技术来调整采样率,以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 深入解析C语言中结构体的内存对齐机制及其优化方法
    为了提高CPU访问效率,C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制,并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用,从而提升程序性能。 ... [详细]
  • 使用 ListView 浏览安卓系统中的回收站文件 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • MATLAB字典学习工具箱SPAMS:稀疏与字典学习的详细介绍、配置及应用实例
    SPAMS(Sparse Modeling Software)是一个强大的开源优化工具箱,专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB,提供了丰富的算法和函数,适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例,帮助用户更好地理解和使用这一工具箱。 ... [详细]
  • 本文详细介绍了在 Android 7.1 系统中调整屏幕分辨率和默认音量设置的方法。针对系统默认音量过大的问题,提供了具体的步骤来降低系统、铃声、媒体和闹钟的默认音量,以提升用户体验。此外,还涵盖了如何通过系统设置或使用第三方工具来优化屏幕分辨率,确保设备显示效果更加清晰和流畅。 ... [详细]
  • 经过两天的努力,终于成功解决了半平面交模板题POJ3335的问题。原来是在`OnLeft`函数中漏掉了关键的等于号。通过这次训练,不仅加深了对半平面交算法的理解,还提升了调试和代码实现的能力。未来将继续深入研究计算几何的其他核心问题,进一步巩固和拓展相关知识。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 本文探讨了基于点集估算图像区域的Alpha形状算法在Python中的应用。通过改进传统的Delaunay三角剖分方法,该算法能够生成更加灵活和精确的形状轮廓,避免了单纯使用Delaunay三角剖分时可能出现的过大三角形问题。这种“模糊Delaunay三角剖分”技术不仅提高了形状的准确性,还增强了对复杂图像区域的适应能力。 ... [详细]
  • 在尝试对 QQmlPropertyMap 类进行测试驱动开发时,发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的,需要进一步研究以找到解决方案。 ... [详细]
  • 本文提出了一种基于栈结构的高效四则运算表达式求值方法。该方法能够处理包含加、减、乘、除运算符以及十进制整数和小括号的算术表达式。通过定义和实现栈的基本操作,如入栈、出栈和判空等,算法能够准确地解析并计算输入的表达式,最终输出其计算结果。此方法不仅提高了计算效率,还增强了对复杂表达式的处理能力。 ... [详细]
  • 属性类 `Properties` 是 `Hashtable` 类的子类,用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入,支持字符串类型的键和值。通过 `Properties` 类,开发者可以方便地进行配置信息的管理,确保应用程序的灵活性和可维护性。此外,`Properties` 类还提供了加载和保存属性文件的方法,使其在实际开发中具有较高的实用价值。 ... [详细]
  • 本文介绍了一种利用Dom4j库和JFileChooser组件在Java中实现XML文件自定义路径导出的方法。通过创建一个Document对象并设置根元素,结合JFileChooser选择目标路径,实现了灵活的XML文件导出功能。具体步骤包括初始化Document对象、构建XML结构以及使用JFileChooser选择保存路径,确保用户能够方便地将生成的XML文件保存到指定位置。 ... [详细]
  • 在Android开发中,通过调用系统内置的音频和视频播放功能,可以实现高效、便捷的多媒体处理。本文将详细介绍如何利用Android系统的媒体播放器组件,实现对音频和视频文件的播放控制,包括基本的播放、暂停、停止等操作,以及如何处理播放过程中的各种事件,确保应用的稳定性和用户体验。 ... [详细]
author-avatar
聪头丶_505
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有