ClipClap
美国
图像处理图像字幕

ClipClap 翻译站点

用剪辑编码器和GPT2的图像字幕

标签:
爱站权重:PC 百度权重移动 百度移动权重

图像字幕是一项复杂的任务,通常使用预告片的检测网络,需要以对象注释的形式进行其他监督。我们提出了一种不需要其他信息的新方法(即仅需要图像和字幕),因此可以应用于任何数据。此外,我们的模型的训练时间比类似方法要快得多,而与最先进的结果相当,即使对于概念字幕数据集则包含3M图像。

在我们的工作中,我们使用剪辑模型,该模型已经对大量图像进行了训练,因此能够在没有其他监督的情况下为任意图像生成语义编码。为了产生有意义的句子,我们将验证的语言模型微调,事实证明,该模型在其他自然语言任务方面取得了成功。关键思想是通过在原始编码上使用简单的映射网络,然后对我们的语言模型进行微调以生成有效的字幕,然后将剪辑编码用作文本字幕的前缀。此外,我们提出了另一个变体,在该变体中,我们利用变压器架构进行映射网络,并避免对GPT-2进行微调。尽管如此,我们的光模型仍然可以通过NOCAPS数据集实现与最新的。

资料来源:https://github.com/rmokady/clip_prefix_caption

原文:

Image captioning is a complicated task, where usually a pretrained detection network is used, requires additional supervision in the form of object annotation. We present a new approach that does not requires additional information (i.e. requires only images and captions), thus can be applied to any data. In addition, our model's training time is much faster than similar methods while achieving comparable to state-of-the-art results, even for the Conceptual Captions dataset contains over 3M images.

In our work, we use the CLIP model, which was already trained over an extremely large number of images, thus is capable of generating semantic encodings for arbitrary images without additional supervision. To produce meaningful sentences we fine-tune a pretrained language model, which has been proven to be successful for other natural language tasks. The key idea is to use the CLIP encoding as a prefix to the textual captions by employing a simple mapping network over the raw encoding, and then fine-tune our language model to generate a valid caption. In addition, we present another variant, where we utilize a transformer architecture for the mapping network and avoid the fine-tuning of GPT-2. Still, our light model achieve comaparable to state-of-the-art over nocaps dataset.

Source: https://github.com/rmokady/CLIP_prefix_caption

数据统计

数据评估

ClipClap浏览人数已经达到90,如你需要查询该站的相关权重信息,可以点击"爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:ClipClap的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找ClipClap的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于ClipClap特别声明

本站GPT 案例导航提供的ClipClap都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由GPT 案例导航实际控制,在2023年3月9日 下午10:34收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,GPT 案例导航不承担任何责任。

相关导航