YouTube首席执行官尼尔·莫汉(Neal Mohan)近日在接受媒体采访时,就OpenAI旗下文本生成视频AI模型Sora的训练数据问题发表看法。莫汉虽然没有直接证据表明OpenAI使用了YouTube视频进行模型训练,但他明确指出,这种行为若属实,将违反YouTube的现行平台服务条款。
莫汉强调,创作者在YouTube平台上上传视频时,享有特定的权益和期望,其中包括对视频内容的合理使用和保护。根据YouTube的服务条款,未经授权下载视频或视频片段用于其他目的,尤其是用于训练AI模型,是明确禁止的。莫汉进一步表示,这种违规行为违背了创作者与YouTube之间建立的服务协议和信任关系。
值得注意的是,虽然莫汉对OpenAI的行为表示担忧,但他也承认了YouTube的母公司谷歌在培训自家AI模型Gemini时使用了YouTube上的内容。他强调,谷歌在使用这些内容之前,已经获得了创作者的授权,并严格遵守了与创作者之间的合同协议。这一表态似乎也在暗示OpenAI在利用YouTube视频进行模型训练时,并未遵循类似的授权和合规流程。
OpenAI方面对于Sora模型的训练数据来源一直保持较为模糊的态度。公司首席技术官Mira Murati在接受采访时,对于是否使用了YouTube视频作为训练数据的问题并未给出明确答复,只是表示如果视频是公开可用且合法的,那么可能会被纳入训练集,但她本人对此并不确定。
此次事件引发了关于AI模型训练数据使用合规性的广泛讨论。随着人工智能技术的快速发展,AI模型的训练数据来源和使用方式成为业界关注的焦点。如何确保训练数据的合法性、尊重创作者权益,以及遵循相关法规和行业规范,将是未来AI技术发展面临的重要挑战。
YouTube作为全球最大的视频分享平台之一,其对于内容版权和数据使用的态度具有广泛的影响力。莫汉的表态无疑向业界传递了一个明确的信息:任何未经授权使用YouTube视频进行AI模型训练的行为,都将受到平台的严厉打击。
对于OpenAI而言,如何在追求技术创新的同时,确保合规使用训练数据,将是其未来发展中需要认真考虑的问题。同时,这也提醒了其他AI企业和研究机构,在利用公开数据进行模型训练时,必须尊重原始数据的版权和隐私,遵循相关法规和行业规范,以实现可持续和负责任的AI发展。