CISPA亥姆霍兹信息安全中心实证研究支持(ERS)的一个研究团队对最流行的转录服务进行了系统比较。此次比较涉及11家手动转录和人工智能转录提供商。
它表明,尽管质量很好,但后者仍然存在说话者归属问题,并且录音和转录之间存在扭曲含义的差异。OpenAI的WhisperAI在人工智能提供商中取得了最佳成绩。
访谈是收集科学数据的流行方法。定量访谈和定性访谈之间存在基本区别。前者旨在借助标准化问卷从大量参与者那里获取统计上可用的信息,而后者旨在获取可供研究人员解释的访谈数据。
一种特殊的类型是引导式面试,其中有一个准备好的问题清单,但是在面试过程中可以偏离这些问题。CISPA实证研究支持(ERS)团队的社会学家RafaelMrowczynski博士解释说:“在网络安全研究中,这些访谈用于探索通过数字手段操作的行为者的行动模式和解释。”ERS团队就方法问题向中心研究人员提供建议。
将音频文件转换为文本
转录是定性数据分析的关键步骤。“标准程序是将采访录音转换为文本。转录的充分性对于数据质量非常重要,”Mrowczynski解释道。根据科学领域的不同,转录有不同的标准。
“在网络安全研究中,我们通常使用精确再现对话内容的文字记录,”Mrowczynski说。因此,一份足够的文字记录仅包含相关的口语单词。研究人员可以通过两种方式获取成绩单:要么由研究团队自己创建,要么将任务外包给第三方提供商。
在第三方提供商中,除了手动转录之外,最近还对基于人工智能的自动化转录进行了真正的炒作。这是由于过去两年人工智能应用在许多领域经历了指数级飞跃的发展和质量。
CISPAERS团队的研究人员想知道市场上哪家提供商能够实现最佳结果,以及基于人工智能的自动化转录与手动转录相比效果如何。目标是能够为CISPA和网络安全社区的研究人员提供定性访谈的建议。
ERS团队的方法
对于他们的研究项目,Mrowczynski和他的同事MariaHellenthal博士、RudolfSiegel博士和MichaelSchilling博士创建了一个测试数据集。这包括持续约十分钟的个人访谈以及与CISPA研究人员用德语和英语进行的小组讨论。内容重点关注网络安全研究领域。
“重要的是,要包含来自社区的技术术语,以便评估转录的准确性,”Mrowczynski解释道。为了更好地反映日常研究中的真实环境,一些访谈还添加了背景噪音。
这些数据于2022年12月发送给11家提供商。其中包括转录服务Amberscript、GoTranscript、QualTranscribe、Rev和Scribbl,以及基于AI的转录提供商AmazonTranscribe、AssemblyAI、Audiotranskription.de、GoogleCloud、MicrosoftAzure和OpenAI的Whisper。
为了评估获得的转录本,Mrowczynski和他的同事创建了一份参考转录本,作为比较分析的基础。然后分析本身集中于两个中心标准。首先,研究人员评估了单词错误率,它表明转录本与参考转录本有多少单词不同。其次,与参考转录本的定性偏差是手动编码的。
手动转录服务击败人工智能
Mrowczynski和他的同事在论文中得出的结论是,总的来说,“大多数手动转录服务都达到了值得称赞的性能水平,而基于人工智能的服务往往会在记录和转录之间表现出扭曲意义的差异。”
从技术术语上可以清楚地看出意义的扭曲;Mrowczynski解释说:“例如,在文字记录中,‘哈希’一词变成了‘灰烬’。”这就是我们想出这篇论文标题的方式。”
OpenAI的Whisper在基于AI的提供商中取得了最佳成绩。大多数提供商对英语的处理比对德语的处理更好。三个提供商根本不提供德语转录服务。背景噪音通常会对结果产生负面影响。基于人工智能的提供商在演讲者分配方面尤其存在问题。
此外,人工智能创建的记录必须重新格式化,然后才能在软件中进一步处理它们以进行定性数据分析。然而,研究人员指出,他们的分析反映了截至2022年12月的最新技术水平,无法考虑当前的发展。