可以通过在共享文档中严格定义所有类别来避免一致性问题,并提及每个边缘情况(如上面的情况)应该属于哪个类别。 清理数据 机器学习中的分类算法通过拾取训练数据中的信号并“学习”这些信号出现的模式来工作。在客户对话中,信号是客户在提出问题时使用的词语。为了使算法高效,大多数信号(词语)必须与问题的whatsapp 号码数据含义相关。添加不相关的词语,算法就会拾取错误的信号。这是您在训练示例中要避免的噪音。 当您从过去与客户的对话中获取训练数据时,很容易包含噪音。例如,一张票可能包含客户问题的措辞,但也包含与您的类别无关的额外句子和行,而且大多数都毫无意义。
这些示例包括电子邮件签名
地址、免责声明、自动消息等。这就是为什么您确定内容类型和格式不能只拿一组由您的代理标记的对话并将它们扔给机器学习算法的原因。无论算法有多好,它都会失败。 在构建训练数据时,请确保尽可能避免噪音。捕捉类别的完整含义。 多样化数据 我们之前已经看到,人们可以用很多不同的方式来表达同一个问题。都几乎不可能凭记忆想出所有变体。您可以通过获取并使用客户与客服人员之间的历史对话(例如电子邮件、聊天记录或语音记录)来克服这一问题。
不要试图猜测客户可能会使用
什么短语来提问,而是看看他们过去使用过哪些短语来问同样的问题。 历史数据已在您的帮助台中提供。您可以通过阅读那里的对话、将数据导出到 Excel 或使用客户支持分析和自动化应用程序来查找这些短语,该应用程序会加载、索引和标记历史对话,使其可供搜索和探索。 大数据 一般来说,训练数据越多越好。另一方面,建全部100立每个类别的示例是一项手动任务,并且非常耗费资源,因此您可以获得的数据量是有限的。 虽然高性能算法(如深度神经网络)需要大量的训练数据才能开始,但应用于人类语言的最新一代深度学习算法使从更少的数据开始成为可能。