Posted in: 未分类
SEM | 如何将机器学习应用到大规模SEM账户中(下)
人工智能研究杂志
人工智能研究杂志覆盖了人工智能领域,并且在互联网上免费刊出。这一杂志的每一专栏都由摩根·考夫曼出版。
右侧:(数字为出现次数)
0 学习
3 杂志
2 智能
0 文案
1 网络
0 网络监控
0 脚本语言5
………
1 专栏
注释:在实践中,由于我们的“文案”(也就是关键词)很短,我们能够得到的矢量数据也由于缺少了多样性而不够有意义,但是如果跳出了这一文章的范围,就能够挖掘其更深刻的意义。
选择合适的计算方法
对于各式各样不同类型的问题,也会有各式各样不同的计算方法。下面这幅图告诉我们在实际应用中如何选择合适的模型,并向我们展示了做出一项合适的选择背后隐藏着怎样既定的逻辑。
由于本文一直讨论的是文本(关键词短语)分类,所以通过实践“贝斯模型”来看看这一方法是不是有潜力。往往简单的模型也会有很好的效果。
本文不会详细描述如何应用这一模型,而是分享如何将上图中的方法进行应用——这也是我想要说明“利用机器学习对大量编码进行预测是可以实现的“的原因。
以下是一些关键步骤:
- 准备好建模需要的数据(将约2万个关键短语进行提前分类)
- 将数据划分为训练所需与测试所需的子集(这是非常必要的,这样我们才能够测试出我们的模型将会确切地预测出未来的数据,而不仅仅是描述历史数据)
- 创造基本的传递途径:一来可以创造出讨论得出的特征(CountVectorizer),二来可以应用已选择的方法(MultinomialNB)
- 预测“测试”设置的价值,并测算这一标签相对于“真实”价值的准确程度
结论
所以,机器学习到底有多高效呢?上述案例的结果:通过使用简单的工具测定其准确性,这一方法准确分类了91%的“新”关键词短语(4869个关键词短语中的4431个)。
看起来虽然测试结果相当不错,但我们将这一模型投入实践之前还是要做很多微调与测试。
测试证据表明,机器学习为企业提供了一个相关的途径,能够帮助他们提升并自动化关键词投放这一进程,通过做出令人信赖的、可重复的决定来大规模提高效率。(就像开篇所说的那样)