Skip to content

使用AI分析大表格数据

Published: at 02:08

使用AI分析大表格数据:从3万字的用户咨询中找出用户最关心的问题

Table of contents

Open Table of contents

背景

AI 正在改变我们的工作方式,曾经需要大量人力的任务,现在可能只需要一句话就能完成。

📊 数据概览

  • 总咨询记录:3046
  • 总字符数:37124 个字
  • 分析目标:提取用户真实问题并进行深度分类

最近有需求分析一张 37124 个字的超大表格,里面是用户一段时间咨询的问题,一共有 3046 条客户咨询,包含了很多杂七杂八的语气词、问候语、简单的回答等,这些都没有分析价值,不是用户真正的问题

分析挑战

传统的客户问题分析方法存在显著痛点:

使用AI进行数据分析

现在靠AI,来review所有的内容,并将问题归类,判断头部问题是哪些,发现用户最关心的问题。

具体实操

首先,你需要编写 “提示词”

在AI的世界中,你是驾驶员,你需要下发指令让它为你工作, 指令就是提示词。

俗话说:“一将无谋,累死千军”,纵使AI模型的能力很重要,但是如果你的提示词写的不够好,也无法完全发挥模型的最高水平。

提示词编写

我的目标是想让AI帮我分析客户问题,那就要明确你要做的事情。

你是一家专注于XXX公司的客户服务分析员,请对大量用户反馈的问题进行深度分析和分类,以便公司优化客户服务策略和产品体验。

# 分析要求:
1. 解析每一行的问题,判断这一行内容是否是 用户问题,只统计 用户的真实问题,非问题则不做统计,算作其他
2. 将相同的问题归类到一起,统计每个问题出现的次数。
3. 忽略无关内容(如是的、评价、OK、谢谢、你好、等非实际问题)。
4. 要求必须对每一行进行分析,输出全量的统计结果。

# 输出格式:
| 相似问题         | 出现次数 | 占比   | 优先级  | 包含问题示例(展示10条原始问题)|  

# 用户问题列表:
{....}

坦然,我写的提示词并不算精巧,比起很多专家来说,我这只能算基础。

一个好的提示词是能明确要做的事情、要做的步骤、输出的格式、并根据AI的反馈不断进行迭代来完成的

顶流 - ChatGPT

提示词写好了,就该找一个趁手的AI模型 来实战了!

首当其中我选择了AI模型的 “顶流” - ChatGPT,我几乎每天都在使用ChatGPT, 他也是大家普遍认为 "综合水平最强" 的AI模型,我几乎每天都在工作和生活中使用它,多数情况它的表现我还是满意的,这也让我形成了使用它的惯性思维。

我对ChatGPT的期望很高,但是它这一次却让我失望了。

当我将内容通过文本复制给它时,它提示:字数过长,无法发送!

好吧,还好我可以选择上传文档,Thanks god!

当我将用户问题通过文档形式上传,并将提示词发送给它后,它的回复是这样的: ChatGPT Answer

OMG! 这不是顶流该有的水平!

我又重新发了一遍要求,它的回复是这样的 ChatGPT Answer

它并没有按照我的要求输出,也明显没有看完每一行,只是犯了每一个AI都会犯的错误,说着看似正确但毫无用处的废话。

显然ChatGPT 败下阵来。

新秀 - Claude

Claude在代码编写领域 甚至超越了ChatGPT, 可谓是新秀黑马,我对他的印象也很不错,因为我每天都会写代码。

可惜,它直接超长不让回答🤐

国产口碑最佳 - 豆包

2024年字节跳动研发投入接近BAT之和。截至2024年11月,豆包App月活跃用户达6000万,仅次于ChatGPT。

豆包是我身边的人中口碑最佳的App,也是AI模型品牌面对中国普通用户的最强的App。看起来也是最有钱的一家大科技公司了,毕竟抖音是躺着赚钱。

我将 问题的附件 和 提示词发给了它,它给了我惊喜!

它真的像ChatGPT一样(最初的),会按照我的需求自动编写Python脚本,直接运行解析我的表格数据,看起来很像个样子!它的输出是这样子的: 豆包回答 但是,它有两个致命的问题。

Sadly,豆包也没有很好的完成任务!

最佳方案 - WindSurf

WindSurf 并不是一家底层AI模型公司,而是AI应用的一个很好案例,简单来说,它是一个AI代码编辑器。是程序员最佳的编码利器,你可能知道Cursor,但是我跟偏爱WindSurf,因为它更舍得使用Token.

WindSurf的一大优点就是在处理大量文本上,很擅长。因为本身就是做代码生成的,正常情况一个项目都有几千行代码,所以更擅长更长token打交道。

我这3.7万个字,对它来说只能算 中等水平🤔。

直接将提示词和用户问题丢给它,它没有给我编写Python处理,也没有给我打哈哈,敷衍我,而是直面我的问题! WindSurf Answer 以下是找ChatGPT格式化后的内容 Formated by GPT

这就是我想要的,它直接找到了重点,哪一类问题是用户最关心的? 它告诉了我占比和用户数,说明它看完了每一行用户的问题,是那种语义分析并归纳后的结果,并将用户的原始问题,放在了最后一列让我参考。

这还不够,我想下探 让它把所有的原始问题都输出给我,剔除掉没用的语气词和不重要的内容。 WindSurf Answer

它一口气输出了20个,并说完整列表会非常长,是不是要继续提取!? 这比偷懒的ChatGPT和豆包好太多了,在这个场景下,真是完爆了🤩 WindSurf Answer

它一口气输出了一百多个问题给我,太够意思了。

这还不够,我想让它按照 刚刚给我汇总的分类,下探出原始问题

我重新发送了提示词给它 提示词

它给我的回复很好,按刚刚的泪目 找到了具体的问题: 回答

总结

试用了主流大语言模型,最终WindSurf解决了我的问题。

目前大语言模型的竞争非常激烈,经过2年的发展,已经不再是ChatGPT一家独大了,但是论综合水平,OpenAI的确还是最强的。

AI模型选择指南

如果你是一名程序员,我更推荐:Claude, 它在代码生成领域非常强。

如果你想让AI深度帮你写代码,那推荐WindSurf, 它直接为你的整个项目建立索引,同时也内置了 Claude和GPT 4o等高端模型。

如果你在国内,并看好字节系App里的内容,那更推荐豆包,回答日常问题它也挺强的。

其他情况,我跟推荐ChatGPT, 免费使用GPT 4o, 同时提供图片识别的能力。你甚至在生活中遇到什么难题,都可以拍照问他,多数情况还是挺靠谱的。

关键是找到适合自己的AI工具,并持续优化提示词策略!