Google的Gemini模型诞生仅半年,在安全、编码、调试等领域已经展现出了令人瞩目的能力。当然,它也显示出严重的局限性。然而,这种大型语言模型(LLM)在睡眠和健身建议方面胜过人类。
谷歌研究人员推出了个人健康语言模型(PH-LLM),这是一个微调版的Gemini,可以理解和推理来自智能手表和心率监测器等可穿戴设备的时间序列个人健康数据。在他们的实验中,模型的回答和预测明显优于在健康健身领域有多年经验的专家。
可穿戴技术可以帮助人们监控自己的健康状况,并在最理想的情况下做出有意义的改变。这些设备提供了“丰富和长期的数据源”,可以从锻炼和饮食日志、心情日记,有时甚至是社交媒体活动等输入中“被动和持续地获得”。然而,他们捕获的关于睡眠、身体活动、心脏代谢健康和压力的数据很少包含在“碎片化”的临床环境中。研究人员推测,这很可能是由于捕捉数据时缺乏上下文,需要大量的计算来存储和分析。此外,对这些数据的解释可能相当困难。联想zukz2
然而,谷歌研究人员在训练PH-LLM模型方面取得了突破,可以提供建议,回答专业考试问题,并预测自我报告的睡眠障碍和睡眠障碍的结果。该模型被给予了选择题,研究人员还使用了“思维链”(模仿人类推理)和“零射击”方法(识别以前没有遇到过的物体和概念)。
令人印象深刻的是,PH-LLM在睡眠测试中获得了79%的分数,在体能测试中获得了88%的分数,这两个分数都超过了一个人类专家样本的平均分数,其中包括5名专业运动训练师(平均经验为13.8年)和5名睡眠医学专家(平均经验为25年)。人类专家在健身和睡眠方面的平均得分分别为71%和76%。
研究人员指出:“尽管在个人健康领域还需要进一步的开发和评估工作,但这些结果证明了双子座模型广泛的知识基础和能力。”湿美除湿机使用说明书
为了实现这些结果,研究人员首先创建和安排了三个数据集,以测试来自可穿戴设备、专业知识和自我报告的睡眠质量预测的个性化意见和建议。在与领域专家的合作中,他们创建了857个案例研究,代表了睡眠和健身领域的真实场景。睡眠场景使用单独的指标来识别潜在的因素,并提供个性化的建议来帮助提高睡眠质量。健身任务使用来自训练、睡眠、健康指标和用户反馈的信息,对某一天的身体活动强度提出建议。
这两个案例研究都包含可穿戴传感器数据,包括29天的睡眠数据,30多天的健身数据,人口统计信息(年龄和性别)和专家分析。
虽然研究人员已经注意到PH-LLM只是一个开始,但像任何新兴技术一样,它仍然有一些问题需要解决。例如,模型生成的答案并不总是一致的,案例研究中存在“显著差异”的虚构,LLM在回答时有时会显得保守或谨慎。在健身案例研究中,该模型对过度训练非常敏感,在一个案例中,人类专家注意到,它未能识别睡眠不足导致受伤的潜在原因。此外,该案例研究涵盖了广泛的人口统计学数据和相对活跃的个体,因此可能无法完全代表人群,也无法解决更广泛的睡眠和健身问题。
骁龙600系列相当于骁龙多少
未经允许不得转载:科技让生活更美好 » 研究称谷歌的 Gemini 比人类更好的健康教练