分类目录归档:思考

如何写好AI Promopt | 提示词

https://developers.openai.com/api/docs/guides/prompt-guidance

核心提示模式:

  1. 保持输入内容清晰明了,结构清晰:API中有<output_contract>参数来控制输入的合约。控制模型输出的内容量和输出的结构。
  2. 为后续行动设定明确的默认值:
    1. 明确定义何时执行操作、何时询问以及新指令如何覆盖之前的默认设置。
    2. 指导原则: 当对话过程中指令发生变化时,更新内容应明确、范围清晰且仅限于特定区域。说明哪些内容发生了变化,哪些内容仍然适用,以及该变化是否影响下一轮对话或剩余的对话。
  3. 处理对话过程中的指令更新:使用明确的、有针对性的引导消息。
  4. 如果正确性依赖于工具,需要持久使用:
    1. 输入先决条件、进行依赖关系检查和明确工具的用途。
    2. 当工作彼此独立且耗时较短时,建议并行执行;当依赖关系、歧义或不可逆操作比速度更重要时,建议顺序执行。
  5. 长周期任务的完备性:
    1.  常见的故障模式是执行不完整:模型在部分覆盖后即结束,漏掉批次中的项目,或者将空检索或范围过窄的检索结果视为最终结果
    2. 明确完成的规则,如果结果返回为空或者不完整,不要立即给出结论,需要做检查
  6. 在执行高影响操作之前,添加验证循环:
    1. 在返回答案或者执行不可逆操作之前,添加一个轻量级的验证步骤
    2. 对于主动采取行动的代理,添加一个较短的执行验证流程

特定工作流程:

  1. 视觉应用需要明确图片的细节参数:<detail>: low high original auto
  2. 对引用有要求,需要明确范围和格式:使用内联引用或者脚注,保持一致性
  3. 研究模式:用于研究、评论和综合任务
  4. 严格限制输出格式:
    1. SQL、Json,需要告知模型输出,并在完成之前进行检查
    2. 提取文档或者OCR,需要定义坐标系并添加漂移检查
  5. 编码和终端工具中,需要明确使用边界
  6. 编码任务:
    1. 高风险变更需要一个轻量的验证机制
    2. 在关键节点需要进行状态持续更新
    3. 格式化:可能过度使用结构化形式。如果需要简洁需要限制
    4. 前端任务:需要额外的前端任务指导,可以使用<frontend_tasks>
    5. 长时间运行和工具繁重的任务,运行状态需要维持,使用phase参数、previous_response_id
    6. 压缩技术可以显著延长有效上下文窗口:<Compaction>。在主要里程碑事件后进行压缩,压缩后的内容视为不透明状态,确保压缩后提示的功能完全相同
    7. 用户工作流的个性化:持久个性化和每次控制分离
      1. <Personality>(持续):决定整个会话的默认基调、语速和决策风格
      2. <Writing controls>(每轮对话回复):定义特定对话的渠道、风格、格式和长度
      3. 提醒:任务特定的输出要求会覆盖Personality
      4. 写出自然流畅高质量的有效控制手段:清晰的人物形象、指明渠道和表达风格、写散文则不限制格式、使用严格的长度限制
    8. 专业备忘录格式:用于备忘录、评论、专业写作。memo_mode。
      1. 需要明确的指导,包括措辞的精确性、领域惯例、综合分析以及恰当的表达方式。
      2. 对于法律、政策、研究和面向高管的写作尤其有用,包含严谨的推理和清晰的结论。

推理程度:

  1. 推理程度是最后的微调手段,不是提升质量的主要途径
    1. none:速度快、成本敏感、对延迟敏感的任务,不需要思考
    2. low:少量思考可以显著提升准确率
    3. medium / high:用于真正需要更强推理能力且能够承受延迟和成本权衡的任务
    4. xhigh:适合耗时较长、需要大量自主决策和推理的任务。智能优先级高于成本和速度
  2. 在增加推理程度前,先尝试<completeness_contract>、<verification_loop>、
    <tool_persistence_rules>

其他模型:

  1. gpt-5.4-mini:假设更少、适合任务结构清晰。默认会尝试通过后续问题来继续对话
    1. 关键规则放在首位
    2. 使用工具需要指定执行顺序
    3. 不只是依赖“You Must”,使用结构化的辅助工具,例如编号的步骤、决策规则和明确的行动定义
    4. 将“执行操作”与“报告操作”分开
    5. 展示正确的流程,而不仅仅是最终格式
    6. 明确定义歧义行为:何时询问、何时回避、何时继续
    7. 直接指定包装:答案长度、是否提出后续问题、引用格式和章节顺序
    8. 注意不要使用 output nothing else 。最好使用作用域明确的指令,例如 after the final JSON, output nothing further
  2. gpt-5.4-nano:范围狭窄、界限明确的任务。优先选择封闭式输出:标签、枚举、简短的 JSON 或固定模板。
    1. 默认模式:task、Critical rule、Exact step order、Edge cases or clarification behavior、Output format、One correct example
    2. 避免:隐含的后续步骤、未指定的极端情况、仅包含架构的工作流、无结构的通用指令

Best practices for prompt engineering with the OpenAI API

  1. 使用最新最强的模型。
  2. 将提示和需要处理的目标对象分离:可以使用###或者是””””来明确目标对象。
  3. 请尽可能具体、详细地描述所需的内容,包括预期结果、长度、格式、风格等等。
  4. 通过示例阐明所需的输出格式。
  5. 先尝试零样本,然后尝试少样本,都不成功,最后进行微调。
  6. 减少“空泛”和不精确的描述
  7. 别说不要做什么,说应该做什么。
  8. 代码生成专用 – 使用“引导词”来引导模型朝着特定模式发展
    1. 例如python使用“import”,sql使用“select”
  9. 使用“生成任何内容”功能
  10. 需要适配的参数:模型、temperature、max_completion_tokens、stop
    1. temperature:越高越不稳定和有创意,要求事实性的场景使用0更稳定
    2. stop:如果生成了相关内容,就直接停止生成

 

 

OpenAI最新的模型:https://developers.openai.com/api/docs/models

https://developers.openai.com/cookbook/examples/gpt-5/prompt_personalities

 

AI的核心作用是降低预测的成本-Prediction Machines

花3天阅读了这本书,对于AI的影响的经济学的视角很有价值的一本书,在没有chatgpt之前就写出了之后丰富的观点和判断。

目前AI的影响力比书中写的会变得更大,特别是自动化的方向上,已经涌现出来了很多有意思的产品。AI也正在消耗大量的token和算力。使用AI可以满足人的各种需求,无论是娱乐还是心理咨询,又或者是工作,AI都开始重度参与。

AI对于人类社会未来的改变将是巨大的,在今天去看的话,将来通过智能去推动社会进步的,比如发现新药、论证新的定理、创造新的商业公司,可能主要干活的是AI,人类更多的是辅助。

图一:AI系统的循环图

图二:AI项目的画布(基于图一)

图三:工作流

核心论点:

  1. AI的核心变化是降低预测的成本,提升了预测的准确度
  2. 判断AI项目成立,需要考虑的:
    1. AI的能力能否支持该项目(准确度、速度、成本)
    2. 数据是否充分(训练用数据、预测用数据、反馈用数据;项目间差异大,数据随数量增多价值会先增加后下降)
    3. 目标是否明确(清晰指标、模糊动态目标)
    4. 人工的介入程度(主导、辅助、无人工)
    5. 效果如何优化(监督训练标注、反馈、无监督训练)
    6. 相关的成本分析和收入预测
  3. AI和人的关系在互利共生:
    1. 能够部分替换原有的需要人工的工作,也可以加速人的工作,也可能发生工作岗位重组、改变特定工作所需技能和关注方向
    2. 事前预测,辅助人工进行判断;事后预测,形成对于人的动作的监控
    3. 人工和AI的约哈里视窗:已知已知(机器主导)、已知未知(人工主导)、未知已知(无法判断)、未知未知(可能出现逆向因果错误)。
    4. AI可以降低人的决策的压力和风险程度,从而改变人的决策。但无法承担决策的后果。
  4. 决策流程循环画布:输入、判断、预测、行动、结果、反馈、训练。其中输入、训练、反馈都是数据
    1. AI目前的能力在于基于输入进行预测,人类进行判断。随着准确度的提升,人类可以移交判断权利给AI,成为决策自动化。人类的判断力可以发现更多的奖励机制,奖励机制会变得更加重要。如果进一步机器还可以执行行动,那么就变成了完全自动化
    2. 缺乏有效预测,目前采用的是“满意原则”,基于现有的信息做出“足够好”的决策,而非最优解。而原来是因为预测能力不足而默认选择的选项可以重新考虑调整
      1. 例如机场的候机室,时间预测准确后没必要停留
      2. 电商预测够准确可以直接寄产品给用户,不需要的再退货
      3. 医学的活检是体验差的侵入检查,但是因为预测不准确而做
    3. 人类具有AI不具备的三种数据:感官很强大、是自身偏好的最终评判者、且隐私问题限制了AI能获取的数据
    4. AI擅长预测常见的、数据量充足的事件,不擅长罕见事件。异常情况下还是需要人来预测和判断。罕见事件目前主要通过AB实验、建模理解来处理。
    5. 预期最有可能实现完全自动化的任务:
      1. 除了预测,其他环节都已经实现自动化,如采矿
      2. 对预测结果快速响应的回报很高,如无人驾驶
      3. 缩短预测等待时间的回报很高,例如太空探索遥控会有时差
      4. 采矿是封闭系统,无人驾驶存在外部性,监管程度会高,监管是潜在的障碍,会需要政策的发展
  5. 典型的决策树:预测不够准确的时候,就需要对应的判断
    1. 预测的结果是A,预测正确概率&收益&损失、预测错误概率&收益&损失
    2. 预测的结果是B,预测正确概率&收益&损失、预测错误概率&收益&损失
  6. 任务是工作流,一系列决策的集合,决策基于预测和判断,以数据为依据,从上到下:工作流→任务→判断→具体工作
  7. 战略变革:
    1. 人工智能降低成本和加强控制存在权衡,受到不确定性的影响。加强预测可以降低冗余和损耗、减少中期调整的成本、人的工作变成判断,对应的是更主观的绩效评估方法。
    2. 数据的所有权和控制权很重要。预测准确和数据强关联。
    3. 人工智能优先会抢占现有的资源,如目前的收入、用户数量和体验。需要打破现在的关系。
  8. 人工智能的风险:歧视、数据稀少导致质量风险、错误输入的欺骗、多样性和个性的权衡、知识产权和盘问攻击、控制AI学习破坏性行为
  9. 举例的行业:金融、天气预测、法律、医学、招聘。提升专业信息的可读性,提供博弈树路径的概率和结果,加速研发迭代的过程