Postlar filtri


琼瑶去世……


CodeTree: 基于 Agent 引导的树状搜索方法优化 LLM 代码生成

「来自 Salesforce AI 研究院的论文,提出了 CodeTree 代码生成框架,通过构建树状搜索结构并配合四个专门的 AI Agent (思考者、解决者、调试者、评判者) 协同工作,显著提升了 LLM 在代码生成任务中的表现,尤其在处理复杂编程问题时更具优势」

论文主要创新点在于:

1. 采用树状结构进行代码生成探索:
- 树的根节点是问题描述
- 每个子节点代表一个可能的代码解决方案
- 通过广度优先或深度优先搜索来探索不同的解决方案

2. 引入了四个专门的 AI Agent:
- Thinker(思考者): 负责生成解决问题的高层策略
- Solver(解决者): 根据策略实现具体代码
- Debugger(调试者): 根据反馈改进代码
- Critic(评判者): 评估代码质量, 引导搜索方向

主要优势:

性能出色:
- 在 HumanEval 达到 95.1% 的准确率
- 在 MBPP 达到 98.7% 的准确率
- 在竞赛级别的 CodeContests 达到 43.0% 的准确率

搜索效率高:
- 即使在较小的生成预算(少于9个样本)下也能达到不错的性能
- 通过 Critic 代理的引导避免了无效的搜索路径

灵活性强:
- 可以动态决定探索的策略数量
- 能够根据问题难度调整搜索深度和广度
——————————————————————————
#广告→ 渗透接单中心:@shanding007




Hands-On Large Language Models:该存储库包含《动手大型语言模型》一书中的完整代码示例。包括笔记本示例,涵盖从语言模型介绍到微调的所有内容。


Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Dozzle 实时查看Docker container 当中的 logs,Web 界面友好,搜索功能强大,还有比较多的高级功能


系统设计四个支柱


问卷调研平台:xiaoju-survey

这是一款免费且专业的调研系统,旨在为个人和企业提供一站式产品级的调研解决方案。它前后端均已开源,并支持 Docker 一键部署,内置了多种题型和模版,支持逻辑编排、自定义品牌、权限管理、数据分析和导出等功能,可用于创建问卷、考试、测评和复杂表单。


LLMs Interview Questions:收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。内容涵盖LLMs基本原理、Transformer架构、注意力机制、预训练与微调等核心知识点,附带详细解答和代码示例


MasteringRAG:一个全面的企业级RAG系统教程项目,涵盖从入门到精通的完整知识体系。包括文档问答、检索优化、评估方法、Agent实现等多个模块,提供详细的实践示例和优化方案,帮助开发者构建高质量的RAG应用


专为AI Agent设计的开源浏览器API框架,通过REST API提供无头浏览器控制能力。特色功能包括:会话状态管理、代理IP轮换、反检测机制、Chrome扩展支持、内置调试工具等。支持三种使用方式:Quick Actions API用于简单网页操作、Browser Sessions API实现复杂工作流、Selenium集成支持传统自动化迁移,完美适配网页自动化、数据采集和AI交互场景

Steel Browser | #框架


wasmVision:一个基于WebAssembly的计算机视觉处理引擎,提供高性能视觉处理能力。

可以捕获摄像头、视频文件或流媒体的画面,通过WebAssembly进行处理并输出。

支持Go、Rust、C语言开发处理器模块,内置多个现成的处理器如人脸检测、图像模糊、神经风格迁移等


开源版Google Notebook LM的替代方案,注重隐私保护的智能笔记工具。支持多笔记本管理、多AI模型(OpenAI/Anthropic/Gemini等)、播客生成、多格式文件导入(PDF/EPUB/Office等)、AI辅助笔记生成、全文和向量搜索等功能,让用户完全掌控自己的研究工作流。

Open Notebook | #笔记工具 #工具


Unbug:Rust编程语言的断点调试工具箱,提供方便的宏来实现编程断点,可帮助开发者捕获调试过程中的错误。

支持x86/x86_64/ARM64架构,具有条件断点、错误日志记录等功能,默认不编译断点代码以避免影响生产环境


一个开源的AI推理引擎框架,支持多种强大功能:逐步推理、基于记忆的规划、多智能体混合决策、束搜索、自我反思等。兼容所有支持函数调用的OpenAI兼容接口,内置Python解释器、网页搜索、Wolfram Alpha等工具,可用于构建复杂的AI推理系统。

OpenReasoningEngine | #框架


Awesome-LLM-as-a-judge:一个关于LLM作为评判器的综合资料库,收集整理了大语言模型在评判任务中的应用研究,涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度,以及相关方法论和评估基准


跨平台的屏幕共享工具,支持Mac、Windows和Linux系统。采用点对点(P2P)连接技术,无需账户注册和服务器基础设施(仅需基本的stun/turn/信令服务器用于初始连接)。特点是使用简单、即装即用,适合远程协作和结对编程等场景

Bananas | #工具


小迪安全明天结束优惠,上车抓紧。联系 @ashbur_bot


Rare Big Deal:一个收集和分享各类软件和应用特惠信息的开源项目,主要聚焦于开发工具、Mac应用、生产力工具、设计工具等Black Friday和Cyber Monday期间的限时优惠


Awesome-Bluesky:一个全面的Bluesky平台工具资源汇总列表,收录了大量与Bluesky相关的实用工具,包括数据统计分析、Feed管理、迁移工具、帖子管理、替代客户端等多个分类。对于想要深入使用Bluesky的用户来说是一个非常有价值的参考资源 | #工具


llm_client:一个用Rust开发的本地LLM接口工具,支持多平台(Mac/Windows/Linux)的CPU和GPU运行。特色是提供了级联提示工作流(Cascading Prompt Workflow)系统,能将LLM的概率性输出转换为确定性信号,大幅提高输出可靠性。支持自动构建、简单的模型预设、灵活的配置选项以及多种API集成 | #工具

20 ta oxirgi post ko‘rsatilgan.