25. April 2026 GPT-5.5 vs Claude Opus 4.7: Das Benchmark-Duell im Detail GPT-5.5 Claude Opus 4.7 Benchmarks Vergleich
16. April 2026 Nature-Studie: KI-Agenten scheitern an komplexen wissenschaftlichen Aufgaben KI-Agenten Forschung Stanford Nature Benchmarks
10. April 2026 GLM-5.1: Das Open-Source-Modell, das 8 Stunden autonom arbeitet Open Source GLM Agenten Benchmarks
19. März 2026 DeepMind will AGI messbar machen — und startet einen Hackathon dafuer Google DeepMind AGI Benchmarks Forschung Kaggle