Lmst

Can LLMs reliably evaluate other AI models? Discover how to build fair evaluation systems without burning your tokens—exploring bias, consistency, and cost-effectiveness in automated model assessment.

🔗: https://manthanguptaa.in/posts/llm_as_a_judge/ by Manthan Gupta

#AI #MachineLearning #LLM #Evaluation

The Humanoid Hub (@TheHumanoidHub)

테슬라 AI 책임자 Ashok Elluswamy는 로봇공학에서 고차원성 및 물리 세계 추론 같은 난제가 존재하지만, 가장 어려운 문제는 '평가(Evaluation)'라고 지적했다. 그는 손실(loss)이 정책 신경망(policy neural network) 품질을 완벽히 나타내지 못해 실제 테스트와 평가 방식의 개선이 중요하다고 강조했다.

https://x.com/TheHumanoidHub/status/2020220051056714215

#robotics #evaluation #tesla #policynetworks

Hugging Face (@huggingface)

Community Evals와 Benchmark Datasets를 배포했다고 공지했습니다. 벤치마크 데이터셋이 리더보드를 호스팅하며, 모델 리포지토리에 PR을 제출해 평가 결과를 기여할 수 있고 모든 PR은 Benchmark Datasets에 반영됩니다. 또한 'Chat with datasets' 기능으로 데이터 내에서 에이전트가 동작하는 기능이 제공됩니다.

https://x.com/huggingface/status/2019754567685050384

#communityevals #benchmarkdatasets #chatwithdatasets #agents #evaluation

merve (@mervenoyann)

Community Evals를 공개해 평가 투명성을 개선했습니다. Benchmark Datasets가 리더보드를 호스팅하며, 모델 리포지토리에 PR을 열어 평가 결과를 추가하면 해당 결과가 리더보드에 반영됩니다. GPQA, HLE, MMLU-Pro 데이터셋이 라이브 상태이며 Kimi 2.5 등 최신(soTA) 모델들과의 성능 비교를 확인할 수 있습니다.

https://x.com/mervenoyann/status/2019784907178811644

#communityevals #benchmarkdatasets #evaluation #leaderboards #datasets

Zixuan Li (@ZixuanLi_)

GLM-OCR의 예상 밖 랭킹 소식에 대한 언급입니다. 작성자는 사용해본 사람들에게 칭찬이나 비평 형태로 피드백을 요청하며 모델을 지속 개선하겠다고 밝혔습니다. (모델 성능·평가 관련 공지)

https://x.com/ZixuanLi_/status/2019647022610174322

#glmocr #ocr #model #evaluation

Hugging Face (@huggingface)

커뮤니티 기반 분산 평가를 지원하기 위해 Community Evals와 Benchmark 저장소를 배포했습니다. 사용자가 보고한 점수는 리더보드에 반영되고, 벤치마크 데이터셋은 실시간 리더보드를 호스팅합니다. 또한 PR로 점수를 추가하면 모델 저장소에서 해당 결과가 유지되어 탈중앙화된 평가와 투명한 비교를 가능하게 합니다.

https://x.com/huggingface/status/2019433129241403473

#communityevals #benchmarks #evaluation #leaderboards

Vous souhaitez suivre et évaluer votre action ? Vous avez des notions sur
l’#Évaluation [https://mastodon.social/tags/%C3%89valuation] mais avez besoin
d’un coup de pouce avant de vous lancer ? Notre nouvelle #Formation
[https://mastodon.social/tags/Formation] d'une journée est faite pour vous !

Cette formation sera particulièrement adaptée aux acteurs et actrices du
#SecteurAssociatif [https://mastodon.social/tags/SecteurAssociatif], des
#Solidarités [https://mastodon.social/tags/Solidarit%C3…

Texte "formation d'introduction aux enjeux évaluation" sur design bleu clair, avec une illustration montrant des adultes assis-e-s face à un tableau

Suite du séminaire #TNE avec des ateliers pratiques animés par les équipes @reseau_canope et @dranepaca qui interrogent les usages pédagogiques:
💠 #ANSU, un agent conversationnel éthique et serein
💠#vittascience et #comparia, vers une pédagogie augmentée
💠#evaluation, plus de feedbacks pédagogiques personnalisés
💠 #espritcritique, apprendre à prompter

Une après-midi riche pour transformer l’IA en un levier d’innovation au service de l’éducation !

Am 10. Februar sprechen wir in einem gemeinsamen Lunchtalk über die #Evaluation von #Wisskomm.

Wir sind mit unserem Team der Impact Unit dabei und freuen uns auf die Kolleg*innen von: WissKomm Evaluiert der ZEIT Verlagsgruppe, @idw_online, MSCL, @nawik – und auf alle Interessierten!

Jetzt anmelden und mitdiskutieren:
https://doo.net/veranstaltung/208595/buchung

Priorisiere ich richtig? Online-Lunchtalk zur Evaluation von Wisskomm. 10. Februar 2026 von 11:30 bis 12.30 Uhr. Jetzt anmelden! Die Zeit Verlagsgruppe, Impact Unit, Munich Science Communication Lab, NaWiK, idw

CHOI (@arrakis_ai)

짧은 언급으로 SWE-bench에서 'Verified 93.7%'라는 결과가 제기되었습니다. 벤치마크 성능 관련 놀라운 점수를 지적하는 트윗으로, SWE-bench 관련 최신 평가 결과로 해석됩니다.

https://x.com/arrakis_ai/status/2018688221400482081

#swebench #benchmark #evaluation

#DigitalIndependence #diday for #SocialScience #researchers:

#Rstats #Jamovi #Python <-- #SPSS #Stata

#LibreOffice #LaTeX #Typst editors #Gnumeric <-- #MicrosoftOffice

#CollaboraOnline <-- #GoogleDocs #GoogleWorkspace #Microsoft365

#Zotero <-- #Endnote #Mendeley #Citavi

#ODK #KoboToolbox #LimeSurvey <-- #Qualtrics #SurveyMonkey etc.

#requal #Taguette <-- #MaxQDA #AtlasTI #NVivo

#PoliticalScience #Economics #Statistics #Econometrics #QualitativeResearch #Evaluation #QuantitativeResearch

🎉 New publication!
Our team member Karolina Ryker explores professional vs. consumer online music reviews in a new paper in *ELAD-SILDA*. The study reveals that critics explain art while consumers emphasize evaluation.
#linguistics #evaluation

🔗 https://digespedi.us.edu.pl/index.php/2025/12/30/new-article-on-professional-vs-consumer-online-music-reviews/

Last Call für „Wissen, was wirkt!“! Ihr könnt euch noch bis morgen, den 30. Januar 2026, für das Multiplikator*innen-Programm der Impact Unit bewerben. Jetzt noch schnell bewerben und Evaluationsberater*innen für #Wisskomm in der eigenen Institution werden:
https://eveeno.com/wissenwaswirkt2026

@LeibnizHKI @bmftr_bund

#Evaluation #kostenlos #Fortbildung #Weiterbildung

Impact Unit Wissen, was wirkt! Das Multiplikator*innen Programm der Impact Unit. „Durch das Multiplikatorinnen-Programm habe ich nicht nur Methodenkenntnisse gewonnen, sondern auch das Vertrauen, Evaluationsprozesse aktiv mitzugestalten und Kolleginnen dazu zu beraten. Es ist eine echte Bereicherung für alle, die Wirkung nicht dem Zufall überlassen wollen.“ Juliane Seeber
Exzellenzcluster Balance of the Microverse · Science Communications Officer (Leibniz-Institut für Naturstoff-Forschung und Infektionsbiologie, Hans-Knöll-Institut)

Ressources documentaires sur l'intelligences artificielle
🔸 Mise à jour (section Articles) :
Sondage exclusif : un étudiant sur trois transgresse les règles à l’aide de l’IA (Radio-Canada)
https://cltr.blogspot.com/2025/10/ressources-documentaires-sur.html
#IA #intelligence #artificielle #éducation #secondaire #cégep #collège #université #évaluation #sondage #média #RadioCanada #ressources #documentation #Internet #tech #robots #agents #ChatGPT #politique #société #Québec

Artificial Analysis (@ArtificialAnlys)

개별 벤치마크 결과가 공개되었으며, 모든 벤치마크는 모델 간 동등한 조건(like‑for‑like)으로 독립적으로 실행되었다고 명시했습니다. 이는 K2 Think V2 등 모델들의 성능 비교에 사용된 공정성 보장 절차를 알리는 안내입니다.

https://x.com/ArtificialAnlys/status/2016156944378298574

#benchmark #evaluation #models #artificialanalysis

Chartre sur l’éthique dans l’édition savante
Université Laval
https://reseaucirce.org/wp-content/uploads/2026/01/Charte_ethique_edition-savante_BDA_Ulaval_2025.pdf
#ULaval #université #édition #savante #revue #livre #publications #éthique #IA #plagiat #transparence #crédibilité #données #pairs #évaluation

Noch bis zum 30. Januar für „Wissen, was wirkt!“ bewerben! Das Multiplikator*innen-Programm der Impact Unit bildet Evaluationsberater*innen für Wissenschaftskommunikation aus und befähigt sie, Beratungs- und Unterstützungsangebote für die eigene Institution zu entwickeln. Das Angebot ist kostenlos.

Jetzt informieren und noch bis zum 30. Januar 2026 bewerben:
https://eveeno.com/wissenwaswirkt2026

#Wisskomm #Evaluation

Impact Unit. Wissen, was wirkt! Das Multiplikator*innen-Programm der Impact Unit. Claire Stark, Referentin Presse- und Öffentlichkeitsarbeit Energiesysteme der Zukunft (ESYS). „Meine wichtigste Erkenntnis: Beim Planen schon eine Evaluierung mitzudenken, hilft nicht nur später bei der Bewertung der erzielten Ergebnisse – sondern auch im Vorhinein beim Schärfen der Kommunikationsziele und der eingesetzten Maßnahmen.“

🧑‍🏫 #Évaluation | #Collège

🔷 « La bibliothèque d'outils de positionnement, un ensemble de ressources au service des enseignants » : sur #Éduscol, plusieurs outils d'aide aux équipes pour évaluer, partager et soutenir le progrès de tous les élèves

👉 https://eduscol.education.fr/4157/la-bibliotheque-d-outils-de-positionnement-un-ensemble-de-ressources-au-service-des-enseignants

Descriptif de l’outil de positionnement sur les classes grammaticales en 5e.

Ihr könnt euch noch bis zum 30. Januar für „Wissen, was wirkt!“ bewerben! Das Multiplikator*innen-Programm der Impact Unit bildet Evaluationsberater*innen für #Wisskomm aus.

Noch Fragen? Dann kommt morgen zu unserer Infoveranstaltung:
https://eveeno.com/infoveranstaltung_wissenwaswirkt2026

Vincent Schmid-Loertzer organisiert das Angebot mit. Im Video erzählt Vincent, wie die letzte Fortbildung ablief und wie das Programm Communities of Practice fördert:
https://www.youtube.com/shorts/-njhOzLawmM

#Wisskomm #Forschung #Wissenschaft #Evaluation

Eine Evalution der Uni Münster kommt zu dem Schluss, dass der Unterricht positiv wirkt und fordert eine Ausweitung.#WDR #Politik #Landespolitik #NRW #IslamischerReligionsunterricht #IRU #UniMünster #Evaluation #Feller #Kochide #Schulausschuss #Landtag #squeet.me/search?tag=
Bericht fordert flächendeckenden islamischen Religionsunterricht in NRW

#evaluation

Client Info