LLM学習データに潜む見えないリスク ― The Stackを巡る課題と自動キュレーション手法(Cracks in The Stack: Hidden Vulnerabilities and Licensing Risks in LLM Pre-Training Datasets)
会話で学ぶAI論文ケントくん博士ー!最近AIがプログラムも書けるって聞いたけど、あれってどうやって学んでるの?マカセロ博士いい質問じゃな、ケントくん。AIがコードを書けるのは、世界中のプログラムを学習しているからなんじゃ。しかしその学習データには、実は“見えないリスク”が潜んでおるのじゃ。ケントくん