Jag utformar ett skrapsystem som skrapar stora datamängder från webbplatser. Systemet förväntas samla in data från webbplatser och lagra det i databasen.
Jag lagrar strukturerad data som analyseras från HTML-taggar.
Till exempel: Om det är att skrapa en hotelllista, data skulle innehålla hotell-id, hotellnamn, plats, pris, recensioner, betyg, URL, etc.
Denna databas förväntas ha över 20-50 miljoner poster. Datauppsättningen kan innehålla information på olika språk. Uppgifterna kommer att fyllas i regelbundet (mer eller mindre en miljon varje vecka).
Databasen måste optimeras för filtrering och sökning. Det borde också kunna hantera de andra språktecknen (till exempel kinesiska). Jag behöver snabbt körning och hämtning av data tillsammans med karaktärsstöd.
Jag funderade på att använda MySQL, men jag vet inte om det finns några bättre alternativ. Om MySQL är det bästa alternativet, vilken lagringsmotor, sortering och teckenuppsättning ska användas?
Redigerad
Jag har en DB-plan för att lagra data för varje vecka lagra i separata tabeller, som senare kan kombineras (om det behövs) enligt kraven.
Ger kinesiska tecken några problem när du GÅR med i frågorna?
Lagrar den data i flera tabeller skapar alla prestandaproblem under hämtning. (Jag planerade flera tabeller eftersom en indexerad stor tabell kunde göra insättningen av data långsammare)